37
UFU/FACOM/BSI 7-Avalia¸c˜ ao GSI024 - Organiza¸ ao e Recupera¸ ao da Informa¸c˜ ao Ilm´ erio Reis da Silva [email protected] UFU/FACOM/BSI Arquivo 7 - Avalia¸ ao GSI024-ORI Pg:7. 1

GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

GSI024 - Organizacao e Recuperacao daInformacao

Ilmerio Reis da Silva

[email protected]

UFU/FACOM/BSI

Arquivo 7 - Avaliacao

GSI024-ORI Pg:7. 1

Page 2: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

7-Avaliacao

• Sumario de resultadosTornando os resultado uteis ao usuario

• Como avaliar os resultados

– Benchmarks– Precisao e revocacao (abrangencia)

GSI024-ORI Pg:7. 2

Page 3: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Sumario de Resultados

• Como apresentar o ranking

• lista (tıtulo, resumo)*

• tıtulo extraıdo do documento

• e o resumo?

GSI024-ORI Pg:7. 3

Page 4: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Construindo ResumosEstatico e Dinamicao

• Estatico: independente da consulta.neste caso o objetivo e expressar o conteudo documento

• Dinamico: dependente da consultaneste caso o objetivo e explicar porque o documento foi recuperado

GSI024-ORI Pg:7. 4

Page 5: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Resumos Estaticos

• subconjunto de termos do documento

• resumo simples: 50 primeiras palavras do documento, extraıdas na indexacao

• sofisticada: extrair um conjunto de sentencas chave

– use heurısticas de processamento de linguagem natural (NLP)– extrair as sentencas de topo em um ranking

• mais sofisticada: resumo sintetico baseado em NLP (uma area de pesquisa emRI)

GSI024-ORI Pg:7. 5

Page 6: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Resumos dinamicos

• apresentam uma ou mais janelas do documento, contendo termos da consulta(KWIC : keyword-in-context)

• baseada em score: primeiro frases, depois palavras

• Construcao:

– com ındice posicional e difıcil– varredura do documento apos identificar posicoes no ındice– Exemplo:

ındice localiza frase na posicao 4378acessa documento original (armazenado no tempo de indexacao)mas em geral, somente um prefixo do documento e armazenado.

GSI024-ORI Pg:7. 6

Page 7: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Resumos

• construir resumos dinamicos e um problema de otimizacao

• geralmente sao pequenos e fixos

• destaca-se KWIC nos resumos fixos ou em tıtulos

• usuarios preferem trechos contendo frases da consulta

• e uma complicacao no sistema, mas suficientemente util.

GSI024-ORI Pg:7. 7

Page 8: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Avaliacao de maquinas de busca

• Criterios mensuraveis

– velocidade de indexacao (documentos/hora)– velocidade de busca (latencia de apresentacao do resultado)– expressividade da linguagem de consulta (capacidade de expressao)

• Principal problema: satisfacao do usuario

• velocidade e um fator

• mas rapidez em trazer informacoes inuteis nao satisfaz.

GSI024-ORI Pg:7. 8

Page 9: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Satisfacao do usuario

• Maquina de busca: avalia o retorno do usuario ao sistema

• eCommerce: fracao de usuario que realizam compras

• Empresas: produtividade do usuarioQuanto tempo e gasto em busca de informacoes?

• Outros criterios: capacidade de acessos, seguranca, etc.

GSI024-ORI Pg:7. 9

Page 10: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Satisfacao do usuario

• difıcil de medir

• criterio comum: relevancia do resultado

• Como medir:

– uma colecao de documentos– um conjunto de consultas– um conjunto de documentos relevantes por consulta (conjunto ideal)– eventualmente, ha um criterio nao binario de relevancia

GSI024-ORI Pg:7. 10

Page 11: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Avaliacao de Sistemas de Recuperacao de Informacao......

• transformacao de necessidade de informacao em consulta

• Exemplo:

– Necessidade de informacao: I’m looking for information on whether drinkingred wine is more effective at reducing your risk of heart attacks than whitewine;

– Consulta: wine red white heart attack effective

• ter as palavras nao e o mesmo que atender a necessidade de informacao dousuario

• ha uma perda de informacao.

GSI024-ORI Pg:7. 11

Page 12: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Benchmarks

• TREC - Text RetriEval Conference (NIST)

• REUTERS

• Relevancia manual (pooling na TREC)

• Varias tarefas: ad-hoc, filtering, web, etc.

GSI024-ORI Pg:7. 12

Page 13: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Avaliacao de Conjuntos Recuperados

• Precisao: fracao dos documentos recuperados que e relevanteP (relevantes recuperados | recuperados)

• Revocacao: fracao dos documentos relevantes que foi recuperadaP (relevantes recuperado | relevantes)

relevante nao relevanteRecuperado tp fpNao recuperado fn tn

P =tp

tp+ fpR =

tp

tp+ fn

GSI024-ORI Pg:7. 13

Page 14: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Acuracia

• Fracao de classificacoes corretas

tp+ tn

tp+ fp+ tn+ fn

• Nao e um medida muito usada em RI. Por que?

• Para obter alta acuracia ha sacrifıcio de revocacao

• Em geral o usuario de RI tolera falsos positivos.

GSI024-ORI Pg:7. 14

Page 15: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Precisao e Revocacao

• Recuperando todos os documentos obtemos 100% revocacao, sacrificando aprecisao

• Revocacao nao decresce com numero de documentos recuperados

• Precisao em geral decresce com numero de documentos recuperados ou comaumento da revocacao

GSI024-ORI Pg:7. 15

Page 16: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Dificuldades com Precisao e Revocacao

• Calculo de media em varias consultas de grandes colecoes

• Atribuicao de relevancia binaria

• Resultados dependem de colecoes e autoria, dificultando uso em outros domınios

GSI024-ORI Pg:7. 16

Page 17: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Combinando P e R - Medida-F

• A Medida-F e uma media harmonica entre P e R, um tradeoff das duas medidas1

• Versoes ponderadas da medida-F Fα e Fβ:

• Em geral usa-se: β = 1 ou α = 0.5, o que equilibra as duas medidas, chamadaF1:

F1 =1

12

(1P + 1

R

) =2PRP +R

1a medida hamonica e dada por 1H = 1

n

∑ni=1

1xi

GSI024-ORI Pg:7. 17

Page 18: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Media Harmonica e outras combinacoes

GSI024-ORI Pg:7. 18

Page 19: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Avaliacao de rankings

• retorna-se qualquer numero de resultados

• varrendo o ranking a partir do topo

• temos varios nıveis de revocacao

• podemos tracar uma curva de precisao-revocacao

GSI024-ORI Pg:7. 19

Page 20: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Curva de precisao-revocacao

GSI024-ORI Pg:7. 20

Page 21: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Curva media

• a curva sobre uma consulta nao permite conclusoes

• devemos obter uma curva sobre varias consultas

• mas tem um problema tecnico

• pontos de calculo sao diferentes

• solucao: interpolacao

GSI024-ORI Pg:7. 21

Page 22: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Interpolacao

• A precisao interpolada no ponto de recall R e a maior precisao encontrada emqualquer ponto de recall maior ou igual a R

Pinterpolada(R) = maxr′≥RP (r′)

GSI024-ORI Pg:7. 22

Page 23: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Avaliacao

• medias

• precisao em pontos fixos, na web no topo do ranking

• media nos 11-pt e padrao na TREC11 pontos de revocacao com precisoes interpolados para cada consultamedia nos 11-pt para varias consultas

GSI024-ORI Pg:7. 23

Page 24: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Exemplo de bons resultados na TREC

GSI024-ORI Pg:7. 24

Page 25: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Outras medidas

• Precisao media (MAP - mean average precision)

– varra os k documentos de topo e calcule a media de precisao em todos ospontos onde ha documento relevante

– evite interpolacao calculando precisao para pontos fixos de revocacao– media aritmetica entre consultas da colecao

• R-precisionsendo Rel o numero idel de relavantes, calcule a precisao na posica Rel doranking

GSI024-ORI Pg:7. 25

Page 26: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Variancia

• um sistema podem apresentar boa MAP para algumas consultas e pessima paraoutras

• a variancia pode expressar esta anomalia

• comparacao de variancia e entao uma medida importante.

GSI024-ORI Pg:7. 26

Page 27: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Colecoes de Documentos

GSI024-ORI Pg:7. 27

Page 28: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Colecoes de Referencia

• necessitam de consultas de teste e conjuntos de relevantes

• consultas de teste devem ser adequadas aos documentos disponıveis

• conjunto de relevantes exige julgamento humano, consumindo tempo

GSI024-ORI Pg:7. 28

Page 29: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Resolvendo diferencas em julgamentos de relevancia

• kappa: um ındice de acordo ou desacordo entre julgamentos

kappa =P (A)− P (E)

1− P (E)

• P (A): proporcao de acordos em julgamentos

• P (E): ındice esperado de acordos

• kappa = 0 para acordo previsto

• kappa = 1 para acordo total

GSI024-ORI Pg:7. 29

Page 30: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

kappa: Exemplo (julgamentos)

GSI024-ORI Pg:7. 30

Page 31: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

kappa: Exemplo (calculo)

GSI024-ORI Pg:7. 31

Page 32: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

TREC: Text REtrieval Conference - DOCUMENTOS

<doc><docno> WSJ880406-0090 </docno><hl> AT&T Unveils Services to Upgrade Phone Networks Under Global

Plan </hl><author> Janet Guyon (WSJ Staff) </author><dateline> New York </dateline><text>American Telephone & Telegraph Co. introduced the first of a newgeneration of phone services with broad....</text>

GSI024-ORI Pg:7. 32

Page 33: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

TREC: Text REtrieval Conference - CONSULTAS (TOPICOS)

<top><num> Number: 160<title> Topic: Vitamins - The Cure for or Cause of Human Ailments<desc> Description: Document will identify vitamins that havecontributed to the cure for human diseases or ailments or documentswill identify vitamins that have caused health problems in humans.<narr> Narrative: A relevant document will provide informationindicating that vitamins may help to prevent or cure human ailments.Information indicating that vitamins may cause health problems inhumans is also relevant. A document that makes a general referenceto vitamins such as ‘‘good for your health? or ‘‘having nutritionalvalue’’ is not relevant. Information about research being conductedwithout results would not be relevant. References to derivatives ofvitamins are to be treated as the vitamin.</top>

GSI024-ORI Pg:7. 33

Page 34: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

TREC3: diferencas em julgamentos

GSI024-ORI Pg:7. 34

Page 35: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Crıticas a julgamentos de relevancia

• um documento relevante pode ser redundante

• documentos duplicados

• mesma informacao de diferentes fontes

• relevancia marginal e uma medida melhor da utilidade para o usuario

• fator/entidade como unidades de relevancia seria melhor, mas e difıcil de estab-elecer.

GSI024-ORI Pg:7. 35

Page 36: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Podemos evitar julgamento humano

• nao

• embora dificulte experimentos, principalmente em larga escala

• exemplo de tentativa: approximate vector space retrieval, baseada na com-paracao entre um cluster de documentos assumidos relevantes e os documentosretornados.

• pooling na TREC

• reutilizacao das colecoes

GSI024-ORI Pg:7. 36

Page 37: GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est atico e Din^amicao Est atico: independente da consulta. neste caso o objetivo e expressar

UFU/FACOM/BSI 7-Avaliacao

Referencias

IIR 8

MIR 3

MG 4.5

Carbonell and Goldstein 1998. The use of MMR, diversity-based reranking forreordering documents and producing summaries. SIGIR 21.

GSI024-ORI Pg:7. 37