GSI024 - Organiza˘c~ao e Recupera˘c~ao da Informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · Est...

Preview:

Citation preview

UFU/FACOM/BSI 7-Avaliacao

GSI024 - Organizacao e Recuperacao daInformacao

Ilmerio Reis da Silva

ilmerio@facom.ufu.br

UFU/FACOM/BSI

Arquivo 7 - Avaliacao

GSI024-ORI Pg:7. 1

UFU/FACOM/BSI 7-Avaliacao

7-Avaliacao

• Sumario de resultadosTornando os resultado uteis ao usuario

• Como avaliar os resultados

– Benchmarks– Precisao e revocacao (abrangencia)

GSI024-ORI Pg:7. 2

UFU/FACOM/BSI 7-Avaliacao

Sumario de Resultados

• Como apresentar o ranking

• lista (tıtulo, resumo)*

• tıtulo extraıdo do documento

• e o resumo?

GSI024-ORI Pg:7. 3

UFU/FACOM/BSI 7-Avaliacao

Construindo ResumosEstatico e Dinamicao

• Estatico: independente da consulta.neste caso o objetivo e expressar o conteudo documento

• Dinamico: dependente da consultaneste caso o objetivo e explicar porque o documento foi recuperado

GSI024-ORI Pg:7. 4

UFU/FACOM/BSI 7-Avaliacao

Resumos Estaticos

• subconjunto de termos do documento

• resumo simples: 50 primeiras palavras do documento, extraıdas na indexacao

• sofisticada: extrair um conjunto de sentencas chave

– use heurısticas de processamento de linguagem natural (NLP)– extrair as sentencas de topo em um ranking

• mais sofisticada: resumo sintetico baseado em NLP (uma area de pesquisa emRI)

GSI024-ORI Pg:7. 5

UFU/FACOM/BSI 7-Avaliacao

Resumos dinamicos

• apresentam uma ou mais janelas do documento, contendo termos da consulta(KWIC : keyword-in-context)

• baseada em score: primeiro frases, depois palavras

• Construcao:

– com ındice posicional e difıcil– varredura do documento apos identificar posicoes no ındice– Exemplo:

ındice localiza frase na posicao 4378acessa documento original (armazenado no tempo de indexacao)mas em geral, somente um prefixo do documento e armazenado.

GSI024-ORI Pg:7. 6

UFU/FACOM/BSI 7-Avaliacao

Resumos

• construir resumos dinamicos e um problema de otimizacao

• geralmente sao pequenos e fixos

• destaca-se KWIC nos resumos fixos ou em tıtulos

• usuarios preferem trechos contendo frases da consulta

• e uma complicacao no sistema, mas suficientemente util.

GSI024-ORI Pg:7. 7

UFU/FACOM/BSI 7-Avaliacao

Avaliacao de maquinas de busca

• Criterios mensuraveis

– velocidade de indexacao (documentos/hora)– velocidade de busca (latencia de apresentacao do resultado)– expressividade da linguagem de consulta (capacidade de expressao)

• Principal problema: satisfacao do usuario

• velocidade e um fator

• mas rapidez em trazer informacoes inuteis nao satisfaz.

GSI024-ORI Pg:7. 8

UFU/FACOM/BSI 7-Avaliacao

Satisfacao do usuario

• Maquina de busca: avalia o retorno do usuario ao sistema

• eCommerce: fracao de usuario que realizam compras

• Empresas: produtividade do usuarioQuanto tempo e gasto em busca de informacoes?

• Outros criterios: capacidade de acessos, seguranca, etc.

GSI024-ORI Pg:7. 9

UFU/FACOM/BSI 7-Avaliacao

Satisfacao do usuario

• difıcil de medir

• criterio comum: relevancia do resultado

• Como medir:

– uma colecao de documentos– um conjunto de consultas– um conjunto de documentos relevantes por consulta (conjunto ideal)– eventualmente, ha um criterio nao binario de relevancia

GSI024-ORI Pg:7. 10

UFU/FACOM/BSI 7-Avaliacao

Avaliacao de Sistemas de Recuperacao de Informacao......

• transformacao de necessidade de informacao em consulta

• Exemplo:

– Necessidade de informacao: I’m looking for information on whether drinkingred wine is more effective at reducing your risk of heart attacks than whitewine;

– Consulta: wine red white heart attack effective

• ter as palavras nao e o mesmo que atender a necessidade de informacao dousuario

• ha uma perda de informacao.

GSI024-ORI Pg:7. 11

UFU/FACOM/BSI 7-Avaliacao

Benchmarks

• TREC - Text RetriEval Conference (NIST)

• REUTERS

• Relevancia manual (pooling na TREC)

• Varias tarefas: ad-hoc, filtering, web, etc.

GSI024-ORI Pg:7. 12

UFU/FACOM/BSI 7-Avaliacao

Avaliacao de Conjuntos Recuperados

• Precisao: fracao dos documentos recuperados que e relevanteP (relevantes recuperados | recuperados)

• Revocacao: fracao dos documentos relevantes que foi recuperadaP (relevantes recuperado | relevantes)

relevante nao relevanteRecuperado tp fpNao recuperado fn tn

P =tp

tp+ fpR =

tp

tp+ fn

GSI024-ORI Pg:7. 13

UFU/FACOM/BSI 7-Avaliacao

Acuracia

• Fracao de classificacoes corretas

tp+ tn

tp+ fp+ tn+ fn

• Nao e um medida muito usada em RI. Por que?

• Para obter alta acuracia ha sacrifıcio de revocacao

• Em geral o usuario de RI tolera falsos positivos.

GSI024-ORI Pg:7. 14

UFU/FACOM/BSI 7-Avaliacao

Precisao e Revocacao

• Recuperando todos os documentos obtemos 100% revocacao, sacrificando aprecisao

• Revocacao nao decresce com numero de documentos recuperados

• Precisao em geral decresce com numero de documentos recuperados ou comaumento da revocacao

GSI024-ORI Pg:7. 15

UFU/FACOM/BSI 7-Avaliacao

Dificuldades com Precisao e Revocacao

• Calculo de media em varias consultas de grandes colecoes

• Atribuicao de relevancia binaria

• Resultados dependem de colecoes e autoria, dificultando uso em outros domınios

GSI024-ORI Pg:7. 16

UFU/FACOM/BSI 7-Avaliacao

Combinando P e R - Medida-F

• A Medida-F e uma media harmonica entre P e R, um tradeoff das duas medidas1

• Versoes ponderadas da medida-F Fα e Fβ:

• Em geral usa-se: β = 1 ou α = 0.5, o que equilibra as duas medidas, chamadaF1:

F1 =1

12

(1P + 1

R

) =2PRP +R

1a medida hamonica e dada por 1H = 1

n

∑ni=1

1xi

GSI024-ORI Pg:7. 17

UFU/FACOM/BSI 7-Avaliacao

Media Harmonica e outras combinacoes

GSI024-ORI Pg:7. 18

UFU/FACOM/BSI 7-Avaliacao

Avaliacao de rankings

• retorna-se qualquer numero de resultados

• varrendo o ranking a partir do topo

• temos varios nıveis de revocacao

• podemos tracar uma curva de precisao-revocacao

GSI024-ORI Pg:7. 19

UFU/FACOM/BSI 7-Avaliacao

Curva de precisao-revocacao

GSI024-ORI Pg:7. 20

UFU/FACOM/BSI 7-Avaliacao

Curva media

• a curva sobre uma consulta nao permite conclusoes

• devemos obter uma curva sobre varias consultas

• mas tem um problema tecnico

• pontos de calculo sao diferentes

• solucao: interpolacao

GSI024-ORI Pg:7. 21

UFU/FACOM/BSI 7-Avaliacao

Interpolacao

• A precisao interpolada no ponto de recall R e a maior precisao encontrada emqualquer ponto de recall maior ou igual a R

Pinterpolada(R) = maxr′≥RP (r′)

GSI024-ORI Pg:7. 22

UFU/FACOM/BSI 7-Avaliacao

Avaliacao

• medias

• precisao em pontos fixos, na web no topo do ranking

• media nos 11-pt e padrao na TREC11 pontos de revocacao com precisoes interpolados para cada consultamedia nos 11-pt para varias consultas

GSI024-ORI Pg:7. 23

UFU/FACOM/BSI 7-Avaliacao

Exemplo de bons resultados na TREC

GSI024-ORI Pg:7. 24

UFU/FACOM/BSI 7-Avaliacao

Outras medidas

• Precisao media (MAP - mean average precision)

– varra os k documentos de topo e calcule a media de precisao em todos ospontos onde ha documento relevante

– evite interpolacao calculando precisao para pontos fixos de revocacao– media aritmetica entre consultas da colecao

• R-precisionsendo Rel o numero idel de relavantes, calcule a precisao na posica Rel doranking

GSI024-ORI Pg:7. 25

UFU/FACOM/BSI 7-Avaliacao

Variancia

• um sistema podem apresentar boa MAP para algumas consultas e pessima paraoutras

• a variancia pode expressar esta anomalia

• comparacao de variancia e entao uma medida importante.

GSI024-ORI Pg:7. 26

UFU/FACOM/BSI 7-Avaliacao

Colecoes de Documentos

GSI024-ORI Pg:7. 27

UFU/FACOM/BSI 7-Avaliacao

Colecoes de Referencia

• necessitam de consultas de teste e conjuntos de relevantes

• consultas de teste devem ser adequadas aos documentos disponıveis

• conjunto de relevantes exige julgamento humano, consumindo tempo

GSI024-ORI Pg:7. 28

UFU/FACOM/BSI 7-Avaliacao

Resolvendo diferencas em julgamentos de relevancia

• kappa: um ındice de acordo ou desacordo entre julgamentos

kappa =P (A)− P (E)

1− P (E)

• P (A): proporcao de acordos em julgamentos

• P (E): ındice esperado de acordos

• kappa = 0 para acordo previsto

• kappa = 1 para acordo total

GSI024-ORI Pg:7. 29

UFU/FACOM/BSI 7-Avaliacao

kappa: Exemplo (julgamentos)

GSI024-ORI Pg:7. 30

UFU/FACOM/BSI 7-Avaliacao

kappa: Exemplo (calculo)

GSI024-ORI Pg:7. 31

UFU/FACOM/BSI 7-Avaliacao

TREC: Text REtrieval Conference - DOCUMENTOS

<doc><docno> WSJ880406-0090 </docno><hl> AT&T Unveils Services to Upgrade Phone Networks Under Global

Plan </hl><author> Janet Guyon (WSJ Staff) </author><dateline> New York </dateline><text>American Telephone & Telegraph Co. introduced the first of a newgeneration of phone services with broad....</text>

GSI024-ORI Pg:7. 32

UFU/FACOM/BSI 7-Avaliacao

TREC: Text REtrieval Conference - CONSULTAS (TOPICOS)

<top><num> Number: 160<title> Topic: Vitamins - The Cure for or Cause of Human Ailments<desc> Description: Document will identify vitamins that havecontributed to the cure for human diseases or ailments or documentswill identify vitamins that have caused health problems in humans.<narr> Narrative: A relevant document will provide informationindicating that vitamins may help to prevent or cure human ailments.Information indicating that vitamins may cause health problems inhumans is also relevant. A document that makes a general referenceto vitamins such as ‘‘good for your health? or ‘‘having nutritionalvalue’’ is not relevant. Information about research being conductedwithout results would not be relevant. References to derivatives ofvitamins are to be treated as the vitamin.</top>

GSI024-ORI Pg:7. 33

UFU/FACOM/BSI 7-Avaliacao

TREC3: diferencas em julgamentos

GSI024-ORI Pg:7. 34

UFU/FACOM/BSI 7-Avaliacao

Crıticas a julgamentos de relevancia

• um documento relevante pode ser redundante

• documentos duplicados

• mesma informacao de diferentes fontes

• relevancia marginal e uma medida melhor da utilidade para o usuario

• fator/entidade como unidades de relevancia seria melhor, mas e difıcil de estab-elecer.

GSI024-ORI Pg:7. 35

UFU/FACOM/BSI 7-Avaliacao

Podemos evitar julgamento humano

• nao

• embora dificulte experimentos, principalmente em larga escala

• exemplo de tentativa: approximate vector space retrieval, baseada na com-paracao entre um cluster de documentos assumidos relevantes e os documentosretornados.

• pooling na TREC

• reutilizacao das colecoes

GSI024-ORI Pg:7. 36

UFU/FACOM/BSI 7-Avaliacao

Referencias

IIR 8

MIR 3

MG 4.5

Carbonell and Goldstein 1998. The use of MMR, diversity-based reranking forreordering documents and producing summaries. SIGIR 21.

GSI024-ORI Pg:7. 37

Recommended