Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf ·...

Preview:

Citation preview

RECUPERACIÓN DE INFORMACIÓN

Arturo Olvera L.

Otoño 2017

Benemérita Universidad Autónoma de Puebla

Facultad de Ciencias de la Computación

By A. Olvera

ALTERNATIVE PROBABILISTIC MODEL

� BM25 (Best Match 25), toma en cuenta:� IDF, TF, Normalización de documentos

� BM1=

� Se considera un factor de frecuencia de término

100

By A. Olvera

� En particular, se considera la normalización de documentos:

101

By A. Olvera

BM11, BM15

� Con:

Factor de corrección

102

By A. Olvera

BM25

103

By A. Olvera

RETRIEVAL EVALUATION

104

By A. Olvera

EVALUATION

� Desempeño

� Qué tan bien se ha realizado la recuperación??

� Necesidad del usuario…..

� Parte crítica/Fundamental en los sistemas de RI

� Permiten llevar a cabo comparaciones 105

Existen métricas al

respecto

By A. Olvera

RETRIEVAL EVALUATION

� Utilidad:

� Desempeño de nuevas funciones ranking� Tipos de consulta � Efectividad el sistema R.I.� Análisis de las consultas� Relevancia de corpus

� Otras????

106

By A. Olvera

RETRIEVAL EVALUATION

� Se remonta a 1952 (Cyril Cleverdon):� Indexado manual de 200 documentos� Relevancia

respecto a una consulta

� Pionero de :� Recall� Precision

� Colecciones referencia para prueba� Cranfield-2 collection

� Consultas específicas� se sabe cuáles son los docs. Relevantes

107

By A. Olvera

PRECISION AND RECALL

108

By A. Olvera

PRECISION AND RECALL

109

By A. Olvera

PRECISION AND RECALL

110

By A. Olvera

CURVE

111

By A. Olvera

CURVE

� Del ejemplo anterior:� El doc. d123 respecta a 10% de documentos relevantes� Se tiene precision de 100% con 10% de Recall

� El doc. d123 respecta al tercero analizado y es el siguiente relevante

� Se tienen dos documentos relevantes de tres� Se tiene precision de 66.6% y recuerdo de 20%

� El análisis se lleva a cabo de manera sucesiva…..112

By A. Olvera

CURVE

� Gráfica de 11 puntos (0,10,…,100)

� En este caso Precisiones respecto a Recall>50 tienen valor 0 ya que no se recuperan todos los documentos

� Debido a esto, se debe interpolar 113

By A. Olvera

INTERPOLATED CURVE

114

By A. Olvera

INTERPOLATED CURVE

115

By A. Olvera

INTERPOLATED CURVE

116

By A. Olvera

INTERPOLATED CURVE

� Suele graficarse varias consultas mediante el promedio:

117

By A. Olvera

CURVES FOR COMPARING DISTINCT IR ALGORITHMS

118

By A. Olvera

RECALL –PRECISION

� Ampliamente utilizadas en RI� Estimación máxima del recuerdo requiere del

conocimiento detallado del corpus� La estimación de estas métricas� consultas

establecidas a manera de grupos� Dependientes al orden???

119

Puntos a considerar:

By A. Olvera

P@5 AND P@10

� En la búsqueda WEB, no se requiere un alto recuerdo

� Usuario:� Top-Ranking � mejor impresión ante sus ojos

� En estos casos:

� Se cuantifica si el usuario encuentra relevantes o no los top N documentos 120

By A. Olvera

P@5 AND P@10

� En general:

121P@N

By A. Olvera

MAP: MEAN AVERAGE PRECISION

� Promedia las precisiones obtenidas después de que un nuevo documento relevante es observado� En casos de docs. No recuperados-> Precision=0

122

By A. Olvera

R-PRECISION

� Útil para analizar el desempeño en consultas de manera individual

� De manera general:

� R-Precision Average para varias consultas

� Pregunta:

� Qué valor del top-X puedeser conveniente???

123

By A. Olvera

PRECISION HISTOGRAMS

� Manera Gráfica de percibir el desempeño

124

By A. Olvera

PRECISION HISTOGRAMS

125

By A. Olvera

MRR: MEAN RECIPROCAL RANK

� Ütil en problemas de QA (Question-Answering)

� Ranking� Posición de la primer respuesta correcta

� También:

� Consultas de URL� Consultas de Webpages

126

By A. Olvera

MRR: MEAN RECIPROCAL RANK

127

By A. Olvera

THE E-MEASURE

� Considera Precisión y recuerdo simultáneamente

� Se especifica la relevancia de Precisión o Recuerdo

128

??

By A. Olvera

THE E-MEASURE

� Valores pequeños de b � Precision , b~0

� Valores grandes de b � Recuerdo b� ∞

� Con b=1 �

129

F-Measure

By A. Olvera

F-MEASURE: HARMONIC MEAN

� F∈∈∈∈ [0,1]

� F=0??

� F=1??

� Valores grandes de F ???

130

By A. Olvera

USER-ORIENTED MEASURES

131

By A. Olvera

USER-ORIENTED MEASURES

132

By A. Olvera

USER-ORIENTED MEASURES

� Coverage Ratio

� Novelty Ratio

133

By A. Olvera

DISCOUNTED CUMULATED GAIN (DCG)

� En métricas anteriores, no es posible determinar:� Documentos: Altamente, medianamente relevantes

� Es necesario considerar criterios (valores) de relevancia

� En particular � DCG

� En general, al examinar resultados de una consulta, podemos notar:� Es preferible tener en primeras posiciones a los docs.

Altamente relevantes� Documentos que aparecen al final del ranking, son

menos interesantes (para el usuario)134

By A. Olvera

CG (CUMULATED GAIN)

� Supongamos:

� Una escala 0...3 donde 0=No relevante, 3=muy relevante

� Para dos consultas, los siguientes resultados:

� Suele considerarse el vector G=<, , , , > (Gain Vector) con cada una de estos valores de escala

� En particular, se utiliza la ganancia acumulada en este vector 135

By A. Olvera

CG (EJEMPLO)� Consideremos top 15 docs para los vectores:

� La suma acumulada para estos vectores es:

136

Vectores CG Suavizados

By A. Olvera

DCG

� Para calcular DCG, suele utilizarse escala logarítmica

137

By A. Olvera

138

By A. Olvera

RANK CORRELATION METRICS

139

By A. Olvera

RANK CORRELATION METRICS

140

By A. Olvera

SPEARMAN COEFFICIENT

� Se basa en las diferencias entre posiciones de un mismo documento en R1 y R2 (Rankings)

141

By A. Olvera

SPEARMAN COEFFICIENT

142

By A. Olvera

GRÁFICA DE RANKING

� Al graficar las posiciones ranking:

� Hay correlación???143

By A. Olvera

SPEARMAN COEFFICIENT

144

By A. Olvera

SPEARMAN COEFFICIENT

145

By A. Olvera

DOCUMENTOS

146

By A. Olvera

DOCUMENTO

� Denota una unidad de información

� Posee sintaxis y estructura

� Tiene una semántica� por el autor

� Puede contener un estilo de presentación:� Dadas su sintaxis y estructura� Referente a alguna aplicación

147

By A. Olvera

SINTAXIS DEL DOCUMENTO

� Expresa la estructura, estilo de presentación, semántica

� Uno o varios elementos pueden presentarse en conjunto

� La sintaxis del documento:� Puede expresarse en un lenguaje declarativo, lenguaje

de programación

148

By A. Olvera

DOCUMENTOS/TEXTO

� El texto puede expresarse en lenguaje natural

149

Complicado para

computadoras

Reto:Lenguaje en documentos que proporcione información de la

estructura, semántica, etc. ���� Entendible por humanos y computadoras¡¡

By A. Olvera

ESTILO DEL DOCUMENTO� Respecta a cómo se visualiza/imprime

� El estilo se puede indicar mientras se edita

� Puede contenerse en el documento: Tex, RTF

� Complementado por macros: LaTex

150

By A. Olvera

TEXTO

� Querie Engines:

� Pequeños fragmentos de texto� No es texto normal� Comprensión � Semántica

151

Importante para RI???

By A. Olvera

152

By A. Olvera

METADATA

153

By A. Olvera

METADATA

� Es información acerca de la información de los datos, dominios y su relación

� Datos� provenientes de datos

� Los meta-datos se asocian con (casi) todos los documentos en una colección

� Tipos:

� Descriptive Metadata

� Semantic Metadata

154

By A. Olvera

DESCRIPTIVE METADATA

� Propiamente:� Autor del texto� Fecha de publicación� Fuente de la publicación� Tamaño del documento

Formato estándar: MARC (Machine Readable CatalogingRecord)

� …Son datos externos al significado del documento y respecta a datos de la creación de éste… [Marchionini]

155

By A. Olvera

SEMANTIC METADATA

� Caracteriza el tema/tópico referente al contenido del documento

� Está asociada a una gran cantidad de documentos

156

By A. Olvera

METADATA IN WEB DOCUMENTS

� Existe en web debido a propósitos:

� Ranking� contenidos� Derechos de propiedad intelectual� Firmas digitales� Comercio electrónico

� Formato fundamental:

� RDF (Resource Description Framework)

157WEB Semántica

By A. Olvera

DOCUMENT FORMATS

158

By A. Olvera

FORMATOS

� Los sistemas R.I. debes poder recuperar información a partir de diversos formatos de texto

� Algunos formatos:

� Non structured document formats

� Plain Text

� ASCII

� ISO Latin

� UTFs (Unicode Transformation Format), UTF8,16,32

159

By A. Olvera

CONTENT-ORIENTED FORMATS

160

� -

� DOC, DOCX, RTF, ODF, ODT,

By A. Olvera

PAGE DESCRIPTION-BASED FORMATS

161

o Post Script

o PDF

By A. Olvera

INTERCHANGE FORMATS TO ENCODE

ELECTRONIC MAIL

� Multipurpose Internet Mail Exchange (MIME)

� Compress, ARJ (Archived by Robert Jung) for compressing text

162

By A. Olvera

MULTIMEDIA

� Imágenes

� BMP� JPG (Joint Photographic Expertise Group)� GIF (Graphics Interchange Format) � PNG (Portable Network Graphics)

163

By A. Olvera

MULTIMEDIA

� Video

� MPEG (Moving Picture Experts Group)�Codec

� MPEG-4-14 � MP4

� AVI (Audio Video Interlave)� Container

� 3GP � Container

� MTK � Container

164

By A. Olvera

MULTIMEDIA

� Audio

� MIDI (Musical Instrument Digital Interface)

� WAV, AIFF � Sin compresión

� MP3

165

By A. Olvera

TAG-BASED FORMATS

166

� HTML (HyperText Markup Language)

� XML (eXtensible Markup Language)

Recommended