68
RECUPERACIÓN DE INFORMACIÓN Arturo Olvera L. Otoño 2017 Benemérita Universidad Autónoma de Puebla Facultad de Ciencias de la Computación

Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

Embed Size (px)

Citation preview

Page 1: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

RECUPERACIÓN DE INFORMACIÓN

Arturo Olvera L.

Otoño 2017

Benemérita Universidad Autónoma de Puebla

Facultad de Ciencias de la Computación

Page 2: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

ALTERNATIVE PROBABILISTIC MODEL

� BM25 (Best Match 25), toma en cuenta:� IDF, TF, Normalización de documentos

� BM1=

� Se considera un factor de frecuencia de término

100

Page 3: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

� En particular, se considera la normalización de documentos:

101

Page 4: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

BM11, BM15

� Con:

Factor de corrección

102

Page 5: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

BM25

103

Page 6: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RETRIEVAL EVALUATION

104

Page 7: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

EVALUATION

� Desempeño

� Qué tan bien se ha realizado la recuperación??

� Necesidad del usuario…..

� Parte crítica/Fundamental en los sistemas de RI

� Permiten llevar a cabo comparaciones 105

Existen métricas al

respecto

Page 8: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RETRIEVAL EVALUATION

� Utilidad:

� Desempeño de nuevas funciones ranking� Tipos de consulta � Efectividad el sistema R.I.� Análisis de las consultas� Relevancia de corpus

� Otras????

106

Page 9: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RETRIEVAL EVALUATION

� Se remonta a 1952 (Cyril Cleverdon):� Indexado manual de 200 documentos� Relevancia

respecto a una consulta

� Pionero de :� Recall� Precision

� Colecciones referencia para prueba� Cranfield-2 collection

� Consultas específicas� se sabe cuáles son los docs. Relevantes

107

Page 10: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PRECISION AND RECALL

108

Page 11: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PRECISION AND RECALL

109

Page 12: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PRECISION AND RECALL

110

Page 13: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CURVE

111

Page 14: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CURVE

� Del ejemplo anterior:� El doc. d123 respecta a 10% de documentos relevantes� Se tiene precision de 100% con 10% de Recall

� El doc. d123 respecta al tercero analizado y es el siguiente relevante

� Se tienen dos documentos relevantes de tres� Se tiene precision de 66.6% y recuerdo de 20%

� El análisis se lleva a cabo de manera sucesiva…..112

Page 15: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CURVE

� Gráfica de 11 puntos (0,10,…,100)

� En este caso Precisiones respecto a Recall>50 tienen valor 0 ya que no se recuperan todos los documentos

� Debido a esto, se debe interpolar 113

Page 16: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

INTERPOLATED CURVE

114

Page 17: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

INTERPOLATED CURVE

115

Page 18: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

INTERPOLATED CURVE

116

Page 19: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

INTERPOLATED CURVE

� Suele graficarse varias consultas mediante el promedio:

117

Page 20: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CURVES FOR COMPARING DISTINCT IR ALGORITHMS

118

Page 21: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RECALL –PRECISION

� Ampliamente utilizadas en RI� Estimación máxima del recuerdo requiere del

conocimiento detallado del corpus� La estimación de estas métricas� consultas

establecidas a manera de grupos� Dependientes al orden???

119

Puntos a considerar:

Page 22: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

P@5 AND P@10

� En la búsqueda WEB, no se requiere un alto recuerdo

� Usuario:� Top-Ranking � mejor impresión ante sus ojos

� En estos casos:

� Se cuantifica si el usuario encuentra relevantes o no los top N documentos 120

Page 23: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

P@5 AND P@10

� En general:

121P@N

Page 24: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MAP: MEAN AVERAGE PRECISION

� Promedia las precisiones obtenidas después de que un nuevo documento relevante es observado� En casos de docs. No recuperados-> Precision=0

122

Page 25: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

R-PRECISION

� Útil para analizar el desempeño en consultas de manera individual

� De manera general:

� R-Precision Average para varias consultas

� Pregunta:

� Qué valor del top-X puedeser conveniente???

123

Page 26: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PRECISION HISTOGRAMS

� Manera Gráfica de percibir el desempeño

124

Page 27: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PRECISION HISTOGRAMS

125

Page 28: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MRR: MEAN RECIPROCAL RANK

� Ütil en problemas de QA (Question-Answering)

� Ranking� Posición de la primer respuesta correcta

� También:

� Consultas de URL� Consultas de Webpages

126

Page 29: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MRR: MEAN RECIPROCAL RANK

127

Page 30: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

THE E-MEASURE

� Considera Precisión y recuerdo simultáneamente

� Se especifica la relevancia de Precisión o Recuerdo

128

??

Page 31: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

THE E-MEASURE

� Valores pequeños de b � Precision , b~0

� Valores grandes de b � Recuerdo b� ∞

� Con b=1 �

129

F-Measure

Page 32: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

F-MEASURE: HARMONIC MEAN

� F∈∈∈∈ [0,1]

� F=0??

� F=1??

� Valores grandes de F ???

130

Page 33: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

USER-ORIENTED MEASURES

131

Page 34: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

USER-ORIENTED MEASURES

132

Page 35: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

USER-ORIENTED MEASURES

� Coverage Ratio

� Novelty Ratio

133

Page 36: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DISCOUNTED CUMULATED GAIN (DCG)

� En métricas anteriores, no es posible determinar:� Documentos: Altamente, medianamente relevantes

� Es necesario considerar criterios (valores) de relevancia

� En particular � DCG

� En general, al examinar resultados de una consulta, podemos notar:� Es preferible tener en primeras posiciones a los docs.

Altamente relevantes� Documentos que aparecen al final del ranking, son

menos interesantes (para el usuario)134

Page 37: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CG (CUMULATED GAIN)

� Supongamos:

� Una escala 0...3 donde 0=No relevante, 3=muy relevante

� Para dos consultas, los siguientes resultados:

� Suele considerarse el vector G=<, , , , > (Gain Vector) con cada una de estos valores de escala

� En particular, se utiliza la ganancia acumulada en este vector 135

Page 38: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CG (EJEMPLO)� Consideremos top 15 docs para los vectores:

� La suma acumulada para estos vectores es:

136

Vectores CG Suavizados

Page 39: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DCG

� Para calcular DCG, suele utilizarse escala logarítmica

137

Page 40: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

138

Page 41: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RANK CORRELATION METRICS

139

Page 42: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

RANK CORRELATION METRICS

140

Page 43: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SPEARMAN COEFFICIENT

� Se basa en las diferencias entre posiciones de un mismo documento en R1 y R2 (Rankings)

141

Page 44: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SPEARMAN COEFFICIENT

142

Page 45: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

GRÁFICA DE RANKING

� Al graficar las posiciones ranking:

� Hay correlación???143

Page 46: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SPEARMAN COEFFICIENT

144

Page 47: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SPEARMAN COEFFICIENT

145

Page 48: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DOCUMENTOS

146

Page 49: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DOCUMENTO

� Denota una unidad de información

� Posee sintaxis y estructura

� Tiene una semántica� por el autor

� Puede contener un estilo de presentación:� Dadas su sintaxis y estructura� Referente a alguna aplicación

147

Page 50: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SINTAXIS DEL DOCUMENTO

� Expresa la estructura, estilo de presentación, semántica

� Uno o varios elementos pueden presentarse en conjunto

� La sintaxis del documento:� Puede expresarse en un lenguaje declarativo, lenguaje

de programación

148

Page 51: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DOCUMENTOS/TEXTO

� El texto puede expresarse en lenguaje natural

149

Complicado para

computadoras

Reto:Lenguaje en documentos que proporcione información de la

estructura, semántica, etc. ���� Entendible por humanos y computadoras¡¡

Page 52: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

ESTILO DEL DOCUMENTO� Respecta a cómo se visualiza/imprime

� El estilo se puede indicar mientras se edita

� Puede contenerse en el documento: Tex, RTF

� Complementado por macros: LaTex

150

Page 53: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

TEXTO

� Querie Engines:

� Pequeños fragmentos de texto� No es texto normal� Comprensión � Semántica

151

Importante para RI???

Page 54: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

152

Page 55: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

METADATA

153

Page 56: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

METADATA

� Es información acerca de la información de los datos, dominios y su relación

� Datos� provenientes de datos

� Los meta-datos se asocian con (casi) todos los documentos en una colección

� Tipos:

� Descriptive Metadata

� Semantic Metadata

154

Page 57: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DESCRIPTIVE METADATA

� Propiamente:� Autor del texto� Fecha de publicación� Fuente de la publicación� Tamaño del documento

Formato estándar: MARC (Machine Readable CatalogingRecord)

� …Son datos externos al significado del documento y respecta a datos de la creación de éste… [Marchionini]

155

Page 58: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

SEMANTIC METADATA

� Caracteriza el tema/tópico referente al contenido del documento

� Está asociada a una gran cantidad de documentos

156

Page 59: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

METADATA IN WEB DOCUMENTS

� Existe en web debido a propósitos:

� Ranking� contenidos� Derechos de propiedad intelectual� Firmas digitales� Comercio electrónico

� Formato fundamental:

� RDF (Resource Description Framework)

157WEB Semántica

Page 60: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

DOCUMENT FORMATS

158

Page 61: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

FORMATOS

� Los sistemas R.I. debes poder recuperar información a partir de diversos formatos de texto

� Algunos formatos:

� Non structured document formats

� Plain Text

� ASCII

� ISO Latin

� UTFs (Unicode Transformation Format), UTF8,16,32

159

Page 62: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

CONTENT-ORIENTED FORMATS

160

� -

� DOC, DOCX, RTF, ODF, ODT,

Page 63: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

PAGE DESCRIPTION-BASED FORMATS

161

o Post Script

o PDF

Page 64: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

INTERCHANGE FORMATS TO ENCODE

ELECTRONIC MAIL

� Multipurpose Internet Mail Exchange (MIME)

� Compress, ARJ (Archived by Robert Jung) for compressing text

162

Page 65: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MULTIMEDIA

� Imágenes

� BMP� JPG (Joint Photographic Expertise Group)� GIF (Graphics Interchange Format) � PNG (Portable Network Graphics)

163

Page 66: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MULTIMEDIA

� Video

� MPEG (Moving Picture Experts Group)�Codec

� MPEG-4-14 � MP4

� AVI (Audio Video Interlave)� Container

� 3GP � Container

� MTK � Container

164

Page 67: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

MULTIMEDIA

� Audio

� MIDI (Musical Instrument Digital Interface)

� WAV, AIFF � Sin compresión

� MP3

165

Page 68: Benemérita Universidad Autónoma de Puebla Facultad de ...aolvera/RI-Ot17/Diap-3-RI-Ot2017.pdf · BM25 (Best Match 25), toma en cuenta: ... Indexado manual de 200 documentos Relevancia

By A. Olvera

TAG-BASED FORMATS

166

� HTML (HyperText Markup Language)

� XML (eXtensible Markup Language)