28
RECUPERACIÓN DE INFORMACIÓN Jhonathan Henao Barbosa Andrés Mariño Ramírez Bases de Datos II - 2014

Sistemas de recuperación de informacion.cap 21

Embed Size (px)

Citation preview

Page 1: Sistemas de recuperación de informacion.cap 21

RECUPERACIÓN DE INFORMACIÓNJhonathan Henao Barbosa

Andrés Mariño Ramírez

Bases de Datos II - 2014

Page 2: Sistemas de recuperación de informacion.cap 21

Recuperación de información Se refiere a la consulta de los datos de texto no estructurados.

A diferencia de los sistemas de BD se centra en la consulta de palabras claves, la relevancia de los documentos a consultar, la clasificación y la indexación de los documentos.

El proceso de recuperación de la información consiste en localizar documentos pertinentes, sobre la base de la entrada del usuario, tales como palabras clave o documentos de ejemplo.

Page 3: Sistemas de recuperación de informacion.cap 21

Algunas diferencias entre los Sistemas de Bases de Datos y los Sistemas de Recuperación

Los sistemas de bases de datos se ocupan de actualizaciones y con los requisitos transaccionales asociados de control de concurrencia y durabilidad. Para los sistemas de recuperación esto no es tan importante.

los sistemas de base de datos se ocupan de información estructurada organizada con modelos de datos relativamente complejos (por ejemplo el modelo relacional), los sistemas de recuperación de información tradicionalmente han utilizado un modelo mucho más simple, en donde la información en la base de datos está organizado simplemente como una colección de documentos no estructurados

Los sistemas de recuperación se han centrado en temas como consulta de palabras clave y de clasificación de los documentos en el grado estimado de relevancia de los documentos a la consulta.

Page 4: Sistemas de recuperación de informacion.cap 21

Los sistemas de recuperación más sofisticados estiman relevancia de los documentos a una consulta para que los documentos pueden mostrarse en orden de relevancia estimada. Existen diferentes métodos para asignar la relevancia de un documento, a continuación veremos algunos de ellos:

Clasificación de Relevancia usando Términos

Clasificación usando TF-IDF

Recuperación Basado en Similitud

Relevancia utilizando hipervínculos

Ranking de popularidad

PageRank

Otras mediciones de popularidad

Spam de motores de búsqueda

La combinación TF- IDF y Medidas Popularidad Clasificación

Page 5: Sistemas de recuperación de informacion.cap 21

Clasificación usando TF-IDFClasificación de Relevancia usando Términos

Page 6: Sistemas de recuperación de informacion.cap 21

Clasificación de Relevancia usando Términos

Page 7: Sistemas de recuperación de informacion.cap 21

Recuperación Basado en Similitud

Ciertos sistemas de información de recuperación permite la recuperación basada en la similitud. Aquí, el usuario puede dar el documento del sistema A, y pedir al sistema para recuperar documentos que son "similares" a A. La similitud de un documento a otro se puede definir, por ejemplo, sobre la base de términos comunes. Un enfoque consiste en encontrar los términos de k en A con más altos valores de TF (A, t) * IDF (t), y utilizar estos términos k como una consulta para encontrar relevancia de otros documentos. Los términos de la consulta se ponderan por sí mismos TF (A, t) * IDF (t).

Más en general, la similitud de los documentos se define por la métrica de similitud del coseno. Deje que los términos que aparecen en cualquiera de los dos documentos sean t1, t2,. . ., Tn. Sea r (D, T) = TF (D, T) * FDI (t). A continuación, la similitud entre documentos coseno métrica d y e se define como:

Clasificación de Relevancia usando Términos

Page 8: Sistemas de recuperación de informacion.cap 21

Clasificación de Relevancia usando Términos

Page 9: Sistemas de recuperación de informacion.cap 21

Clasificación de Relevancia usando Términos

Page 10: Sistemas de recuperación de informacion.cap 21

Clasificación de Relevancia usando Términos

Page 11: Sistemas de recuperación de informacion.cap 21

Ranking de popularidad

La idea básica del ranking de popularidad (también llamado el ranking de prestigio) es encontrar páginas que son populares, y para clasificarlos superior a otras páginas que contengan las palabras clave especificadas.

Las medidas tradicionales de relevancia de una página como la TF- IDF se pueden combinar con la popularidad de la página para obtener una medida global de la relevancia de la página para la consulta.

Una primera solución para estimar la popularidad de una página es utilizar el número de páginas que enlazan con la página como una medida de su popularidad. El inconveniente es que una pagina puede tener diferentes hipervínculos apuntando a diferentes partes de la misma.

Una alternativa es la de asociar de popularidad con los sitios , en vez de con las páginas . Todas las páginas de un sitio a continuación, pueden obtener la popularidad del sitio, y otras páginas distintas de la página raíz de un sitio popular también se beneficiarían de la popularidad del sitio.(no se puede utilizar para paginas como yahoo.groups.com o groups.google.com)

Una alternativa más sencilla es permitir la transferencia de prestigio de las páginas más populares para las páginas a las que enlaza . Bajo este esquema, un enlace de una página popular de X a una página es tratada como una concesión más prestigio a la página y que un enlace de una página Z.

Relevancia utilizando hipervínculos

Page 12: Sistemas de recuperación de informacion.cap 21

PageRank El motor de búsqueda de Internet Google presentó PageRank, que es una medida de la popularidad de

una página basada en la popularidad de las páginas que enlazan a la página. Utilizando la medida de popularidad PageRank para clasificar las respuestas a una consulta dio resultados mucho mejores que las técnicas de clasificación utilizadas anteriormente que Google se convirtió en el motor de búsqueda más utilizado, en un período relativamente corto de tiempo.

. La matriz de probabilidades de salto T se define con T [i, j ] ajustado a la probabilidad de que un caminante al azar que está siguiendo un enlace desde la página i sigue el enlace a la página j . Suponiendo que cada eslabón de i tiene la misma probabilidad de ser seguido T [ i , j] = 1/Ni , donde Ni es el número de enlaces de la página i . La mayoría de las entradas de T son 0 y está mejor representado como una lista de adyacencia. Entonces el PageRank P [ j ] para cada página j se puede definir como:

dónde δ es una constante entre 0 y 1, y N el número de páginas, δ representa la probabilidad de un paso en el camino aleatorio ser un salto. El conjunto de ecuaciones generadas como arriba se suelen resolverse por un una técnica iterativa, empezando por cada P [i] Se establece en 1 / N. Cada paso de la iteración calcula nuevos valores para cada P [i] utilizando los valores de P a partir de la iteración anterior. La iteración se detiene cuando el cambio máximo en cualquier valor de p [i] en una iteración pasa por debajo de un valor de corte.

Relevancia utilizando hipervínculos

Page 13: Sistemas de recuperación de informacion.cap 21

Relevancia utilizando hipervínculos

Page 14: Sistemas de recuperación de informacion.cap 21

Otras Mediciones de Popularidad Un enfoque alternativo para tomar palabras clave en cuenta la hora de definir de popularidad es

calcular una medida de la popularidad utilizando sólo las páginas que contienen las palabras clave de consulta , en lugar de calcular el uso de todas las páginas de popularidad disponibles en la Web. Este enfoque es más caro , ya que el cálculo de la clasificación de popularidad tiene que ser hecho de forma dinámica cuando se recibe una consulta , mientras que PageRank se calcula de forma estática una vez y se vuelve a utilizar para todas las consultas . Los motores de búsqueda Web manejo de millones de consultas por día no pueden darse el lujo de gastar tanto tiempo contestando una consulta. Como resultado , aunque este enfoque puede dar mejores respuestas, no se utiliza muy ampliamente .

El algoritmo HITS se basó en la idea anterior de encontrar primero las páginas que contienen las palabras clave de consulta , y luego calcular una medida de popularidad utilizando sólo este conjunto de páginas relacionadas. Además se introduce una noción de centros y autoridades. Un centro es una página que almacena enlaces a muchas páginas relacionadas , ya que puede en sí mismo no contener información real sobre un tema , sino que apunta a las páginas que contienen información real. Por el contrario , una autoridad es una página que contiene información actual sobre un tema , a pesar de que puede no guardar enlaces a muchas páginas relacionadas. Cada página, entonces consigue un valor de prestigio como centro (hub-prestige), y otro valor de prestigio como autoridad (authority-prestige). Las definiciones de prestigio como antes , son cíclicos y están definidos por un conjunto de ecuaciones lineales simultáneas . Una página se hace mayor hub-prestige si apunta a muchas páginas con una gran authority-prestige, mientras que una página se hace mayor authority-prestige si es apuntado por muchas páginas con un alto hub-prestige.

Relevancia utilizando hipervínculos

Page 15: Sistemas de recuperación de informacion.cap 21

Spam de motores de Búsqueda

Spam de motores de búsqueda se refiere a la práctica de la creación de páginas Web, o conjuntos de páginas Web , diseñado para conseguir un alto rango de importancia en algunas consultas , a pesar de que los sitios no son en realidad sitios populares.

Como ejemplos encontramos las paginas que repiten muchas veces un termino o palabra clave y con eso conseguir una alta puntuación en TF- IDF .

El enfoque del algoritmo HITS, los centros y las autoridades son más susceptibles a spamming. Un spammer puede crear una pagina Web que contiene enlaces a buenas autoridades en un tema, y obtiene una puntuación alta hub como resultado.

Relevancia utilizando hipervínculos

Page 16: Sistemas de recuperación de informacion.cap 21

Los sinónimos, homónimos y ontologías

Considere el problema de la localización de los documentos sobre el mantenimiento de la motocicleta, con la consulta "mantenimiento de la motocicleta". Supongamos que las palabras clave de cada documento son las palabras en el título y los nombres de los autores. El documento titulado Reparación de motos no se puede recuperar, ya que la palabra "mantenimiento" no aparece en el título. Podemos resolver este problema mediante el uso de sinónimos. Cada palabra puede tener un conjunto de sinónimos definidos, y la ocurrencia de una palabra puede ser reemplazado por el o de todos sus sinónimos (incluyendo la propia palabra).

Consultas basadas en palabras clave también sufren del problema de homónimos, es decir una sola palabra con múltiples significados. Para solucionar esto tiene que analizar cada documento para eliminar la ambigüedad de cada palabra en el documento, y sustituirlo por el concepto que represente, la desambiguación se hace generalmente mirando otras palabras que la acompañan en el documento. Y comparándolas con las demás palabras claves.

Las ontologías son estructuras jerárquicas que reflejan las relaciones entre los conceptos. las ontologías se han creado para estandarizar los términos utilizados en las empresas , lo que es un paso importante en la construcción de una infraestructura estándar para el procesamiento de pedidos manipulación y otro flujo de transacciones entre los datos.

Page 17: Sistemas de recuperación de informacion.cap 21

Indexación de documentos Una estructura efectiva de índices es importante para el procesamiento eficiente de las

consultas en los sistemas de recuperación de la información. Los documentos que contengan las palabras clave especificadas pueden localizarse de manera efectiva utilizando un índice invertido, que relaciona cada palabra clave Ki con el conjunto Si de (los identificadores de) los documentos que contienen Ki. Esta formado por dos elementos: el vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada termino, la lista de documentos donde este aparece). La Figura muestra un ejemplo:

Page 18: Sistemas de recuperación de informacion.cap 21

Medida de la Eficacia de la Recuperación

Para ahorrar espacio de almacenamiento a veces se almacena el índice de modo que la recuperación es aproximada; puede que no se recuperen unos pocos documentos de importancia (lo que se denomina un rechazo falso o un falso negativo), o puede que se recuperen unos pocos documentos sin importancia (lo que se denomina un falso positivo).

Se utilizan dos métricas para medir la calidad con que los sistemas de recuperación de la información pueden contestar las consultas. La primera, la precisión, mide el porcentaje de los documentos recuperados que son verdaderamente importantes para la consulta. La segunda, la recuperación, mide el porcentaje de los documentos importantes para la consulta que se han recuperado.

Page 19: Sistemas de recuperación de informacion.cap 21

Rastreo e Indexación de la WEB Lo rastreadores Web (web crawlers) son programas que localizan y reúnen información de la

Web. Siguen de manera recursiva los hipervínculos presentes en los documentos conocidos para hallar otros documentos. Los rastreadores recuperan los documentos y añaden la información hallada en ellos a índices combinados; generalmente, los documentos no se almacenan, aunque algunos motores de búsqueda guardan en la caché una copia del documento para dar a los clientes un acceso más rápido a los documentos.

Dado que el número de documentos de la Web es muy grande, no es posible recorrer toda la Web en un periodo corto de tiempo; y, de hecho, todos los motores de búsqueda cubren únicamente algunas partes de la Web, no toda ella, y sus rastreadores pueden tardar semanas o meses en realizar un solo rastreo de todas las páginas que abarcan.

Page 20: Sistemas de recuperación de informacion.cap 21

Recuperación de Información : Más allá de clasificación de páginas

Los sistemas de recuperación de información fueron diseñados originalmente para encontrar documentos textuales relacionados con una consulta, y posteriormente extenderse a la búsqueda de páginas de la Web que están relacionados con una consulta. La gente utiliza los buscadores para muchas tareas diferentes, desde tareas simples, tales como la localización de un sitio Web que quieren usar, a un objetivo más amplio de búsqueda de información sobre un tema de interés.

También hay una creciente necesidad de sistemas que tratan de entender los documentos (hasta cierto límite), y responder a preguntas basadas en el (limitado) conocimiento. Un enfoque consiste en crear información estructurada de documentos no estructurados y para responder a preguntas basadas en la información estructurada. Otro enfoque aplica técnicas de lenguaje natural para encontrar documentos relacionados con una pregunta (expresado en lenguaje natural) y devolver los segmentos pertinentes de los mismos como una respuesta a la pregunta.

Page 21: Sistemas de recuperación de informacion.cap 21

La diversidad de resultados de la consulta

Hoy en día, los motores de búsqueda no sólo devuelven una lista clasificada de las páginas Web relevantes para una consulta. También regresan imagen y video resultados relevantes a una consulta. Además, hay una variedad de sitios que proporcionan el cambio de contenido de forma dinámica , como resultados deportivos, o teletipos de la bolsa .

Los términos de búsqueda son a menudo ambiguas . Por lo tanto, los motores de búsqueda tratan de proporcionar un conjunto de resultados que son diversos en cuanto a sus temas , para minimizar la posibilidad de que un usuario podría estar insatisfecho .

Los resultados obtenidos a partir de una pagina Web necesitan ser resumido como un fragmento en un resultado de consulta. Tradicionalmente, los motores de búsqueda proporcionan unas palabras que rodean a las palabras clave de la consulta como un fragmento que ayuda a indicar lo que la página contiene . Sin embargo , hay muchos ámbitos en los que el fragmento se puede generar de una manera mucho más significativa . Tales fragmentos especializados se generan a menudo para los resultados recuperados de una base de datos , por ejemplo , una base de datos de restaurantes .

Más allá de clasificación de páginas

Page 22: Sistemas de recuperación de informacion.cap 21

Extracción de Información Sistemas de información de extracción se encargan de convertir la

información de forma textual a una forma más estructurada.

Como ejemplo, los motores de búsqueda diseñado para encontrar artículos de investigación académica , como Citeseer and Google Scholar, la Web de rastreo para recuperar documentos que pueden ser artículos de investigación. Ellos examinan algunas de las características de cada documento recuperado , tales como la presencia de palabras tales como " bibliografía " , "referencias" y "abstracto", para juzgar si un documento es en realidad un artículo de investigación académica. A continuación, extraer el título , lista de autores , y las citaciones en el final del artículo , mediante el uso de técnicas de extracción de información .

Más allá de clasificación de páginas

Page 23: Sistemas de recuperación de informacion.cap 21

Búsqueda de Respuestas

Los sistemas de recuperación de información se centran en la búsqueda de documentos relevantes para una consulta determinada . Sin embargo , la respuesta a una pregunta puede estar sólo en una parte de un documento, o en pequeñas partes de varios documentos. Respuesta automática a preguntas intentan dar respuestas directas a las preguntas formuladas por los usuarios.

Sistemas de búsqueda de respuestas dirigidas a la información en la Web suelen generar una o más consultas de palabras clave de una cuestión prejudicial , se ejecutan las consultas de palabras clave en contra de los motores de búsqueda Web, además de analizar los documentos devueltos para encontrar los segmentos de los documentos que responden a la pregunta . Un número de técnicas lingüísticas y heurística se utiliza para generar consultas de palabras clave , y para encontrar los segmentos relevantes del documento.

Un problema en responder a las preguntas es que los diferentes documentos pueden indicar diferentes respuestas a una pregunta.

Sistemas de pregunta de respuesta actual generación están limitados en potencia, ya que realmente no entienden bien la pregunta o los documentos utilizados para responder a la pregunta. Sin embargo, son útiles para un número de tareas pregunta de respuesta simples.

Más allá de clasificación de páginas

Page 24: Sistemas de recuperación de informacion.cap 21

Consultar Datos Estructurados Los datos estructurados están representados principalmente ya sea en

forma relacional o XML . Varios sistemas se han construido para soportar consultas de palabras clave en los datos relacionales y XML. Un tema común entre estos sistemas radica en la búsqueda de nodos ( tuplas o elementos XML) que contienen las palabras clave especificadas , y la búsqueda de caminos que conectan (o ancestros comunes, en el caso de datos XML) entre ellos.

Más allá de clasificación de páginas

Page 25: Sistemas de recuperación de informacion.cap 21

Directorios y Categorías En un sistema de recuperación de información, no hay necesidad de almacenar los

documentos relacionados juntos. Sin embargo, tales sistemas deben organizar los documentos lógicamente a fin de permitir la navegación. Por lo tanto, un sistema de este tipo podría utilizar una jerarquía de clasificación similar al de una biblioteca como lo vemos en la imagen, a uno que las bibliotecas utilizan y cuando se muestra un documento en particular , también puede mostrar una breve descripción de los documentos que se encuentran cerca de la jerarquía.

Page 26: Sistemas de recuperación de informacion.cap 21

En un sistema de recuperación de información , no hay necesidad de mantener un documento en un solo punto en la jerarquía . Un documento que habla de las matemáticas para los informáticos pudiera clasificarse en las matemáticas , así como en virtud de la informática. Todo lo que se almacena en cada punto es un identificador del documento ( es decir, un puntero al documento ) , y es fácil para ir a buscar el contenido del documento mediante el identificador. Como resultado de esta flexibilidad , no sólo un documento puede ser clasificada en dos lugares , sino también una subárea en la jerarquía de clasificación puede ocurrir en sí en virtud de dos zonas . La clase de documentos " algoritmo gráfico " puede aparecer tanto en las matemáticas y en ciencias de la computación . Por lo tanto , la jerarquía de clasificación es ahora un gráfico a cíclico dirigido ( DAG ) , como se muestra en la figura

Page 27: Sistemas de recuperación de informacion.cap 21

Resumen Los sistemas de recuperación de información se utilizan para almacenar datos de texto y de

consulta, tales como documentos. Ellos usan un modelo de datos simple que hacen los sistemas de bases de datos, pero proporcionan capacidades de consulta más poderosos dentro del modelo restringido.

Las consultas intentan localizar los documentos que son de interés, indicando, por ejemplo, los conjuntos de palabras clave. La consulta que el usuario tiene en mente por lo general no se puede afirmar con precisión, por lo tanto lo sistemas de recuperación de información piden respuestas sobre la base del potencial relevancia.

Clasificación Relevancia hace uso de varios tipos de información, tales como:

Frecuencia de un término a la importancia de cada término es a cada documento

Frecuencia inversa de documento.

Clasificación de popularidad.

Similitud de documentos se utiliza para recuperar documentos similares a un documento de ejemplo . La métrica de coseno se utiliza para definir similitud , y se basa en el modelo de espacio vectorial

PageRank y Ranking hub / autoridad son dos maneras de asignar prestigio a las páginas de la base de enlaces a la página. La medida PageRank se puede entender de forma intuitiva mediante un modelo de paseo aleatorio . Información de texto de anclaje también se utiliza para calcular una noción por palabra clave de la popularidad. Sistemas de recuperación de información necesitan combinar las puntuaciones de múltiples factores tales como la TF -IDF y PageRank , para obtener un puntaje total de una página..

Page 28: Sistemas de recuperación de informacion.cap 21

Spam de motores de búsqueda intenta obtener ( una inmerecida ) de alto rango para una página.

Sinónimos y homónimos complican la tarea de recuperación de información. Consulta basada en el concepto apunta a encontrar documentos que contengan conceptos especificados , independientemente de las palabras exactas ( o lenguaje ) en la que se especifica el concepto . Las ontologías se utilizan para relacionar conceptos usando relaciones como es-un - o parte de .

Los índices invertidos se utilizan para responder a las consultas de palabras clave.

Precisión y el recuperación son dos medidas de la efectividad de un sistema de recuperación de información.

Los motores de búsqueda Web rastrean la Web para encontrar las páginas , analizarlos para calcular medidas de prestigio , y los índices.

Se han desarrollado técnicas para extraer información estructurada de datos de texto , para realizar consultas de palabras clave en los datos estructurados , y para dar respuestas directas a preguntas sencillas planteadas en lenguaje natural.

Estructura de los directorios y las categorías se utilizan para clasificar documentos con otros documentos similares.