13
Minería de la Web Minería de la Web Semántica Semántica Escuela de Ciencias de la Computación Sistemas Basados en el Conocimiento Angel Macas M rofesor / Tutor: Ing. Janneth Chicaiza

Minería de la web Semantica

Embed Size (px)

DESCRIPTION

Esta es una breve descripción de lo que es minería de la web semántica

Citation preview

Page 1: Minería de la web Semantica

Minería de la Web Minería de la Web SemánticaSemántica

Escuela de Ciencias de la Computación

Sistemas Basados en el Conocimiento

Angel Macas MProfesor / Tutor: Ing. Janneth Chicaiza

Page 2: Minería de la web Semantica

La web semántica es un área pujante en la confluencia de la Inteligencia Artificial y las tecnologías web, que propone nuevas técnicas y paradigmas para la representación del conocimento que faciliten la localización, compartición e integración de recursos a través de la WWW [Berners-Lee 2001]. Estas nuevas técnicas se basan en la introducción de conocimiento semántico explícito que describa y/o estructure la información y servicios disponibles.

La web semántica mantiene los principios que han hecho un éxito de la web actual, como son los principios dedescentralización, compartición, compatibilidad, o la apertura al crecimiento y uso no previstos de antemano.En este contexto un problema clave es alcanzar un entendimiento entre las partes: usuarios, desarrolladores yprogramas de muy diverso perfil. La web semántica rescata la noción de ontología del campo de la InteligenciaArtificial como vehículo para cumplir este objetivo [Gruber 1993].

Una ontología es una taxonomía de conceptos con atributos y relaciones, que proporciona un vocabularioconsensuado para definir redes semánticas de unidades de información interrelacionadas. Durante los últimosaños se han desarrollado diversos lenguajes y estándares para la definición de ontologías, entre ellos XML [Bray 2000], RDF [Lasilla 1999], DAML+OIL [Connoly 2001], y más recientemente OWL [Dean 2002], respaldados por el consorcio W3C, uno de los principales promotores de la web semántica.

Page 3: Minería de la web Semantica

Existe un gran interés desde el entorno corporativo, el sector público y el mundo académico por hacer de la web semántica una realidad, ya que se piensa que puede ser una pieza importante para el progreso de la sociedad de la información. Para ello se esta invirtiendo un gran esfuerzo en desarrollar a) la infraestructura necesaria para su despliegue, b) aplicaciones que demuestren la viabilidad y el beneficio de la web semántica y a la vez motiven el desarrollo y consumo de infraestructura y c) nuevas soluciones para resolver problemas específicos, e ideas que mejoren, amplíen y/o exploten las posibilidades de la web semántica. Entre las principales líneas de trabajo que están siendo objeto de atención cabe citar:

Lenguajes de definición de ontologías Metodologías de desarrollo de ontologías Integración de ontologías Aprendizaje de ontologías Desarrollo de vocabularios en dominios concretos Agentes Servicios web

Page 4: Minería de la web Semantica
Page 5: Minería de la web Semantica

Minería Web

En el ámbito del acceso, recuperación y organización de información, la minería Web es uncampo importante de aplicación en Internet. Se utiliza para el estudio del comportamiento deciertos aspectos esenciales para mejorar la arquitectura de un sitio ayuda a descubrirconocimientos potencialmente útiles a las organizaciones.Etzioni define la minería Web como el empleo de las técnicas de la minería de datos —datamining (DM) — para descubrir y extraer información automáticamente del Web. Entre sus campos de aplicación principales se encuentran:

● Los motores de búsqueda.● El comercio electrónico.● El diseño Web.● El posicionamiento Web.● La seguridad.

La minería Web se subdivide en áreas que abarcan el contenido del sitio, la estructura de navegación y el comportamiento de los usuarios

Page 6: Minería de la web Semantica
Page 7: Minería de la web Semantica

Clases de minería

En materia de minería Web, existen tres clases fundamentales:

1. Minería Web de contenido. En el Web existen variados documentos, hipertexto, imágenes, vídeos, audio, símbolos, datos, meta-datos, link, textos, pdf y muchos otros, que dificulta su clasificación. La minería de contenido del Web trata de extraer información relevante sobre el contenido del Web, con vista a su clasificación y mejor organización de este, para posteriormente perfeccionar el acceso y la recuperación de la información.

2. Minería Web de estructura. Permite conocer cómo se organiza un Web, cómo se estructura y cómo ocurre la navegación en ella.

3. Minería de uso Web. Tiene como principal objetivo extraer patrones de uso del Web por parte de los usuarios. Para esto, se utilizan los archivos Log (registros de sucesos/eventos) de los servidores Web. Este tipo de minería tiene dos objetivos principales:

Extraer patrones generales de uso de un sitio Web de manera que pueda reestructurarse para que sea más fácil de utilizar y mejore el acceso por parte de los usuarios.

Obtener perfiles de los distintos tipos de usuarios a partir de su comportamiento y navegación, para ofrecer una atención más personalizada.

Page 8: Minería de la web Semantica

Fases

La minería de uso Web presenta cuatro fases fundamentales:

1. Recolección de datos- búsqueda. Consiste en la recuperación automática de la información relevante para su posterior procesamiento.

2. Procesamiento de los datos. Una vez recuperados los documentos, se ordenan y se preparan para la próxima etapa; se utilizan herramientas para obtener información valiosa en forma automática.

3. Descubrimiento de patrones. Existen múltiples técnicas, aplicables al descubrimiento de patrones. Entre ellas, para el agrupamiento y clasificación, para el establecimiento de reglas de asociación y el hallazgo de secuencias frecuentes.

4. Análisis de patrones. Comprende la interpretación y validación de los patrones.

Page 9: Minería de la web Semantica

Técnicas empleadas en la minería de uso Web

Entre las técnicas utilizadas se encuentran:3

Agrupamiento y clasificación. Las técnicas de agrupamiento o clustering distribuyen comportamientos de individuos similares en grupos homogéneos, es decir, dos elementos con características similares pertenecerán al mismo grupo y las características de un grupo (definidas por el elemento prototipo o ideal) serán diferentes a las de otro grupo. En dependencia de la información almacenada en los ficheros Log, es posible detectar grupos de usuarios como:

● Aquellos que visitan gran cantidad de páginas con un tiempo de estancia similar en todas ellas. ● Los que visitan un número pequeño de páginas en sesiones cortas. ● Los que visitan un número pequeño-mediano de páginas con tiempo variable en cada una de ellas.

Una vez descubiertos los prototipos o perfiles de cada grupo, se pueden utilizar las características de cada uno de ellos para realizar la clasificación. En la minería de uso Web, las técnicas de clasificación permiten desarrollar un perfil para clientes/usuarios que acceden a ficheros particulares del servidor, en función de sus patrones de acceso. El agrupamiento de clientes/ usuarios puede facilitar el desarrollo de estrategias de mercado futuras, tanto en línea como fuera de línea. Por ejemplo, envío de correos automáticos a aquellos clientes/usuarios que se encuentren en cierto grupo, reasignación dinámica de servidor para un cliente, tal vez menos sobrecargado, para darle un mejor servicio o la presentación de contenidos específicos según el tipo de cliente. datos en los que ocurren transacciones de datos. Con esta técnica, pueden encontrarse relaciones sin que exista intervención alguna por parte de algún operador. El descubrimiento de estas reglas ayuda a las organizaciones dedicadas al e-commerce a definir estrategias de mercado efectivas.

Page 10: Minería de la web Semantica

El aprendizaje de reglas de asociación se divide normalmente en dos fases:

1. Extracción de los conjuntos de ítems que cumplen con la cobertura requerida a partir de los datos.2. Generación de las reglas a partir de estos documentos.

Secuencias frecuentes. La minería de secuencias permite descubrir el tiempo de las secuencias ordenadas de URLs que han seguido los usuarios y predecir los futuros. En general, en las bases de datos de transacciones están disponibles los datos en un período de tiempo y se dispone de la fecha en que se realizó la transacción. El descubrimiento de patrones de secuencia (sequential patterns) en el Log puede utilizarse para predecir las futuras visitas y así poder organizar mejor los accesos y publicidades para determinados períodos de tiempo. Por ejemplo, los días laborables entre las 9 a.m. y las 12 m., muchas de las personas que accedieron al servidor lo hicieron para ver las ofertas, y en los siguientes días la mayoría compró productos. Entonces, por las mañanas se debería facilitar el acceso a las ofertas y brindar la

publicidad más llamativa posible.

Page 11: Minería de la web Semantica

Personalización eficaz del Web: Conocimiento de integración del dominio con la explotación minera del uso del Web

La personalización basada en la explotación minera del uso del Web puede realzar la eficacia y la capacidad de conversión a escala de la filtración de colaboración (FC). Sin embargo, sin conocimiento semántico sobre el dominio subyacente, tales sistemas no pueden recomendar diversos tipos de objetos complejos basados en sus características y cualidades subyacentes. Este papel proporciona una descripción de los acercamientos para incorporar conocimiento semántico en procesos de la explotación minera y de la personalización del uso del Web. Presentamos dos acercamientos generales para integrar el conocimiento semántico extraído de las características contenidas de las páginas en el proceso de la personalización basado en el uso . Después, presentamos un marco general de las ontologías de integración del dominio con la explotación minera y la personalización del uso del Web. En cada caso, discutimos cómo el conocimiento semántico es apalancado y representado en las fases del descubrimiento del proceso previo y del patrón, así como cómo se utiliza para realzar la personalización basada en el uso.

Page 12: Minería de la web Semantica

CONCLUSIONES:

La aparición de la Web Semántica es una muy buena oportunidad para realizar estos objetivos, especialmente en lo que se refiere a la estandarización.

No hay que olvidar que la Web fue concebida como un conjunto de recursos alojados en distintas máquinas y conectados mediante hiperenlaces. El WSL es coherente con ese modelo: es una bitácora de la navegación que se ha observado dentro de una determinada máquina.

Por ello, si pretendemos obtener conocimiento sobre el uso de servicios y sobre el alcance de metas funcionales, debemos tener presente que se trata de elementos ajenos al modelo subyacente de la Web y que su encaje no siempre será fácil.

Al incorporarse la semántica de servicios a las fuentes de datos procedentes de los servidores web, se diluye la frontera entre la minería de uso web y la minería de uso de sistemas, al menos en aquellos sistemas no orientados a documentos. No obstante, todas las aplicaciones presentes en la Web pública experimentan condiciones de comportamiento específicas de la Web que seguirán influyendo en las técnicas y herramientas para la obtención de conocimiento de estos sistemas.

Una meta más ambiciosa relacionada con la orientación a los servicios consiste en eldescubrimiento de los objetivos de los usuarios a través del uso que hacen de los servicios. Este reto será

menos costoso si el punto de partida son fuentes de datos orientadas a servicios

Page 13: Minería de la web Semantica

BIBLIOGRAFIA

[Bray 2000] T. Bray, J. Paoli, C. M. Sperberg-McQueen, E. Maler. Extensible Markup Language (XML) 1.0(Second Edition). W3C Recommendation 6 October 2000. Available at http://www.w3.org/TR/REC-xml.[Castells 2001] P. Castells, J. A. Macías. An Adaptive Hypermedia Presentation Modeling System for CustomKnowledge Representations. Actas World Conference on the WWW and Internet (WebNet’2001). Orlando(Florida), 2001, pp. 148-153.[Castells 2002a] P. Castells y J. A. Macías. Un sistema de presentación dinámica en entornos web pararepresentaciones personalizadas del conocimiento. Revista Iberoamericana de Inteligencia Artificial, No. 16(2002). AEPIA, 2002, pp. 25-34.[Castells 2002b] P. Castells and J. A. Macías. Context-Sensitive User Interface Support for Ontology-Based WebApplications. International Semantic Web Conference (ISWC), Collected Posters. Sardinia (Italy), June 2002.[Connolly 2001] D. Connolly, F. van Harmelen, I. Horrocks, D. L. McGuinness, P. F. Patel-Schneider, and L. A.Stein. DAML+OIL Reference Description. W3C Note 18 December 2001. Available athttp://www.w3.org/TR/daml+oil-reference.