JuárezPro4.0

Embed Size (px)

Citation preview

  • 8/16/2019 JuárezPro4.0

    1/22

     

    Título

    Sistema de recomendación web sobre temas de tendencia de ciencia y

    tecnología mediante técnicas de minería web

     

    Protocolo de investigación

    Presenta

    Alejandro Juárez Rojas

    Ingeniería en Software

    Santiago Tianguistenco, México. Mayo de 2016.

  • 8/16/2019 JuárezPro4.0

    2/22

    Resumen

  • 8/16/2019 JuárezPro4.0

    3/22

    AntecedentesLa World Wide Web (WWW) es un conjunto masivo de información accesible a nivel mundial[Hernández, 2004]. Podemos encontrar información de diversas temáticas [Liu, 2007] alojadasen páginas web, blogs o redes sociales [Jobsen, 2014]. Para poder ingresar a la web esnecesario usar algún navegador web que nos permita visualizar toda la información consultandovariedad de sitios web [Meloni, 2010].

    Un navegador web es un software que interactúa con distintos servidores web mediante elmodelo de cliente-servidor [Liu, 2007] para la obtención de documentos creados bajo el lenguajede marcas de hipertexto (HTML) [Markov, 2007].

    Una URL especifica la ubicación, o dirección, de cada una de las páginas web (u otro recurso)de Internet. Los URL constan de tres partes: medio, host y ruta [Honeycutt, 1997] estánconstituidos por abreviaturas, puntos y barras (slash). URL es la dirección exacta de undocumento o servidor en Internet [Lackerbauer, 01]. Todo este proceso requiere el uso delprotocolo de transferencia de hipertexto, mejor conocido como HTTP [Chakrabarti, 2003].

    Una sesión web es el almacenamiento de páginas web visitadas de un mismo servidor por losusuarios para un propósito en general [Markov, 2007]. Cada sesión web tiene un períodomáximo de tiempo para un mejor control de información [Hans, 2006]. Se utilizan para lageneración de búsquedas posteriores por el mismo usuario, o implementar alguna especie debúsqueda de colaboración con las herramientas de la minería de uso web [Chakrabarti, 2003],[Scime, 2004].

    Un web log es un archivo generado por los servidores de manera automática, mediante elconstante uso de navegadores y agentes [Chakrabarti, 2003], son la fuente principal deextracción de datos para el proceso de minería web de uso [Han, 2006] en el descubrimiento

    de patrones de acceso de los usuarios. Su principal contenido son los sitios web visitados yalmacena todos los clics de los usuarios en el entorno web [Liu, 2007] [Hans, 2006]. Este archivode texto puede ser delimitado por comas, delimitado por el espacio, o delimitado por tabuladores[Markov, 2007].

    La minería de datos es un área de las ciencias computacionales que se dedica al tratamientode la información, pretende descubrir patrones, modelos o formas de comportamiento mediantetécnicas adecuadas [Zaki, 2014], es necesario poseer una gran cantidad de datos paradesarrollar este proceso [Hernández, 2004]. Es importante mencionar que, no todos lospatrones obtenidos serán útiles. La minería de datos tiende a la extracción de información concierto grado de exactitud, por tal motivo es primordial, saber que algoritmos aplicar a los datos,para obtener los datos que realmente nos interesan [Witten, 2011].

    Las técnicas de la minería de datos de acuerdo a las etapas que se planteen en un comienzo,están principalmente clasificadas en 3 tipos que son técnicas predictivas, descriptivas yauxiliares [Pérez, 2008], [Pérez, 2014]. Las técnicas predictivas están basadas en la teoría.Además, se incluyen todos los tipos de regresión, asociación, análisis de la varianza,covarianza, análisis discriminante, series temporales y métodos bayesianos [Fu, 2014],

  • 8/16/2019 JuárezPro4.0

    4/22

    [Hernández, 2004]. Las técnicas de modelado originado por los datos (técnicas descriptivas)están basadas solo en patrones. Los métodos más usados son asociaciones, dependencias,clustering y segmentaciones. Por último, están las técnicas auxiliares, su principal propósito esservir de apoyo para verificar resultados por medio de informes [Pérez, 2008].

    La minería web se enfoca a procesar la información que se encuentra almacenada en la web,mediante las técnicas ya conocidas de la minería de datos [Hernández, 2004]. Sus principalesobjetivos son mejorar la calidad de prestación de servicios de información, optimizar los motoresde búsqueda [Witten, 2011] y descubrir los patrones sobre tendencias de acceso por parte delcomportamiento de los usuarios en la web [Han, 2006]. Emplea otras áreas de conocimientocomo el aprendizaje de máquina, técnicas estadísticas, bases de datos, inteligencia artificial, larecuperación de información, el uso de ontologías y visualización para la generación deresultados [Liu, 2007].

    Chakrabarti define una antología como un glosario, acerca de las entidades descritas por loscomponentes en el glosario y se establecen los nexos entre las entidades. Las entidades suelen

    ser abreviaturas [Chakrabarti, 2003]. El significado de cada letra puede hacer referencia atérminos conceptos y entidades con sus respectivos vínculos [Medina, 2007]. Son difíciles deutilizar debido a su alto grado para conformar los conceptos fundamentales y establecer lasrelaciones [Scime, 2004].

    La recuperación de la información (IR) son un conjunto de procedimientos que analizan lainformación que se encuentra alojada en la web [Scime, 2004]. Su principal función es ayudaral usuario a encontrar la información deseada, mediante la detección de palabras clave, engrandes bancos de información [Liu, 2007]. Es eficaz, debido a la reducción de términos de granmagnitud. Los motores de búsqueda emplean distintos métodos propios de la IR en cadaconsulta que solicitan los usuarios.

    La minería web está dividida de acuerdo a diversos autores en 3 áreas principales: la estructuraweb (orientada a la organización y jerarquización, para el crecimiento de mejores sitios web), elcontenido de información (diseñada para mejorar las búsquedas de información) y los usuariosde la web (el comportamiento de los usuarios) [Chakrabarti, 2003], [Liu, 2007], [Fu, 2014],[Hernández, 2004].

    Un web log es un archivo generado por los servidores de manera automática, mediante elconstante uso de navegadores y agentes [Chakrabarti, 2003], son la fuente principal deextracción de datos para el proceso de minería web de uso [Han, 2006] en el descubrimientode patrones de acceso de los usuarios. Su principal contenido son los sitios web visitados y

    almacena todos los clics de los usuarios en el entorno web [Liu, 2007] [Hans, 2006].La minería de texto es definida como una sub-área de la minería contenido web [Scime, 2004].Sus principales funciones son el descubrimiento de temas, la extracción de patrones deasociación, agrupación de documentos web y clasificación de sitios web. La minería de textoresuelve problemas mediante el uso del procesamiento de lenguaje natural, que se basa en lasimilitud de distribución [Liu, 2007].

  • 8/16/2019 JuárezPro4.0

    5/22

    A continuación, se describen brevemente algunos proyectos realizados sobre minería web.

    En 2005, Baeza desarrolló un proyecto aplicando técnicas de minería de uso y contenido web.Su principal objetivo es facilitar las consultas para el hallazgo de información relevante, sobrecómo re-organizar la estructura y contenido del sitio web. El modelo ha sido probado en diversossitios web que cuentan con diversas características (temática, alcance, tamaño). En términosgenerales se pretende resolver problemas sobre la presentación de los sitios web frente a losusuarios, mejorando hipervínculos y documentos [Baeza, 2005].

    El modelo propuesto por Baeza inicia con los archivos logs, los datos de estructura y decontenido como datos de entrada. La estructura del sitio es generada a partir de loshipervínculos entre las páginas web y el contenido mixto de información corresponde al textoasociado a cada una de sus páginas. La idea principal es la extracción de información mediantelas consultas internas y externas para iniciar el reconocimiento de patrones sobre navegacióny contenidos, así se verifica la esencia de la información que beneficia la estructura del sitioweb. La minería de datos es aplicada en todos los hipervínculos para el análisis del contenidode información usando clustering [Baeza, 2005].

    En el año 2011 se crea el Sistema Recomendador de Oportunidades de Estudio (SROE). Fuedesarrollado bajo 2 métodos para la fase de análisis: el primer método emprende un análisispara asignar la posibilidad y factibilidad de incorporar a la propuesta inicial de diseño planteadaen la implementación. La segunda propuesta de análisis se analizan los enfoquesrecomendados para verificar su viabilidad sobre el modelo, [Corniel, 2011].Fue diseñado para estudiantes que intentan ingresar a universidades, en donde algunascarreras están en base con preferencias, competencias y recursos que el alumno aspiranteposee. Se originaron nuevos requerimientos de interfaz y minería de datos mediante losrecursos semánticos usados (ontologías, perfiles y modelos de uso) [Borges, 2009]. Otro factorimportante para el desarrollo del SROE es el arduo trabajo que realizan los aspirantes, sudecisión sobre en qué universidad estudiar depende de los resultados de consultas tradicionalesen la web.

    Los resultados de una consulta tradicional a sistemas de información son poco eficaces, debidoa que la información acerca de las carreras en diferentes sitios web, se encuentrandesactualizados y disociados, predomina el poco uso del lenguaje formal [Corniel 2011].

  • 8/16/2019 JuárezPro4.0

    6/22

    Planteamiento del Problema

    En la actualidad, la búsqueda de información en la web presenta muchas dificultades. Esimportante para todos los usuarios saber sobre los nuevos avances de la tecnología y las

    nuevas tendencias. Sin embargo, las búsquedas de información son poco específicas, por tanto,los resultados suelen tener información de mala calidad o incompleta.

    HipótesisLa creación de un sistema recomendador requiere conocer perfiles de usuario para facilitar labúsqueda de información específica. Es necesario utilizar los web logs de los navegadorespara determinar las tendencias tecnológicas y temáticas favoritas.

    Objetivo General

    Desarrollar un sistema recomendador de tendencias de ciencia y tecnología mediante elanálisis de los archivos web logs, para definir el perfil del usuario.

  • 8/16/2019 JuárezPro4.0

    7/22

    Marco Teórico

    Introducción a la computación. [Gleen, 2012], [Forousan, 2003], [Norton, 2006].

    Teoría de autómatas y lenguajes formales. [Hopcroft, 1993], [Hopcroft, 2008].

    Sistemas Distribuidos. [Kshemkalyani, 2008], [Coulouris, 2012] 

    Desarrollo web. [Gauchat, 2012], [Scott, 2009], [Zelle, 2002].

    Servidores web [Laurie, 2003], [Gourley, 2002], [Schaefer, 2008].

    Servidores de aplicaciones [Arrondo, 2000], [Azaustre, 2014], [Scott, 2009]

    Scraping web. [Lawson, 2015], [Mitchell, 2013], [Ward, 2013]

    Minería de Datos. [Hertzmann, 2012], [Han, 2006].

    Minería Web. [Chakrabarti, 2003], [Markov, 2007]

  • 8/16/2019 JuárezPro4.0

    8/22

    Estado del Arte

    Minería de uso web [Carmona, 2008]

    Agrupación de los patrones de navegación [Hay, 2001]

    Árboles de clasificación [Lingras, 2006]

    Estructura de sitio web [Srikant, 2001], [Fu, 2001], [Baeza, 2005]

    Servidores Web [Kamdar, 2001]

    Minería de Texto [Medina, 2007], [Scime, 2004]

    Reconocimiento de Patrones [Markov, 2007].

    Recuperación de la Información [Manning, 2008]

  • 8/16/2019 JuárezPro4.0

    9/22

     

    Marco Metodológico

  • 8/16/2019 JuárezPro4.0

    10/22

    Anexo 1: Marco Teórico.La World Wide Web (WWW) mejor conocida como la web, es un conjunto masivo de informaciónaccesible a nivel mundial [Hernández, 2004]. La información almacenada es de diversos tipos(textual, imágenes, etc.) [Liu, 2007] mediante páginas web, blogs o redes sociales [Jobsen,2014]. Para poder ingresar a la web es necesario usar algún navegador web que nos permitavisualizar toda la información mediante páginas web conectadas entre sí [Meloni, 2010].

    Las funciones más utilizadas del internet son el intercambio de información y paquetes de datosque son enviados y recibidos [Gutiérrez, 2008]. Existe diversidad de contenido de informaciónpublicada [Jobsen, 2014]La comunicación a distancia, usada en desarrollo web [Allamaraju,2010] mediante la creación de foros en línea y distintos tipos de correo electrónico para asuntospersonales o empresariales.

    Actualmente, internet ofrece una libre expresión sobre opiniones en cuestiones sociales,políticas o religiosas [Liu, 2007]. Una sesión web es el almacenamiento de páginas webvisitadas de un mismo servidor por los usuarios para un propósito en general [Markov, 2007].

    Cada sesión web tiene un periodo máximo de tiempo para un mejor control de información[Hans, 2006]. Se utilizan para la generación de búsquedas posteriores por el mismo usuario, oimplementar alguna especie de búsqueda de colaboración con las herramientas de la mineríade uso web [Chakrabarti, 2003], [Scime, 2004].

    Un navegador web es un software que interactúa con distintos servidores web mediante elmodelo de cliente-servidor [Liu, 2007] para la obtención de documentos HTML (páginas web),mediante el localizador universal de rescursos que poseen toda la página consultada puedevincular más páginas [Markov, 2007] para mostrárselas al usuario mediante el uso del protocoloHTTP [Chakrabarti, 2003].

    Los navegadores soportan distintos formatos de contenido (imágenes, audios) e inclusive sepueden agregar plug-ins para archivos con extensiones específicas [Gourley, 2002]. Unlocalizador universal de recursos (URL por sus siglas en inglés) es una dirección de un sitioweb. Es más fácil identificar el sitio mediante su URL, inclusive ayuda a un mejorposicionamiento en los principales buscadores [Smith, 2009]. Los navegadores web acceden alservidor web en busca de lo que el usuario solicita y devuelve resultados en páginas web[Wagner, 2011]. De acuerdo a Murray y Chakrabarti una URL consta de 3 partes:

    1.- Una indicación del protocolo usado, por ejemplo, como HTTP o HTTPS

    2.-El nombre de dominio del sitio web.

    3.- Datos opcionales como número de puerto de la dirección web acerca del

    documento solicitado [Chakrabarti, 2003], [Murray, 2010].

    Una página web es un escrito en lenguaje HTML [Wagner, 2011] que es difundida en la redmediante un servidor. Puede tener en su contenido imágenes, texto, videos y muchoscomponentes de diversos temas [Grigorik, 2013]. Las páginas web son intuitivas para losusuarios [Niederst, 2007]. Suelen estar vinculadas entre sí usando hipervínculos [Sostre, 2007].

  • 8/16/2019 JuárezPro4.0

    11/22

    Un rastreador web es un programa implementado por algoritmos de búsqueda de distintos tiposen profundidad o en anchura [Markov, 2007], que utiliza como datos de entrada las URL depáginas web. Su objetivo consiste en extraer la información necesaria de las páginas webvisitadas, enseguida usa los vínculos dentro de ellos a buscar a otras páginas y es capaz deasignar un orden jerárquico para abrirlas, en el menor tiempo posible [Scime, 2004]. Este

    proceso se repite hasta alcanzar valores que le son implantados. Es la herramienta principalusada por los buscadores web [Chakrabarti, 2003]. Los hipervínculos son visitados para obtenercaracterísticas específicas. La composición de un rastreador puede tener diversas áreas deaplicación [Liu, 2007].

    Los rastreadores web mayormente son usados en los motores de búsqueda que recorren milesde páginas, verifican su contenido y en algunos casos descargan información en nuestro equiposobre un determinado tema, para después formar grandes volúmenes de información que seránusados para nuevos sistemas o programas de análisis [Chakrabarti, 2003]. Otra área deaplicación es el análisis empresarial, donde su objetivo es analizar el contenido web acerca decompetidores en el mercado, productos, ventas, etc. [Liu, 2007]. Markov [Markov, 2007] afirmael uso de rastreadores en áreas como el monitoreo y rastreo de páginas web. En esta zona sustareas principales son detectar quienes acceden a las paginas (usuarios o bots) o informar a losusuarios o comunidades información relevante. Inclusive son usados con fines maliciosos paraacceder a sitios web de acceso restringido, en donde obtienen información privada de empresaso personas y usar esta información para cometer delitos [Scime, 2014].

    La minería de datos es un área de las ciencias computacionales que se dedica al tratamientode la información, pretende descubrir patrones, modelos o formas de comportamiento mediantetécnicas adecuadas [Zaki, 2014], es necesario poseer una gran cantidad de datos paradesarrollar este proceso [Hernández, 2004]. El autor Han menciona que la minería de datos

    abarca el uso de otras áreas de conocimiento, algunas de ellas son: las bases de datos, elaprendizaje automático, la estadística, el reconocimiento de patrones, la recuperación deinformación, el uso de redes neuronales y la inteligencia artificial, para obtener mejoresresultados en la presentación de resultados [Han, 2006]. Es importante mencionar que, no todoslos patrones obtenidos serán útiles. La minería de datos tienda a la extracción de informacióncon cierto grado de exactitud, por tal motivo es primordial, saber que algoritmos aplicar a losdatos, para obtener los datos que realmente nos interesan [Witten, 2011].

    Las técnicas de la minería de datos de acuerdo a las etapas que se planteen en un comienzo,están principalmente clasificadas en 3 tipos que son técnicas predictivas, descriptivas yauxiliares [Pérez, 2008], [Pérez, 2014]. Las técnicas predictivas están basadas en la teoría.

    Además, se incluyen todos los tipos de regresión, asociación, análisis de la varianza,covarianza, análisis discriminante, series temporales y métodos bayesianos [Fu, 2014],[Hernández, 2004]. Las técnicas de modelado originado por los datos (técnicas descriptivas)están basadas solo en patrones. Los métodos más usados son asociaciones, dependencias,clustering y segmentaciones. Por último, están las técnicas auxiliares, su principal propósito esservir de apoyo para verificar resultados por medio de informes [Pérez, 2008].

  • 8/16/2019 JuárezPro4.0

    12/22

    Las técnicas de la minería de datos están principalmente clasificadas en 3 tipos que sontécnicas predictivas, que están basadas en la teoría. Además, se incluyen todos los tipos deregresión, asociación, análisis de la varianza, covarianza, análisis discriminante, seriestemporales y métodos bayesianos. Las técnicas de modelado originado por los datos estánbasadas solo en patrones. Los métodos más usados son asociaciones, dependencias,

    clustering y segmentaciones. Por último, están las técnicas auxiliares, su principal propósito esservir de apoyo para verificar resultados por medio de informes.

    El agrupamiento es una técnica que nos permite juntar ciertos documentos que presentan entresí, una o varias características semejantes o con valores aproximados conforme a lo que dicenLiu, Scieme [Liu, 2007], [Scieme, 2004]. A través de este proceso, es posible predecir sucomportamiento usuario, patrones comunes, agrupar objetos similares, u organizar en

     jerarquías. [Markov, 2007], poder clasificarlos, mediante los grupos que se formen. Esto es unproceso no supervisado. Las medidas de igualdad son esenciales para muchas formas deaprendizaje no supervisado. [Chakrabarti, 2003]. Suele ser un proceso recurrente en la mineríade datos.

    La minería de datos se puede aplicar prácticamente en cualquier área de estudio [Thompson,2010], por ejemplo: medicina, química, economía, deportes, política, desarrollo web, entremuchas otras [Hernández, 2004], [Fu, 2014], Tiene el objetivo de ayudar a mejorar el entorno,mejor visualización de resultados y facilitar la toma de decisiones para cuestiones financieras,análisis de mercados, comercios, salud privada, bioingeniería, telecomunicaciones, bancos, etc.[Pérez, 2008].

    La minería web se enfoca a procesar la información que se encuentra almacenada en la WorldWide Web, mediante las técnicas ya conocidas de la minería de datos [Hernández, 2004]. Susprincipales objetivos son mejorar la calidad de prestación de servicios de información, optimizar

    los motores de búsqueda [Witten, 2011] y descubrir los patrones sobre tendencias de accesopor parte del comportamiento de los usuarios en la web [Han, 2006]. Emplea otras áreas deconocimiento como el aprendizaje de máquina, técnicas estadísticas, bases de datos,inteligencia artificial, la recuperación de información, el uso de ontologías y visualización parala generación de resultados [Liu, 2007].

    Las ontologías, comúnmente llamadas taxonomías o catálogos pueden ser definidos diagramasestructurados de árboles. Poseen un alto grado de semejanza a las interfaces de consulta parala extracción de las características de un tema. Son empleadas para la jerarquización decomentarios múltiples para generar resúmenes estructurados [Liu, 2007]. Chakrabarti defineuna antología como un glosario, acerca de las entidades descritas por los componentes en elglosario y se establecen los nexos entre las entidades. Las entidades suelen ser abreviaturas[Chakrabarti, 2003].

    El significado de cada letra puede hacer referencia a términos conceptos y entidades con susrespectivos vínculos [Medina, 2007]. Son difíciles de utilizar debido a su alto grado paraconformar los conceptos fundamentales y establecer las relaciones [Scime, 2004].

  • 8/16/2019 JuárezPro4.0

    13/22

    La recuperación de la información (IR) son un conjunto de procedimientos que analizan lainformación que se encuentra alojada en la web [Scime, 2004]. Su principal función es ayudaral usuario a encontrar la información deseada, mediante la detección de palabras clave, engrandes bancos de información [Liu, 2007]. Es eficaz, debido a la reducción de términos de granmagnitud. Los motores de búsqueda emplean distintos métodos propios de la IR en cada

    consulta que solicitan los usuarios. Chakrabarti [Chakrabarti, 2003] menciona que las técnicasde IR suelen tener uniones y divisiones de sentencias. Posteriormente después de lasconsultas, los resultados son clasificados mediante jerarquías [Markov, 2007].

    La minería de datos web está dividida de acuerdo a diversos autores en 3 áreas principales: laestructura web (orientada a la organización y jerarquización, para el crecimiento de mejoressitios web), el contenido de información (orientada para mejorar las búsquedas de información)y los usuarios de la web (el comportamiento de los usuarios) [Chakrabarti, 2003], [Liu, 2007],[Fu, 2014], [Hernández, 2004].

    La minería web de estructura se enfoca de acuerdo a Markov [Markov, 2007] y a Chakrabarti

    [Chakrabarti, 2003] a la obtención de información de la web, además utiliza los hipervínculos delas páginas web de las páginas para la indexación, la búsqueda y la clasificación dedocumentos. Los hipervínculos son una parte fundamental, por este motivo también se estudiael modelo y la composición de estos, también pretende obtener mejor posicionamiento parasitios web [Scime,2004]. De esta manera los motores de búsqueda buscan obtener mejorposicionamiento y mejores resultados para los usuarios, tomando cada vez mayor importancia[Liu, 2007].

    La minería del contenido de la Web es el proceso de descubrir información útil dediverso formatoen la web. El contenido del texto es la parte más investigada,mediante los rastreadores decontenido web [Scieme, 2004]. De acuerdo con Markov [Markov, 2007], la minería de contenido

    web utiliza 2 enfoques principales.

    El primer enfoque es la clasificación, en donde, clasifica todas las páginas por contenido similar.El segundo enfoque es la agrupación, que consiste en un orden específico ya sea por tema opreferencia para posteriormente ser evaluados [Chakrabarti, 2003]. Es posible obtenerinformación útil acerca de productos, o en específico, secuencias de registros, etc. [Liu, 2007].

    La minería de texto es definida como una sub-área de la minería contenido web [Scime, 2004].Sus principales funciones son el descubrimiento de temas, la extracción de patrones deasociación, agrupación de documentos web y clasificación de sitios web. La minería de textoresuelve problemas mediante el uso del procesamiento de lenguaje natural, que se basa en la

    similitud de distribución [Liu, 2007]. Su principal objetivo es la generación de búsquedas deinformación más eficaces [Kolek, 2006]. Las tareas básicas de la minería de texto son losprocesos de descubrimiento de patrones interesantes y nuevos conocimientos en coleccionesde textos, para la extracción de un nuevo conocimiento [Medina, 2007].

    La minería del uso de la Web es un proceso de extracción de información eficaz utilizando comodatos de entrada algoritmos de minería de datos y el historial de los usuarios [Liu, 2007], con elfin de obtener patrones de acceso para la personalización en el diseño web [Scime, 2004]. La

  • 8/16/2019 JuárezPro4.0

    14/22

    minería del uso de la Web es el proceso de descubrir lo que los usuarios buscan en Internet.Markov [Markov, 2007] menciona que la minería de uso web es muy utilizada pordesarrolladores web, que buscan retroalimentación acerca del comportamiento de los usuariosen la navegación web. Otras áreas en donde se utiliza la minería web son el e-marketing ycomercio electrónico profesionales [Chakrabarti, 2003].

    Un web log es un archivo generado por los servidores de manera automática, mediante elconstante uso de navegadores y agentes [Chakrabarti, 2003], son la fuente principal deextracción de datos para el proceso de minería web de uso [Han, 2006] en el descubrimientode patrones de acceso de los usuarios. Su principal contenido son los sitios web visitados yalmacena todos los clics de los usuarios en el entorno web [Liu, 2007] [Hans, 2006]. Este archivode texto puede ser delimitado por comas, delimitado por el espacio, o delimitado por tabuladores[Markov, 2007].

    La web semántica es un término que ha surgido recientemente impulsado por el consorcio webw3c.org. Su principal objetivo es utilizar los métodos de representación del conocimiento en la

    Web. Hoy en día todos los sitios web están estructurados para el entendimiento humano[Markov, 2007]. Se basa en el uso de ontologías para representar la gestión del conocimiento[Medina, 2007]. Scime expresa que la web semántica modificará en gran medid lapersonalización de la web y las tareas de la minería web. La Web Semántica une las dos áreasde investigación en rápido desarrollo de la Web semántica y la minería Web con el propósito demejorar la minería Web mediante la explotación de las nuevas estructuras semánticas en laWeb [Scime, 2004]. Una peculiaridad propia es la obtención de palabras clave de losdocumentos, incluso supera la comprensión de la información datos para culminar en unasemántica legible por las computadoras, recordando la estructura de los sitios en la web (semio no estructurados) [Hans,2006].

  • 8/16/2019 JuárezPro4.0

    15/22

    Anexo 2: Estado del Arte

    El Sistema Recomendador de Oportunidades de Estudio (SROE) fue desarrollado bajo 2métodos para la fase de análisis: el primer método emprende un análisis para asignar la

    posibilidad y factibilidad de incorporar a la propuesta inicial de diseño planteada en laimplementación. La segunda propuesta de análisis se analizan los enfoques recomendadospara verificar su viabilidad sobre el modelo, [Corniel, 2011].Fue diseñado para estudiantes que intentan ingresar a universidades, en donde algunascarreras están en base con preferencias, competencias y recursos que el alumno aspiranteposee. Se originaron nuevos requerimientos de interfaz y minería de datos mediante losrecursos semánticos usados (ontologías, perfiles y modelos de uso) [Borges, 2009]. Otro factorimportante para el desarrollo del SROE es el arduo trabajo que realizan los aspirantes, sudecisión sobre en qué universidad estudiar depende de los resultados de consultas tradicionalesen la web. Los resultados de una consulta tradicional a sistemas de información son pocoeficaces, debido a que la información acerca de las carreras en diferentes sitios web, seencuentran desactualizados y disociados, predomina el poco uso del lenguaje formal [Corniel2011].

    Para la creación del sistema SROEC fue necesario trabajar bajo el paradigma de agentes, lametodología GAIA y el lenguaje AUML, para la creación de un prototipo de sistema usado paradispersar información en la Web. Debido al gran parecido entre los subsistemas y loscomponentes principales, se sugirió como referente para la implementación del prototipo desistema recomendador asistido por una entidad multi-agente para la gestión de información. Endonde cada agente lleva a cabo la función para el cual fue designado mediante un lenguaje decomunicación llamado ACL [Singh, 1998].Se implementaron técnicas de minería de datos y agentes para llevar a cabo actividades como:

    gestión de flujo de datos, dirección de redes, control de tráfico aéreo, reingeniería de procesos,minería de datos, gestión y recuperación de información, comercio electrónico, educación,asistentes personales digitales (conocidas como PDA´s por sus siglas en inglés), correoelectrónico, bibliotecas digitales, comando y control. Las tareas realizadas por los agentes eneste desarrollo son: la formulación de una consulta, recopilación de información para lageneración del conocimiento, a partir de fuentes diseminadas en la web, y elementos de controlautomático para la gestión de parámetros internos que permiten el correcto funcionamiento delsistema [Corniel, 2011].Los datos requeridos son almacenados en 6 estructuras diferentes. La primera de ellas estáconformada por los perfiles del usuario, descrita anteriormente. Otra base de datos es derecomendaciones (RB): guarda las recomendaciones creadas por el propio sistema luego de

    procesar todos los datos ingresados por el usuario aspirante con el SROE. A menudo es usadapara filtrar mejores sugerencias de opciones de estudio. El tercer repositorio guarda sóloreferencias.Las referencias son originadas por los aspirantes en relación con los orientadores, cuando

    finaliza la elección de carrera deseada. Se utiliza junto con las bases de dominio y de usuariopara configurar las opciones entorno a las características del aspirante. La base de dominioguarda las características del entorno y recursos (carreras, ubicación, dependencia, área deconocimiento). Existe también la base de conocimientos, almacena los metadatos integrados,

  • 8/16/2019 JuárezPro4.0

    16/22

    en formato XML. Por último, se encuentra la base de los usuarios. No solo contiene preferenciasy gustos, como login y password, sino también las propiedades del perfil del usuario (aptitudes,preferencias, características específicas, etc.) [Corniel, 2011].

    Las conclusiones obtenidas por Corniel en este proyecto es que la aplicación de la minería web

    es muy útil, debido a que nos permite generar conocimiento de las bases de datos ontológicas.Es muy recomendable la aplicación de agentes inteligentes junto con la minería de datostradicional. La aplicación del nuevo diseño al SROE, plantea la posibilidad de desarrollo usandominería Web semántica, como alternativa para construir las decisiones de los aspirantes quedesean ingresar al nivel superior en Venezuela, a través de sugerencias más acordes a losusuarios. Los trabajos anteriormente estudiados arrojan que la información en conocimiento,permite al usuario indagar con mayor facilidad y generar decisiones más confiables [Corniel,2011].

    En 2005, Baeza desarrolló un proyecto aplicando técnicas de minería de uso y contenido web.Su principal objetivo es facilitar las consultas para el hallazgo de información relevante, sobre

    cómo re-organizar la estructura y contenido del sitio web. El modelo ha sido probado en diversossitios web que cuentan con diversas características (temática, alcance, tamaño). En términosgenerales se pretende resolver problemas sobre la presentación de los sitios web frente a losusuarios, mejorando hipervínculos y documentos [Baeza, 2005].

    Los datos utilizados en esta investigación pueden ser extraídos ya sea del cliente, de losservidores o de las bases de datos empresariales. Un punto importante a considerar es el usola minería web, por tal motivo los datos requeridos están clasificados en los 3 tipos de mineríaweb existentes: de contenido, de estructura y de uso. Los datos de contenido por lo generalconsisten principalmente en texto, que es el tipo de dato más difícil de analizar. Un sitio webtambién puede almacenar imágenes y una gran variedad de archivos de diversos formatos queson visualizados en las consultas que realizan los usuarios. Los datos de estructura establecentodas las características que posee un sitio web que incluyen todo el contenido, su forma devisualización, sus hipervínculos hacia otras páginas web, etc. Por último, se encuentran losdatos de uso, son aquellos datos que describen el uso de un sitio, que son los registros deactividad de un sistema almacenados en ficheros de texto, mejor conocidos como archivos log,de los servidores Web [Baeza, 2005].Los conceptos clave definidos por Baeza en el planteamiento del desarrollo de su modelo sonsesiones, motores de búsqueda, consultas y sesiones de la información.Una sesión puede ser definida como un conjunto de archivos logs de un mismo sitio web, queson almacenados en un cierto lapso de tiempo periódico. El intervalo de tiempo puede tomarcualquier valor que se ajuste a nuestras necesidades, el valor por defecto es de 30 minutos. Elcontenido de los logs incluye la detección de todos los usuarios registrados mediante sudirección IP y el uso de agentes.Los motores de búsqueda están clasificados como internos y externos. Los motores de

    búsqueda internos realizan búsquedas de información sobre mismo sitio web, a diferencia deun motor de búsqueda externo, donde los resultados son de diversos sitios de toda la web. Lasconsultas se generan por el usuario al ingresar palabras clave de temas específicos en losmotores de búsqueda. La esencia de la información [Pirolli, 1997] evalúa las palabras claveingresadas por el usuario, para predecir la calidad de los resultados que muestren los motores

  • 8/16/2019 JuárezPro4.0

    17/22

    de búsqueda en la web. Existen palabras homónimas, que complican la búsqueda deinformación específica sobre alguna temática, debido a su similitud de escritura [Baeza, 2005].

    En 2008 Carmona desarrolla un proyecto enfocado principalmente a la minería web de uso,aplicando algoritmos genéticos y lógica difusa. Los datos a procesar serán obtenidos de una

    base de datos llamada MSNBC Anonymous Web Data, que contiene la información sobre sitiosweb abiertos por los usuarios que accedieron a la web el día 28 de septiembre del 1999. Elprocedimiento consiste en usar un método denominado SDIGA para la obtención de informaciónde interés sobre el uso de la web y poder comunicarlo mediante reglas difusas de subgrupos[Carmona, 2008].

    Para la resolución de problemas se pueden aplicar distintos tipos de técnicas de minería dedatos. Estas áreas y técnicas son las siguientes:Personalización: Esta técnica consiste en analizar el orden de sitios web a las que accede unusuario para desarrollar el tipo de perfil. Existe otra técnica denominada fuzzy clustering.Consiste en generar perfiles de usuario, aplicarlos para obtener una web de interés para el

    usuario de manera instantánea [Kamdar, 2001], una técnica de reglas de asociación, donde elsoporte su ajusta automáticamente [Lin, 2002].

    Otra técnica es la que se encuentra basada en la agregación de perfiles de usuario, conclustering y reglas de asociación [Mobasher, 2002]. El método Caching, estudia los procesosde agrupación para determinar las posibles páginas que visitará el usuario y cargarlaspreviamente. Existe un modelo de esta magnitud ya instalada en algunos navegadores [Lan,2000], también está la opción de encontrar el modelo con el algoritmo de reglas de asociaciónbasado en la filosofía GSDF [Yang, 2003], entre otras. En el proceso de diseño de minería webde uso, se analiza la calidad y eficacia de las páginas del sitio.

    Existen diversas técnicas para encontrar los patrones de secuencias y poderlos agrupar paraobtener una mejor estructura de un sitio web [Berendet, 2002], algunos procedimientos aplicanclasificadores para obtener un sistema web adaptativo para dar facilidades de navegación a losusuarios [Fu, 2001], otras técnicas se encargan de evaluar la calidad de navegación, delservicio o de la página mediante técnicas de patrones de secuencia [Spiliopoulou, 2001], ytécnicas que procesan en el backtracking de los usuarios para describrir el tipo decomportamiento para el diseño, buscando patrones de secuencia en las páginas [Srikant, 2001].Finalmente, se encuentra el e-comercio, donde se aplican diversos tipos de clustering paraanalizar todos los vínculos en las páginas web, basándose en lógica difusa y algoritmosgenéticos [Hay, 2001].

    Las consultas satisfactorias son todas aquellas que nos muestran resultados con esencia deinformación. El comportamiento de los usuarios influye de manera crucial sobre los resultadosde las consultas que se realicen. Es por ello que las consultas satisfactorias están clasificadasen 2 tipos: clase A y clase B.Las consultas no satisfactorias, son todos aquellos resultados de las búsquedas de informaciónque no poseen ninguna relación con las palabras clave del usuario, es decir, resultadoserróneos. Las consultas insatisfactorias están divididas en 4 tipos: C, C´, D Y E.

  • 8/16/2019 JuárezPro4.0

    18/22

    Las principales conclusiones son que el modelo propuesto por Baeza realmente resuelve elproblema planteado. La categorización de los tipos de consultas no satisfactorias clase D otorgael beneficio de saber el contenido faltante mediante el análisis de palabras clave.

    Un problema detectado en la implementación del modelo propuesto por Carmona es el enormetamaño de la base de datos, por este motivo fue necesario reducir el número de instancias paraahorrar el tiempo de procesamiento y almacenamiento. En la actualidad, es muy fácil encontrarse pueden encontrar diversos métodos de reducción de instancias aplicadas a la base de datosMSNBC. Los datos utilizados fueron elegidos mediante una selección de instancias aleatoriadel 10% sobre la base de datos real, obteniendo una nueva base de datos con 98982 usuarios.

    Las principales conclusiones del modelo propuesto por Camona, indica un primer acercamientoal uso de un algoritmo de descubrimiento de subgrupos con gramáticas difusas para unproblema de minería de uso web. Es importante destacar que los datos de la base, nuncahabían sido procesados mediante esta técnica. Se han reducido los datos de la base de datos

    original en un 90%. Se recomienda estudiar otros métodos de selección de datos para compararlos resultados. La integración de un método de selección podría dar buenos resultados.Se sugiere aplicar una investigación sobre métodos de pre-procesamiento para esta base dedatos en proyectos futuros. Se pretende demostrar que es posible realizar una selección deinstancias sobre MSNBC sobre los datos con mayor relevancia posible y usar métodos deminería de datos. El descubrimiento de subgrupos y las secuencias que existen en la base dedatos son métodos que pueden seguir aportando información, más importante que la extracciónde patrones frecuentes e indicando las secuencias que los usuarios realizan para llegar a unaclasificación determinada [Carmona, 2008].

    Referencias Bibliográficas

  • 8/16/2019 JuárezPro4.0

    19/22

    [Arrondo, 2000] Víctor Arrondo, Ángel Esteban. Desarrollo de Aplicaciones COM+ paraInternet/Intranet con ASP 3. Grupo EIDOS. 2000.https://mega.co.nz/#F!tFFF2CJL!W4vpuyhzitLo2Jjd1EdQdw

    [Baeza, 2005] Baeza Yates Ricardo. Poblete Bárbara.  “Una herramienta de minería dconsultas para el diseño del contenido y la estructura de un sitio Web”.

    Departamento de Tecnología Universitat Pompeu Fabra &Centro de Investigación de la Web, DCC, Universidad de Chile. 2005

    http://www.lsi.us.es/redmidas/CEDI/papers/187.pdf

    [Carmona, 2008] Carmona del Jesús Cristóbal José. Riva Santos Víctor Manuel. “Aplicación dun algoritmo de extracción de reglas difusas para minería de uso web”. DeptoInformática. Universidad de Jaén. 2008http://simidat.ujaen.es/sites/default/files/biblio/2008a%20-%20ESTYLF.pdf

    [Chakrabarti,2003]

    Chakrabarti Soumen. Mining the web discovering knowledge from HypertextData. Ediciones Morgann Kaufman Indian Institute of Technology, Bombay,

    2003https://books.google.com.mx/books?id=5Zxw1h6yc_UC&printsec=frontcover&dq=mining+web&hl=es&sa=X&redir_esc=y#v=onepage&q&f=false 

    [Coulouris,2012]

    Coulouris George. Dollimore Jean. Distributed Systems concepts and design.Editorial Addison Wesley. 5° edición, 2012https://azmuri.files.wordpress.com/2013/09/george-coulouris  -distributed-systems-concepts-and-design-5th-edition.pdf

    [Forousan,2003]

    Forousan Behrouz A. Introducción a la ciencia de la computación de lamanipulación de datos a la teoría de la computación. Ed. Ciencias

    Ingenierías. 1° edición, 2003,http://www.cuceinetwork.net/archivos/libros/Introduccion%20a%20las%20ciencias%20computacionales.pdf

    [Fu, 2014] Fu Yongjian, Data mining: task, techniques and applications.University of Missouri. 2014

    [Gauchat, 2012] Gauchat Juan Diego. El gran libro de HTML5, CSS3 y Javascript. Ediciones técnicas marcombo. Primera Edición. 2012

    [Glen, 2012] Glen Brookshear J. Introducción a la computación. EditorialPearson. 11° edición, 2012

    http://aletinte.com/introduccion-a-la-computacion-11va-edicion-j-glenn-brookshear/

    [Han, 2011] Han Jiawei, Kamber Micheline, Pei Jian. Data Mining Concepts andTechniques. Editorial Morgan Kaufman. 3° edición. 2011.Bibiloteca UAP Tianguistenco.

    [Hay, 2001] Hay B. Wets B. Vanhoof K. “Clustering navigation patterns on

    https://mega.co.nz/#F!tFFF2CJL!W4vpuyhzitLo2Jjd1EdQdwhttps://azmuri.files.wordpress.com/2013/09/george-coulourishttps://azmuri.files.wordpress.com/2013/09/george-coulourishttp://www.cuceinetwork.net/archivos/libros/http://aletinte.com/introduccion-a-la-computacion-11va-edicion-j-glenn-brookshear/http://aletinte.com/introduccion-a-la-computacion-11va-edicion-j-glenn-brookshear/http://aletinte.com/introduccion-a-la-computacion-11va-edicion-j-glenn-brookshear/http://aletinte.com/introduccion-a-la-computacion-11va-edicion-j-glenn-brookshear/http://www.cuceinetwork.net/archivos/libros/https://azmuri.files.wordpress.com/2013/09/george-coulourishttps://mega.co.nz/#F!tFFF2CJL!W4vpuyhzitLo2Jjd1EdQdw

  • 8/16/2019 JuárezPro4.0

    20/22

    a website using a sequence alignment method”. 2001 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1 . 1.20.8354&rep=rep1&type=pdf

    [Hernández,2008]

    Hernández Orallo José. Introducción a la minería de datos. EditorialPrentice Hall. 2008.

    Biblioteca UAP Tianguistenco.[Hopcroft,1993] Hopcroft E. John. Ullman D. Jeffrey. Introducción a la teoría de autómatas.Editorial cecsa. 1° edición, 1993http://www.fiuxy.net/ebooks-gratis/3106007-descargar-introduccion-la-teoria-de-automatas-lenguajes-y- computacion-hopcroft.html

    [Hopcroft, 2008] Hopcroft E. John. Motwani Rajeev. Teoría de autómatas,lenguajes y computación. Editorial Pearson. 3° edición, 2008.http://www.ciens.ucv.ve/portalasig/matem%C3%A1ticas_discretas_iii/2-2013/descarga/descargar_archivo/308

    [Leskovec,

    2014]

    Leskovec Jure. Mining off massive datasets.2014

    http://infolab.stanford.edu/~ullman/mmds/book.pdf

    [Lingras,2006] Lingras P. Lingras R. “Adaptative hyperlinks using page access sequencesand minimum spanning trees”. 2006. http://ieeexplore.ieee.org/xpl/articleDetails.jsp?tp=&arnumber =4295422&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D4295422

    [Liu, 2007] Liu Bing. Web Data Mining. Second edition. Editorial Springer.https://books.google.com.mx/books?id=jnCi0Cq1YVk  C&printsec=frontcover&dq=data+mining+web&hl=es&sa=X&redir_esc=

    y#v=onepage&q=data%20mining%20web&f=false[Manning, 2008] Manning Christopher, Raghavan Prabhakar, Schutze Hinrich.

    Introduction to Information Retrieval. Editorial Cambridge.1° edición.2008. Biblioteca UAP Tianguistenco.

    [Marakas, 2006] O´Brien James, Marakas George. Sistemas de InformaciónGerencial. Editorial Mc Graw Hill. 7° edición. 2006Bibiloteca UAP Tianguistenco.

    [Markov, 2007] Markov Zdravko. Data Mining the web uncovering patterns in webcontent, structure and usage. Editorial Wiley. Nueva Inglaterra. 2007http://dbmanagement.info/Books/MIX/Data_

    Mining_the_Web_Uncovering_Patterns_in_Web_Content_Structure_and_Usage.pdf

    [Mesnil, 2014] Mesnil Jeff. Mobile and Web Messaging. Primera Edición. 2014http://www.it-ebooks.info/book/4682/

    http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1http://www.ciens.ucv.ve/portalasig/matem%C3%A1ticas_http://infolab.stanford.edu/~ullman/mmds/book.pdfhttp://ieeexplore.ieee.org/xpl/articleDetails.jsp?tp=&arnumberhttps://books.google.com.mx/books?id=jnCi0Cq1YVkhttps://books.google.com.mx/books?id=jnCi0Cq1YVkhttps://books.google.com.mx/books?id=jnCi0Cq1YVkhttp://ieeexplore.ieee.org/xpl/articleDetails.jsp?tp=&arnumberhttp://infolab.stanford.edu/~ullman/mmds/book.pdfhttp://www.ciens.ucv.ve/portalasig/matem%C3%A1ticas_http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1

  • 8/16/2019 JuárezPro4.0

    21/22

    [Norton,2006] Norton Peter. Introducción a la computación. Editorial McGraw Hill. 6° edición2006https://mega.co.nz/#!wBkFwJCQ

    [Silvioti, 2007] Sivilotti Paul. Introduction to Distributed Systems. Dept. of Computer

    Science and Engineering The Ohio State University Columbus. 2007http://www.cse.buffalo.edu/~demirbas/CSE586/book.pdf

    [Sirovich, 2007] Sirovich Jaimie. Darie Cristian. Optimización del posicionamiento enbuscadores con PHP. Editorial Wrox. 2007Biiblioteca UAP Tianguistenco

    [Srikant, 2001] Srikant Ramakrishnan. Yang Yinghui. “Mining web logs timprove website organization”. 2001.https://pdfs.semanticscholar.org/0e8c/469b5b4cdc0785c169  

    b807b91075c5db9b5c.pdf[Scott, 2009] Patricia Scott Peña. Desarrollo web con PHP y MySQL. Anaya Multimedia-Anaya Interactiva, 2009. http://depositfiles.org/es/files/dkink1aq1

    [Tan, 2006] Tan Pang- Ning, Steinbach Michael, Kumar. Introduction to Data Minig.Editorial Addison Wesley.Biblioteca UAP Tianguistenco.

    [Tanenbaum,2008]

    Tanenbaum Andrew, Van Steen Maarten. Sistemas distribuidos: Principios yparadigmas. Editorial Prentice Hall. 2° edición.Biblioteca UAP Tianguistenc

    [Vaswani, 2008] Vaswani Vikram.PHP soluciones de programación. Editorial Mc GrawHill.2008Biblioteca UAP Tianguistenco.

    [Vieira, 2009] Luis Paulo Vieira Braga. Introducción a la minería de datos.Editorial E-papers. 2009https://books.google.com.mx/books?id=jIJEhHyESFsC&printsec=frontcover&dq=mineria+de+&hl=es&sa=X&redir_esc=y#v=onepage&q=mineria%20de%20datos&f=false

    [Witten, 2011] Witten H. Ian. Data Mining, practical machine learning tolos and

    techniques. Editorial Morgan Kaufmann. 3° edición.2011Biblioteca UAP Tianguistenco.

    [Yang, 2003] Yang Qiang. Zhang Henry. “Web-log mining fopredictive web caching”. IEEE Transactions on Knowledge and DatEngineering, 2003.http://www.cs.ust.hk/~qyang/Docs/2003/henry03.pdf  

    https://mega.co.nz/#!wBkFwJCQhttp://www.cse.buffalo.edu/~demirbas/CSE586/book.pdfhttps://pdfs.semanticscholar.org/0e8c/469b5b4cdc0785c169https://pdfs.semanticscholar.org/0e8c/469b5b4cdc0785c169http://depositfiles.org/es/files/dkink1aq1http://depositfiles.org/es/files/dkink1aq1https://pdfs.semanticscholar.org/0e8c/469b5b4cdc0785c169http://www.cse.buffalo.edu/~demirbas/CSE586/book.pdfhttps://mega.co.nz/#!wBkFwJCQ

  • 8/16/2019 JuárezPro4.0

    22/22

    [Zaki, 2014] Zaki Mohammed. Data mining analysis. Fundamental concepts algorithms.Cambridge University Press.http://www.cs.rpi.edu/~zaki/PaperDir/DMABOOK.pdf

    [Zelle, 2002]Zelle, Ph.D. John. Python Programming: An Introduction to ComputerScience. Version 1.0rc2. 2002

    http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.6062&rep=rep1&type=pdf

    http://citeseerx.ist.psu.edu/viewdoc/download?doihttp://citeseerx.ist.psu.edu/viewdoc/download?doi