Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
Aplicaci‡n de los Mapas Aplicaci‡n de los Mapas Aplicaci‡n de los Mapas Aplicaci‡n de los Mapas Aplicaci‡n de los Mapas Aplicaci‡n de los Mapas Aplicaci‡n de los Mapas Aplicaci‡n de los Mapas AutoorganizativosAutoorganizativosAutoorganizativosAutoorganizativosAutoorganizativosAutoorganizativosAutoorganizativosAutoorganizativos al al al al al al al al
campo de la Documentaci‡ncampo de la Documentaci‡ncampo de la Documentaci‡ncampo de la Documentaci‡ncampo de la Documentaci‡ncampo de la Documentaci‡ncampo de la Documentaci‡ncampo de la Documentaci‡n
SRPSRPCarlos CarrascosaCarlos Carrascosa CasamayorCasamayor
Vicente J. JuliánVicente J. Julián IngladaInglada
Introducci‡nIntroducci‡nIntroducci‡nIntroducci‡nIntroducci‡nIntroducci‡nIntroducci‡nIntroducci‡n
Objetivo: Cubrir necesidades de:• Organizar, explorar y buscar colecciones
de documentos textuales de formato libre.• Métodos de recuperación de información
sistemáticos explorativos (posible noconocimiento de las claves).
ExploraciónExploraciónJerarquía de Jerarquía de Documentos Documentos (Tradicional)(Tradicional)
Métodos Métodos AutomáticosAutomáticos
Medios efectivos de codificación y ordenación Medios efectivos de codificación y ordenación de documentos con formato librede documentos con formato libre
2
Mapas Mapas Mapas Mapas Mapas Mapas Mapas Mapas AutoorganizativosAutoorganizativosAutoorganizativosAutoorganizativosAutoorganizativosAutoorganizativosAutoorganizativosAutoorganizativos(SOM)(SOM)(SOM)(SOM)(SOM)(SOM)(SOM)(SOM)
–– NoNo -- supervisada.supervisada.–– Ordenar datos estadísticos con unaOrdenar datos estadísticos con una
alta dimensionalidad.alta dimensionalidad.
–– “SOM Semántico”“SOM Semántico”
Entradas parecidas sean en general Entradas parecidas sean en general mapeadasmapeadas cercanascercanas
Organizar las palabras en categorías Organizar las palabras en categorías gramaticales y semánticas representadas en gramaticales y semánticas representadas en un vector bidimensionalun vector bidimensional
SimilaridadSimilaridad de las categoríasde las categorías Distancia en Distancia en el vectorel vector
–– Procesamiento matemático de los documentos paraProcesamiento matemático de los documentos paraidentificar las palabras más representativasidentificar las palabras más representativas
SOM como SOM como SOM como SOM como SOM como SOM como SOM como SOM como Clasificador de DocumentosClasificador de DocumentosClasificador de DocumentosClasificador de DocumentosClasificador de DocumentosClasificador de DocumentosClasificador de DocumentosClasificador de Documentos
•• ConvertirConvertir los documentos en números quereflejen el contenido temático.
Medición de frecuenciasMedición de frecuenciasRepeticiones en Repeticiones en el documentoel documento RepresentatividadRepresentatividad
Palabra aparece en casi todos los documentosPalabra aparece en casi todos los documentosMínima capacidad para diferenciar Mínima capacidad para diferenciar unos documentos de otrosunos documentos de otros
Valor de Discriminación Valor de Discriminación del Términodel Término
Indica en qué medida una Indica en qué medida una palabra es representativa de un palabra es representativa de un documento.documento.
Entrada al SOMEntrada al SOM
3
WEBSOM: Introducci‡nWEBSOM: Introducci‡nWEBSOM: Introducci‡nWEBSOM: Introducci‡nWEBSOM: Introducci‡nWEBSOM: Introducci‡nWEBSOM: Introducci‡nWEBSOM: Introducci‡nGrupo de Kohonen (Univ. Tecnol. de Helsinki)Clasifica grandes volúmenes de informaciónprocedentes de un grupo de noticias USENET.Salida gráfica:– Áreas Oscuras: Mayor densidad de información.– Temas resumidos en tres letras.– Selección de una zona:
• 1º) Acceso a un mapa ampliado de dicha zona.• 2º) Acceso a una lista de documentos del tema de la zona
– http://websom.hut.fi/websom
WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: ArquitecturaArquitecturaArquitecturaArquitecturaArquitecturaArquitecturaArquitecturaArquitecturaArquitecturaArquitectura básicabásica de dosde dos nivelesniveles (2(2 SOM’sSOM’sjerárquicamentejerárquicamente interrelacionadosinterrelacionados):):
MapaMapa del del DocumentoDocumento (MD)(MD)
MapaMapa de de CategoríasCategorías de de PalabrasPalabras (MCP)(MCP)
HistogramaHistograma““OscurecidoOscurecido””
EntradaEntrada TextualTextual...... ...... ......
4
WEBSOM: MCP WEBSOM: MCP WEBSOM: MCP WEBSOM: MCP WEBSOM: MCP WEBSOM: MCP WEBSOM: MCP WEBSOM: MCP
SOMSOM SemánticoSemántico queque describedescriberelacionesrelaciones dede palabraspalabras basándosebasándose enensussus contextoscontextos promediospromedios
Omisión de palabras:Omisión de palabras:•• Ocurren menos que un nº de veces.Ocurren menos que un nº de veces.•• Marcas de puntuación.Marcas de puntuación.•• Artículos.Artículos.
Proceso:Proceso:–– 1º) Entrenamiento1º) Entrenamiento–– 2º) Calibrar de nuevo el SOM (Entrada:2º) Calibrar de nuevo el SOM (Entrada:
WEBSOM: MDWEBSOM: MDWEBSOM: MDWEBSOM: MDWEBSOM: MDWEBSOM: MDWEBSOM: MDWEBSOM: MDEntrada: Histogramas de los documentos.Entrada: Histogramas de los documentos.
Proceso: Determinar la localización de cadaProceso: Determinar la localización de cadadocumento en el “Mapa de Documentos”.documento en el “Mapa de Documentos”.
Salida:Salida:–– Representación gráfica del MD con interfaz WWW.Representación gráfica del MD con interfaz WWW.
“Oscurecido”“Oscurecido”
Reducir la sensibilidad a pequeñas variacionesReducir la sensibilidad a pequeñas variaciones
5
WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: EjemploEjemploEjemploEjemploEjemploEjemploEjemploEjemplo (I):(I):(I):(I):(I):(I):(I):(I):Caso de estudio: 4600 documentos (1200000 palabras aprox.):Caso de estudio: 4600 documentos (1200000 palabras aprox.):2ª 1/2 de 1995 de2ª 1/2 de 1995 de comp.ai.neuralcomp.ai.neural--netsnets..
Preproceso:Preproceso:••Eliminar información noEliminar información no--textual:textual:
••Dibujos en ASCII.Dibujos en ASCII.••Firmas automáticas.Firmas automáticas.
••Eliminar 800 palabras comunes (suponiendo que noEliminar 800 palabras comunes (suponiendo que nodiscriminarían los tópicos de discusión).discriminarían los tópicos de discusión).
••Discusiones específicas:Discusiones específicas:••Regiones “claras” rodeadas de un color más oscuro.Regiones “claras” rodeadas de un color más oscuro.
••Zonas:Zonas:••Centro: Discusiones “típicas”.Centro: Discusiones “típicas”.••Extremos: documentos más diferentes.Extremos: documentos más diferentes.
WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: EjemploEjemploEjemploEjemploEjemploEjemploEjemploEjemplo (II):(II):(II):(II):(II):(II):(II):(II):MapaMapaMapaMapaMapaMapaMapaMapa CompletoCompletoCompletoCompletoCompletoCompletoCompletoCompleto
6
WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: EjemploEjemploEjemploEjemploEjemploEjemploEjemploEjemplo (II):(II):(II):(II):(II):(II):(II):(II):Zoom del Zoom del Zoom del Zoom del Zoom del Zoom del Zoom del Zoom del MapaMapaMapaMapaMapaMapaMapaMapa
WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: EjemploEjemploEjemploEjemploEjemploEjemploEjemploEjemplo (III):(III):(III):(III):(III):(III):(III):(III):NodoNodoNodoNodoNodoNodoNodoNodo del del del del del del del del MapaMapaMapaMapaMapaMapaMapaMapa
7
WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: WEBSOM: EjemploEjemploEjemploEjemploEjemploEjemploEjemploEjemplo (IV):(IV):(IV):(IV):(IV):(IV):(IV):(IV):DocumentoDocumentoDocumentoDocumentoDocumentoDocumentoDocumentoDocumento SeleccionadoSeleccionadoSeleccionadoSeleccionadoSeleccionadoSeleccionadoSeleccionadoSeleccionado
OtrosOtrosOtrosOtrosOtrosOtrosOtrosOtros SOM en SOM en SOM en SOM en SOM en SOM en SOM en SOM en Documentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡n::::::::El El El El El El El El TrabajoTrabajoTrabajoTrabajoTrabajoTrabajoTrabajoTrabajo de de de de de de de de XiaXiaXiaXiaXiaXiaXiaXia LinLinLinLinLinLinLinLin
EscuelaEscuela dede BiblioteconBibliotecon. de la Univ. de Kentucky.. de la Univ. de Kentucky.EstructuraciónEstructuración de la salida:de la salida:–– Como WEBSOM,Como WEBSOM, cadacada zonazona deldel mapamapa representarepresenta unun
tematema determinadodeterminado,, indicadoindicado porpor loslos nombresnombres yycolorescolores..
–– CadaCada puntopunto pequeñopequeño eses unun documentodocumento..–– PosibilidadPosibilidad dede aumentaraumentar // disminuirdisminuir lala resoluciónresolución dede
loslos puntospuntos yy nombresnombres
–– http://http://www.uky.edu/~xlinwww.uky.edu/~xlin//–– OtrosOtros sitiossitios concon mapasmapas dede esteeste tipotipo comocomo índiceíndice
automáticoautomático dede contenidoscontenidos: Yahoo, McDonnell: Yahoo, McDonnell--Douglas,Douglas,......
Observar sólo los grandes temas / Observar sólo los grandes temas / Observar en detalle los temas Observar en detalle los temas menores asociadosmenores asociados
8
OtrosOtrosOtrosOtrosOtrosOtrosOtrosOtros SOM en SOM en SOM en SOM en SOM en SOM en SOM en SOM en Documentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡n::::::::El El El El El El El El TrabajoTrabajoTrabajoTrabajoTrabajoTrabajoTrabajoTrabajo de de de de de de de de XiaXiaXiaXiaXiaXiaXiaXia LinLinLinLinLinLinLinLin
Mani-pulate
Interface
Animation
Logo
Multimedia
Program
Student
Video
Story
cited
tree
Matrixvector
Retrieval
Query
KM
HyperCard
CD
Menu
Data
File
Hypertext
Map
Memory
Knowledge
Expert
AI
Network
Neural
Parallel
Apple
Boston
Media
Conf.
object
WA
Algo-rithm
Innov.Mana-gement
electron
creativeMeta-phor
Medic
Aug-ment beliefTheory
OtrosOtrosOtrosOtrosOtrosOtrosOtrosOtros SOM en SOM en SOM en SOM en SOM en SOM en SOM en SOM en Documentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡nDocumentaci‡n::::::::OtrosOtrosOtrosOtrosOtrosOtrosOtrosOtros CasosCasosCasosCasosCasosCasosCasosCasos
ProcesamientoProcesamiento deldel lenguajelenguaje natural: Unnatural: Un FiltroFiltroNeuronal y unNeuronal y un MapaMapa dede InterésInterés NeuronalNeuronal parapara lalarecuperaciónrecuperación de lade la informacióninformación ((ScholtesScholtes).).
Para laPara la clasificaciónclasificación dede descripcionesdescripciones textualestextualesdede componentescomponentes dede bibliotecasbibliotecas de softwarede software((MerklMerkl).).
OrganizaciónOrganización dede páginaspáginas WWW (AI LabWWW (AI Lab -- Univ.Univ.Of Arizona).Of Arizona).
9
ConclusionesConclusionesConclusionesConclusionesConclusionesConclusionesConclusionesConclusionesAplicación reciente, pero adecuada, de los SOM:Aplicación reciente, pero adecuada, de los SOM:–– Clasificador.Clasificador.–– Salida gráfica.Salida gráfica.
Desde el punto de vista del usuario:Desde el punto de vista del usuario:–– Facilita la búsqueda y la navegación.Facilita la búsqueda y la navegación.–– Descubre relaciones que a priori no son evidentes.Descubre relaciones que a priori no son evidentes.
Bibliograf¤aBibliograf¤aBibliograf¤aBibliograf¤aBibliograf¤aBibliograf¤aBibliograf¤aBibliograf¤aXiaXia LinLin: (: (HttpHttp://://www.uky.eduwww.uky.edu//~xlin~xlin))
–– “Searching and Browsing on Map Displays”, Xia Lin, ASIS’95.“Searching and Browsing on Map Displays”, Xia Lin, ASIS’95.
WEBSOM: (WEBSOM: (HttpHttp://://websom.hut.fiwebsom.hut.fi))–– “Contextual Relations of Words in Grimm Tales, Analyzed by Self“Contextual Relations of Words in Grimm Tales, Analyzed by Self--OrganizingOrganizing
Map”, T. Honkela, V. Pulkki and T. Kohonen, Proceedings of ICANNMap”, T. Honkela, V. Pulkki and T. Kohonen, Proceedings of ICANN’95.’95.–– “Creating an Order in Digital Libraries with Self“Creating an Order in Digital Libraries with Self--Organizing Maps”, S. Kaski, T.Organizing Maps”, S. Kaski, T.
Honkela, K. Lagus and T. Kohonen, “Proc. WCNN’96, World CongressHonkela, K. Lagus and T. Kohonen, “Proc. WCNN’96, World Congress ononNeural Networks”, pp. 814Neural Networks”, pp. 814--817, 1996.817, 1996.
–– ""NewsgroupNewsgroup ExplorationExploration withwith WEBSOMWEBSOM MethodMethod andand BrowsingBrowsing InterfaceInterface”, T.”, T.Honkela, S. Kaski, K. Lagus and T. Kohonen. Report A32, HelsinkiHonkela, S. Kaski, K. Lagus and T. Kohonen. Report A32, Helsinki Univ. ofUniv. ofTechnology, Laboratory of Computer and Information Science, 1996Technology, Laboratory of Computer and Information Science, 1996..
–– “Self“Self--Organizing Maps of Document Collections: A New Approach toOrganizing Maps of Document Collections: A New Approach toInteractive Exploration”, K. Lagus, T. Honkela, S. Kaski and T.Interactive Exploration”, K. Lagus, T. Honkela, S. Kaski and T. Kohonen.Kohonen.
–– “Map of WSOM’97 Abstracts“Map of WSOM’97 Abstracts -- Alternative Index”, K.LagusAlternative Index”, K.Lagus–– “Self“Self--Organizing Maps of Document Collections”, T. Honkela, S. Kaski,Organizing Maps of Document Collections”, T. Honkela, S. Kaski, K.K.
Lagus and T. Kohonen, the second issue of ALMA.Lagus and T. Kohonen, the second issue of ALMA.
IRVAIE (Interfaz de realidad virtual para el acceso a informacióIRVAIE (Interfaz de realidad virtual para el acceso a informaciónnelectrónica) de la Univ. de Granada:electrónica) de la Univ. de Granada:
– “La aplicación de redes neuronales artificiales (RNA) a la recuperación de lainformación”, F. de Moya, V. Herrero, V. Guerrero, Anuario del SOCADI(SOciedad CAtalana de Documentación e Información)
– “La indización automática: tesauros, sistemas expertos y redes neuronales”.