Upload
lyris
View
53
Download
1
Embed Size (px)
DESCRIPTION
Maestría en Explotación de Datos y Descubrimiento del Conocimiento. Aplicaciones en Ciencia y Tecnología. Aplicaciones. Textos Ontologías Datos espaciales y temporales Imágenes Grafos Redes Sociales Biología Series de Tiempo Streams. Aplicaciones. Minería de Texto - PowerPoint PPT Presentation
Citation preview
Aplicaciones en Ciencia y Tecnología
Maestría en Explotación de Datos y Descubrimiento del Conocimiento
• Textos
• Ontologías
• Datos espaciales y temporales
• Imágenes
• Grafos
• Redes Sociales
• Biología
• Series de Tiempo
• Streams
Aplicaciones
Minería de Texto
Clasificar o categorizar documentos
Análisis de encuestas
Procesamiento automático de mensajes
Construcción de Ontologías
Buscadores (Vivisimo)
Datos espaciales
Patrones de evolución de Enfermedades
Clasificación en astronomía
Grafos
Patrones en estructuras moleculares
Patrones de uso en la web
Redes sociales
Biología
Expresiones de genes
Alineamiento de secuencias
Aplicaciones
Tratamiento genérico
Datos no estructurados o
estructuras complejas
Datos no estructurados o
estructuras complejas
Procesamiento previo
y extracción de características
Procesamiento previo
y extracción de características
Estructuras adecuadas a algoritmos
adaptados o específicos
Estructuras adecuadas a algoritmos
adaptados o específicos
Ejecución de los algoritmos
Texto
Imágenes
Grafos
Datos Espaciales
Datos Genéticos
Sacar palabras muycomunes, Stemming(raíz de la palabra)
Vector de pesos
Clasificaciónde documentos
Dividir en formas simples
R-TreeEncontrar formas comunes
Cuándo aplicar minería en C&T
No existen métodos analíticos o estos son extremadamente complejos
Es muy costoso cubrir todos los casos o pueden ser datos técnicamente disponibles pero no en la práctica
El mundo está lleno de correlaciones accidentales; el resultado de una búsqueda puede ser un reflejo de lo que queremos encontrar y no del fenómeno real.
Exploración petrolera
Solución de un número creciente de problemas
en la industria petrolera, en áreas tales como: caracterización de yacimientos,
optimización integrada subsuelo-superficie, detección temprana de mermas de
producción, y monitoreo y control de operación de pozos.
Astronomía
Sloan Digital Sky Survey, SDSS: imágenes en el espectro visible. Más de un
millón de objetos clasificados. 15,7 TB de imágenes, 26,8 TB de otros datos.
Comportamientos de Epidemias
Capacidades para la detección de la enfermedad, el seguimiento, y la situación de
Salud. (Datos Espacio/Temporales, grafos)
Cuándo aplicar minería en C&T
Cuándo aplicar minería en C&TMicroarreglos
Minería de Textos
• Análisis de información no estructurada en forma de texto
• Usa técnicas de Recuperación de la Información, extracción de la Información y procesamiento de lenguaje natural
• Es necesario un preprocesamiento de la información
• Crear un diccionario con todas las palabras ocurridas en los documentos
• Remover las palabras “stops”, “stemming” (variantes de la misma palabra raíz pueden ser consideradas equivalentes)
• Convertir a un vector de frecuencias de palabras: nuestro espacio de búsqueda es un espacio vectorial de palabras desde un vocabulario controlado.
• Aplicaciones: Categorización y clasificación de documentos
Minería de Textos
• Se debe “pesar” la palabra en el contexto de la colección de documentos: cuanto más aparece, menos valor discriminante tiene.
• Reducir la dimensión del espacio de vectores en un espacio de conceptos que agrupen palabras con igual significado: Latent Semantic Indexing.
• Categorización de documentos, consiste en asignar a cada documento una o varias categorías temáticas de entre un conjunto de categorías preestablecido.
• Agrupamiento de documentos consiste en la generación automática de grupos de documentos relacionados, por ejemplo, documentos que traten un mismo tema o asunto. A diferencia de lo que ocurre en la categorización, en los procesos de agrupamiento no existe un conjunto de categorías preestablecido, sino que el propio algoritmo a utilizar debe generar automáticamente esas categorías, contribuyendo de esta forma a generar un nuevo conocimiento.
Minería de Textos
Concepto A
Concepto B
Minería de Datos Espaciales
Representar el objeto por el rectángulo más pequeño [(x1,y1), (x2,y2)]
(MBR) y de manera recursiva
(x1,y1)
(x2,y2)
Minería de Datos Espaciales
R-Tree: Los MBR forman un árbol de orden m (en este caso 3)
R8
R1
R2R3
R6
R5R4
R7
R8
R7R6
R3R2R1 R5R4
Se puede usar la infromación espacial a niveles diferentes de
granularidad
Minería de Datos Espaciales
Minería de Grafos
Redes sociales, interacciones de proteínas, análisis de estructuras en compuestos químicos, redes de computadoras.
Encontrar subgrafos comunes
Encontrar subgrafos inusuales
Series de Tiempo
n
i ii cqCQD1
2)(),(
Series de Tiempo