16
Aplicaciones en Ciencia y Tecnologí Maestría en Explotación de Datos y Descubrimiento del Conocimie

Aplicaciones en Ciencia y Tecnología

  • Upload
    lyris

  • View
    53

  • Download
    1

Embed Size (px)

DESCRIPTION

Maestría en Explotación de Datos y Descubrimiento del Conocimiento. Aplicaciones en Ciencia y Tecnología. Aplicaciones. Textos Ontologías Datos espaciales y temporales Imágenes Grafos Redes Sociales Biología Series de Tiempo Streams. Aplicaciones. Minería de Texto - PowerPoint PPT Presentation

Citation preview

Page 1: Aplicaciones en Ciencia y Tecnología

Aplicaciones en Ciencia y Tecnología

Maestría en Explotación de Datos y Descubrimiento del Conocimiento

Page 2: Aplicaciones en Ciencia y Tecnología

• Textos

• Ontologías

• Datos espaciales y temporales

• Imágenes

• Grafos

• Redes Sociales

• Biología

• Series de Tiempo

• Streams

Aplicaciones

Page 3: Aplicaciones en Ciencia y Tecnología

Minería de Texto

Clasificar o categorizar documentos

Análisis de encuestas

Procesamiento automático de mensajes

Construcción de Ontologías

Buscadores (Vivisimo)

Datos espaciales

Patrones de evolución de Enfermedades

Clasificación en astronomía

Grafos

Patrones en estructuras moleculares

Patrones de uso en la web

Redes sociales

Biología

Expresiones de genes

Alineamiento de secuencias

Aplicaciones

Page 4: Aplicaciones en Ciencia y Tecnología

Tratamiento genérico

Datos no estructurados o

estructuras complejas

Datos no estructurados o

estructuras complejas

Procesamiento previo

y extracción de características

Procesamiento previo

y extracción de características

Estructuras adecuadas a algoritmos

adaptados o específicos

Estructuras adecuadas a algoritmos

adaptados o específicos

Ejecución de los algoritmos

Texto

Imágenes

Grafos

Datos Espaciales

Datos Genéticos

Sacar palabras muycomunes, Stemming(raíz de la palabra)

Vector de pesos

Clasificaciónde documentos

Dividir en formas simples

R-TreeEncontrar formas comunes

Page 5: Aplicaciones en Ciencia y Tecnología

Cuándo aplicar minería en C&T

No existen métodos analíticos o estos son extremadamente complejos

Es muy costoso cubrir todos los casos o pueden ser datos técnicamente disponibles pero no en la práctica

El mundo está lleno de correlaciones accidentales; el resultado de una búsqueda puede ser un reflejo de lo que queremos encontrar y no del fenómeno real.

Page 6: Aplicaciones en Ciencia y Tecnología

Exploración petrolera

Solución de un número creciente de problemas

en la industria petrolera, en áreas tales como: caracterización de yacimientos,

optimización integrada subsuelo-superficie, detección temprana de mermas de

producción, y monitoreo y control de operación de pozos.

Astronomía

Sloan Digital Sky Survey, SDSS: imágenes en el espectro visible. Más de un

millón de objetos clasificados. 15,7 TB de imágenes, 26,8 TB de otros datos.

Comportamientos de Epidemias

Capacidades para la detección de la enfermedad, el seguimiento, y la situación de

Salud. (Datos Espacio/Temporales, grafos)

Cuándo aplicar minería en C&T

Page 7: Aplicaciones en Ciencia y Tecnología

Cuándo aplicar minería en C&TMicroarreglos

Page 8: Aplicaciones en Ciencia y Tecnología

Minería de Textos

• Análisis de información no estructurada en forma de texto

• Usa técnicas de Recuperación de la Información, extracción de la Información y procesamiento de lenguaje natural

• Es necesario un preprocesamiento de la información

• Crear un diccionario con todas las palabras ocurridas en los documentos

• Remover las palabras “stops”, “stemming” (variantes de la misma palabra raíz pueden ser consideradas equivalentes)

• Convertir a un vector de frecuencias de palabras: nuestro espacio de búsqueda es un espacio vectorial de palabras desde un vocabulario controlado.

• Aplicaciones: Categorización y clasificación de documentos

Page 9: Aplicaciones en Ciencia y Tecnología

Minería de Textos

• Se debe “pesar” la palabra en el contexto de la colección de documentos: cuanto más aparece, menos valor discriminante tiene.

• Reducir la dimensión del espacio de vectores en un espacio de conceptos que agrupen palabras con igual significado: Latent Semantic Indexing.

• Categorización de documentos, consiste en asignar a cada documento una o varias categorías temáticas de entre un conjunto de categorías preestablecido.

• Agrupamiento de documentos consiste en la generación automática de grupos de documentos relacionados, por ejemplo, documentos que traten un mismo tema o asunto. A diferencia de lo que ocurre en la categorización, en los procesos de agrupamiento no existe un conjunto de categorías preestablecido, sino que el propio algoritmo a utilizar debe generar automáticamente esas categorías, contribuyendo de esta forma a generar un nuevo conocimiento.

Page 10: Aplicaciones en Ciencia y Tecnología

Minería de Textos

Concepto A

Concepto B

Page 11: Aplicaciones en Ciencia y Tecnología

Minería de Datos Espaciales

Representar el objeto por el rectángulo más pequeño [(x1,y1), (x2,y2)]

(MBR) y de manera recursiva

(x1,y1)

(x2,y2)

Page 12: Aplicaciones en Ciencia y Tecnología

Minería de Datos Espaciales

R-Tree: Los MBR forman un árbol de orden m (en este caso 3)

R8

R1

R2R3

R6

R5R4

R7

R8

R7R6

R3R2R1 R5R4

Se puede usar la infromación espacial a niveles diferentes de

granularidad

Page 13: Aplicaciones en Ciencia y Tecnología

Minería de Datos Espaciales

Page 14: Aplicaciones en Ciencia y Tecnología

Minería de Grafos

Redes sociales, interacciones de proteínas, análisis de estructuras en compuestos químicos, redes de computadoras.

Encontrar subgrafos comunes

Encontrar subgrafos inusuales

Page 15: Aplicaciones en Ciencia y Tecnología

Series de Tiempo

n

i ii cqCQD1

2)(),(

Page 16: Aplicaciones en Ciencia y Tecnología

Series de Tiempo