17
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática – Universidad de Granada (Spain) Fundamentos de Minería de Datos Fundamentos de Minería de Datos Introducción al Data Mining Fernando Berzal [email protected]

Fundamentos de Minería de Datos

  • Upload
    flo

  • View
    68

  • Download
    0

Embed Size (px)

DESCRIPTION

Fundamentos de Minería de Datos. Introducción al Data Mining. Fernando Berzal [email protected]. ¿Qué es la minería de datos?. Extracción de patrones (“conocimiento”) en grandes cantidades de datos. Definición Técnicas de Data Mining Evaluación de resultados Sistemas de Data Mining - PowerPoint PPT Presentation

Citation preview

Page 1: Fundamentos de Minería de Datos

Intelligent Databases and Information Systems research groupDepartment of Computer Science and Artificial IntelligenceE.T.S Ingeniería Informática – Universidad de Granada (Spain)

Fundamentos de Minería de DatosFundamentos de Minería de Datos

Introducción alData Mining

Fernando [email protected]

Page 2: Fundamentos de Minería de Datos

2

Extracción de patrones Extracción de patrones (“conocimiento”)(“conocimiento”) en en grandesgrandes cantidades de datos cantidades de datos

¿Qué es la minería de datos?¿Qué es la minería de datos?

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 3: Fundamentos de Minería de Datos

3

Extracción de patrones Extracción de patrones (“conocimiento”)(“conocimiento”) en en grandesgrandes cantidades de datos cantidades de datos

RequisitosRequisitos No trivialNo trivial ImplícitoImplícito Previamente desconocidoPreviamente desconocido Potencialmente útilPotencialmente útil

¿Qué es la minería de datos?¿Qué es la minería de datos?

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 4: Fundamentos de Minería de Datos

4

¿Qué es la minería de datos?¿Qué es la minería de datos?

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

“Data rich,Information poor”

Conocimiento(patrones interesantes)

Page 5: Fundamentos de Minería de Datos

5

Extracción de conocimiento en bases de Extracción de conocimiento en bases de datosdatos

KDD KDD (Knowledge Discovery in Databases)(Knowledge Discovery in Databases)

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 6: Fundamentos de Minería de Datos

6

Extracción de conocimiento en bases de Extracción de conocimiento en bases de datosdatos

Limpieza de datosLimpieza de datos(eliminación de ruido e inconsistencias)(eliminación de ruido e inconsistencias)

Integración de datosIntegración de datos(combinación de múltiples fuentes de datos)(combinación de múltiples fuentes de datos)

Reducción/Selección de datosReducción/Selección de datos(identificación de datos relevantes para el problema)(identificación de datos relevantes para el problema)

Transformación de datosTransformación de datos(preparación de los datos para su análisis)(preparación de los datos para su análisis)

Minería de datosMinería de datos(técnicas de extracción de patrones y medidas de interés)(técnicas de extracción de patrones y medidas de interés)

Presentación de resultadosPresentación de resultados(técnicas de visualización y de representación del (técnicas de visualización y de representación del conocimiento)conocimiento)

KDD KDD (Knowledge Discovery in Databases)(Knowledge Discovery in Databases)

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 7: Fundamentos de Minería de Datos

7

Extracción de conocimiento en bases de Extracción de conocimiento en bases de datosdatos

KDD KDD (Knowledge Discovery in Databases)(Knowledge Discovery in Databases)

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 8: Fundamentos de Minería de Datos

8

Carácter multidisciplinarCarácter multidisciplinar

Data Mining

Bases de datos Estadística

IA Visualización

AprendizajeAprendizajeRepresentación del conocimientoRepresentación del conocimiento

Evaluación de resultadosEvaluación de resultadosResumen de datosResumen de datos

Presentación de resultadosPresentación de resultados

Gestión de grandes cantidades de datosGestión de grandes cantidades de datosDefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 9: Fundamentos de Minería de Datos

9

En función de su propósito general:En función de su propósito general:

Técnicas descriptivasTécnicas descriptivas

Técnicas predictivasTécnicas predictivas

También se pueden clasificar atendiendo aTambién se pueden clasificar atendiendo a el tipo de datos que hay que analizarel tipo de datos que hay que analizar el tipo de “conocimiento” que se el tipo de “conocimiento” que se

obtieneobtiene el tipo de herramienta que utilizael tipo de herramienta que utiliza el dominio de aplicaciónel dominio de aplicación

Clasificación de técnicasClasificación de técnicas

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 10: Fundamentos de Minería de Datos

10

Bases de datos relacionalesBases de datos relacionales Bases de datos multidimensionales Bases de datos multidimensionales

(DW)(DW) Bases de datos transaccionalesBases de datos transaccionales Series temporales, secuencias y data Series temporales, secuencias y data

streamsstreams Datos estructurados (grafos, redes Datos estructurados (grafos, redes

sociales)sociales) Datos espaciales y espaciotemporalesDatos espaciales y espaciotemporales Textos e hipertextos (p.ej. Web)Textos e hipertextos (p.ej. Web) Bases de datos multimedia (p.ej. Bases de datos multimedia (p.ej.

imágenes)imágenes)

Fuentes de datosFuentes de datos

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 11: Fundamentos de Minería de Datos

11

Caracterización o resumenCaracterización o resumen

Discriminación o contrasteDiscriminación o contraste

Patrones frecuentes, Patrones frecuentes, asociaciones y correlacionesasociaciones y correlaciones

Clasificación y predicciónClasificación y predicción

Detección de agrupamientos Detección de agrupamientos (clustering)(clustering)

Detección de anomalías (outliers)Detección de anomalías (outliers)

Análisis de tendencias (series Análisis de tendencias (series temporales)temporales)

Técnicas de Data MiningTécnicas de Data Mining

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 12: Fundamentos de Minería de Datos

12

Un resultado es interesante si…Un resultado es interesante si… es comprensible (por seres humanos)es comprensible (por seres humanos) es válido con cierto grado de certezaes válido con cierto grado de certeza es potencialmente útiles potencialmente útil es novedoso o sirve para validar una es novedoso o sirve para validar una

hipótesishipótesis

El interés de los resultados se puede El interés de los resultados se puede evaluarevaluar

objetivamente (criterios estadísticos)objetivamente (criterios estadísticos) subjetivamente (perspectiva del subjetivamente (perspectiva del

usuario)usuario)

Evaluación de resultadosEvaluación de resultados

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 13: Fundamentos de Minería de Datos

13

Una tarea de minería de datos Una tarea de minería de datos puede describirse en términos de…puede describirse en términos de…

Datos relevantesDatos relevantes(lo que hay que analizar) (lo que hay que analizar)

Tipo de conocimientoTipo de conocimiento(lo que se desea obtener) (lo que se desea obtener)

Conocimiento previo Conocimiento previo (background knowledge, para guiar el (background knowledge, para guiar el proceso)proceso)

Medidas de interésMedidas de interés(para evaluar los resultados obtenidos) (para evaluar los resultados obtenidos)

Técnicas de representaciónTécnicas de representación(para representar los resultados obtenidos)(para representar los resultados obtenidos)

Sistemas de Data MiningSistemas de Data Mining

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 14: Fundamentos de Minería de Datos

14

Sistemas de Data MiningSistemas de Data MiningArquitecturaArquitectura

típicatípica

Limpieza, integración, selección y transformación de datos

Base de datos o Data Warehouse

Motor de minería de datos

Evaluación de patrones

Interfaz de usuario

DB DW WWW …

Base de Base de conocimientoconocimiento

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 15: Fundamentos de Minería de Datos

15

Temas de investigaciónTemas de investigación

Técnicas eficientes de minería de datos

Escalabilidad Técnicas incrementales Algoritmos paralelos

Incorporación de conocimiento previo

Evaluación de resultados (interés) Interacción con el usuario

Técnicas interactivas (a distintos niveles de abstracción)

Técnicas de presentación y visualización de resultados

Análisis de “nuevos” tipos de datos Estructuras complejas (grafos, redes sociales) Bases de datos heterogéneas…

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 16: Fundamentos de Minería de Datos

16

Bibliografía: Libros de textoBibliografía: Libros de texto

Jiawei Han & Micheline Kamber: Jiawei Han & Micheline Kamber: “Data Mining: Concepts and Techniques”“Data Mining: Concepts and Techniques”Morgan Kaufmann, 2006, ISBN 1558609016Morgan Kaufmann, 2006, ISBN 1558609016

Pang-Ning Tan, Michael Steinbach & Vipin Pang-Ning Tan, Michael Steinbach & Vipin Kumar:Kumar:““Introduction to Data Mining”Introduction to Data Mining”Addison-Wesley, 2006, ISBN 0321321367Addison-Wesley, 2006, ISBN 0321321367

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía

Page 17: Fundamentos de Minería de Datos

17

Bibliografía: InvestigaciónBibliografía: InvestigaciónREVISTAS REVISTAS • ACM Transactions on KDDACM Transactions on KDD• IEEE Transactions on Knowledge and Data IEEE Transactions on Knowledge and Data EngineeringEngineering• Data Mining and Knowledge Discovery (DMKD)Data Mining and Knowledge Discovery (DMKD)• ACM SIGKDD ExplorationsACM SIGKDD Explorations• Data & Knowledge Engineering (DKE)Data & Knowledge Engineering (DKE)

CONGRESOSCONGRESOS• KDD (ACM SIGKDD International Conference on KDD (ACM SIGKDD International Conference on KDD)KDD)• ICDM (IEEE International Conference on Data ICDM (IEEE International Conference on Data Mining)Mining)• SDM (SIAM Data Mining Conference)SDM (SIAM Data Mining Conference)• PKDD (Principles and Practices of KDD)PKDD (Principles and Practices of KDD)• SIGMOD (Management of Data)SIGMOD (Management of Data)• CIKM (Information and Knowledge Management)CIKM (Information and Knowledge Management)

WEBWEB: : http://www.kdnuggets.com/http://www.kdnuggets.com/

DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía