Upload
flo
View
68
Download
0
Embed Size (px)
DESCRIPTION
Fundamentos de Minería de Datos. Introducción al Data Mining. Fernando Berzal [email protected]. ¿Qué es la minería de datos?. Extracción de patrones (“conocimiento”) en grandes cantidades de datos. Definición Técnicas de Data Mining Evaluación de resultados Sistemas de Data Mining - PowerPoint PPT Presentation
Citation preview
Intelligent Databases and Information Systems research groupDepartment of Computer Science and Artificial IntelligenceE.T.S Ingeniería Informática – Universidad de Granada (Spain)
Fundamentos de Minería de DatosFundamentos de Minería de Datos
Introducción alData Mining
Fernando [email protected]
2
Extracción de patrones Extracción de patrones (“conocimiento”)(“conocimiento”) en en grandesgrandes cantidades de datos cantidades de datos
¿Qué es la minería de datos?¿Qué es la minería de datos?
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
3
Extracción de patrones Extracción de patrones (“conocimiento”)(“conocimiento”) en en grandesgrandes cantidades de datos cantidades de datos
RequisitosRequisitos No trivialNo trivial ImplícitoImplícito Previamente desconocidoPreviamente desconocido Potencialmente útilPotencialmente útil
¿Qué es la minería de datos?¿Qué es la minería de datos?
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
4
¿Qué es la minería de datos?¿Qué es la minería de datos?
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
“Data rich,Information poor”
Conocimiento(patrones interesantes)
5
Extracción de conocimiento en bases de Extracción de conocimiento en bases de datosdatos
KDD KDD (Knowledge Discovery in Databases)(Knowledge Discovery in Databases)
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
6
Extracción de conocimiento en bases de Extracción de conocimiento en bases de datosdatos
Limpieza de datosLimpieza de datos(eliminación de ruido e inconsistencias)(eliminación de ruido e inconsistencias)
Integración de datosIntegración de datos(combinación de múltiples fuentes de datos)(combinación de múltiples fuentes de datos)
Reducción/Selección de datosReducción/Selección de datos(identificación de datos relevantes para el problema)(identificación de datos relevantes para el problema)
Transformación de datosTransformación de datos(preparación de los datos para su análisis)(preparación de los datos para su análisis)
Minería de datosMinería de datos(técnicas de extracción de patrones y medidas de interés)(técnicas de extracción de patrones y medidas de interés)
Presentación de resultadosPresentación de resultados(técnicas de visualización y de representación del (técnicas de visualización y de representación del conocimiento)conocimiento)
KDD KDD (Knowledge Discovery in Databases)(Knowledge Discovery in Databases)
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
7
Extracción de conocimiento en bases de Extracción de conocimiento en bases de datosdatos
KDD KDD (Knowledge Discovery in Databases)(Knowledge Discovery in Databases)
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
8
Carácter multidisciplinarCarácter multidisciplinar
Data Mining
Bases de datos Estadística
IA Visualización
AprendizajeAprendizajeRepresentación del conocimientoRepresentación del conocimiento
Evaluación de resultadosEvaluación de resultadosResumen de datosResumen de datos
Presentación de resultadosPresentación de resultados
Gestión de grandes cantidades de datosGestión de grandes cantidades de datosDefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
9
En función de su propósito general:En función de su propósito general:
Técnicas descriptivasTécnicas descriptivas
Técnicas predictivasTécnicas predictivas
También se pueden clasificar atendiendo aTambién se pueden clasificar atendiendo a el tipo de datos que hay que analizarel tipo de datos que hay que analizar el tipo de “conocimiento” que se el tipo de “conocimiento” que se
obtieneobtiene el tipo de herramienta que utilizael tipo de herramienta que utiliza el dominio de aplicaciónel dominio de aplicación
Clasificación de técnicasClasificación de técnicas
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
10
Bases de datos relacionalesBases de datos relacionales Bases de datos multidimensionales Bases de datos multidimensionales
(DW)(DW) Bases de datos transaccionalesBases de datos transaccionales Series temporales, secuencias y data Series temporales, secuencias y data
streamsstreams Datos estructurados (grafos, redes Datos estructurados (grafos, redes
sociales)sociales) Datos espaciales y espaciotemporalesDatos espaciales y espaciotemporales Textos e hipertextos (p.ej. Web)Textos e hipertextos (p.ej. Web) Bases de datos multimedia (p.ej. Bases de datos multimedia (p.ej.
imágenes)imágenes)
Fuentes de datosFuentes de datos
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
11
Caracterización o resumenCaracterización o resumen
Discriminación o contrasteDiscriminación o contraste
Patrones frecuentes, Patrones frecuentes, asociaciones y correlacionesasociaciones y correlaciones
Clasificación y predicciónClasificación y predicción
Detección de agrupamientos Detección de agrupamientos (clustering)(clustering)
Detección de anomalías (outliers)Detección de anomalías (outliers)
Análisis de tendencias (series Análisis de tendencias (series temporales)temporales)
Técnicas de Data MiningTécnicas de Data Mining
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
12
Un resultado es interesante si…Un resultado es interesante si… es comprensible (por seres humanos)es comprensible (por seres humanos) es válido con cierto grado de certezaes válido con cierto grado de certeza es potencialmente útiles potencialmente útil es novedoso o sirve para validar una es novedoso o sirve para validar una
hipótesishipótesis
El interés de los resultados se puede El interés de los resultados se puede evaluarevaluar
objetivamente (criterios estadísticos)objetivamente (criterios estadísticos) subjetivamente (perspectiva del subjetivamente (perspectiva del
usuario)usuario)
Evaluación de resultadosEvaluación de resultados
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
13
Una tarea de minería de datos Una tarea de minería de datos puede describirse en términos de…puede describirse en términos de…
Datos relevantesDatos relevantes(lo que hay que analizar) (lo que hay que analizar)
Tipo de conocimientoTipo de conocimiento(lo que se desea obtener) (lo que se desea obtener)
Conocimiento previo Conocimiento previo (background knowledge, para guiar el (background knowledge, para guiar el proceso)proceso)
Medidas de interésMedidas de interés(para evaluar los resultados obtenidos) (para evaluar los resultados obtenidos)
Técnicas de representaciónTécnicas de representación(para representar los resultados obtenidos)(para representar los resultados obtenidos)
Sistemas de Data MiningSistemas de Data Mining
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
14
Sistemas de Data MiningSistemas de Data MiningArquitecturaArquitectura
típicatípica
Limpieza, integración, selección y transformación de datos
Base de datos o Data Warehouse
Motor de minería de datos
Evaluación de patrones
Interfaz de usuario
DB DW WWW …
Base de Base de conocimientoconocimiento
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
15
Temas de investigaciónTemas de investigación
Técnicas eficientes de minería de datos
Escalabilidad Técnicas incrementales Algoritmos paralelos
Incorporación de conocimiento previo
Evaluación de resultados (interés) Interacción con el usuario
Técnicas interactivas (a distintos niveles de abstracción)
Técnicas de presentación y visualización de resultados
Análisis de “nuevos” tipos de datos Estructuras complejas (grafos, redes sociales) Bases de datos heterogéneas…
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
16
Bibliografía: Libros de textoBibliografía: Libros de texto
Jiawei Han & Micheline Kamber: Jiawei Han & Micheline Kamber: “Data Mining: Concepts and Techniques”“Data Mining: Concepts and Techniques”Morgan Kaufmann, 2006, ISBN 1558609016Morgan Kaufmann, 2006, ISBN 1558609016
Pang-Ning Tan, Michael Steinbach & Vipin Pang-Ning Tan, Michael Steinbach & Vipin Kumar:Kumar:““Introduction to Data Mining”Introduction to Data Mining”Addison-Wesley, 2006, ISBN 0321321367Addison-Wesley, 2006, ISBN 0321321367
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía
17
Bibliografía: InvestigaciónBibliografía: InvestigaciónREVISTAS REVISTAS • ACM Transactions on KDDACM Transactions on KDD• IEEE Transactions on Knowledge and Data IEEE Transactions on Knowledge and Data EngineeringEngineering• Data Mining and Knowledge Discovery (DMKD)Data Mining and Knowledge Discovery (DMKD)• ACM SIGKDD ExplorationsACM SIGKDD Explorations• Data & Knowledge Engineering (DKE)Data & Knowledge Engineering (DKE)
CONGRESOSCONGRESOS• KDD (ACM SIGKDD International Conference on KDD (ACM SIGKDD International Conference on KDD)KDD)• ICDM (IEEE International Conference on Data ICDM (IEEE International Conference on Data Mining)Mining)• SDM (SIAM Data Mining Conference)SDM (SIAM Data Mining Conference)• PKDD (Principles and Practices of KDD)PKDD (Principles and Practices of KDD)• SIGMOD (Management of Data)SIGMOD (Management of Data)• CIKM (Information and Knowledge Management)CIKM (Information and Knowledge Management)
WEBWEB: : http://www.kdnuggets.com/http://www.kdnuggets.com/
DefiniciónTécnicas deData MiningEvaluaciónde resultadosSistemas deData MiningTemas de investigaciónBibliografía