mineria de datos

Preview:

DESCRIPTION

dataminin process

Citation preview

El Proceso de la Minería de Datos

Ing. Samuel Oporto Díaz (Mag)soporto@wiphala.net

Mapa del Curso

Modelos de Clasificación

Fundamentos de Minería de Datos

Metodología CRIPS

Modelos de Predicción

Entendimiento de los datos

Preparación de los datos

Modelado

Tabla de Contenido

• Metodologías para la minería de datos– CRIPS– SEMMA

• El Proceso de la minería de datos

• CRISP– Entendimiento del negocio– Preparación y compresión de los datos– Transformación y control de datos– Modelos de la minería de datos– Evaluación del desempeño.– Despliegue.

METODOLOGIAS PARA LA MINERIA DE DATOS

CRIPS

CRIPS - DM

• CRoss-Industry Standard Process for Data Mining.

• Metodología para el proceso de la MD.• Valida el proceso, dispone de modelos de referencia

(plantillas), ayuda a planear y administrar proyectos.

• Sin propietario. Desarrollado por algunos líderes de la industria: IBM, SAS, SPSS/ISL, NCR, Daimler-Benz, OHRA

• Alienta la inter-operatividad de herramientas.• Neutral para la Industria y para la herramienta• Enfocado al negocio y al análisis técnico

Visión general

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelación

Evaluación

Despliegue de resultados

DATOS

FasesDeterminación de los objetivos. Definición de Criterios de Éxito. Calificación de la Situación. Determinación de las metas de la Minería de datos

Recolectar los datos iniciales. Descripción de los datos. Exploración de los Datos. Verificación de la Calidad de los datos.

Selección de Datos. Limpieza de los Datos. Construcción de Nuevos Datos. Formateo de los Datos.

Selección de la Técnica de Modelación. Generación de Pruebas para el Modelo. Construcción del Modelo. Calificación del Modelo.

Aplicación del modelo a la rutina diaria. Monitoreo y mantenimiento. Reporte Final

Evaluación del modelo con respecto a los objetivos del proyecto. Evaluación costo-beneficio. Evaluar su aplicación en la realidad

Comprensión de negocio

Entendimiento de datos

Preparación de datos

Modelado

Evaluación

Despliegue de resultados

SEMMA

SEMMA

• Es una metodología propuesta por SAS que significa:• (Sample, Explore, Modify, Model, Assess)• Muestrea, Explora, Modifica, Modela, Evalúa

SEMMA

Muestreo.• Extrae muestras desde la población, para aplicar el análisis.• Selecciona una muestra representativa del problema en estudio.• Muestreo aleatorio simple. Muestreo aleatorio con reposición.• Establece un nivel de confianza para la muestra.

Exploración.• Para simplificar el problema y optimizar la eficiencia del modelo.• Usa herramientas de visualización y técnicas de estadísticas

descriptiva.• Determina las variables explicativas (entradas al modelo)

SEMMA

Modifica• Formatea los datos, para ser utilizado por el modelo.

Modela• Establece una relación [variables explicativas y variables objetivo]• Trabaja con un nivel de confianza determinado. • Las técnicas son: análisis discriminante, métodos de agrupamiento, y

análisis de regresión, redes neuronales, técnicas adaptativas, lógica fuzzy, árboles de decisión, reglas de asociación y computación evolutiva.

Evalúa.• Valora los resultados mediante el análisis de bondad del modelo.• Contrasta con otros métodos estadísticos o con nuevas muestras.

Uso de la metodologías

http://www.kdnuggets.com

Comparación

SEMMA CRISP

Orientado al desarrollo del proceso de MD

Orientado a los objetivos empresariales

Se inicia analizando los datos

Se inicia analizando los objetivos del negocio

Ligada a productos SAS Metodología abierta y gratuita

Orientado a una metodología de gestión de proyectos

EL PROCESO DE LA MINERÍA DE DATOS

El Proceso de la Minería de Datos

Data

Selección

ConocimientoConocimiento

Patrones

Minería de Datos

Interpretación/Evaluación

Preparación de Datos

Data

Pre-procesada

Datos

Modelos

Despliegue

inducción deducción

Explotación

El Proceso de la Minería de Datos

• Recopilación. Desde BDMS, datamarts, texto, imágenes, video, sonido, etc.

• Selección de Datos. Selección de atributos relevantes. Selección de muestras.

• Preparación de Datos (Pre-procesamiento). Mejora de la calidad de los datos, eliminación de atributos irrelevantes, eliminación de datos extremos, datos faltantes.

• Minería de Datos. Generación de modelos desde lo datos recopilados y seleccionados. Uso de modelos.

• Interpretación y evaluación. Evaluación y uso de los resultados obtenidos, reformulación del modelo.

El Proceso de la Minería de Datos

DataObjetivo

DataPre-procesada

DataTransformada Patrones

Fuentes de datos Pre-procesamientoExploración y

transformaciónReconocimiento de

PatronesEvaluación e Interpretación

DatacrudaDHW

DBMS

Texto

Evaluación y Entendimiento

Muestreo y Selección• Muestreo • Selección

Limpieza de Datos• Datos que no existen• Datos no clasificados• Identificación de

extremos• Eliminación de Ruido

Transformación de Datos• Reducción de

Dimensionalidad• Creación de

Características• Normalización de Datos• Variables

Correlacionadas• Discretización

Reportes y VisualizaciónModelado• Clasificación• Regresión• Agrupamiento• Asociación• Secuenciación

CRIPS

Jerarquía

Fases

Tareas Genéricas y Resultados

Comprensión de negocio.• Declaración del objetivo

de negocio• Declaración de los

criterios de éxito• Declaración del objetivo

de la minería de datos• Preparar el plan de trabajo• Preparar la estrategia para

lograr el éxito.

Fases en el proceso de MD ( 1 )

Comprensión de negocio

Entendimiento de datos• Coleccionar los datos.• Describir los datos• Exploración de los datos.• Evaluar la calidad de

datos• Búsqueda de valores

atípicos

Fases en el proceso de MD ( 2 )

Entendimiento de los Datos

Entendimiento de los Datos

Recolección de datos iníciales

Descripción de los datos

Exploración de los datos

Verificación de la calidad de los datos

univariadamultivariadaseries de datos

Preparación de datos.• Preparar la data inicial

para ser usado en el proceso de MD.

• Seleccionar casos y variables que queremos analizar y que son apropiados.

• Ejecutar transformaciones sobre datos

• Limpiar la data para que sea leído por las herramientas.

Fases en el proceso de MD ( 3 )

60% del tiempo

Preparación de los Datos

Preparación de los Datos

Limpieza de datos

Integración de Datos

Transformación de datos

Reducción de datos

Valores extremos Valores null Valores con ruido Valores inconsistentes Valores mal clasificados

Problemas de semántica ¿significa lo mismo?Problemas de temporalidad ¿cuándo fue registrado?Problemas de codificación y formato.Problemas de idioma.Problemas de duplicidad ¿cuál vale?Problema de medio de almacenamiento.

Filas: suma y agregación de datos Columnas: log, sin, exp, tan, etc…Funciones entre columnas.

Construcción del modelo• ¿Qué técnicas de

modelado usar para el proyecto?

• Usar experiencias de otros• Calibrar los parámetros

del modelo.

Fases en el proceso de MD( 4)

DP• El modelado es un proceso iterativo.• Es un proceso de prueba y error.• Es diferente del aprendizaje

supervisado y no supervisado• Se modela para describir o predecir.

Modelos de predicción para regresión y clasificación

Algoritmos de regresión, predecir resultado numérico.

Modelos descriptivos para agrupamiento y búsqueda de asociacionesAlgoritmos de Clustering y asociación y secuenciación

Modelado

Modelos de Minería de Datos

• Clasificación.Clasificar objetos en clases (categórico)

• Regresión. Mapeo de variables (continuo)

Pronóstico. Series de tiempo.

• Agrupamiento. Identificar grupos en los datos

• Reglas de Buscar relaciones en los datos

Asociación.

• Secuenciación Identificar el siguiente de la secuencia.

P

D

D

D

P

Evaluación.• Evalúa la calidad y la

efectividad del modelo antes de ser usado en la realidad.

• Se mide en función de los objetivos planteados en la primera etapa.

• Estable qué factores del negocio o problema de la investigación no se ha considerado suficientemente.

Fases en el proceso de MD( 5)

Evaluación del Modelo

Evaluación de Modelos

Matriz de confusión

Curva ROCLift charts

Despliegue.• ¿Cómo se usaran los

resultados obtenidos?• ¿Quién necesita usarlos?’• ¿Con qué frecuencia se

usaran?• Aplicado por el área

responsable.

Fases en el proceso de MD( 6)

Tipo de despliegue:• Simple. generar un reporte• Complejo. implementar un

proceso de MD para una empresa

Explotación de Resultados

ESTÁNDARES PARA LA MINERIA DE DATOS

Estándares

OLE DB for DM.• Especifica la interfaz común entre un DM Consumer y DM Provider. • Es auspiciado por Microsoft para usar algoritmos de ≠ proveedores.• Define un lenguaje para MD, para crear, entrenar y predecir con modelos. • Define un modelo de datos para los métodos y algoritmos de MD.

CREATE MINING MODEL

[Heart_Health Prediction]

[ID] Int Key,

[Age] Int,

[Smoker] Int,

[Salary] Double discretized,

[HeartAttack] Int PREDICT,

USING [Decision_Trees_101]

INSERT INTO

[Heart_Health Prediction]

([ID], [Age], [Smoker], [Salary])

SELECT [ID],[Age], [Smoker], [Salary]

FROM Patient_Medical M, Patient_Financial F

WHERE M.ID = F.ID

SELECT t.[ID],[Heart_Health

Prediction].[HeartAttack]FROM [Heart_Health Prediction]PREDICTION JOIN (SELECT [ID],[Age],[Smoker],[Salary]FROM Patient_Medical M,

Patient_Financial FWHERE M.ID = F.ID) as tON [Heart_Health Prediction].Age =

t.Age AND [Heath_Health Prediction].Smoker = t.Smoker AND [Heart_Health Prediction].Salary = t.Salary

Identifica las columnas de entrenamiento, la columna a predecir y

el algoritmo de minería de datos

El INSERT representa los datos usados para el entrenamiento del modelo

Usa el modelo entrenado y los datos actuales para hacer predicciones

Estándares

SQL MM/DM• SQL/ Multimedia for Data Mining) fue propuesto por IBM.• Trabaja con texto, datos espaciales, imágenes y algoritmos de MD.• Trabaja con tipos de datos definidos por los usuarios y métodos en

una base de datos para MD.

XML for Analysis: • Es un estándar de la industria propuesto por el “XML / A Council”.• Crea el lenguaje de consultas “query language Data Mining

eXtensions” (DMX)• Permite consultas basadas en XML a los servidores de MD.

Java Data Mining API. • Es un paquete JAVA para MD propuesto por ORACLE. • El objetivo es permitir a las aplicaciones JAVA usar motores de MD.

Estándares

PMML.• Es un lenguaje de marcas basado en XML.

• Describe modelos estadísticos y de MD.

• Define datos de entrada, transformaciones y parámetros del modelo.

• Existe un esquema XML para cada tipo de modelo de MD.

HERRAMIENTAS DE SOFTWARE PARA MINERÍA

DE DATOS

SAS System

SQL Server Data Mining

ORACLE DATA MINING

IBM - DB2 Intelligent Miner

SPSS Data Mining Pack

Clementine

Weka

XLMiner

Bibliografía

• Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp.

• Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004).

• Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp.

• Introducción a la minería de datos. J. Hernández, J. Ramírez.

PREGUNTAS

Mg. Samuel Oporto Díaz

soporto@wiphala.net

http://www.wiphala.net/oporto