View
9.625
Download
0
Category
Preview:
DESCRIPTION
dataminin process
Citation preview
El Proceso de la Minería de Datos
Ing. Samuel Oporto Díaz (Mag)soporto@wiphala.net
Mapa del Curso
Modelos de Clasificación
Fundamentos de Minería de Datos
Metodología CRIPS
Modelos de Predicción
Entendimiento de los datos
Preparación de los datos
Modelado
Tabla de Contenido
• Metodologías para la minería de datos– CRIPS– SEMMA
• El Proceso de la minería de datos
• CRISP– Entendimiento del negocio– Preparación y compresión de los datos– Transformación y control de datos– Modelos de la minería de datos– Evaluación del desempeño.– Despliegue.
METODOLOGIAS PARA LA MINERIA DE DATOS
CRIPS
CRIPS - DM
• CRoss-Industry Standard Process for Data Mining.
• Metodología para el proceso de la MD.• Valida el proceso, dispone de modelos de referencia
(plantillas), ayuda a planear y administrar proyectos.
• Sin propietario. Desarrollado por algunos líderes de la industria: IBM, SAS, SPSS/ISL, NCR, Daimler-Benz, OHRA
• Alienta la inter-operatividad de herramientas.• Neutral para la Industria y para la herramienta• Enfocado al negocio y al análisis técnico
Visión general
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelación
Evaluación
Despliegue de resultados
DATOS
FasesDeterminación de los objetivos. Definición de Criterios de Éxito. Calificación de la Situación. Determinación de las metas de la Minería de datos
Recolectar los datos iniciales. Descripción de los datos. Exploración de los Datos. Verificación de la Calidad de los datos.
Selección de Datos. Limpieza de los Datos. Construcción de Nuevos Datos. Formateo de los Datos.
Selección de la Técnica de Modelación. Generación de Pruebas para el Modelo. Construcción del Modelo. Calificación del Modelo.
Aplicación del modelo a la rutina diaria. Monitoreo y mantenimiento. Reporte Final
Evaluación del modelo con respecto a los objetivos del proyecto. Evaluación costo-beneficio. Evaluar su aplicación en la realidad
Comprensión de negocio
Entendimiento de datos
Preparación de datos
Modelado
Evaluación
Despliegue de resultados
SEMMA
SEMMA
• Es una metodología propuesta por SAS que significa:• (Sample, Explore, Modify, Model, Assess)• Muestrea, Explora, Modifica, Modela, Evalúa
SEMMA
Muestreo.• Extrae muestras desde la población, para aplicar el análisis.• Selecciona una muestra representativa del problema en estudio.• Muestreo aleatorio simple. Muestreo aleatorio con reposición.• Establece un nivel de confianza para la muestra.
Exploración.• Para simplificar el problema y optimizar la eficiencia del modelo.• Usa herramientas de visualización y técnicas de estadísticas
descriptiva.• Determina las variables explicativas (entradas al modelo)
SEMMA
Modifica• Formatea los datos, para ser utilizado por el modelo.
Modela• Establece una relación [variables explicativas y variables objetivo]• Trabaja con un nivel de confianza determinado. • Las técnicas son: análisis discriminante, métodos de agrupamiento, y
análisis de regresión, redes neuronales, técnicas adaptativas, lógica fuzzy, árboles de decisión, reglas de asociación y computación evolutiva.
Evalúa.• Valora los resultados mediante el análisis de bondad del modelo.• Contrasta con otros métodos estadísticos o con nuevas muestras.
Uso de la metodologías
http://www.kdnuggets.com
Comparación
SEMMA CRISP
Orientado al desarrollo del proceso de MD
Orientado a los objetivos empresariales
Se inicia analizando los datos
Se inicia analizando los objetivos del negocio
Ligada a productos SAS Metodología abierta y gratuita
Orientado a una metodología de gestión de proyectos
EL PROCESO DE LA MINERÍA DE DATOS
El Proceso de la Minería de Datos
Data
Selección
ConocimientoConocimiento
Patrones
Minería de Datos
Interpretación/Evaluación
Preparación de Datos
Data
Pre-procesada
Datos
Modelos
Despliegue
inducción deducción
Explotación
El Proceso de la Minería de Datos
• Recopilación. Desde BDMS, datamarts, texto, imágenes, video, sonido, etc.
• Selección de Datos. Selección de atributos relevantes. Selección de muestras.
• Preparación de Datos (Pre-procesamiento). Mejora de la calidad de los datos, eliminación de atributos irrelevantes, eliminación de datos extremos, datos faltantes.
• Minería de Datos. Generación de modelos desde lo datos recopilados y seleccionados. Uso de modelos.
• Interpretación y evaluación. Evaluación y uso de los resultados obtenidos, reformulación del modelo.
El Proceso de la Minería de Datos
DataObjetivo
DataPre-procesada
DataTransformada Patrones
Fuentes de datos Pre-procesamientoExploración y
transformaciónReconocimiento de
PatronesEvaluación e Interpretación
DatacrudaDHW
DBMS
Texto
Evaluación y Entendimiento
Muestreo y Selección• Muestreo • Selección
Limpieza de Datos• Datos que no existen• Datos no clasificados• Identificación de
extremos• Eliminación de Ruido
Transformación de Datos• Reducción de
Dimensionalidad• Creación de
Características• Normalización de Datos• Variables
Correlacionadas• Discretización
Reportes y VisualizaciónModelado• Clasificación• Regresión• Agrupamiento• Asociación• Secuenciación
CRIPS
Jerarquía
Fases
Tareas Genéricas y Resultados
Comprensión de negocio.• Declaración del objetivo
de negocio• Declaración de los
criterios de éxito• Declaración del objetivo
de la minería de datos• Preparar el plan de trabajo• Preparar la estrategia para
lograr el éxito.
Fases en el proceso de MD ( 1 )
Comprensión de negocio
Entendimiento de datos• Coleccionar los datos.• Describir los datos• Exploración de los datos.• Evaluar la calidad de
datos• Búsqueda de valores
atípicos
Fases en el proceso de MD ( 2 )
Entendimiento de los Datos
Entendimiento de los Datos
Recolección de datos iníciales
Descripción de los datos
Exploración de los datos
Verificación de la calidad de los datos
univariadamultivariadaseries de datos
Preparación de datos.• Preparar la data inicial
para ser usado en el proceso de MD.
• Seleccionar casos y variables que queremos analizar y que son apropiados.
• Ejecutar transformaciones sobre datos
• Limpiar la data para que sea leído por las herramientas.
Fases en el proceso de MD ( 3 )
60% del tiempo
Preparación de los Datos
Preparación de los Datos
Limpieza de datos
Integración de Datos
Transformación de datos
Reducción de datos
Valores extremos Valores null Valores con ruido Valores inconsistentes Valores mal clasificados
Problemas de semántica ¿significa lo mismo?Problemas de temporalidad ¿cuándo fue registrado?Problemas de codificación y formato.Problemas de idioma.Problemas de duplicidad ¿cuál vale?Problema de medio de almacenamiento.
Filas: suma y agregación de datos Columnas: log, sin, exp, tan, etc…Funciones entre columnas.
Construcción del modelo• ¿Qué técnicas de
modelado usar para el proyecto?
• Usar experiencias de otros• Calibrar los parámetros
del modelo.
Fases en el proceso de MD( 4)
DP• El modelado es un proceso iterativo.• Es un proceso de prueba y error.• Es diferente del aprendizaje
supervisado y no supervisado• Se modela para describir o predecir.
Modelos de predicción para regresión y clasificación
Algoritmos de regresión, predecir resultado numérico.
Modelos descriptivos para agrupamiento y búsqueda de asociacionesAlgoritmos de Clustering y asociación y secuenciación
Modelado
Modelos de Minería de Datos
• Clasificación.Clasificar objetos en clases (categórico)
• Regresión. Mapeo de variables (continuo)
Pronóstico. Series de tiempo.
• Agrupamiento. Identificar grupos en los datos
• Reglas de Buscar relaciones en los datos
Asociación.
• Secuenciación Identificar el siguiente de la secuencia.
P
D
D
D
P
Evaluación.• Evalúa la calidad y la
efectividad del modelo antes de ser usado en la realidad.
• Se mide en función de los objetivos planteados en la primera etapa.
• Estable qué factores del negocio o problema de la investigación no se ha considerado suficientemente.
Fases en el proceso de MD( 5)
Evaluación del Modelo
Evaluación de Modelos
Matriz de confusión
Curva ROCLift charts
Despliegue.• ¿Cómo se usaran los
resultados obtenidos?• ¿Quién necesita usarlos?’• ¿Con qué frecuencia se
usaran?• Aplicado por el área
responsable.
Fases en el proceso de MD( 6)
Tipo de despliegue:• Simple. generar un reporte• Complejo. implementar un
proceso de MD para una empresa
Explotación de Resultados
ESTÁNDARES PARA LA MINERIA DE DATOS
Estándares
OLE DB for DM.• Especifica la interfaz común entre un DM Consumer y DM Provider. • Es auspiciado por Microsoft para usar algoritmos de ≠ proveedores.• Define un lenguaje para MD, para crear, entrenar y predecir con modelos. • Define un modelo de datos para los métodos y algoritmos de MD.
CREATE MINING MODEL
[Heart_Health Prediction]
[ID] Int Key,
[Age] Int,
[Smoker] Int,
[Salary] Double discretized,
[HeartAttack] Int PREDICT,
USING [Decision_Trees_101]
INSERT INTO
[Heart_Health Prediction]
([ID], [Age], [Smoker], [Salary])
SELECT [ID],[Age], [Smoker], [Salary]
FROM Patient_Medical M, Patient_Financial F
WHERE M.ID = F.ID
SELECT t.[ID],[Heart_Health
Prediction].[HeartAttack]FROM [Heart_Health Prediction]PREDICTION JOIN (SELECT [ID],[Age],[Smoker],[Salary]FROM Patient_Medical M,
Patient_Financial FWHERE M.ID = F.ID) as tON [Heart_Health Prediction].Age =
t.Age AND [Heath_Health Prediction].Smoker = t.Smoker AND [Heart_Health Prediction].Salary = t.Salary
Identifica las columnas de entrenamiento, la columna a predecir y
el algoritmo de minería de datos
El INSERT representa los datos usados para el entrenamiento del modelo
Usa el modelo entrenado y los datos actuales para hacer predicciones
Estándares
SQL MM/DM• SQL/ Multimedia for Data Mining) fue propuesto por IBM.• Trabaja con texto, datos espaciales, imágenes y algoritmos de MD.• Trabaja con tipos de datos definidos por los usuarios y métodos en
una base de datos para MD.
XML for Analysis: • Es un estándar de la industria propuesto por el “XML / A Council”.• Crea el lenguaje de consultas “query language Data Mining
eXtensions” (DMX)• Permite consultas basadas en XML a los servidores de MD.
Java Data Mining API. • Es un paquete JAVA para MD propuesto por ORACLE. • El objetivo es permitir a las aplicaciones JAVA usar motores de MD.
Estándares
PMML.• Es un lenguaje de marcas basado en XML.
• Describe modelos estadísticos y de MD.
• Define datos de entrada, transformaciones y parámetros del modelo.
• Existe un esquema XML para cada tipo de modelo de MD.
HERRAMIENTAS DE SOFTWARE PARA MINERÍA
DE DATOS
SAS System
SQL Server Data Mining
ORACLE DATA MINING
IBM - DB2 Intelligent Miner
SPSS Data Mining Pack
Clementine
Weka
XLMiner
Bibliografía
• Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp.
• Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004).
• Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp.
• Introducción a la minería de datos. J. Hernández, J. Ramírez.
PREGUNTAS
Mg. Samuel Oporto Díaz
soporto@wiphala.net
http://www.wiphala.net/oporto
Recommended