Minería de Datos con Clementine
Lic. Miguel Cospin16/Abril/2008
© 2006 SPSS Inc.© 2006 SPSS Inc. 2
Es descubrir información que se encuentra oculta adentro de las bases de datos de manera inteligente pero automatizada.
Data Mining, en su proceso de análisis y exploración de datos utiliza tecnicas estadísticas y modelos matematicos para encontrar patrones, relaciones
y tendencias con USO PREDICTIVO
Minería de Datos (o Data Mining)
© 2006 SPSS Inc.© 2006 SPSS Inc. 3
Proceso de fuerza bruta sobre los datos crudos.
Aplicación “ciega” de algoritmos para análisis/modelaje.
Encontrar relaciones en donde no existen.
Magia.
NO!NO!
CREENCIAS FALSAS SOBRE LO QUE ES DATA MINING
© 2006 SPSS Inc.© 2006 SPSS Inc. 4
EVOLUCIÓN DEL ANÁLISIS DE DATOS
© 2006 SPSS Inc.© 2006 SPSS Inc. 5
Tres clases de algoritmos de Data Mining:
“Diferencias” en los grupos o
clusters
Predecir “Relaciones”
Asociar “Patrones”
Data Mining
Que eventos ocurren juntos?
Dada una serie de acciones o eventos; cual acción es la que probablemente ocurra después?
Agrupar casos que presentan características similares.
Predecir quién es más probable en demostrar un comportamiento específico en el futuro
© 2006 SPSS Inc.© 2006 SPSS Inc. 6
¿Que es lo que hace la Minería de Datos?
Data mining utiliza los datos existentes para : Predecir
La pertenencia a una categoría Un Valor numérico
Agrupar Descubrir grupos de clientes
homogéneos basados en sus características
Asociar Encontrar eventos que ocurren
simultáneamente o en una secuencia
Identificar Identificar casos que no siguen
un comportamiento esperado
© 2006 SPSS Inc.© 2006 SPSS Inc. 7
En donde encaja el Modelado de En donde encaja el Modelado de Clementine?Clementine?
Datos existentes PREDICCION OPERACIONES
• Datos Históricos• Datos Presentes• Procesos• Casos
Crear Modelos • Reporte• Casos• Scoring• Actividad de campo
Retroalimentación
•Examinar la data en su entera dimensión
•Aprender interacciones de tendencias en las relaciones
•Descubrir cambios en el comportamiento
© 2006 SPSS Inc.© 2006 SPSS Inc. 8
ModeladoModeladoPredicción y Clasificación Clustering y Segmentación
Asociación Reducción de datos
Los modelos son Los modelos son conocimientoconocimiento reusable reusable
© 2006 SPSS Inc.© 2006 SPSS Inc. 9
Aplicaciones
Servicios FinancierosServicios Financieros
Sector PúblicoSector Público
Data Data miningminingData Data
miningmining
Impuestos,
Satisfacción de usuarios,
Finanzas públicas
Impuestos,
Satisfacción de usuarios,
Finanzas públicas
Telecom
Telecom
Utilización de Recursos,
Detección de Fraudes,
Control de Calidad
Utilización de Recursos,
Detección de Fraudes,
Control de Calidad
Adquisición y Retención
Ventas cruzadas
Detección de Fraude
CRM
Adquisición y Retención
Ventas cruzadas
Detección de Fraude
CRM
Salud
y S
egur
os
Salud
y S
egur
os
Vent
as a
l Det
alle
Vent
as a
l Det
alleEntretenim
iento
Entretenimiento
Ventas Cruzadas,
Correo Directo,
Lealtad
Ventas Cruzadas,
Correo Directo,
Lealtad
Lealtad, Correo Directo
Basket Analysis
CRM
Lealtad, Correo Directo
Basket Analysis
CRM
Ventas Cruzadas,
Lealtad, Churn
Ventas Cruzadas,
Lealtad, Churn
© 2006 SPSS Inc.© 2006 SPSS Inc. 10
Encontrar segmentos con Cluster Analysis
OPORTUNIDADES DE DATA MINING EN SEGMENTACIÓN
© 2006 SPSS Inc.© 2006 SPSS Inc. 11
Detectar efectivamente fraudes en el uso de servicios.
OPORTUNIDADES DE DATA MINING EN DETECCIÓN DE FRAUDE
© 2006 SPSS Inc.© 2006 SPSS Inc. 12
Realizar ventas cruzadas de manera más efectiva.
OPORTUNIDADES DE DATA MINING EN VENTA CRUZADA
© 2006 SPSS Inc.© 2006 SPSS Inc. 13
Atraer los clientes mas rentables.
OPORTUNIDADES DE DATA MINING EN CORREO DIRECTO
© 2006 SPSS Inc.© 2006 SPSS Inc. 14
© 2006 SPSS Inc.© 2006 SPSS Inc. 15
SPSS Clementine
Clementine es la más avanzada herramienta de Data Mining del mercado.
Combina modernas técnicas de modelamiento con poderosas herramientas de acceso, manipulación y exploración de datos en una interfaz simple e intuitiva.
© 2006 SPSS Inc.© 2006 SPSS Inc. 16
Clementine 36 %
© 2006 SPSS Inc.© 2006 SPSS Inc. 17
Características de Clementine Fácil entendimiento de los datos
Visualización Interactiva
Poderosa Preparación de los datos Accesa y combina datos de múltiples fuentes Especifica valores perdidos Deriva nuevas variables Produce información resumida
Incrementa la productividad con su enfoque visual de la manipulación de datos
© 2006 SPSS Inc.© 2006 SPSS Inc. 18
Características de Clementine
Técnicas de Modelado Técnicas Supervisadas
C&RT, Redes Neuronales, C5.0,Quest, CHAID, Regresión Lineal y Regresión Logística
Técnicas No Supervisadas K-medias, Kohonen, Bi-etápico Apriori, GRI, Sequence, Carma, Detección de Anomalías
Técnicas de Evaluación Tablas Estadísticas, Gráficos de Ganancia y ROI
Técnicas de Publicación de modelos Punteo o Scoring de Bases de Datos Scoring en tiempo real
© 2006 SPSS Inc.© 2006 SPSS Inc. 19
Capacidad Extendida de Clementine
Cubre todos los aspectos de las interacciones de clientes Minería de Textos (Text Mining) Web Mining
Predictive Enterprise Services (PES) Administrador de Modelost Administrador de Procesos
Traslada los resultados a la acción Interactúa con aplicaciones
Predictivas Publica los modelos con Solution
Publisher
© 2006 SPSS Inc.© 2006 SPSS Inc. 20
Muestreo y validación de modelos
Tradicional en minería de datos : 2 muestras de datos. (Grande para entrenamiento y Pequeña de evaluación provenientes de la misma fuente)
Con Clementine se puede contar con tres muestras: entrenamiento, prueba y evaluación. (Tiene un nodo que automáticamente crea las particiones que se necesitan para el análisis).
© 2006 SPSS Inc.© 2006 SPSS Inc. 21
Reglas de Asociación A PRIORI y CARMA :
Clementine permite analizar grandes bases de datos transaccionales o registros de programas de puntos y obtener reglas significativas que describan hábitos específicos de consumo. Los métodos de reglas de asociación permiten descubrir que valores de dos o más variables (que pueden ser predictores y objetivo en distintas reglas) generalmente ocurren conjuntamente (o no ocurren conjuntamente).
© 2006 SPSS Inc.© 2006 SPSS Inc. 22
Reglas de Inducción
Los algoritmos de reglas de inducción y de asociación son las herramientas de análisis más frecuentes en el modelado de: Hábitos de compra Análisis de secuencias de compra Patrones de consumo Análisis de Ventas cruzadas o cross-selling
Clementine cuenta con los modelos GRI (Generalizad Rule Induction) que permiten generar reglas que sintetizan patrones en los datos utilizando una medida del interés de la regla para jerarquizar las reglas.
© 2006 SPSS Inc.© 2006 SPSS Inc. 23
Detección de Secuencias
Estas técnicas permiten detectar reglas de asociación en donde el tiempo es importante dado que las variables están cronológicamente ordenadas.
Análisis muy útil en el área de Ventas al Detalle o Retail para detectar patrones de consumo
Y en el área de e-commerce en la detección de compra conjunta y patrones de navegación.
© 2006 SPSS Inc.© 2006 SPSS Inc. 24
Árboles de decisiónUn algoritmo de árbol de decisión divide sucesivamente un
conjunto de registros obteniendo grupos en donde la distribución de la variable objetivo es más homogénea que al considerar todos los registros. Las divisiones se realizan seleccionando el predictor que mejor agrupa a los registros desde el punto de vista de homogeneizar la variable objetivo. Los algoritmos disponibles son:
C5.0 C&RT CHAID QUEST CHAID Exhaustivo
Util para Segmentar Consumidores y se dispone de muchas variables que se quieren priorizar.
© 2006 SPSS Inc.© 2006 SPSS Inc. 25
Redes neuronales
Clementine cuenta con los métodos de redes neuronales de mayor uso (Kohonen, Prune, Radial Basis, etc.).
Las redes neuronales son, junto a los árboles de decisión, las más importantes herramientas de data mining disponibles actualmente debido a su capacidad para encontrar relaciones ocultas entre las variables y su flexibilidad para enfrentar distintos tipos de problemas de negocios.
© 2006 SPSS Inc.© 2006 SPSS Inc. 26
Redes neuronales
Una red neuronal es básicamente un modelo simplificado de la forma en que el cerebro humano procesa información. La red aprende examinando los registros individuales, haciendo una predicción para cada registro de acuerdo a su semejanza con patrones vistos anteriormente, evaluando la predicción con el valor real de la variable objetivo en el registro y corrigiendo los patrones de acuerdo al acierto o fracaso en la predicción. Este proceso continúa repetidamente hasta que, básicamente, la red no puede mejorar más su eficiencia predictiva, generándose en ese momento el modelo.
© 2006 SPSS Inc.© 2006 SPSS Inc. 27
Redes neuronales
Las redes neuronales son una herramienta ideal para enfrentar problemas complejos como ¿por qué un empleado abandona su trabajo ? ¿ Qué nivel de logro puede alcanzar una campaña que inicia? Fenómenos que son afectados por muchas variables cuya interrelación no es necesariamente lineal.
Clementine dispone de redes neuronales de Kohonen para desarrollar modelos de segmentación no dirigida conocidos como mapas auto-organizados. Este tipo de relaciones son las más frecuentes cuando se analizan datos de clientes con el propósito de detectar segmentos según hábitos de compra, consumos, nivel de cross-selling, etc.
© 2006 SPSS Inc.© 2006 SPSS Inc. 28
Visualización gráfica
Muchas fases del proceso de minería utilizan gráficos y diagramas para explorar los datos.
La visualización gráfica de Clementine se puede clasificar en 4 tipos :
1. Gráficos para comprender mejor los tipos de datos y las distribuciones
2. Gráficos para manipular registros y campos previo a las operaciones de modelado
3. Gráficos para comprobar la distribución y las relaciones entre campos recién derivados.
4. Gráficos de apoyo al modelado
© 2006 SPSS Inc.© 2006 SPSS Inc. 29
Gráfico de puntos
Muestran la relación entre los campos numéricos.
© 2006 SPSS Inc.© 2006 SPSS Inc. 30
Gráficos de Distribución
Muestran la ocurrencia de valores simbólicos (no numéricos), como un género o un tipo de hipoteca, en un conjunto de datos. El uso habitual del nodo de distribución consiste en mostrar los desequilibrios de los datos que pueden rectificarse mediante el nodo Equilibrar antes de crear un modelo.
© 2006 SPSS Inc.© 2006 SPSS Inc. 31
Histograma
Muestran la ocurrencia de valores de los campos numéricos. Se suelen utilizar para explorar los datos antes de las manipulaciones y la generación de modelos. Los nodos de histogramas se utilizan para detectar desequilibrios en los datos.
© 2006 SPSS Inc.© 2006 SPSS Inc. 32
Gráficos de Colección
Muestran la distribución de los valores de un campo numérico relativo a los valores de otro, en lugar de la ocurrencia de los valores de un solo campo. Las colecciones son útiles para ilustrar una variable o un campo cuyos valores cambian con el tiempo.
© 2006 SPSS Inc.© 2006 SPSS Inc. 33
Gráficos de Mallas direccionales
Muestran la fuerza de las relaciones entre variables categóricas. Son conexiones de una sola dirección.
© 2006 SPSS Inc.© 2006 SPSS Inc. 34
Gráfico de Evaluación
Es una forma sencilla de evaluar y comparar modelos predictivos para elegir el mejor modelo para su aplicación. Muestran el comportamiento de los modelos pronosticando determinados resultados.
© 2006 SPSS Inc.© 2006 SPSS Inc. 35
Análisis de conglomerados
Para interpretar los clusters
© 2006 SPSS Inc.© 2006 SPSS Inc. 36
Diagramas de Cajas
Muestran la mediana, rango intercuartil, valores extremos y casos extremos de campos individuales.
© 2006 SPSS Inc.© 2006 SPSS Inc. 37
Gráfica de Links
Muestra nodos y las conexiones entre nodos. Por ejemplo, puede examinar las rutas que los usuarios toman a través de un sitio Web, mediante el rastreo de cuántas veces los usuarios van de una página a la siguiente.
© 2006 SPSS Inc.© 2006 SPSS Inc. 38
CAT’s (Templates)
Son modelos ya probados para Incrementar la retención de clientes , atraer utilidades de los clientes y crear ventas cruzadas eficientes y estrategias de venta.
Disponibles : CRM (Bancos y Retail) CreditScoring (Riesgo financiero en Bancos) Reducción Churn (Telecomunicaciones)
© 2006 SPSS Inc.© 2006 SPSS Inc. 39
Minería de textos
Un 80% o más en promedio de la información de las empresas no está estructurada o está en formatos de textos, comparado con el 20% o menos que está estructurada en tablas y bases de datos usadas en minería de datos tradicional. Información de notas de los operadores de call centers, formas llenadas en la página web, correos electrónicos de clientes y algunas otras fuentes valiosas de información en texto de la empresa, a menudo no son utilizadas.
Text Mining para Clementine permite extraer conceptos claves, impresiones y relaciones de una base de datos no estructurada, los convierte en un formato estructurado para un modelo predictivo con Clementine. De esta forma se basan las decisiones críticas en el 100% de la información disponible de los datos, no sólo en el 20%.
© 2006 SPSS Inc.© 2006 SPSS Inc. 40
Metodología para Data Mining (CRISP)
© 2006 SPSS Inc.© 2006 SPSS Inc. 41
Soluciones SPSS para Data Mining
© 2006 SPSS Inc.© 2006 SPSS Inc. 42
Algunos clientes
TelecomunicacionesTecnología
Entretenimiento
Servicios Financieros
Retail/Bienes de consumo Industria Farmacéutica
Lealtad
© 2006 SPSS Inc.© 2006 SPSS Inc. 43
Muchas gracias !