Download ppt - Minería de Datos con Clementine Lic. Miguel Cospin 16/Abril/2008

Minería de Datos con Clementine

Lic. Miguel Cospin16/Abril/2008

© 2006 SPSS Inc.© 2006 SPSS Inc. 2

Es descubrir información que se encuentra oculta adentro de las bases de datos de manera inteligente pero automatizada.

Data Mining, en su proceso de análisis y exploración de datos utiliza tecnicas estadísticas y modelos matematicos para encontrar patrones, relaciones

y tendencias con USO PREDICTIVO

Minería de Datos (o Data Mining)


Proceso de fuerza bruta sobre los datos crudos.

Aplicación “ciega” de algoritmos para análisis/modelaje.

Encontrar relaciones en donde no existen.

Magia.

NO!NO!

CREENCIAS FALSAS SOBRE LO QUE ES DATA MINING


EVOLUCIÓN DEL ANÁLISIS DE DATOS


Tres clases de algoritmos de Data Mining:

“Diferencias” en los grupos o

clusters

Predecir “Relaciones”

Asociar “Patrones”

Data Mining

Que eventos ocurren juntos?

Dada una serie de acciones o eventos; cual acción es la que probablemente ocurra después?

Agrupar casos que presentan características similares.

Predecir quién es más probable en demostrar un comportamiento específico en el futuro


¿Que es lo que hace la Minería de Datos?

Data mining utiliza los datos existentes para : Predecir

La pertenencia a una categoría Un Valor numérico

Agrupar Descubrir grupos de clientes

homogéneos basados en sus características

Asociar Encontrar eventos que ocurren

simultáneamente o en una secuencia

Identificar Identificar casos que no siguen

un comportamiento esperado


En donde encaja el Modelado de En donde encaja el Modelado de Clementine?Clementine?

Datos existentes PREDICCION OPERACIONES

• Datos Históricos• Datos Presentes• Procesos• Casos

Crear Modelos • Reporte• Casos• Scoring• Actividad de campo

Retroalimentación

•Examinar la data en su entera dimensión

•Aprender interacciones de tendencias en las relaciones

•Descubrir cambios en el comportamiento


ModeladoModeladoPredicción y Clasificación Clustering y Segmentación

Asociación Reducción de datos

Los modelos son Los modelos son conocimientoconocimiento reusable reusable


Aplicaciones

Servicios FinancierosServicios Financieros

Sector PúblicoSector Público

Data Data miningminingData Data

miningmining

Impuestos,

Satisfacción de usuarios,

Finanzas públicas

Impuestos,

Satisfacción de usuarios,

Finanzas públicas

Telecom

Telecom

Utilización de Recursos,

Detección de Fraudes,

Control de Calidad

Utilización de Recursos,

Detección de Fraudes,

Control de Calidad

Adquisición y Retención

Ventas cruzadas

Detección de Fraude

CRM

Adquisición y Retención

Ventas cruzadas

Detección de Fraude

CRM

Salud

y S

egur

os

Salud

y S

egur

os

Vent

as a

l Det

alle

Vent

as a

l Det

alleEntretenim

iento

Entretenimiento

Ventas Cruzadas,

Correo Directo,

Lealtad

Ventas Cruzadas,

Correo Directo,

Lealtad

Lealtad, Correo Directo

Basket Analysis

CRM

Lealtad, Correo Directo

Basket Analysis

CRM

Ventas Cruzadas,

Lealtad, Churn

Ventas Cruzadas,

Lealtad, Churn


Encontrar segmentos con Cluster Analysis

OPORTUNIDADES DE DATA MINING EN SEGMENTACIÓN


Detectar efectivamente fraudes en el uso de servicios.

OPORTUNIDADES DE DATA MINING EN DETECCIÓN DE FRAUDE


Realizar ventas cruzadas de manera más efectiva.

OPORTUNIDADES DE DATA MINING EN VENTA CRUZADA


Atraer los clientes mas rentables.

OPORTUNIDADES DE DATA MINING EN CORREO DIRECTO



SPSS Clementine

Clementine es la más avanzada herramienta de Data Mining del mercado.

Combina modernas técnicas de modelamiento con poderosas herramientas de acceso, manipulación y exploración de datos en una interfaz simple e intuitiva.


Clementine 36 %


Características de Clementine Fácil entendimiento de los datos

Visualización Interactiva

Poderosa Preparación de los datos Accesa y combina datos de múltiples fuentes Especifica valores perdidos Deriva nuevas variables Produce información resumida

Incrementa la productividad con su enfoque visual de la manipulación de datos


Características de Clementine

Técnicas de Modelado Técnicas Supervisadas

C&RT, Redes Neuronales, C5.0,Quest, CHAID, Regresión Lineal y Regresión Logística

Técnicas No Supervisadas K-medias, Kohonen, Bi-etápico Apriori, GRI, Sequence, Carma, Detección de Anomalías

Técnicas de Evaluación Tablas Estadísticas, Gráficos de Ganancia y ROI

Técnicas de Publicación de modelos Punteo o Scoring de Bases de Datos Scoring en tiempo real


Capacidad Extendida de Clementine

Cubre todos los aspectos de las interacciones de clientes Minería de Textos (Text Mining) Web Mining

Predictive Enterprise Services (PES) Administrador de Modelost Administrador de Procesos

Traslada los resultados a la acción Interactúa con aplicaciones

Predictivas Publica los modelos con Solution

Publisher


Muestreo y validación de modelos

Tradicional en minería de datos : 2 muestras de datos. (Grande para entrenamiento y Pequeña de evaluación provenientes de la misma fuente)

Con Clementine se puede contar con tres muestras: entrenamiento, prueba y evaluación. (Tiene un nodo que automáticamente crea las particiones que se necesitan para el análisis).


Reglas de Asociación A PRIORI y CARMA :

Clementine permite analizar grandes bases de datos transaccionales o registros de programas de puntos y obtener reglas significativas que describan hábitos específicos de consumo. Los métodos de reglas de asociación permiten descubrir que valores de dos o más variables (que pueden ser predictores y objetivo en distintas reglas) generalmente ocurren conjuntamente (o no ocurren conjuntamente).


Reglas de Inducción

Los algoritmos de reglas de inducción y de asociación son las herramientas de análisis más frecuentes en el modelado de: Hábitos de compra Análisis de secuencias de compra Patrones de consumo Análisis de Ventas cruzadas o cross-selling

Clementine cuenta con los modelos GRI (Generalizad Rule Induction) que permiten generar reglas que sintetizan patrones en los datos utilizando una medida del interés de la regla para jerarquizar las reglas.


Detección de Secuencias

Estas técnicas permiten detectar reglas de asociación en donde el tiempo es importante dado que las variables están cronológicamente ordenadas.

Análisis muy útil en el área de Ventas al Detalle o Retail para detectar patrones de consumo

Y en el área de e-commerce en la detección de compra conjunta y patrones de navegación.


Árboles de decisiónUn algoritmo de árbol de decisión divide sucesivamente un

conjunto de registros obteniendo grupos en donde la distribución de la variable objetivo es más homogénea que al considerar todos los registros. Las divisiones se realizan seleccionando el predictor que mejor agrupa a los registros desde el punto de vista de homogeneizar la variable objetivo. Los algoritmos disponibles son:

C5.0 C&RT CHAID QUEST CHAID Exhaustivo

Util para Segmentar Consumidores y se dispone de muchas variables que se quieren priorizar.


Redes neuronales

Clementine cuenta con los métodos de redes neuronales de mayor uso (Kohonen, Prune, Radial Basis, etc.).

Las redes neuronales son, junto a los árboles de decisión, las más importantes herramientas de data mining disponibles actualmente debido a su capacidad para encontrar relaciones ocultas entre las variables y su flexibilidad para enfrentar distintos tipos de problemas de negocios.


Redes neuronales

Una red neuronal es básicamente un modelo simplificado de la forma en que el cerebro humano procesa información. La red aprende examinando los registros individuales, haciendo una predicción para cada registro de acuerdo a su semejanza con patrones vistos anteriormente, evaluando la predicción con el valor real de la variable objetivo en el registro y corrigiendo los patrones de acuerdo al acierto o fracaso en la predicción. Este proceso continúa repetidamente hasta que, básicamente, la red no puede mejorar más su eficiencia predictiva, generándose en ese momento el modelo.


Redes neuronales

Las redes neuronales son una herramienta ideal para enfrentar problemas complejos como ¿por qué un empleado abandona su trabajo ? ¿ Qué nivel de logro puede alcanzar una campaña que inicia? Fenómenos que son afectados por muchas variables cuya interrelación no es necesariamente lineal.

Clementine dispone de redes neuronales de Kohonen para desarrollar modelos de segmentación no dirigida conocidos como mapas auto-organizados. Este tipo de relaciones son las más frecuentes cuando se analizan datos de clientes con el propósito de detectar segmentos según hábitos de compra, consumos, nivel de cross-selling, etc.


Visualización gráfica

Muchas fases del proceso de minería utilizan gráficos y diagramas para explorar los datos.

La visualización gráfica de Clementine se puede clasificar en 4 tipos :

1. Gráficos para comprender mejor los tipos de datos y las distribuciones

2. Gráficos para manipular registros y campos previo a las operaciones de modelado

3. Gráficos para comprobar la distribución y las relaciones entre campos recién derivados.

4. Gráficos de apoyo al modelado


Gráfico de puntos

Muestran la relación entre los campos numéricos.


Gráficos de Distribución

Muestran la ocurrencia de valores simbólicos (no numéricos), como un género o un tipo de hipoteca, en un conjunto de datos. El uso habitual del nodo de distribución consiste en mostrar los desequilibrios de los datos que pueden rectificarse mediante el nodo Equilibrar antes de crear un modelo.


Histograma

Muestran la ocurrencia de valores de los campos numéricos. Se suelen utilizar para explorar los datos antes de las manipulaciones y la generación de modelos. Los nodos de histogramas se utilizan para detectar desequilibrios en los datos.


Gráficos de Colección

Muestran la distribución de los valores de un campo numérico relativo a los valores de otro, en lugar de la ocurrencia de los valores de un solo campo. Las colecciones son útiles para ilustrar una variable o un campo cuyos valores cambian con el tiempo.


Gráficos de Mallas direccionales

Muestran la fuerza de las relaciones entre variables categóricas. Son conexiones de una sola dirección.


Gráfico de Evaluación

Es una forma sencilla de evaluar y comparar modelos predictivos para elegir el mejor modelo para su aplicación. Muestran el comportamiento de los modelos pronosticando determinados resultados.


Análisis de conglomerados

Para interpretar los clusters


Diagramas de Cajas

Muestran la mediana, rango intercuartil, valores extremos y casos extremos de campos individuales.


Gráfica de Links

Muestra nodos y las conexiones entre nodos. Por ejemplo, puede examinar las rutas que los usuarios toman a través de un sitio Web, mediante el rastreo de cuántas veces los usuarios van de una página a la siguiente.


CAT’s (Templates)

Son modelos ya probados para Incrementar la retención de clientes , atraer utilidades de los clientes y crear ventas cruzadas eficientes y estrategias de venta.

Disponibles : CRM (Bancos y Retail) CreditScoring (Riesgo financiero en Bancos) Reducción Churn (Telecomunicaciones)


Minería de textos

Un 80% o más en promedio de la información de las empresas no está estructurada o está en formatos de textos, comparado con el 20% o menos que está estructurada en tablas y bases de datos usadas en minería de datos tradicional. Información de notas de los operadores de call centers, formas llenadas en la página web, correos electrónicos de clientes y algunas otras fuentes valiosas de información en texto de la empresa, a menudo no son utilizadas.

Text Mining para Clementine permite extraer conceptos claves, impresiones y relaciones de una base de datos no estructurada, los convierte en un formato estructurado para un modelo predictivo con Clementine. De esta forma se basan las decisiones críticas en el 100% de la información disponible de los datos, no sólo en el 20%.


Metodología para Data Mining (CRISP)


Soluciones SPSS para Data Mining


Algunos clientes

TelecomunicacionesTecnología

Entretenimiento

Servicios Financieros

Retail/Bienes de consumo Industria Farmacéutica

Lealtad


Muchas gracias !