78
Minería de Datos y Análisis Predictivo Fernando Das Neves Investigación y Desarrollo

Data Mining Snoop Consulting Arg

Embed Size (px)

Citation preview

Page 1: Data Mining Snoop Consulting Arg

Minería de Datos

y

Análisis Predictivo

Fernando Das NevesInvestigación y Desarrollo

Page 2: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Agenda

Data Mining y Análisis Predictivo: ¿Qué y para qué?

Técnicas de Data Mining Data Mining con Oracle Data Miner El proceso de Data Mining Factores de Exito y ROI de Data Mining

Page 3: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Snoop: Quienes somos

Snoop Consulting se especializa en:

Ingeniería de Software con tecnologías de orientación a objetos, UML, JAVA & J2EE

Bases de Datos

Soluciones de Inteligencia de Negocios

Data Mining y Análisis Predictivo

Usabilidad

Page 4: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Snoop: Quienes somos

Page 5: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Data Mining: ¿Cuál es el problema?

Muchos datos, poca información:

Cada transacción genera un registro, pero…

¿Son éstas transacciones un posible fraude?

¿Qué grupos de clientes tenemos?

¿A qué clientes retener, qué producto le puede interesar?

¿Dónde ubicar la próxima sucursal?

Intuición y análisis básico usualmente no son suficientes para contestar estas preguntas.

Page 6: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Información básica sobre un evento

Diferentes maneras de encontrar información

Técnica de

consultaNecesidades de reporte Ejemplo

Reporte de operaciones

Encontrar el destino de un vendedor en una fecha determinada.

Ad-hoc El usuario define las consultas para ayudar a entender un evento.

¿El vendedor V, ha tenido éxito en el pasado con este tipo de clientes?

OLAP Condensar información de eventos a través de diferentes dimensiones

¿Cuál es el porcentaje de exito de este producto en esta región? ¿Qué pasa a nivel local, regional, estacional?

Data Mining Asociación de atributos, modelado predictivo, agregado (clustering) de informaciónInvolucra diferentes atributos, registros y bases de datos.

¿Cuál es el potencial de ventas de este cliente? ¿Como se dividen los clientes en base al éxito de ventas?

Com

plejidad

Page 7: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

¿Qué hay de nuevo?

Business Intelligence es entendido y aceptado. Las empresas toman como algo normal recolectar y agregar datos.

Capacidad de procesamiento y memoria.

Todo esto hace que Minería de Datos y Análisis Predictivo sean posibles y efectivos hoy en día.

No es necesario tener un warehouse para hacer data mining.

Page 8: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

¿Qué es exactamente Minería de Datos?

El descubrimiento de reglas y patrones útiles de información en un vasto conjunto de datos que de otra manera parece caótico.

Frases clave:

reglas y patrones útiles...: Una regla evidente no es útil; una regla con poco valor (y muy poco frecuente) tampoco.

...que de otra manera: Quienes son mis mejores clientes no es un problema de data mining; que define a mis mejores clientes sí lo es.

Data Mining usualmente involucra varios pasos: decisión de metas de interés, limpieza y unificación de datos, búsqueda exploratoria, y desarrollo y validación de un modelo, entre otros.

Page 9: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Dos vistas de Data Mining

Reglas

0

10

20

30

40

50

60

70

80

90

100

?

?

?

Muy frecuentes(fáciles de detectar)

Muy raras(no son un patrón)

Reglas Novedosas y Utiles(difíciles de detectar)

¿nuevo tipo defraude?

Page 10: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Análisis Descriptivo y Predictivo

Las técnicas de data mining se pueden usar de dos maneras:

Para entender el por qué de una tendencia o evento, o encontrar nuevas relaciones entre los datos (análisis descriptivo).

Para sacar conclusiones a futuro a partir de tendencias complejas en las relaciones entre los datos existentes (análisis predictivo).

Page 11: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

¿Es magia?

No. Las técnicas de data mining tienen limitaciones y suposiciones sobre los datos.

Data mining no es probar algoritmos para ver que resulta.

Cuando éstas técnicas se combinan con un objetivo claro de negocios, son muy efectivas.

“Cualquier tecnología suficientemente avanzada es indistinguible de la magia”.

Arthur C. Clarke

Page 12: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Aplicaciones concretas de Data Mining

En Farmacia:Segmentación de clientes e identificación de potenciales nuevos clientes de alto valor mediante loyalty card.

En Petróleo:Predicción de permeabilidad de pozo a partir del well log.

En banca:Predecir la probabilidad de que un cliente vaya a cerrar la cuenta o la vaya a transferir a otro banco con 60 días de anticipación.

En Retail:Identificar clientes que es mas probable que respondan a una oferta de productos.

En Salud:Identificación de pacientes con alta predisposición a hipertensión.

Page 13: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

¿Qúe se puede hacer con Data Mining?

Más Ejemplos:Crear un ranking de expertos por tema en la empresa, a partir del análisis de tráfico de email.

Identificar "early buyers" a partir del historial de ventas, y ver que los caracteriza.

Estimar lo que cada cliente van a tener en la lista de compras a partir de sus compras en el pasado.

Sumarizar las opiniones negativas y positivas de clientes en la web.

Page 14: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

¿Qúe más se puede hacer con Data Mining?

...y más ejemplos...Estimar el esfuerzo de retener a un cliente versus el beneficio de retenerlo.

Estimar la gravedad de un ataque en internet (con o sin ataques previos).

Encontrar productos y servicios inesperados (diferentes de los que ofrecemos) ofrecidos por la competencia analizando su website.

Analizar cómo el publico usa el website de la compañia, que busca y que encuentra.

Page 15: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

¿Qúe más se puede hacer con Data Mining?

… y más ejemplos:Qué productos ofrecer a qué clientes para maximizar la inversión de marketing.

Usar los comentarios en la llamadas a call centers para determinar que casos son los mas caros de responder.

Qué combinación de productos pueden maximizar cross-selling.

Page 16: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Data Mining y Análisis Predictivo: ¿Qué y para qué?

Técnicas de Data Mining Data Mining con Oracle Data Miner El proceso de Data Mining Factores de Exito y ROI de Data Mining

Page 17: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

¿Cómo hacen?

Las técnicas de data mining aplicables a problemas empresariales se puede dividir en:

Descriptivos:Reglas de Asociación

Sumarización y Generalización

Clustering

Predictivos:Clasificación y Regresión

Optimización

Detección de Anomalías

Page 18: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

¿Cómo hacen?

Las técnicas de data mining aplicables a problemas empresariales se puede dividir en:

Descriptivos:Reglas de Asociación

Sumarización y Generalización

Clustering

Predictivos:Clasificación y Regresión

Optimización

Detección de Anomalías

Page 19: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Reglas de Asociación

Ciertos valores aparecen asociados tan frecuentemente, que la presencia de algunos valores sirve para predecir otros, con una cierta probabilidad.

Ejemplos:Hombres y edad [20,35] y sueldo_mes ≥ $6580 reproductor_mp3 con soporte=2% y confianza=0,67

“Salavando al Soldado Ryan” y “El Patriota” y meses ≤ 6 “Band of Brothers” con soporte=1% y confianza=0,9

Aplicadas a maximizar cross-selling

Page 20: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Reglas de Asociación

Ventajas de Reglas de Asociación: simples de interpretar.

Pueden restringirse por: Confidencia

Reglas con probabilidad alta

Soporte Reglas con alto número de ocurrencias

Contenido Reglas que incluyen un atributo en particular

Complejidad (longitud) de la regla

Page 21: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Resumen y Generalización

Dado un conjunto de casos, resumir es encontrar una descripción corta que cubra la mayor cantidad de casos con la mínima pérdida de información.

Ejemplos:Describir brevemente a un conjunto de papers de la competencia para encontrar temas comunes y estrategias.Capturar la relaciones entre equipos y miembros de diferentes equipos a partir del intercambio de emails. ¿Quién es el líder? ¿Quién el experto?

Page 22: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Clustering

Clustering consiste en agregar datos en grupos cuyos elementos tengan características comunes que sean útiles.

Ejemplos:Encontrar clientes con hábitos de compras similares.

Asignar temas a documentos a partir de encontrar temas comunes automáticamente.

Page 23: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Clustering en ODM

Por centroide

Edad

Ingreso

C2

EdadC1

Ingreso

C1

C2

Edad

Ingreso

Por Histograma

Page 24: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Clustering en ODM

K-Means

Usa una medida de similaridad basada en distancia

Puede crear jerarquías balanceadas o inbalanceadas.

Puede manejar grandes volúmenes via sumarización.

Page 25: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Enhanced K-Means

La versión de Oracle construye un agrupamiento jerárquico de clusters de arriba hacia abajo.

Los atributos catergóricos se dividen en bins de aprox. igual cantidad de items.

El nodo con mayor varianza se divide para formar 2 clusters.

Para cada cluster, el algoritmo retorna: el centroide, histogramas por atributo, y una regla que define la “caja” que delimita al cluster, y un score de pertenencia de cada item a cada cluster.

Page 26: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Clustering en ODM

O-Clustering: Algoritmo de clustering basado en densidad

Particiones ortogonales Encuentra clusters naturales

Page 27: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

O-Clustering

Funciona con un número alto de dimensiones y ruido

Combina atributos numéricos y categóricos

Datos con distribuciónmultinomial

0 20 40 60 80 100

0

20

40

60

80

100

Page 28: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Clasificación y Regresión

Aproximar la relación desconocida entre pares (dato, resultado) para predecir el resultado dado un dato nuevo.

Ventaja: No hace falta saber cual es la relación.

Desventaja: Dependiendo del método, las relaciones encontradas pueden ser difíciles de transformar en explicaciones.

Ejemplos: Predecir demanda de un producto en el corto plazo.

Predecir si un server esta por necesitar pasar a mantenimiento.

Page 29: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Clasificación: ArbolesEdad Empleo Crédito Compró

<25 público bajo No

25…40 privado alto Sí

<25 privado medio Sí

Edad Sí

Crédito

Empleo

No

Empleo

No

No

<25

25…40

>40

bajo

medio,alto

público

público

privado

privado

0,9 0,9

0,78

0,8

0,9

0,96

Page 30: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

ODM: Naive Bayes

Basado en probabilidades: rápido de calcularAsume independencia de atributosNo es afectado seriamente por la dimensión (columnas) de la tabla

Puede excluir casos con bajas probabilidades para aumentar precisión y performance

Produce probabilidades de predicciónResultado: Categorías y criterios

Page 31: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

ODM: Support Vector Machines

Aprenden a separan grupos no basadas en maximizar la separación (margen) entre los elementos de cada grupo (requieren ejemplos)

Precisas como Redes Neuronales, sin los problemas de overfitting

Lentas para aprender, el proceso es computacionalmente caro.

El algoritmo de SVM en ODM aprende a clasificar elementos en grupos y estima parámetros.

Page 32: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Regresión en ODM

Regresión permite predecir series temporales.

El tuning automático de parámetros en ODM simplifica la optimización de la predicción.

Page 33: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Optimización

Encontrar la mejor solución a un problema combinatorio, dados una serie de datos, un objetivo y un conjunto de limitaciones.

Ejemplo:Dado un nivel de venta estimado, y un conjunto de relaciones entre productos, encontrar el la asignación de precios que maximiza la ganancia.

Page 34: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Detección de Anomalías

Tradicionalmente, detectar anomalías (p.ej. Posibles fraudes) significaba definir que es una anomalía, y dar ejemplos.

Problemas:– Los ejemplos de anomalías son muy raros– Las anomalías van cambiando, y los ejemplos se

vuelven insuficientes. Alternativa:

Definir que es lo normal (de lo cual hay un montón de ejemplos), y que todo lo que es muy diferente, es una anomalía.

Page 35: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

ODM: One-Class SVM

origen

Espacio del problema Como el algoritmo ve el problema

Page 36: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

One-Class SVM en ODM

ODM incorpora avances para simplificar la búsqueda de anomalías:

El usuario puede especificar el % de outliers; ODM se encarga de ajustar los parámetros.

La transformación de datos para el algoritmo se realiza automáticamente.

Page 37: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Reducción de atributos

ODM implementa NMF (Non-Negative Matrix Factorization),un método para crear nuevos atributos que representen la misma información, pero en menor cantidad de atributos originales.

Puede funcionar con alta dimensionalidad y pocos valores por dimensión.

En ODM, NMF encuentra los vectores descriptores para clasificar nuevos elementos.

Page 38: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Text Mining y Data Mining

El objetivo de Data Mining es descubrir o derivar nueva información de los datos existentes.

Text Mining es descubrir información nueva y útil extrayendo información a partir de textos, aplicando una serie de algoritmos para convertir texto sin estructura en información estructurada.

Page 39: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Text Mining

Text Mining es más complicado que data mining porque:

Las computadoras no pueden leer (comprender) texto.

El texto no tiene estructura bien definida (campos).

Un documento trata varios temas.

El significado de las palabras es ambiguo, y depende del contexto y del idioma.

Posible explosión combinatoria de conexiones potencialmente válidas.

Page 40: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Aplicaciones Prácticasde Text Mining

Dentro de empresas, text mining se usa para identificar expertos y relaciones entre empleados y proyectos, tecnologías y clientes.

En atención a clientes, text mining se usa para incorporar las notas del operador de call center como parte del modelo predictivo.

En marketing, text mining se usa para resumir la opinión (positiva/negativa) de la gente con respecto a un producto.

En editoriales, text mining se usa para clasificar automáticamente las noticias y leyes, identificando los temas clave.

Page 41: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Text Mining y visión del cliente

Text mining complementa a data mining para dar una vista completa del cliente: lo que dice el texto se puede analizar cuantitativamente para contestar:

¿Cómo agrupan los comentarios de los clientes? ¿Qué causó picos de demanda en el call center? (text mining de

los logs de operadores) ¿Qué opinan la gente de mi producto? ¿Cuál es el rumor en la

web? ¿Cuáles son los términos claves asociados a las opiniones positivas y negativas?

Text mining puede reducir el churn en hasta 50% cuando se implementa correctamente como parte de una estrategia global de satisfacción del cliente. (Fuente: Nucleus Research)

Page 42: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Web Mining

Web Mining es la aplicación de data mining sobre Word Wide Web, para buscar patrones en el contenido, la estructura y el uso del web site.

¿De dónde vienen los visitantes a mi web site? ¿A dónde van cuando se van? ¿Cuánto tiempo se quedan? ¿Qué porcentaje de las sesiones resultaron en compras? ¿Qué páginas “espantan” clientes, haciendo que el usuario se

detenga y se vaya del web site? ¿Cuál porcentaje de gente deja el web site con items

seleccionados para compra? ¿En dónde ocurre más frecuentemente?

¿Cuál es el camino más transitado dentro del web site? ¿Qué tan exitosos son las publicidades? ¿Cuánto tiempo invierten los visitantes de mi web site cuando

llegan desde una determinada publicidad?

Page 43: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Recomendación

Recomendación es la aplicación de data mining para inferir los intereses de un usuario y adaptar el website a esos intereses.

¿Cuáles son los productos que el cliente estaría más interesado en comprar?

¿En cuáles otros productos similares o relacionados puede estar interesado el cliente ?

Page 44: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Data Mining y Análisis Predictivo: ¿Qué y para qué?

Técnicas de Data Mining Data Mining con Oracle Data Miner El proceso de Data Mining Factores de Exito y ROI de Data Mining

Page 45: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Oracle Data Miner

Page 46: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

¿Por qué Oracle Data Miner?

El motor de data mining es parte de la BD

No hay problemas de seguridad: La información se queda en donde está guardada. Simplifica el procesamiento de datos, elimina movimiento de datos, asegura escalabilidad.

La interfaz de usuario genera el código necesario para el proyecto de data mining.

Es mucho más fácil conseguir un programador PL/SQL que uno SPSS o SAS.

Es posible comenzar a usar ODM fácilmente, mediante DBMS_PREDICTIVE_ANALYTICS.PREDICT y EXPLAIN.

Contiene además una biblioteca de mas de 50 funciones estádisticas escritas para funcionar sobre cantidades masivas de datos.

Page 47: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Oracle Data Miner

Selección y asignación de peso a los atributos Clasificación y Predicción (supervisados)

Naive Bayes Support Vector MachinesRegresión Logística

Clustering y Asociaciones (sin supervición)Reglas de AsociaciónClustering Ortogonal Clustering con k-means

Selección de AtributosMinimum Description Length, chi cuadrado

Extracción de AtributosNon Negative Matrix Factorization

RegresiónRegresión MúltipleSupport Vector Regression

Page 48: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Beneficios de ODMCarácteristica Beneficio

Algoritmos de DM en la BD

• Elimina movimiento y exposición de datos

Amplio rango de algoritmos de data mining

• Pueden aplicarse a la mayoría de los problemas de DM

Corre en diferentes platformas

• Las aplications pueden ser desarrolladas y luego instaladas en otra plataforma

Parte de la Tecnología Oracle

• Grid, RAC, BI,…• Java (DM4J) y PL/SQL

Page 49: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Data Mining y Análisis Predictivo: ¿Qué y para qué?

Técnicas de Data Mining Data Mining con Oracle Data Miner El proceso de Data Mining Factores de Exito y ROI de Data Mining

Page 50: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

El Proceso de Data Mining

¿Qué hace a data mining complicado? La realidad.

Conjuntos MUY grandes de datos

Alta dimensionalidad de los datos

Interpretación

Overfitting

Outliers

Page 51: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Proceso de Data Mining ¿Qué se necesita?

Objetivos claros sobre qué averiguar, y que se espera obtener.

Un conjunto de datos significativo sobre el que basar la tarea de data mining.

Personal que entienda las limitaciones y ventajas de los distintos métodos de data mining.

Un proceso para que los resultados sean repetibles.

Page 52: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

CRISP-DM: Proceso de Data Mining

Standard Industrial para el proceso de data mining.

Diseñado a partir de la experiencia común de varias firmas consultoras de data mining.

Iterativo, dado que el proceso de data mining es iterativo por definición.

Suficientemente general como para describir todos los procesos de data mining.

Suficientemente específico como para detallar todos los pasos a seguir.

Page 53: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Fases de CRISP-DM

Comprensión delproblema de negocios

Comprensión de los datos disponibles

Preparación de los datos

Evaluación de la Solución

Puesta en Producción

Construcción deun modelo de DM

Page 54: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Fase del Proceso de Desarrollo de Software (RUP)

Incepción (Inicio)Incepción (Inicio) ElaboraciónElaboración ConstrucciónConstrucción TransiciónTransición

Comprometer recursos para la fase de elaboración

Hito: Objetivo del ciclo de vida del producto

Comprometer recursos para construcción

Hito: Arquitectura del ciclo de vida

del producto

El producto está maduro como para entregarlo al cliente

Hito: Puesta en operación inicial

del producto

El cliente acepta el producto, o el producto es terminado

Lanzamientodel producto

tiempo

Page 55: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

CRISP-DM y RUPComprensió

n del Negocio

Comprensión de los Datos

Preparación de los Datos

Modelado Evaluación Lanzamiento

Determinacióndel problema de Negocios

Estimación de situaciónactual

Determinaciónde objetivos de usar DM

Producción deun Plan deProyecto

Recoleccióninicial de datos

Descripción Inicial de datos

Exploraciónde datos

Verificación de calidad de datos

Selección de datos

Limpiezade datos

Construcción de una vista coherente de los datos

Integración de datos

Dar formato apropiado a los datos

Selección de un modelo de DM

Generaciónde un diseñode prueba

Construcciónde un modelo

Evaluacióndel modelo

Evaluación deresultados

Revisión delproceso

Determinaciónde lospróximospasos

Plan de distribución ypuesta en marcha

Planeación demonitoreo ymantenimiento

Producción dereporte final

Revisión Finaldel proyecto

Elaboració

nIncepción

Construcción Transición

Page 56: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

1. Comprensión del Problema de Negocios

Relevamiento de requerimientos Definición del problema en términos de

data mining. Identificación de limitaciones y

presunciones. Identificación de riesgos y posibles

contingencias. Plan Preliminar de cómo solucionar el

problema.

Page 57: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

2. Comprensión de los Datos Disponibles

Recolectar un conjunto inicial y representativo de los datos.

Familiarizarse con la estructura de los datos.

Identificar problemas con la calidad de los datos (repeticiones, valores faltantes, valores ambiguos).

Desarrollar hipótesis de relaciones entre los datos.

Page 58: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

3. Preparación de los Datos

Esta etapa consume más del 30% (hasta el 70%) del tiempo de un proyecto de DM.

Desarrollar un modelo para reemplazar/eliminar valores faltantes.

Cómo tratar valores ambiguos. Cómo tratar outliers. Transformar datos de discretos a continuos o al

revés. Computar valores para los algoritmos de DM,

posiblemente combinando diferentes conjuntos de datos.

Dar formato a los datos para que puedan ser usados por los algoritmos de DM.

Page 59: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

3. Preparación de los Datos

¿Qué porcentaje de tiempo ocupa la limpieza y preparación de datos en su proyecto de DM?

Sobre 187 proyectos:Más del 80% (46) 25%61 a 80% (73) 39%41 a 60% (46) 25%21 a 40% (7) 4%20% o menos (15) 8%

Fuente: http://www.kdnuggets.com/polls/2003/data_preparation.htm

Page 60: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

4. Construcción del Modelo de Data Mining

Seleccionar un conjunto de algoritmos que se pueden aplicar a distintas partes del problema. La solución usualmente implica a varios algoritmos.

Armar casos de prueba. Con los datos de la etapa anterior,

computar parámetros necesarios para los algoritmos.

Recolectar resultados de los algoritmos y evaluar performance, evitando overfitting.

Page 61: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

5. Evaluación de la Solución

Tomar los modelos con mejores resultados y aplicarlos a la totalidad de los datos.

Verificar que la solución ofrecida es la solución buscada por el cliente, antes de la puesta en producción.

Page 62: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

6. Puesta en Producción

Planear la puesta en producción. Entrenar usuarios para el funcionamiento en

producción, si así lo requiere la solución acordada.

Ejecutar el plan de puesta en producción. Monitorear el funcionamiento en producción

para detectar cualquier problema resultante de circunstancias no previstas.

Revisión final del proyecto.

Page 63: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Data Mining y Análisis Predictivo: ¿Qué y para qué?

Técnicas de Data Mining Data Mining con Oracle Data Miner El proceso de Data Mining Factores de Exito y ROI de Data Mining

Page 64: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Proyectos de Data Mining

Hay 3 tipos de proyectos de DM:1) Proyectos precisos, que comienzan con una

necesidad concreta del cliente y un resultado esperado. Menos riesgosos.

2) Proyectos de tipo exploratorio, usando herramientas de DM. Interesantes y valiosos, de más alto riesgo.

3) Proyectos que no son exactamente DM (OLAP, Reportes, “administración de conocimiento”)

Page 65: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Cómo ejecutar un proyecto de Data Mining

1. No confundir a DM con un oráculo.

2. Preguntar las preguntas de negocios que se pueden responder.

3. Los datos existen en calidad y cantidad, y son suficientes.

4. El analista entiende el problema; el cliente entiende la solución.

5. No ignorar el entendimiento a partir de los resultado parciales. Evitar "llámenme cuando funcione".

6. No subestimar la complejidad del preprocesamiento, integración, y adopción.

Page 66: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Cómo ejecutar un proyecto de Data Mining

1. No confundir a DM con un oráculo.

“No necesito entender que hace, que supuestos tiene, que límites tiene: me entrega una respuesta que en testeo es bastante cierta”.

(haga justo lo opuesto)

Page 67: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Cómo ejecutar un proyecto de Data Mining

2. Preguntar las preguntas de negocios que se pueden responder.

No todos los problemas se pueden resolver, y no todos son problemas de Data Mining. Muchos problemas se pueden solucionar con OLAP, o son en realidad problemas de predicción económica, o la solución en realidad es magia, no data mining.

Aún cuando se puede aplicar DM, es posible que el fenómeno sea aleatorio, o muy complicado para explicar con las herramientas disponibles.

Page 68: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Cómo ejecutar un proyecto de Data Mining

3. Los datos existen en calidad y cantidad, y son suficientes.

No es posible estimar un % de éxito sin saber el estado de los datos. DM depende de los datos existentes.

Ejemplo: Si se quiere usar DM para predecir churn, hace falta una BD con registros que tengan el historial del cliente, y que la información del log del call center sea correcta (p.ej. razón de la llamada).

Page 69: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Cómo ejecutar un proyecto de Data Mining

6. No subestimar la complejidad del preprocesamiento, integración, y adopción.

Transformar los datos a la forma correcta es a veces tener el 50% del éxito del proyecto.

¿Quienes están involucrados en el proyecto? ¿Cuál es el plan para dar acceso a los

usuarios finales al resultado de data mining?

Page 70: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

ROI y Data Mining

El beneficio de DM, en términos generales: Es la habilidad de extraer información con la que tomar decisiones a partir de datos, de una manera que no era posible antes. Tomar de decisiones con mayor confidencia. Mejor Uso de Recursos.

DM puede ser usado para calcular el ROI de otros proyectos, porque puede dar

respuestas concretas.

Page 71: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

ROI de Data Mining

Comparar contra el costo de “no hacer nada” y la pérdida asociada (en clientes, oportunidades), y calcular el retorno posible al identificar esta tendencia antes de que suceda.

Ejemplo: Cada mes en un banco , un X% de los clientes cierran las cuentas y se van a otro banco. El análisis de costo/beneficio puede calcularse examinando cuanto se pierde en esos clientes versus el costo del proyecto de DM y un porcentaje de predicción exitosa.

Page 72: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

ROI y Data Mining

¿Cual fue el ROI promedio de sus proyectos de DM en 2008?

El proyecto está en producción, pero no sé el ROI: 25

Negativo o cero: 4

1-10%: 2

11-25%: 1

26-50%: 5

51-100%: 8

101-250%: 9

251-1000%: 8

Mas de 1000%: 7 La mediana de ROI está en el rango 26-50%.

Fuente: Encuesta 2008 de Kdnuggets

Page 73: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

¿Por qué aplicar data mining en su empresa?

Las relaciones de interdependencia hacen que intuición y observación no sean más suficientes para entender y predecir.

Hoy en día existen algoritmos y técnicas que, cuando son usados efectivamente, pueden identificar patrones y tendencias relevantes a los objetivos del negocio.

La información ya está ahí, en la forma de bases de datos y data warehouses, pero no es aprovechada al máximo. Tomar ventaja de ella o no, depende de usted.

Page 74: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Cómo Podemos Ayudar

Definición del problema y factibilidad. Definición de proyecto piloto realista con

posibilidades de éxito. Ejecución del Proyecto. Coaching y mentoring en data mining.

Page 75: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Compromiso de Snoop

Aumentar el valor aportado por la inversión en sistemas.

Mejorar la calidad, disponibilidad y escalabilidad de sus aplicaciones.

Ofrecer el Respaldo permanente de consultores especializados.

Ayudar a mantener bajo control los costos de desarrollo, mantenimiento y de recursos humanos.

Page 76: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Mentoring & Coaching

Servicio de alto valor agregado. Ventaja de dedicar los esfuerzos y el tiempo a las

necesidades de mayor demanda. La transferencia de conocimientos se hace efectiva a

través del apoyo para solucionar problemas reales de la propia organización.

Este esquema de trabajo se basa en la colaboración y el trabajo en equipo con el personal de la empresa.

Al inicio del proyecto se planifica y coordinan las actividades para lograr que el equipo pueda aprovechar de la mejor manera la transferencia de conocimientos.

El equipo de la empresa desarrollará sus habilidades en proyectos piloto.

Page 77: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

Cómo Seguimos

Snoop Consulting

Fernando Das [email protected]

Page 78: Data Mining Snoop Consulting Arg

www.snoopconsulting.com

RP&

PREGUNTASPREGUNTASRESPUESTASRESPUESTAS

Muchas Gracias