52
1 Julio Iglesias 12 Junio 2014 Cuando Nemo encontró a (su) patrón Minería de datos

Minería de Datos: Qué significa realmente y ejemplos de utilización

Embed Size (px)

DESCRIPTION

3ª Sesión Técnica del Ciclo de Conferencias sobre BI, celebrada el 12 de junio. Fue conducida por Julio Iglesias, Director del Departamento de Business Intelligence en IFR Group, experto especializado en proyectos de este tipo, y profesor asociado de nuestra Escuela Universitaria ¿Qué significa realmente la minería de datos? ,¿Cómo se engloba en un proyecto de BI?, ¿Puede mi empresa con los datos que genera hacer proyectos de este tipo? Y ¿Dónde está el límite para abordar proyectos de este tipo? Bancos, hospitales, empresas de retail y páginas web son algunos de los sectores que utilizan esta tecnología. A lo largo de la sesión se analizó qué significa y qué implica la minería de datos: concepto y definición, casos, algoritmos de utilización… y de forma práctica se vieron un par de proyectos de ejemplo de las posibilidades que ofrece esta tecnología tan aplicada en la actualidad. Los asistentes tuvieron la oportunidad de ver de primera mano cómo las empresas utilizan los datos y la estadística para crear ofertas personalizadas.

Citation preview

Page 2: Minería de Datos: Qué significa realmente y ejemplos de utilización

Minería de datos

Definición y características

Algoritmos

Metodología

• Demos

Objetivos y agenda

Cuando Nemo encontró a su patrón

Page 3: Minería de Datos: Qué significa realmente y ejemplos de utilización

Evolución

37

Informes

barras verdes

Herramientas

primarias

1970s

Documentar

el negocio

E-comm

Merchandising

analítico

2000

OLAP

Reporting

Basado en

Web

Data Mining

1990s1980s

Primeros DWs

Data Marts

Hojas de cálculo

Informes

DSS

2010+

Big Data

Data Streaming

Comprender

el negocioMejorar

el negocioPredecir

el negocio

Qué pasa

con el negocio

¿?

Page 4: Minería de Datos: Qué significa realmente y ejemplos de utilización

TECNOLOGIAS QUE PERMITEN “ABSTRAER” LA INFORMACION EN CONOCIMIENTO

Tecnologías de BI

Page 5: Minería de Datos: Qué significa realmente y ejemplos de utilización

¿Qué buscamos?

Page 6: Minería de Datos: Qué significa realmente y ejemplos de utilización

6

Análisis Predictivo

Predictive Analysis

Presentation Exploration Discovery

Passive

Interactive

Proactive

Role of Software

Business

Insight

Canned reporting

Ad-hoc reporting

OLAP

Data mining

Self-service Analysis

Page 7: Minería de Datos: Qué significa realmente y ejemplos de utilización

7

WH?

QUE

(What)

QUIEN

(Who)

DONDE

(Where)

CUANDO

(When)

CUAL

(Which)

POR QUE?

(Why)

Otras tecnologías de BI no dan respuesta…

WH?

Page 8: Minería de Datos: Qué significa realmente y ejemplos de utilización

Minería de datos

Page 9: Minería de Datos: Qué significa realmente y ejemplos de utilización

Extracción y análisis de información oculta y predecible de grandes bases

de datos mediante identificación de modelos, patrones y relaciones.

Definición

También conocida por (KDD- Knowledge Discovery in Databases)

Page 11: Minería de Datos: Qué significa realmente y ejemplos de utilización

11

Mediante el Data Mining seremos capaces de realizar acciones

específicas y personalizadas:

• Descubrir patrones de comportamiento

• Fidelizar a los “mejores” clientes

• Motivos de éxito o fracaso de un nuevo producto/medicamento

• Distinguir los clientes/pacientes potencialmente más compradores o usuarios

de un servicio/producto

• Predecir automáticamente los comportamientos y futuras compras de un

cliente comparando con clientes del mismo perfil

• Detección de fraude

• Conocer las características de los clientes desvinculados y sus motivos de

abandono

• Qué productos tienden a venderse con otros

• ¿A qué grupos de clientes debo lanzar una campaña específica?

• …

Posibles utilidades

Page 12: Minería de Datos: Qué significa realmente y ejemplos de utilización

Minería de datos

Page 13: Minería de Datos: Qué significa realmente y ejemplos de utilización

Componentes

Page 14: Minería de Datos: Qué significa realmente y ejemplos de utilización

Componentes

Algoritmos(estadística)

Datos Modelo

Page 15: Minería de Datos: Qué significa realmente y ejemplos de utilización

Datos

Datos

Datos, necesito datos….

Page 16: Minería de Datos: Qué significa realmente y ejemplos de utilización

16

Tarjetas perforadas5 ¼

3 ½ 20 Mb

100 Mb

600 Mb

1 Gb4 Gb

4,7 Gb

9 Gb

16 Gb

1 Tb

<20 años 1 millón

Evolución capacidad

Page 17: Minería de Datos: Qué significa realmente y ejemplos de utilización

Datos, necesito datos…

Page 18: Minería de Datos: Qué significa realmente y ejemplos de utilización

Datos, muchos datos…

Page 19: Minería de Datos: Qué significa realmente y ejemplos de utilización

Algoritmos

Algoritmos(estadística)

Conjunto de herramientas y

técnicas para buscar

patrones.

Componente estadística

Algunos pueden producir

más de un resultado

Utilizar diferentes

algoritmos para diferentes

tareas

Combinar algoritmos para

solucionar un problema

particular

Page 20: Minería de Datos: Qué significa realmente y ejemplos de utilización

Decision Trees

Naïve Bayesian

Clustering

Sequence Clustering

Association Rules

Neural Network

Time Series

….

Algoritmos de minería

Page 21: Minería de Datos: Qué significa realmente y ejemplos de utilización

Qué clientes comprarán un determinado producto con una

probabilidad X?

Clasificación (Predicción)

Probabilidad de que un cliente tenga un determinado perfil?

Segmentación

Recomendar un producto a un cliente que realiza una determianda

compra

Asociación

Probabilidad de que un cliente compre un producto en el futuro

Predicción de secuencias

Predecir la venta de los próximos 5 meses y su error

Forecasting

Escenarios

Page 22: Minería de Datos: Qué significa realmente y ejemplos de utilización

√ √ √ √ √ √

√ √ √ √ √

√ √ √

√ √ √ √ √ √

√ √ √

Classification

Regression

Segmentaion

Assoc. Analysis

Anomaly Detect.

Seq. Analysis

Time series

√ - second choice√ - first choice

¿Cuál escoger?

Page 23: Minería de Datos: Qué significa realmente y ejemplos de utilización

Algorithm Description

Decision Trees Finds the odds of an outcome based on values in a training set

Association Rules

Identifies relationships between cases

Clustering Classifies cases into distinctive groups based on any attribute sets

Naïve Bayes Clearly shows the differences in a particular variable for various data elements

Sequence Clustering

Groups or clusters data based on a sequence of previous events

Time Series Analyzes and forecasts time-based data combining the powerof ARTXP (developed by Microsoft Research) for short-term predictionswith ARIMA (in SQL 2008) for long-term accuracy.

Neural Nets Seeks to uncover non-intuitive relationships in data

Linear Regression

Determines the relationship between columns in order to predict an outcome

Logistic Regression

Determines the relationship between columns in order to evaluate the probability that a column will contain a specific state

Algoritmos/Técnicas

Page 24: Minería de Datos: Qué significa realmente y ejemplos de utilización

Veamos algunos ejemplos…

Page 25: Minería de Datos: Qué significa realmente y ejemplos de utilización

Arboles de decisión

Page 26: Minería de Datos: Qué significa realmente y ejemplos de utilización

Arboles de decisión

262626

Arboles de Decisión (modelos predictivos)

Son útiles para predecir el valor de ciertos valores

a partir de otros datos

Se realiza una clasificación, empezando por los atributos más

significativos hasta terminar por los menos significativos.

De esta manera es posible establecer una serie de reglas

sobre qué factores (atributos) afectan a cada caso del modelo

y tener una base a partir de la cual estimar como responderán

otros casos en el futuro (predicción)

Riesgo

Crediticio

CasadosBajo : 55%Alto : 45%

SolterosBajo : 45%Alto : 55%

AsalariadosBajo : 65%Alto : 35%

CasadosBajo : 45%Alto : 55%

SolterosBajo : 40%Alto : 60%

AutónomosBajo : 50%Alto : 50%

Deudas BajasBajo : 80%Alto : 20%

Deudas Altas100%

Todos100%

Page 27: Minería de Datos: Qué significa realmente y ejemplos de utilización

Componentes

Arboles de decisión

Page 28: Minería de Datos: Qué significa realmente y ejemplos de utilización

Asociación

Page 29: Minería de Datos: Qué significa realmente y ejemplos de utilización

Amazon y Netflix

Amazon: 35% de las ventas del producto

provienen de recomendaciones

Netflix: 75% del streaming de vídeo

viene de recomendaciones

Page 30: Minería de Datos: Qué significa realmente y ejemplos de utilización

Asociación

Cesta compra

Navegación Web

Page 31: Minería de Datos: Qué significa realmente y ejemplos de utilización

Componentes

Asociación

Page 32: Minería de Datos: Qué significa realmente y ejemplos de utilización

Series temporales

Page 33: Minería de Datos: Qué significa realmente y ejemplos de utilización

33

Análisis de Series Temporales

Se utilizan para hallar predecir el comprotamiento de variables que

dependen del tiempo.

Se necesita una base de datos histórica.

Se utiliza para la pevisión de demanda o stocks en un almacén o

para la previsión del número de periódicos a enviar a un quiosco, etc.

tiempo

Ene Feb Mar Abr May Jun Jul Aug Sep Oct Nov Dic Ene

PresentePasado Futuro

?

Series temporales

Page 34: Minería de Datos: Qué significa realmente y ejemplos de utilización

Componentes

Previsión

Page 35: Minería de Datos: Qué significa realmente y ejemplos de utilización

Clústering

Page 36: Minería de Datos: Qué significa realmente y ejemplos de utilización

36

Clustering

Utilizado para realizar agrupaciones de registros de acuerdo a

características comunes, obteniendo grupos de registros con

comportamiento o características parecidas entre entre ellos y

diferenciadas con los otros grupos..

El clustering es útil especialmente para realizar tareas de Marketing

tales como segmentación de clientes.

Clase1

Clase2Clase3

Ingresos anuales

Edad

Clase1

Clase2Clase3

Ingresos anuales

Edad

Clase1

Clase2Clase3

Ingresos anuales

Edad

Clustering

Casos

Clústering

Page 37: Minería de Datos: Qué significa realmente y ejemplos de utilización

Componentes

Clustering

Page 38: Minería de Datos: Qué significa realmente y ejemplos de utilización

38

No todo es comercial….

Page 39: Minería de Datos: Qué significa realmente y ejemplos de utilización

Componentes

Breast Cancer

Page 40: Minería de Datos: Qué significa realmente y ejemplos de utilización

Modelo

Modelo

Page 41: Minería de Datos: Qué significa realmente y ejemplos de utilización

41

¿ Como se realiza el proceso de DM ?

Modelo

MotorDM

Datosa tratar

MotorDM

Datos tratados

Datos deentrenamiento

Modelo

Modelo

Creación de un modelo

Page 42: Minería de Datos: Qué significa realmente y ejemplos de utilización

42

Uno de los pasos más importantes en un estudio es obtener la

base de datos para el estudio.

Las bases de datos o muestras de estudio no sólo se elaboran con

información interna de la empresa, sino que muchas veces se

necesita de información externa.

Si no se dispone de la información correcta o de la información

necesaria, el estudio o análisis puede resultar un fracaso o inducir a

conclusiones equivocadas. Importante dedicar un extenso tiempo en

obtener la información y también en validarla.

A tener en cuenta

Page 43: Minería de Datos: Qué significa realmente y ejemplos de utilización

43

El siguiente paso a realizar para obtener la base preparada para el

estudio es realizar unos procesos de calidad de los datos y de la

muestra.

• Comprobar que la muestra sea representativa (que represente a la población

que queremos analizar)

• Conocer cómo se han obtenido los datos, si han sido tratados o

manipulados con anterioridad, etc.

• Que no haya valores o registros erróneos

• Que no haya valores perdidos o missing

• …

Todos aquellos registros erróneos no se deben tener en cuenta en el

estudio.

Calidad de los datos

Page 44: Minería de Datos: Qué significa realmente y ejemplos de utilización

Estandarización Puntos de Tiempo

• Examinar los últimos meses antes de abandono

• Abandono de diferentes clientes ocurren en diferentes momentos

44

Page 45: Minería de Datos: Qué significa realmente y ejemplos de utilización

45

Interpretar los resultados

Page 46: Minería de Datos: Qué significa realmente y ejemplos de utilización

Resumen

Page 47: Minería de Datos: Qué significa realmente y ejemplos de utilización

47

Interpretar los resultados

“…no disponer de la información correcta / necesaria,

puede ser peor…”

Cuando Nemo encontró a (su) patrón

“…no disponer de la información es malo…”

Page 48: Minería de Datos: Qué significa realmente y ejemplos de utilización

Correlación vs Causalidad

La causalidad es una relación entre un evento (causa) y un segundo

evento (efecto), en la cual el segundo evento se entiende como

consecuencia del primero

Causalidad

Se considera que dos variables cuantitativas están correlacionadas cuando

los valores de una de ellas varían sistemáticamente con respecto a los

valores homónimos de las otras.

Correlación

Page 49: Minería de Datos: Qué significa realmente y ejemplos de utilización

Correlación vs Causalidad

http://www.tylervigen.com/

Page 50: Minería de Datos: Qué significa realmente y ejemplos de utilización

He visto la luz… ¿?

Page 51: Minería de Datos: Qué significa realmente y ejemplos de utilización

51

Conclusiones

• No es ciencia ficción, pero hay que trabajarlo

• VOLUMEN: Grandes volúmenes de datos.

• Minería no es necesariamente Big Data

• ALGORITMO:

• Cada algoritmo pudiera necesitar la información de entrada de una forma

determinada.

• Respuesta = ¿+? De un algoritmo

• INTERPRETACION: Se deben hacer preguntas concretas y saber interpretar las

respuestas.

• MODELO: Importante contar con alguien experto en el tema para validarlo

• MADUREZ en la empresa en proyectos de BI