28
Aplicaciones de minería de datos Por: M.C. Leopoldo González Rosas www.cnys.com.mx campodeEncinos.wordpress.com

aplicaciones de minería de datos

Embed Size (px)

DESCRIPTION

mi presentación para la U. de Cd. Serdán, en 11 2011

Citation preview

Page 1: aplicaciones de minería de datos

Aplicaciones de minería de

datos

Por:

M.C. Leopoldo González Rosas

www.cnys.com.mx

campodeEncinos.wordpress.com

Page 2: aplicaciones de minería de datos

Agenda

• Presentación

• Motivación

• ¿qué es minería de datos? – Disciplinas involucradas

• Aplicaciones – Bibliotecas

– Universidades

– otras

• ¿cómo funciona? – Arquitectura de inteligencia de negocios

Page 3: aplicaciones de minería de datos

Agenda (cont.)

– Metodología: El proceso de descubrimiento de conocimiento en bases de datos (KDD)

– Recolección/preparación de datos

– Algoritmos

– Modelo predictivo y su interpretación

– Utilizando los resultados • Toma de decisiones

• Sistemas operacionales

• Software de minería de datos

• Minería de datos y ética

• Conclusión

Page 4: aplicaciones de minería de datos

Presentación

Yo: Formación académica:

Licenciatura en Ciencias de la computación – BUAP FCC

Maestría en Ciencias con especialidad en Ingeniería en Sistemas - UDLAP

Experiencia profesional CNyS S.C. - Consultoría (BI, BD, PM, desarrollo de software)

gedas VW (BI, preventas, consultoría, LP)

BBVA Bancomer (BI, LP)

SFA Puebla (soporte técnico BD)

Experiencia académica Programación

Bases de datos / Inteligencia de negocios

Universidades: UDLAP, UPAEP, BUAP

Áreas de interés Bases de datos e inteligencia de negocios

Desarrollo de software

Proceso de enseñanza - aprendizaje

Page 5: aplicaciones de minería de datos

Motivación

• “Knowing is not enough; we must apply. Willing is not enough; we must do.”. Goethe

Generamos datos de manera exponencial Era de información

Obtener el conocimiento

oculto en esos datos Datos información conocimiento

Competir en este mundo de

negocios globalizado

Page 6: aplicaciones de minería de datos

¿qué es minería de datos?

• Minería de datos es el proceso por el cual generamos un modelo que sirva para la predicción,

– este modelo se genera a partir de datos aplicándoles algún algoritmo que construye el modelo.

• El modelo se evalúa para saber que tan certero será respecto a sus predicciones y posteriormente

• se utiliza para predecir el comportamiento de cualquier dato nuevo

USAR LA PREDICCION PARA MEJORAR Y GANAR EN LOS

NEGOCIOS

Page 7: aplicaciones de minería de datos

¿qué es minería de datos? (cont.)

• Es la extracción de información implícita, previamente desconocida y potencialmente útil a partir de datos [Witten I.H. et al, 2011]

• Es una disciplina joven y de rápido crecimiento, conocida como KDD, … DM como la evolución de TI. [Han J. et al, 2012]

• Es la extracción automatizada de información escondida a partir de (grandes) bases de datos. Te permite ser proactivo. Prospectivo en lugar de retrospectivo[Thearling K.]

Page 8: aplicaciones de minería de datos

Minería de datos - disciplinas

Page 9: aplicaciones de minería de datos

ejemplo: reglas if-then

if tasaProducciónLagrimas = reducida

then recomendacion = ninguna

Else

if edad=joven and astigmatismo=no

then recomendación = suaves

Page 10: aplicaciones de minería de datos

ejemplo: árbol de decisión

Page 11: aplicaciones de minería de datos

Aplicación en bibliotecas MBA

ID PRODUCTOS

OCT-1 1 QA QB

OCT-1 2 QC QD

OCT-1 3 QE QA

OCT-1 4 QB QC

OCT-1 5 QD QE QA

OCT-2 6 QB QC

OCT-2 7 QD QE

OCT-2 8 QA QB

OCT-2 9 QC QA QB

OCT-2 10 QC QA QB

OCT-2 11 QC QA QB

OCT-2 12 QC QD QE

Page 12: aplicaciones de minería de datos

Aplicación en bibliotecas DT

Page 13: aplicaciones de minería de datos

Aplicación en universidades

Page 14: aplicaciones de minería de datos

Aplicación universidades

Page 15: aplicaciones de minería de datos

Otras aplicaciones

• Marketing

• Predicción de ventas, precios, acciones e índices financieros.

• Detección de fraudes en tarjetas de crédito

• Clasificación y filtrado de documentos, e-mails y noticias.

• Análisis de llamadas en Centros de atención telefónica.

• Clasificación automática de Quejas y Sugerencias de Clientes.

Page 16: aplicaciones de minería de datos

Arquitectura de inteligencia de

negocios

• Software del sistema (system software)

– Sistemas operativos, DBMS, compiladores

• Software de aplicación (app software)

– Operacional

• OLTP y batch

• Office, nomina, ventas, ERP

– Para la toma de decisiones -> inteligencia

de negocios

Page 17: aplicaciones de minería de datos

Arquitectura

Page 18: aplicaciones de minería de datos

Metodología: KDD

Page 19: aplicaciones de minería de datos

Metodología (cont.)

1) Establecer de manera precisa el problema a resolver

- No gastes dinero, antes de comprar un software

primero establece que es lo que quieres resolver

2) Exploración inicial

-preparación y limpieza de datos

-transformaciones de datos

- Probar con estadística descriptiva para conocer datos

3) Construcción del modelo y validación

- Probar algunos modelos y elegir el mejor para el

problema que se está resolviendo

4) Liberación

- Una vez construido el modelo se puede usar muchas

veces

- Los árboles de decisión son fáciles de liberar

Page 20: aplicaciones de minería de datos

Recolección/preparación de datos

• Extraer, transformar, cargar

– Posiblemente ya existe un almacén de datos

• Limpieza / calidad de datos

• Transformaciones para la minería

– “Discretizar” (ejemplo: E B R M)

• Muestra(s) -> vistas minables

– Cómo se obtiene

– Tamaño de la muestra

Page 21: aplicaciones de minería de datos

Algoritmos de minería de datos

• Clasificación – predicen una o más variables discretas, basandose en los otros atributos en el conjunto de datos. Ejemplo: árboles de decisión

• Regresion – predice una o más variables continuas, como perdida o ganancia, basandose en los otros atributos en el conjunto de datos.

• Segmentación – divide datos en grupos o clusters de articulos que tienen propiedades similares.

• Asociación - encuentran correlaciones entre los diferentes atributos de un conjunto de datos. Sirven para crear reglas de asociación por ejemplo para MBA.

• Análisis de secuencia – encuentra secuencias frecuentes o episodios en datos, como en un flujo de rutas Web.

Page 22: aplicaciones de minería de datos

Modelo predictivo y su interpretación

If temperatura = agradable then humedad = normal

Page 23: aplicaciones de minería de datos

Utilizando los resultados

• Se recorre el modelo cada vez que se desea predecir

– Por ejemplo para decidir a quien otorgarle un apoyo adicional

– Por ejemplo para decidir si se le presta o no dinero a alguien

• El modelo se puede usar para calificar a los datos de los sistemas operacionales para:

– Por ejemplo: identificar “Preferentes”

– Por ejemplo: identificar “ evasores fiscales”

Page 25: aplicaciones de minería de datos

Minería de datos y ética

•Es difícil hacer que los datos sean “anónimos”

– 85% de la gente puede ser identificada por su C.P., fecha de nacimiento y genero

•La minería de datos se usa para discriminar •Ejemplo: aplicación de prestamos: usar información como sexo, religión o raza no es ético

•La situación etica depende de la aplicación •Ejemplo: la misma información esta bien en aplicaciones medicas

•Los atributos pueden contener información problematica

–Ejemplo: el CP se puede correlacionar con la raza

Page 26: aplicaciones de minería de datos

Conclusiones

• Minería de datos se ha venido estudiando e investigando pero no se esta aplicando en los diversos problemas de nuestro país

– Educación, salud, el campo, eliminar la pobreza

• Mientras tenemos científicos trabajando en este tema, debemos preparar a las personas que lo aplicarán. (astrónomos y astronautas)

• Es una tecnología que ya está al alcance de todo el mundo

• ¿Y el e-commerce? ¿Y la nube? ¿y las iPads? …

Page 28: aplicaciones de minería de datos

Bibliografía

• campodeEncinos.wordpress.com

• http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gonzalez_r_l/

• http://www.uppuebla.edu.mx/Revista/revista10.pdf

• http://hmi.ucsd.edu/pdf/HMI_2009_ConsumerReport_Dec9_2009.pdf

• http://www.cs.waikato.ac.nz/~ml/weka/book.html

• Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1

• Kiron D. et al. Analytics:the widening divide – how companies are achieving competitive advantage through analytics. MIT Sloan/IBM research report fall 2011

• http://www.kdnuggets.com/software/suites.html

• http://ccita2010.utmetropolitana.edu.mx/recursos/Recursos_digitales.pdf