“Torturando a los datos para que nos digan la verdad”
Mini Curso:Introducción a la Minería de Datos
www.dataminingperu.com
Agenda
Introducción
Que es Minería de Datos
Metodología CRISP
Casos Aplicativos
Preguntas
www.dataminingperu.com
Introducción
Día a día se almacenan gigantescascantidades de datos.
La información que se almacena norepresenta mayores costos y sealmacenan con la esperanza deanalizarlos mas adelante.
“Se estima que la cantidad deinformación en el mundo se duplicacada 20 meses.”
www.dataminingperu.com
Niveles de conocimiento
www.dataminingperu.com
Que es la Minería de Datos
Extracción no trivial de información implícita,previamente desconocida y potencialmente útil, a partirde los datos.
La Minería de Datos es un conjunto de técnicas deanálisis de datos que permiten:
- Extraer patrones, tendencias y regularidades paradescribir y comprender mejor los datos.- Extraer patrones y tendencias para predecircomportamientos futuros.
www.dataminingperu.com
Que es la Minería de Datos
www.dataminingperu.com
Evolución
60’s: Informes batch:
• la información es difícil de encontrar y analizar, poco flexible, se necesita reprogramar cada petición.
70’s: Primeros DSS (Decision Support Systems) y EIS (Executive Information Systems):
•basados en terminal, no integrados con el resto de herramientas.
80’s: Acceso a datos y herramientas de análisis integradas (conocidas como intelligentbusiness tools):
•Herramientas de consultas e informes, hojas de cálculo, interfaces gráficos e integrados, fáciles de usar.
•Acceden a las bases de datos operacionales (“killer queries”).
90’s: Almacenes de Datos y herramientas OLAP.
00’s: Herramientas de Minería de Datos y Simulación.
www.dataminingperu.com
Herramientas para la toma de Decisiones
Herramientas de Toma de Decisiones
Base de Datos Transaccional
Fuentes Internas
Fuentes Externas
Fuente de Datos
Fuente de Datos 3
HTML
Fuente de Datos 1
texto
Almacén de DatosETL Interfaz y
Operadores
Herramientas de consultas e
informes
Herramientas EIS
Herramientas OLAP
Herramientas de Minería de
Datos
www.dataminingperu.com
Clasificación de Algoritmos de Minería de Datos
www.dataminingperu.com
Aplicaciones de la Minería de Datos
Banca• Determinación de Fraude con el uso de Tarjetas de Crédito• Generación de Score de Riesgos para clientes morosos.
Retail• Analisis de Canasta • Propensión a la compra de Productos Estrella
Marketing• Targeting de acciones de Marketing• Fidelización de Clientes
Web• Web Mining• Optimización de Portales Web
www.dataminingperu.com
Ejemplos de Minería de Datos
Objetivo. Identificar a todos los posibles clientes que estánhaciendo uso indebido del servicio de telefonía móvilrevendiendo ilegalmente la misma.
Telefonía Móvil: Propensión para la detección de Chalequeros
Arboles de Decisión
www.dataminingperu.com
Aplicación en Web Mining
Google Wikipedia
El Comercio
www.dataminingperu.com
Herramientas
Comerciales
Open Source
www.dataminingperu.com
Fases del Modelo
Comprensión del Negocio
Comprensión de los Datos
Preparación de los Datos Modelado Evaluación Desarrollo
Fases del Proyecto de Minería de datos
www.dataminingperu.com
Comprensión del Negocio
Comprensión del Negocio
Comprensión de los Datos
Preparación de los Datos Modelado Evaluación Desarrollo
Determinar los Objetivos del
Negocio
Evaluar la situación
Determinación de los Objetivos de Minería de
Datos
Elaborar el Plan del Proyecto
www.dataminingperu.com
Comprensión del Negocio
Comprensión del Negocio
Comprensión de los Datos
Preparación de los Datos Modelado Evaluación Desarrollo
Recolectar Datos Iniciales
Describir los Datos
Explorar los Datos
Calidad de los Datos
www.dataminingperu.com
Comprensión del Negocio
Comprensión del Negocio
Comprensión de los Datos
Preparación de los Datos Modelado Evaluación Desarrollo
Seleccionar Conjunto de Datos Data Cleaning Integrar los Datos
www.dataminingperu.com
Data Cleaning
• Generación de datos de calidad.• Datos primarios pueden llevar a conclusiones erroneas en el análisis.• Mejora Considerable en el proceso de Análisis de Datos.
Data Collecting
Data Cleaning
Data Transformation
Data Reduction
•Se obtiene datos de diferentes fuentes.
•Resuelve conflictos entre datos.•Elimina Outliers
•Transformación y consolidación de los datos
•Selección de caracteristicas.•Muestra del total.
Comprensión del Negocio
Comprensión de los Datos
Preparación de los Datos Modelado Evaluación Desarrollo
Data Cleaning
www.dataminingperu.com
Comprensión del Negocio
Comprensión del Negocio
Comprensión de los Datos
Preparación de los Datos Modelado Evaluación Desarrollo
Escoger la Técnica de Modelado
Generar la prueba de
control
Construir el modelo
Evaluación de
Modelos
www.dataminingperu.com
Comprensión del Negocio
Comprensión del Negocio
Comprensión de los Datos
Preparación de los Datos Modelado Evaluación Desarrollo
Evaluar los Resultados
Revisar el Proceso
Determinar los Próximos
pasos
www.dataminingperu.com
Comprensión del Negocio
Comprensión del Negocio
Comprensión de los Datos
Preparación de los Datos Modelado Evaluación Desarrollo
Desarrollo del Plan
Supervisión y Mantenimiento
Informe Final
Revisar el Proyecto
www.dataminingperu.com
Consultas
Consultas