45
1 EPB 603 Sistemas del Conocimiento Dr. Oldemar Rodríguez R. Maestría en Administración de la Tecnología de la Información Escuela de Informática Universidad Nacional EPB 603 Sistemas del Conocimiento Capítulo 1 Capítulo 1 Conceptos Básicos Conceptos Básicos y Herramientas OLAP Herramientas OLAP EPB 603 Sistemas del Conocimiento

Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

Embed Size (px)

Citation preview

Page 1: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

1

������������� ��������� ���������� �

EPB 603Sistemas del Conocimiento

Dr. Oldemar Rodríguez R.Maestría en Administración de la

Tecnología de la InformaciónEscuela de InformáticaUniversidad Nacional

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Capítulo 1Capítulo 1

Conceptos BásicosConceptos Básicosyy

Herramientas OLAPHerramientas OLAP

EPB 603 Sistemas del Conocimiento

Page 2: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

2

������������� ��������� ���������� �

Introducción

¿Qué es Minería de Datos?

– Extracción de información o de patrones (no trivial, implícita, previamente desconocida y potencialmente útil) de grandes bases de datos.

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Introducción

¿Qué es Minería de Datos?

– Es analizar datos para encontrar patrones ocultos usando medios automatizados.

EPB 603 Sistemas del Conocimiento

Page 3: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

3

������������� ��������� ���������� �

Introducción

¿Qué es Minería de Datos?– La Minería de Datos es un proceso no elemental de

búsqueda de relaciones, correlaciones, dependencias, asociaciones, modelos, estructuras, tendencias, clases (clusters), segmentos, los cuales que se obtienen de grandes juegos de datos, los cuales generalmente están almacenados en bases de datos (relacionales o no).

– Esta búsqueda se lleva a cabo utilizando métodos matemáticos, estadísticos o algorítmicos.

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Introducción

¿Qué es Minería de Datos?

– Se considera la Minería de Datos como un el proceso, lo más automatizado posible, qué va de los datos elementales disponibles en una Bodega de Datos a la decisión.

– El objetivo principal de la Minería de Datos es crear un proceso automatizado que toma como punto de partida los datos y cuya meta es la ayuda a la toma de decisiones.

EPB 603 Sistemas del Conocimiento

Page 4: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

4

������������� ��������� ���������� �

Introducción

Minería de Datos versus KDD (Knowledge Discovery in Databases)

– Usualmente ambos términos son intercambiables.

KDD (Knowledge Discovery in Databases): Es el proceso de encontrar información y/o patrones útiles en los datos.

Minería de Datos: es el uso de algoritmos para extraer información y/o patrones derivados del proceso KDD.

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Minería de Datos: A KDD Process

• La Minería de Datos: Es el centro del proceso de descubrimiento del conocimiento (KDD Process = Knowledge Discovery in Data Bases Process).

Page 5: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

5

������������� ��������� ���������� �

Introducción

Minería de Datos versus Estadística

� La estadística generalmente analiza muestras de datos para luego hacer inferencia a toda la población, mientras que la minería de datos pretende buscar información útil usando toda la base datos.

� La estadística en la mayoría de los casos supone que los datos se comportan de acuerdo a ciertas distribuciones de probabilidad (normal, binomial, geométrica, Poisson, etc), mientras que la minería de datos usa técnicas mucho más exploratorias que vienen de la IA, o del “Analyse des Données”.

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Introducción

Minería de Datos versus Análisis de Datos

� Con el advenimiento de las computadoras, aproximadamente en 1960, un nuevo concepto surgió del “matrimonio” entre la informática y la estadística: El Análisis de Datos (conocido en como: Analyse des Données - Exploratory Data Analysis).

� Esta nueva manera de analizar los datos con un objetivo decisional usa mucho más la informática y los métodos analíticos (el análisis de factorial, la clasificación automática, la discriminación, etc.) que los métodos estadísticos clásicos, las pruebas de hipótesis, que parten de supuestos matemáticos muy difíciles de verificar en la práctica. (Ej. no se supone que los datos siguen cierta distribución de probabilidad – los datos se muestran por si mismos).

� A diferencia de la minería de datos, el análisis de datos usualmente no es automatizado, ni trata con volúmenes de datos tan grandes.

EPB 603 Sistemas del Conocimiento

Page 6: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

6

������������� ��������� ���������� �

Introducción

Minería de Datos versus Bodegas de Datos

� Una Bodega de Datos es un almacén de datos de una compañía que contiene algunos datos operacionales, datos agregados (sumarizaciones), datos del históricos, datos evolutivos y posiblemente aquellos datos externos a la compañía pero que tienen una posible relación con las actividades de esta.

� Estos datos se depositan en una o más bases de datos relacionales y son accesibles a todas las aplicaciones orientadas a la toma de decisiones.

� Evidentemente bodegas de datos y minería de datos son cosas muy diferentes. Una bodega de datos es usualmente apenas el punto de partida de la minería de datos. Podría decirse que ambos, las bodegas de datos y la minería de datos son parte del proceso KDD.

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Introducción

Minería de Datos versus Machine Learning

– “Machine Learning”: es un área de la Inteligencia Artificial (IA) que trata sobre como escribir programas puedan aprender.

– En “Data Mining” es usualmente usado para predicción y clasificación.

– Se divide en dos: aprendizaje supervisado (learns by example) y aprendizaje no supervisado.

EPB 603 Sistemas del Conocimiento

Page 7: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

7

������������� ��������� ���������� �

La Minería de Datos: Confluencia de Múltiples Disciplinas

���������� �

���� � ������������ �

���������

��������������

������������� � ��!�

��� "��� #��$��%��!�

������������� ��������� ���������� �

Aplicaciones de la Minería de Datos

• Retención de Clientes ¿Cuáles clientes se van ir para la competencia?

• Patrones de Compra ¿Cuándo un cliente compra un producto cuál otro le podría interesar?

• Detección de Fraude ¿Cuáles transacciones son fraudulentas?

• Manejo del Riesgo ¿A qué clientes les doy un préstamo?

• Segmentación de clientes ¿Quiénes son mis clientes?

• Predicción de Ventas ¿Cuánto voy a vender el próximos mes?

EPB 603 Sistemas del Conocimiento

Page 8: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

8

������������� ��������� ���������� �

Tareas de la Minería de Datos

• Descriptivas:– OLAP (visualización).– “Clustering”.– Métodos Factoriales como ACP, AFC.

• Predictivas:– Series de Tiempo.– Análisis Discriminante.– Regresión.– Árboles de Decisión.

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Tareas de la Minería de Datos

• “Clustering”: (clasificación no supervisada, aprendizaje no supervizado): Es similar a la clasificación, excepto que los grupos no son predefinidos. El objetivo es particionar o segmentar un conjunto de datos o individuos en grupos que pueden ser disjuntos o no. Los grupos se forman basados en la similaridad de los datos o individuos en ciertas variables. Como los grupos no son dados a priori el experto debe dar una interpretación de los grupos que se forman.

• Métodos:– Clasificación Jerárquica (grupos disjuntos).– Nubes Dinámicas (grupos disjuntos).– Clasificación Piramidal (grupos NO disjuntos).

EPB 603 Sistemas del Conocimiento

Page 9: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

9

������������� ��������� ���������� �

Cluster Analysis

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

The K-Means Clustering Method (nubes dinámicas)

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 100

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 100

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

EPB 603 Sistemas del Conocimiento

Page 10: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

10

������������� ��������� ���������� �

Tareas de la Minería de Datos

• Clasificación (discriminación): Mapea o asocia datos a grupos predefinidos (aprendizaje supervisado).– Encuentra modelos (funciones) que describen

y distinguen clases o conceptos para futuras predicciones.

– Ejemplos: Credit scoring.

– Métodos: Análisis discriminante, decision-tree, classification rule, neural network

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

v1v2

v4

v3

v5

v6

v8

EPB 603 Sistemas del Conocimiento

Page 11: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

11

������������� ��������� ���������� �

Tareas de la Minería de Datos

• Descubrimiento de Factores (Análisis Factorial):

– El análisis factorial es un nombre genérico que se da a una clase de métodos multivariantes cuyo propósito principal es encontrar la estructura subyacente en una tabla de datos (factores ocultos).

– Generalmente hablando, aborda el problema de cómo analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables con la definición de una serie de dimensiones subyacentes comunes, conocidas como factores.

– Se puede considerar cada factor como una variable dependiente que es función del conjunto entero de las variables observadas.

– El objetivo central es el resumen y la reducción de datos.

• Métodos:– Análisis en Componentes Principales (ACP).– Análisis Factorial de Correspondencias simples y múltiples (AFC).– Análisis Canónico (AC).– Análisis Discriminante (AD).

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Tabla de DatosTabla de Datos ComponentesComponentes

100% de la información100% de la información 80%80% 16%16% 0.02%0.02%…………

EPB 603 Sistemas del Conocimiento

Page 12: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

12

������������� ��������� ���������� �EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Tareas de la Minería de Datos

• Regresión: Se usa una regresión para predecir los valores ausentes de una variable basándose en su relación con otras variables del conjunto de datos.

• Hay regresión lineal, no lineal, logística, logarítmica, univariada, multivariada, etc.

EPB 603 Sistemas del Conocimiento

Page 13: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

13

������������� ��������� ���������� �

Regression

x

y

y = x + 1

X1

Y1

Y1’

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Tareas de la Minería de Datos

• Series de Tiempo: ���������������� �� ����� ��������� ���� ��� �������� ����������������� �������������������� ��� ����������������������� �

� ��� ��

1. Xt : Serie de tiempo.2. Corregir errores sistemáticos.3. Transformaciones matemáticas.4. Xt=Tendencia+Estacionalidad+Ciclos+Et.5. Para Et (Si no es un ruido blanco)

1. Elegir el modelo (Box-Jenkings).1. ARMA(p,q) (AutoRegressive Moving Average)2. ARIMA(p,d,q) (AutoRegressive-Integrated Moving Average)

2. Estimar parámetros.

6. Pronósticos.EPB 603 Sistemas del Conocimiento

Page 14: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

14

������������� ��������� ���������� �EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Tareas de la Minería de Datos

• Sumarización:– Los métodos de sumarización asignan los datos a

conjuntos (individuos de segundo orden) que tienen asociadas descripciones.

– Estos métodos permiten extraer o derivar datos representativos de una base de datos.

– Permite el análisis de conceptos.• Métodos:

– Análisis de datos simbólicos.– Lógica difusa.– Interval Analysis.

EPB 603 Sistemas del Conocimiento

Page 15: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

15

������������� ��������� ���������� �

Tareas de la Minería de Datos

• Asociación o Análisis de afinidad:– Conocido como “Link Analysis” se refiere a

encontrar relaciones no evidentes en los datos.

• Métodos:– Reglas de asociación (association rules) .– Análisis de Correlation y de Causalidad.

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Tareas de la Minería de Datos

• Descubrimiento de secuencias:– “Secuential analysis” es usado para descubrir

secuencias de patrones en los datos, estos patrones son similares a los encontrados con reglas de asociación pero tales relaciones son basadas en el tiempo.

• Métodos:– Redes neuronales.– Series de tiempo.

EPB 603 Sistemas del Conocimiento

Page 16: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

16

������������� ��������� ���������� �

Data Mining: On What Kind of Data?

• Relational databases• Data warehouses• Transactional databases• Advanced DB and information repositories

– Object-oriented and symbolic databases– Spatial databases (location component, Geographic

Information Systems - GIS) – Time-series data and temporal data– Text databases and multimedia databases– Heterogeneous and legacy databases– www (web mining)

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Steps of a KDD Process

1. Learning the application domain:– Relevant prior knowledge and goals of application

2. Creating a target data set: data selection3. Data cleaning and preprocessing: (may take 60% of effort!)4. Data reduction and transformation:

– Find useful features, dimensionality/variable reduction, invariant representation.

5. Choosing functions (methods) of data mining – Summarization, classification, regression, association, clustering.

6. Choosing the mining algorithm(s)7. Data mining: search for patterns of interest8. Pattern evaluation and knowledge presentation

– visualization, transformation, removing redundant patterns, etc.9. Use of discovered knowledge

EPB 603 Sistemas del Conocimiento

Page 17: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

17

������������� ��������� ���������� �

Ciclo de un proyecto de minería de datos

1. Recolectar los datos. Usualmente las compañias tienes muchas bases de datos que deben ser centralizadas.

2. Limpieza y transformación de datos.3. Definir la meta del proyecto y así encontrar el

modelo adecuado.4. Escoger los algoritmos que permitan optimizar el

modelo.5. Generar reportes.6. Generar predicciones y/o “Scoring”.7. Aplicación de los resultados en el negocio.8. Actualización de los modelos. (calibración

constante de los modelos)

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Data Mining and Business Intelligence

Increasing potentialto supportbusiness decisions End User

BusinessAnalyst

DataAnalyst

DBA

MakingDecisions

Data PresentationVisualization Techniques

Data MiningInformation Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data SourcesPaper, Files, Information Providers, Database Systems, OLTP

EPB 603 Sistemas del Conocimiento

Page 18: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

18

������������� ��������� ���������� �

Architecture of a Typical Data Mining System

Data Warehouse

Data cleaning & data integration Filtering

Databases

��&�� ���'��( $��������

�� �����������

)��������$�� �

*��(���$�����������

+� '������&��

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Estándares en Minería de Datos

• En Minería de Datos estamos como en Base de Datos hace 20 años, es decir, se están haciendo esfuerzos por definir estándares.

• OLE DB for DM: define un nuevo lenguaje para la minería de datos que permite la creación de modelos, aprendizaje y predicción. También define un modelo de datos para los métodos y algoritmos de minería de datos.

• XML for Analysis: es otro estándar de la industria y está a cargo del “XML / A Council”. Así surge el lenguaje de consultas “query language Data Mining eXtensions” (DMX) que permite consultas basadas en XML a los servidores de Minería de Datos.

• SQL MM: (SQL/ Multimedia for Data Mining) fue propuesto por IBM.

• Java Data Mining API. Es un paquete JAVA para minería de datos propuesto por ORACLE. El objetivo es permitir a las aplicaciones JAVA con motores de minería de datos.

• PMML, Crisp-DM, CMW (extensión de UML) y otros.

EPB 603 Sistemas del Conocimiento

Page 19: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

19

������������� ��������� ���������� �

¿Qué es una Bodega de Datos?(Data Warehouse)

• Una bodega de datos es una base de datos orientada a consultas, como resultado de un análisis extenso y de la transformación de datos de la empresa.

• La bodega de datos se usa como punto de partida de un sistema de toma de decisiones (tales como OLAP, DataLab).

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

¿Qué es una Bodega de Datos?(Data Warehouse)

• Una bodega de datos tiene datos consolidados y consistentes, orientados hacia un tema, históricos y solamente de lectura.

• Una bodega de datos podría ser el resumen un conjunto de bases de datos de una empresa.

EPB 603 Sistemas del Conocimiento

Page 20: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

20

������������� ��������� ���������� �

¿Qué es una Bodega de Datos?(Data Warehouse)

Proceso de Minería de Datos

Simbólicas o

Numéricas

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Bodega de Datos vrs BDR

EPB 603 Sistemas del Conocimiento

Page 21: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

21

������������� ��������� ���������� �

¿Qué es un Mercado de Datos?(Data Mart)

• Un Mercado de Datos (Data Mart) tiene las mismas características que una bodega de datos, pero a un nivel más refinado, pues contiene información más detallada perteneciente a un solo departamento de la empresa.

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

¿Cómo se construyen las Bodegas de Datos y los Mercados de Datos?

• Para esto se sigue el manual “The Data The Data Warehouse ToolkitWarehouse Toolkit”.

• El objetivo es evitar inconsistencias y errores en los datos.

• Este proceso en muy difícil de automatizar dada la gran cantidad de formatos de datos que existen en las empresas.

EPB 603 Sistemas del Conocimiento

Page 22: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

22

������������� ��������� ���������� �

¿Qué es Minería de Datos?

• Son herramientas y técnicas cuyo objetivo es extraer información valiosa de las bodegas de datos (Data Warehouse) y de los mercados de datos (Data Mart).

• Busca grupos de clientes, segmentos, patrones etc.

Minería de Datos vrs OLAP

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

¿Qué es OLAP?• OLAP (Online Analytical Processing)• OLAP es una tecnología que procesa

información de una bodega de datos en estructuras multidimensionales que proporcionan una respuesta rápida a consultas complejas.

• El objetivo de OLAP es resumir y organizar grandes cantidades de datos para se analizados y evaluados rápidamente.

Minería de Datos vrs OLAP

EPB 603 Sistemas del Conocimiento

Page 23: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

23

������������� ��������� ���������� �

¿Qué es OLAP?

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �

Modelo Estrella

• Tabla de Hechos (fact table): Corresponde a los hechos del negocio. En general son valores numéricos y sumables lo que permitirá sumarizar los millones de registros haciendo agregados. Debe estar altamente normalizada.

• Tablas de Dimensiones (dimensions tables): Permiten describir los hechos desde diferentes ángulos permitiendo análisis muy diversos. En general, tienen una descripción textual muy clara. Generalmente no están normalizadas.

EPB 603 Sistemas del Conocimiento

Page 24: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

24

������������� ��������� ���������� �

Example of Star Schema

time_keydayday_of_the_weekmonthquarteryear

time

location_keystreetcityprovince_or_streetcountry

location

Sales Fact Table

time_key

item_key

location_key

units_sold

dollars_sold

avg_sales

Measures

item_keyitem_namebrandtypesupplier_type

item

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �EPB 603 Sistemas del Conocimiento

Page 25: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

25

������������� ��������� ���������� �

Example of Star Schema

time_keydayday_of_the_weekmonthquarteryear

time

location_keystreetcityprovince_or_streetcountry

location

Sales Fact Table

time_key

item_key

supplier_key

location_key

units_sold

dollars_sold

avg_sales

Measures

item_keyitem_namebrandtypesupplier_type

item

supplier_keysupplier_namesupplier_type

Supplier

EPB 603 Sistemas del Conocimiento

������������� ��������� ���������� �EPB 603 Sistemas del Conocimiento

Page 26: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

26

������������� ��������� ���������� �

• OLAP (On Line Analytical Processing) fueintroducido por E.F.Codd, en creador del modelorelacional de bases de datos, en un artículo queescribió en 1994.

• El fuerte del OLAP son los cálculos agregados osumarizados. Ej. ¿Cuáles son los 10 productosmás vendidos el último mes?

• Mientras que el fuerte la Minería de Datos es labúsqueda de patrones ocultos. Ej. ¿Cuál es elperfil de los compradores de cámaras digitales?

������������� ��������� ���������� �

� Una Bodega de Datos (Data Warehouse) es un sistema que toma los datosde una compañía (de sus bases de datos y de otras fuentes de los datos) y lostransforma en una estructura adecuada para el Análisis de Datos.

� Se realizan a menudo algoritmos matemáticos en los datos previamenteorganizados para llevar más allá su utilidad para la toma decisiones en losnegocios.

� El análisis de los datos se ejecuta básicamente de dos formas.

� La primera requiere de una persona que investigue los datos paraencontrar las tendencias y patrones. Este método se conoce como “OnLine Analytical Processing” (OLAP.)

� La segunda forma utiliza algoritmos y métodos matemáticos paraescrudiñar los datos y buscar así las tendencias y patrones. Este métodose llama la Minería de Datos.

� Los Mercados de Datos (Data Mart) pueden pensarse de cómo Bodegas demini-datos y usualmente son parte de una Bodega de Datos más grande.Generalmente están orientados a un tema en particular.

Page 27: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

27

������������� ��������� ���������� �

������������� ��������� ���������� �

Definiciones importantes en Bodegas de Datos

� Dos tipos tablas conforman una Bodega de datos: las Tablas de Hechos ylas Tablas de Dimensión.

� Una Tablas de Hechos contiene típicamente los datos concernientes anegocios tales como las total de ventas, cantidad de las ventas, el númerode clientes, y las llaves foráneas de las Tablas de Dimensión.

� Una llave foránea es un campo que liga la Tabla de Hechos con las Tablasde Dimensión

� Las Tablas de Dimensión contienen la información detallada referente aun atributos específico de la Tabla de Hechos, como los detalles delproducto, del cliente, la información de la tienda, y así sucesivamente.

Page 28: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

28

������������� ��������� ���������� �

La Tabla de Hechos

� La Tabla de Hechos tiene como meta extraer los datos más importantesdesde el punto de vista de la toma de decisiones para el negocio.

� Esta tabla se estructura de manera tal que facilite la manipulación numéricade los datos. Así esta tabla usualmente NO será una tabla normalizada.

� Más bien, los datos muchas veces son agregaciones de otros por lo que setienen muchos datos pre-calculados con el objetivo de facilitar y optimizar laconsulta.

������������� ��������� ���������� �

Tablas de Dimensiones

� La Tabla de Hechos típicamente tiene datos cuantitativos; por ejemplo, losdatos de transacción que muestran número de unidades vendidas en cada laventa y cantidad cobrada al cliente por la unidad vendida.

� Mientras que las Tablas de Dimensión contienen la información detalladareferente a un atributos específico de la Tabla de Hechos, como los detalles delproducto, del cliente, la información de la tienda, y así sucesivamente.

Page 29: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

29

������������� ��������� ���������� �

Dimensiones

� Para Entender que significa un Cubo, que es el corazón de análisisOLAP, se debe entender la naturaleza de las dimensiones primero.

� Un OLAP está basado en las Bases de Datos Multidimensionales, porqueliteralmente se hace un análisis de datos observando las relaciones entrelas diferentes dimensiones tales como: Tiempo, Ventas, Productos,Clientes, Empleados, Ubicación Geográfica o Cuentas.

� Las dimensiones están basadas a menudo en jerarquías. Las jerarquíasson entidades lógicas que un usuario podría querer analizar. Cadajerarquía puede tener uno o más niveles.

������������� ��������� ���������� �

Cubos

� Un cubo es una estructura de datos multidimensional en el que se puedeconsultar información para la toma de decisiones.

� Se pueden construir los cubos desde una o más tablas de hechos y susdimensiones.

� Un cubo dado normalmente tiene un tema dominante bajo el cual se quierehacer el análisis. Por ejemplo, se podría construir un cubo de las Ventas con elque se analizan las ventas por la región, o un cubo de Proceso de Llamada conque se analiza longitud de llamada.

Page 30: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

30

������������� ��������� ���������� �

� En la siguiente Figura se muestra un cubo de Ventas de Cerveza. Considerela cara delantera del cubo que muestra números positivos. Este cubo tienetres dimensiones: Tiempo, Línea del Producto, y Estado dónde el producto fuevendido.

� Cada bloque del cubo se llama una celda y se identifica por un miembro encada dimensión. Por ejemplo, analice la celda de la esquina inferior-izquierda,la cual tiene los valores 4,784 y $98,399. Los valores indican el número deventas y el monto de las ventas. Esta celda se refiere a las ventas de Cervezainglesa (Ale) en el estado de Washington (WA) durante julio del 2005. Esto serepresenta como [WA, Ale, el Jul ' 05].

� Si algunas celdas no tienen valor; esto es porque ningún dato está disponiblepara esas celdas en la tabla de hecho.

������������� ��������� ���������� �

Page 31: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

31

������������� ��������� ���������� �

El esquema tipo Estrella

Este esquema se conoce así porque cuando se hace un diagrama entidad-relación de la tabla de hechos con las llaves foráneas más importantes deuna o más tablas de dimensión se tiene un esquema que parece unaestrella ¿cierto?

������������� ��������� ���������� �

El esquema tipo Copo de Nieve (Snowflake)

Hay que una extensión del Esquema Estrella conocido como el esquema del“Copo de Nieve”. Este tipo esquema es útil cuando una o más de tablas dedimensión son a su vez una tablas de hechos.

Page 32: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

32

������������� ��������� ���������� �

1. Cargar “SQL Server Business Intelligence Development Studio”

������������� ��������� ���������� �

2. Crear un proyecto en BIDS (Business Intelligence Development Studio)File � New� Project

Page 33: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

33

������������� ��������� ���������� �

Carpetas de un proyecto:

������������� ��������� ���������� �

3. Crear el “Data Source” (Conexión a la Base de Datos)

Page 34: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

34

������������� ��������� ���������� �

Adventureworks Sample Database

The AdventureWorks sample databases are for the ficticious AdventureWorks-- a large, multinational manufacturing company. "The company manufactures and sells metal and composite bicycles to North American, European and Asian commercial markets. While its base operation is located in Bothell, Washington with 290 employees, several regional sales teams are located throughout their market base. In 2000, Adventure Works Cycles bought a small manufacturing plant, Importadores Neptuno, located in Mexico. Importadores Neptunomanufactures several critical subcomponents for the Adventure Works Cycles product line. These subcomponents are shipped to the Bothell location for final product assembly. In 2001, Importadores Neptuno became the sole manufacturer and distributor of the touring bicycle product group. Coming off a successful fiscal year, Adventure Works Cycles is looking to broaden its market share by targeting their sales to their best customers, extending their product availability through an external Web site, and reducing their cost of sales through lower production costs."

������������� ��������� ���������� �

4. Crear el “Data Source View (DSV)” (Vistas Lógicas de las Tablas)

Page 35: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

35

������������� ��������� ���������� �

������������� ��������� ���������� �

5. Crear un Cubo usando el “Cube Wizard” (Método Botton-up, es decir se construye el cubo a partir de una base de datos)

Page 36: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

36

������������� ��������� ���������� �

������������� ��������� ���������� �

Page 37: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

37

������������� ��������� ���������� �

6. Desplegando y visualizando un Cubo

������������� ��������� ���������� �

Introducción a MDX (Multi-Dimensional eXpressions)

� Así como SQL (Structured Query Language) es un lenguaje de consultas para recuperar datos de las bases de datos relacionales, MDX (Multi-Dimensional eXpressions) es es un lenguaje de consultas para recuperar datos de las bases de datos multi-dimensionales (Cubos-OLAP).

� MDX fue diseñado por Microsoft e introducido por primera vez en el BIDS 7.0 en 1998.

� Members: Cada jerarquía de una dimensión contiene uno o más “Items” llamados los miembros. Ej.

• [ Date ].[ Calendar ].[ Calendar Quarter ].[ Q1 CY 2004 ]

Page 38: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

38

������������� ��������� ���������� �

� CelIs (Celdas): Una Celda es una entidad de la que se pueden recuperar datos que corresponde a la intersección de los Miembros de dimensiones.

������������� ��������� ���������� �

� Tuples (Tuplas): Una Tupla única identifica una celda o una sección de un cubo.

� Ejemplos:

• [Dim Product].[Large Photo].&[213]

• [Dim Sales Territory].[Sales Territory Region].[Canada]

� Sets (Conjuntos): Un Set es una colección de tuplas unidas por “and”.

� Ejemplos:

• ([ Date ].[ Calendar ].[ 2004 ].[ Hl CY 2004 ].[ Q1 CY 2004 ], [ Product ].[ Product Line ].[ Mountain ], [ Customer ].[ Country ].[ Australia ])

Page 39: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

39

������������� ��������� ���������� �

¿Dónde ejecutar un Query MDX?

� SSMS: SQL Server Management Studio

������������� ��������� ���������� �

Page 40: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

40

������������� ��������� ���������� �

������������� ��������� ���������� �

SELECT [Measures].[Sales Amount] on COLUMNS FROM [Adventure Works DW] WHERE ([Dim Sales Territory].[Sales Territory Group].[Pacific],

[Dim Promotion].[English Promotion Category].[Reseller])

Ejemplo 1:

Page 41: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

41

������������� ��������� ���������� �

SELECT [Measures].[Discount Amount - Fact Reseller Sales] on COLUMNS FROM [Adventure Works DW] WHERE ([Dim Product].[Large Photo].&[213],

[Dim Sales Territory].[Sales Territory Region].[Canada])

Ejemplo 2:

������������� ��������� ���������� �

Analizado Cuboscon Excel 2007

Page 42: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

42

������������� ��������� ���������� �

Paso 1: Establecer la conexión entre Excel y el BIDS

������������� ��������� ���������� �

Page 43: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

43

������������� ��������� ���������� �

Paso 2: Creando el cubo en Excel a través de una tabla dinámica

������������� ��������� ���������� �

Page 44: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

44

������������� ��������� ���������� �

������������� ��������� ���������� �

Paso 3: Generando gráficos

Page 45: Capítulo 1 Conceptos Básicos y Herramientas OLAP€¦ · 3 E ˘ Introducción ¿Qué es Minería de Datos? – La Minería de Datos es un proceso no elemental de búsqueda de relaciones,

45

������������� ��������� ���������� �

Gracias….

EPB 603 Sistemas del Conocimiento