Almacenes de datos, olap y minería de datos

Conceptos de almacenes de datos (Data Warehousing)

Conceptos de almacenes de datos (Data Warehousing)Un almacén de datos es una tecnología de gestión y análisis de los datos. Puede definirse como una colección de datos clasificados por temas, integrada, variable en el tiempo y no volátil que se utiliza como ayuda al proceso de toma de decisiones por parte de quienes dirigen una organización. Los almacenes Web de datos son almacenes de datos distribuidos que se implementan sobre la Web, no existiendo ningún repositorio centralizado.

Ventajas:- Alto retorno de inversión- Ventajas competitivas derivadas de su utilización- Mayor productividad de los responsables de la toma de decisiones

Comparación entre OLTP y almacenes de datos:Proceso de Transacciones en Línea (OLTP) Almacenes de datos

Almacena datos actuales. Almacena datos históricos.Almacena datos detallados. Almacena datos resumidos en poca ó gran

medida.Los datos son dinámicos. Los datos son principalmente estáticos.Procesamiento repetitivo. Procesamiento ad hoc, no estructurado y

heurístico.Alta tasa de transacciones. Tasa media ó baja de transacciones.Patrón de uso predecible. Patrón de uso impredecible.Dirigido por transacciones. Dirigido por análisis.Orientado a la aplicación. Orientado a los temas.Soporta las decisiones cotidianas. Soporta las decisiones estratégicas.Sirve a un gran número de usuarios administrativos / operacionales.

Sirve a un número relativamente bajo de usuarios de tipo gerencial.

Problemas de los almacenes de datos- Subestimación de los recursos necesarios para la carga de datos.- Problemas ocultos de los sistemas de origen.- No se capturan los datos requeridos.- Incremento de la demanda por parte de los usuarios finales.- Homogeneización de los datos.- Alta demanda de recursos.- Propiedad de los datos.- Altos costes de mantenimiento.- Proyectos de larga duración.- Complejidad de la integración.

Fuente: Connolly,T.M. y Begg,C.E. “Sistemas de BD” Pearson, 2005; Parte 9: Capítulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan José Aranda Aboy Profesor Titular (Grado 5)

1


Arquitectura de un almacén de datos

Las principales componentes de un almacén de datos son:1. Fuentes de Datos operacionales: todos los datos operacionales previamente almacenados en

BDs, archivos propietarios, estaciones primarias de trabajo e incluso en sistemas externos como Internet, bases de datos comerciales ó bases de datos dependientes de los proveedores ó clientes de la organización.

2. Repositorio de datos operacionales (Operacional Data Store - ODS): es un almacén de datos operacionales actuales e integrados que se utilizan para el análisis.

3. Gestor de carga (ó componente de interfaz): realiza todas las operaciones asociadas con la extracción y carga de los datos en el almacén. Se incluyen transformaciones simples.

4. Gestor del almacén de datos: realiza las operaciones asociadas con la gestión de datos dentro del almacén. Incluye el análisis de los datos para garantizar su coherencia, transformación y combinación de datos de origen, creación de índices y vistas, generalización de agregaciones y desnormalizaciones, y el archivado y copia de seguridad de los datos.

5. Gestor de consultas (ó componente de servicio): realiza todas las operaciones asociadas con la gestión de las consultas de los usuarios: dirigir consultas hacia tablas apropiadas y planificar su ejecución.

6. Datos detallados: área del almacén que guarda todos los datos detallados contenidos en el esquema de la BD.

7. Datos poco resumidos y muy resumidos: guarda todos los datos, poco ó muy resumidos (agregados), que hayan sido establecidos por el gestor de datos como resúmenes predefinidos.

8. Datos de archivo / copia de seguridad: guarda los datos detallado y resumidos con el propósito de mantener un archivo y disponer de copias de seguridad.

9. Metadatos: guarda todas las definiciones de metadatos (datos acerca de los datos) utilizadas por todos los procesos del almacén. Se utilizan para propósitos tales como:


2


- los procesos de extracción y carga: los metadatos “mapean” las fuentes de datos sobre una vista común de los datos utilizada dentro del almacén

- el proceso de gestión del almacén: los metadatos se utilizan para automatizar la producción de tablas de resúmenes

- como parte del proceso de gestión de consultas: los metadatos se usan para dirigir una consulta a la fuente de datos más apropiada.

10. Herramientas de acceso para usuarios finales:- Consulta y generación de informes: Incluyen generación de informes de producción –de

carácter operacional, periódicos ó con altos volúmenes de tareas- y escritores de informes –diseñados para usuarios finales, de bajo costo-. Las herramientas de consulta para almacenes de datos relacionales están diseñadas para aceptar SQL ó generar instrucciones SQL con el fin de consultar los datos del almacén.

- Desarrollo de aplicaciones: Puede requerirse por algunos usuarios.- Sistemas de información ejecutiva (EIS): Inicialmente para ayuda a la toma de decisiones

estratégicas de alto nivel. Se han ampliado para incluir soporte para todos los niveles de gestión.

- Procesamiento analítico en línea (OLAP): Basadas en el concepto de BDs multidimensionales. Permiten analizar los datos mediante vistas complejas de carácter multidimensional. Genera modelos retrospectivos.

- Minería de Datos: Proceso de descubrimiento de nuevas correlaciones, patrones y tendencias significativas procesando grandes cantidades de datos mediante técnicas estadísticas, matemáticas y de inteligencia artificial. Posee la capacidad de construir modelos predictivos.

Flujos de datos en un almacén

Los almacenes de datos se centran en la gestión de cinco flujos principales de datos:


3


1. Flujo de entrada: Constituido por lo procesos asociados con la extracción, limpieza y carga de los datos de los sistemas de origen en el almacén de datos.

2. Flujo ascendente: Constituido por los procesos asociados con la adición de valor a los datos del almacén, mediante los procesos de resumen, empaquetado y distribución de los datos.

3. Flujo descendente: Son los procesos asociados con el archivado y la realización de copias de seguridad de los datos en el almacén.

4. Flujo de salida: Procesos asociados con la puesta de los datos a disponibilidad de los usuarios finales.

5. Metaflujo: Procesos asociados con la gestión de los datos sobre los datos: metadatos.

Herramientas y tecnologías de almacén de datos1. Herramientas de extracción, limpieza y transformación

- Generadores de código: Crean programas de transformación 3GL / 4GL personalizados, basado en las especificaciones de datos de origen y de destino.

- Replicación de datos: emplean disparadores (triggers) en BDs ó usan el registro de actividad para capturar cambios efectuados en un origen de datos y aplicarlos sobre una copia ubicada en otro sistema diferente.

- Motores de transformación dinámica: dirigidos por reglas, capturan datos de un sistema de origen a intervalos definidos por el usuario, los transforman y envían para su carga en un entorno destino.

2. Sistemas de Gestión de Bases de Datos para almacenes de datosLos requisitos para un Sistema de Gestión de Bases de Datos Relacional (SGBDR) para almacenes de datos incluyen:- velocidad de carga buena, a partir del requerimiento de carga incremental de nuevos datos

de manera periódica, con ventanas temporales cortas.- el procesamiento de la carga, lo que incluye pasos para incluir datos nuevos, actualizar,

convertir, filtrar, indexar y actualizar metadatos.- la gestión de la calidad de los datos, ya que deben garantizarse: coherencia local, coherencia

global e integridad referencial a pesar de los posibles problemas en los orígenes de datos.- la velocidad de las consultas no debe disminuir. Las técnicas de gestión basadas en hechos y

en análisis ad hoc no deben ser ralentizadas ó inhibidas por las prestaciones del SGBR del almacén de datos.

- escalabilidad en el rango de almacenamiento: el SGBDR no debe tener limitaciones de arquitectura en lo que respecta ala tamaño de la BD, y debe soportar gestión modular y paralela. En caso de fallo, debe soportar una disponibilidad continua y proporcionar mecanismos para la recuperación. Debe permitir usar dispositivos de almacenamiento masivo: discos ópticos, y dispositivos de gestión jerárquica de almacenamiento. La velocidad de las consultas no debe depender del tamaño de la BD, sino solamente de su complejidad.

- escalabilidad en cuanto a número de usuarios: los SGBDR deben ser capaces de soportar miles de usuarios concurrentes sin que por ello sufran una degradación en la velocidad de procesamiento de las consultas.

- Almacén de datos en red: capacidad para coopera en una red de almacenes de datos. Debe incluir herramientas que coordinen las transferencias de subconjuntos de datos entre diversos almacenes.

- Administración del almacén: demandan alta flexibilidad y gran facilidad de administración. El SGBD debe proporcionar controles para implementar límites de utilización de los recursos, contabilidad de costos, mecanismos de asignación de prioridad a las consultas, para optimización y control de la carga de trabajo, etc.


4


- Análisis dimensional integrado: para proporcionar las máximas prestaciones a las herramientas OLAP relacionales. Soporte para creación rápida y simple de los tipos de resúmenes precalculados y para automatizar la creación de agregados precalculados. Los cálculos dinámicos de agregados deben ser coherentes con las prestaciones de procesamiento interactivo que esperan los usuarios finales.

- Funcionalidad avanzada de consultas: Debe proporcionarse un conjunto completo y avanzado de operaciones que permitan cálculos analíticos complejos, análisis secuenciales y comparativos y acceso coherente a datos detallados y de resumen.

3. Metadatos de un almacén de datosSu objetivo principal es mostrar cual es el camino que lleva hacia el origen de los datos, de modo que los administradores del almacén de datos conozcan la historia de cualquier elemento almacenado. Su gestión es una tarea compleja y difícil. Se usan para diversos propósitos, resultando elementos críticos para conseguir una plena integración del almacén.El principal problema de integración consiste en sincronizar los diversos tipos de metadatos utilizados en el almacén.

4. Herramientas de administración y gestiónDeben ser capaces de soportar tareas tales como:- monitorizar la carga de datos desde múltiples fuentes;- comprobar la calidad e integridad de los datos;- gestionar y actualizar los metadatos;- monitorizar el rendimiento de la BD para garantizar tiempos de respuesta cortos a las

consultas y eficiente empleo de los recursos;- auditar el uso del almacén para atribuir los costos respectivos a los distintos usuarios;- replicar, dividir y distribuir los datos;- purgar los datos;- archivar y realizar copias de seguridad;- implementar mecanismos de recuperación ante fallos;- gestionar adecuadamente la seguridad.

Mercados de datos (Data Marts)Un subconjunto de un almacén de datos que soporta los requisitos de un departamento ó área de negocios concreto.Las principales características que diferencian a los mercados de datos de los almacenes de datos son:- un mercado de datos se centra únicamente en los requisitos de los usuarios asociados con un

departamento ó área de negocio concreto;- los mercados de datos no contienen normalmente datos operacionales detallados, a diferencia de

lo que sucede con los almacenes de datos;- como los mercados de datos contienen menos información que un almacén de datos, son más

fáciles de comprender y de utilizar.Razones para crear un mercado de datos:- Proporcionar a los usuarios acceso a los datos que necesiten analizar de manera mas frecuente.- Proporcionar los datos en una forma que se adapte a la vista colectiva que tiene de los datos un

grupo de usuarios pertenecientes a un departamento ó área de negocios concreto.- Mejorar el tiempo de respuesta a las consultas del usuario final, gracias a la reducción en el

volumen de los datos a los que hay que acceder.- Proporcionar datos apropiadamente estructurados según dicten los requisitos de las herramientas

de accesos para usuarios finales, las cuales pueden requerir sus propias estructuras de BD internas.


5


- Los mercados de datos emplean normalmente menos datos, por lo que las tareas de limpieza, carga, transformación e integración de los datos son más sencillas, lo que trae como resultado que la implementación y puesta en marcha sea más simple que establecer un almacén corporativo.

- El costo de implementación de los mercados es inferior al requerido para un almacén corporativo.

- Los usuarios potenciales están claramente definidos y son más fáciles de convencer para que colaboren con un proyecto de mercado de datos que para un proyecto de almacén corporativo.

Cuestiones fundamentales en los mercados de datos- Funcionalidad: Las capacidades se han incrementado. La complejidad y el tamaño de algunos

mercados de datos es comparables con algunos almacenes corporativos de baja gama.- Tamaño: Los usuarios esperan tiempos de respuesta más cortos. - Velocidad de carga: Deben equilibrarse dos componentes críticos: tiempo de respuesta de las

consultas del usuario final y velocidad de carga de los datos.- Acceso de los usuarios a múltiples mercados de datos: Una técnica posible es replicar datos

entre diferentes mercados, otra construir mercados de datos virtuales.- Acceso Internet / intranet al mercado de datos: bajo costo, utilizando navegadores.- Administración: Necesidad de gestionar y coordinar centralizadamente las actividades de los

mercados de datos. Surgen problemas con las versiones, coherencia e integridad de los datos y metadatos, seguridad del nivel corporativo y con los ajustes del rendimiento.


6


- Instalación: Cada vez son más complejos de construir.

Diseño de almacenes de datos

Diseño de la BD para un almacén de datosSe necesita responder a preguntas tales como: ¿Qué requisitos de usuario son los más importantes? ¿Qué datos deben considerarse en primer lugar? ¿Deberá reducirse el alcance del proyecto para que sea más manejable y al mismo tiempo proporcionar una infraestructura que pueda crecer posteriormente hasta convertirse en un almacén de datos completo de ámbito corporativo?

Modelado de la dimensionalidadTécnica de diseño lógico que trata de presentar los datos de una manera estándar e intuitiva que permita un acceso de alto rendimiento. Utiliza los conceptos del modelado Entidad – Relación (ER), con algunas restricciones importantes. Todo modelo dimensional (dimensional model – DM) está compuesto de una tabla con una clave principal compuesta, denominada tabla de hechos, y un conjunto de tablas mas pequeñas denominadas tablas de dimensión. Cada tabla de dimensión tiene una clave principal simple (no compuesta) que se corresponde con exactamente uno de los componentes de la clave compuesta de la tabla de hechos. Todas las claves naturales se sustituyen por claves subrogadas de manera que toda combinación entre la tabla de hechos y las de dimensiones están basadas en estas claves subrogadas.- Esquema (ó combinación) en estrella: Estructura lógica que tiene una tabla de hechos que

contiene datos factuales en el centro, rodeada por tablas de dimensión que contienen datos de referencia.

- Esquema en copo de nieve: Variante en el que las tablas de dimensión no contienen datos desnormalizados.

- Esquema en copo de estrella: Estructura híbrida que contiene mezcla de esquemas en estrella y en copo de nieve.

La forma predecible y estándar del modelo dimensional ofrece ventajas para un entorno de almacén de datos:

- Eficiencia: La coherencia de la estructura de BD subyacente permite un acceso más eficiente a los datos por parte de las distintas herramientas, incluyendo las de consultas y generación de informes.

- Posibilidad de gestionar requisitos cambiantes, ya que el esquema puede adaptarse a cambios en los requisitos de los usuarios producto de que todas las dimensiones son equivalentes en términos de proporcionar acceso a la tabla de hechos. El diseño está mejor adaptado para soportar consultas ad hoc.

- Ampliabilidad para:a) permitir adición de nuevos hechos, siempre que sean coherentes con la granularidad

fundamental de la tabla de hechos existente; b) adición de nuevas dimensiones, siempre y cuando haya un único valor de dicha

dimensión definido para cada registro de hechos existente;c) Adición de nuevos atributos dimensionales; yd) descomposición de los registros de dimensión existentes para tener un menor nivel de

granularidad a partir de un cierto instante temporal.- Capacidad de modelar situaciones empresariales comunes.- Procesamiento de consultas predecible, ya que en el nivel mas bajo, cada tabla de hechos

debe ser consultada de manera independiente.


7


Metodología de diseño de BDs para DWUn aspecto importante en el trabajo con almacenes de datos es comprender que un modelo ER se descompone normalmente en múltiples modelos DM. Los diferentes DM se asocian mediante tablas de dimensión conformadas (“compartidas”).Comúnmente se emplea la llamada “Metodología de los Nueve pasos”:1. Selección del proceso: Hace referencia al tema objetivo de un mercado concreto.2. Selección de la granularidad: Decidir exactamente qué es lo que va a representar cada registro

de la tabla de hechos. Determina también la granularidad de las tablas de dimensión.3. Identificación y conformación de las dimensiones: Se establece el contexto para consultar los

hechos. Un buen conjunto de dimensiones hace que el mercado sea comprensible y fácil de usar.4. Selección de los hechos: La granularidad determina cuáles hechos pueden emplearse en el

mercado de datos.5. Almacenamiento de los valores precalculados en la tabla de hechos: Análisis para evaluar

posibilidad de empleo de valores precalculados.6. Terminación de las tablas de dimensión: Se añaden tantas descripciones textuales, intuitivas y

comprensibles para los usuarios, como sea posible. El uso de un mercado de datos está determinado por el ámbito y naturaleza de los atributos de las tablas de dimensión.

7. Selección de la duración de la BD: Hasta que momento del pasado debe retroceder la tabla de hechos.

8. Control de dimensiones lentamente cambiantes.9. Selección de las prioridades de consulta y de los modos de consulta: Considera los aspectos del

diseño físico.

Criterios para verificar la dimensionalidad de un almacén de datosSe dividen en tres grupos amplios:1- Arquitectura: Son características fundamentales de la forma en que el sistema completo está

organizado.2- Administración: Son tácticos, pero esenciales para la operación adecuada de un almacén de

datos orientado dimensionalmente.3- Expresión: Capacidades analíticas necesarias en situaciones reales.


8

Procesamiento Analítico en Línea (OLAP)

OLAPEl Procesamiento Analítico en Línea (OLAP) es la síntesis, análisis y consolidación dinámica de grandes volúmenes de datos multidimensionales.Aplicaciones:- cálculo de presupuestos,- análisis de rendimiento financiero,- análisis y previsión de ventas,- análisis e investigación de mercados y- segmentación de mercados / clientes.

Características- Vistas multidimensionales de los datos: requisito fundamental para la construcción de un

modelo de negocio “realista”. Una vista multidimensional de los datos proporciona la base para el procesamiento analítico, al permitir un acceso flexible a los datos corporativos. Debe tratar todas las dimensiones de manera equitativa. No debe influenciar los tipos de operaciones permitidas sobre una determinada dimensión ni la tasa a la que estas operaciones se realicen. Debe permitir que los usuarios analicen los datos según cualquier dimensión y en cualquier nivel de agregación, manteniendo una misma funcionalidad y facilidad de uso. Igualmente, debe soportar todas las vistas multidimensionales de los datos en la manera mas intuitiva posible. Los sistemas OLAP deben ocultar lo más posible a los usuarios la sintaxis de consultas complejas y proporcionar tiempos de respuesta siempre cortos para todas las consultas, independientemente de su complejidad.

- Soporte para cálculos complejos: El software debe proporcionar diversos métodos de cálculo suficientemente potentes, como los requeridos para realizar previsiones de ventas, que utilizan algoritmos de cálculos de tendencias: medias móviles y crecimientos porcentuales.

- Inteligencia temporal: Característica clave. Debe poderse definir conceptos como acumulados de año, comparaciones entre períodos, etc.

Beneficios:- mayor productividad de los usuarios finales de la organización, de los desarrolladores de los

departamentos de tecnologías de la información, acceso controlado y oportuno a la información de carácter estratégico;

- reducción en la carga de trabajo de desarrollo de aplicaciones, pues brinda autosuficiencia para los usuarios finales que pueden desarrollar sus propios modelos y cambios de esquema;

- se conserva el control sobre la integridad de los datos corporativos, ya que los sistemas OLAP dependen de los almacenes de datos y de los sistemas OLTP para refrescar sus datos de origen;

- menor frecuencia de consultas y menor tráfico de los sistemas OLTP ó en el almacén de datos;- mayores ingresos y beneficios potenciales al permitir que la organización responda rápidamente

a las demandas del mercado.

Representación de datos multidimensionales – CubosLos servidores de BDs OLAP utilizan estructuras multidimensionales para almacenar los datos y relaciones entre los mismos. La mejor forma de visualizar estructuras multidimensionales es como cubos de datos. Cada lado de un cubo se denomina dimensión.El tiempo de respuesta depende de cuantas celdas se sumen en la marcha. Con el incremento del número de dimensiones, el número de celdas del cubo crece exponencialmente. Sin embargo, la mayoría de las consultas tratan con datos resumidos de alto nivel, por lo que pueden previamente agregarse (consolidarse) todos los totales y subtotales lógicos según todas las dimensiones. Esta agregación previa puede ser especialmente valiosa ya que las dimensiones típicas son de naturaleza


9


jerárquica. Imponer jerarquía predefinida para cada dimensión permite agregación lógica previa y, a la inversa, profundización lógica.Operaciones analíticas comunes:- Consolidación: implica agregación de datos, como totalizaciones simples ó expresiones

complejas que impliquen datos relacionados.- Profundización: operación inversa de la consolidación. Implica mostrar datos de detalle

comprendidos en datos consolidados.- Navegación (pivotaje): capacidad de examinar los datos desde diferentes puntos de vista, con el

fin de analizar tendencias y encontrar patrones.La pre-agregación, las jerarquías dimensionales y la gestión de datos dispersos pueden reducir significativamente el tamaño de la base de datos y las necesidades de cálculo. Estas técnicas eliminan la necesidad de efectuar combinaciones multitabla y proporcionan un acceso rápido y directo a las matrices de datos, acelerando la ejecución de las consultas multidimensionales. Los servidores OLAP tienen la capacidad de almacenar datos multidimensionales de manera comprimida, para maximizar el empleo del espacio. Los datos densos, que existen para un alto porcentaje de celdas, pueden almacenarse independientemente de los datos dispersos, aquellos en que un porcentaje altamente significativo de celdas están vacías. La capacidad de un SGBD para omitir celdas vacías ó repetitivas contribuye a reducir el tamaño del cubo y la cantidad de procesamiento. Estas optimizaciones minimizan necesidades de almacenamiento físico, permitiendo el análisis de grandes cantidades de datos, con incremento en las prestaciones, etc.

Reglas de Codd para las herramientas OLAP:1. Vista conceptual multidimensional2. Transparencia3. Accesibilidad4. Prestaciones coherentes en la generación de informes5. Arquitectura cliente – servidor6. Dimensionalidad genérica7. Gestión dinámica de matrices dispersas8. Soporte multiusuario9. Operaciones interdimensionales no restringidas10. Manipulación de datos intuitiva11. Generación flexible de informes12. Dimensiones y niveles de agregación ilimitados

Categorías de herramientas OLAP- OLAP multidimensional (MOLAP): Utilizan estructuras especializadas de datos y SGBD

multidimensionales para organizar, navegar y analizar los datos.

Los problemas de desarrollo asociados con la tecnología MOLAP son:a) Sólo pueden almacenarse y analizarse de manera eficiente una cantidad limitada de datos.


10


b) La navegación y el análisis de datos están limitados. El soporte de nuevos requisitos puede demandar la reorganización física de los datos.

c) Requieren un conjunto diferente de capacidades y herramientas para construir y mantener la BD, incrementando el costo y complejidad de las tareas de soporte.

- OLAP relacional (ROLAP): Soportan productos SGBDR mediante el uso de un nivel de metadatos, evitándose así crear una estructura de datos multidimensional estática. Algunos productos ROLAP disponen de motores SQL mejorados para soportar la complejidad del análisis multidimensional; pero otros productos recomiendan usar BDs altamente desnormalizadas como el esquema en estrella.

Los problemas de desarrollo asociados con la tecnología ROLAP son:a) Problemas de rendimiento asociados con el procesamiento de consultas complejas que

requieran efectuar múltiples pasadas a través de los datos relacionales.b) Desarrollo de middleware para facilitar el desarrollo de aplicaciones multidimensionales:

software que convierta la relación bidimensional en una estructura multidimensional.c) Desarrollo de una opción para crear estructuras multidimensionales persistentes, junto con

las funciones para ayudar a administrarlas.- OLAP híbrido (HOLAP): Proporciona capacidades limitadas de análisis, bien mediante SGBDR

ó por un servidor MOLAP intermedio. El servidor suministra un cubo de datos que se almacena, analiza y mantiene localmente.

Los problemas de desarrollo asociados con la tecnología HOLAP son:a) La arquitectura provoca una significativa redundancia de los datos y puede causar problemas

en las redes que soporten muchos usuarios.b) La capacidad de cada usuario para construir un cubo personalizado puede provocar una falta

de coherencia entre los datos de diferentes usuarios.c) Sólo puede mantenerse de manera eficiente una cantidad limitada de datos.

- OLAP de escritorio (Desktop OLAP - DOLAP): Almacenan los datos OLAP en archivos situados en la plataforma del cliente y soportan el procesamiento multidimensional utilizando un motor multidimensional del lado del cliente. Requiere extractos relativamente pequeños de los datos en las máquinas de los clientes, los cuales pueden distribuirse por adelantado ó bajo petición.


11


Los problemas de desarrollo asociados con la tecnología DOLAP son:a) Provisión de controles de seguridad apropiados, ya que los datos se extraen físicamente del

sistema.b) Se necesita reducir el esfuerzo necesario para implementar y mantener herramientas

DOLAPc) Las tendencias actuales apuntan hacia el uso de clientes simples.

Extensiones OLAP a la norma SQLUna limitación de SQL para los analistas empresariales es su dificultad para responder a consultas frecuentes en dicho entorno como el cálculo del porcentaje de cambio de una serie de valores entre el mes actual y el correspondiente del año anterior, ó calcular una serie de medias móviles, sumas acumulativas y otras funciones estadísticas. El estándar SQL: 2003 (ISO/IEC 9075-2) soporta la funcionalidad OLAP al proporcionar una serie de extensiones para:1.- Capacidades de agrupación ampliadas (T431)

La agregación se proporciona mediante extensiones a la cláusula GROUP BY:1.1.- Extensión ROLLUP a GROUP BY: Permite calcular múltiples niveles de subtotales según

un grupo especificado de dimensiones.SELECT … GROUP BY ROLLUP (lista de columnas)

1.2.- Extensión CUBE para GROUP BY: Forma un conjunto especificado de columnas de agrupamiento y crea subtotales para todas las posibles combinaciones.

SELECT… GROUP BY CUBE (lista de columnas)CUBE puede utilizarse en cualquier situación donde sea necesario informe de tablas cruzadas. Es especialmente adecuado en aquellas columnas que usen múltiples dimensiones, en lugar de columnas que representen diferentes niveles de una misma dirección.

2.- Operadores OLAP elementales (T611)Los operadores OLAP elementales del estándar SQL soportan diversas operaciones:


12


2.1.- Funciones de clasificación ordenada: Calcula la posición de un registro en relación con los restantes registros del conjunto de datos, basándose en los valores de un conjunto de medidas. Hay distintos tipos de funciones de clasificación. Ejemplos:

RANK ( ) OVER (ORDER BY lista_de_Columnas)DENSE_RANK( ) OVER (ORDER BY lista_de_Columnas)

La diferencia entre ambos operadores está en que DENSE_RANK no deja huecos en la secuencia de clasificación cuando existen empates para un cierto puesto.

2.2.- Cálculos de ventana móvil: Pueden utilizarse para calcular agregados acumulativos, móviles y centrados. Se devuelve un valor para cada fila de una tabla que dependerá de otras filas dentro de la ventana correspondiente.


13

Minería de Datos

Minería de Datos (Data Mining )Proceso de extraer información válida, previamente desconocida, comprensible y útil de bases de datos de gran tamaño y utilizar dicha información para tomar decisiones de negocios.Ejemplos de aplicaciones:- Comercio al por menor / marketing

Identificación de patrones de compra de los clientesDeterminación de asociaciones entre las características demográficas de los clientesPredicción de la respuesta a las campañas de publicidadAnálisis de cestas de la compra

- BancaDetección de patrones de uso fraudulento de tarjetas de créditoIdentificación de clientes lealesPredicción de clientes que tienen probabilidad de cambiar de suministrador de servicioDeterminación de los gastos realizados por ciertos grupos de clientes

- SegurosAnálisis de partesPredicción de los clientes que suscriben nuevas pólizas

- MedicinaCaracterización del comportamiento de los pacientes para predecir las visitas quirúrgicasIdentificación de terapias médicas adecuadas para diferentes enfermedades

Técnicas de Minería de datosHay cuatro operaciones principales:1. Modelado predictivoPuede utilizarse para analizar una base de datos existente con el fin de determinar ciertas características esenciales (modelo) acerca del conjunto de datos. Se utilizan observaciones para formar un modelo de las características más importantes de algún tipo de fenómeno. Es similar al proceso de aprendizaje humano. El modelo se desarrolla utilizando una técnica de aprendizaje supervisado que tiene dos fases: entrenamiento y prueba. La fase de entrenamiento construye un modelo utilizando una muestra de datos históricos denominada conjunto de entrenamiento. Las pruebas permiten comprobar el modelo utilizando datos nuevos, no empleados previamente para el entrenamiento. Clasificación: Técnica empleada para establecer una clase predeterminada específica para cada registro de una BD. Hay dos tipos básicos: inducción en árbol e inducción neuronal.

Predicción de valores: Se utiliza para estimar un valor numérico continuo que esté asociado con un registro de BD.2. Segmentación de la Base de DatosSu objetivo es realizar la partición de la BD en un número desconocido de segmentos ó clústeres de registros similares: compartiendo un conjunto de propiedades, y que, por ello, se consideran


14

Minería de Datos

homogéneos. Los segmentos tienen una alta homogeneidad interna y alta heterogeneidad externa. Este enfoque utiliza aprendizaje NO supervisado para descubrir subconjuntos homogéneos dentro de una base de datos con el fin de mejorar la precisión de los perfiles. Se asocia con las técnicas de agrupación neuronal ó demográfica, que se distinguen por los tipos permitidos de datos de entrada, los métodos utilizados para calcular la distancia entre los registros y la presentación de los segmentos resultantes para su análisis.3. Análisis de enlacesTrata de establecer vínculos, denominados asociaciones, entre los registros individuales ó entre los conjuntos de registros de una BD. Hay tres tipos: a) descubrimiento de asociaciones: trata de encontrar elementos que impliquen la presencia de

otros elementos en el mismo suceso; b) descubrimiento de patrones secuenciales: trata de encontrar patrones entre sucesos tales que la

presencia de un conjunto de elementos es seguida por otro conjunto de elementos en una BD de sucesos a lo largo de un período de tiempo; y

c) descubrimiento de secuencias temporales similares: se utiliza para descubrir enlaces entre dos conjuntos de datos que sean dependientes del tiempo, y está basado en el grado de semejanza exhibido por ambas series temporales.

4. Detección de desviacionesTécnica novedosa que identifica las excepciones: que expresa la desviación con respecto a una cierta expectativa ó a una norma previamente conocida.

El proceso de Minería de DatosExiste una especificación denominada Proceso estándar intersectorial para la minería de datos (CRoss Industry Standard Process for Data Mining – CRISP-DM) cuyo objetivo es hacer que los grandes proyectos de DM funcionen de manera eficiente y que sean mas baratos, fiables y con mejor factibilidad de gestión.La metodología CRISP-DM es un modelo de proceso jerárquico. El proceso se divide en seis fases genéricas:a) Comprensión del negocio: Se centra en comprender los requisitos y objetivos del proyecto

desde la perspectiva del negocio.b) Comprensión de los datos: Incluye la recopilación inicial de datos y se preocupa por establecer

sus principales características.c) Preparación de los datos: Actividades para construir el conjunto final de datos al que pueden

aplicársele las herramientas de modelado.d) Modelado: Propiamente Minería. Implica seleccionar las técnicas de modelado, los parámetros

y evaluar el modelo.e) Evaluación: Valida el modelo desde el punto de vista del análisis de datos.f) Implantación: El conocimiento obtenido y reflejado en el modelo tiene que organizarse y

presentarse de una manera comprensible por parte de los usuarios.

HerramientasLas características más importantes son:1) Preparación de los datos: Aspecto que demanda mayor tiempo. Puede dar soporte a operaciones

de limpieza, transformación, etc., de datos, así como para muestreo con vistas a la creación de conjuntos para entrenamiento y validación, etc.

2) Selección de las operaciones (algoritmos) de minería de datos: Su comprensión asegurará que cumplan los requisitos que demandan los usuarios. Es importante conocer como los distintos algoritmos tratan los tipos de datos de las variables de respuesta y variables predictoras (columnas de la BD que pueden usarse para construir un modelo predictor de los valores de otra columna), la rapidez con que llevan a cabo la fase de entrenamiento y la velocidad con que


15

Minería de Datos

operan sobre nuevos datos. Debe analizarse su sensibilidad al ruido (diferencia entre un modelo y sus predicciones), establecer sensibilidad a la falta de datos de un algoritmo dado y robustez de patrones que dicho algoritmo descubre en presencia de datos irrelevantes ó incorrectos.

3) Escalabilidad y prestaciones del producto: Consideraciones importantes cuando se trabaja con datos crecientes en términos del número de filas ó columnas, posiblemente con controles de validación sofisticados. Puede demandar el uso de tecnologías de multiprocesamiento simétrico (Symmetric Multi Processing – SMP) ó de procesamiento masivamente paralelo (Massively Parallel Processing – MPP)

4) Funcionalidades para comprender los resultados, proporcionadas mediante medidas que describan la precisión y lo significativo de los datos, permitiendo que el usuario analice la sensibilidad del resultado. También es útil la presentación de resultados con el empleo de varias maneras alternativas, por ejemplo, visualmente. Una matriz de confusión muestra el número real de valores de una clase comparándolo con el número predicho. Ilustra la capacidad predictiva del modelo y presenta los detalles necesarios para ver donde pudiera estar fallando.El análisis de sensibilidad determina la sensibilidad del modelo respecto a pequeñas fluctuaciones de un valor predictor. Permite evaluar los efectos que tienen el ruido y los cambios ambientales sobre la precisión del modelo.Las técnicas de visualización permiten mostrar los datos gráficamente para facilitar la comprensión de su significado. Las capacidades van desde las simples gráficas de dispersión hasta representaciones multidimensionales complejas:

Minería de datos y almacenes de datosUn desafío principal para las organizaciones es identificar los datos más adecuados para aplicar estas técnicas. La Minería de Datos necesita una fuente de datos unificada, independiente, limpia, integrada y auto coherente. Un almacén de datos está bien preparado para proporcionar los datos requeridos por la Minería de Datos.


16

Documents

Almacenes de datos, olap y minería de datos