Poblando y Explotando el DataWarehouse.docx

1

PESPAC

UNIVERSIDAD NACIONAL DE LA AMAZONIA PERUANA

FACULTAD DE INGENIERÍA DE SISTEMAS E INFORMÁTICA

Poblando y Explotando el Data Warehouse

Integrantes:

Cueva Vásquez Luis MiguelGarcía Córdova RoliVásquez Valles Eldy

Iquitos - PerúFebrero – 2013

2

PESPAC

INDICE

INTRODUCCION 3

I. CONTENIDO 4

Poblando y Explotando el Data Warehouse 4

I.1. Stage Área 4

I.2. Poblamiento del Data Warehouse 6

I.2.1. Estandarización 7

I.2.2. limpieza de datos 8

I.3. La Metadata 9

I.4. Primera carga 14

I.5. Proceso de actualización de Datos 15

I.5.1. Anomalías 16

I.5.2. Atributos de calidad de Datos 17

II. CONCLUSIONES 19

I.

3

PESPAC

INTRODUCCION

Actualmente todas las empresas sin importar la actividad a la que se dediquen, para poder competir y obtener el éxito en el mercado requieren necesariamente contar con información; acerca de la competencia, información sobre los distintos productos que ofrece a través de la publicidad; esta información es obtenida y difundida fácilmente utilizando los medios de comunicación social pero sobre todo por medio del Internet.

Aquí entre las tecnologías el Data Warehouse, es una herramienta que ofrece solución a este tipo de problemas. Ya que al ser aplicada puede solucionar las necesidades de cualquier empresa.

Por ello se presenta una pequeña síntesis de Data Warehouse, con puntos concretos para realizar de la mejor forma un mejor análisis a nuestros sistemas informáticos, con el fin de mejorar los procesos de cualquier organización y mediante ello realizar una buena toma de decisiones

4

PESPAC

I. CONTENIDO

Poblando y Explotando el Data Warehouse

Especificar la extracción, transformación y carga de datos entre los sistemas transaccionales y el DW. En donde la extracción es la selección sistemática de datos operacionales usados para poblar el componente de almacenamiento físico DW; la transformación es el proceso para transformar y realizar otros cambios en los datos operacionales para reunir los objetivos de orientación a los temas a explotar y finalmente la carga es la inserción sistemática de datos en el componente de almacenamiento físico DW

Consiste en realizar consultas al DW como análisis, visualización y manipulación de la información guardada en el almacén. Una forma de explotar los datos contenidos en el DW es a través de aplicaciones OLAP. Por medio de las cuales el usuario lleva a cabo un análisis multidimensional interactivo de los datos.

I.1 Staging Area

Es un área de almacenamiento y a su vez, un conjunto de procesos que limpian transforman, combinan, eliminan datos duplicados, archivan y preparan los datos de origen para su uso en la data Warehouse (procesos conocidos como ETL).

lugar de tránsito de los datos en su camino de la fuente al Data Warehouse.

La mayor parte del esfuerzo en la construcción de un Data Warehouse se despliega en el “Staging Área”,

La herramienta que se utiliza para la construcción de los procesos del “Staging área” es la herramienta ETL

Extracción: primer paso en l obtención de los datos que serán incluidos en el ambiente del DW. Extraer significa, leer y comprender los datos fuente y copiar los que el DW necesita.

Transformación: Aquí incluye, la limpieza de datos (corrigiendo los errores ortográficos, resolviendo conflictos de dominios y convirtiendo los datos en formato estándar), la combinación de datos múltiples fuentes y eliminación de datos duplicados.

Carga: Almacena los datos en el data Warehouse

5

PESPAC

I.2 Poblamiento del Data Warehouse.

El proceso de poblar un Data Warehouse se puede dividir en 5 tipos de subprocesos: (Descubrir, Extraer, Transformar, Transportar, Cargar)

6

PESPAC

Descubrir: En esta etapa se analiza la fuente de información, seleccionando los datos a extraer, los niveles de calidad de estos y la disponibilidad de los mismos.

Extraer: El proceso de extracción se realizara sobre fuentes heterogéneas, es por ello que se debe contar con una herramienta ETL abierta a todas las fuentes y a todas las plataformas.

Transformar: El proceso de transformación se encarga de cambiar los formatos de datos del sistema fuente al sistema destino, así como de realizar la integración de las fuentes y la estandarización de los datos

Transportar: Proceso por el cual se pasa los datos al Data Warehouse.

Cargar: Almacenamiento de los datos en la Data Warehouse.

I.2.1 Estandarización de Datos.

Es el proceso orientado a la uniformizar los datos en base a las definiciones y luego en base a la realidad. Por ejemplo un caso típico es el que se presenta es cuando existen campos que contienen diferente valor como por ejemplo “Pedro” y “Pablo” y que se refieren a la misma persona real, o el caso en el que el campo contiene los mismos valores “Juanita” y “Juanita” pero que en la realidad corresponden a personas distintas.

Este problema se puede resolver con dos tipos de procesos que son complementarios. El primero un proceso automático que tenga rutinas que permitan identificar automáticamente estos registros y el segundo un proceso de gestión visual que tenga como finalidad complementar al primero.

7

PESPAC

I.2.2 limpieza de Datos.

El problema de la calidad de los datos se puede enfrentar en parte con rutinas de limpieza que permitan reducir el número de registros con error.

Pasos a seguir:

1. Analizar sus datos corporativos para descubrir inexactitudes, anomalías y otros problemas.

2. Transformar los datos para asegurar que sean precisos y coherentes.

3. Asegurar la integridad referencial, que es la capacidad de la data Warehouse, para identificar correctamente al instante cada objeto del negocio, tales como un producto, un cliente o un empleado.

4. Validar los datos que usa la aplicación de la data Warehouse para realizar las consultas de prueba.

5. Producir la Metadata, una descripción del tipo de datos, formato y el significado relacionado al negocio de cada campo.

6. Finalmente, viene el paso crucial de la documentación del proceso completo para que se pueda ampliar, modificar y arreglar los datos en el futuro con más facilidad.

Tipos de limpieza de Datos

a) Limpieza de datos moderada: Si decide no programar funciones de limpieza de datos o contratar un consultor para

8

PESPAC

hacer el trabajo, puede inhibirse también de la compra de una herramienta específica para esa tarea.

b) Limpieza de datos intensa: Para trabajos de limpieza intensos, se deben considerar herramientas que se han desarrollado para esas tareas.

En el siguiente cuadro se muestra un caso típico de una tabla en la que se registran el número de documento y el nombre digitados y en la que se puede distinguir errores de digitación comunes.

I.3 La Metadata.

Ejemplos de Metadata:

Cuando observamos la fecha de caducidad de los alimentos, dónde fueron fabricados o por quién son comercializados, estamos consultando metadatos.

En una biblioteca, al realizar búsquedas. Lo hacemos a través de metadatos como son el autor, el título o la temática.

En nuestro DNI aparecen metadatos acerca de nosotros mismos: la dirección, los nombres de nuestros padres, un número que actúa como identificador, etc.

En los medicamentos: los metadatos aparecen junto al producto, en el prospecto, donde se indica la composición y las indicaciones de uso.

Las fuentes de metadatos como: o Lógica de programas. o Comentarios en los programas o Comentarios en archivos de datos.

9

PESPAC

o Secuencias de jobs y sus comentarios. o Metadatos del repositorio de la herramienta CASE. o Modelos de datos. o Diccionarios de la base de datos. o Documentos que contengan reglas de negocio

Tipos de Metadatos:

Los metadatos de los procesos ETL, referidos a las diversas fuentes utilizadas, reglas de extracción, transformación, limpieza, depuración y carga de los datos al depósito.

Los metadatos operacionales, que son los que básicamente almacenan todos los contenidos del DW, para que este pueda desempeñar sus tareas.

Los metadatos de consulta, que contienen las reglas para analizar y explotar la información del almacén, tales como drill-up y drill-down. Son estos metadatos los que las herramientas de análisis y consulta emplearán para realizar documentaciones y para navegar por los datos.

Por los usuarios que los utilizan:

De acuerdo al tipo de usuario los metadatos pueden ser: Metadatos técnicos y metadatos del negocio.

Los usuarios de los metadatos tendrán necesidad de ver los siguientes metadatos:

Usuarios técnicos: Usuarios de negocio:

10

PESPAC

• Datos sobre el proceso ETL • Datos sobre el DBMS. • Archivos, arquitectura. • Modelos físico, lógico. • Mapeos.

• Áreas de negocio.• Definiciones de reglas de negocio. • Como utilizar las herramientas. • Significado de la información • Ubicación de la información

Implementar la MetadataEn esta actividad, se deben crear los datos acerca de los datos, esto implica la creación de un repositorio que proporcione información que puede ser de tres tipos:* Metadatos del negocio, que contienen las reglas del negocio que han definido para el data Warehouse, entidades y atributos.* Metadatos técnicos, que contiene los modelos de datos a nivel técnico, así como los modelos de los procesos de carga.* Metadatos operacionales, que son acerca de los procesos del data Warehouse, frecuencia de ejecución, prioridad entre otros. Estos metadatos permitirán administrar el Data Warehouse.

En general, un repositorio de Metadatos debe contener lo siguiente:_ Nombres de campos y definiciones_ Mapeo de los datos_ Tablas_ Índices_ Cronogramas de extracción, carga, etc._ Criterios de selección_ Cálculos de los datos derivados_ Transformación de los datos

¿Cuál es su importancia en los sistemas de data warehouse?

11

PESPAC

El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los datos son de interés para el usuario final, el metadato es de interés para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacén de datos es muy diferente al rol que cumple en los ambientes operacionales. En el ámbito de los data warehouse el metadato juega un papel fundamental, su función consiste en recoger todas las definiciones de la organización y el concepto de los datos en el almacén de datos, debe contener toda la información concerniente a:

Tablas Columnas de tablas Relaciones entre tablas Jerarquías y Dimensiones de datos Entidades y Relaciones

Cada etapa en la construcción del Data Warehouse genera un conjunto de metadatos propios, estos metadatos se deben unificar en un solo repositorio.

Los metadatos que se generan en cada etapa son:

En la extracción de las fuentes:

En el Staging Área: En el bloque de Acceso y uso:

• Identificación de campos fuente.• Registro de cambios.• Resolución de inconsistencias.• Mapas

• Integración y segmentación.• Resúmenes, adiciones.• Cálculos previos y derivaciones.• Transformaciones.

• Proporciona un mapa de navegación para la exploración de la información.• Las herramientas de explotación generan

12

PESPAC

• Transformaciones. metadatos propios.

Arquitectura de metadatos

La implementación de un Data Warehouse requiere también la implementación de un repositorio unificado de Metadatos, este repositorio recibirá los metadatos que se generan en todas los bloques de la arquitectura del Data Warehouse.

Fuentes de metadatos

Como se puede apreciar en la arquitectura de metadatos, las fuentes de estos últimos son diversas y al igual que las fuentes de datos de un data Warehouse requieren procedimientos ETL que lean los metadatos locales de cada herramienta y los centralicen en un solo repositorio unificado

13

PESPAC

I.4 Primera carga.

Los procesos de primera carga

Los procesos de carga al Data Warehouse tienen características muy particulares lo que hace necesario, en muchos casos, implementar procesos exclusivamente para la primera carga y procesos diferentes para los refrescos periódicos.

El aspecto más importante en un proceso de primera carga es el volumen de información que se va a llevar desde la fuente hasta el Data Warehosue, en la primera carga se suele llevar toda la información histórica lo que hace que los volúmenes de datos a extraer, procesar, transportar y cargar sean muy grandes.

En algunos casos particulares cuando el volumen de información no sea muy grande se puede utilizar el mismo proceso para ambos fines

Muchas veces el proceso de carga de volúmenes considerables de datos puede tomar mucho tiempo por lo que se deberá utilizar herramientas especializadas en el tratamiento masivo de información como los “BulkLoaders” para la descarga y carga de información en tablas y los algoritmos “hash” cuando se trate de Tablas “Look-up” en los procesos de transformación.

En el caso particular de un modelo estrella, en el proceso de primera carga se deben cargar las dimensiones, como se ve en la figura siguiente, y la parte histórica de la tabla de hechos, en ese orden necesariamente, debido a que después de cargadas las dimensiones se podrán generar las tablas “Look-up” que permitirán hacer las asignaciones de las llaves artificiales de la Fact-table.

14

PESPAC

I.5 Proceso de actualización de Datos.

En el caso de los procesos de refresco periódico, es importante identificar la información que cambió en el último periodo de tiempo desde la última actualización, el volumen de información a tratar puede ser relativamente menor al caso de la primera carga.

La característica del proceso de carga deberá ser tal que permita el proceso más rápido posible, de manera que las múltiples fuentes de datos se puedan cargar sin interferir unas con otras ni tampoco con los procesos de lectura y análisis que se hacen en el Warehouse

I.5.1 Anomalías.

Las principales anomalías de los datos que se encuentran en las bases de datos operacionales son las siguientes:

Errores en el ingreso de datos (digitación).

Validaciones inadecuadas en los sistemas de ingreso de información.

15

PESPAC

Prioridades de los sistemas operacionales.

Datos que se ingresan en campos “Free-Form”.

Anomalías en reglas de negocio (a través del tiempo).

Una tabla típica se vería como en la siguiente figura:

I.5.2 Atributos de calidad de datos.

Los atributos de la calidad de datos están referidos al contenido de los datos estructurados de las bases de datos a analizar, esta base de datos puede ser la del sistema transaccional o la base de datos de Data Warehouse. Los atributos de la calidad de datos son los siguientes:

a) Exactitud

Es un atributo que no es identificable o cuantificable con mucha facilidad pues son valores de datos que están permitidos pero que no corresponden a información real o consistente. Se puede medir calculando el número de registros inexactos entre el número de registros totales.

b) Existencia

Es el número de registros en NULL entre el número de registros totales, nos dice el porcentaje con registros de campos nulos.

16

PESPAC

c) Validez

Es el atributo que mide el porcentaje de registros con valores fuera del rango o de los dominios definidos.

Donde el dominio del campo sexo es: (M: Masculino F: Femenino)

d) Temporalidad

Es atributo que mide la disponibilidad de los datos en un periodo de tiempo definido, por ejemplo el periodo de refresco del Data Warehouse.

e) Unicidad

Es el porcentaje de tablas con llave primaria y de llaves primarias que estén activas.

f) Consistencia

Es el grado de integridad de los datos, referido a la existencia y validez de llaves primarias y llaves foráneas en la base de datos a analizar.

17

PESPAC

II. CONCLUSIONES

La Metadata (enfocándonos en el DW); es otra base de datos que contiene información acerca de los datos que hay en el Data Warehouse, acerca de los procesos y acerca del negocio.

Documents

Poblando y Explotando el DataWarehouse.docx