15
Data Warehouse Un DWH es un sistema que recupera y consolida datos periódicamente de los sistemas fuente a un almacén de datos dimensional o normalizado (DWH). Usualmente guarda años de historia y es consultado para inteligencia de negocios u otras actividades analíticas.”

Data Warehouse

Embed Size (px)

Citation preview

Data Warehouse

“Un DWH es un sistema que recupera y

consolida datos periódicamente de los

sistemas fuente a un almacén de datos

dimensional o normalizado (DWH).

Usualmente guarda años de historia y es

consultado para inteligencia de negocios u

otras actividades analíticas.”

Esquema Data Warehouse

Ventajas de Data Warehouse

• Toda la información está un solo lugar. (UFV)

• Información actualizada.

• Acceso rápido

• No hay límites de espacio (Ej. Archivos XLS)

• Contiene toda la historia de la compañía

• Fácil de comprender (Modelada en términos del negocio)

• Contiene definiciones claras y uniformes

• Datos estandarizados

Desafíos de un Data Warehouse

• Requieren una revisión del modelo de datos, objetos,

transacciones y además del almacenamiento

• Problemas de calidad de datos

• Volumen de datos y rendimiento

• Requieren una revisión del modelo de datos, objetos,

transacciones y además del almacenamiento.

Arquitectura de Data Warehouse

Una arquitectura de Data Warehouse es una forma de representar la estructura global de los datos, la comunicación, los procesos y la presentación al usuario final. La arquitectura está constituida por las siguientes partes interconectadas

Elementos de una arquitectura de Data Warehouse

• Base de datos operacional / Nivel de base de datos externo.

• Nivel de acceso a la información • Nivel de acceso a los datos • Nivel de gestión de proceso • Nivel de data warehouse (físico).• Nivel de organización de datos

Estructura de un Data Warehouse

• Los data warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el data warehouse. La estructura de un data warehouse se muestra en la Figura N° 5.

• En la figura, se muestran los diferentes componentes del data warehouse y son:

• Detalle de datos actuales• Detalle de datos antiguos• Datos ligeramente resumidos• Datos completamente resumidos• Meta data

Estructura de un Data Warehouse

Pentaho BI

• Pentaho es un proyecto iniciado por una comunidad OpenSource, provee una alternativa de soluciones de BI en distintas áreas como en la Arquitectura, Soporte, Funcionalidad e Implantación.

• Pentaho se define a sí mismo como una plataforma de BI “orientada a la solución” y “centrada en procesos” que incluye todos los principales componentes requeridos para implementar soluciones basados en procesos y ha sido concebido desde el principio para estar basada en procesos.

Caracteristicas - Pentaho BI• Plataforma 100% J2EE, asegurando la escalabilidad, integración y portabilidad. • Servidor: puede correr en servidores compatibles con J2EE como JBOSS AS, WebSphere, Tomcat, WebLogic y Oracle AS. • Base de datos: vía JDBC, IBM DB2, Microsft SQL Server, MySQL, Oracle, PostgreSQL, NCR Teradata, Firebird. • Sistema operativo: no hay dependencia. Lenguaje interpretado. •Lenguaje de programación: Java, Javascript, JSP, XSL (XSLT/XPath/XSL-FO).

•Interfaz de desarrollo: Java SWT, Eclipse, Web-based. •Repositorio de datos basado en XML. •Iintegración con Arquitecturas Orientadas a Servicios (SOA).

Herramientas - JasperSoft

JasperSoft Business Intelligence perteneciente a JasperSoft Corporation, es un conjunto de herramientas open source que permiten a las organizaciones generar información basada en sus datos para la evaluación y toma diaria de decisiones, en forma dinámica y on-line.

La moderna plataforma de BI de Jaspersoft está pensada para el nuevo mundo informático, específicamente para las implementaciones en la: Nube, Big Data, Moviles.

Herramientas - JasperSoft

Conjunto de Productos

El conjunto de productos por los que está compuesto son: •JasperReports Library: Es el motor de informes Java más utilizado del mundo. Permite combinar fuentes de datos y producir documentos “pixel perfect” para su visualización•Jasper Server: : Jasper Server contiene los reportes de forma segura, pudiendo integrarlos y personalizarlos por usuarios y grupos•Jaspersoft iReport Designer: permite crear informes interactivos a partir de cualquier fuente de datos, personalizar

Transformación

Integración de Datos: conjunto de actividades

para llenar el DWH•La integración de datos se descompone en 3

actividades

◦ Extracción: Adquirir datos de 1 o más fuentes

◦ Transformación: Cambiar la forma y contenido de

los datos

◦ Loading (Carga): cargar los datos en los

repositorios y el DWH

Transformacion

Es el elemento básico de diseño de los procesos ETL en PDI.

Se compone de pasos o steps, que están enlazados entre si a través de los saltos o hops.

Una transformación no es ningún programa ni un ejecutable

Kettle es un proyecto que incluye un conjunto de herramientas para realizar las tareas ETL: Spoon, Pan, Chef, Kitchen

Conclusiones

• Los negocios están cambiando constantemente debido a

cambios económicos, evoluciones tecnológicas, alteraciones

en el mercado, impactados por diversos cambios culturales y

sociales e incluso por fenómenos meteorológicos.

• Todo ello obliga a replantearse las estrategias actuales y

debería provocar una transformación en nuestro propio

negocio. Así, un factor clave de éxito, e incluso de

supervivencia, viene derivado de la capacidad de las

organizaciones de gestionar de forma eficiente sus datos.