17
Manipulación de datos con Kettle Ing. Marcos Pierri SIU- Datawarehouse [email protected] Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR

Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse [email protected] Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Embed Size (px)

Citation preview

Page 1: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Manipulación de datos con Kettle

Ing. Marcos PierriSIU-Datawarehouse

[email protected]

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 1

Page 2: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 2

¿Qué es Kettle?

¿Para qué sirve?

Principales

características

Instalación

Ejemplos de uso - DEMO

Contenido

Page 3: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Herramienta de ETL (extracción, transformación y carga) Open Source.

Creado por Matt Casters - @mattcasters

Adquirido por Pentaho en 2006. Actualmente se llama Pentaho Data Integration (PDI).

Desarrollado integramente en Java.

Licencia GNU LGPL.

Última versión estable 4.1.0 (30-11-2010).

Versión en desarrollo 4.2.0-RC1 (01-07-2011).

¿Qué es Kettle?

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 3

Page 4: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Integración de datos

Carga de datawarehouses y datamarts

Limpieza de datos (data cleansing)

Análisis y perfilado de datos (data profiling)

Migración de datos entre Bases de datos

Exportar datos de Bases de datos a archivos planos

Etc, etc ...

¿Para qué sirve?

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 4

Page 5: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

GUI muy avanzada.

Soporte para gran cantidad de fuentes de información.

Basado en dos tipos de objetos diferentes:

Transformaciones

Trabajos

Las T&T utilizan un lenguaje descriptivo (XML).

Cuenta con herramientas y utilidades para crear,

administrar y ejecutar T&T.

Permite extender las funcionalidad mediante el desarrollo

de Plugins propios.

Principales características

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 5

Page 6: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

GUI muy avanzada

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 6

Page 7: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Fuentes de información

ExcelBases de datos (+40):- PostgreSQL- MySql- Informix- dBase III, IV o 5- Firebird SQL- IBM DB2- MS SQL Server- MS Access- Oracle- SAP ERP System- Teradata- LucidDB- Hypersonic- Apache Derby- etc, etc ...

Xml Txt / CSV RSS

Salesforce Google Analytics

Web services

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 7

Page 8: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Transformaciones

Orientación a los Datos. Representa una tarea ETL.

Es una colección de “pasos”. Cada paso es una operación particular sobre datos.

Los “pasos” se conectan entre sí a través de “saltos”, que indica cual será el flujo de los datos.

Los “pasos” trabajan de manera simultánea y asincrónica.

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 8

Page 9: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Trabajos

Orientación a la Tarea y a los Datos.

Usualmente un Trabajo se compone de una o más Transformaciones/Trabajos, que serán ejecutadas secuencialmente.

La ejecución de cada “Entrada de Trabajo” presenta una salida de status, que puede ser analizada para la realización de diferentes acciones.

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 9

Page 10: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Spoon: IDE gráfico para crear T&T.

Kitchen: herramienta de línea de comandos para ejecutar Trabajos.

Pan: herramienta de línea de comandos para ejecutar Transformaciones.

Carte: servidor liviano para ejecutar T&T en host remotos.

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 10

Herramientas y utilidades para crear, administrar y ejecutar T&T

Page 11: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Pre-requisitos

- JRE (o JDK) 5.x o superior.

Descarga

- http://sourceforge.net/projects/pentaho/files/ - Carpeta “Data Integration” - Versión 4.1.0 – 106.5 MB - Versión 4.2.0-RC1 – 225.3 MB

Instalación

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 11

Page 12: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Después de descomprimir el archivo

- Ejecutar spoon.sh (Linux) o spoon.bat (Windows)

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 12

Page 13: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Pantalla de Bienvenida

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 13

Page 14: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Ejemplos de uso - DEMO

Los ejemplos fueron extraidos del libro Pentaho Data Integration 4 Cookbook – María C. Roldán. (http://www.packtpub.com/support)

01 - leer un archivo txt.

02 - escribir un archivo txt.

03 - leyendo un archivo simple XML.

04 - leyendo un archivo excel.

05 - generando datos de ejemplo para testeo.

06 - cargando datos desde txt en una base postgresql.

07 - leyendo datos desde una base postgresql y exportarlos a un txt.

08 - programando una funcionalidad a medida.

09 - enviando e-mails con archivos adjuntos.

10 - copiando o moviendo uno a más archivos.

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 14

Page 15: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Libros - Información

Wiki SIU Pentaho: http://repositorio.siu.edu.ar/trac/dw_pentaho/wiki/WikiStartForo SIU Comunidad: http://comunidad.siu.edu.ar/index.php?board=49.0---------------------------------------------------------------------------------------------------------------Sitio de PDI - Kettle: http://kettle.pentaho.com/Foros Pentaho: http://forums.pentaho.com/

Pentaho Solutions - Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-48432-6 Pentaho 3.2 Data Integration: Beginner's Guide - María Carina Roldán - Packt Publishing - ISBN:1847199542 Pentaho Kettle Solutions - Matt Casters, Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-63517-9 Pentaho Data Integration 4 Cookbook - Adrián Sergio Pulvirenti, María Carina Roldán - Pack Publishing - ISBN: 978-1-84951-524-5

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 15

Page 16: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

¿Preguntas?¿Preguntas?

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 16

Page 17: Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá

Más información:[email protected]

Muchas Gracias!!!

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 17