12
www.bistrategy .it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

Embed Size (px)

Citation preview

Page 1: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

InfoSphere DataStage

B.I. StrategyETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

Page 2: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

Estrazione, trasformazione e caricamento sono i componenti più importanti e con più valore aggiunto di un'infrastruttura di Business Intelligence (BI). Sebbene siano per lo più invisibili agli utenti della piattaforma di BI, i processi ETL recuperano i dati da tutti i sistemi e li pre-elaborano per i tool di analisi e di reporting. La precisione e la tempestività dell´intera piattaforma di BI dipendono in larga misura dai processi ETL.

I processi ETL (Extraction, Transformation and Loading)

Page 3: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

ETL (Extraction, Transformation and Loading)

• I processi di estrazione, trasformazione e caricamento comprendono step multipli che hanno come obiettivo il trasferimento dei dati dalle applicazioni di produzione ai sistemi di Business Intelligence :

• Estrazione dei dati dalle applicazioni di produzione e dai database (ERP, CRM, RDBMS, file ecc.)

• Trasformazione di questi dati per la loro riconciliazione su tutti i sistemi sorgente, unione dei dati provenienti da sistemi eterogenei, eseguire calcoli o parsing di stringhe, arricchirli con informazioni di lookup esterne e confrontare il formato richiesto dal sistema target (Third Normal Form, Star Schema, Slowly Changing Dimensions, ecc.)

• Caricamento dei dati risultanti nelle varie applicazioni BI: Data Warehouse o Enterprise Data Warehouse, Data Mart, applicazioni Online Analytical Processing (OLAP) o “cubi”, ecc.

• La latenza dei processi ETL varia da batch (a volte mensilmente o settimanalmente, ma più spesso quotidianamente), in near-real-time con aggiornamenti più frequenti (ogni ora, ogni minuto, ecc).

Page 4: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

IBM InfoSphere DataStage

•Ambiente grafico di sviluppo con generazione automatica del codice e componenti riutilizzabili

• Engine di trasformazione scalabile da SMP a clusters/MPP e grid

• Facilità di deploy dagli ambienti di sviluppo a quelli di produzione

•Riutilizzo della logica di business attraverso le applicazioni

•Disponibilità di accesso nativo a mainframe, SAP ecc.

Page 5: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

• Integra i dati provenienti da sorgenti eterogenee

• Processa e trasforma grandi quantità di dati in real-time o in modalità batch

• Gestisce processi multipli di integrazione

• Gestisce tutte le tipologie di integrazione da quella più semplice a quella enterprise

• Fornisce connettività diretta ai dati delle applicazioni aziendali viste come sorgenti o come destinazioni

• Agevola l’utilizzo dei meta dati per analisi di impatto cross-tool e manutenzione

Operational DataOperational Data

Business Intelligence

SAS

CRM

Exploration Warehouse

Data Mart

Data Mart

TargetsTargets

ERP

SCM

CRM

External Lists

Distribution

Demographic

Contact

Billing / Accounts

IBM InfoSphere DataStage

Page 6: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

Sistemisorgenti

Sistemidestinazione

Architettura DataStage

Page 7: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

Stage di Join, Transform e Aggregate

Estrae da due DB Oracle diversi

Scrive i risultati su un DB/DWH Teradata (SQL Server – DB2 – MySql ecc.)

IBM InfoSphere DataStageSemplice flusso di esempio

Produzio

ne

Vendite

Page 8: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

Gestione attività a livello di ‘stage’ (non solo a livello di ‘job’)

Monitoraggio in tempo reale

Dettaglio di ogni singolo evento

Ottimizzazione del processo Segnalazione di ogni

anomalia o interruzzione di caricamento

IBM InfoSphere DataStagemonitoring e schedulazione grafica delle procedure

Page 9: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

Sistemi enterprise scalabili:caratteristiche di DataStage

• Un’architettura “data flow” che permette l’elaborazione dei dati, dall’input all’output, minimizzando l’uso di dispositivi di storage, in scenari batch e real-time

• Partizionamento dinamico e Ripartizionamento “on the fly” dei dati

• Scalabilità rispetto agli ambienti hardware, portabilità attraverso sistemi SMP, Clustered SMP, MPP senza la necessità di modifiche ai processi già sviluppati

• Supporto nativo agli RDBMS paralleli, includendo IBM DB2 UDB, Oracle, SQL Server e Teradata in configurazioni parallele e partizionate

Page 10: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

…DataStage crea n processi Unix a runtime per ogni stage, dove n è il numero dei nodi logici definiti nella configurazione

DataStage: il parallelismo in pratica

Page 11: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

pie-chart del tempo di CPU

Tempo totale di CPU e tempo di sistema

Distribuzione media dei processi

DataStage: monitoraggio delle risorse

Page 12: Www.bistrategy.it InfoSphere DataStage B.I. Strategy ETL A SUPPORTO DELLABUSINESS INTELLIGENCE B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE

www.bistrategy.it

• Oracle, DB2, Informix, Teradata, SQLServer, Sybase, DB2 Z/OS, ed altri…

• Supporto per sintassi SQL standard:– autocostruzione degli statement SELECT– autocostruzione delle clausole WHERE, ORDER BY, GROUP BY, etc.– costruzione SQL via SQL Builder

• Supporto per comandi SQL di tipo user defined, oppure specifici in relazione all’RDBMS utilizzato– Insert, update, delete, update/insert, insert/update, clear & insert,

delete & insert– Supporto per scritture transazionali

• Supporto per stored procedures

• ERP: SAP R/3 & SAP BW

• ….. e molto altro!

DataStage: connettività supportate