www.bistrategy.it
InfoSphere DataStage
B.I. StrategyETL A SUPPORTO DELLA BUSINESS INTELLIGENCE
www.bistrategy.it
Estrazione, trasformazione e caricamento sono i componenti più importanti e con più valore aggiunto di un'infrastruttura di Business Intelligence (BI). Sebbene siano per lo più invisibili agli utenti della piattaforma di BI, i processi ETL recuperano i dati da tutti i sistemi e li pre-elaborano per i tool di analisi e di reporting. La precisione e la tempestività dell´intera piattaforma di BI dipendono in larga misura dai processi ETL.
I processi ETL (Extraction, Transformation and Loading)
www.bistrategy.it
ETL (Extraction, Transformation and Loading)
• I processi di estrazione, trasformazione e caricamento comprendono step multipli che hanno come obiettivo il trasferimento dei dati dalle applicazioni di produzione ai sistemi di Business Intelligence :
• Estrazione dei dati dalle applicazioni di produzione e dai database (ERP, CRM, RDBMS, file ecc.)
• Trasformazione di questi dati per la loro riconciliazione su tutti i sistemi sorgente, unione dei dati provenienti da sistemi eterogenei, eseguire calcoli o parsing di stringhe, arricchirli con informazioni di lookup esterne e confrontare il formato richiesto dal sistema target (Third Normal Form, Star Schema, Slowly Changing Dimensions, ecc.)
• Caricamento dei dati risultanti nelle varie applicazioni BI: Data Warehouse o Enterprise Data Warehouse, Data Mart, applicazioni Online Analytical Processing (OLAP) o “cubi”, ecc.
• La latenza dei processi ETL varia da batch (a volte mensilmente o settimanalmente, ma più spesso quotidianamente), in near-real-time con aggiornamenti più frequenti (ogni ora, ogni minuto, ecc).
www.bistrategy.it
IBM InfoSphere DataStage
•Ambiente grafico di sviluppo con generazione automatica del codice e componenti riutilizzabili
• Engine di trasformazione scalabile da SMP a clusters/MPP e grid
• Facilità di deploy dagli ambienti di sviluppo a quelli di produzione
•Riutilizzo della logica di business attraverso le applicazioni
•Disponibilità di accesso nativo a mainframe, SAP ecc.
www.bistrategy.it
• Integra i dati provenienti da sorgenti eterogenee
• Processa e trasforma grandi quantità di dati in real-time o in modalità batch
• Gestisce processi multipli di integrazione
• Gestisce tutte le tipologie di integrazione da quella più semplice a quella enterprise
• Fornisce connettività diretta ai dati delle applicazioni aziendali viste come sorgenti o come destinazioni
• Agevola l’utilizzo dei meta dati per analisi di impatto cross-tool e manutenzione
Operational DataOperational Data
Business Intelligence
SAS
CRM
Exploration Warehouse
Data Mart
Data Mart
TargetsTargets
ERP
SCM
CRM
External Lists
Distribution
Demographic
Contact
Billing / Accounts
IBM InfoSphere DataStage
www.bistrategy.it
Sistemisorgenti
Sistemidestinazione
Architettura DataStage
www.bistrategy.it
Stage di Join, Transform e Aggregate
Estrae da due DB Oracle diversi
Scrive i risultati su un DB/DWH Teradata (SQL Server – DB2 – MySql ecc.)
IBM InfoSphere DataStageSemplice flusso di esempio
Produzio
ne
Vendite
www.bistrategy.it
Gestione attività a livello di ‘stage’ (non solo a livello di ‘job’)
Monitoraggio in tempo reale
Dettaglio di ogni singolo evento
Ottimizzazione del processo Segnalazione di ogni
anomalia o interruzzione di caricamento
IBM InfoSphere DataStagemonitoring e schedulazione grafica delle procedure
www.bistrategy.it
Sistemi enterprise scalabili:caratteristiche di DataStage
• Un’architettura “data flow” che permette l’elaborazione dei dati, dall’input all’output, minimizzando l’uso di dispositivi di storage, in scenari batch e real-time
• Partizionamento dinamico e Ripartizionamento “on the fly” dei dati
• Scalabilità rispetto agli ambienti hardware, portabilità attraverso sistemi SMP, Clustered SMP, MPP senza la necessità di modifiche ai processi già sviluppati
• Supporto nativo agli RDBMS paralleli, includendo IBM DB2 UDB, Oracle, SQL Server e Teradata in configurazioni parallele e partizionate
www.bistrategy.it
…DataStage crea n processi Unix a runtime per ogni stage, dove n è il numero dei nodi logici definiti nella configurazione
DataStage: il parallelismo in pratica
www.bistrategy.it
pie-chart del tempo di CPU
Tempo totale di CPU e tempo di sistema
Distribuzione media dei processi
DataStage: monitoraggio delle risorse
www.bistrategy.it
• Oracle, DB2, Informix, Teradata, SQLServer, Sybase, DB2 Z/OS, ed altri…
• Supporto per sintassi SQL standard:– autocostruzione degli statement SELECT– autocostruzione delle clausole WHERE, ORDER BY, GROUP BY, etc.– costruzione SQL via SQL Builder
• Supporto per comandi SQL di tipo user defined, oppure specifici in relazione all’RDBMS utilizzato– Insert, update, delete, update/insert, insert/update, clear & insert,
delete & insert– Supporto per scritture transazionali
• Supporto per stored procedures
• ERP: SAP R/3 & SAP BW
• ….. e molto altro!
DataStage: connettività supportate