21
Introduzione al datawarehouse Franco Perduca Factory Software [email protected]

Introduzione al datawarehouse Franco Perduca Factory Software [email protected]

Embed Size (px)

Citation preview

Page 1: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

Introduzione al datawarehouseFranco Perduca

Factory [email protected]

Page 2: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

2

Agenda

Perchè mi serve il Data Warehouse ? Caratteristiche del Data Warehouse Caricamento e trasformazione dei dati

Page 3: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

3

Perchè mi serve il Data Warehouse Dati = informazione non è sempre vero Sono organizzati per una elaborazione

transazionale Non forniscono dati “attendibili” Rallentano il sistema Spesso devono essere integrati con

sorgenti di diversa natura

Page 4: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

4

Perchè mi serve il Data Warehouse La soluzione è creare un db ad-hoc per le

analisi Lo scopo è di “concentrare” tutti i dati dell’

azienda in un unico punto Integra informazioni provenienti da

sorgenti diverse I dati sono trasformati / “puliti” Il disegno e’ ottimizzato per la lettura Possiamo considerarlo come un db Read-

Only

Page 5: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

5

Perchè mi serve il Data Warehouse E’ un progetto molto difficoltoso :

Capire e identificare gli obbiettivi della analisi Trovare le informazioni e i dati sorgenti Applicare eventuali trasformazioni /

normalizzazioni per consolidare i dati Essere flessibili, riuscire a gestire cambiamenti

e “modifiche nella storia”

Page 6: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

6

Caratteristiche del Data Warehouse Magazzino di dati a livello di impresa Insieme di strumenti per convertire un

vasto insieme di dati in informazioni utilizzabili dall’utente

Obiettivi: Possibilità di accedere a tutti i dati

dell’impresa, centralizzati in un solo database Coerenza e consolidamento dei dati Velocità nell’accesso alle informazioni Base di partenza per OLAP

Page 7: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

7

Caratteristiche del DataWarehouse Passi per la creazione del Data

Warehouse Identificare gli eventi da misurare

Vendite Movimentazione di magazzino Customer satisfaction Ecc.

Identificare le fonti dati I dati possono arrivare da fonti diverse ed

eterogenee, non strutturate (Excel,file di testo,…)

Consolidare i dati Trasformazioni per eliminare le differenze

Es. Lira vs. Euro Definire processo di aggiornamento

Intervallo di aggiornamento del DW

Page 8: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

8

Caratteristiche del Data Warehouse Data Mart

Poichè il processo per la creazione di un DW è spesso lungo e difficoltoso, è possibile creare dei processi intermedi

“Mini” DW tematici per rispondere ad esigenze specifiche (es. vendite, marketing, controllo di gestione ecc.)

L’insieme di tutti i Data Mart costituisce il DW

Page 9: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

9

Caratteristiche del Data Warehouse Componenti di un modello Data

Warehouse Tabella dei fatti

Contiene gli elementi da misurare es. (vendite,movimenti e transazioni ecc.)

Elemento centrale del DW Misure

Sono i valori che vogliamo analizzare rappresentati dalle quantità es. (importi, quantità, numero di transazioni)

Sono contenute nella tabella dei fatti

Page 10: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

10

Caratteristiche del DataWarehouse Tabella delle dimensioni

Descrive e rappresenta l’entità di business Fornisce un contesto alle misure È il “per” nelle analisi

Es. (Venduto PER cliente,Venduto PER prodotto)

Dimensione E’ il contenuto della tabella dimensione Spesso è gerarchica

Es. (Categoria -> SottoCategoria -> Prodotto)

Page 11: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

11

Caratteristiche del DataWarehouse

ComuneComune ProdottoProdotto TempoTempo UnitàUnità FatturatoFatturato

Tabelle delleDimensioni

Tabelle delleDimensioniComuniComuniComuniComuni

ProdottiProdottiProdottiProdotti

TempoTempoTempoTempo

Tabella dei FattiMisureMisureMisureMisure

FattiFattiFattiFatti

DimensioniDimensioniDimensioniDimensioni

Page 12: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

12

Caratteristiche del Data Warehouse DEMO

Page 13: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

13

Caratteristiche del Data Warehouse La struttura è riconducibile a 2 modelli :

Star Schema (a stella)

Snowflake Schema (fiocco di neve)

Page 14: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

14

Caratteristiche del Data Warehouse Star Schema

Lo Star Schema è la modellizzazione più semplice ed efficace dei componenti di un DW

Ogni tabella dei fatti è associata a N tabelle dimensionali

Le relazioni gerarchiche all’interno di una dimensione (per es. anno/mese/giorno) vengono mantenute in una sola tabella dimensionale

Page 15: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

15

Caratteristiche del Data Warehouse Snowflake schema

Le gerarchie all’interno delle dimensioni sono mantenute in tabelle separate

È leggermente più complesso di una struttura a stella

È meno efficiente

Page 16: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

16

Caratteristiche del Data Warehouse Staging area

È una area di storage Si effettuano prime trasformazioni / verifiche Dove si effettua primo caricamento

Page 17: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

17

Caratteristiche del Data Warehouse Nell’ oltp quando un attributo di una

tabella anagrafica cambia il vecchio valore viene sovrascritto Cliente che cambia indirizzo o ragione sociale

Potrebbe essere non accettabile nel dwh Ai fini analitici interessa la “storia”

Da gestire con logiche diverse rispetto all’ Oltp Chiave surrogata Chiave applicativa

Problema delle slowly changing dimension (SCD)

Page 18: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

18

Caratteristiche del Data Warehouse Tre metodi per risolvere le SCD

Tipo 1 sovrascrivere il valore Valore errato o non ha rilevanza analitica

Tipo 2 creare nuova riga con i valori modificati Tracciare i cambiamenti , poco frequenti

Tipo 3 creare struttura per tracciare cambiamento Associare tra di loro i cambiamenti , se non ho

numero limitato uso parent child

Page 19: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

19

Caratteristiche del Data Warehouse Per creare e gestire DWH serve un

strumento di ETL Extract Transform Load

Microsoft Sql Server Integration Services (ex Dts)

Page 20: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

20

Domande?

Page 21: Introduzione al datawarehouse Franco Perduca Factory Software francop@factorysw.com

© 2004 Microsoft Corporation. All rights reserved.This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.