- 1. Introduzione al Datamining Francesco Passantino
[email_address] www.iteam5.net/francesco
2. Cos il datamining
- Processo di selezione, esplorazione e modellazione di grandi
masse di dati, al fine di scoprire regolarit o relazioni non note a
priori, e allo scopo di ottenere un risultato di business al
proprietario del database.
3. Categorie di informazioni/1
- Associazioni:si ha una associazione quando pi eventi o fatti
elementari vengono collegati in un unico evento globale.
-
- Esempio: lanalisi delle vendite di una vettura di un certo
colore pu essere associata al fatto che il mese prima la campagna
pubblicitaria mostrava lauto di quel colore guidata da un
personaggio famoso. La casa automobilistica pu decidere di
sfruttare questi dati per pianificare la produzione.
- Sequenze:si ha un sequenza se gli eventi elementari vengono
collegati nel tempo.
-
- Esempio: il 40% delle famiglia che acquistano una casa entro un
mese acquistano anche un frigorifero nuovo. Oppure: se una famiglia
ha acquistato a Marzo un fornello da campeggio, ad Aprile un sacco
a pelo probabile che a Maggio decider di comprare una tenda da
campeggio.
4. Categorie di informazioni/2
- Classificazione:una classificazione si ha quando vengono
identificati schemi o insiemi di caratteristiche che definiscono il
gruppo (classe) a cui appartiene un dato elemento (record). La
classificazione parte dallutilizzo di insiemi esistenti e gi
classificati e porta alla definizione di alcune regolarit.
-
- Esempio: rendita media di un cliente di una banca o la vendita
settimanale di un particolare prodotto.
- Clustering: simile alla classificazione ma consente di produrre
nuovi gruppi non ancora definiti. Il clustering deriva dal
partizionare la base di dati in modo tale che i membri di ogni
gruppo siano simili rispetto a qualche criterio.
-
- Esempio: segmentare le liste dei clienti in gruppi simili tra
loro.
5. Data Warehouse
- Magazzino di dati a livello di impresa
- Insieme di strumenti per convertire un vasto insieme di dati in
informazioni utilizzabili dallutente
- Strumento di supporto decisionale
- Base informativa per costruire sistemi di analisi e
previsione
6. Definire il modello di dati
- Identificare gli eventi da misurare:
-
- Chiamate al customer-service
- Mantenere flessibilit per il futuro:
-
- Nuove linee di produzione
7. Componenti di un modello DW Comune Prodotto Tempo Unit
Fatturato Tabella delle Dimensioni Comuni Prodotti Tempo Tabella
dei Fatti Misure Fatti Dimensioni 8. Componenti di un modello
DW
-
- Contiene misure numeriche che descrivono un evento di business,
come una vendita o una transazione bancaria
-
- Una riga nella tabella dei fatti; contiene uno o pi valori
numerici che misurano un evento
-
- Una colonna numerica della tabella dei fatti
-
- Una entit di business che descrive il quando, chi, dove, come
di un fatto (tempo, prodotto, cliente, ...)
9. Star Schema
- Lo Star Schema la modellizzazione pi semplice ed efficace dei
componenti di un data warehouse
- Ogni tabella dei fatti associata ad N tabelle dimensionali
- Relazioni gerarchiche allinterno di una dimensione (per es.
anno/mese/giorno) vengono mantenute in una sola tabella
dimensionale
10. Star Schema Employee_Dim EmployeeKey EmployeeID . . .
EmployeeKey Time_Dim TimeKey TheDate . . . TimeKey Product_Dim
ProductKey ProductID . . . ProductKey Customer_Dim CustomerKey
CustomerID . . . CustomerKey Shipper_Dim ShipperKey ShipperID . . .
ShipperKey Sales_Fact TimeKey EmployeeKey ProductKey CustomerKey
ShipperKey RequiredDate . . . TimeKey CustomerKey ShipperKey
ProductKey EmployeeKey Multipart Key Measures Dimensional Keys 11.
Base dati multidimensionale Mese 12 347 65Prodotto Dentifricio
Succo Cola Latte Crema Sapone Regione W SNFatto:Vendite (importo)
Dimensioni: Prodotto, Regione, Tempo Percorsigerarchicidi sintesi
Prodotto Regione Tempo Industria Paese Anno CategoriaRegione
TrimestreProdotto CittMeseSettimana Ufficio Giorno Detersivo 12.
Fatti, Misure, Dimensioni, Gerarchie
- Lanalisi multidimensionale dei dati analizza uno o pifatti
misurabilial variare di una o pidimensioniorganizzate in uno o
pilivelli gerarchici
- Nellesempio precedente, si individua uncubodellevendite ,
dove:
-
- Le vendite sono ilfattooggetto di analisi
-
- Importo e Volume sonomisuredel fatto
-
- Paese, Regione, Citt, Ufficio sono ilivelli gerarchicidella
dimensione Regione
13. Fatti, Misure, Dimensioni Regione Prodotto Tempo Unit $
Tabella Dimensioni Regione Prodotto Tempo Tabella dei Fatti Misure
Fatti Dimensioni 14. Gerarchia delle Dimensioni Gerarchia
Consolidata Localit Negozio Continente Paese Regione Citt Negozio
Gerarchia Separata Localit Negozio Continente Continente Paese
Paese Regione Regione Citt Citt Negozio Negozio 01 15. Cubi e
Ipercubi
- Il cubo consente di rappresentare in modo intuitivo e
maneggevole la dipendenza di un fatto da 3 dimensioni
- Lipercubo una generalizzazione del cubo su n dimensioni, con
1