29
Introduzione al Introduzione al Datamining Datamining Francesco Passantino Francesco Passantino [email protected] [email protected] www.iteam5.net/francesco www.iteam5.net/francesco

Introduzione al datamining

Embed Size (px)

DESCRIPTION

Introduzione al datamining

Citation preview

  • 1. Introduzione al Datamining Francesco Passantino [email_address] www.iteam5.net/francesco

2. Cos il datamining

  • Processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire regolarit o relazioni non note a priori, e allo scopo di ottenere un risultato di business al proprietario del database.

3. Categorie di informazioni/1

  • Associazioni:si ha una associazione quando pi eventi o fatti elementari vengono collegati in un unico evento globale.
    • Esempio: lanalisi delle vendite di una vettura di un certo colore pu essere associata al fatto che il mese prima la campagna pubblicitaria mostrava lauto di quel colore guidata da un personaggio famoso. La casa automobilistica pu decidere di sfruttare questi dati per pianificare la produzione.
  • Sequenze:si ha un sequenza se gli eventi elementari vengono collegati nel tempo.
    • Esempio: il 40% delle famiglia che acquistano una casa entro un mese acquistano anche un frigorifero nuovo. Oppure: se una famiglia ha acquistato a Marzo un fornello da campeggio, ad Aprile un sacco a pelo probabile che a Maggio decider di comprare una tenda da campeggio.

4. Categorie di informazioni/2

  • Classificazione:una classificazione si ha quando vengono identificati schemi o insiemi di caratteristiche che definiscono il gruppo (classe) a cui appartiene un dato elemento (record). La classificazione parte dallutilizzo di insiemi esistenti e gi classificati e porta alla definizione di alcune regolarit.
    • Esempio: rendita media di un cliente di una banca o la vendita settimanale di un particolare prodotto.
  • Clustering: simile alla classificazione ma consente di produrre nuovi gruppi non ancora definiti. Il clustering deriva dal partizionare la base di dati in modo tale che i membri di ogni gruppo siano simili rispetto a qualche criterio.
    • Esempio: segmentare le liste dei clienti in gruppi simili tra loro.

5. Data Warehouse

  • Magazzino di dati a livello di impresa
  • Insieme di strumenti per convertire un vasto insieme di dati in informazioni utilizzabili dallutente
  • Strumento di supporto decisionale
  • Base informativa per costruire sistemi di analisi e previsione

6. Definire il modello di dati

  • Identificare gli eventi da misurare:
    • Vendite
    • Chiamate al customer-service
    • Interventi di assistenza
    • Produzione
  • Mantenere flessibilit per il futuro:
    • Nuovi prodotti
    • Nuovi centri assistenza
    • Nuove linee di produzione

7. Componenti di un modello DW Comune Prodotto Tempo Unit Fatturato Tabella delle Dimensioni Comuni Prodotti Tempo Tabella dei Fatti Misure Fatti Dimensioni 8. Componenti di un modello DW

  • Tabella dei fatti
    • Contiene misure numeriche che descrivono un evento di business, come una vendita o una transazione bancaria
  • Fatto
    • Una riga nella tabella dei fatti; contiene uno o pi valori numerici che misurano un evento
  • Misura
    • Una colonna numerica della tabella dei fatti
  • Dimensione
    • Una entit di business che descrive il quando, chi, dove, come di un fatto (tempo, prodotto, cliente, ...)

9. Star Schema

  • Lo Star Schema la modellizzazione pi semplice ed efficace dei componenti di un data warehouse
  • Ogni tabella dei fatti associata ad N tabelle dimensionali
  • Relazioni gerarchiche allinterno di una dimensione (per es. anno/mese/giorno) vengono mantenute in una sola tabella dimensionale

10. Star Schema Employee_Dim EmployeeKey EmployeeID . . . EmployeeKey Time_Dim TimeKey TheDate . . . TimeKey Product_Dim ProductKey ProductID . . . ProductKey Customer_Dim CustomerKey CustomerID . . . CustomerKey Shipper_Dim ShipperKey ShipperID . . . ShipperKey Sales_Fact TimeKey EmployeeKey ProductKey CustomerKey ShipperKey RequiredDate . . . TimeKey CustomerKey ShipperKey ProductKey EmployeeKey Multipart Key Measures Dimensional Keys 11. Base dati multidimensionale Mese 12 347 65Prodotto Dentifricio Succo Cola Latte Crema Sapone Regione W SNFatto:Vendite (importo) Dimensioni: Prodotto, Regione, Tempo Percorsigerarchicidi sintesi Prodotto Regione Tempo Industria Paese Anno CategoriaRegione TrimestreProdotto CittMeseSettimana Ufficio Giorno Detersivo 12. Fatti, Misure, Dimensioni, Gerarchie

  • Lanalisi multidimensionale dei dati analizza uno o pifatti misurabilial variare di una o pidimensioniorganizzate in uno o pilivelli gerarchici
  • Nellesempio precedente, si individua uncubodellevendite , dove:
    • Le vendite sono ilfattooggetto di analisi
    • Importo e Volume sonomisuredel fatto
    • Regione unadimensione
    • Paese, Regione, Citt, Ufficio sono ilivelli gerarchicidella dimensione Regione

13. Fatti, Misure, Dimensioni Regione Prodotto Tempo Unit $ Tabella Dimensioni Regione Prodotto Tempo Tabella dei Fatti Misure Fatti Dimensioni 14. Gerarchia delle Dimensioni Gerarchia Consolidata Localit Negozio Continente Paese Regione Citt Negozio Gerarchia Separata Localit Negozio Continente Continente Paese Paese Regione Regione Citt Citt Negozio Negozio 01 15. Cubi e Ipercubi

  • Il cubo consente di rappresentare in modo intuitivo e maneggevole la dipendenza di un fatto da 3 dimensioni
  • Lipercubo una generalizzazione del cubo su n dimensioni, con 1