Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Data Warehousing e Data Science
Corso di «Basi di dati»
Università di Bologna
A.A. 2018/2019
13/12/2018Leonardo Bruni
Business Analytics Team Leader
Sara Brolli
Business Analytics Specialist
INDICE
2
Chi Siamo
Data Platform (cenni)
Location Intelligence
Contesto
Cenni Teorici
Case Study: Riorganizzazione delle Strutture Ospedaliere
Data Science
Analysis vs. Analytics
Data Professions: Data Engineer vs. Data Scientist
Project Lifecycle
Case Study: Water Level Forecasting
Approfondimento: Artificial Neural Networks
CHI SIAMO
4
Iconsulting S.p.A. è una società di consulenza specializzata nella progettazione e realizzazione di Sistemi a
Supporto delle Decisioni per i clienti ovvero:
Data Warehouse
Business Intelligence
Performance Management
Big Data
Advanced Analytics
Il nostro obiettivo è realizzare soluzioni uniche per le aziende clienti, con progetti di consulenza realizzati in
modalità “sartoriale”.
….. Ma non solo
Chi è Iconsulting?
5
La nostra vision
6
I nostri partner
DATA PLATFORM
8
LOCATION INTELLIGENCEcontesto e cenni teorici
10
C’era una volta…
11
Una definizione
“Location Intelligence is the extension of traditional BI systems with the spatial dimension.
It has the capability of managing the typical maps visualizations and interactions combined with all other BI systems information”.
12
Location Intelligence: cosa non è!
Tabella
13
Location Intelligence: cosa è!
14
Medico (1813 – 1858)
La storia di John Snow
15
Cartografia: concetti base
(44.4970444, 11.354003)
?[WGS84]
16
Cartografia: concetti base
(5542685.92, 1263921.83)
?[Spherical Mercator Projection]
17
▪ Problemi di rappresentazione della Terra su una mappa piana
▪ Diverse proiezioni, a seconda dell’utilizzo che se ne deve fare
▪ Per ciascuna proiezione, diversi sistemi di riferimento
– WGS84: gradi di latitudine (equatore) e longitudine (Greenwich)
• Sistema di riferimento utilizzato dal sistema GPS
• Es: 41° 53’ 24″ N , 12° 29’ 32″ E (il Colosseo)
– Gauss-Boaga: metri da un punto di riferimento a Roma
• Proiezione cilindrica
• Es: 600000 , 40000
– Molti altri …
Cartografia: concetti base
18
Greenwich: il meridiano 0
19
Proiezioni… una questione di approssimazioni
Spherical Mercator Projection
20
▪ Due modi di rappresentare il dato spaziale:
– Raster
– Vettoriale
• Geometry
• Style
• Layer
• Map
Cartografia: rappresentazione digitale
21
▪ Raster
– La posizione geografica è implicitamente codificata dalla posizione nella matrice
• Nessuna coordinata geografica da memorizzare (ad eccezione della sola che indica la posizione
dell’immagine –angolo in basso a sinistra-)
– La risoluzione è fissata dalla dimensione della matrice… con problemi di zoom!
▪ Vector
– Le coordinate geografiche di ogni vertice devono essere codificate esplicitamente
– Dati visualizzabili a qualsiasi risoluzione senza perdita di qualità
▪ La scelta deve quindi tenere in considerazione:
– Pixel vs. Coordinate
– Accurate Scaling
– Client Side vs. Server Side Rendering
Raster vs. Vector
22
▪ Scommettiamo che avete tutti almeno una volta fatto
un’analisi spaziale su un’«immagine» raster?
▪ «Campo minato» è un perfetto esempio di una
classica «Neighborhood Analysis» su 3x3 celle
– Ogni numero (valore della cella) indica il numero
di bombe presenti nelle celle adiacenti
Spatial Analysis: Raster Analysis
23
Spatial Analysis: Vector Analysis
Areas
Sites
Rivers
Ro
ads
Source: Pro Oracle Spatial for Oracle Database 11g (Apress)
24
Architettura: BRIDGE vs. GEO DWH
BI FRONT END GIS FRONT END
BI SERVER GIS SERVERBRIDGE
DWH GIS DB
BI FRONT END
BI SERVERS
DWH
SPATIAL DATA
GIS DB
GEO DWH
CONTRO▪ Impossibilità di query «miste»▪ Basse performance e elevato scambio dati▪ No singolo punto di verità del dato
PROS▪ Possibilità di query «miste»▪ Ottime performance anche per elevate moli
di dati▪ Visione del dato integrata
25
Architettura
Standard report Maps report(Geo Server)
TSM_ID TSM_DES TME_ID
TME_DES
IMDM_ID
IMDM_DES
ROUTE_ID
ROUTE_DES
TSM_GEO TME_GEO IMDM_GEO
ROUTE_GEO
1 Colchester 11 Colchester
111 Ipswich 1111 Anglia SDO_GEOM(…)
SDO_GEOM(…)
SDO_GEOM(…)
SDO_GEOM(…)
2 Norwich 21 Norwich 111 Ipswich 1111 Anglia SDO_GEOM(…)
SDO_GEOM(…)
SDO_GEOM(…)
SDO_GEOM(…)
3 Barking 31 Barking 222 Romford 1111 Anglia SDO_GEOM(…)
SDO_GEOM(…)
SDO_GEOM(…)
SDO_GEOM(…)
4 Romford 31 Romford 222 Romford 1111 Anglia SDO_GEOM(…)
SDO_GEOM(…)
SDO_GEOM(…)
SDO_GEOM(…)
GEOGRAPHIC DIMENSION
Geographic Identifiers and Descriptions
Geographic shapes
GEO
-DA
TA W
AR
EHO
USE
(tip
ico
Sta
r Sc
he
ma)
COSTDIMENSION
SPEEDDIMENSION
COST FACTTABLE
TRACK GEOMETRYFACT TABLE
TIMEDIMENSION
26
▪ Integrazione in un unico sistema degli aspetti vincenti della Business Intelligence (dati aziendali), dei Sistemi
Informativi Territoriali (GIS) e di dati esterni, orientati allo sviluppo di strategie di marketing avanzate e analisi
del potenziale sul territorio, basate su valutazioni accurate e puntuali
▪ Strumenti analitici e predittivi a supporto delle decisioni
▪ Migliore comprensione di fenomeni complessi sfruttando:
– Dati con componente spaziale (Clienti, Punti di Vendita, Magazzini)
– Tecniche per «aumentare» l’informazione geografica (Routing, Geocoding)
Location Intelligence: vantaggi
27
▪ Molti fenomeni e trend dei dati possono essere osservati e interpretati in modo adeguato solo se sono rappresentati
su una mappa (ad esempio, la distribuzione spaziale e l'evoluzione spazio-temporale di un fenomeno).
Location Intelligence: vantaggi
28
Domini di applicazione
29
▪ Applicazione degli stessi concetti della Location Intelligence all’analisi di interni
▪ Valutazione delle performance di diverse aree all’interno di un punto vendita
Solution: Indoor Analysis
LOCATION INTELLIGENCEcase study: riorganizzazione strutture sanitarieanalisi descrittiva e predittiva
31
Case Study: riorganizzazione strutture sanitarie
LOCATION INTELLIGENCEcase study: riorganizzazione strutture sanitarieanalisi prescrittiva
33
34
35
36
37
DATA SCIENCE
39
▪ Analysis
– segmentazione dei dati in parti facilmente analizzabili individualmentere
– analisi sulle relazioni che legano i segmenti individuate
▪ Analytics
– applicazione di ragionamenti logici e computazionali ai componenti ottenuti nell’analysis
– ricerca di pattern e tentativi di forcasting
Analysis vs Analytics
40
Cosa fa un Data Scientist?
Analisi qualitativa del business
Studio deibusiness case
Reportistica classica (tabellare)
Rappresentazioni grafiche
Dashboards
Passato Presente Futuro
Previsioni sui dati
Data Analytics
Business Analytics
Fonte: https://www.kdnuggets.com
41
Cosa fa un Data Scientist?
Analisi qualitativa del business
Studio deibusiness case
Passato Presente Futuro
Previsioni sui dati
Data Analytics
Business Analytics
Business Intelligence
Fonte: https://www.kdnuggets.com
Reportistica classica (tabellare)
Rappresentazioni grafiche
Dashboards
42
Cosa fa un Data Scientist?
Analisi qualitativa del business
Studio deibusiness case
Passato Presente Futuro
Previsioni sui dati
Data Analytics
Business Analytics
Business Intelligence
Data Science
Fonte: https://www.kdnuggets.com
Reportistica classica (tabellare)
Rappresentazioni grafiche
Dashboards
43
Cosa fa un Data Scientist?
Analisi qualitativa del business
Studio deibusiness case
Passato Presente Futuro
Previsioni sui dati
Data Analytics
Business Analytics
Business Intelligence
Data Science
Machine Learning
Fonte: https://www.kdnuggets.com
Reportistica classica (tabellare)
Rappresentazioni grafiche
Dashboards
44
Cosa fa un Data Scientist?
Analisi qualitativa del business
Studio deibusiness case
Passato Presente Futuro
Previsioni sui dati
Data Analytics
Business Analytics
Business Intelligence
Data Science
Machine Learning
Advanced Analytics
Fonte: https://www.kdnuggets.com
Reportistica classica (tabellare)
Rappresentazioni grafiche
Dashboards
45
Cosa fa un Data Scientist?
Fonte: Forbes
46
Top 10 Data Scientists Skills (secondo LinkedIn)
Skill % offerte di lavoro che la richiedono
SQL 56%
Hadoop 49%
Python 39%
Java 36%
R 32%
Hive 31%
Mapreduce 22%
NoSQL 18%
Pig 16%
SAS 16%
47
▪ RapidMiner
– Inizialmente open-source, ora a proprietario e a pagamento (possibilità di trial gratuito per 14 giorni)
– Flow-based design: algoritmi costruibili come diagrammi a blocchi
– Sito Ufficiale
Interesting Tools (no coding required)
48
▪ Azure ML Studio (Microsoft)
– Servizio cloud che consente di creare, distribuire e condividere facilmente soluzioni di analisi predittiva.
– Sito Ufficiale
Interesting Tools (no coding required)
49
▪ Watson Studio (IBM)
– Piattaforma che dà la possibilità di integrare linguaggi opensource (R, Python, Scala, Sparq, Tensorflow…)
con altre componenti (ad es. SPSS Modeler).
– Permette di definire modelli e poi esporli tramite API ad altre applicazioni.
– Mette a disposizione microservizi che rispondono per determinati business-need (es. chatbot)
– Cloud IBM: con utenza free si può approcciare la tecnologia utilizzandone una versione lite
– Sito Ufficiale
Interesting Tools (no coding required)
50
Data Engineer
Data Engineer vs Data Scientist
Icons design by: https://www.freepik.com/
Data Scientist
▪ Modella i dati per rispondere a
business need specifici.
Struttura i dati a seconda dei
modelli di analisi predittiva a
prescrittiva che intente
implementare.
▪ Tra i suoi compiti spesso c’è
quello di esplorare ed
esaminare dati alla ricerca di
pattern nascosti.
▪ Costruisce, programma, testa e
mantiene architetture quali
database e sistemi
computazionali su larga scala.
▪ Ha a che fare con la
riorganizzazione e
strutturazione di dati grezzi.
▪ Il suo compito consiste
nell’assicurare data reliability,
efficiency e quality.
Fonte: DataCamp
51
Padronanza del business
Padronanza dei dati
Abilità di pulizia e manipolazione dei dati
Modellazione statistica e machine learning
Reporting e data visualization
Fonte: DataCamp
Data Engineer vs Data Scientist
Icons design by: https://www.freepik.com/
52
Data science project lifecycle
Identificazione del problema
Identificazione dati disponibili
Ricerca dati non disponibili
Analisi statisticaImplementazione
dei modelli
Comunicazione dei risultati
Manutenzione
1
2
3
45
6
7
53
Il Consorzio della Bonifica Renana è un ente di diritto pubblico che
riunisce tutti i proprietari di terreni e fabbricati che si trovano all'interno
del suo comprensorio, situato nel bacino del fiume Reno.
La sua funzione principale è garantire, attraverso il proprio reticolo
idrografico artificiale, il corretto deflusso delle acque piovane
provenienti dalle aree agricole ed urbane. Questa attività protegge il
territorio dai rischi di allagamento e alluvione, sempre più elevati a causa
della crescente urbanizzazione.
Il consorzio è interessato a prevedere possibili situazioni di piena
dei fiumi, in modo da intervenire tempestivamente sul flusso delle
acque nei canali di sua competenza.
Water Level Forecasting: Consorzio della Bonifica Renana
Identificazione problema
1
54
Identificazione dati disponibili
2
Water Level Forecasting: Consorzio della Bonifica Renana
55
Spesso nei progetti di Data Science non si hanno a disposizione tutti i dati necessari per costruire un modello
accurato. In questi casi è necessario ricercarli da fonti esterne.
Problematiche:
▪ tipo di fonte (affidabilità, disponibilità)
▪ formato (granularità)
▪ tempistiche di ristrutturazione e pulizia del dato
Questo non è il caso di Bonifica Renana: grazie alla fitta rete di sensori, la fine granularità delle rilevazioni e alla
numerosità degli anni disponibili verosimilmente riusciremo a modellare il comportamento delle acque del fiume
Reno.
Possibile evolutiva: inserimento dati meteo.
Water Level Forecasting: Consorzio della Bonifica Renana
Ricerca dati non disponibili
3
56
Outliers
Valori anomali nelle osservazioni:
▪ forecasting derivanti da campioni contenenti outlier possono essere fuorvianti
▪ Necessaria la loro eliminazione
Cross Correlation Analysis
Tramite semplici metodi statistici (es. matrice di correlazione) è possibile determinare relazioni presenti tra varie componenti dei
dati storici. In base a tali relazioni è possibile orientare la scelta del modello statistico da utilizzare per il forecasting ma anche
valutare i risultati prodotti dal modello scelto.
Imputation
L’imputazione è una risposta al problema dei dati mancanti. Ci sono vari metodi di imputazione, nel nostro caso visto che i sensori
hanno frequenze di rilevazione diverse è stato scelto di considerare le rilevazioni medie al quarto d’ora per ogni sensore.
In caso di quarti d’ora senza rilevazioni, inputeremo usando l’interpolazione lineare i valori mancanti.
Water Level Forecasting: Consorzio della Bonifica Renana
Analisi statistica
4
57
Quale modello?
Reti Neurali:
- CNN
- RNN: LSTM
Quali tecnologie?
Python: Pandas, Tensorflow, Keras
Water Level Forecasting: Consorzio della Bonifica Renana
Implementazione dei modelli
5
58
Approfondimento: Reti Neurali
Matematicamente una rete neurale può essere vista come una funzione
f : X → Y ,
definita come composizione di altre funzioni gi(x), le quali possono essere ulteriormente decomposte.
Una composizione comunemente usata è la nonlinear weighted sum:
f(x) = K ( ∑iwigi(x))
dove K è una funzione fissata, solitamente chiamata funzione di attivazione.
Le reti neurali artificiali (Artificial Neural Network – ANN) si compongono di nodi o neuroni posizionati in livelli: ogni livello riceve l’input dal precedente e manda l’output al successivo, formando così reti più o meno profonde. Da qui il termine Deep Learning.
59
Approfondimento: Reti Neurali
I nodi sono organizzati in livelli, ciascun livello può differire dal precedente in termine di numero di nodi.
Ogni livello è costruito a partire dagli output del livello precedente applicando su di essi i pesi e la funzione di attivazione K.
La dimensione dell’output della rete corrisponderà alla dimensione dell’output dell’ultimo livello.
Input layer
Hidden layers
Output layer
60
Approfondimento: Reti Neurali - CNN
Le Convolutional Neural Network (CNN) si compongono di un livello di input, uno di output e uno o più hidden layer. Gli hidden layer non necessariamente sono tutti completamente connessi.
Questo tipo di rete si è dimostrato di particolare efficacia nel riconoscimento e nella classificazione di immagini.
Il nostro scopo è utilizzare questo tipo di rete per predire il livello del fiume con dettaglio del singolo sensore, nel singolo quarto d’ora.
Input layerRilevazioni nei 3 giorni precedenti
Hidden layers
Output layerLivello dell’acqua previsto per il sensore X nel quarto d’ora Y
61
Approfondimento: Reti Neurali - RNN
Le Recurrent Neural Network (RNN) sono reti caratterizzati dalla presenza di uno «stato interno» al neurone, cioè una «memoria» che può essere utilizzata durante l’elaborazione dell’output.
Questo tipo di rete si è dimostrato particolarmente efficace nella previsione di sequenze.
Le reti LSTM sono un tipo particolare di RNN caratterizzato da uno stato interno composto da vari gate. Questa particolare struttura ha permesso alle LSTM di eccellere in forecasting che hanno alla base serie storiche.
Stato interno
Basic RNN
h
LSTM Unit
62
Una delle skill essenziali per un buon Data Scientist è la capacità di comunicazione.
L’obiettivo è presentare al business i risultati ottenuti in modo consono al business need specifico.
▪ Dashboard
▪ Alert
▪ Data Interpretation (evitare Black Box)
Una buona solution deve:
▪ Affidabile
▪ Scalabile (es. installazione nuovo sensore)
▪ Riutilizzabile (preferibilmente ma non sempre possibile).
Water Level Forecasting: Consorzio della Bonifica Renana
Comunicazione dei risultati
6
Manutenzione
7
Grazie per l’attenzione!
Leonardo Bruni
Business Analytics Team Leader
Sara Brolli
Business Analytics Specialist