Big Data e Open Data: Istruzioni (o quasi) per l’Uso
Monica ScannapiecoDirezione delle Tecnologie Informatiche e della Comunicazione - Istat
Shared Data: Big+Open+Linked+…
OpenDataMore
Sources
LinkedDataMore
Context
Social DataMore
Relationships
Shared DataMore
Stakeholders
Source: Gartner
Big DataMore Data
Monica Scannapieco, Smart City Exhibition, 17/10/2013
� Data exhaust
� Behaviour data & Crowd-sourced data
� Sensor data
Tipologie di Sorgenti Big - 1
Data Exhaust
� Dati transazionali raccolti in modo passivo
� Relativi a transazioni di soggetti fisici ma generati in modopassivo (ossia non direttamente generati da soggetti fisici)
� Esempi :
� Log telefonici� Log di transazioni
commerciali� Log di ricerche web� Record ospedalieri� Transazioni bancarie o assicurative
Tipologie di Sorgenti Big - 2
Behaviour data & Crowd-sourced data
� Interazioni con news media e social media, job posting
� Sono i soggetti fisici a produrre attivamente dati relativi alleproprie intenzioni, sensazioni o esigenze (anche tramitedispositivi mobili)
� Esempi :
� Posts su blog� Messaggi su Twitter� User generated maps
Tipologie di Sorgenti Big - 3
Sensor data
� Dati relativi a emissioni di luce, parametri ambientali, traffico, etc.
� Dispositivi fisici rilevano in modo remoto (remote sensing)proprietà di oggetti fisici
� Esempi :
� Valori relativi all’inquinamento� Numero di veicoli in transito
Tipologie di Sorgenti Big - 4
Disponibilità dei dati
� Exhaust data: Google Trends� http://www.google.com/trends/
� Alert:� Indice relativo� Problema semantico
Monica Scannapieco, Smart City Exhibition, 17/10/2013
Qualità
� Behaviour data: Analisi su social media (Twitter) olandesihanno mostrato che circa il 50% dei messaggi sono‘pointless babble’
[Daas et al., 2012] Twitter as a potential data source for statistics. The Hague/Heerlen: StatisticNetherlands. Available at: URL=http://www.cbs.nl/NR/rdonlyres/04B7DD23-5443-4F98-B466-1C67AAA19527/0/201221x10pub.pd
� Data Exhaust: Assessment della qualità del Deep Webnei domini “Azioni” e “Voli”
� Costruzione di Gold Standard� 70% valori inconsistenti tre le fonti� 70% valori inaccurati wrt gold standard[Li et al. 2013] Xian Li,Xin Luna Dong,K.B. Lyons,W., D. Srivastava, Truth Finding on the DeepWeb: Is the Problem Solved?, PVLDB 2013
Monica Scannapieco, Smart City Exhibition, 17/10/2013
Ma...anche molte opportunità
Monica Scannapieco, Smart City Exhibition, 17/10/2013
OPEN LICENSE
REUSABLE
OPEN FORMAT
Resource DescriptionFramework
LinkedOpenData
Come sotto ma collegamenti
tra i dati pubblicati in RDF
Come sotto ma uso di standard del W3C
(RDF e SPARQL)
Come (2) ma con formato non
proprietario (e.g. CSV invece di
excel)
Disponibile in formato
machine-readable
E gli Open Data? 5 Star Model (Tim Berners-Lee)
Disponibili sul Web
(in qualunque
formato) ma con
una licenza open
Monica Scannapieco, Smart City Exhibition, 17/10/2013
Open Data in Istat – attuale
� Produzione statistica dell’Istat disponibile come open data
� I.stat: Web warehouse dei dati prodotti dall’Istat nelle varie aree tematiche=> http://dati.istat.it/
� Formati di esportazione: � CSV� SDMX (Statistical Data and Metadata eXchange)
OPEN LICENSEOPEN LICENSE
REUSABLEREUSABLE
OPEN FORMATOPEN FORMAT
RDFRDF
LODLOD
Monica Scannapieco, Smart City Exhibition, 17/10/2013
Open Data in Istat – futuro
� Progetti in corso e futuri:� Potenziamento del SEP
attraverso un canale di uscita RDF
� Pubblicazione in RDF delle classificazioni ufficiali
� Use case della pubblicazione in RDF di dati del Censimento della Popolazione
� Open Data Lab: test, pilot
OPEN LICENSEOPEN LICENSE
REUSABLEREUSABLE
OPEN FORMATOPEN FORMAT
RDFRDF
LODLOD
Monica Scannapieco, Smart City Exhibition, 17/10/2013
Affidabilità� Definizione operativa
di provenance:“Provenance of a resource is a record that describes entities
and processes involved in producing and delivering or otherwise influencing that
resource”(W3C Working group on
provenance) http://www.w3.org/2011/prov/wiki/Main_Page
Monica Scannapieco, Smart City Exhibition, 17/10/2013
� “Provenance is the number one issue that we face when publishing government data in data.gov.uk” John Sheridan, UK National Archives,
data.gov.uk
Conclusioni
� Big Data: Tanta informazione potenziale ma necessità di filtrare, «metadatare», gestire…
� Open Data: Iniziative come i LOD strutturano i dati e semplificano gestione e accesso, ma stadio ancora iniziale
Domanda: Devono gli operatori della conoscenza considerare gli shared data come nuova fonte informativa?Risposta: Ovviamente si, ma con un vero «manuale di istruzioni per l’uso» ☺!
Monica Scannapieco, Smart City Exhibition, 17/10/2013