14
Big Data e Open Data: Istruzioni (o quasi) per l’Uso Monica Scannapieco Direzione delle Tecnologie Informatiche e della Comunicazione - Istat

M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso

Embed Size (px)

Citation preview

Page 1: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Big Data e Open Data: Istruzioni (o quasi) per l’Uso

Monica ScannapiecoDirezione delle Tecnologie Informatiche e della Comunicazione - Istat

Page 2: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Shared Data: Big+Open+Linked+…

OpenDataMore

Sources

LinkedDataMore

Context

Social DataMore

Relationships

Shared DataMore

Stakeholders

Source: Gartner

Big DataMore Data

Monica Scannapieco, Smart City Exhibition, 17/10/2013

Page 3: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

� Data exhaust

� Behaviour data & Crowd-sourced data

� Sensor data

Tipologie di Sorgenti Big - 1

Page 4: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Data Exhaust

� Dati transazionali raccolti in modo passivo

� Relativi a transazioni di soggetti fisici ma generati in modopassivo (ossia non direttamente generati da soggetti fisici)

� Esempi :

� Log telefonici� Log di transazioni

commerciali� Log di ricerche web� Record ospedalieri� Transazioni bancarie o assicurative

Tipologie di Sorgenti Big - 2

Page 5: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Behaviour data & Crowd-sourced data

� Interazioni con news media e social media, job posting

� Sono i soggetti fisici a produrre attivamente dati relativi alleproprie intenzioni, sensazioni o esigenze (anche tramitedispositivi mobili)

� Esempi :

� Posts su blog� Messaggi su Twitter� User generated maps

Tipologie di Sorgenti Big - 3

Page 6: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Sensor data

� Dati relativi a emissioni di luce, parametri ambientali, traffico, etc.

� Dispositivi fisici rilevano in modo remoto (remote sensing)proprietà di oggetti fisici

� Esempi :

� Valori relativi all’inquinamento� Numero di veicoli in transito

Tipologie di Sorgenti Big - 4

Page 7: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Disponibilità dei dati

� Exhaust data: Google Trends� http://www.google.com/trends/

� Alert:� Indice relativo� Problema semantico

Monica Scannapieco, Smart City Exhibition, 17/10/2013

Page 8: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Qualità

� Behaviour data: Analisi su social media (Twitter) olandesihanno mostrato che circa il 50% dei messaggi sono‘pointless babble’

[Daas et al., 2012] Twitter as a potential data source for statistics. The Hague/Heerlen: StatisticNetherlands. Available at: URL=http://www.cbs.nl/NR/rdonlyres/04B7DD23-5443-4F98-B466-1C67AAA19527/0/201221x10pub.pd

� Data Exhaust: Assessment della qualità del Deep Webnei domini “Azioni” e “Voli”

� Costruzione di Gold Standard� 70% valori inconsistenti tre le fonti� 70% valori inaccurati wrt gold standard[Li et al. 2013] Xian Li,Xin Luna Dong,K.B. Lyons,W., D. Srivastava, Truth Finding on the DeepWeb: Is the Problem Solved?, PVLDB 2013

Monica Scannapieco, Smart City Exhibition, 17/10/2013

Page 9: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Ma...anche molte opportunità

Monica Scannapieco, Smart City Exhibition, 17/10/2013

Page 10: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

OPEN LICENSE

REUSABLE

OPEN FORMAT

Resource DescriptionFramework

LinkedOpenData

Come sotto ma collegamenti

tra i dati pubblicati in RDF

Come sotto ma uso di standard del W3C

(RDF e SPARQL)

Come (2) ma con formato non

proprietario (e.g. CSV invece di

excel)

Disponibile in formato

machine-readable

E gli Open Data? 5 Star Model (Tim Berners-Lee)

Disponibili sul Web

(in qualunque

formato) ma con

una licenza open

Monica Scannapieco, Smart City Exhibition, 17/10/2013

Page 11: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Open Data in Istat – attuale

� Produzione statistica dell’Istat disponibile come open data

� I.stat: Web warehouse dei dati prodotti dall’Istat nelle varie aree tematiche=> http://dati.istat.it/

� Formati di esportazione: � CSV� SDMX (Statistical Data and Metadata eXchange)

OPEN LICENSEOPEN LICENSE

REUSABLEREUSABLE

OPEN FORMATOPEN FORMAT

RDFRDF

LODLOD

Monica Scannapieco, Smart City Exhibition, 17/10/2013

Page 12: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Open Data in Istat – futuro

� Progetti in corso e futuri:� Potenziamento del SEP

attraverso un canale di uscita RDF

� Pubblicazione in RDF delle classificazioni ufficiali

� Use case della pubblicazione in RDF di dati del Censimento della Popolazione

� Open Data Lab: test, pilot

OPEN LICENSEOPEN LICENSE

REUSABLEREUSABLE

OPEN FORMATOPEN FORMAT

RDFRDF

LODLOD

Monica Scannapieco, Smart City Exhibition, 17/10/2013

Page 13: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Affidabilità� Definizione operativa

di provenance:“Provenance of a resource is a record that describes entities

and processes involved in producing and delivering or otherwise influencing that

resource”(W3C Working group on

provenance) http://www.w3.org/2011/prov/wiki/Main_Page

Monica Scannapieco, Smart City Exhibition, 17/10/2013

� “Provenance is the number one issue that we face when publishing government data in data.gov.uk” John Sheridan, UK National Archives,

data.gov.uk

Page 14: M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso

Conclusioni

� Big Data: Tanta informazione potenziale ma necessità di filtrare, «metadatare», gestire…

� Open Data: Iniziative come i LOD strutturano i dati e semplificano gestione e accesso, ma stadio ancora iniziale

Domanda: Devono gli operatori della conoscenza considerare gli shared data come nuova fonte informativa?Risposta: Ovviamente si, ma con un vero «manuale di istruzioni per l’uso» ☺!

Monica Scannapieco, Smart City Exhibition, 17/10/2013