26
RETI COMPLESSE PER L’ANALISI DI DATI ECONOMICI E BIOMEDICI Roberto Bellotti Dipartimento Interateneo di Fisica “M. Merlin” Università degli Studi di Bari Aldo Moro & Politecnico di Bari Istituto Nazionale di Fisica Nucleare 14 Novembre 2016

R. Bellotti, Reti complesse per l'analisi di dati economici e biomedici

Embed Size (px)

Citation preview

RETI COMPLESSE PER L’ANALISI DI DATI ECONOMICI E BIOMEDICI

Roberto Bellotti

Dipartimento Interateneo di Fisica “M. Merlin”Università degli Studi di Bari Aldo Moro & Politecnico di Bari

Istituto Nazionale di Fisica Nucleare

14 Novembre 2016

Indice

Cosa sono i Big Data?Numeri ed Esempi Le 3 VDefinizioni

Popolazione vs DispositiviChi produce e raccoglie i Big Data?Cosa sono le Reti ComplesseCasi di StudioApplicazioni ai Dati EconomiciNeuroscienze ComputazionaliGlobal Pulse e Sviluppo Sostenibile

Big Data: serve il ferro!Conclusioni

2

1 bit = 0/1 Una lettera = 1 byte.

Un libro = una foto di buona qualità = circa 1 Megabyte.

1 Gibabyte = 1.000 libri

1 Terabyte = 1.000.000 di libri

Facebook:500 Terabyte di dati al giorno, fanno parte di questi Terabyte circa 3 miliardi di “like” e 300 milioni di foto.Stima dei dati posseduti da FB: 100.000 Terabyte.

Google e Amazon oltre un milione di Terabyte. 3

Numeri ed Esempi

Walmart registra più di 1 milione di“operazioni” all’ora!

4

Generatori di Big Data

Un Boeing 737 genera, in un viaggio attraverso gli Stati Uniti circa 240 Terabytes di dati.

Il 90% dei dati registrati oggigiorno sono stati “generati” negliultimi due anni.

Cosa sono i Big Data?

Le tre V:

Volume Varietà Velocità

Glossario Gartner:“Big data is high-Volume, high-Velocity and/or high-Variety information assetsthat demand cost-effective, innovative forms of information processing thatenable enhanced insight, decision making, and process automation”.

Big Data: Introdotto nel 2013 nell’Oxford English Dictionary Introdotto nel 2014 Merriam-Webster’s Collegiate

5

Definizioni

Big Data is the result of collecting information at its most granular level — it’swhat you get when you instrument a system and keep all of the data thatyour instrumentation is able to gather.

Big data, which started as a technological innovation in distributedcomputing, is now a cultural movement by which we continue to discoverhow humanity interacts with the world — and each other — at large-scale.

Big data is when your business wants to use data to solve a problem, answera question, produce a product, etc

Historically, most decisions — political, military, business, and personal —have been made by brains [that] have unpredictable logic and operate on subjective experiential evidence. “Big data” represents a cultural shift in which more and more decisions are made by algorithms with transparentlogic, operating on documented immutable evidence. I think “big” refersmore to the pervasive nature of this change than to any particular amount of data.

[datascience.berkeley.edu/what-is-big-data/] 6

Popolazione vs Dispositivi

7

Il McKinsey Global Institute estimates stima una crescitadel volume dei datiprodotti pari al 40% per anno e con un fattoremoltiplicativo di 44 nel periodo 2009-2020.

Quanti dispositivi “connessi” possiede ognuno di voi?

Terremoto e Colera ad Haiti nel 2010

Dopo il terremoto del gennaio 2010, ricercatori della Columbia University hanno ricostruito il flusso di due milioni di rifugiati attraverso il “movimento” delle SIM dei telefoni cellulari. La tecnica si è rivelato precisa ed utile per mitigare i rischi sanitari (ottobre 2010, colera).

9[L. Bengtsson et al.(2011) Improved Response to Disasters and Outbreaks by Tracking Population Movements with Mobile Phone Network Data: A Post-Earthquake Geospatial Study in Haiti. PLoS Med 8(8)

I ricercatori hanno analizzato i dati di circa 2 milioni di SIM ad Haiti, da 42 giorni primadel terremoto sino a 158 giorni dopo.

Durante l’epidemia di Colera sono state tracciate 140.000 SIM durante i primi 8 giorni subito dopo lo scoppio dell’epidemia in modo da tracciare i flussi e i movimenti della popolazione.

La precisione è funzione della diffusione delle antenne di ricezione ( 1–100 km2)

10

RETI COMPLESSE PER L’ECONOMIA

Dati, Progetti e Relazioni: il caso PON 2007 – 2013

Reti Complesse

Molti sistemi fisici, biologici e sociali sono strutturati come Reti Complesse e le loroproprietà sono in moliti casi abbastanza ben comprese.

Le Reti Complesse sono un insieme di nodi, collegati da links

Ad esempio, lo Stato A è collegato allo Stato B se A importa prodotti da B

A

B

Esempi

12

• Reti dei trasporti

• Sistema climatico

• Reti di distribuzione

dell’energia

• Cervello

• Sistema economico

• Reti sociali

• …

Reti Complesse

13

Cosa possiamo imparare dalla analisi delle Reti Complesse?

Le dieci stazioni più “attraversate” della metropolitana londinese, seguendo i “minimi percorsi”.

Utilizzate per conoscere le persone piùinfluenti nelle reti sociali.

Studio del profilo degli elettori e previsionidei risultati delle elezioni politiche

Studio del profilo dei consumatori e del modo in cui le informazioni sui nuoviprodotti ed eventi si diffondono.

14

Italian Program for the Convergence objective regions (less developed

regions in Southern Italy)

(Program: National Operative Program (PON) for Project in research &

development)

Goal: Evaluate the impact of public funding at regional level

Total cost of the PON Projects 2500 Million of Euros

About 300 Different R&D Projects 769 distinct partners

• Available information: Calls and funding measures, projects, proponents and

participants, funding, geographical information, etc.

• Data format: open data (xls, XLM, CSV)

• Source: : http://www.dati.puglia.it, http://opencoesione.gov.it

The Italian Public Funding Program (2007-2013)

8%#

12%#

12%#

16%#12%#

7%#

21%#

12%#

Smart#Ci/ es#

Cultural#Heritage#&#Ac/ vi/ es#

Transporta/ on#&#Logis/ c#

Environment##

Energy#

Nutri/ on#

Healthcare#

N.C.#

28%#

7%#

2%#13%#12%#

19%#

13%#

6%#Large#Enterprise#

noFPublic#Research#Ins/ tute#

N.C.#

Small#Enterprise#

Public#Research#Ins/ tute#

University#

Micro#Enterprise#

Medium#Enterprise#

(a)# (b)#

Analysis Workflow

15

Structured data

Data analysis

Results

Model

16

2007-2013 Italian Public Funding Program:from dataset to data models.

769 Nodes Enterprises, Universities, research institutions.4868 Links Participation in the same project.

Projects 10104 entries with 52 attributes describing project information about program references, activities, textual description of project scope and objectives, detail about partners and so on.Locations 11390 entries with 8 attributes describing details about geographical localization of project partners.Budgets 5670 entries with 13 attributes describing details about amount and state of project funding.

17

We found 15 main Communities

• provides a deep understanding of how the fund allocation criteria are able to influence the economic development of a Region;

• discovering the existence of groups within a certain network of relationships;

• highlighting such groups can be very important for the analysis of a productive system;

• The PON R&D network shows strongly heterogeneous communities, with hugely populated groups and very small ones.

• when communities grow in size, they tend to include important nodes. For example, the largest community includes the National Research Council (CNR, next slide)

The community structure of the (giant component of the) PON R&D network. 15 communities are highlighted, found with the Newman-Girvan algorithm.

Result #1: community detection

18

Result #2: it is a network with Hubs

Scale free network

• Inhomogeneous degree distribution, with many nodes having more connections than the average (hubs)

• Resistance to “random failures”, indeed the removal of a random node would not systematically affect the main hubs

• Policymakers are interested in generating a solid network of relationships between productive actors on the territory

Result #3: who are the hubs?

19

Centrality of nodes identifies the most important nodes within a network

• Dominant role of public research• Universities and research centers

play the role of the “glue” i.e. they are responsible of the connectedness of the network

• Ex-post indicator. The fifteen largest values of each vertex centrality for the (giant component of the) PON R&D network. The highest positions are occupied by public research institutions.

Strong indication that the network of fundedproject gravitates around large poles involvingresearch centers

20

• Low tendency to form “groups of interest" or “lobbies” among important actors.

• Hubs are strongly connected to smaller and less connected enterprises/institutions.

• It is an interesting result, since most social networks show assortative behavior.

• Anti-assortative networks are more sensitive to the removal of high-degree nodes,

which is an indication for the policymaker of the importance that public research

has in the productive system.

Result #4: the network is anti-assortative

Public Research Institute

Large Enterprise

Small-Medium Enterprise

21

Analisi di immagini cerebrali per la caratterizzazione precoce di malattie neurodegenerative

Questi studi hanno messo in evidenza alterazioni delle proprietà topologiche locali e globali della rete cerebralenei pazienti affetti da Alzheimer.

In che misura le Reti Complesse riescono rivelare e descrivere alterazioni

strutturali in immagini MRI?

Le alterazioni trovate possono essere indicatori di una malattia

neurodegenerativa come l’Alzheimer?

Possono coinvolgere regioni anatomiche tipicamente connesse alla malattia

di Alzheimer?

22

Nel 2015 UN ha definito e congelato i 17

Sustainable Development Goals (SDG) da

traguardare entro il 2030.

Il monitoraggio e l’analisi dei dati prodotti dagli

Stati membri per l’implementazione degli SDG

così come lo sviluppo di nuove tecnologie

connesse a tali obiettivi costituisce

un’eccezionale terreno di “sperimentazione”

dei Big Data e delle Reti Complesse.

unglobalpulse.org

[www.unglobalpulse.org/blog/big-data-development-action-global-pulse-project-series]

Global Pulse è un Laboratorio delle Nazioni Unite dedicato ai Big Data finalizzato

a generare una comprensione ed un miglioramento del benessere umano.

La visione sottesa è che i Big Data devono essere sfruttati come Bene Pubblico

23

The Sustainable Development Goals Proposal

Three main pillars of sustainable development

24

Costo Complessivo del

Progetto: 13.7 milioni di euro

Durata del Progetto: ottobre

2011 – dicembre 2015

ReCaS: 4 Data Center nelle sedi di:Bari, Catania, Cosenza e Napoli

9 luglio 2015

Il Data Center ReCaS @ Bari

Il vento da ILVA verso il quartiere Tamburi (ARPA Puglia)

CONVENZIONE (2014 - 2017)

Area Portuale

ENI

CEMENTIR

Obiettivo primario: Identificazione con 72

ore di anticipo dei wind days (giorni con

condizione meteo favorevoli ad accumulo di

inquinanti - area di Taranto) ai sensi del

D.G.R. 1774 del Luglio 2012.

Con 64 processori la simulazione delle

condizioni fisiche necessarie all’identificazione

del wind day con 72 ore di anticipo richiede 4

ore di elaborazione. Si memorizzano circa 9

Terabyte all’anno.

Sfruttare la potenza di calcolo e di storage per

l’implementazione di complessi modelli di

fisica dell’atmosfera in modalità di calcolo

parallelo.

Gli output sono grandi volumi di dati

georeferenziati (serie spazio - temporali)

complessa analisi finalizzata all’individuazione

del miglior setup dei modelli in una determinata

area.

.

26

Conclusioni I Big Data non sono il futuro ma il presente (o forse il passato).

Prodotti & Servizi sono ormai “erogati” in stretta connessione con i “dati” che ne permettono la successiva analisi: nessun contesto applicativo ne è escluso.

Le Reti Complesse emergono come “tecnologia privilegiata” per la studio dei Big Data, per loro natura altamente interconnessi e correlati.

Molte sono le opportunità offerte dai Big Data, anche rispetto ai SDGs. Il Segretario Generale delle Nazioni Unite ha costituito nell’agosto 2014 un

Independent Expert Advisory Group per fornire raccomandazioni concrete sulla “data revolution” rispetto allo Sviluppo Sostenibile.

L’ecosistema nazionale - Imprese, Università, Enti Pubblici di Ricerca, Distretti, PA -esprimono le competenze e l’organizzazione necessarie per partecipare con successoalla “data revolution”?

Grazie per l’[email protected]

3386564596