54
WEB MINING E ANALISI DI RETI SOCIALI Relazione Finale Prof. Dino Pedreschi Dott. Giulio Rossetti Dott. Luca Pappalardo Irene Chiarolanza (matricola 500124); Maria Rosaria Cutrullà (matricola 407924); Mariagiovanna Scarale (matricola 423062); a.a. 2012/2013

Web Mining e analisi di reti sociali

Embed Size (px)

Citation preview

WEB MINING E ANALISI DI RETI SOCIALI

Relazione Finale

Prof. Dino Pedreschi

Dott. Giulio Rossetti

Dott. Luca Pappalardo

Irene Chiarolanza (matricola 500124);

Maria Rosaria Cutrullà (matricola 407924);

Mariagiovanna Scarale (matricola 423062);

a.a. 2012/2013

2

INDICE

1. Introduzione p. 3;

2. Network Analysis p. 5;

3. Tie Strength I e II p. 24;

4. Link Prediction I e II p. 30;

5. Trust I e II p. 36;

6. Multidimentional Network Analysis p. 46;

7. Conclusioni p. 52;

8. Riferimenti bibliografici p. 54.

3

INTRODUZIONE

Lo studio affrontato è stato svolto sulla base di approfondite analisi effettuate sui dati

raccolti dalla classe di Web Mining dell’anno accademico 2012-2013 per otto settimane.

I dati raccolti forniscono le interazioni tra gli studenti della classe nella vita reale, in

Facebook, in Google Plus e in Twitter. Il dataset utilizzato è stato creato in questo

modo: ID_utente1, ID_utente2, ID_network, ID_week, Strength, Trust. I primi

due attributi corrispondono agli identificativi resi anonimi, dello studente che registra

l’interazione e dello studente su cui si realizza l’interazione. L’ID_network e

l’ID_week rappresentano il tipo di network analizzato e la settimana di riferimento,

Strength indica la forza di ogni relazione (con valore compreso tra 1 e 5) e Trust è la

fiducia assegnata ad ogni relazione (con valore compreso tra 1 e 5).

Alla fine del corso, tutte le interazioni sono state raccolte in file .txt, da cui è stato

possibile estrapolare il grafo della rete con Cytoscape e gli altri dati necessari per lo

studio delle altre componenti della rete, per cui ci si è servito sia di Excel che di alcuni

script in Python.

Nell’analisi non sono state prese in considerazione le interazioni avvenute con Twitter e

Google Plus, perché a nostro avviso irrilevanti rispetto alle altre analizzate.

Prima di affrontare lo studio generale con Cytoscape ci si è accorti che tutte le reti

analizzate presentavano archi duplicati, quindi sono stati rimossi per non falsare le

analisi.

4

Sono stati svolti i seguenti esercizi, per un valore complessivo di 11 punti:

- Network Analysis [2 points];

- Tie Strength I e II [1+2 points];

- Link Prediction I e II [1+2 points];

- Trust I e II [1+1 points];

- Multidimentional Network Analysis [2 points];

5

NETWORK ANALYSIS

Tramite il software Cytoscape sono state analizzate le reti come dirette temporali

pesate1, tranne che per la realizzazione delle strutture dove sono stati rimossi gli archi

duplicati. Sono stati presi in esame i dataset contententi anche Trust.

FULL (TRUST)

- |V| = 48;

- |E| = 1402;

Fig. 1. Struttura rete Full con archi duplicati.

1 Le reti possono essere viste come dei grafi. Un grafo è un insieme di elementi detti nodi o vertici collegati fra loro da archi o lati. Più formalmente, si dice grafo una coppia ordinata G = (V, E) di insiemi, con V insieme dei nodi ed E insieme degli archi, tali che gli elementi di E siano coppie di elementi di V (da segue in particolare che ). Un grafo diretto è una specie particolare di grafo in cui l'ordine dei vertici in un lato ha importanza. Un lato (u, v) di tale grafo, detto anche lato diretto, si dice uscente da u ed entrante in v. Un lato diretto è spesso rappresentato da una freccia nella direzione del vertice entrante. In un grafo diretto le connessioni sono rappresentate da coppie ordinate di vertici, mentre in un grafo indiretto sono rappresentate da coppie non ordinate di vertici e sono rappresentate con E = {vi, vj}. I grafi diretti e indiretti possono essere pesati, ovvero ai vertici e/o alle connessioni possono essere associati dei pesi (dei valori che stabiliscono l’importanza di un certo tipo di legame o interazione). I grafi temporali sono, banalmente, grafi che variano nel tempo. L'idea di base, dato un grafo temporale, è quella di avere una visualizzazione più o meno approfondita di come questo evolve con il passare del tempo, cercando di capirne i motivi, legandoli ad avvenimenti storici o sociali conosciuti. Il risultato potrebbe essere paragonato ad un video che rappresenta le variazioni di clima nei prossimi periodi: esso dà una visualizzazione globale di ciò che accade – o sta per accadere – permettendo di raccogliere utili informazioni sull'evoluzione dello stato nel tempo.

6

Fig. 2. Rimozione dalla rete Full degli archi duplicati.

Fig. 3. Rete Full senza archi duplicati.

7

Fig. 4. Struttura rete Full. I nodi più grandi sono quelli con più interazioni.

Fig. 5. I dati dell’analisi.

COMPONENTE CONNESSA

La componente connessa di un grafo è il sottoinsieme di nodi connessi tra loro. Il

network analizzato possiede una componente gigante, che è una componente connessa

che contiene tutti i nodi, che sono 48. Un grafo con componente connessa ideale

dovrebbe possedere questo valore in un intervallo che va da 1 a 10, nel nostro caso, il

valore in questione è 48, quindi, di gran lunga più alto. C’è un’unica componente

connessa perché ogni studente, nel corso delle 8 settimane ha avuto almeno

un’interazione.

8

COEFFICIENTE DI CLUSTERING

Il coefficiente di clustering stima quanto i nodi adiacenti ad un altro nodo siano in

relazione fra loro. Per esempio, nelle reti sociali dove gli archi rappresentano la

relazione di amicizia/frequentazione, il coefficiente di clustering fornisce una stima di

quanto il gruppo, o comunità, sia chiuso rispetto agli altri nodi nella rete.

In questo caso, esso è pari a 0.519, quindi poco più della metà dei nodi è in contatto tra

loro.

DIAMETRO

Il diametro è la massima distanza fra ogni coppia di nodi nel grafo. Più è alto il suo

valore, più i nodi sono lontani tra loro. Nel nostro caso il valore è 5, misura

relativamente bassa, quindi i nodi sono tendenzialmente vicini tra loro (e questo è

chiaro anche “visivamente”, in quanto è presente una componente gigante che

racchiude la maggior parte dei nodi).

RAGGIO

Il raggio rappresenta il minimo valore tra le eccentricità dei nodi. In questo caso è pari

a 3.

NETWORK CENTRALIZATION

Il parametro della Network centralization ha un valore pari a 0.432. Nello studio delle reti

complesse, la nozione di centralità può essere importante per:

• Giudicare la rilevanza/criticità di nodi o aree delle rete;

• Attribuire una misura di distanza fra nodi o aree delle rete;

• Identificare il grado di coesione di un’area delle rete;

• Identificare le aree di una rete (i gruppi coesi, le sue comunità).

9

In questo caso essa rappresenta un valore relativamente basso, perché probabilmente i

nodi non fanno capo ad un unico centro, ma sono dislocati su più punti focali

all’interno della componente gigante.

CAMMINO MINIMO

Il valore che emerge è 2256 (100%), valore perfetto che sta a significare che i cammini

esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si

muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi,

sono tutti vicini e connessi tra loro.

CHARACTERISTIC PATH LENGTH

La distanza media è pari a 2.315.

SHORTEST PATH LENGTH DISTRIBUTION

Fig. 6. Shortest path length distribution della rete Full.

10

Analizzando la Shortest Path Length Distribution è possibile notare che la moda della

distribuzione è pari a 2. Questo dimostra che la maggior parte dei nodi viene raggiunta

da un cammino minimo di 2.

NODE DEGREE DISTRIBUTION (IN E OUT)

Fig. 7. In-degree distribution della rete Full.

Fig. 8. Out-degree distribution della rete Full.

11

Sono stati generati gli istogrammi, con i dati elaborati da Cytoscape, della distribuzione

del grado in entrata e in uscita. I dati, che sono stati raggruppati con un intervallo di

10, hanno dimostrato che la maggior parte dei nodi ha un grado compreso tra 20 e

100, mentre solo 3 nodi hanno valore 1, perché solo 3 studenti hanno molti archi sia in

entrata che in uscita.

12

FACEBOOK (TRUST)

- |V| = 41;

- |E| = 505;

Fig. 9. Struttura della rete Facebook con archi duplicati.

Fig. 10. Rimozione dalla rete Facebook degli archi duplicate.

13

Fig. 11. Struttura della rete Facebook senza archi duplicati.

Fig. 12. Struttura della rete Facebook. I nodi più grandi sono quelli con più interazioni.

14

Fig. 13. I dati dell’analisi.

COMPONENTE CONNESSA

Il network analizzato possiede una componente gigante, che è una componente

connessa che contiene l’insieme dei nodi della rete, che sono 41. C’è un’unica

componente connessa perché ogni studente, nel corso delle 8 settimane ha avuto

almeno un’interazione su Facebook.

COEFFICIENTE DI CLUSTERING

Il coefficiente di clustering è pari a 0.403, quindi, meno della metà dei nodi è in contatto

tra loro.

DIAMETRO

Il diametro è 6, misura relativamente bassa, quindi i nodi sono tendenzialmente vicini

tra loro (e questo è chiaro anche “visivamente”, in quanto è presente una componente

gigante che racchiude tutti i nodi).

RAGGIO

Il raggio è pari a 3.

15

NETWORK CENTRALIZATION

Il parametro della Network centralization ha un valore pari a 0.488, anche in questo caso il

valore è relativamente basso perché i nodi non fanno capo ad un unico centro ma sono

dislocati su più punti focali all’interno della componente gigante.

CAMMINO MINIMO

Il valore che emerge è 1640 (100%), valore perfetto che sta a significare che i cammini

esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si

muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi,

sono tutti vicini e connessi tra loro.

CHARACTERISTIC PATH LENGTH

La distanza media è pari a 2.429.

SHORTEST PATH LENGTH DISTRIBUTION

Fig. 14. Shortest path length distribution della rete Facebook.

16

Il valore con frequenza più alta è 2 anche se, rispetto alle altre distribuzioni, risulta più

basso e ci sono più cammini di lunghezza maggiore a 2, perché ci sono state molte più

interazioni nella vita reale che su Facebook.

NODE-DEGREE DISTRIBUTION (IN E OUT)

Fig. 15. In-degree distribution della rete Facebook.

Fig. 16. Out-degree distribution della rete Facebook.

17

Nella rete Facebook la maggior parte dei nodi ha un grado compreso tra 0 e 30. Ci

sono pochi studenti che hanno molti archi in entrata e in uscita, ad eccezione di uno,

che ne ha avuti molti in entrata e in uscita e un altro, che ne ha avuti, invece, molti in

uscita.

18

REAL LIFE (TRUST)

- |V| = 47;

- |E| = 834;

Fig. 17. Struttura della rete Real Life con archi duplicati.

Fig. 18. Rimozione dalla rete Real Life degli archi duplicate.

19

Fig. 19. Struttura della rete Real Life senza archi duplicati.

Fig. 20. Struttura della rete Real Life. I nodi più grandi sono quelli con più interazioni.

20

Fig. 21. I dati dell’analisi.

COMPONENTE CONNESSA

Il network analizzato possiede una componente gigante, che è una componente

connessa che a sua volta contiene una frazione di tutti i nodi, che sono 47. C’è un’unica

componente connessa perché ogni studente, nel corso delle 8 settimane ha avuto

almeno un’interazione nella vita reale (data probabilmente dalla frequenza del corso).

COEFFICIENTE DI CLUSTERING

Il coefficiente di clustering è pari a 0.476, quindi, quasi la metà dei nodi è in contatto tra

loro.

DIAMETRO

Il diametro è 8, misura nella norma, quindi i nodi sono abbastanza vicini tra loro (e

questo è chiaro anche “visivamente”, in quanto è presente una componente gigante che

racchiude tutti i nodi).

RAGGIO

Il raggio è pari a 4.

21

NETWORK CENTRALIZATION

Il parametro della Network centralization ha un valore pari a 0.301.

CAMMINO MINIMO

Il valore che emerge è 2162 (100%), valore perfetto che sta a significare che i cammini

esistenti sono pari al 100% dei cammini totali, cioè i cammini sono tutti brevi. Se ci si

muove da un nodo all’altro, si può visitare tutta la rete in breve tempo. I nodi, quindi,

sono tutti vicini e connessi tra loro.

CHARACTERISTIC PATH LENGTH

La distanza media è pari a 2.666.

SHORTEST PATH LENGTH DISTRIBUTION

Fig. 22. Shortest path length distribution della rete Real Life.

22

Anche in questo caso, il valore con frequenza più alta (la moda) è pari a 2. Questo ci

dimostra, nuovamente, che la maggior parte dei nodi può essere raggiunta con un

cammino molto breve.

NODE DEGREE DISTRIBUTION (IN E OUT)

Fig. 23. In-degree distribution della rete Real Life.

Fig. 24. Out-degree distribution della rete Real Life.

23

Nella rete Real Life la maggior parte dei nodi ha un grado compreso tra 0 e 80. Anche

in questo caso, ci sono pochi studenti che hanno molti archi in entrata e in uscita. Uno

studente in particolare ha avuto molti archi, sia in entrata che in uscita.

24

TIE STRENGTH

3.1 EVOLUTION OF STRENGTH

La registrazione dei dati prevedeva l’assegnazione ad ogni interazione di una forza,

intesa come quantità e qualità, che poteva assumere un valore compreso tra 1 e 5.

Nei prossimi due punti analizziamo come questa cambia nelle interazioni tra gli

studenti nel corso delle otto settimane e studiamo la forza dei legami sfruttando la

multidimensionalità, considerando le reti come dirette temporali pesate2.

Per analizzare come la forza (Strength) si sia evoluta durante il periodo della raccolta

dei dati per le interazioni della rete Real Life e Facebook è stato realizzato per

entrambe un grafico ad istogramma che mostra per ogni settimana quante interazioni

ci sono state, raggruppate per settimana.

Come primo passo, tramite del codice in Python, abbiamo estratto dai due file in

formato .txt, che contenevano le interazioni di Facebook e quelle di Real Life, i dati per

creare una lista di ogni settimana con all’interno la somma delle interazioni raggruppate

per livello di forza; successivamente abbiamo utilizzato Excel per la creazione di grafici.

2 Cfr. nota 1 pag. 5.

25

Fig. 25. Evoluzione della forza dei legami nel tempo. Rete Facebook.

Fig. 26. Evoluzione della forza dei legami nel tempo. Rete Real Life.

Nelle Fig. 25 e Fig. 26 è possibile seguire l'andamento delle interazioni su Facebook e

nella vita reale durante le otto settimane di corso. Nel primo grafico si nota subito

45

33

26

34

55

27

43

41

39

34

27

27

31

40

40

38

48

34

33

32

37

27

39

30

20

19

30

29

24

28

18

31

30

21

21

22

30

19

26

31

0 50 100 150 200

1

2

3

4

5

6

7

8

1

2

3

4

5

19

12

4

14

23

12

22

20

19

17

4

30

29

18

26

16

27

18

17

25

32

37

29

22

20

14

9

19

24

27

16

17

18

13

16

20

21

27

28

20

0 50 100 150

1

2

3

4

5

6

7

8

1

2

3

4

5

26

come gli studenti abbiano interagito maggiormente nella prima (Tie strenght 48) e quinta

(Tie strenght 55) settimana di corso. I valori si mantengono invece stabili nelle restanti

settimane. Nella Fig. 26 il picco delle interazione si è avuto tra la quinta e la sesta

settimana, dimunisce notevolmente nella terza settimana. Confrontando invece la rete

con la figura 26 emerge che mentre sulla rete Facebook c'è stato un notevole

incremento delle interazioni sulla rete Real Life non è stato così. La spiegazione

potrebbe risiedere nel fatto che gli studenti frequentavano con meno assiduità le lezioni

ma continuavano a tenersi in contatto interagendo sul social network.

27

3.2 MULTIDIMENSIONAL TIE STRENGTH

Per studiare la forza dei legami è stato usato l’approccio della multidimensionalità

proposto nel riferimento [1] applicando ad ogni coppia di nodi la formula della forza

dei legami multidimensionali :

Dove hd corrisponde alla similarità dei nodi in una singola dimensione nella quale Wd

rappresenta l’intensità dell’interazione tra i nodi nella dimensione d e Γd l’insieme dei

vicini di un nodo.

E corrisponde invece alla ridondanza della connessione, dove DR è la frazione

dei vicini che diventano direttamente irraggiungibili da un nodo se tutti i nodi nella

dimensione specifica sono rimossi.

Attraverso uno script in Python è stata applicata al file contenente le interazioni

(wmr_network_full.txt) la funzione della forza dei legami multidimensionali (str). Il

risultato è stata la creazione di un ulteriore file in .txt, nel quale sono stati scritti in

output (come risultato dello script) tutte le coppie di nodi con la relativa forza, ottenuta

tenendo conto della similarità e della ridondanza. I risultati della forza dei legami,

ottenuti applicando la funzione in oggetto, oscillano tra 0.28 e 9.8 (valori che sono stati

successivamente rielaborati con Cytoscape).

Successivamente, con Cytoscape sono stati analizzati i risultati attraverso la

rappresentazione di grafi che mostrano la struttura della rete dove è stato impostato il

colore degli archi in base alla variazione della forza dei legami: giallo per la forza

compresa tra 0 e 5, rosso da 5 a 7, e blu da 7 a 9.8.

28

Fig. 27. Struttura della rete Full che evidenzia la forza dei legami.

Dalla figura emerge che la maggior parte dei legami ha una forza compresa tra 0 e 5, a

seguire quelli tra 5 e 7 e rari quelli oltre il 7. La spiegazione sta nel fatto che la maggior

parte degli studenti si è conosciuta o ha rapporti con gli altri prevalentemente in

ambito universitario, di conseguenza, la valutazione del legame è circoscritta a questo

ambito.

Per evidenziare come cambia la struttura della rete, abbiamo infine rimosso gli archi

con forza minore di 5 (Fig. 28), quelli con forza maggiore di 5 (Fig. 29), e quelli con

forza maggiore di 7 (Fig. 30).

29

Fig. 28. Strength<5; Fig. 29. Strength>5; Fig. 30. Strength>7;

Dai grafi risultanti vediamo che nella Fig. 30 la sotto-rete è formata da pochi nodi e da

4 componenti connesse, ciò dimostra quindi che le relazioni più intense si sono create

tra un gruppo ristretto di studenti; allo stesso tempo però nella Fig. 29, dove sono

presenti solo gli archi con forza maggiore di 5, è comunque presente una grande

componente connessa che rende la sotto-rete abbastanza unita.

30

LINK PREDICTION

4.1 LINK PREDICTION

Attraverso la Link Prediction si cerca di individuare l’insieme di archi che, a partire da

un primo intervallo detto di Training, verranno più probabilmente creati in un secondo

intervallo temporale detto di Test: per ogni arco viene calcolato (da un predittore) un

valore che indica la probabilità (Score) che questo entri nel grafo in un futuro intervallo

di tempo.

Il dominio di analisi in questo caso sono quindi le reti dinamiche, cioè quelle in cui la

struttura cambia ed evolve nel tempo e quindi sono state utilizzate le reti di Real Life e

di Facebook come non dirette temporali e pesate3 alle quali sono stati applicati gli

approcci di previsione proposti nel riferimento [3]: Common Neighbours, Jaccard, Adamic

Adar, Preferential attachment.

Fig. 31. Predittori Link Prediction.

COMMON NEIGHBORD

Questo algoritmo assegna uno Score agli archi seguendo la seguente formula che

considera il numero dei vicini comune ai due nodi.

3 Cfr. nota 1 pag. 5.

31

JACCARD SIMILARITY

Misura la probabilità che sia x che y abbiano una feature f (vicini nel grafo); lo Score

viene assegnato tramite la formula

ADAMIC ADAR

È un modello di valutazione basato sulla correlazione tra due pagine web. Per

analizzare la correlazione tra due pagine si analizzano le caratteristiche di entrambe e se

ne definisce la somiglianza, secondo la formula:

PREFERENTIAL ATTACHMENT

L’approccio del predittore Preferential Attachment si basa sulla probabilità che la

possibilità che un arco si colleghi a un nodo x sia direttamente proporzionale al

numero dei vicini del nodo in questione. Più semplicemente, maggiore è il numero dei

vicini di un nodo, più alta è la possibilità che un arco si colleghi al nodo in questione in

futuro.

ANALISI

Nelle seguenti tabelle i valori corrispondono al rapporto tra la performance del

predittore (Common Neighbour, Jaccard, Adamic Adar e Preferential Attachment) e la

performance di un predittore scelto casualmente. Essi ricoprono la prima settimana,

quella centrale e l’ultima, in modo tale da vedere l’evoluzione nel tempo delle due reti.

32

Misure Facebook

Training Test

Common

N. Jaccard

Adamic

A.

Preferenial

A.

1 7 2,79 2,51 2,37 2,16

4 4 2,62 1,67 3,57 3,57

7 1 0 0 17,55 17,55

Fig. 32. Confronto tra predittori per la rete Facebook.

Misure Real Life

Training Test

Common

N. Jaccard

Adamic

A.

Preferenial

A.

1 7 2,65 2,55 2,23 2,23

4 4 3,51 2,51 2,76 2,51

7 1 16,22 10,82 0 16,22

Fig. 33. Confronto tra predittori per la rete Real Life.

Nella rete Real Life dalle tabelle vediamo che i valori migliori riguardano l’approccio

Adamic Adar e Preferential Attachment: per il primo approccio si può affermare che se la

comunità di nodi condivisa da x e y è esclusiva/selettiva entrambi nodi avranno più alta

probabilità di interagire tra loro; per il secondo, un nodo che presenta numerose

interazioni attrae sia nuovi nodi sia, soprattutto, altri nodi con un numero alto di

interazioni/archi.

Per quanto riguarda la rete di Facebook, dalle tabelle vediamo che i valori migliori

riguardano l’approccio Preferential Attachment e Common Neighbours: all’aumentare del

numero degli amici di due nodi aumenta anche la probabilità che interagiscano nel

futuro.

I risultati migliori sono forniti rispettivamente in Facebook da Preferential Attachment e

Common Neighbours e in Real Life da Adamic Adar e Preferential Attachment in quanto

risultano più vicini alla realtà. I valori si riferiscono alla settima ed ultima settimana di

corso, in cui è presumibilmente più semplice prevedere quali cambiamenti subirà la rete

in questione.

33

4.2 MULTIDIMENSIONALITY OF THE NETWORK

Attraverso l’analisi multidimensionale di una rete si cerca di prevedere quali possono

essere i collegamenti su una stessa rete partendo dai nodi presenti, in particolare

partendo dall’analisi di una rete e utilizzando uno dei predittori si calcola la possibilità

che altri nodi in futuro si aggiungano alla rete già presente. Nell’analisi delle reti ci

sono quattro possibili tipi di analisi:

- Common Neighbors;

- Adamic Adar;

- Jaccard;

- Preferential Attachment.

Nell’analisi seguente la metodologia utilizzata è quella del Common neighbors e la rete

analizzata è Real life.

Dalla letteratura emerge che, l’evoluzione di una rete dipende principalmente da tre

fattori:

- Dalle interazioni di un nodo, infatti un nodo con un grado elevato di archi (nella

fattispecie uno studente con molti collegamenti) tenderà ad attrarre più nodi;

- Dall’interazione tra le dimensioni;

- Dall’evoluzione temporale di un collegamento.

La funzione Neighbors è definita nel modo seguente:

Neighbors (v, D) = {U ∈ V|∃(U, v, d) ∈ E∧ d∈ D}

Questa funzione restituisce l'insieme di tutti i nodi direttamente raggiungibili dal nodo

v.

La variante delle funzione Neighbors è rappresentata da neighbors xor:

(V, D) = {U ∈ V|∃d ∈ D: (U, v, d) ∈ E∧ d∈ D: (U, v, d )∈ E}

34

Questa funzione, considerando una dimensione D, restituisce l’insieme di nodi vicini

tra loro e li collega da archi che appartengono alla dimensione D.

Attraverso gli script realizzati in Python, ottenuti elaborando le funzioni contenute nelle

librerie fornite dagli assistenti e utilizzando per la realizzazione del grafo il software

Cytoscape, si è giunti al seguente risultato:

- |V| = 169;

- |E| = 224;

Fig. 34. Link Prediction. Analisi multidimensionale della rete Real Life.

35

Il grafo dimostra come la maggior parte dei nodi è collegata, cioè gli studenti sono in

contatto tra loro, mentre sono pochi quelli che rimangono isolati e con pochi archi. Il

cammino minimo tra i nodi è pari al 90%, quindi i cammini sono abbastanza brevi. I

nodi sono quasi tutti vicini e connessi tra loro.

Dall'analisi della rete e dai risultati ottenuti è facile immaginare che la probabilità che in

futuro altri nodi si aggiungano a quelli già presenti sia altissima, poiché allo stato attuale

la rete appare “fitta” di collegamenti e la maggior parte degli studenti è in contatto tra

di loro.

36

TRUST

5.1 TRUST

Durante la raccolta dei dati gli studenti hanno assegnato ad ogni interazione anche una

Trust, ovvero un valore che misura il rapporto in termini di fiducia, onestà e sincerità.

Anche in questo caso tutte le interazioni sono state raccolte in un file .txt per la rete

globale (Full), per quella di Real Life e per quella di Facebook, per poi essere elaborate.

L’obiettivo è quello di studiare la correlazione tra i valori di Strength e Trust per ogni

dimensione sia statica che dinamica; la rete utilizzata in questo caso è diretta non

temporale e pesata4.

Innanzitutto è stata calcolata la differenza tra i suddetti valori per ogni interazione nelle

due dimensioni; successivamente sono stati raggruppati i risultati ottenuti. Per illustrare

i risultati sono stati realizzati grafici ad istogramma, sia per la rete di Real Life sia per

quella di Facebook.

RAPPORTO STRENGTH/TRUST FACEBOOK

Fig. 35. Rapporto Strength/Trust rete Facebook.

4 Cfr. nota 1, pag. 5.

20

86 93

218

59

7 2 0

50

100

150

200

250

-3 -2 -1 0 1 2 3

Totale

37

RAPPORTO STRENGTH/TRUST REAL LIFE

Fig. 36. Rapporto Strength/Trust rete Real Life.

Vediamo che, per entrambe le reti prevale la differenza uguale a 0, ovvero quando il

valore dei due attributi coincide. Ciò sta a significare che la tendenza degli studenti è

stata quella di assegnare lo stesso valore di forza e di fiducia all’interazione. Allo stesso

tempo vediamo come risulti più probabile che ad un valore di fiducia alto ne

corrisponda uno di forza più basso rispetto al contrario, evidentemente perché ad

interazioni frequenti non è detto che corrisponda un aumento di fiducia e, anche se la

forza è bassa, la fiducia in molti casi è alta probabilmente perché gli studenti si

conoscevano da prima dell’inizio del corso o perché frequentavano altri corsi insieme.

Per studiare la dinamicità, cioè come la forza e la fiducia si sono evolute nel corso delle

otto settimane, i record sono stati raggruppati per settimana calcolando la media dei

valori per la Strength e la Trust. I risultati per le due dimensioni sono stati, infine,

riportati in un grafico a linee, per meglio evidenziarne l’andamento e per consentire un

confronto più sistematico.

Nel primo grafico (Fig. 37 e Fig. 38) vediamo come le due linee non seguano lo stesso

andamento come nel secondo, e che quindi gli studenti hanno assegnato valori minori

di forza alle interazioni nel social network dando quindi più importanza a quelle

avvenute nella vita vera. Abbiamo inoltre la conferma da entrambi i grafici che la

fiducia risulta sempre maggiore rispetto alla forza.

3 14

36 58

211

70

9

0

50

100

150

200

250

-4 -3 -2 -1 0 1 2

Totale

38

Nel secondo grafico (Fig. 39 e Fig. 40) notiamo che i due attributi sono strettamente

correlati tra loro in quanto le linee seguono lo stesso andamento e al crescere dei valori

di media dell’uno crescono anche quelli dell’altro; per quanto riguarda la rete di Real

Life gli studenti hanno quindi solitamente assegnato alle interazioni una fiducia

dipendente dalla forza.

TRUST AND CLASSICAL NETWORK MEASURE CORRELATION

L’obiettivo è quello di studiare la correlazione tra i valori di Trust e le misure classiche

della rete in ogni dimensione; la rete utilizzata per questa analisi è diretta temporale e

pesata. I risultati sono riportati nei seguenti grafici.

FACEBOOK

week strength trust

1 2,821429 3,392857

2 2,68 3,44

3 2,97619 3,571429

4 3,203704 3,537037

5 3,028986 3,318841

6 3,115385 3,403846

7 2,75 3,338235

8 2,863636 3,5

Fig. 37. Evoluzione di Strength e Trust nel tempo. Rete Facebook. Dati numerici.

Fig. 38. Evoluzione di Strength e Trust nel tempo. Rete Facebook. Dati grafici.

39

REAL LIFE

week strength trust

1 2,925926 3,296296

2 2,815789 3,342105

3 3,5 3,653846

4 2,868852 3,04918

5 3 3,096774

6 3,053571 3,392857

7 3,14 3,18

8 2,944444 3,203704

Fig. 39. Evoluzione di Strength e Trust nel tempo. Rete Real Life. Dati numerici.

Fig. 40. Evoluzione di Strength e Trust nel tempo. Rete Real Life. Dati grafici.

Nel primo grafico (Fig. 37 e Fig. 38) vediamo come le due linee non seguano lo stesso

andamento come nel secondo, e che quindi gli studenti hanno assegnato valori minori

di forza alle interazioni nel social network dando quindi più importanza a quelle

avvenute nella vita vera. Abbiamo inoltre la conferma da entrambi i grafici che la

fiducia risulta sempre maggiore rispetto alla forza.

Nel secondo grafico (Fig. 39 e Fig. 40) notiamo che i due attributi sono strettamente

correlati tra loro in quanto le linee seguono lo stesso andamento e al crescere dei valori

di media dell’uno crescono anche quelli dell’altro; per quanto riguarda la rete di Real

Life gli studenti hanno quindi solitamente assegnato alle interazioni una fiducia

dipendente dalla forza.

40

5.2 TRUST AND CLASSICAL NETWORK MEASURE

CORRELATION

L’obiettivo è quello di studiare la correlazione tra i valori di Trust e le misure classiche

della rete in ogni dimensione; la rete utilizzata per questa analisi è diretta temporale e

pesata. I risultati sono riportati nei seguenti grafici.

FACEBOOK

Fig. 41. Correlazione tra Trust e Edge Betwenness, rete Facebook.

Fig. 42. Correlazione tra Trust e Common Neighbours, rete Facebook.

0,000

0,005

0,010

0,015

0,020

0,025

0,030

0,035

1 2 3 4 5

Edge

Bet

wee

nn

ess

Trust

0,000

0,500

1,000

1,500

2,000

2,500

3,000

3,500

4,000

4,500

5,000

1 2 3 4 5

Co

mm

on

Nei

ghb

ou

rs

Trust

41

I valori della Trust sono inversamente proporzionali all’Edge Betweenness, soprattutto

nella rete di Facebook, infatti al crescere della fiducia aumenta anche il numero dei

vicini comuni. Probabilmente questo accade poiché una coppia di nodi legata da un

valore Trust alto avrà sempre (potenzialmente) più amici in comune rispetto ad una

coppia di nodi legata da un valore di Trust basso.

Fig. 43. Correlazione tra Trust e Jaccard, rete Facebook.

Fig. 44. Correlazione tra Trust e Adamic Adar, rete Facebook.

0,000

0,050

0,100

0,150

0,200

0,250

0,300

0,350

0,400

1 2 3 4 5

Jacc

ard

Trust

0,000

0,100

0,200

0,300

0,400

0,500

0,600

0,700

0,800

0,900

1 2 3 4 5

Ad

amic

Ad

ar

Trust

42

Le medesime riflessioni si possono fare per l’analisi dei valori del coefficiente di Jaccard,

anche se stavolta il dato anomalo si rileva in corrispondenza del punteggio di Trust=4:

questo coefficiente e la Trust sono direttamente proporzionali, quindi se aumenta la

fiducia aumentano anche le probabilità che i due nodi abbiano amici comuni.

43

REAL LIFE

Fig. 45. Correlazione tra Trust e Edge Betwenness, rete Real Life.

Fig. 46. Correlazione tra Trust e Common Neighbours, rete Real Life.

Per quanto riguarda i valori di Trust, anche qui si nota che al crescere della fiducia

aumenta significativamente anche il numero dei vicini comuni.

0,000

0,002

0,004

0,006

0,008

0,010

0,012

0,014

0,016

0,018

0,020

1 2 3 4 5

Edge

Bet

wee

nn

ess

Trust

0

1

2

3

4

5

6

7

1 2 3 4 5

Co

mm

on

ne

igh

bo

rs

Trust

44

Fig. 47. Correlazione tra Trust e Jaccard, rete Real Life.

Fig. 48. Correlazione tra Trust e Adamic Adar, rete Real Life.

In conclusione, si può dire che un dato anomalo si registra in corrispondenza del valore

di Trust pari a 3: infatti la rete di Facebook risulta avere un numero medio di vicini più

basso rispetto a quello di Real Life.

Dai risultati ottenuti si nota che i valori della Trust sono inversamente proporzionali

all’Edge Betweenness, soprattutto nella rete di Facebook, e quindi nel caso in cui

rimuovessimo gli archi con Trust uguale a 5 la rete rimarrebbe comunque compatta.

0,000

0,050

0,100

0,150

0,200

0,250

0,300

0,350

0,400

0,450

1 2 3 4 5

Jacc

ard

Trust

0,000

0,100

0,200

0,300

0,400

0,500

0,600

0,700

0,800

0,900

1 2 3 4 5

Ad

amic

Ad

ar

Trust

45

Analoghe riflessioni si possono fare per l’analisi dei valori del coefficiente di Jaccard

anche se stavolta il dato anomalo si rileva in corrispondenza del punteggio di Trust 4:

questo coefficiente e Trust sono direttamente proporzionali quindi se aumenta la

fiducia aumenta anche la probabilità che i due nodi abbiano amici comuni.

Infine notiamo come anche nel rapporto tra i punteggi di Trust e quelli ottenuti tramite

il metodo Adamic Adar la relazione segua un andamento crescente ad eccezione del

valore in corrispondenza di Trust uguale a 3 nella rete Facebook.

46

MULTIDIMENTIONAL NETWORK ANALYSIS

Per uno studio multidimensionale delle reti abbiamo utilizzato le formule introdotte nel

riferimento [8] prendendo in esame solo le reti di Real Life e Facebook come dirette

dinamiche pesate5: per tutte le interazioni tra due nodi è stato considerato un solo arco

avente come Strength la media delle forze su tutto il periodo delle otto settimane.

NEIGHBOURS

Il grado di un nodo si riferisce alle connessioni di un nodo in una rete ed è definito

come il numero di archi adiacenti al nodo stesso che, nel caso di reti monodimensionali

corrisponde al numero dei vicini; nelle reti multidimensionali invece il grado di un

nodo e il numero dei vicini non sono correlati poiché ci possono essere più archi tra

due nodi.

Per calcolare il numero dei vicini per la rete multidimensionale è stata utilizzata la

seguente formula:

Dove NeighborSet corrisponde al numero di tutti i nodi direttamente raggiungibili dal

nodo v tramite gli archi aventi rispettiva dimensione d.

Attraverso la rielaborazione degli script forniti durante il corso è stato calcolato il

numero dei vicini adiacenti ad ogni nodo e i risultati sono stati rappresentati in un

grafico ad istogramma.

5 Cfr. nota 1 pag. 5.

47

Fig. 49. Numero dei vicini di ogni nodo. Rete Full.

Il grafico fornisce una panoramica dei numeri di vicini per ogni nodo.

È evidente che in alcuni casi tale numero sfiora il picco di 35 vicini, mentre in altri

raggiunge a stento il 5. Ciò significa che alcuni nodi risultano essere più “centrali”

rispetto ad altri che hanno, invece, meno vicini e si trovano in una posizione più isolata

all’interno del network. Si può dedurre che questi ultimi nodi siano gli studenti che

rispetto agli altri interagiscono di meno, magari per timidezza.

Con la formula del Neighbors XOR sono stati invece considerati soltanto i nodi adiacenti

connessi tra loro da archi appartenenti soltanto ad una data dimensione.

I risultati di entrambe le dimensioni sono stati rappresentati su un grafico ad

istogramma per effettuare lo studio sulla rete multidimensionale.

48

Fig. 50. Nodi adiacenti connessi tra loro. Facebook e Real Life.

Da questi risultati vediamo come i numeri dei vicini studiati sia tendenzialmente più

alto nella dimensione di Real Life rispetto a quella di Facebook a conferma che gli

studenti hanno avuto più interazioni nella vita reale piuttosto che nel social network.

DIMENSION RELEVANCE

Un aspetto chiave dell’analisi della rete multidimensionale è capire quanto sia

importante una particolare dimensione rispetto alle altre in base alla connettività di un

nodo.

Attraverso la formula della Dimension Relevance si calcola il rapporto tra il numero dei

vicini di un nodo collegato da archi appartenenti ad una specifica dimensione e il

numero totale dei suoi vicini; tuttavia, essendo la rete multidimensionale dobbiamo

considerare la seguente variante:

49

Questa variante calcola la frazione dei vicini direttamente raggiungibile dal nodo v

seguendo archi appartenenti solo ad una dimensione appartenente a D.

La seguente formula è stata quindi applicata per ogni dimensione (Real Life e Facebook) e

i risultati ottenuti sono stati riportati in un grafico.

Fig. 51. Rapporto tra il numero dei vicini di un nodo collegato da archi che appartengono a

una specifica dimensione e il numero totale dei nodi suoi vicini.

Notiamo che numerosi nodi presentano valori di Dimension Relevance XOR al di sotto

della media e pochi nodi presentano valori elevati; l’andamento del grafico fa

presupporre che non sia presente una rete più importante rispetto ad un’altra.

DIMENSION CONNECTIVITY

Attraverso la Dimension Connectivity, cioè il rapporto degli archi della rete etichettati con

dimensione d, studiamo la percentuale di nodi o archi contenuti in una specifica

dimensione (EDC, Edge Dimension Connectivity) o che appartengono solo ad una data

dimensione tale che non ci siano altri archi tra i due nodi appartenenti ad altre

dimensioni (EEDC, Exclusive Edge Dimension Connectivity).

Nel primo caso la dimensione D è comune a più archi, nel secondo caso invece la

dimensione è esclusiva a due nodi.

50

Attraverso gli script in Python, opportunamente creati sulla base delle librerie rese

disponibili dagli assistenti, sono state calcoate la EDC (Edge Dimention Connectivity) e la

EEDC (Exclusive Edge Dimention Connectivity), sia per i nodi sia per gli archi ottenendo i

seguenti risultati:

Colonna1

DC

(nodes)

EDC

(nodes)

DC

(edges)

EDC

(edges)

Real Life 1 0.43 0.96 0.13

Facebook 0.98 0.18 0.79 0.03

Fig. 52. Dimention Connectivity e Exclusive Dimention Connectivity, Real Life e Facebook.

Per quanto riguarda i calcoli relativi alla Dimension Connectivity dei nodi, per la rete Real

Life il valore ottenuto è 1 perché potenzialmente tutti i nodi sono raggiungibili ed

infatti è presente un’unica componente connessa, mentre per Facebook è 0.98, solo il 2%

dei nodi non risulta collegato agli altri tramite il social network, che corrisponde ad un

solo studente visto che i nodi totali sono 48; inoltre il 96% degli archi sul totale

appartiene alla rete di Real Life e il 79% a quella di Facebook.

Per i calcoli relativi alla Exclusive Dimension Connectivity invece, nell’analisi dei nodi

otteniamo 43% per la Real Life e solo 18% per Facebook e quindi nella prima rete i nodi

sono più facilmente raggiungibili rispetto alla seconda; i valori calcolati sugli archi sono

il 13% e il 3% che conferma le precedenti considerazioni.

51

D-CORRELATION

Si tratta di un aspetto della multidimensionalità che calcola il rapporto tra le coppie di

nodi/archi connesse in tutte le reti e il numero totale di coppie di nodi/archi connessi

in almeno una rete.

Questo rapporto fornisce un’idea di come siano ridondanti due dimensioni per

l’esistenza di un nodo o di un arco; queste due misure si basano sul coefficiente di

correlazione di Jaccard.

Nelle reti di Real Life e Facebook quindi con questa formula si calcola il rapporto tra gli

studenti che hanno avuto interazioni in entrambe le reti e il numero totale degli

studenti che presentano almeno un collegamento.

D-Correlation

Edges 0.56

Nodes 0.98

Fig. 53. Archi e nodi in comune in entrambe le sotto-reti.

I risultati mostrano come in queste due reti quasi la totalità dei nodi (98%) sia coinvolta

in entrambe le sotto-reti, mentre per gli archi, quelli in comune risultano poco più della

metà (56%).

52

CONCLUSIONI

Il dataset utilizzato per le varie analisi era costituito dalle interazioni raccolte dagli

studenti nelle 12 settimane di corso. Le reti oggetto di analisi erano quelle di Real Life e

Facebook.

Le analisi effettuate da svariati punti di vista (sono stati studiati aspetti

multidimensionali, temporali ecc.) hanno fatto emergere l’alto livello di interazione del

gruppo classe. Interessante è stato notare che le interazioni della classe sono aumentate

nel corso delle settimane utili alla raccolta dati e nelle settimane centrali, i giorni

immediatamente prossimi alla consegna del “Middle Term Project” di Web Mining. In

quei giorni, gli individui hanno avuto diverse interazioni per chiedere chiarimenti sul

progetto o per confrontarsi con gli altri studenti. Inoltre, in quelle settimane, c’erano

anche prove in itinere di altri corsi, presumibilmente frequentati da più studenti della

classe di Web Mining. Lo dimostrano, ad esempio, i valori della componente connessa,

solitamente compresa tra 1 e 10, nel nostro caso 48. La classe si è suddivisa in macro-

gruppi di interazione corrispondenti alla facoltà di appartenenza e in micro-gruppi

corrispondenti per lo più ai gruppi di lavoro creati successivamente per il progetto

finale. Alcuni individui, tre per l’esattezza, hanno manifestato interazioni con quasi

tutto il gruppo classe e uno in particolare ha fatto da hub tra due macro-gruppi diversi

(presumibilmente quello di Informatica Umanistica e quello di Informatica per

l’Economia). Un caso isolato è quello di un individuo che ha avuto interazione con una

sola persona.

Anche per quanto riguarda la Link Prediction del gruppo classe il risultato non è stato da

meno, dal grafico è emersa, infatti, una rete “fitta” in cui la possibilità che altri nodi si

aggiungano a quello già esistenti è altissima.

Confrontando i dati relativi a Real Life e quelli relativi a Facebook possiamo notare

inoltre che le interazioni risultanti all'interno dei vari gruppi di lavoro sembrano

mantenere una stabilità maggiore rispetto alle interazioni tra i diversi gruppi. In altre

parole, il rapporto d'amicizia nella vita reale permette di tenere un valore di interazione

pressoché costante all'interno del singolo gruppo che interagisce anche attraverso

53

Facebook. Questo valore di interazione tra Real Life e Facebook è invece scostante e

variabile nel caso in cui si considerino le interazioni tra gruppi diversi.

54

RIFERIMENTI BIBLIOGRAFICI

[8] Michele Berlingerio, Michele Coscia, Fosca Giannotti, Anna Monreale,

DinoPedreschi: Foundations of Multidimensional Network Analysis.

ASONAM2011:485-489;

[2] Mark S. Granovetter: The Strength of Weak Ties. American Journal of

Sociology, Volume 78, Issue 6 (May, 1973), 1360-1380;

[3] David Liben-Nowell, Jon M. Kleinberg: The link prediction problem for social

networks. CIKM 2003: 556-559;

[1] Luca Pappalardo, Giulio Rossetti, Dino Pedreschi: How Well Do We Know Each

Other? Detecting Tie Strength in Multidimensional Social Networks. ASONAM

2012:1040-1045;