37
INSIdE nano - Online learning Simone Romano 1 1 Università degli Studi di Salerno Supervisori: Prof. Roberto Tagliaferri Dott. Angela Serra Esame Bioinformatica - 2015/2016 Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 1 / 23

INSIdE_nano - online learning

Embed Size (px)

Citation preview

Page 1: INSIdE_nano - online learning

INSIdE nano - Online learning

Simone Romano1

1Università degli Studi di Salerno

Supervisori:Prof. Roberto Tagliaferri

Dott. Angela Serra

Esame Bioinformatica - 2015/2016

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 1 / 23

Page 2: INSIdE_nano - online learning

Introduzione

1 Introduzione

2 Approcci utilizzati

3 Risultati

4 Conclusioni

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 2 / 23

Page 3: INSIdE_nano - online learning

Introduzione

Outline

1 IntroduzioneDatasetApprocci utilizzati

2 Approcci utilizzati

3 Risultati

4 Conclusioni

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 2 / 23

Page 4: INSIdE_nano - online learning

Introduzione Dataset

INSIdE nano

Il dataset analizzato contiene informazioni sulle relazioni tra:nanomaterialsdrugschemicalsdiseases

Le relazioni sono valutate in base all’effetto di ciascuna entitàsull’espressione genica

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 3 / 23

Page 5: INSIdE_nano - online learning

Introduzione Dataset

Costruzione network

Informazioni iniziali:Per ogni entità (nanomateriale, farmaco, prodotto chimico emalattia) si ha a disposizione una lista di geni correlati

In particolare:chemical e disease: set di geni associatidrug e nanomaterial: lista ordinata (per espressione) di geni

Per arrivare alla network è stata calcolata la similarità tra tutte lecoppie di entità disponibili

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 4 / 23

Page 6: INSIdE_nano - online learning

Introduzione Dataset

Calcolo distanze

Distanza tra insiemi di geni:

Jaccard IndexDati due insiemi A e B l’indice di Jaccard è dato dalla cardinalitàdell’intersezione diviso la cardinalità dell’unione

J(A,B) = |A∩B||A∪B|

Distanza tra liste ordinate di geni:

Kendall Tau

K (T1,T2) = |{(i, j) : i < j, (T1(i) < T1(j)∧T2(i) > T2(j))∨(T1(i) > T1(j)∧T2(i) < T2(j))}|

Distanza tra liste ordinate ed insiemi di geni:Gene Set Enrichment Analysis - GSEA

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 5 / 23

Page 7: INSIdE_nano - online learning

Introduzione Dataset

CLR

Partendo dalla matrice di similarità M così ottenuta, si è arrivati allanetwork finale W applicando il CLR come segue:

CLRPer ogni mij è stato calcolato il peso dell’arco wij come segue:

wij =√(z2

i + z2j ) · sign(M(i , j))

dove z2i e z2

j sono così definiti: M(i , j) > 0, s = +, zi = max{0, M(i,j)−µsi

σsi}

M(i , j) < 0, s = −, zi = min{0, M(i,j)−µsi

σsi}

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 6 / 23

Page 8: INSIdE_nano - online learning

Introduzione Dataset

Network finale

La network finale:

I valori sono stati normalizzati in [-1;1] per poter essere confrontati

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 7 / 23

Page 9: INSIdE_nano - online learning

Introduzione Approcci utilizzati

Problematica affrontata

La network descritta può variare con l’aggiunta/rimozione di elementi

Come cambia la struttura della network dopo aver apportato lemodifiche?

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 8 / 23

Page 10: INSIdE_nano - online learning

Introduzione Approcci utilizzati

Problematica affrontata

La network descritta può variare con l’aggiunta/rimozione di elementi

Come cambia la struttura della network dopo aver apportato lemodifiche?

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 8 / 23

Page 11: INSIdE_nano - online learning

Introduzione Approcci utilizzati

Problematica affrontata

La network descritta può variare con l’aggiunta/rimozione di elementi

Come cambia la struttura della network dopo aver apportato lemodifiche?

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 8 / 23

Page 12: INSIdE_nano - online learning

Approcci utilizzati

Outline

1 Introduzione

2 Approcci utilizzati

3 Risultati

4 Conclusioni

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 9 / 23

Page 13: INSIdE_nano - online learning

Approcci utilizzati

Comparazione network

Per valutare la differenza tra le network ottenute sono state fatte leseguenti valutazioni:

clustering delle varie sottomatricinano-nano,nano-drugs,...,chemical-chemical

calcolo della degree centrality su tutte le subnetworkricerca delle communities basato sulla modularità

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 10 / 23

Page 14: INSIdE_nano - online learning

Approcci utilizzati

Clustering

Per ogni subnetwork è stato applicato il kmeans con distanza euclideaper:

Network inizialeNetwork modificata

È stato effettuato il plot delle confusion matrix per studiare la stabilitàdei cluster

1

2

3

4

1 2 3 4I result

II re

sult

0

100

200

300

Freq

Drugs−Chemical clustering

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 11 / 23

Page 15: INSIdE_nano - online learning

Approcci utilizzati

Degree centrality

Per ogni subnetwork è stata calcolata la degree centrality di ogninodo

Ordinamento liste per degree decrescentecalcolo Kendall Tau

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 12 / 23

Page 16: INSIdE_nano - online learning

Approcci utilizzati

Communities

Community basate sulla modularità [1]

ModularityData una network ed una sua suddivisione in community, tale divisioneè buona quando si hanno

molti archi all’interno di una communitypochi archi tra le community

Output:calcolo similarità tra community utilizzando la metrica VI (Variationof information) [2]grafo bipartito che mostra le community per le varie coppie disubnetwork

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 13 / 23

Page 17: INSIdE_nano - online learning

Approcci utilizzati

Communities

Variation of informationDati due clustering C, C′, la variazione di informazione è data da:

VI(C,C′) = [H(C)− I(C,C′)] + [H(C′)− I(C,C′)]

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 14 / 23

Page 18: INSIdE_nano - online learning

Risultati

Outline

1 Introduzione

2 Approcci utilizzati

3 RisultatiNetwork senza chemicalNetwork senza nano

4 Conclusioni

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 15 / 23

Page 19: INSIdE_nano - online learning

Risultati Network senza chemical

1 Introduzione

2 Approcci utilizzati

3 RisultatiNetwork senza chemicalNetwork senza nano

4 Conclusioni

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 16 / 23

Page 20: INSIdE_nano - online learning

Risultati Network senza chemical

Clustering

Confronto subnetwork con/senza chemical:

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 16 / 23

Page 21: INSIdE_nano - online learning

Risultati Network senza chemical

Clustering

Confronto subnetwork con/senza chemical:

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 16 / 23

Page 22: INSIdE_nano - online learning

Risultati Network senza chemical

Clustering

Confronto subnetwork con/senza chemical:

1

2

3

4

1 2 3 4I result

II re

sult

0

50

100

Freq

Drugs−Drugs clustering

1 2 3 4 5

67 8 9

Communities_DrugsDrugs

Communities distance 0.78

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 16 / 23

Page 23: INSIdE_nano - online learning

Risultati Network senza chemical

Clustering

Confronto subnetwork con/senza chemical:

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 16 / 23

Page 24: INSIdE_nano - online learning

Risultati Network senza chemical

Clustering

Confronto subnetwork con/senza chemical:

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 16 / 23

Page 25: INSIdE_nano - online learning

Risultati Network senza chemical

Clustering

Confronto subnetwork con/senza chemical:

1

2

3

4

1 2 3 4I result

II re

sult

0

100

200

300

400

Freq

DrugsDisease−DrugsDisease clustering

1 2 3 4

5 6 7 8

Communities_DrugsDisease

Communities distance 0.15

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 16 / 23

Page 26: INSIdE_nano - online learning

Risultati Network senza chemical

Clustering

Confronto subnetwork con/senza chemical:

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 16 / 23

Page 27: INSIdE_nano - online learning

Risultati Network senza nano

1 Introduzione

2 Approcci utilizzati

3 RisultatiNetwork senza chemicalNetwork senza nano

4 Conclusioni

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 17 / 23

Page 28: INSIdE_nano - online learning

Risultati Network senza nano

Clustering

Immagini non corrette Confronto subnetwork con/senza nano:

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 17 / 23

Page 29: INSIdE_nano - online learning

Risultati Network senza nano

Clustering

Immagini non corrette Confronto subnetwork con/senza nano:

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 17 / 23

Page 30: INSIdE_nano - online learning

Risultati Network senza nano

Clustering

Immagini non corrette Confronto subnetwork con/senza nano:

1

2

3

4

1 2 3 4I result

II re

sult

0

400

800

1200

1600Freq

DiseaseChemical−DiseaseChemical clustering

1 2 3 4 5 6 7 8 9 101112131415161718

192021222324 25262728 293031323334 35

Communities_diseaseChemical

Communities distance 0.03

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 17 / 23

Page 31: INSIdE_nano - online learning

Risultati Network senza nano

Clustering

Immagini non corrette Confronto subnetwork con/senza nano:

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 17 / 23

Page 32: INSIdE_nano - online learning

Conclusioni

Outline

1 Introduzione

2 Approcci utilizzati

3 Risultati

4 Conclusioni

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 18 / 23

Page 33: INSIdE_nano - online learning

Conclusioni

Discussioni

Dal lavoro svolto si evince che:Cluster: gli elementi vengono raggruppati in manierasignificativamente differente quando si rimuove una interacategoriaCommunity e Degree centrality: rimangono abbastanza stabilisia quando si rimuove una intera categoria sia quando sirimuovono alcuni elementi in una categoria

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 19 / 23

Page 34: INSIdE_nano - online learning

Conclusioni

Discussioni - 1

0.86 0.88 0.90 0.92 0.94 0.96 0.98 1.00

0.0

0.5

1.0

1.5

2.0

2.5

Kendall Tau

VI

no−chemicalno−nano_1no−nano_2no−nano_3

Results

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 20 / 23

Page 35: INSIdE_nano - online learning

Conclusioni

Discussioni - 2

0.995 0.996 0.997 0.998 0.999 1.000

0.0

0.5

1.0

1.5

2.0

2.5

Kendall Tau

VI

no−chemicalno−nano_1no−nano_2no−nano_3

Results

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 21 / 23

Page 36: INSIdE_nano - online learning

Conclusioni

Riferimenti I

Aaron Clauset et al.Finding community structure in very large networks.http://arxiv.org/pdf/cond-mat/0408187v2.pdf

Marina MeilaComparing clusterings.http://www.stat.washington.edu/mmp/Papers/compare-colt.pdf

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 22 / 23

Page 37: INSIdE_nano - online learning

Conclusioni

Grazie per l’attenzione

Simone Romano (UNISA) INSIdE nano - Online learning February 18, 2016 23 / 23