1
APPLICAZIONI BIOINFORMATICHE SU GRIGLIA COMPUTAZIONALE PER L’INDIVIDUAZIONE DI EVENTI RICOMBINATIVI IN GENOMI DI CITRUS TRISTEZA VIRUS 1,2 Alessandro Lombardo, 2 Salvatore Davino, 3 Marcello Iacono Manno e 3 Annamaria Muoio 1 Consorzio Cometa, Via S. Sofia 64, 95123, Catania. 2 Dipartimento di Scienze e Tecnologie Fitosanitarie, Università degli Studi di Catania, Via S. Sofia 100, 95123, Catania. 3 I.N.F.N. sezione di Catania, Via S. Sofia 64, 95123, Catania. E-mail: [email protected] INTRODUZIONE Su di una infrastruttura GRID sono stati implementati, in un singolo flusso di lavoro, tre applicazioni per l’individuazione degli eventi ricombinativi in Citrus tristeza virus (CTV) partendo dall’allineamento multiplo di sequenze e la costruzione di alberi filogenetici, la generazione di network filogenetici ed infine la ricerca degli eventi di ricombinazione attraverso metodi filogenetici. . “Questo lavoro usa risultati prodotti dal Progetto PI2S2 gestito dal Consorzio COMETA, un progetto co-finanziato dal Ministero dell’Università e della Ricerca (MIUR) nell’ambito del Piano Operativo Nazionale “Ricerca Scientifica, Sviluppo Tecnologico, Alta Formazione” (PON 2000-2006). Maggiori informazioni sono disponibili alle pagine http://www.pi2s2.it e http://www.consorzio-cometa.it .” MATERIALI E METODI Sono state utilizzate le sequenze genomiche di CTV con numeri di accessione NC001661 (T36 Florida); DQ272579 (Mexico); AB046398 (NUagA Japan); AF001623 (SY568 California); DQ151548 (T318A Spain); AY340974 (Qaha Egypt); Y18420 (T385 Spain); AF260651 (T30 Florida); U56902 (VT Israel) Le sequenze sono state allineate mediante ClustlW- MPI (Li, 2003) utilizzando i parametri di default. L’allineamento in output è stato utilizzato in input per SplitsTree 4.6 (Huson e Bryant, 2006), utilizzando il network split decomposition, e per TOPALi 2. Il metodo usato per l’individuazione degli eventi di ricombinazione in TOPALi 2(Milne et al., 2004) è stato il Probabilistic Divergence Misure (PDM) con step size variabili tra 10 e 50 e windows size tra 500 e 2000, il valore di bootstrapping è stato impostato su 100. Le 9 sequenze sono state clusterizzate ed i rappresentanti di ogni gruppo (4) sono stati sottoposti ad analisi. Gli alberi filogenetici sono stati realizzati in TOPALI 2 con il metodo Jukes-Cantor + uniform rate model/neighbor joining, F81 come modello e gamma per il rate variation. LETTERATURA CITATA 1)Huson D.H. e Bryant D., 2006. Molecular Biology and Evolution, 23(2):254-267, 2) Li K.B., 2003. Bioinformatics Application Note. 19 (12): 1585–1586. 3) Milne I., Wright F., Rowe G., Marshal D.F., Husmeier D. e McGuire G., 2004.Bioinformatics 20 (11): 1806-1807. RISULTATI E DISCUSSIONE Attraverso l’implementazione di ClustalW-MPI su rete GRID i tempi di analisi si riducono da oltre 100 minuti dell’analisi eseguita su PC con processore P4 1,7 Gh a 16 minuti utilizzando un cluster di 8 CPU (fig.1). Le elevate performance sono più evidenti in tool come TOPALi dove la riduzione dei tempi è stata di un fattore 6 utilizzando un cluster di 4 processori. Il tempo medio di analisi delle 9 sequenze di CTV su PC è intorno a 50 ore. Per quanto riguarda l’aspetto prettamente biologico, l’approccio filogenetico basato sulla fissione (Split) è maggiormente informativo rispetto alle rappresentazioni convenzionali (fig. 2) in quanto si producono grafi (fig. 3) che tengono conto degli eventi di ricombinazione riassumendo tutti gli alberi plausibili sulla base dei dati. L’identificazione degli eventi di ricombinazione attraverso software con metodi come la misura della divergenza probabilistica ha prodotto risultati di rapida lettura, supportati da una contemporanea analisi statistica attraverso il bootstrapping. In figura 4 sono rappresentati come picchi gli eventi ricombinativi delle quattro sequenze rappresentanti e i reali rapporti filogenetici tra le sequenze partizionate. Tre eventi (linea tratteggiata) hanno statisticamente il 99% di confidenza che siano reali. DISTRIBUZIONE GRID fig. 2 fig. 4. Tem pidiallineam ento sequenze CTV 0 20 40 60 80 100 120 1 CPU 2 CPU 4 CPU 8 CPU N ° processori M inuti fig. 1 fig. 3

APPLICAZIONI BIOINFORMATICHE SU GRIGLIA COMPUTAZIONALE PER LINDIVIDUAZIONE DI EVENTI RICOMBINATIVI IN GENOMI DI CITRUS TRISTEZA VIRUS 1,2 Alessandro Lombardo,

Embed Size (px)

Citation preview

Page 1: APPLICAZIONI BIOINFORMATICHE SU GRIGLIA COMPUTAZIONALE PER LINDIVIDUAZIONE DI EVENTI RICOMBINATIVI IN GENOMI DI CITRUS TRISTEZA VIRUS 1,2 Alessandro Lombardo,

APPLICAZIONI BIOINFORMATICHE SU GRIGLIA COMPUTAZIONALE PER L’INDIVIDUAZIONE DI EVENTI RICOMBINATIVI IN GENOMI DI

CITRUS TRISTEZA VIRUS 1,2Alessandro Lombardo, 2Salvatore Davino, 3Marcello Iacono Manno e 3Annamaria

Muoio 1Consorzio Cometa, Via S. Sofia 64, 95123, Catania. 2Dipartimento di Scienze e Tecnologie Fitosanitarie, Università degli Studi di Catania, Via S. Sofia 100, 95123, Catania. 3I.N.F.N.

sezione di Catania, Via S. Sofia 64, 95123, Catania. E-mail: [email protected]

INTRODUZIONE

Su di una infrastruttura GRID sono stati implementati, in un singolo

flusso di lavoro, tre applicazioni per l’individuazione degli eventi

ricombinativi in Citrus tristeza virus (CTV) partendo dall’allineamento

multiplo di sequenze e la costruzione di alberi filogenetici, la generazione di

network filogenetici ed infine la ricerca degli eventi di ricombinazione

attraverso metodi filogenetici. .

“Questo lavoro usa risultati prodotti dal Progetto PI2S2 gestito dal Consorzio COMETA, un progetto co-finanziato dal Ministero dell’Università e della Ricerca (MIUR) nell’ambito del Piano Operativo Nazionale “Ricerca Scientifica, Sviluppo Tecnologico, Alta Formazione” (PON 2000-2006). Maggiori informazioni sono disponibili alle pagine http://www.pi2s2.it e http://www.consorzio-cometa.it.”

MATERIALI E METODI

Sono state utilizzate le sequenze genomiche di CTV con numeri di

accessione NC001661 (T36 Florida); DQ272579 (Mexico); AB046398

(NUagA Japan); AF001623 (SY568 California); DQ151548 (T318A

Spain); AY340974 (Qaha Egypt); Y18420 (T385 Spain); AF260651

(T30 Florida); U56902 (VT Israel) Le sequenze sono state allineate

mediante ClustlW-MPI (Li, 2003) utilizzando i parametri di default. L’allineamento in output è stato

utilizzato in input per SplitsTree 4.6 (Huson e Bryant, 2006), utilizzando

il network split decomposition, e per TOPALi 2.

Il metodo usato per l’individuazione degli eventi di ricombinazione in

TOPALi 2(Milne et al., 2004) è stato il Probabilistic Divergence Misure

(PDM) con step size variabili tra 10 e 50 e windows size tra 500 e 2000,

il valore di bootstrapping è stato impostato su 100.

Le 9 sequenze sono state clusterizzate ed i rappresentanti di

ogni gruppo (4) sono stati sottoposti ad analisi. Gli alberi

filogenetici sono stati realizzati in TOPALI 2 con il metodo Jukes-

Cantor + uniform rate model/neighbor joining, F81 come

modello e gamma per il rate variation.

LETTERATURA CITATA1)Huson D.H. e Bryant D., 2006. Molecular Biology and Evolution, 23(2):254-267, 2) Li K.B., 2003. Bioinformatics Application Note. 19 (12): 1585–1586. 3) Milne I., Wright F., Rowe G., Marshal D.F., Husmeier D. e McGuire G., 2004.Bioinformatics 20 (11): 1806-1807.

RISULTATI E DISCUSSIONE

Attraverso l’implementazione di ClustalW-MPI su rete GRID i tempi di analisi si

riducono da oltre 100 minuti dell’analisi eseguita su PC con processore P4 1,7 Gh a 16 minuti utilizzando un cluster di 8 CPU

(fig.1).

Le elevate performance sono più evidenti in tool come TOPALi dove la riduzione dei tempi è stata di un fattore 6 utilizzando

un cluster di 4 processori. Il tempo medio di analisi delle 9 sequenze di CTV su PC è

intorno a 50 ore.

Per quanto riguarda l’aspetto prettamente biologico, l’approccio

filogenetico basato sulla fissione (Split) è maggiormente informativo rispetto alle

rappresentazioni convenzionali (fig. 2) in quanto si producono grafi (fig. 3) che

tengono conto degli eventi di ricombinazione riassumendo tutti gli alberi plausibili sulla base dei dati.

L’identificazione degli eventi di ricombinazione attraverso software con metodi come la misura della divergenza

probabilistica ha prodotto risultati di rapida lettura, supportati da una contemporanea analisi statistica

attraverso il bootstrapping. In figura 4 sono rappresentati come picchi gli eventi

ricombinativi delle quattro sequenze rappresentanti e i reali rapporti

filogenetici tra le sequenze partizionate. Tre eventi (linea tratteggiata) hanno

statisticamente il 99% di confidenza che siano reali.

DISTRIBUZIONEGRID

fig. 2

fig. 4.

Tempi di allineamento sequenze CTV

0

20

40

60

80

100

120

1 CPU 2 CPU 4 CPU 8 CPU

N° processori

Min

uti

fig. 1

fig. 3