Upload
colombina-carbone
View
216
Download
1
Embed Size (px)
Citation preview
APPLICAZIONI BIOINFORMATICHE SU GRIGLIA COMPUTAZIONALE PER L’INDIVIDUAZIONE DI EVENTI RICOMBINATIVI IN GENOMI DI
CITRUS TRISTEZA VIRUS 1,2Alessandro Lombardo, 2Salvatore Davino, 3Marcello Iacono Manno e 3Annamaria
Muoio 1Consorzio Cometa, Via S. Sofia 64, 95123, Catania. 2Dipartimento di Scienze e Tecnologie Fitosanitarie, Università degli Studi di Catania, Via S. Sofia 100, 95123, Catania. 3I.N.F.N.
sezione di Catania, Via S. Sofia 64, 95123, Catania. E-mail: [email protected]
INTRODUZIONE
Su di una infrastruttura GRID sono stati implementati, in un singolo
flusso di lavoro, tre applicazioni per l’individuazione degli eventi
ricombinativi in Citrus tristeza virus (CTV) partendo dall’allineamento
multiplo di sequenze e la costruzione di alberi filogenetici, la generazione di
network filogenetici ed infine la ricerca degli eventi di ricombinazione
attraverso metodi filogenetici. .
“Questo lavoro usa risultati prodotti dal Progetto PI2S2 gestito dal Consorzio COMETA, un progetto co-finanziato dal Ministero dell’Università e della Ricerca (MIUR) nell’ambito del Piano Operativo Nazionale “Ricerca Scientifica, Sviluppo Tecnologico, Alta Formazione” (PON 2000-2006). Maggiori informazioni sono disponibili alle pagine http://www.pi2s2.it e http://www.consorzio-cometa.it.”
MATERIALI E METODI
Sono state utilizzate le sequenze genomiche di CTV con numeri di
accessione NC001661 (T36 Florida); DQ272579 (Mexico); AB046398
(NUagA Japan); AF001623 (SY568 California); DQ151548 (T318A
Spain); AY340974 (Qaha Egypt); Y18420 (T385 Spain); AF260651
(T30 Florida); U56902 (VT Israel) Le sequenze sono state allineate
mediante ClustlW-MPI (Li, 2003) utilizzando i parametri di default. L’allineamento in output è stato
utilizzato in input per SplitsTree 4.6 (Huson e Bryant, 2006), utilizzando
il network split decomposition, e per TOPALi 2.
Il metodo usato per l’individuazione degli eventi di ricombinazione in
TOPALi 2(Milne et al., 2004) è stato il Probabilistic Divergence Misure
(PDM) con step size variabili tra 10 e 50 e windows size tra 500 e 2000,
il valore di bootstrapping è stato impostato su 100.
Le 9 sequenze sono state clusterizzate ed i rappresentanti di
ogni gruppo (4) sono stati sottoposti ad analisi. Gli alberi
filogenetici sono stati realizzati in TOPALI 2 con il metodo Jukes-
Cantor + uniform rate model/neighbor joining, F81 come
modello e gamma per il rate variation.
LETTERATURA CITATA1)Huson D.H. e Bryant D., 2006. Molecular Biology and Evolution, 23(2):254-267, 2) Li K.B., 2003. Bioinformatics Application Note. 19 (12): 1585–1586. 3) Milne I., Wright F., Rowe G., Marshal D.F., Husmeier D. e McGuire G., 2004.Bioinformatics 20 (11): 1806-1807.
RISULTATI E DISCUSSIONE
Attraverso l’implementazione di ClustalW-MPI su rete GRID i tempi di analisi si
riducono da oltre 100 minuti dell’analisi eseguita su PC con processore P4 1,7 Gh a 16 minuti utilizzando un cluster di 8 CPU
(fig.1).
Le elevate performance sono più evidenti in tool come TOPALi dove la riduzione dei tempi è stata di un fattore 6 utilizzando
un cluster di 4 processori. Il tempo medio di analisi delle 9 sequenze di CTV su PC è
intorno a 50 ore.
Per quanto riguarda l’aspetto prettamente biologico, l’approccio
filogenetico basato sulla fissione (Split) è maggiormente informativo rispetto alle
rappresentazioni convenzionali (fig. 2) in quanto si producono grafi (fig. 3) che
tengono conto degli eventi di ricombinazione riassumendo tutti gli alberi plausibili sulla base dei dati.
L’identificazione degli eventi di ricombinazione attraverso software con metodi come la misura della divergenza
probabilistica ha prodotto risultati di rapida lettura, supportati da una contemporanea analisi statistica
attraverso il bootstrapping. In figura 4 sono rappresentati come picchi gli eventi
ricombinativi delle quattro sequenze rappresentanti e i reali rapporti
filogenetici tra le sequenze partizionate. Tre eventi (linea tratteggiata) hanno
statisticamente il 99% di confidenza che siano reali.
DISTRIBUZIONEGRID
fig. 2
fig. 4.
Tempi di allineamento sequenze CTV
0
20
40
60
80
100
120
1 CPU 2 CPU 4 CPU 8 CPU
N° processori
Min
uti
fig. 1
fig. 3