Upload
leliem
View
214
Download
0
Embed Size (px)
Citation preview
IntroduzioneApprocci al problema
ToolConfronto risultati
Tool di allineamento multiplo a confrontoBioinformatica a.a. 2007/08
Andrea Renieri Matteo Tanca
Università di Pisa, Dipartimento di Informatica
11 Dicembre 2007
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
SCHEMA DELLA PRESENTAZIONE
1 INTRODUZIONEDefinizione del problemaCampi d’applicazioneComplessità delproblema
3 TOOLMultiLaganCLUSTALAMAPSAGA
2 APPROCCI AL PROBLEMAAllineamenti basati sustrutturaApprocci probabilisticiApprocci alternativi
4 CONFRONTO RISULTATITestRisultati sperimentali
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Definizione del problemaCampi d’applicazioneComplessità del problema
ALLINEAMENTO MULTIPLO DI SEQUENZEDEFINIZIONE DEL PROBLEMA
Generalizzazione dell’allineamento fra due sequenzeDato un insieme di sequenze {s1, ..., sk}, definite sulmedesimo alfabeto, un allineamento s′1, ..., s
′k è ottenuto
inserendo degli spazi nelle sequenze, in modo che:1) |s′1| = |s′2| = ... = |s′k | = n2) Nessuna colonna sia costituita da soli spazi
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Definizione del problemaCampi d’applicazioneComplessità del problema
ALLINEAMENTO MULTIPLO DI SEQUENZEDEFINIZIONE DEL PROBLEMA
Generalizzazione dell’allineamento fra due sequenzeDato un insieme di sequenze {s1, ..., sk}, definite sulmedesimo alfabeto, un allineamento s′1, ..., s
′k è ottenuto
inserendo degli spazi nelle sequenze, in modo che:1) |s′1| = |s′2| = ... = |s′k | = n2) Nessuna colonna sia costituita da soli spazi
ESEMPIO-ACTTGT-C-CT-GT-ACACTGGT
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Definizione del problemaCampi d’applicazioneComplessità del problema
CAMPI D’APPLICAZIONE
Costruzione di alberi filogeneticiGenerazione di profiliCaratterizzazione di proteine con funzione sconosciuta (edidentificazione di domini funzionali)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Definizione del problemaCampi d’applicazioneComplessità del problema
COMPLESSITÀ DEL PROBLEMACOMPLESSITÀ COMPUTAZIONALE
Trovare l’allineamento ottimo fra più di due sequenze è unproblema computazionalmente difficile (più esattamenteNP-completo)Il tempo richiesto dalla risoluzione del problema cresceesponenzialmente rispetto alla dimensione dei dati daallineareEsistono algoritmi esatti (Smith-Waterman,Needleman-Wunsch), ma sono computazionalmenteimpraticabili: non è possibile calcolare una soluzioneesatta in tempo ragionevole!
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Definizione del problemaCampi d’applicazioneComplessità del problema
COMPLESSITÀ DEL PROBLEMASOLUZIONI APPROSSIMATE
Non potendo calcolare una soluzione esatta, ci siaccontenta di un’approssimazione sufficientemente“buona”Approssimazioni delle soluzioni possono essere calcolatemediante:
euristichemetodi statistici e probabilisticimetodi alternativi (FFT, algoritmi genetici)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Definizione del problemaCampi d’applicazioneComplessità del problema
COMPLESSITÀ DEL PROBLEMAFUNZIONE DI SCORE
Assegnare un punteggio ad un allineamento multiplo è piùcomplicato rispetto al caso a 2 sequenzeDesiderata
Indipendenza dall’ordine delle sequenzeMalus per spazi e segmenti scorrelati e bonus per segmenticorrelatiSensibilità (pochi falsi negativi)Specificità (pochi falsi positivi)
SP (Sum of Pairs): “classica” funzione di valutazione, datadalla somma dei punteggi di allineamento coppia a coppiasui simboli di una data colonna
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
1 INTRODUZIONE
3 TOOL
2 APPROCCI AL PROBLEMAAllineamenti basati sustrutturaApprocci probabilisticiApprocci alternativi
4 CONFRONTO RISULTATI
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
ALLINEAMENTI BASATI SU STRUTTURA
Gli allineamenti basati su struttura limitano il numerodi allineamenti considerati, imponendo un ordine divalutazione, attraverso l’utilizzo di un’opportuna struttura
Stella
Albero
Grafo
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT
Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”
1 La sequenza di indice i èselezionata come centrodella stella
2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze
3 Si minimizza la funzione discore d
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT
Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”
1 La sequenza di indice i èselezionata come centrodella stella
2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze
3 Si minimizza la funzione discore d
i
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT
Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”
1 La sequenza di indice i èselezionata come centrodella stella
2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze
3 Si minimizza la funzione discore d
a1
2
a3
a
ai+1
ni
i-1
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT
Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”
1 La sequenza di indice i èselezionata come centrodella stella
2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze
3 Si minimizza la funzione discore d
a1
2
a3
a
ai+1
ni
i-1
dE1
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT
Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”
1 La sequenza di indice i èselezionata come centrodella stella
2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze
3 Si minimizza la funzione discore d
a1
2
a3
a
ai+1
ni
i-1
dE1dE2
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT
Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”
1 La sequenza di indice i èselezionata come centrodella stella
2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze
3 Si minimizza la funzione discore d
a1
2
a3
a
ai+1
an
i
i-1
dE1dE2
dE3
dEi-1dEi+1dEn
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
ALLINEAMENTI BASATI SU STRUTTURASTAR ALIGNMENT
Idea: selezionare una sequenza fra quelle in esame edutilizzarla come “cardine”
1 La sequenza di indice i èselezionata come centrodella stella
2 Per ogni coppia (i , j), j 6= isi calcola la distanza diedit fra le due sequenze
3 Si minimizza la funzione discore d
a1
2
a3
a
ai+1
an
i
i-1
dE1dE2
dE3
dEi-1dEi+1dEn
minn∑
k=1
dE(k , i)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
ALLINEAMENTI BASATI SU STRUTTURAALLINEAMENTI BASATI SU GRAFI
Should multiple sequence alignment be linear? [Lee et al.- 2002]Appiattire troppo la struttura del problema può determinarela perdita di alcune informazioni (specie nel casodell’allineamento di proteine)La struttura di valutazione a grafo è stata proposta neltentativo di rispettare la struttura tridimensionale delleproteine
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
ALLINEAMENTI BASATI SU STRUTTURAI TOOL
Allineamento a stella: SAlign, Modeller
Allineamento ad albero: CLUSTAL, Multi-Lagan,T-Coffee, ...
Allineamenti su grafi: POA (Partial Order Alignment),ABA (A-Brujn Alignment)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
APPROCCI PROBABILISTICI
Il problema è formulato in termini di un modello matematicoHMM (Hidden Markov Model): modello probabilistico, in cuisi assume che il sistema modellato sia un processo diMarkov a parametri sconosciutiL’informazione probabilistica può (eventualmente) esseresfruttata per costruire strutture di valutazione (alberi,grafi...)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
APPROCCI PROBABILISTICII TOOL
ProbCons, ProbAlignSAMAMAP
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
APPROCCI ALTERNATIVI1/2
MAFFT: metodo basato sulla codifica dell’allineamentomultiplo in termini di trasformate discrete di Fourier (DFT)L’algoritmo FFT (Fast Fourier Transform) permette dicalcolare le trasformate in maniera molto efficiente(complessità in tempo O(N · logN))Consente di ottenere molto rapidamente buoneapprossimazioni della soluzione esatta
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
Allineamenti basati su strutturaApprocci probabilisticiApprocci alternativi
APPROCCI ALTERNATIVI2/2
SAGA (Sequence Alignment by Genetic Algorithm):metodo di allineamento multiplo basato sull’uso di unalgoritmo geneticoAlgoritmi genetici: usati per risolvere problemi di ricercae ottimizzazione, simulano l’evoluzione di una popolazionedi possibili soluzioni, in base al principio biologico dellaselezione naturaleLa popolazione iniziale è generata (pseudo-)casualmentee la qualità dei singoli individui è misurata mediante unafunzione di fitness
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
1 INTRODUZIONE
3 TOOLMultiLaganCLUSTALAMAPSAGA
2 APPROCCI AL PROBLEMA
4 CONFRONTO RISULTATI
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MLAGAN E CLUSTALW
MLAGAN e CLUSTALW sono tool che realizzanol’allineamento di più sequenze (multiple alignment)Entrambi si basano su:
Allineamento progressivo
Alberi filogenetici
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO1/3
Per affrontare il problema dell’allineamento multiplo intempi accettabili c’è bisogno di metodi che facciano uso dieuristicheIl metodo più usato è quello dell’allineamentoprogressivoL’allineamento progressivo consiste nella costruzioneprogressiva di allineamenti di coppie di sequenze
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO2/3
Dato un insieme di sequenze da allineare, vengono sceltee allineate due sequenze s1 ed s2, da cui si ottiene unanuova sequenzaViene scelta poi una terza sequenza s3 da allineare alprecedente allineamento, e così via
s1s2s3
sn…
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO2/3
Dato un insieme di sequenze da allineare, vengono sceltee allineate due sequenze s1 ed s2, da cui si ottiene unanuova sequenzaViene scelta poi una terza sequenza s3 da allineare alprecedente allineamento, e così via
s1s2s3
sn…
s1/2
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO2/3
Dato un insieme di sequenze da allineare, vengono sceltee allineate due sequenze s1 ed s2, da cui si ottiene unanuova sequenzaViene scelta poi una terza sequenza s3 da allineare alprecedente allineamento, e così via
s3
sn…
s1/2
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO2/3
Dato un insieme di sequenze da allineare, vengono sceltee allineate due sequenze s1 ed s2, da cui si ottiene unanuova sequenzaViene scelta poi una terza sequenza s3 da allineare alprecedente allineamento, e così via
s3
sn…
s1/2s1/2/3
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO2/3
Dato un insieme di sequenze da allineare, vengono sceltee allineate due sequenze s1 ed s2, da cui si ottiene unanuova sequenzaViene scelta poi una terza sequenza s3 da allineare alprecedente allineamento, e così via
sn…
s1/2/3 Considerazione: sequenze genetiche simili derivano da organismi “parenti”
L’allineamento progressivo “sfrutta” questa considerazione
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO3/3
Regola: ad ogni passoallineare le sequenze piùsimiliUn albero filogenetico è unalbero binario che mette inrelazione di “parentela”specie odierne e antenaticomuni
Foglie: specie attualiNodi: specie ancestrali
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO3/3
Regola: ad ogni passo allineare le sequenze più simili
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO3/3
Regola: ad ogni passo allineare le sequenze più simili
mseq 1/2
seq 3
seq 4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO3/3
Regola: ad ogni passo allineare le sequenze più simili
mseq 1/2
seq 3
seq 4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO3/3
Regola: ad ogni passo allineare le sequenze più simili
mseq 1/2
mseq 3/4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO3/3
Regola: ad ogni passo allineare le sequenze più simili
mseq 1/2
mseq 3/4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO PROGRESSIVO3/3
Regola: ad ogni passo allineare le sequenze più simili
mseq 1/2/3/4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MULTILAGANLAGAN E MLAGAN
LAGAN: realizza l’allineamento globale tra coppie disequenze (global pairwise alignment)MLAGAN: realizza l’allineamento globale di più sequenze(global multiple alignment) effettuando progressivamentegli allineamenti pairwise, tramite LAGAN (progressivealignment)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
LAGAN 1/2
LAGAN (Limited Area Global Alignment of Nucleotides) èun tool per l’allineamento di due sequenzeÈ utile che le sequenze da analizzare siano ortologhe
LAGAN and MLAGAN assume that one has alreadyidentified apparent orthologous regions between twospecies, and that there are no genomic rearrangements
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
LAGAN 2/2
LAGAN allinea una coppia di sequenze in tre passi principali:
1 Generazione allineamentilocali tra 2 sequenze(CHAOS)
2 Concatenazionesottoinsieme degliallineamenti locali ecostruzione di una primaglobal map
3 Calcolo dell’allineamentoglobale utilizzando laglobal map
ATCCGTGCATGGATGCATCTCCAC
CTCGTAGCGGATATCGCACAATCG
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
LAGAN 2/2
LAGAN allinea una coppia di sequenze in tre passi principali:
1 Generazione allineamentilocali tra 2 sequenze(CHAOS)
2 Concatenazionesottoinsieme degliallineamenti locali ecostruzione di una primaglobal map
3 Calcolo dell’allineamentoglobale utilizzando laglobal map
ATCCGTGCATGGATGCATCTCCAC
CT
CG
TA
GC
GG
AT
AT
CG
CA
CA
AT
CG
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
LAGAN 2/2
LAGAN allinea una coppia di sequenze in tre passi principali:
1 Generazione allineamentilocali tra 2 sequenze(CHAOS)
2 Concatenazionesottoinsieme degliallineamenti locali ecostruzione di una primaglobal map
3 Calcolo dell’allineamentoglobale utilizzando laglobal map
ATCCGTGCATGGATGCATCTCCAC
CT
CG
TA
GC
GG
AT
AT
CG
CA
CA
AT
CG
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PRIMA FASE: ALLINEAMENTI LOCALI1/5
CHAOS (CHAins Of Seeds): algoritmo utilizzato di defaultda LAGAN per gli allineamenti localiTrova omologie locali tra due sequenze e le concatena,costruendo allineamenti locali (anchor)Per prima cosa sono trovate piccole sotto-sequenze(seed) comuni alle due sequenze principaliUn seed non deve necessariamente presentarsi identico inentrambe le sequenze
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PRIMA FASE: ALLINEAMENTI LOCALI2/5
Dati:una lunghezza k ,un numero massimo di differenze c,
un (k , c)− seed è un seed lungo k che può avere cdifferenze in entrambe le sequenze
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PRIMA FASE: ALLINEAMENTI LOCALI2/5
Dati:una lunghezza k ,un numero massimo di differenze c,
un (k , c)− seed è un seed lungo k che può avere cdifferenze in entrambe le sequenze
ESEMPIO
...GGTGCTTGTA......CAGATTATCT...
(6,2)-seed = (GCTTGT, GATTAT)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PRIMA FASE: ALLINEAMENTI LOCALI3/5
CHAOS dopo aver trovato i seed, cerca di concatenarlicreando allineamenti locali (anchor). Dati:
d : massima distanzas: massimo shift
Due seed distanti x e y , rispettivamente nella prima eseconda sequenza, possono essere concatenati se:
x ≤ dy ≤ d|x − y | ≤ s
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PRIMA FASE: ALLINEAMENTI LOCALI4/5
È possibile che un seed s1 possa soddisfare le relazioniappena viste con più di un singolo altro seed
ESEMPIO
x ≤ d x1 ≤ dy ≤ d y1 ≤ d|x− y| ≤ s |x1 − y1| ≤ s
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PRIMA FASE: ALLINEAMENTI LOCALI5/5
In tal caso s1 è concatenato ad un seed con cui crei unacatena di score massimoScore di una catena: viene assegnata in base ai solitiprincìpi generali di punteggio
Bonus per match fra caratteri dei seedMalus per mismatch fra caratteri dei seedMalus per gap
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SECONDA FASE: GLOBAL MAP1/3
LAGAN ordina gli allineamenti locali prodotti da CHAOS inuna global mapUn allineamento locale è un vettore (b,e,b′,e′, s) cherappresenta
1 la posizione iniziale e finale (begin, end) dell’allineamentonelle due sequenze
2 lo score dell’allineamento
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SECONDA FASE: GLOBAL MAP2/3
Dati due allineamentilocali:
A1 = (b1,e1,b′1,e
′1, s1)
A2 = (b2,e2,b′2,e
′2, s2)
A1 < A2 sse:e1 < b2e′
1 < b′2
Una catena di allineamenti locali A1 < A2 < ... < Ak hascore s1 + s2 + ...+ sk
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SECONDA FASE: GLOBAL MAP3/3
La global map ottima è quella con lo score più altoPuò essere calcolata usando Sparse DynamicProgrammingIl calcolo ha complessità in tempo O(n · logn), dove n è ilnumero di allineamenti locali considerati
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
COSTRUZIONE DELL’ALLINEMENTO GLOBALE1/2
L’algoritmo di Needleman-Wunsch utilizza una matrice(M + 1)× (N + 1)
M e N sono le lunghezze delle sequenze da allineareL’algoritmo calcola il valore di ogni cella della matrice ecalcola il path con lo score più alto dalla cella [0,0] fino allacella [N,M]
L’algoritmo ha complessità in tempo O(N ·M)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
COSTRUZIONE DELL’ALLINEMENTO GLOBALE2/2
Lagan, per velocizzare il calcolo, adotta la seguente strategia:qualora sia noto che un certo allineamento passa per lacasella [i , j] si evita di calcolare il valore delle celleall’interno dei rettangoli delimitati dalle celle[i + 1,0], [M, j − 1] e da [0, j + 1], [i − 1,N]
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
TERZA FASE: ALLINEMENTO GLOBALE1/2
L’algoritmo riceve in input un parametro r (che delimital’area di ricerca) e per ogni allineamento da [i , j] a [i ′, j ′]valuta lo score delle celle incluse nell’unione formata:
dal rettangolo da [0,0] a[i + r , j + r ]dal rettangolo da[i ′ − r , j ′ − r ] a [M,N]
dalle due diagonali da[i − r , j + r ] a [i ′ − r , j ′ + r ]e da [i + r , j − r ] a[i ′ + r , j ′ − r ]
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
TERZA FASE: ALLINEMENTO GLOBALE1/2
L’algoritmo riceve in input un parametro r (che delimital’area di ricerca) e per ogni allineamento da [i , j] a [i ′, j ′]valuta lo score delle celle incluse nell’unione formata:
dal rettangolo da [0,0] a[i + r , j + r ]dal rettangolo da[i ′ − r , j ′ − r ] a [M,N]
dalle due diagonali da[i − r , j + r ] a [i ′ − r , j ′ + r ]e da [i + r , j − r ] a[i ′ + r , j ′ − r ]
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
TERZA FASE: ALLINEMENTO GLOBALE1/2
L’algoritmo riceve in input un parametro r (che delimital’area di ricerca) e per ogni allineamento da [i , j] a [i ′, j ′]valuta lo score delle celle incluse nell’unione formata:
dal rettangolo da [0,0] a[i + r , j + r ]dal rettangolo da[i ′ − r , j ′ − r ] a [M,N]
dalle due diagonali da[i − r , j + r ] a [i ′ − r , j ′ + r ]e da [i + r , j − r ] a[i ′ + r , j ′ − r ]
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
TERZA FASE: ALLINEMENTO GLOBALE1/2
L’algoritmo riceve in input un parametro r (che delimital’area di ricerca) e per ogni allineamento da [i , j] a [i ′, j ′]valuta lo score delle celle incluse nell’unione formata:
dal rettangolo da [0,0] a[i + r , j + r ]dal rettangolo da[i ′ − r , j ′ − r ] a [M,N]
dalle due diagonali da[i − r , j + r ] a [i ′ − r , j ′ + r ]e da [i + r , j − r ] a[i ′ + r , j ′ − r ]
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
TERZA FASE: ALLINEMENTO GLOBALE2/2
Gli anchor forniscono aree della global map dalle qualideve passare l’allineamentoLa complessità in tempo dell’algoritmo dipende dal numerodi celle comprese fra anchor consecutivi
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MULTILAGAN
MLAGAN (MultiLagan) è un tool per l’allineamento globaledi più sequenzeBasato su allineamenti progressivi effettuati medianteLAGANPresuppone un albero filogenetico in ingresso, su cuibasare gli allineamenti progressiviLa richiesta ha un senso qualora si cerchino allineamentifra sequenze ortologhe appartenenti a specie di cui sianoto l’albero filogenetico
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MLAGANALGORITMO
Dati N sequenze ed un albero filogenetico
1 Allineamento globalepairwise di sequenze omulti-sequenze
2 Iterazione punto 13 Miglioramento
(opzionale)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MLAGANALGORITMO
Dati N sequenze ed un albero filogenetico
1 Allineamento globalepairwise di sequenze omulti-sequenze
2 Iterazione punto 13 Miglioramento
(opzionale)
mseq 1/2
seq 3
seq 4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MLAGANALGORITMO
Dati N sequenze ed un albero filogenetico
1 Allineamento globalepairwise di sequenze omulti-sequenze
2 Iterazione punto 13 Miglioramento
(opzionale)
mseq 1/2
seq 3
seq 4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MLAGANALGORITMO
Dati N sequenze ed un albero filogenetico
1 Allineamento globalepairwise di sequenze omulti-sequenze
2 Iterazione punto 13 Miglioramento
(opzionale)
mseq 1/2
mseq 3/4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MLAGANALGORITMO
Dati N sequenze ed un albero filogenetico
1 Allineamento globalepairwise di sequenze omulti-sequenze
2 Iterazione punto 13 Miglioramento
(opzionale)
mseq 1/2
mseq 3/4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MLAGANALGORITMO
Dati N sequenze ed un albero filogenetico
1 Allineamento globalepairwise di sequenze omulti-sequenze
2 Iterazione punto 13 Miglioramento
(opzionale)
mseq 1/2/3/4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MLAGANALGORITMO
Dati N sequenze ed un albero filogenetico
1 Allineamento globalepairwise di sequenze omulti-sequenze
2 Iterazione punto 13 Miglioramento
(opzionale)
mseq 1/2/3/4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3
Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi
Passo 1A: gli anchor tra X e Z che non si sovrappongono con glianchor tra Y e Z, divengono anchor tra X/Y e Z,mantenendo il proprio score
x
z
y
z
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3
Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi
Passo 1A: gli anchor tra X e Z che non si sovrappongono con glianchor tra Y e Z, divengono anchor tra X/Y e Z,mantenendo il proprio score
x
z
y
z
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3
Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi
Passo 1A: gli anchor tra X e Z che non si sovrappongono con glianchor tra Y e Z, divengono anchor tra X/Y e Z,mantenendo il proprio score
x
z
x/y
z
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3
Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi
Passo 1B: gli anchor tra Y e Z che non si sovrappongono con glianchor tra X e Z, divengono anchor tra X/Y e Z
x
z
y
z
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3
Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi
Passo 1B: gli anchor tra Y e Z che non si sovrappongono con glianchor tra X e Z, divengono anchor tra X/Y e Z
x
z
y
z
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3
Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi
Passo 1B: gli anchor tra Y e Z che non si sovrappongono con glianchor tra X e Z, divengono anchor tra X/Y e Z
z
x/y
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3
Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi
Passo 2: di ogni anchor tra X e Z che si sovrappone anchein parte con un anchor tra Y e Z, viene ricalcolato lo score
x
z
y
z
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3
Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi
Passo 2: di ogni anchor tra X e Z che si sovrappone anchein parte con un anchor tra Y e Z, viene ricalcolato lo score
x/y
z
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO GLOBALE PAIRWISE (PASSI 1 E 2)1/3
Per allineare una multiseq. X/Y con una (multi)seq. Z ènecessario costruire una global map, che è generata in 2 passi
x
z
y
z
x/y
z
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MIGLIORAMENTO [OPZIONALE] (PASSO 3)1/2
Un difetto dell’allineamento progressivo è che gliallineamenti pairwise iniziali sono immodificabili, anche se,andando avanti negli allineamenti, vengono trovate alcuneinesattezze negli allineamenti precedentiSoluzione: raffinamento iterativoMLAGAN introduce una versione del raffinamentocircoscritta ad aree ridotte (limited area version of iterativerefinement)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MIGLIORAMENTO [OPZIONALE] (PASSO 3)2/2
Iterativamente ogni sequenza viene rimossadall’allineamento globaleOgni regione della sequenza rimossa che migliorasignificativamente lo score dell’allineamento diventa unanchorLa sequenza è riallineata all’allineamento multiplo(utilizzando LAGAN)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCORE DELL’ALLINEAMENTO MULTIPLO
MLAGAN definisce una propria funzione di scoreIl punteggio di un allineamento multiplo è dato da unacombinazione lineare di consensus e Sum of Pairs
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
1 INTRODUZIONE
3 TOOLMultiLaganCLUSTALAMAPSAGA
2 APPROCCI AL PROBLEMA
4 CONFRONTO RISULTATI
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
CLUSTALW1/2
CLUSTAL è un tool per l’allineamento globale di piùsequenze (global multiple alignment)Utilizza la tecnica dell’allineamento progressivoCLUSTALW è spesso usato per l’allineamento di sequenzeproteiche divergenti
W sta per Weights
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
CLUSTALW2/2
Clustal W esegue l’allineamento progressivo in tre passiprincipali:
1 Costruzione di una matrice delle distanze, valutata su tuttele coppie delle sequenze
2 Costruzione di un albero filogenetico guida delle sequenzemediante il metodo neighbour joining
3 Allineamento pairwise progressivo delle sequenze rispettoalla similarità data dall’albero
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 1: COSTRUZIONE DELLA MATRICE DELLE
DISTANZE1/3
Date n sequenze da allineare, Clustal W allinea tutte lecoppie di sequenze separatamente e costruisce unamatrice delle distanze tra ogni coppia di sequenzeLo score dell’allineamento pairwise viene convertito in“distanza” (∈ [0,1]) tra due sequenze
Seq. 1 Seq. 2 Seq. 3 Seq. 4Seq. 1 0.00Seq. 2 0.11 0.00Seq. 3 0.32 0.43 0.00Seq. 4 0.17 0.18 0.57 0.00
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 1: COSTRUZIONE DELLA MATRICE DELLE
DISTANZE2/3
I programmi della serie CLUSTAL calcolano la matricedelle distanze con un metodo approssimato ma veloceCLUSTALW dà anche la possibilità di calcolare la matricecon un metodo più accurato, ma computazionalmentelento (decine di minuti)
basato su allineamenti effettuati con programmazionedinamicamatrici per attribuire il peso ai match/mismatch (matriciPAM o BLOSUM)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 1: COSTRUZIONE DELLA MATRICE DELLE
DISTANZE3/3
PAM (Percent Accepted Mutations): l’entry (i , j) contienelo score assegnato alla coppia di aminoacidi (Ai ,Aj)
Lo score è proporzionale alla frequenza con cui ci siaspetta che Ai sostituisca Aj
Alcune sostituzioni di aminoacidi occorrono più facilmentedi altreProteine omologhe non devono necessariamente avere glistessi aminoacidi in ogni posizione
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 2: COSTRUZIONE ALBERO GUIDA1/3
L’euristica in CLUSTALW consiste nell’allineare per primele sequenze più vicineViene costruito un albero filogenetico (a partire dallamatrice delle distanze)
Metodo neighbour joining
Importanza della “precisione” della matrice delle distanze
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 2: COSTRUZIONE ALBERO GUIDA2/3
Dalla matriceviene scelta lacoppia chediverge meno:essa formerà ilprimosottoalbero
Seq. 1 Seq. 2 Seq. 3 Seq. 4Seq. 1 0.00Seq. 2 0.11 0.00Seq. 3 0.32 0.43 0.00Seq. 4 0.17 0.18 0.57 0.00
Seq 1 Seq 2
Seq 1/2Seq 1
Seq 2
Seq 3
Seq 4
Seq 1
Seq 2
Seq 3
Seq 4
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 2: COSTRUZIONE ALBERO GUIDA2/3
Nella matrice vienesostituita la entrySeq 1/2 alle singoleentry Seq 1 e Seq 2Vengono calcolate ledistanze di Seq 1/2dalle sequenzerimanenti (mediaaritmetica)
Seq. 1/2 Seq. 3 Seq. 4Seq. 1/2 0.00Seq. 3 0.375 0.00Seq. 4 0.175 0.57 0.00
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 2: COSTRUZIONE ALBERO GUIDA2/3
Dalla matrice vienescelta la coppiache diverge meno:essa formerà ilsecondosottoalbero
Seq. 1/2 Seq. 3 Seq. 4Seq. 1/2 0.00Seq. 3 0.375 0.00Seq. 4 0.175 0.57 0.00
Seq 1/2 Seq 4
Seq 1/2/4Seq 1
Seq 2
Seq 4
Seq 3
Seq 1
Seq 2
Seq 4
Seq 3
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 2: COSTRUZIONE ALBERO GUIDA3/3
Si ottiene un albero senza radiceLa radice viene posta tramite il metodo “mid-point”La lunghezza dei rami è proporzionale alla divergenzadelle sequenze che essi rappresentano
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 3: ALLINEAMENTO MULTIPLO
CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi
Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 3: ALLINEAMENTO MULTIPLO
CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi
Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 3: ALLINEAMENTO MULTIPLO
CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi
Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 3: ALLINEAMENTO MULTIPLO
CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi
Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 3: ALLINEAMENTO MULTIPLO
CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi
Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 3: ALLINEAMENTO MULTIPLO
CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi
Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PASSO 3: ALLINEAMENTO MULTIPLO
CLUSTAL W realizza l’allineamento multiplo tramiteallineamenti pairwise progressivi
Le coppie vengono allineate seguendo l’ordine datodall’albero a partire dalle sequenze più simili
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONE DI SCORE1/3
Alignment weightingPer dare uno score agli allineamenti vengono utilizzatematrici di score e il punteggio dato alle sequenze nell’albero
1 peeksavtal
2 geekaavlal
3 padktnvkaa
4 aadktnvkaa
5 egewqlvlhv
6 aaektkirsa
Score = M(t,v) * w1 * w5 +
M(t,i) * w1 * w6 +
M(l,v) * w2 * w5 +
M(l,i) * w2 * w6 +
M(k,v) * w3 * w5 +
M(k,i) * w3 * w6 +
M(k,v) * w4 * w5 +
M(k,i) * w4 * w6
M(x,y) è la entry nella matrice di score per l’aminoacido X vs Y
w n è lo score dato alla sequenza n
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONE DI SCORE1/3
Alignment weightingPer dare uno score agli allineamenti vengono utilizzatematrici di score e il punteggio dato alle sequenze nell’albero
1 peeksavtal
2 geekaavlal
3 padktnvkaa
4 aadktnvkaa
5 egewqlvlhv
6 aaektkirsa
Score = M(t,v) * w1 * w5 +
M(t,i) * w1 * w6 +
M(l,v) * w2 * w5 +
M(l,i) * w2 * w6 +
M(k,v) * w3 * w5 +
M(k,i) * w3 * w6 +
M(k,v) * w4 * w5 +
M(k,i) * w4 * w6
M(x,y) è la entry nella matrice di score per l’aminoacido X vs Y
w n è lo score dato alla sequenza n
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONE DI SCORE1/3
Alignment weightingPer dare uno score agli allineamenti vengono utilizzatematrici di score e il punteggio dato alle sequenze nell’albero
1 peeksavtal
2 geekaavlal
3 padktnvkaa
4 aadktnvkaa
5 egewqlvlhv
6 aaektkirsa
Score = M(t,v) * w1 * w5 +
M(t,i) * w1 * w6 +
M(l,v) * w2 * w5 +
M(l,i) * w2 * w6 +
M(k,v) * w3 * w5 +
M(k,i) * w3 * w6 +
M(k,v) * w4 * w5 +
M(k,i) * w4 * w6
M(x,y) è la entry nella matrice di score per l’aminoacido X vs Y
w n è lo score dato alla sequenza n
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONE DI SCORE1/3
Alignment weightingPer dare uno score agli allineamenti vengono utilizzatematrici di score e il punteggio dato alle sequenze nell’albero
1 peeksavtal
2 geekaavlal
3 padktnvkaa
4 aadktnvkaa
5 egewqlvlhv
6 aaektkirsa
Score = M(t,v) * w1 * w5 +
M(t,i) * w1 * w6 +
M(l,v) * w2 * w5 +
M(l,i) * w2 * w6 +
M(k,v) * w3 * w5 +
M(k,i) * w3 * w6 +
M(k,v) * w4 * w5 +
M(k,i) * w4 * w6
M(x,y) è la entry nella matrice di score per l’aminoacido X vs Y
w n è lo score dato alla sequenza n
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONE DI SCORE2/3
Ad ogni diramazione dell’albero viene dato un valore chedipende:
dalla distanza della diramazione dalla radicedalla divergenza delle sequenze che la diramazionerappresenta
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONE DI SCORE2/3
Tramite questi valori viene dato uno score ad ognisequenzaLo score è calcolato a partire dalla distanza dellasequenza dalla radice tenendo conto dei rami in comunecon altre sequenze
ESEMPIO
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONE DI SCORE3/3
Per ogni allineamento pairwise viene usato un algoritmo diprogrammazione dinamica. Vengono usate:
Matrici di score PAM o BLOSUMPenalità per gap
Alignment weightingPer dare uno score agli allineamenti vengono utilizzatematrici di score e il punteggio dato alle sequenze nell’albero
1 peeksavtal
2 geekaavlal
3 padktnvkaa
4 aadktnvkaa
5 egewqlvlhv
6 aaektkirsa
Score = M(t,v) * w1 * w5 +
M(t,i) * w1 * w6 +
M(l,v) * w2 * w5 +
M(l,i) * w2 * w6 +
M(k,v) * w3 * w5 +
M(k,i) * w3 * w6 +
M(k,v) * w4 * w5 +
M(k,i) * w4 * w6
M(x,y) è la entry nella matrice di score per l’aminoacido X vs Y
w n è lo score dato alla sequenza n
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
RIEPILOGOOSSERVAZIONI
L’allineamento progressivo è un approccio euristico, quindinon è detto che il metodo restituisca l’allineamento miglioreSe le sequenze sono molto simili, allora l’allineamentoprogressivo è più che ragionevoleSe le sequenze sono molto diverse l’allineamentoprogressivo diviene meno attendibileProblema del local minimum: un errore introdotto neiprimi allineamenti pairwise non può essere corretto e puòcorrompere l’allineamento multiplo
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
RIEPILOGOMLAGAN E CLUSTALW
MLAGANUsa algoritmi di programmazione dinamica a partire daiseedNecessita di un albero filogenetico passato comeparametroBuona funzione di scoreCerca di ovviare al local minimum
CLUSTAL WUsa algoritmi di programmazione dinamicaPer allineamento di sequenze aminoacidiche utilizza matricidi score per aminoacidiSi basa su un albero filogenetico creato autonomamenteBuona funzione di scoreNon risolve il problema del local minimum
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
1 INTRODUZIONE
3 TOOLMultiLaganCLUSTALAMAPSAGA
2 APPROCCI AL PROBLEMA
4 CONFRONTO RISULTATI
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
AMAPPROTEIN MULTIPLE ALIGNMENT BY SEQUENCE ANNEALING
La più comune metrica prestazionale per tool diallineamento multiplo è data dalla sensibilità (recall)Sensibilità: dato un insieme di sequenze di benchmark (dicui si conoscono gli allineamenti ottimi), la sensibilità è lapercentuale di posizioni omologhe correttamenteindividuate dal toolLa specificità (capacità di evitare falsi positivi) dellostrumento è però (quasi) altrettanto importante
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
AMAPCARATTERISTICHE GENERALI
AMAP adotta un approccio algoritmico del tipo temprasimulata, ottenendo buoni risultati tanto per sensibilità,quanto per specificitàL’allineamento non è progressivo : viene costruito unmatch alla volta!Il comportamento dell’algoritmo è probabilistico emodellato da PHMM (Pair Hidden Markov Model)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO MULTIPLO GLOBALE PARZIALE
Un allineamento multiplo globale parziale (PGMA) disequenze σ1, σ2, . . . , σk è:
un insieme parzialmente ordinato (poset)P = {c1, c2, . . . , cm} euna funzione surgettiva ϕ : Sσ1,σ2,...,σk → P tale che:i ≤ j ⇒ ϕ(σa
i ) ≤ ϕ(σaj )
c1,c2, . . . ,cm: colonne dell’allineamento multiploσn
i : i-esima posizione della n-esima sequenzaNota: un insieme parzialmente ordinato può essererappresentato in maniera equivalente con un grafo direttoaciclico (DAG)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO MULTIPLO GLOBALE
Un allineamento multiplo globale può essere espressoin termini di allineamenti multipli parzialiUn’estensione lineare di un insieme parzialmenteordinato P = {c1, c2, . . . , cm} è una permutazione deglielementi tale che ci < cj ⇒ i < jUn allineamento globale è un PGMA più un’estensionelineare dell’insieme P ad esso associato
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO MULTIPLO GLOBALE
ESEMPIO
N G Y E
S Y Y S
E L I G K P Q
S L K Q
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO MULTIPLO GLOBALE
ESEMPIO
N G Y E
S Y Y S
E L I G K P Q
S L K Q
φ 5
9
6
4
7
2
3
1
8
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALLINEAMENTO MULTIPLO GLOBALE
ESEMPIO
N G Y E
S Y Y S
E L I G K P Q
S L K Q
φ 5
9
6
4
7
2
3
1
8
- - N G Y E - - -
- - S Y Y S - - -
E L I G K - P - Q
S L - - - - - K Q
1 2 3 4 5 6 7 8 9
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALGORITMOINTUIZIONE
Ad ogni passo il numero di colonne dell’allineamentoparziale attuale viene ridotto di 1, operando sulle posizioniche hanno maggiore probabilità di essere omologheSi utilizzano probabilità a posteriori, che esprimono laprobabilità di un’ipotesi in seguito all’osservazione di uncerto eventoLa funzione di score è una combinazione dellaDevelopment score fD (equivalente alla SP) con unametrica (AMA) che preserva maggiormente la specificitàDue colonne sono fuse solo se il PGMA generato ha unavalutazione non peggiore del precedente
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALGORITMO
PSEUDOCODICE
ML ← MNulli ← Lwhile ∃ cMi
k , cMil : merge(cMi
k , cMil ) = M ′ and f (M ′) ≥ f (Mi) do
Mi−1 ← M ′
i ← i − 1end while
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALGORITMO
PSEUDOCODICE
ML ← MNulli ← Lwhile ∃ cMi
k , cMil : merge(cMi
k , cMil ) = M ′ and f (M ′) ≥ f (Mi) do
Mi−1 ← M ′
i ← i − 1end while
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALGORITMO
PSEUDOCODICE
ML ← MNulli ← Lwhile ∃ cMi
k , cMil : merge(cMi
k , cMil ) = M ′ and f (M ′) ≥ f (Mi) do
Mi−1 ← M ′
i ← i − 1end while
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
ALGORITMO
PSEUDOCODICE
ML ← MNulli ← Lwhile ∃ cMi
k , cMil : merge(cMi
k , cMil ) = M ′ and f (M ′) ≥ f (Mi) do
Mi−1 ← M ′
i ← i − 1end while
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
Sequence annealing: dato un insieme di sequenze S eduna funzione di score f , un SA è una catena di PGMA
ML ⊃ ML−1 ⊃ ML−2 ⊃ · · · ⊃ Mr tale che
Mi è associato all’insieme Pi e |Pi | = i (il numero dicolonne del PGMA di indice i è pari ad i)
f (Mi+1) ≤ f (Mi)
Mi è ottenuto da Mi+1 tramite fusione di due colonne c i+1j e
c i+1k in una c i
h
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MERGEAPPROCCIO TEORICO
1 Controlla se due colonne possono essere fuse2 In caso affermativo, dopo aver effettuato la fusione,
aggiorna l’insieme parzialmente ordinato
Il problema di trovare un’estensione lineare può essererisolto in maniera efficiente risolvendo l’online topologicalordering problem sul grafo equivalenteOnline topological ordering problem: problemadell’ordinamento topologico in cui i vertici del grafocompaiono uno per volta
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
MERGEIMPLEMENTAZIONE PRATICA
Ad ogni coppia di colonne è assegnato un pesoLe coppie sono poste in uno heapAd ogni iterazione la coppia di peso più elevato vieneestratta dallo heap (in tempo costante)I pesi variano dinamicamente: logicamente decrescono adogni fusione, ma per ragioni di efficienza sono ricalcolatisolo al momento dell’estrazione
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPELPKCVR-------------------------------------------------
SEQ2---------------CQANNMWGPTRLPTCVS--------------------------------
SEQ3--------------------------------IWSGKPPICEKV--------------------
SEQ4--------------------------------------------CLISGSSVQWSDPLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPELPKCVR-------------------------------------------------
SEQ2---------------CQANNMWGPTRLPTCVS--------------------------------
SEQ3--------------------------------IWSGKPPICEKV--------------------
SEQ4--------------------------------------------CLISGSSVQWSDPLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPELPK--------------CVR----------------------------------
SEQ2------------CQANNMWGPTRLPTC--VS--------------------------------
SEQ3-------------------------------IWSGKPPICEKV--------------------
SEQ4-------------------------------------------CLISGSSVQWSDPLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPELPK--------------CVR----------------------------------
SEQ2------------CQANNMWGPTRLPTC--VS--------------------------------
SEQ3-------------------------------IWSGKPPICEKV--------------------
SEQ4-------------------------------------------CLISGSSVQWSDPLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPELPK--------------CVR---------------------------------
SEQ2------------CQANNMWGPTRLPTCV-S--------------------------------
SEQ3------------------------------IWSGKPPICEKV--------------------
SEQ4------------------------------------------CLISGSSVQWSDPLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPELPK--------------CVR--------------------------------
SEQ2------------CQANNMWGPTRLPTCVS--------------------------------
SEQ3-----------------------------IWSGKPPICEKV--------------------
SEQ4-----------------------------------------CLISGSSVQWSDPLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPELPK--------------CVR-------------------------------
SEQ2------------CQANNMWGPTRLPTCVS-------------------------------
SEQ3-----------------------------IWSGKPPI----------------CEKV---
SEQ4-------------------------------------CLISGSSVQWSDPLPEC---REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPELPK--------------CVR------------------------------
SEQ2------------CQANNMWGPTRLPTCVS------------------------------
SEQ3-----------------------------IWSGKPPI----------------CEK--V
SEQ4-------------------------------------CLISGSSVQWSDPLPEC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPELPK--------------CVR-----------------------------
SEQ2------------CQANNMWGPTRLPTCVS-----------------------------
SEQ3-----------------------------IWSGKPPI----------------CE-KV
SEQ4-------------------------------------CLISGSSVQWSDPLPEC-REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPELPK--------------CVR----------------------------
SEQ2------------CQANNMWGPTRLPTCVS----------------------------
SEQ3-----------------------------IWSGKPPI----------------CEKV
SEQ4-------------------------------------CLISGSSVQWSDPLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPE----------------------------------LPKCVR------
SEQ2-----------CQANNMWGPTRLP---------------------TCVS------
SEQ3----------------------------IWSGKPPI---------------CEKV
SEQ4---------CL-------------ISGS--------SVQWSDPL-----PECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPE----------------------------------LPKCVR-----
SEQ2-----------CQANNMWGPTRLP---------------------TCVS-----
SEQ3----------------------------IWSGKPPI--------------CEKV
SEQ4---------CL-------------ISGS--------SVQWSDPLP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPE---------------------------------LPKCVR-----
SEQ2-----------CQANNMWGPTRLP--------------------TCVS-----
SEQ3----------------------------IWSGKPP-------------ICEKV
SEQ4---------CL-------------ISGS-------SVQWSDPLP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKPE--------------------------------LPKCVR-----
SEQ2-----------CQANNMWGPTRLP-------------------TCVS-----
SEQ3----------------------------IWSGKP--------P----ICEKV
SEQ4---------CL-------------ISGS------SVQWSDPLP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWKP-------------------------------ELPKCVR-----
SEQ2----------CQANNMWGPTRLP-------------------TCVS-----
SEQ3---------------------------IWSGKP--------P----ICEKV
SEQ4--------CL-------------ISGS------SVQWSDPLP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTWK------------------------------PELPKCVR-----
SEQ2---------CQANNMWGPTRLP-------------------TCVS-----
SEQ3--------------------------IWSGKP--------P----ICEKV
SEQ4-------CL-------------ISGS------SVQWSDPLP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNTW-----------------------------KPELPKCVR-----
SEQ2--------CQANNMWGPTRLP-------------------TCVS-----
SEQ3-------------------------IWSGKP--------P----ICEKV
SEQ4------CL-------------ISGS------SVQWSDPLP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNT----------------------------WKPELPKCVR-----
SEQ2-------CQANNMWGPTRLP-------------------TCVS-----
SEQ3------------------------IWSGKP--------P----ICEKV
SEQ4-----CL-------------ISGS------SVQWSDPLP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNT-----------------------W----KPELPKCVR-----
SEQ2-------CQANNMWGPTRLP------------------TCVS-----
SEQ3------------------------I---WSGKP----P----ICEKV
SEQ4-----CL-------------ISGS-SVQW----SDPLP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNT-----------------------W--KPE-LPKCVR-----
SEQ2-------CQANNMWGPTRLP-----------------TCVS-----
SEQ3------------------------I---WSG--KP-P----ICEKV
SEQ4-----CL-------------ISGS-SVQW--SDP-LP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNT-----------------------W--KPELPKCVR-----
SEQ2-------CQANNMWGPTRLP----------------TCVS-----
SEQ3------------------------I---WSG--KPP----ICEKV
SEQ4-----CL-------------ISGS-SVQW--SDPLP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNT-----------------------WK-PELPKCVR-----
SEQ2-------CQANNMWGPTRLP---------------TCVS-----
SEQ3------------------------I---WSG-KPP----ICEKV
SEQ4-----CL-------------ISGS-SVQWS-DPLP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNT-----------------------WKPELPKCVR-----
SEQ2-------CQANNMWGPTRLP--------------TCVS-----
SEQ3------------------------I---WSGKPP----ICEKV
SEQ4-----CL-------------ISGS-SVQWSDPLP----ECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPGNT-----------------------WKPELPK-CVR---
SEQ2-------CQANNMWGPTRLP--------------T-CVS---
SEQ3------------------------I---WSGKPP-IC--EKV
SEQ4-----CL-------------ISGS-SVQWSDPLP-EC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPG------NT----------------WKPELPK-CVR---
SEQ2---CQ--ANN-MWGPTRLP--------------T-CVS---
SEQ3-----------------------I---WSGKPP-IC--EKV
SEQ4-----CL------------ISGS-SVQWSDPLP-EC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPG------NT----------------WKPELPKCVR---
SEQ2---CQ--ANN-MWGPTRLP--------------TCVS---
SEQ3-----------------------I---WSGKPPIC--EKV
SEQ4-----CL------------ISGS-SVQWSDPLPEC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPG------NT---------------WKPELPKCVR---
SEQ2---CQ--ANN-MWGPTRL-------------PTCVS---
SEQ3----------------------I---WSGKPPIC--EKV
SEQ4-----CL-----------ISGS-SVQWSDPLPEC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SPG------NT--------------WKPELPKCVR---
SEQ2---CQ--ANNMWGPTRL-------------PTCVS---
SEQ3---------------------I---WSGKPPIC--EKV
SEQ4-----CL----------ISGS-SVQWSDPLPEC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1SP-----GNT--------------WKPELPKCVR---
SEQ2--CQ--ANNMWGPTRL-------------PTCVS---
SEQ3--------------------I---WSGKPPIC--EKV
SEQ4----CL----------ISGS-SVQWSDPLPEC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1S----PGNT--------------WKPELPKCVR---
SEQ2-CQ--ANNMWGPTRL-------------PTCVS---
SEQ3-------------------I---WSGKPPIC--EKV
SEQ4---CL----------ISGS-SVQWSDPLPEC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S--PGNT--------------WKPELPKCVR---
SEQ2CQ--ANNMWGPTRL-------------PTCVS---
SEQ3------------------I---WSGKPPIC--EKV
SEQ4--CL----------ISGS-SVQWSDPLPEC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S--PGNT-------------WKPELPKCVR---
SEQ2CQ--ANNMWGPTR------------LPTCVS---
SEQ3-----------------I---WSGKPPIC--EKV
SEQ4--CL---------ISGS-SVQWSDPLPEC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S--PGNT--------W----KPELPKCVR---
SEQ2CQ--ANNM--------WGPTR---LPTCVS---
SEQ3------------I---W----SGKPPIC--EKV
SEQ4--CL----ISGS-SVQW----SDPLPEC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S--PGN----T---W----KPELPKCVR---
SEQ2CQ--ANN----M---WGPTR---LPTCVS---
SEQ3-----------I---W----SGKPPIC--EKV
SEQ4--CL---ISGS-SVQW----SDPLPEC--REH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S--PGN----T---W----KPELPKCVR--
SEQ2CQ--ANN----M---WGPTR---LPTCVS--
SEQ3-----------I---W----SGKPPICE-KV
SEQ4--CL---ISGS-SVQW----SDPLPECR-EH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S--PGN----T---W----KPELPKCVR-
SEQ2CQ--ANN----M---WGPTR---LPTCVS-
SEQ3-----------I---W----SGKPPICEKV
SEQ4--CL---ISGS-SVQW----SDPLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S--PGN------TW----KPELPKCVR-
SEQ2CQ--ANN------MWGPTR---LPTCVS-
SEQ3-------------IW----SGKPPICEKV
SEQ4--CL---ISGSSVQW----SDPLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S--PGN------TWK---PELPKCVR-
SEQ2CQ--ANN------MWGPTR--LPTCVS-
SEQ3-------------IWS---GKPPICEKV
SEQ4--CL---ISGSSVQWS---DPLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S-PGN------TWK---PELPKCVR-
SEQ2CQ-ANN------MWGPTR--LPTCVS-
SEQ3------------IWS---GKPPICEKV
SEQ4C-L---ISGSSVQWS---DPLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S-PGN------TWKP--ELPKCVR-
SEQ2CQ-ANN------MWGPTR-LPTCVS-
SEQ3------------IWSG--KPPICEKV
SEQ4C-L---ISGSSVQWSD--PLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S-PGN------TWKP-ELPKCVR-
SEQ2CQ-ANN------MWGPTRLPTCVS-
SEQ3------------IWSG-KPPICEKV
SEQ4C-L---ISGSSVQWSD-PLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S-PG-----NTWKP-ELPKCVR-
SEQ2CQ-AN-----NMWGPTRLPTCVS-
SEQ3-----------IWSG-KPPICEKV
SEQ4C-L--ISGSSVQWSD-PLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S-P----GNTWKP-ELPKCVR-
SEQ2CQ-A----NNMWGPTRLPTCVS-
SEQ3----------IWSG-KPPICEKV
SEQ4C-L-ISGSSVQWSD-PLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1-S----PGNTWKP-ELPKCVR-
SEQ2CQ----ANNMWGPTRLPTCVS-
SEQ3---------IWSG-KPPICEKV
SEQ4C-LISGSSVQWSD-PLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SEQUENCE ANNEALING
ESEMPIO
SEQ1----SPGNTWKP-ELPKCVR-
SEQ2C---QANNMWGPTRLPTCVS-
SEQ3--------IWSG-KPPICEKV
SEQ4CLISGSSVQWSD-PLPECREH
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONI DI SCORE
AMA (Alignment Metric Accuracy): somma, su tutte lecoppie di sequenze, delle frazioni di residui correttamenteallineatiUn valore elevato dell’AMA indica un’alta specificitàdell’allineamento prodottoDevelopment score fD: somma dei punteggi diallineamento coppia a coppia sui simboli di una datacolonnaUn valore elevato della funzione fD indica un’alta sensibilitàdel risultato
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONI DI SCORE
AMA (Alignment Metric Accuracy): somma, su tutte lecoppie di sequenze, delle frazioni di residui correttamenteallineatiUn valore elevato dell’AMA indica un’alta specificitàdell’allineamento prodottoDevelopment score fD: somma dei punteggi diallineamento coppia a coppia sui simboli di una datacolonnaUn valore elevato della funzione fD indica un’alta sensibilitàdel risultato
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONI DI SCORE
AMA (Alignment Metric Accuracy): somma, su tutte lecoppie di sequenze, delle frazioni di residui correttamenteallineatiUn valore elevato dell’AMA indica un’alta specificitàdell’allineamento prodottoDevelopment score fD: somma dei punteggi diallineamento coppia a coppia sui simboli di una datacolonnaUn valore elevato della funzione fD indica un’alta sensibilitàdel risultato
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONI DI SCOREVALORE ATTESO
Sarebbe auspicabile massimizzare entrambe le funzioni discore ad ogni passoL’obiettivo è difficilmente realizzabileCi si accontenta di massimizzare le medie delle duefunzioniA seconda della fase dell’algoritmo, sarà privilegiata l’unao l’altraTipicamente gli allineamenti migliori sono ottenuti partendocon valori di sensibilità ridotti (a favore di un’elevataspecificità), per poi massimizzarla nelle fasi finali
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONE OBIETTIVO
Famiglia di funzioni, parametriche rispetto al fattore di gapGf, calcolate mediante probabilità a posterioriIl valore di Gf influenza la qualità dell’allineamentoprodotto:
Gf = 0⇒ sensibilità massima (massimizza lo score fD)Gf = 0.5⇒ massimizza la media AMAGf > 0.5⇒ sensibilità fortemente ridotta a favore di unaelevata specificità
Diverse istanze della famiglia sono usate nelle varie fasidell’algoritmo
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
PROBABILITÀ A POSTERIORI
Ricavate dal modello Pair Hidden Markov ModelPMatch(σq
i , σtj ): probabilità che l’i-esimo carattere della
q-esima sequenza sia allineato col j-esimo carattere dellat-esima sequenzaPMatch(σq
i ,−t): probabilità che l’i-esimo carattere della
q-esima sequenza sia allineato con uno spazio dellat-esima sequenzaI pesi associati alle coppie di colonne sono calcolatidinamicamente in base a:
probabilità a posteriorifattore di gap (ridotto progressivamente durantel’esecuzione)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
1 INTRODUZIONE
3 TOOLMultiLaganCLUSTALAMAPSAGA
2 APPROCCI AL PROBLEMA
4 CONFRONTO RISULTATI
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SAGASAGA (SEQUENCE ALIGNMENT BY GENETIC ALGORITHM)
Inizialmente si crea una popolazione di allineamenti (G0) inmaniera casualeLa dimensione della popolazione sarà mantenuta costanteper l’intera evoluzioneAd ogni iterazione la generazione attuale si evolve nellasuccessiva: i nuovi individui derivano da un singolo“genitore” (mutazione) o da una coppia (ricombinazione)Un individuo ha un numero di figli proporzionale alla bontàdella sua funzione obiettivoSe dopo un certo numero di iterazioni la funzione obiettivonon ha subito variazioni significative (popolazione stabile)l’algoritmo termina
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
FUNZIONE OBIETTIVO
La scelta della funzione obiettivo è cruciale: l’algoritmoprocede fino a raggiungere una popolazione che contengaallineamenti al di sotto di un certo costoGli autori propongono l’utilizzo di due funzioni:
1 WSP (Weighted Sum of Pairs): funzione SP “pesata”rispetto alla similarità fra coppie di sequenze
2 Affine gap penalties: determina il costo dei gap
Il costo dell’allineamento è dato da una combinazionelineare delle due
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEMA GENERALE
A10
A20
A30
An0
An-10
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEMA GENERALE
A10
A20
A30
An0
An-10
Valutazione
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEMA GENERALE
A10
A20
A30
An0
An-10
Valutazione
Popolazione stabile?
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEMA GENERALE
A10
A20
A30
An0
An-10
Valutazione
Popolazione stabile? SI
STOP
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEMA GENERALE
A10
A20
A30
An0
An-10
Valutazione
Popolazione stabile?NO
Riproduzione
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
RIPRODUZIONE
Overlapping generation: ad ogni passo solo unapercentuale limitata della popolazione viene rimpiazzata(50%)La scelta degli individui da rimpiazzare avvienegratuitamente durante la valutazione dello score: gli N/2allineamenti di costo più elevato sono destinati allasostituzioneExpected Offspring (EO): tasso di riproduzione di unindividuo, utilizzato per una selezione probabilistica dei“genitori”: se un individuo viene selezionato il suo EO èdiminuito per l’intero turno di riproduzione
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
OPERATORI
In SAGA gli operatori naturali di mutazione e ricombinazionesono implementati tramite:
Crossover: one-point, uniformGap insertionBlock shufflingBlock searchingLocal optimal rearrangements
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
OPERATORI
In SAGA gli operatori naturali di mutazione e ricombinazionesono implementati tramite:
Crossover: one-point, uniformGap insertionBlock shufflingBlock searchingLocal optimal rearrangements
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
OPERATORI
In SAGA gli operatori naturali di mutazione e ricombinazionesono implementati tramite:
Crossover: one-point, uniformGap insertionBlock shufflingBlock searchingLocal optimal rearrangements
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
CROSSOVER (RICOMBINAZIONE)
One point crossover: ricombina due allineamenti medianteun singolo scambio. Vengono prodotti due nuoviallineamenti (quello con lo score peggiore viene eliminato)Uniform crossover: meno distruttivo del precedente,promuove scambi fra zone di omologia. I blocchi dascambiare sono scelti fra posizioni consistentiConsistenza: dati due allineamenti, due posizioni sonoconsistenti se e solo se contengono in ogni riga ilmedesimo residuo
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
CROSSOVER
ESEMPIO
--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL
WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
CROSSOVER
ESEMPIO
--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL
WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
CROSSOVER
ESEMPIO
--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL
WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
CROSSOVER
ESEMPIO
--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL
WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-
--WGKVN---VDEVGEAL-WD--KVNEEE---VGEAL-WGK--VG--ANAGEYGEALWSK---GGHA--GEYGAE-
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
CROSSOVER
ESEMPIO
--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL
WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-
--WGKVN---VDEVGEAL-WD--KVNEEE---VGEAL-WGK--VG--ANAGEYGEALWSK---GGHA--GEYGAE-
WGK---WNVDEVG-GEALWGK---VNEEEVQ-CEALWGK-VGA-HAGEYGAEALWG-VVGGHAGE-YGHEAL
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
CROSSOVER
ESEMPIO
--WGKWNVDEVG-GEALWD--KVNEEEVQ-CEALWGKVGA-HAGEYGAEALWSKVGGHAGE-YGHEAL
WGKVN---VDEVGEAL-WGKVNEEE---VGEAL-WGKVG--ANAGEYGEALWG-VGGHA--GEYGAE-
--WGKVN---VDEVGEAL-WD--KVNEEE---VGEAL-WGK--VG--ANAGEYGEALWSK---GGHA--GEYGAE-
WGK---WNVDEVG-GEALWGK---VNEEEVQ-CEALWGK-VGA-HAGEYGAEALWG-VVGGHAGE-YGHEAL
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEDULAZIONE DINAMICA DEGLI OPERATORI
Ad ogni iterazione l’algoritmo sceglie l’operatore dautilizzare in maniera probabilisticaInizialmente gli operatori sono equiprobabiliLe probabilità iniziali (non necessariamente ottimali) sonomodificate dinamicamente durante l’esecuzioneLa probabilità associata all’operatore op è proporzionaleall’efficienza nelle ultime 10 generazioni (miglioramentodella qualità degli allineamenti prodotti tramite op)La probabilità associata ad un operatore resta in ogni casostrettamente maggiore di zero (per evitarne la scomparsa)
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEMA GENERALE
A11
A20
A30
An0
An-10
Valutazione Riproduzione
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEMA GENERALE
A11
A21
A30
An0
An-10
Valutazione Riproduzione
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEMA GENERALE
A11
A21
A31
An0
An-10
Valutazione Riproduzione
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEMA GENERALE
A11
A21
A31
An0
An-11
Valutazione Riproduzione
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEMA GENERALE
A11
A21
A31
An1
An-11
Valutazione Riproduzione
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
MultiLaganCLUSTALAMAPSAGA
SCHEMA GENERALE
A11
A21
A31
An1
An-11
ValutazionePopolazione stabile?
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
TestRisultati sperimentali
1 INTRODUZIONE
3 TOOL
2 APPROCCI AL PROBLEMA
4 CONFRONTO RISULTATITestRisultati sperimentali
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
TestRisultati sperimentali
1 INTRODUZIONE
3 TOOL
2 APPROCCI AL PROBLEMA
4 CONFRONTO RISULTATITestRisultati sperimentali
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
TestRisultati sperimentali
RISULTATIAMAP
Twilight-FP(209) Superfamilies-FP(425)
Tool fD AMA fD AMA Tempo
CLUSTALW 20.4 35.5 50.9 37.0 1.7 sec
DIALIGN 17.0 74.1 46.7 71.5 5.7 sec
ProbCons 26.8 55.6 56.0 55.0 28.5 sec
T-Coffee 13.0 56.5 42.5 56.6 61.2 sec
AMAPsens 27.3 68.3 56.1 63.8 13.5 sec
AMAP 19.2 84.4 46.4 84.2 11.2 sec
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
TestRisultati sperimentali
RISULTATISAGA VS CLUSTALW
CLUSTAL W
Proteina # seq Lunghezza Score % ALLIN. Tempo
Igb 32 144 31.812.824 55,86 60 sec
Ac-Protease2 10 186 10.514.101 41,02 16 sec
S-Protease2 12 281 16.354.800 64,37 21 sec
Globin2 12 171 5.249.682 94,90 18 sec
SAGA
Proteina # seq Lunghezza Score % ALLIN. Tempo
Igb 32 144 31.417.736 55,97 41.135 sec
Ac-Protease2 10 186 10.393.145 43,50 12.236 sec
S-Protease2 12 281 16.282.179 66,18 20.537 sec
Globin2 12 171 5.233.058 94,01 2.538 sec
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
TestRisultati sperimentali
BIBLIOGRAFIA I
Christopher Lee et al.: Multiple sequence alignmentusing partial order graphsBioinformatics, 2002Chuong B. Do et al.: ProbCons: Probabilisticconsistency-based multiple sequence alignmentGenome Research, 2005Michael Brudno et al.: Lagan and Multi-Lagan: EfficientTools for Large-Scale Multiple Alignment of GenomicDNAGenome Research, 2003
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
TestRisultati sperimentali
BIBLIOGRAFIA II
Michael Brudno et al.: The CHAOS/DIALIGN WWWserver for multiple alignment of genomic sequencesNucleic Acids Research, 2004Julie D.Thompson et al.: CLUSTALW: improving thesensitivity of progressive multiple sequence alignmentthrough sequence weighting, position-specific gappenalties and weight matrix choiceNucleic Acids Research, 1994Julie D. Thompson et al.: The CLUSTALX windowsinterface: flexible strategies for multiple sequencealignment aided by quality analysis toolsNucleic Acids Research, 1997
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto
IntroduzioneApprocci al problema
ToolConfronto risultati
TestRisultati sperimentali
BIBLIOGRAFIA III
Ramu Chenna et al.: Multiple sequence alignment withthe Clustal series of programsNucleic Acids Research, 2003
Ariel S. Schwartz, Lior Pachter: Multiple alignment bysequence annealingBioinformatics, 2006
Cédric Notredame, Desmond G. Higgins: SAGA:sequence alignment by genetic algorithmNucleic acid Research, 1996
A. Renieri, M. Tanca Tool di allineamento multiplo a confronto