Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
ČAS 5
Globalno poravnanje
Poluglobalno poravnanje
Lokalno poravnanje
PORAVNANJE
CGCTAATC, CTAG
CGCTAATC
C--TAG--
CGCTAATC
--CTAG--
CGCTAATC
C--TA-G-
ZAŠTO JE PORAVNANJE SEKVENCI
ZNAČAJNO?
Ako je poravnanjem dve sekvence (gena)
utvrđeno da su slični, to može ukazivati da su
Ortolozi
Paralozi
Ksenolozi
PRIMER HORIZONTALNOG TRANSFERA
Otpornost bakterija na antibiotike: urođena ili
stečena
Do stečene dolazi vertikalnim ili horizontalnim
transferom gena, kod neodgovarajuće upotrebe
antibiotika
Vertikalni transfer – nasleđivanjem
Horizontalni transfer – prenošenjem gena na
ćelije u okruženju
ISTRAŽIVANJE
Neodgovarajuća upotreba antibiotika na
poljoprivrednim gazdinstvima – davanje
antibiotika preventivno radi povećanja prinosa
Posledica: razvoj animalnih bakterija otpornih na
antibiotike (konkretno, kod bakterije
Streptocmyces pneumoniae otpornost na
antibiotik eritromicin)
Zadatak istraživanja: ako se kod humanih
bakterija utvrdi prisustvo istog gena (ermB), to bi
značilo da je došlo do horizontalnog transfera
prilikom ishrane
Korišćenje WEB alata:
BLAST (nalaženje sličnih sekvenci)
Višestruko poravnanje:
Clustal Omega (poravnanje više proteinskih sekvenci)
MUSCLE (MUltiple Sequence Comparison by Log- Expectation)
MAFFT (Multiple Alignment using Fast Fourier Transform)
C A C G T A T
0 -1 -2 -3 -4 -5 -6 -7
C -1
G -2
C -3
A -4
Needleman - Wunsch Algoritam
Inicijalizacija matrice
C A C G T A T
0 -1 -2 -3 -4 -5 -6 -7
C -1 X
G -2
C -3
A -4
X = 0 + match score OR -1 + gap score OR -1 + gap
score
= 1 OR -2 OR -2
= 1
Needleman - Wunsch Algoritam
Računanje vrednosti u polju
C A C G T A T
0 -1 -2 -3 -4 -5 -6 -7
C -1 1 X
G -2
C -3
A -4
X = -1 + mismatch score OR -2 + gap score OR 1 + gap score
= -1 OR -3 OR 0
= 0
Needleman - Wunsch Algoritam
Računanje vrednosti u polju
C A C G T A T
0 -1 -2 -3 -4 -5 -6 -7
C -1 1 0 -1 -2 -3 -4 -5
G -2 0 1 0 0 -1 -2 -3
C -3 -1 0 2 1 0 -1 -2
A -4 -2 0 1 2 1 1 0
Needleman - Wunsch Algoritam
Cela matrica skora
C A C G T A T
0 -1 -2 -3 -4 -5 -6 -7
C -1 1 0 -1 -2 -3 -4 -5
G -2 0 1 0 0 -1 -2 -3
C -3 -1 0 2 1 0 -1 -2
A -4 -2 0 1 2 1 1 0
Needleman - Wunsch Algorithm
Određivanje putanja
C A C G T A T
0 -1 -2 -3 -4 -5 -6 -7
C -1 1 0 -1 -2 -3 -4 -5
G -2 0 1 0 0 -1 -2 -3
C -3 -1 0 2 1 0 -1 -2
A -4 -2 0 1 2 1 1 0
Needleman - Wunsch Algorithm
Određivanje putanja
C A C G T A T
0 -1 -2 -3 -4 -5 -6 -7
C -1 1 0 -1 -2 -3 -4 -5
G -2 0 1 0 0 -1 -2 -3
C -3 -1 0 2 1 0 -1 -2
A -4 -2 0 1 2 1 1 0
Needleman - Wunsch Algorithm
Određivanje putanja
C A C G T A T
0 -1 -2 -3 -4 -5 -6 -7
C -1 1 0 -1 -2 -3 -4 -5
G -2 0 1 0 0 -1 -2 -3
C -3 -1 0 2 1 0 -1 -2
A -4 -2 0 1 2 1 1 0
Needleman - Wunsch Algorithm
Određivanje putanja
C A C G T A T
0 -1 -2 -3 -4 -5 -6 -7
C -1 1 0 -1 -2 -3 -4 -5
G -2 0 1 0 0 -1 -2 -3
C -3 -1 0 2 1 0 -1 -2
A -4 -2 0 1 2 1 1 0
Putanja 1: HDHHDDD
Putanja 2: HDDDHHD
Putanja 3: HDDDDHH
Needleman - Wunsch Algorithm
Određivanje putanja
Određivanje poravnanja za putanju 1
Putanja 1: HDHHDDD
Gornja sekvenca: CACGTAT
Leva sekvenca: CGCA
Horizontalno pomeranje – poravnaj karakter u
gornjoj sekvenci i prazninu
Trenutno poravnanje:
T
-
Određivanje poravnanja za putanju 1
Putanja 1 : HDHHDDD
Gornja sekvenca : CACGTAT
Leva sekvenca : CGCA
Dijagonalno pomeranje – poravnaj karakter u
gornjoj sekvenci i karakter u donjoj sekvenci
Trenutno poravnanje :
AT
A-
Određivanje poravnanja za putanju 1
Putanja 1 : HDHHDDD
Gornja sekvenca : CACGTAT
Leva sekvenca : CGCA
Horizontalno pomeranje – poravnaj karakter u
gornjoj sekvenci i prazninu
Trenutno poravnanje :
TAT
- A -
Određivanje poravnanja za putanju 1
Putanja 1 : HDHHDDD
Gornja sekvenca : CACGTAT
Leva sekvenca : CGCA
Horizontalno pomeranje – poravnaj karakter u
gornjoj sekvenci i prazninu
Trenutno poravnanje :
GTAT
- - A -
Određivanje poravnanja za putanju 1
Putanja 1 : HDHHDDD
Gornja sekvenca : CACGTAT
Leva sekvenca : CGCA
Dijagonalno pomeranje – poravnaj karakter u
gornjoj sekvenci i karakter u donjoj sekvenci
Trenutno poravnanje :
CGTAT
C - - A -
Određivanje poravnanja za putanju 1
Putanja 1 : HDHHDDD
Gornja sekvenca : CACGTAT
Leva sekvenca : CGCA
Dijagonalno pomeranje – poravnaj karakter u
gornjoj sekvenci i karakter u donjoj sekvenci
Trenutno poravnanje :
ACGTAT
GC- - A -
Određivanje poravnanja za putanju 1
Putanja 1 : HDHHDDD
Gornja sekvenca : CACGTAT
Leva sekvenca : CGCA
Dijagonalno pomeranje – poravnaj karakter u
gornjoj sekvenci i karakter u donjoj sekvenci
Trenutno poravnanje :
CACGTAT
CGC - - A - SCORE: 0
Poluglobalno poravnanje
za poravnavanje dugačke sekvence sa kratkom
sekvencom
Primer: pokušavamo da utvrdimo da li se u genomu
bakterije Serratia marcescenes (dužine oko 5 miliona
nukleotida) nalazi gen sličan ermB (
Poluglobalno poravnanje
Modifikacija Needleman-Wunsch-ovog algoritma
za poluglobalno poravnanje:
Elemente prve vrste i prve kolone postaviti na
nulu.
Prilikom računanja elemenata poslednje
vrste/kolone, ne dodavati gapscore na na
vrednost prethodnog elementa poslednje
vrste/kolone.
U odnosu na način popunjavanja matrice,
izmeniti formiranje putanja.
Lokalno poravnanje
za poravnanje sekvenci koje imaju vrlo slične delove
(konzervirani regioni) i vrlo različite delove
Na primer, dva ermB gena u organizmima koji nisu
evolutivno bliski
AAGCTCCGATCTCG
TAAGCAAGAATCCGA
niz praznih kod lokalnog poravnanja ne označava
udaljavanje od idealnog poravnanja
Lokalno poravnanje
Modifikacija Needleman-Wunsch-ovog algoritma
za lokalno poravnanje – Smith-Waterman-ov
algoritam:
prvu i poslednju vrstu/kolonu inicijalizovati
kao kod poluglobalnog poravnanja
Ako je element matrice manji od nule,
postaviti vrednost na nulu
računanje poravnanja sada ne kreće od donjeg
desnog elementa matrice već od maksimalnog,
i ne ide do gornjeg levog već do prvog elementa
jednakog nuli
Poravnanje proteinskih sekvenci
•- identične amino kiseline
: - slične amino kiseline
. – manje slične amino kiseline
Poravnanje proteinskih sekvenci
mutacije koje
menjaju jednu
amino kiselinu
sa njoj sličnom
ređe remete
funkciju proteina
Poravnanje proteinskih sekvenci
mutacije koje
menjaju jednu
amino kiselinu
sa potpuno
različitom često
remete funkciju
proteina
Poravnanje proteinskih sekvenci
Poravnanje proteinskih sekvenci nam može dati
odgovore na sledeća pitanja:
1. Koja je funkcija nekog proteina? (slični proteini
često imaju slične funkcije)
2. Šta radi određeni deo proteina?
3. Šta će se desiti ako kod određenog proteina dođe
do mutacije?
4. Šta izaziva oboljenja kao što su cistična fibroza,
srpasta anemija, …?
Poravnanje proteinskih sekvenci
Kako poravnavati proteine?
1. Needleman-Wunsch
2. Matrice supstitucije:
1. match/mismatch skor na osnovu sličnosti aminokiselina
2. osnovu skupa poznatih mutacijana osnovu hidrofobnosti
3. konstruisane na
PAM (zasnovana na osnovu globalnog poravnanja vrlo sličnih proteina)
BLOSUM (zasnovana na osnovu lokalnog poravnanja vrlo sličnih proteina)
Poravnanje proteinskih sekvenci
cas06/zadaci
Matrice supstitucije: PAM
Point Accepted Mutation (1978)
Konstruisana na osnovu globalnih poravnanja
između blisko evolutivno povezanih sekvenci i
njihovog pretka
Osnovna PAM matrica se još zove i PAM1 jer se
sekvence na osnovu kojih je konstruisana
razlikuju za najviše 1%
Vrednosti u matrici su logaritam verovatnoće
svake promene – pozitivna vrednost znači da je
verovatnoća mutacije češća nego očekivano, a
negativna da je ređa
PAMx=(PAM1)x - PAM30, PAM70, PAM150,
PAM250
Matrice supstitucije: BLOSUM
Block Substitution Matrix (1992)
Konstruisana na osnovu lokalnih poravnanja
konzerviranih regiona evolutivno udaljenih
proteina
Postoji više BLOSUM matrica, najčešće se koristi
BLOSUM62
BLOSUMx – x označava procenat sličnosti
proteina na osnovu kojih je konstruisana matrica
Izgradnja matrice supstitucije
Inicijalizovati frekvencije aminokiselina i parova na
neku pseudovrednost (obično 1)
na osnovu skupa poravnanja, izračunati:
qij = (broj pojavljivanja ij poravnanja)/(ukupan broj
poravnatih pozicija) – verovatnoća poravnanja
aminokiseline i i aminokiseline j
pi = (broj pojavljivanja aminokiseline i)/(ukupan broj
pozicija aminokiselina) – verovatnoća pojavljivanja
aminokiseline i
eij = 2pipj (ako je ij)
eij = pi2 (ako je i==j) – očekivanje ij poravnanja na
osnovu verovatnoća pojavljivanja aminokiseline
i i aminokiseline j
sij=log2(qij/eij) – element matrice supstitucije
Izgradnja matrice supstitucije
Primer: data su sledeća poravnanja:
YFRFR FRFRFR YFYFR–F
YF–FR ARFRFR YFRFRYF
Odredimo vrednosti matrice za zamenu aminokiseline Y
aminokiselimom R
qRY=2/16 (broj poravnanja Y i R dodamo na
pseudovrednost (najčešće 1) i podelimo sa ukupnim
brojem parova ne računajući parove koji sadrže
prazninu)
pY=6/32 (broj pojavljivanja Y dodamo na pseudovrednost
i podelimo sa ukupnim brojem aminokiselina ne
računajući aminokiseline u parovima koji sadrže
prazninu)
Izgradnja matrice supstitucije
pR=12/32 (broj pojavljivanja R dodamo na
pseudovrednost i podelimo sa ukupnim brojem
aminokiselina ne računajući aminokiseline u
parovima koji sadrže prazninu)
Sada možemo izračunati eyr i syr. Vrednost syr je manja
od nule što znači da se poravnanje Y-R dešava ređe
nego očekivano s obzirom na broj pojavljivanja Y i R