38
ČAS 5 Globalno poravnanje Poluglobalno poravnanje Lokalno poravnanje

Globalno poravnanje Poluglobalno poravnanje Lokalno poravnanjepoincare.matf.bg.ac.rs/~nina/bioinf/5/cas05_v2.pdf · 2016. 3. 22. · Matrice supstitucije: PAM Point Accepted Mutation

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • ČAS 5

    Globalno poravnanje

    Poluglobalno poravnanje

    Lokalno poravnanje

  • PORAVNANJE

    CGCTAATC, CTAG

    CGCTAATC

    C--TAG--

    CGCTAATC

    --CTAG--

    CGCTAATC

    C--TA-G-

  • ZAŠTO JE PORAVNANJE SEKVENCI

    ZNAČAJNO?

    Ako je poravnanjem dve sekvence (gena)

    utvrđeno da su slični, to može ukazivati da su

    Ortolozi

    Paralozi

    Ksenolozi

  • PRIMER HORIZONTALNOG TRANSFERA

    Otpornost bakterija na antibiotike: urođena ili

    stečena

    Do stečene dolazi vertikalnim ili horizontalnim

    transferom gena, kod neodgovarajuće upotrebe

    antibiotika

    Vertikalni transfer – nasleđivanjem

    Horizontalni transfer – prenošenjem gena na

    ćelije u okruženju

  • ISTRAŽIVANJE

    Neodgovarajuća upotreba antibiotika na

    poljoprivrednim gazdinstvima – davanje

    antibiotika preventivno radi povećanja prinosa

    Posledica: razvoj animalnih bakterija otpornih na

    antibiotike (konkretno, kod bakterije

    Streptocmyces pneumoniae otpornost na

    antibiotik eritromicin)

    Zadatak istraživanja: ako se kod humanih

    bakterija utvrdi prisustvo istog gena (ermB), to bi

    značilo da je došlo do horizontalnog transfera

    prilikom ishrane

  • Korišćenje WEB alata:

    BLAST (nalaženje sličnih sekvenci)

    Višestruko poravnanje:

    Clustal Omega (poravnanje više proteinskih sekvenci)

    MUSCLE (MUltiple Sequence Comparison by Log- Expectation)

    MAFFT (Multiple Alignment using Fast Fourier Transform)

  • C A C G T A T

    0 -1 -2 -3 -4 -5 -6 -7

    C -1

    G -2

    C -3

    A -4

    Needleman - Wunsch Algoritam

    Inicijalizacija matrice

  • C A C G T A T

    0 -1 -2 -3 -4 -5 -6 -7

    C -1 X

    G -2

    C -3

    A -4

    X = 0 + match score OR -1 + gap score OR -1 + gap

    score

    = 1 OR -2 OR -2

    = 1

    Needleman - Wunsch Algoritam

    Računanje vrednosti u polju

  • C A C G T A T

    0 -1 -2 -3 -4 -5 -6 -7

    C -1 1 X

    G -2

    C -3

    A -4

    X = -1 + mismatch score OR -2 + gap score OR 1 + gap score

    = -1 OR -3 OR 0

    = 0

    Needleman - Wunsch Algoritam

    Računanje vrednosti u polju

  • C A C G T A T

    0 -1 -2 -3 -4 -5 -6 -7

    C -1 1 0 -1 -2 -3 -4 -5

    G -2 0 1 0 0 -1 -2 -3

    C -3 -1 0 2 1 0 -1 -2

    A -4 -2 0 1 2 1 1 0

    Needleman - Wunsch Algoritam

    Cela matrica skora

  • C A C G T A T

    0 -1 -2 -3 -4 -5 -6 -7

    C -1 1 0 -1 -2 -3 -4 -5

    G -2 0 1 0 0 -1 -2 -3

    C -3 -1 0 2 1 0 -1 -2

    A -4 -2 0 1 2 1 1 0

    Needleman - Wunsch Algorithm

    Određivanje putanja

  • C A C G T A T

    0 -1 -2 -3 -4 -5 -6 -7

    C -1 1 0 -1 -2 -3 -4 -5

    G -2 0 1 0 0 -1 -2 -3

    C -3 -1 0 2 1 0 -1 -2

    A -4 -2 0 1 2 1 1 0

    Needleman - Wunsch Algorithm

    Određivanje putanja

  • C A C G T A T

    0 -1 -2 -3 -4 -5 -6 -7

    C -1 1 0 -1 -2 -3 -4 -5

    G -2 0 1 0 0 -1 -2 -3

    C -3 -1 0 2 1 0 -1 -2

    A -4 -2 0 1 2 1 1 0

    Needleman - Wunsch Algorithm

    Određivanje putanja

  • C A C G T A T

    0 -1 -2 -3 -4 -5 -6 -7

    C -1 1 0 -1 -2 -3 -4 -5

    G -2 0 1 0 0 -1 -2 -3

    C -3 -1 0 2 1 0 -1 -2

    A -4 -2 0 1 2 1 1 0

    Needleman - Wunsch Algorithm

    Određivanje putanja

  • C A C G T A T

    0 -1 -2 -3 -4 -5 -6 -7

    C -1 1 0 -1 -2 -3 -4 -5

    G -2 0 1 0 0 -1 -2 -3

    C -3 -1 0 2 1 0 -1 -2

    A -4 -2 0 1 2 1 1 0

    Putanja 1: HDHHDDD

    Putanja 2: HDDDHHD

    Putanja 3: HDDDDHH

    Needleman - Wunsch Algorithm

    Određivanje putanja

  • Određivanje poravnanja za putanju 1

    Putanja 1: HDHHDDD

    Gornja sekvenca: CACGTAT

    Leva sekvenca: CGCA

    Horizontalno pomeranje – poravnaj karakter u

    gornjoj sekvenci i prazninu

    Trenutno poravnanje:

    T

    -

  • Određivanje poravnanja za putanju 1

    Putanja 1 : HDHHDDD

    Gornja sekvenca : CACGTAT

    Leva sekvenca : CGCA

    Dijagonalno pomeranje – poravnaj karakter u

    gornjoj sekvenci i karakter u donjoj sekvenci

    Trenutno poravnanje :

    AT

    A-

  • Određivanje poravnanja za putanju 1

    Putanja 1 : HDHHDDD

    Gornja sekvenca : CACGTAT

    Leva sekvenca : CGCA

    Horizontalno pomeranje – poravnaj karakter u

    gornjoj sekvenci i prazninu

    Trenutno poravnanje :

    TAT

    - A -

  • Određivanje poravnanja za putanju 1

    Putanja 1 : HDHHDDD

    Gornja sekvenca : CACGTAT

    Leva sekvenca : CGCA

    Horizontalno pomeranje – poravnaj karakter u

    gornjoj sekvenci i prazninu

    Trenutno poravnanje :

    GTAT

    - - A -

  • Određivanje poravnanja za putanju 1

    Putanja 1 : HDHHDDD

    Gornja sekvenca : CACGTAT

    Leva sekvenca : CGCA

    Dijagonalno pomeranje – poravnaj karakter u

    gornjoj sekvenci i karakter u donjoj sekvenci

    Trenutno poravnanje :

    CGTAT

    C - - A -

  • Određivanje poravnanja za putanju 1

    Putanja 1 : HDHHDDD

    Gornja sekvenca : CACGTAT

    Leva sekvenca : CGCA

    Dijagonalno pomeranje – poravnaj karakter u

    gornjoj sekvenci i karakter u donjoj sekvenci

    Trenutno poravnanje :

    ACGTAT

    GC- - A -

  • Određivanje poravnanja za putanju 1

    Putanja 1 : HDHHDDD

    Gornja sekvenca : CACGTAT

    Leva sekvenca : CGCA

    Dijagonalno pomeranje – poravnaj karakter u

    gornjoj sekvenci i karakter u donjoj sekvenci

    Trenutno poravnanje :

    CACGTAT

    CGC - - A - SCORE: 0

  • Poluglobalno poravnanje

    za poravnavanje dugačke sekvence sa kratkom

    sekvencom

    Primer: pokušavamo da utvrdimo da li se u genomu

    bakterije Serratia marcescenes (dužine oko 5 miliona

    nukleotida) nalazi gen sličan ermB (

  • Poluglobalno poravnanje

    Modifikacija Needleman-Wunsch-ovog algoritma

    za poluglobalno poravnanje:

    Elemente prve vrste i prve kolone postaviti na

    nulu.

    Prilikom računanja elemenata poslednje

    vrste/kolone, ne dodavati gapscore na na

    vrednost prethodnog elementa poslednje

    vrste/kolone.

    U odnosu na način popunjavanja matrice,

    izmeniti formiranje putanja.

  • Lokalno poravnanje

    za poravnanje sekvenci koje imaju vrlo slične delove

    (konzervirani regioni) i vrlo različite delove

    Na primer, dva ermB gena u organizmima koji nisu

    evolutivno bliski

    AAGCTCCGATCTCG

    TAAGCAAGAATCCGA

    niz praznih kod lokalnog poravnanja ne označava

    udaljavanje od idealnog poravnanja

  • Lokalno poravnanje

    Modifikacija Needleman-Wunsch-ovog algoritma

    za lokalno poravnanje – Smith-Waterman-ov

    algoritam:

    prvu i poslednju vrstu/kolonu inicijalizovati

    kao kod poluglobalnog poravnanja

    Ako je element matrice manji od nule,

    postaviti vrednost na nulu

    računanje poravnanja sada ne kreće od donjeg

    desnog elementa matrice već od maksimalnog,

    i ne ide do gornjeg levog već do prvog elementa

    jednakog nuli

  • Poravnanje proteinskih sekvenci

    •- identične amino kiseline

    : - slične amino kiseline

    . – manje slične amino kiseline

  • Poravnanje proteinskih sekvenci

    mutacije koje

    menjaju jednu

    amino kiselinu

    sa njoj sličnom

    ređe remete

    funkciju proteina

  • Poravnanje proteinskih sekvenci

    mutacije koje

    menjaju jednu

    amino kiselinu

    sa potpuno

    različitom često

    remete funkciju

    proteina

  • Poravnanje proteinskih sekvenci

    Poravnanje proteinskih sekvenci nam može dati

    odgovore na sledeća pitanja:

    1. Koja je funkcija nekog proteina? (slični proteini

    često imaju slične funkcije)

    2. Šta radi određeni deo proteina?

    3. Šta će se desiti ako kod određenog proteina dođe

    do mutacije?

    4. Šta izaziva oboljenja kao što su cistična fibroza,

    srpasta anemija, …?

  • Poravnanje proteinskih sekvenci

    Kako poravnavati proteine?

    1. Needleman-Wunsch

    2. Matrice supstitucije:

    1. match/mismatch skor na osnovu sličnosti aminokiselina

    2. osnovu skupa poznatih mutacijana osnovu hidrofobnosti

    3. konstruisane na

    PAM (zasnovana na osnovu globalnog poravnanja vrlo sličnih proteina)

    BLOSUM (zasnovana na osnovu lokalnog poravnanja vrlo sličnih proteina)

  • Poravnanje proteinskih sekvenci

    cas06/zadaci

  • Matrice supstitucije: PAM

    Point Accepted Mutation (1978)

    Konstruisana na osnovu globalnih poravnanja

    između blisko evolutivno povezanih sekvenci i

    njihovog pretka

    Osnovna PAM matrica se još zove i PAM1 jer se

    sekvence na osnovu kojih je konstruisana

    razlikuju za najviše 1%

    Vrednosti u matrici su logaritam verovatnoće

    svake promene – pozitivna vrednost znači da je

    verovatnoća mutacije češća nego očekivano, a

    negativna da je ređa

    PAMx=(PAM1)x - PAM30, PAM70, PAM150,

    PAM250

  • Matrice supstitucije: BLOSUM

    Block Substitution Matrix (1992)

    Konstruisana na osnovu lokalnih poravnanja

    konzerviranih regiona evolutivno udaljenih

    proteina

    Postoji više BLOSUM matrica, najčešće se koristi

    BLOSUM62

    BLOSUMx – x označava procenat sličnosti

    proteina na osnovu kojih je konstruisana matrica

  • Izgradnja matrice supstitucije

    Inicijalizovati frekvencije aminokiselina i parova na

    neku pseudovrednost (obično 1)

    na osnovu skupa poravnanja, izračunati:

    qij = (broj pojavljivanja ij poravnanja)/(ukupan broj

    poravnatih pozicija) – verovatnoća poravnanja

    aminokiseline i i aminokiseline j

    pi = (broj pojavljivanja aminokiseline i)/(ukupan broj

    pozicija aminokiselina) – verovatnoća pojavljivanja

    aminokiseline i

    eij = 2pipj (ako je ij)

    eij = pi2 (ako je i==j) – očekivanje ij poravnanja na

    osnovu verovatnoća pojavljivanja aminokiseline

    i i aminokiseline j

    sij=log2(qij/eij) – element matrice supstitucije

  • Izgradnja matrice supstitucije

    Primer: data su sledeća poravnanja:

    YFRFR FRFRFR YFYFR–F

    YF–FR ARFRFR YFRFRYF

    Odredimo vrednosti matrice za zamenu aminokiseline Y

    aminokiselimom R

    qRY=2/16 (broj poravnanja Y i R dodamo na

    pseudovrednost (najčešće 1) i podelimo sa ukupnim

    brojem parova ne računajući parove koji sadrže

    prazninu)

    pY=6/32 (broj pojavljivanja Y dodamo na pseudovrednost

    i podelimo sa ukupnim brojem aminokiselina ne

    računajući aminokiseline u parovima koji sadrže

    prazninu)

  • Izgradnja matrice supstitucije

    pR=12/32 (broj pojavljivanja R dodamo na

    pseudovrednost i podelimo sa ukupnim brojem

    aminokiselina ne računajući aminokiseline u

    parovima koji sadrže prazninu)

    Sada možemo izračunati eyr i syr. Vrednost syr je manja

    od nule što znači da se poravnanje Y-R dešava ređe

    nego očekivano s obzirom na broj pojavljivanja Y i R