Filogenetine analize

Embed Size (px)

DESCRIPTION

Filogenetine analize

Citation preview

  • 1

    Filogenetin analiz

    2

    Filogenetin analiz

    Klausimai:

    Kas tai yra?

    Kokie duomenys yra naudojami?

    Kokie daniausiai naudojami metodai?

    Kaip vertinti patikimum?

  • 2

    3

    Kas tai yra?

    Filogenez bendru protviu grindiamas organizm evoliucinis sryis

    Filogenetika tyrinjim sritis, kurios tikslas aptikti ri evoliucinius sryius

    (Graikikai: phylon = ris and genetic = gimimas)

    4

    Susijusios sritys

    Filogenetika tiria evoliucinius sryius tarp populiacij

    Filogenomika filogenetini metod taikymas pilnai sekvenuot genom analizei

    Filogeografija tiria populiacijos evoliucijos proces (reikalingi isams populiaciniai duomenys)

    Delsuc F, Brinkmann H, Philippe H.

    Phylogenomics and the reconstruction of the tree of life. Nat Rev Genet. 2005 6(5):361-75.

    Brito, P.H., Edwards, S.V.,

    Multilocus phylogeography and phylogenetics using sequence-based markers. Genetica. 2008.

  • 3

    5

    Filogenetika kas tai?

    Evoliucin biologija

    Graf teorija

    Kompiuteriniai algoritmai

    Filogenetika

    6

    Filogenetika, kur tai taikoma?

    Galima iskirti dvi filogenetikos ris:

    Klasikin lygina fizines ir morfologines savybes

    Molekulin naudoja informacij gaut tiriant DNR ir baltymus

    Molekulin filogenetika taikoma:

    Iekant panaumo tarp tiriam genetini sek

    Iekant bendros struktros

    Iekant bendros funkcijos

    Iekant susijusi genetini sek ar poseki

    Iekant bendro protvio

    Iekant informatyvi sek element

    Tiriant iraiking genetini sek pasikartojim danius

    Tiriant evoliucijos konservatyvum

  • 4

    7

    Filogenetinis medis

    Orangutan Gorilla Chimpanzee Human

    From the Tree of the Life Website,

    University of Arizona

    Did the Florida Dentist infect his patients with HIV?

    DENTIST

    DENTIST

    Patient D

    Patient F

    Patient C

    Patient A

    Patient G

    Patient B

    Patient E

    Patient A

    Local control 2

    Local control 3

    Local control 9

    Local control 35

    Local control 3

    Yes: The HIV sequences from

    these patients fall within

    the clade of HIV sequences

    found in the dentist.

    No

    No

    From Ou et al. (1992) and Page & Holmes (1998)

    Phylogenetic tree

    of HIV sequences

    from the DENTIST,

    his Patients, & Local

    HIV-infected People:

  • 5

    9

    Datos nustatymas (angl. dating)

    akn turintis filogenetinis medis yra tiktinas genetini pokyi chronologijos variantas

    Vienoje pokyiai vienoje evoliucijos akoj (angl. clade) vaizduojami ariau medio lap yra vyk vliau nei esantys ariau aknies

    10

    Filogenetiniai mediai

    Mediai esybi ryiams vaizduoti

    Intuityvus, patrauklus vaizdavimas

    Naudojamas daugelyje disciplin

  • 6

    11

    Filogenetiniai mediai svokos

    12

    Filogenetiniai mediai svokos

  • 7

    13

    Filogenetiniai mediai svokos

    14

    Filogenetiniai mediai galimi variantai

    n = duomen skaiius

    Medi skaiius turini aknis for n = 3.

    akn turini medi NR = (2n-3)!/2n-2(n-2)!

    aknies neturini medi NU = (2n-5)!/2n-3(n-3)!

    1 1 3

    2 3 2

    3 -> ((1, 2), 3) 2 -> ((1, 3), 2) 1 -> ((3, 2), 1)

    Newicko formatas

    n NR NU

    2 1 1

    3 3 1

    5 105 15

    10 34x106 2x106

    15 213x1012 7x1012

    20 8x1021 0.2x1021

  • 8

    15

    Filogenetins analizs ingsniai

    Galima iskirti iuos filogenetins analizs ingsnius:

    Duomen sek filogenetinei analizei parinkimas

    Duomen sek sulygiavimas (angl. multiple sequence alignment)

    Medio konstravimas

    Medio vertinimas

    Jonathan Pevsner Bioinformatics and Functional Genomics 2003

    16

    Duomen sek filogenetinei analizei

    parinkimas

    Filogenetinei analizei parenkamos homologins sekos:

    Nukleotidins sekos

    Baltym sekos

    Baltym sek analiz informatyvesn tiriant labiau nutolusius objektus

    Nukleotid sek analiz informatyvesn tiriant labiau susijusius objektus

  • 9

    17

    Duomen sek filogenetinei analizei

    parinkimas

    Baltym sekose:

    Yra 20 galim bsen (aminorgi)

    Nukleotidini sekose:

    Sinonimins ir nesinonimins pakaitos

    Nekoduojanios sritys

    Pseudogenai

    Galima vertinti vairi pakait danius (pvz.: tranzicijos vs transversijos)

    18

    Duomen sek sulygiavimas

    Prie atliekant palyginamj analiz sekos turi bti sulygiuojamos

    Maksimizuojant sutampanias lygiuojamas bazes (panaumo metodas)

    Minimizuojant nesutampanias lygiuojamas bazes (atstumo metodas)

    Tarpai atsirandantys dl ikrit ar intarp, kur sekos nesutampa minimizuojami

  • 10

    19

    Duomen sek sulygiavimas,

    panaumo matai Paprasiausi panaumo matai:

    Hemingo (angl. Hamming) atstumas skaiius pozicij, kuriose sekos skiriasi (tinka tik vienodo ilgio sekoms)

    Leventeino (angl. Levenshtein) arba redagavimo (angl. edit) atstumas skaiius redagavimo operacij vienoje sekoje, kad sekos tapt lygiom (tinka ir skirtingo ilgio sekoms)

    Pvz.:

    20

    Duomen sek sulygiavimas,

    panaumo matai Sek palyginimas

  • 11

    21

    Duomen sek sulygiavimas,

    panaumo matai

    Sudtingesni modeliai leidia atsivelgti daugiau vairi kriterij, pavyzdiui, kad kintant nukleotid sekoms tranzicijos yra danesns negu transversijos:

    Amino rgi sekoms pakait matricos gali bti sudaromas vertinant pakait danius (Pvz.: Dayhoff, BLOSUM matricos)

    Arthur M. Lesk Introduction to Bioinformatics 2 ed. 2005.

    22

    Sulygiavimo su ClustaW pavyzdys

  • 12

    23

    Filogenetinio medio formavimas

    24

    Genetiniai atstumai

    Genetinis atstumas tai statistika leidianti vertinti, kaip populiacijos ar atskiros molekuls yra susij tarpusavyje.

    Taip pat tai atstumas genolapyje

    apibriamas rekombinacij daniu ir matuojamas santimorganomis (cM)

  • 13

    25

    Genetiniai atstumai

    Kuo didesnis evoliucinis atstumas tarp populiacij

    ar molekuli, tuo didesn genetinio atstumo

    statistikos reikm

    Genetinio atstumo statistikos veriai leidia

    pasakyti ne tik, kad C ir D yra kil i ankstesnio

    protvio nei A ir B, bet kad j protvis yra,

    pavyzdiui, dvigubai senesnis

    Pagal genetinius atstumus galima sudarinti

    filogenetinius medius

    26

    Genetiniai atstumai tarp sulygiuot sek

    Hemingo atstumas

    Juke-Cantor atstumas

    Kimura atstumas

    skaiius srii kuriose tiriamos sekos skiriasi

    tiriam nukleotid ar amino rgi sek ilgis

    )3

    41ln(

    4

    3HJC DD

    N

    nDH

    )21

    1ln(

    4

    1)

    21

    1ln(

    2

    180

    QQPDK

    N

    nQ

    josTransverti

    N

    nP

    sTranzicijo

  • 14

    27

    Genetiniai atstumai tarp sulygiuot sek

    1. AGGCC ATGAA TTAAG AATAA

    2. AGCCC ATGTA TAAAG AGTAA

    2,020

    4HD

    23,0)10

    2

    3

    41ln(

    4

    3JCD

    23,0)

    20

    321

    1ln(

    4

    1)

    20

    3

    20

    121

    1ln(

    2

    180

    KD

    28

    Genetiniai atstumai tarp populiacij

    Paprasiausias genetinio atstumo matas tarp dviej populiacij X ir Y, yra suma pasirinktos genetins srities (angl. locus) aleli dani skirtum

    io mato trkumas, kad daniams esant arti 0% arba 100% yra suteikiamas

    nepakankamas svoris.

    2)(

    i

    ii yxdxi, yi i-tojo alelio danis

    atitinkamai populiacijoje X ir Y

  • 15

    29

    Genetiniai atstumai tarp populiacij

    )1( pp

    VF

    p

    ST

    Danai naudojami klasikiniai genetinio atstumo matai yra FST ir D

    )ln(22

    i

    ii

    i

    ii

    yx

    yx

    D

    Vp gen dani populiacijose dispersija

    p gen dani populiacijose vidurkis

    xi, yi i-tojo alelio danis atitinkamai

    populiacijoje X ir Y

    30

    Populiacijos ir molekulinius genetinius

    atstumus skaiiuojanti programin ranga

    * Mark Jobling, Matthew Hurles, Chris Tyler-Smith

    Human Evolutionary Genetics: Origins, Peoples and Disease 2003

  • 16

    31

    Filogenetiniai mediai metodai

    Filogenetiniai metodai yra klasifikuojami

    Pagal tiriam duomen tip

    Medio konstravimo bd

    Tiriami duomenys yra dviej klasi

    Atstum

    Element (angl. characters)

    Skiriamos dvi medi konstravimo metod klass

    Blokini sudarymo (angl. clustering) metodai

    Paiekos metodai

    32

    Filogenetiniai metodai UPGMA

    Paingsninis blokini sudarymo metodas

    Privalumas

    Patogus pateikimas iuo metu egzistuojani takson

    Trkumas

    Yra vadovaujamasi prielaida, kad evoliucijos

    procesas visus taksonus veikia vienodai

    Nepasvert por-grupi metodas su aritmetiniu vidurkiu (UPGMA)

    Algoritmo pavyzd galima rasti: http://www.icp.be/~opperd/private/upgma.html

  • 17

    33

    Filogenetiniai metodai UPGMA Jonathan Pevsner

    Bioinformatics and Functional Genomics

    2003

    34

    Filogenetiniai metodai UPGMA

    1. Pasirenkama maiausia Dij reikm

    2. Maiausi atstum turinios reikms sujungiamos ir atstumai iki bendro

    protvio priskiriami lygs Dij/2

    Dij Lokys Meknas ebenktis Ruonis

    Lokys - 0.26 0.34 0.29

    Meknas - 0.42 0.44

    ebenktis - 0.44

    Ruonis -

    Lokys Meknas

    0.13 0.13

  • 18

    35

    Filogenetiniai metodai UPGMA

    3. Suskaiiuoti nauj bendro tako atstum iki kit ri. Imant aritmetin vidurki vis bendr tak sudarani element atstum iki kit ri.

    Lokys Meknas

    0.13 0.13

    365.02

    44.029.0

    2

    38.02

    42.034.0

    2

    )(

    )(

    RMRLLMR

    ML

    LM

    DDD

    DDD

    Dij Lokys Meknas ebenktis Ruonis

    Lokys - 0.26 0.34 0.29

    Meknas - 0.42 0.44

    ebenktis - 0.44

    Ruonis -

    36

    Filogenetiniai metodai UPGMA

    Pradedame algoritm i pradi ir tsiame kol visi elementai bus sujungti:

    Pasirenkama maiausia Dij reikm

    Maiausi atstum turinios reikms sujungiamos ir atstumai iki bendro

    protvio priskiriami lygs Dij/2

    Dij

    Lokys /

    Meknas ebenktis Ruonis

    Lokys /

    Meknas - 0.38 0.365

    ebenktis - 0.44

    Ruonis -

    Lokys Meknas Ruonis 0.13

    0.1825 0.1825

  • 19

    37

    Filogenetiniai metodai UPGMA Dij Lokys /

    Meknas ebenktis Ruonis

    Lokys /

    Meknas - 0.38 0.365

    ebenktis - 0.44

    Ruonis -

    Lokys Meknas Ruonis 0.13

    0.1825 0.1825

    205.02

    44.038.0

    2)(

    RLMLMR

    DDD

    Dij LMR ebenktis

    LMR - 0.41

    ebenktis -

    Lokys Meknas Ruonis 0.13

    0.1825

    0.205

    0.205

    ebenktis

    38

  • 20

    39

    40

  • 21

    41

    Udavinys

    Duotos 5 skirtingos sekos:

    1: G G G A G G A T C A

    2: G G G A G T A T C A

    3: G G A T A G A C A T

    4: G A T C A T G T A T

    5: G T T C A T A T C T

    Sudarykite atstum matric ir nubraiykite UPGMA filogenetin med.

    42

    Filogenetiniai metodai UPGMA

    2 3

    4 1 1 4 3 2

    Tikras medis UPGMA

    Atgal prie trkum:

    Metodas traktuoja, kad molekulinis laikrodis eina pastoviai (mutacijos gyjamos vienodu tempu)

    iuo metodu sudaromi tik akn turintys mediai

  • 22

    43

    Filogenetiniai metodai

    Kaimyn-Jungimo (angl. Neighbor-Joining)

    Blokini sudarymo metodas siekiantis rasti minimali ak ilgi sumos (S) reikm

    Labai greitas paingsninis metodas

    Pradedamas nuo vaigdinio medio

    Visos galimos takson poros peririmos

    Pora davusi maiausi S reikm sujungiama

    Atstumas iki sujungto elemento yra vidurkis

    atstum iki sudtinio elemento nari

    44

    Filogenetiniai metodai

    Kaimyn-Jungimo (angl. Neighbor-Joining)

    Pavyzdys

  • 23

    45

    Kaimyn-Jungimo metodas: pavyzdys

    Tarkime tiriamos rys vystsi, kaip pavaizduota evoliuciniame medyje ir atitinkama atstum matrica yra:

    I atstum matricos matome, kad UPGMA metodas nra tinkamas, nes evoliucija skirtingose evoliucijos medio akose vyko skirtingais tempais, todl Kaimyn-Jungimo metodas turt duoti tikslesn rezultat

    A B C D E

    B 5

    C 4 7

    D 7 10 7

    E 6 9 6 5

    F 8 11 8 9 8

    46

    Kaimyn-Jungimo metodas: pavyzdys

    Algoritmas:

    1. Suskaiiuojami kiekvienos ries nuotolis nuo kit

    dij A B C D E

    B 5

    C 4 7

    D 7 10 7

    E 6 9 6 5

    F 8 11 8 9 8

    j

    iji drdij i-tosios ries

    nuotolis nuo j-tosios

    rA = 5+4+7+6+8=30

    rB = 42

    rC = 32

    rD = 38

    rE = 34

    rF = 44

    2. Suskaiiuojame nauj atstum matric pagal formul

    2

    N

    rrdM

    ji

    ijij

    Mij naujos atstum

    matricos elementas

    N ri (angl. taxa)

    skaiius

  • 24

    47

    Kaimyn-Jungimo metodas: pavyzdys

    1326

    42305

    2

    N

    rrdM BAABAB

    dij A B C D E

    B 5

    C 4 7

    D 7 10 7

    E 6 9 6 5

    F 8 11 8 9 8

    2. Suskaiiuojame nauj atstum matric pagal formul

    2

    N

    rrdM

    ji

    ijij

    rA = 30

    rB = 42

    rC = 32

    rD = 38

    rE = 34

    rF = 44

    Pavyzdiui

    Mij A B C D E

    B -13

    C -11,5 -11,5

    D -10 -10 -10,5

    E -10 -10 -10,5 -13

    F -10,5 -10,5 -11 -11,5 -11,5

    48

    Kaimyn-Jungimo metodas: pavyzdys

    3. Suporuojame tuos du elementus, kuri tarpusavio atstumas maiausias (ms atveju A ir B arba D ir E) pasirinkime A ir B.

    F A B

    E C

    D

    Mij A B C D E

    B -13

    C -11,5 -11,5

    D -10 -10 -10,5

    E -10 -10 -10,5 -13

    F -10,5 -10,5 -11 -11,5 -11,5

    Dabar pradsime nuo vaigdinio medio

  • 25

    49

    Kaimyn-Jungimo metodas: pavyzdys

    3. Taip pat suskaiiuojame atstumus iki i element bendro protvio

    dij A B C D E

    B 5

    C 4 7

    D 7 10 7

    E 6 9 6 5

    F 8 11 8 9 8 1)2(22

    N

    rrdS BAABAU

    rA = 30

    rB = 42

    rC = 32

    rD = 38

    rE = 34

    rF = 44

    4 AUABBU SdS

    4. Suskaiiuojama vis element atstumus iki naujo elemento (jungianio A ir B)

    32

    ABBCACCUd

    ddd Analogikai su likusiais elementais

    dDU = 6

    dEU = 5

    dFU = 7

    Suskaiiav naujus atstumus suraome juos nauj atstum matric

    50

    Kaimyn-Jungimo metodas: pavyzdys

    Naujai suskaiiuota atstum matrica

    Vis tai galime pavaizduoti mediu:

    dij U C D E

    C 3

    D 6 7

    E 5 6 5

    F 7 8 9 8 D C

    A

    1

    4

    E F B

    N = N 1

    Ir vis procedr kartojame i pradi

  • 26

    51

    Kaimyn-Jungimo metodas

    Privalumai

    Greitas, tinkamas dideliems duomen kiekiams ir kokybs vertinimui Bootstrap metodu

    Toleruoja skirtingus akos ilgius vienoje genetinje linijoje

    Trkumai

    Sekos informacija neinaudojama

    Grainamas tik vienas galimas medis

    52

    Kaimyn-Jungimo metodas - pavyzdys

    Filogenetinis medis buvo sudarytas naudojant

    Phylip programin rang

    http://evolution.gs.washington.edu/phylip.html

    Neighbor Joining (Kaimyn-Jungimo) Metodu

    Medis pavaizduotas TreeView programine ranga

    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

  • 27

    53

    Elementais grindiami filogenetiniai

    metodai maksimalaus yktumo metodas

    Maksimaliai yktus (angl. parsimony) medis

    Maiausias evoliucini pokyi skaiius paaikinantis duomenis

    ak ilgis individuali evoliucijos ingsni toje akoje skaiius

    Iekant maksimaliai yktaus medio yra peririmos visos galimos medi topologijos, todl is metodas nra tinkamas esant dideliems duomen

    54

    Elementais grindiami filogenetiniai

    metodai maksimalaus yktumo metodas

    Maksimalaus yktumo metodas gali naudoti informacij apie skirting mutacij danius:

    Transversijos vyksta reiau nei tranzicijos

    inomos daniausiai kintanios (angl. hypermutable) sritys

  • 28

    55

    Elementais grindiami filogenetiniai

    metodai maksimalaus yktumo metodas

    Maksimalaus yktumo metodas yra jautrus nevienodiems evoliucijos daniams

    56

    Maksimalaus yktumo metodas: pavyzdys

    Tarkime, turime homologines

    sekas

    Galim aknies neturini medi skaiius yra 3

    Taigi perrenkame juos tirdami,

    kuris i j reikalauja maiausiai evoliucini ingsni

    Seka Sritis

    1 2 3 4 5 6 7 8 9

    1 A A G A G T G C A

    2 A G C C G T G C G

    3 A G A T A T C C A

    4 A G A G A T C C G

  • 29

    57

    Maksimalaus yktumo metodas: pavyzdys

    Labiausiai yktus medis

    58

    Maksimalaus yktumo metodas

    Privalumai:

    Nesumaina sekos informacijos iki vieno skaiiaus

    Bandoma apibrti ir protvi sekas

    vertinami skirtingi mediai

    Trkumai:

    Palyginus su atstum matricom grindiamais metodais yra ltas

    Nenaudoja visos sek informacijos, tik informatyvias sritis

    Neatsivelgiama grtamsias mutacijas

    Nepateikia informacijos apie medio ak ilgius

  • 30

    59

    Elementais grindiami filogenetiniai

    metodai maksimalaus yktumo metodas

    Maksimaliai ykt med galima sivaizduoti, kaip hipotez siekiani paaikinti duomenis

    Alternatyvs mediai = alternatyvius hipotezs

    Hipotezs tikrinamos naudojant tiktinumus

    Fiksuojamas evoliucijos modelis

    Vertiname tikimybes, kad tikrinamas modelis

    sugeneruos tiriamus duomenis

    60

    Programin ranga filogenetinei analizei

    Joe Felsenstein, University of Washington

    http://evolution.genetics.washington.edu/phylip/software.html

  • 31

    61

    Filogenezs patikimumo vertinimas

    Patikimumas dar gali bti vertintas naudojant Bootstrap metod

    Idja jei duomenys stipriai atitinka med, tai atsitiktinai pasirinktas j poaibis turi irgi atitikti tiriam med

    Naujo medio sudarymui duomenys atsitiktinai paimami i turim

    duomen tai kartojama daug kart

    Turimas duomen rinkinys

    Naujas duomen rinkinys

    Gavus naujus

    duomenis yra vl sudaromas

    filogenetinis medis ir

    po daugelio

    simuliacij irima kiek kart, kuri medio aka pasikartojo

    62

    Bootstrap metodo taikymo pavyzdys

    Tarkime tiriamos sekos

    Suskaiiuojame atstum matric ir nubraiome filogenetin med

  • 32

    63

    Bootstrap metodo taikymo pavyzdys

    Patikrinsime savo medio tiktinum Bootstrap metodu

    Atsitiktinai sugeneruosime tris duomen rinkinius

    Jiems sudarysime filogenetinius medius

    vertinsime kiek kart atliekant simuliacijas pasirod virni deriniai

    64

    Bootstrap metodo taikymo pavyzdys

    Pradins sekos

    Sugeneruotos sekos

  • 33

    65

    Bootstrap metodo taikymo pavyzdys

    Pradins sekos

    Sugeneruotos sekos

    Rezultatas

    66

    Viso genomo analiz

    Delsuc F, Brinkmann H, Philippe H. Phylogenomics and the reconstruction of the tree of life. Nat Rev Genet. 2005