20
matematika v biologii: fylogenetika David Černý David Černý

matematika v biologii: fylogenetika

Embed Size (px)

Citation preview

Page 1: matematika v biologii: fylogenetika

matematika v biologii: fylogenetika

David ČernýDavid Černý

Page 2: matematika v biologii: fylogenetika

Úvod

� Linné (1735), Systema Naturae: živá příroda vykazuje hierarchické uspořádání

� Darwin (1859), On the Origin of Species: příčinou je společný původ (common descent)

� existuje Strom života, všechny organizmy jsou si � existuje Strom života, všechny organizmy jsou si příbuzné, ale nestejnou měrou

� pokud je znak přítomen u organizmů A a B, ale chybí u organizmu C, je to proto, že jej A a B zdědili od společného předka, který nebyl předkem C

Page 3: matematika v biologii: fylogenetika

Fylogenetika

� zabývá se tím, jak příbuzenství zrekonstruovat

� problém: pro n taxonů počet zakořeněných binárních fylogenetických stromů

)!32( −= np

� pro 15 taxonů jich tedy je 213 458 046 676 875, jen 1 je ale správný – jak přijít na to, který?

� až do 50. let fylogenetika spíš uměním než vědou; žádná metoda s rigorózním matematickým základem

)!2(2

)!32(2 −

−= − n

np

n

Page 4: matematika v biologii: fylogenetika

� v 50. letech vzniká fenetika: první metoda, kterou lze algoritmizovat a která umí řešit znakové konflikty (kdyžz různých znaků vyplývají vylučující se příbuzenství)

� fenetický slovníček:

� OTU (operační taxonomická jednotka): to, co stojí na koncích větví stromukoncích větví stromu

� znaková matrice: tabulka OTUs krát znaků

� klastr: shluk více OTUs

� distance: počet rozdílů mezi 2 OTUs / počet znaků

� ukázková metoda: UPGMA, párování pomocí nevážených aritmetických průměrů (Sokal & Michener 1958)

Page 5: matematika v biologii: fylogenetika

� vstupvstupvstupvstup: distanční matrice D nad množinou OTUs S

� výstupvýstupvýstupvýstup: hierarchie H nad S

� inicializaceinicializaceinicializaceinicializace: vytvoř množinu klastrů C tak, aby existoval jednotkový klastr Ci = {i} pro ∀ i ∈ S

� postup:postup:postup:postup: najdi takový pár vzájemně různých klastrů {Ci, Cj}⊆ C, kde d(Ci, Cj) je nejmenší úhlopříčnou distancí v D

vyjmi C , C z C a nahraď je C ∪ C ; přidej C ∪ C do H

∀ ∈ ∪ ∪

� vyjmi Ci, Cj z C a nahraď je Ci ∪ Cj; přidej Ci ∪ Cj do H

� pro ∀ Ck ∈ C – {Ci ∪ Cj} spočítej d(Ck,(Ci ∪ Cj)) jako

),(),( jk

ji

j

ik

ji

i CCdCC

CCCd

CC

C⋅

++⋅

+

Page 6: matematika v biologii: fylogenetika

� opakuj postup na redukované množině C

� ukončeníukončeníukončeníukončení: všechny prvky C jsou zahrnuty v H

Page 7: matematika v biologii: fylogenetika

Problémy a nástupci fenetiky

� měří podobnost, ne příbuznost

� revoluce v systematice: Hennig (1966) publikuje Phylogenetic Systematics, vzniká kladistika; Felsenstein(1968) ve své PhD dizertaci uvádí na scénu probabilistické (= parametrické) metody(= parametrické) metody

� nové metody by měly rozlišit informativní podobnosti (homologie) od neinformativních (homoplazií) – jak?

� dnes 3 hlavní postupy: nejvyšší úspornost (maximum parsimony), nejvyšší věrohodnost (maximum likelihood), bayesovská analýza (Bayesian inference)

Page 8: matematika v biologii: fylogenetika

Úspornost (parsimonie, MP)

� parsimonie jako fylogenetická metoda je aplikací obecného principu parsimonie (= Ockhamovy břitvy)

� optimální strom je takový, který minimalizuje počet přechodů z jednoho znakového stavu do druhého (0 ↔ 1, A ↔ G, ...)A ↔ G, ...)

� NP-těžká úloha: není znám algoritmus, který by ji řešil v t= Anx, kde A, x jsou konstanty a n počet OTUs

� řeší se heuristickými algoritmy (metoda lokálního hledání: najde řešení v rozumném čase, ale jen aproximativní)

Page 9: matematika v biologii: fylogenetika

Problémy s parsimonií

� statisticky nekonzistentní: Felsenstein (1978) dokázal, že při jisté sadě parametrů (Felsensteinova zóna) nejenže nenajde správný strom, ale s více daty bude ten špatný čím dál tím víc potvrzovat

� FZ: 2 OTUs na 4-taxonovém� FZ: 2 OTUs na 4-taxonovémstromě mají daleko vyšší rychlost evoluce než ty zbývající, ale nejsou si příbuzné: homoplazie mezitěmi rychlejšími přebijí jejichhomologie s těmi pomalejšími

„přitahování dlouhých větví“⇒

Page 10: matematika v biologii: fylogenetika

Věrohodnost (likelihood, ML)

� jiné kritérium optimality: nejlepší strom je ten s největší věrohodností, přičemž

� abychom dokázali určit pravděpodobnost, že se vyvinou

) | ( ) |( ττ DPDV =� abychom dokázali určit pravděpodobnost, že se vyvinou

zrovna data D, nestačí znát jen topologii: potřebujeme další („rušivé“) parametry – samy o sobě nás nezajímají, ale pracovat s nimi musíme

� souhrn rušivých parametrů = evoluční model: tím se ML liší od MP, která ho nemá (aspoň ne explicitně; viz níže)

Page 11: matematika v biologii: fylogenetika

kde θ jsou rušivé parametry (např. délky větví, tj. tempoevoluce), Ф(θ |τ) je funkce značící rozložení rušivých

parametrů v závislosti na stromu τ

� předpoklad zní, že rušivé parametry zintegrujeme, ale to

,)|(),|()|( ∫ Φ= τθθττ dDPDP

τ

� předpoklad zní, že rušivé parametry zintegrujeme, ale to nebylo možné až do 90. let, kdy jsme se naučili aproximovat integrál technikou tzv. Markovových řetězců Monte Carlo(MCMC)

� většinou prostě předpokládáme, že rušivé parametry nabývají takových hodnot, aby P (D |τ ) byla nejvyšší

Page 12: matematika v biologii: fylogenetika

Příklad modelu: HKY85

� Hasegawa, Kishino & Yano (1985)

,,kde πT/C/A/G = zastoupení tyminu/cytozinu/adeninu/guaninu

v analyzované DNA sekvenci; pravděpodobnost transverzí(A ↔ T, C ↔ G) = 1; poměr tranzic (A ↔ G, C ↔ T)

k transverzím = κ

Page 13: matematika v biologii: fylogenetika

� délka větve: ke kolika bodovým mutacím dojde na jedné nukleotidové pozici

Věrohodnost kontra parsimonie

])[]([2))((2

1

CACA TGTG

lππππκππππ ++++

=

Věrohodnost kontra parsimonie� zastánci statistického přístupu dlouho hledali model

implicitně obsažený v parsimonii

� Tuffley & Steel (1997) jej našli: každý znak na každé větvi v něm může mutovat jinak rychle; když přidáme 1 znak navíc, dostáváme (2n – 3) nových parametrů

Page 14: matematika v biologii: fylogenetika
Page 15: matematika v biologii: fylogenetika

Bayesovská analýza

� aplikace bayesovské statistiky, kontroverzní alternativy ke klasické (frekventistické) statistice

� hlavní rozdíl: „pravděpodobnost“ je subjektivní a značí míru nejistoty, ne frekvenci jevu při velkém počtu pokusů

� základem Bayesův teorém: � základem Bayesův teorém:

� posteriorní pravděpodobnost hypotézy H = priorní pravdě-podobnost H krát věrohodnostní poměr

)(

)|()()|(

DP

HDPHPDHP ⋅=

Page 16: matematika v biologii: fylogenetika

� upravený tvar:

kde Ppo(τi |D) je posteriorní pravděpodobnost stromu i,P (D |τi ) jeho věrohodnost, Ppr(τi) jeho priorní

pravděpodobnost, a kde jmenovatel představuje sumu všech B

,)()|(

)()|()|( )(

1∑ =×

×= sB

j jprj

ipriipo

PDP

PDPDP

ττττ

τ

τ

P (D |τi ) jeho věrohodnost, Ppr(τi) jeho priornípravděpodobnost, a kde jmenovatel představuje sumu všech B

možných stromů pro s OTUs

� věrohodnost předpokládá pro parametry evolučního modelu pevnou, avšak neznámou hodnotu; pro Bayese jsou to jen další náhodné proměnné

Page 17: matematika v biologii: fylogenetika
Page 18: matematika v biologii: fylogenetika

� MCMC nám dá reprezentativní vzorek posteriorního rozdělení; posteriorní pravděpodobnost kladu Ci odpovídá tomu, na kolika stromech z tohoto vzorku se vyskytuje

� Bayes má kritérium optimality (nejlepší je strom s nejvyšší posteriorní pravděpodobností), ale většinou ho nevyužíváme: chceme „konsenzový strom“, tj. prosté shrnutí posteriorního rozdělení, složené z nejčastěji nalézaných kladůrozdělení, složené z nejčastěji nalézaných kladů

� kritikům Bayese nejvíc vadí subjektivní priory: máme právo předem říct, že je nějaký strom pravděpodobnější než jiný?

� „flat priors“ – priorní pravděpodobnost je nastavena pro všechny stromy stejná

� ukazuje se, že rozdílné priorní pravděpodobnosti neovlivňují výsledek tolik jako použitý model a data

Page 19: matematika v biologii: fylogenetika

Citovaná literatura:Felsenstein J 1968 Statistical inference and the estimation of phylogenies. PhD Dissertation, Univ Chicago, Chicago

Felsenstein J 1978 Cases in which parsimony and compatibility methods will be positively misleading. Syst Zool 27: 401–11

Hasegawa M, Kishino H, Yano T 1985 Dating of human-ape splitting by a molecular clock of mitochondrial DNA. J Mol Evol 22: 160–74

Hennig W 1966 Phylogenetic Systematics. Univ of Illinois Press, Urbana

Sokal RR, Michener CD 1958 A statistical method for evaluating systematic relationships. Univ Kansas Sci Bull 38: 1409–38

Tuffley C, Steel M 1997 Links between maximum likelihood and maximum parsimony under a simple model of site substitution. Bull Math Biol 59:

581–607

Zdroje ilustrací:

Huelsenbeck JP, Ané C, Larget B, Ronquist F 2008 A Bayesian perspective on a non-parsimonious parsimony model. Syst Biol 57: 406–19

(pravděpodobnostní vzoreček, slide 1)

Suh A, Paus M, Kiefmann M, Churakov G, Franke FA, Brosius J, Kriegs JO, Schmitz J 2011 Mesozoic retroposons reveal parrots as the closestSuh A, Paus M, Kiefmann M, Churakov G, Franke FA, Brosius J, Kriegs JO, Schmitz J 2011 Mesozoic retroposons reveal parrots as the closest

living relatives of passerine birds. Nature Comms 2: 443 (zarovnané sekvence, slide 1)

Lee MSY, Worthy TH 2011 Likelihood reinstates Archaeopteryx as a primitive bird. Biol Lett doi:10.1098/rsbl.2011.0884 (split frequencies

diagram, slide 1)

Mayr G 2010 Parrot interrelationships—morphology and the new molecular phylogenies. Emu 110: 348–57 (fylogenetický stromek, slide 1)

Gronau I, Moran S 2007 Optimal implementations of UPGMA and other common clustering algorithms. Inf Process Lett 104 (6): 205–10

(distanční matrice, slide 6)

Philippe H, Zhou Y, Brinkmann H, Rodrigue N, Delsuc F 2005 Heterotachy and long-branch attraction in phylogenetics. BMC Evol Biol 5: 50

(Felsensteinova zóna, slide 9)

http://en.wikipedia.org/wiki/Models_of_DNA_evolution (HKY85 model, slide 12)

Swofford DL, Waddell PJ, Huelsenbeck JP, Foster PG, Lewis PO, Rogers JS 2001 Bias in phylogenetic estimation and its relevance to the

choice between parsimony and likelihood methods. Syst Biol 50: 525–39 (věrohodnost vs. parsimonie, slide 14)

http://www.dnabased.com/Bioinformatika/Prednasky/extdoc/Bayes_web.pdf (bayesovské pravděpodobnosti, slide 17)

Page 20: matematika v biologii: fylogenetika

Děkuji za pozornost.