55
Metody molekulární biologie v ekologii a systematice rostlin 3. Populační genetika (s.l.) Petr Koutecký & Jiří Košnar, 2013 Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364

Metody molekulární biologie v ekologii a systematice rostlin 3 . Populační genetika (s.l.)

  • Upload
    devaki

  • View
    58

  • Download
    3

Embed Size (px)

DESCRIPTION

Metody molekulární biologie v ekologii a systematice rostlin 3 . Populační genetika (s.l.) Petr Koutecký & Jiří Košnar, 201 3. Vytvořeno v rámci projektu Molekularizace biologických oborů PřF JU reg. č. CZ.1.07/2.2.00/15.0364. Populace. Definic více, žádná ideální - PowerPoint PPT Presentation

Citation preview

Page 1: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Metody molekulární biologie v ekologii a systematice rostlin

3. Populační genetika (s.l.)

Petr Koutecký & Jiří Košnar, 2013

Vytvořeno v rámci projektu Molekularizace biologických

oborů PřF JU

reg. č. CZ.1.07/2.2.00/15.0364

Page 2: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Populace

► Definic více, žádná ideální

► Pokus o praktickou definici:

Soubor jedinců daného taxonu (druhu, skupiny,…), žijících na určitém místě, mezi kterými alespoň teoreticky může docházet k výměně genetické informace při rozmnožování (resp. nejsou zde žádné zjevné bariéry)

Page 3: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Populace

Specifika rostlin

► vegetativní (klonální) rozmnožování» v extrémním případě celá populace = jeden jedinec» dlouhodobá (potenciálně nekonečná) existence genotypu

► přisedlé organismy, při rozmnožování (resp. cizosprášení) závislé na vnějších činitelích » hmyz, vítr, voda,…» roznos pylu největší v blízkém okolí, se vzdáleností klesá» totéž platí pro roznos semen» za určitou vzdáleností je příspěvek daného jedince (resp. šance

účastnit se rozmnožování) minimální i ve zcela stejnorodé populaci bez zjevných bariér

» isolation by distance

Page 4: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Lokus, alela, atd.

Lokus► konkrétní pozice v genomu (dané místo na chromosomu, konkrétní

sekvence,…); v praxi také konkrétní pozice na gelu

Gen► funkční sekvence DNA (kódující protein, RNA,…)► někdy pojem používán šířeji, ve smyslu lokus

Alela► varianta sekvence v daném lokusu; zprostředkovaně varianta s

jinou velikostí, mobilitou na gelu, morfologickým projevem,…► dominantní data – dvě alely, nelze poznat heterozygoty;

kodominantní data – 2 nebo víc alel, lze odlišit heterozygoty

Genotyp► soubor alel daného jedince (jedno- vs. multilokusový)

Page 5: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Lokus, alela - dominantní data

► Lokus = daná pozice (= délka fragmentu) na gelu

► typicky bialelická data ve formátu 0 / 1» přítomnost / nepřítomnost proužku na gelu» nelze rozlišit heterozygoty pro recesivní

alelu

AA fragment přítomen 1

Aa fragment přítomen 1

aa bez projevu (fragment 0nepřítomen)

► výsledek „fingerprintingových“ metod» RAPD, ISSR, AFLP» u složitějších pattern lze takto redukovat i kodominantní data

(mikrosatelity, isozymy)

Page 6: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Popis variability populace / jedince

► Počet alel (A)» pro každý lokus, průměr přes všechny lokusy (kodom. data)

► Allelic richnes» průměrný počet alel korigovaný na počet vzorků / populací

(bootstrap apod.) (kodominatní data)

► Podíl polymorfních lokusů (P)» podíl = počet polymorních / počet všech

» někdy počítán lokus jako polymorfní jen pokud je frekvence nejčastější alely <95%, resp. f(1) < 95% (dominatní data)

» fixované alely / lokusy f > 95%, vzácné alely / lokusy f < 5% (u kodominatních dat mluvíme o alelách, u dominantních přímo o lokusech, tj. stav = 1 = přítomnost)

Page 7: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Popis variability populace / jedince

► Privátní (diagnostické) alely / lokusy» přítomné pouze v dané skupině (populaci, taxonu,…)

» nemusí být u všech jedinců

► Fixované alely / lokusy» přítomné u všech jedinců dané skupiny

► Privátní fixované alely / lokusy» přítomné pouze u dané skupiny, a to u všech jedinců

• ideální rozlišovací „znak“

► Sdílené alely / lokusy

» společné s jinou skupinou / skupinami

Page 8: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Popis variability populace / jedince

► Shanonův index» diverzitní index, podobně jako v ekologii

pi = frekvence alely i; pro 1 lokus

» u kodominantních dat počítáno pro jednotlivé lokusy, následně průměr přes všechny lokusy

» u dominantních dat je i frekvence dominantní „alely“, suma přes všechny lokusy

ii

iSHppH ln*

Page 9: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Klonalita v populaci► Clonal diversity

G / N kde G je počet genotypů, N počet jedinců

R = (G – 1) / (N – 1) pro 1 klon pak vyjde 0

► Simpsonův index

» λ je pravděpodobnost, že 2 ramety budou mít stejný genotyp

» D = 0 pro uniformní populaci; D = 1 pokud každá rameta je jiný genotyp

► Statistika Pgen (Psex)

» pro klony, udává pravděpodobnost, že daný genotyp vznikl opakovaně pohlavním rozmnožováním

» počítáno z frekvencí alel a polymorfních lokusů a počtu vzorků

)1()1(

NNnn ii

)1()1(

1NNnn

D ii ni počet ramet daného genotypuN celkový počet ramet

Parks & Werth 1993, Am. J. Bot.Arnaoud-Haound et al. 2005, J. Heredity

Page 10: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Heterozygosita

Pozorovaná heterozygozita► nemá smysl pro dominantní data► pro jeden lokus

i, j = alely, N = počet jedinců

► pro více lokusů

j,iNN

Hij

o

N

i

m

jij o H

NmH

1 1

1N počet jedincům počet lokusůHij heterozygotnost jedince i

(0 nebo 1) pro lokus j

Page 11: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Hardy-Weinbergova rovnováha► užitečný nulový model

» při nekonečné populaci, náhodném páření, absenci selekce, migrace,… … závisí frekvence genotypů přímona frekvencích alel

► pro diploidy a dvě alely A, a, které mají frekvence p, q

frekv. (AA) = p2 frekv. (Aa) = 2pq frekv. (aa) = q2

p + q = 1 p2 + 2pq + q2 = 1

» a to při libovolné frekvenci alel

» tato rovnováha se vytvoří po jednégeneraci náhodného páření (atd.)

» v dalších generacích je stabilní

♂ pq♀

p

q

p2pq

p q q2

Page 12: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Hardy-Weinbergova rovnováha

► evoluce = změny ve frekvenci alel

► odchylky od HW rovnováhy» selekce → tu se ale většinou „snažíme“ nevidět (selekčně neutrální

markery)» genetický drift» migrace» mutace (vznik nových alel)

Page 13: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Genetický drift

► proces náhodných změn frekvence alel v populaci

► způsoben konečnou velikostí populace – Wright-Fisherův model» populace produkuje ∞ gamet» do další generace projde ale jen 2N

gamet (N = velikost populace)» frekvence alel v náhodném výběru 2N

gamet nemusí být stejné jako výchozífrekvence (sampling error)

» zastoupení alel mezi generacemi se náhodně mění

» časem fixace nebo ztráta alely → snížení diverzity a heterozygozity

» intenzita závisí na velikost populace

Page 14: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Efektivní velikost populace

► velikost ideální populace (náhodné páření atd.), která jeví stejnou intenzitu gen. driftu jako reálná populace» většinou platí Ne ≤ N

» Ne lze chápat jako počet jedinců, kteří svými gametami přispějí ke vzniku další generace (= ne všichni)

► typické příčiny snížené Ne

» nenáhodné páření (včetně isolation by distance)

» fluktuace velikosti populace

» nevyrovnaný poměr pohlaví (typicky u živočichů, u rostlin má smysl uvažovat u dvoudomých druhů)

Page 15: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Očekávaná heterozygozita = gene diversity (D)► předpoklad: populace v Hardy-Weinbergově rovnováze

» lze počítat i pro dominantní data

► pro jeden lokus

resp.

► pro více lokusů;

Heterozygosita

k

iie pH

1

21

k

iie p

NN

H1

2112

2

pravděpodobnost, že jedinec je pro danou alelu homozygot = frekvence homozygotů pro alelu

korekce na malé vzorky (N < 50)

m

l

k

iie p

mH

1 1

211

p frekvence alelyi,k i-tá alela z k alel v

lokusul,m lokus l z celkem m

lokusůN počet jedinců

Page 16: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

► obvykle 3 úrovně variability» celková populace (celý druh)

» rozdíly mezi subpopulacemi (= dílčími populacemi)

» individuální variabilita uvnitř subpopulací

» lze zavést i další (region sdružující část subpopulací)

► většinou se uvažují pouze diploidi» pro vyšší ploidie nejsou výpočty obvykle k dispozici

» nemá smysl srovnávat variabilitu (počet alel, polymorfní lokusy, heterozygosita,…) mezi ploidiemi

Fixační indexy

Page 17: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Fixační indexy (F-statistika)

► inbreeding

► diferenciace do subpopulací (drift)

► celkový

S

ISIS

HHH

F

T

STST

HHH

F

T

ITIT

HHH

F

HI pozorovaná heterozygozita uvnitř subpopulace = Ho

HS očekávaná heterozygozita uvnitř subpopulace (z frekvencí alel v subspopulaci) = He

HT očekávaná heterozygozita v celkové populaci (z průměrných frekvencí alel přes všechny subpopulace)

► při HW rovnováze všechny koeficienty = 0, lze statisticky testovat

(1 - FIT) = (1 – FIS) * (1 - FST)

► měří rozdíl heterozygotnosti oproti HW rovnováze

Page 18: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

FIS měří úbytek heterozygotů uvnitř subpopulace vlivem inbreedingu (příbuzenského křížení)

… případně dalších odchylky (přebytek heterozygotů vlivem pozitivní selekce apod.)

► rozsah hodnot <-1; 1>

-1 pouze heterozygoti

0 HW rovnováha

+1 pouze homozygoti

► pro jednotlivé subpopulace; vážený průměr přes subspopulace

Fixační indexy

S

ISIS

HHH

F

e

oeIS

HHH

F

Page 19: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

FST měří vliv diferenciace na subpopulace

» rozdělení na subpopulace → drift → postupná fixace alel (ztráta heterozygotnosti) v subpopulacích, ačkoliv průměrné celkové frekvence alel jsou stabilní

GST coefficient of gene differentiation, zobecnění FST (FST původně definováno pro bialelický lokus, GST pro multialelický)

► rozsah hodnot <0; 1>, stupeň diferenciace:< 0.05 malá 0.15-0.25 velká0.05-0.15 střední > 0.25 velmi velká

Fixační indexy

T

STST

HHH

G HSprůměrná očekávaná

heterozygozita (He) uvnitř subpopulací

HT , kde je průměr přes všechny

subpopulace

21 ip ip

Page 20: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Fixační indexy

► FST / GST je mírou diferenciace subpopulací:

žádná diferenciace velká diferenciace

► závisí na (vnitropopulační) variabilitě lokusu» nebere v úvahu identitu alel, není to distance

» pozor na příliš variabilní lokusy !

T

STST

HHH

G

SST HG 1

HS = 0, GST = 1 HS ~1, GST ~ 0

Page 21: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

► hodnoty FST závisí v reálných populacích také na migraci mezi subpopulacemi, rychlosti mutací,…» obvykle složitější vzorce

• island model, stepping stone model, isolation by distance

» specializovaný software

» existují odhady (modely) F-statistiky i pro dominatní data (např. program Hickory)

• moc to nefunguje

► hodnoty různým způsobem vypočtených koeficientů nejsou zcela srovnatelné

► pairwise FST – matice koeficientů pro každý pár subpopulací

» je mírou genetické vzdálenosti (distance)

Fixační indexy

Page 22: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

AMOVA

► Analysis of Molecular Variance► metoda pro studium populační struktury► rozdělení variability na složky mezi jedinci, populacemi, skupinami

populací,… (analogie ANOVA)» matice vzdáleností (nepodobností) mezi jedinci, různé vzorce podle

charakteru dat (kodominantní, dominantní, sekvence…)» a priori definovaná populační struktura (populace, skupiny populací

(regiony), příp. další úrovně)» výpočet variability (sum of squared deviations) pro jednotlivé úrovně,

přepočet na podíl na celkové variabilitě (variance components) se zohledněním d.f.

» výpočet ΦST (AMOVA-based FST) srovnáním složek variability jednotlivých úrovní

» permutační testy

Page 23: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

AMOVA

► program Arlequin

rozdělení variability na jednotlivé složky

fixační indexy (ΦST)

permutační testy

mezi populacemi celkemmezi populacemi ve skupině

mezi skupinami

Page 24: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Linkage disequilibrium

► nenáhodná segregace alel 2 různých lokusů

► některé kombinace častější / méně časté než při náhodném párování» výskyt na stejném chromosomu, obvykle blízko sebe (mezi

lokusy ± nedochází k rekombinaci)

» selekce ve prospěch určitých kombinací

» allopolyploidie

Page 25: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Linkage disequilibrium

► Pro 2 lokusy s 2 alelami:

lokus 2lokus 1 A2 B2alela frekv. q1 q2

A1 p1 x11 x12

p1q1 p1q2

B1 p2 x21 x22

p2q1 p2q2

D = x11x22 – x12x21

Při rovnováze (není linkage) D = 0

Při náhodném párování

Page 26: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Různé typy dat

► většina klasické populační genetiky má smysl pouze pro kodominantní data

► pro dominantní data obecně nemají smysl žádné indexy založené na heterozygozitě (klasické FIS, FST,…)

► všechny hodnoty mají smysl pouze pro konkrétní studii, konkrétní výsledky (dataset), nelze moc srovnávat

► nemá smysl srovnávat hodnoty (byť ze stejných jedinců) založené na různých metodách

► nemá smysl porovnávat mezi plodiemi» jiný počet kopií genu v jedinci (= jiná Ne), zásadně jiná dynamika

genetického driftu,…

Page 27: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Coalescence

► Pohled zpět v čase» V populaci existuje v každém

okamžiku určitá sada alel

» Zastoupení alel se mění (vznikmutacemi; zánik; různá úspěšnostpři přechodu do další generace)

» pro každou dvojici alel v danégeneraci někde MRCA – most recent common ancestor)

1 – pro fialovou a tmavomodrou

2 – pro fialovou, tmavomodrou ačervenou

1

2

t1

t2

Page 28: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Coalescence► původ recentních alel lze zobrazit jako strom

» délka větví odpovídá stáří koalescenční události

► coalsecence-based FST

► koalescenční přístup pro konstrukci fylogenetických stromů» viz později

t1

t2

T

STST

t

ttF

tT – průměrný čas k MRCA (přes všechny dvojice alele) v celkové populaci

tS – totéž pro subpopulaci

Page 29: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Distance – kodominatní data

► Standard genetic distance (Nei)» identita

» distance

n

iiy

n

iix

n

iiyix

pp

ppI

1

2

1

2

1x,y populacepi frekvence alely i z n alel

pravděpodobnost, že 2 náhodně vybrané alely z populací x,y budou stejné

pravděpodobnost, že 2 náhodně vybrané alely z populace x, resp. y budou stejné

)ln(ID 12

12 2

x

ixx

NpNkorekce na malý počet vzorků,

analogicky pro populaci yunbiased distance

Page 30: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Distance – kodominantní data

► Roger’s distance

m

j

n

iiyixR pp

md

1 1

2)(211

x,y populacepi frekvence alely i z n alel v lokusu jm počet lokusů

Page 31: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Distance – dominantní data► většinou koeficienty neuvažující negativní shodu

» vyšší pravděpodobnost nehomologie v případě absence PCR produktu (proužku)

► Jaccardův koeficient

(podobnost) (distance)

► Dice coefficient (= Nei-Li coefficient)

(podobnost) (distance)

► negativní shoda výjimečně (simple matching, percent similarity; a+d / a+b+c+d)

počet lokusů, kde:jedinec 2

prezence (1) absence (0)

jedinec 1

prezence (1) a babsence (0) c d

cbaa

J

cb2a2a

D

J1cba

cbJ'

D1D'

Page 32: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Distance

► výsledkem je matice vzdáleností

» analýza hlavních koordinát, PCoA (principal coordinate analysis) = MDS (metric multidimensional scaling)

» shluková analýza (cluster analysis)• zejména metoda UPGMA

» neighbour-joining (NJ), resp. neighbour-networks

Page 33: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

PCoA

► ordinační metoda► zobrazení objektů v ordinačním prostoru:

» prvních několik os vysvětluje nejvíce variability

» Euklidovské vzdálenosti mezi objekty aproximací vzdáleností v původní matici

» podobná PCA, ale pro jakékoliv distance

(pro euklidovské distance řešení identické s PCA)

Mandáková & Münzbergová 2008Aster amellus, allozymy, diploidi a

hexaploidi

Ramaya et al. 2010, Frullania asagrayana, SSR

Page 34: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Shluková analýza

► obvykle algoritmus UPGMA (unweighted pair-group method using arithmetic averages)» spojení dvou nejpodobnějších objektů v matici

» výpočet nové matice s n-1 objekty, skupina jako 1 objekt, počítána průměrná distance k jeho členům

» spojení dvou nejpodobnějších objektů

» nová matice

» …

» dendrogram

Kaplan & Štěpánek 2003Potamogeton pusillusallozymy

Page 35: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Neighbour-joining

► fenetická metoda (znaky mají stejnou váhu), podobně jako UPGMA

► nejčastější metoda na genetické distance

► na rozdíl od shlukovacích metod nespojuje nejpodobnější objekty, ale hledá nejkratší strom, délka stromu je počítána z matice distancí

Page 36: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Neighbour-joining

1. matice distancí

2. hvězdicovitý stromA

B

C

D

E

Page 37: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Neighbour-joining

1. matice distancí

2. hvězdicovitý strom

3. pro každou dvojici bodů výpočet délky stromu za předpokladu, že tyto dva body budou vybrány jako nejbližší

» vložení dvou hypotetických uzlů• pro testovanou dvojici• pro zbytek

A

B

C

D

EA

B

C

D

E

atd.

Page 38: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Neighbour-joining

1. matice distancí

2. hvězdicovitý strom

3. pro každou dvojici bodů výpočet délky stromu za předpokladu, že tyto dva body budou vybrány jako nejbližší

4. vybrána ta dvojice, pro kterou vyjde nejnižší hodnota celkové délky

» nemusí to být nejbližší body

5. výpočet délky větví k vybraným bodům a nové výchozí délky stromu

D

A

B

C

E

Page 39: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Neighbour-joining

6. testování zbylých bodůC

A

B

D

EA

B

C

ED

A

B

C

D

E

Page 40: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Neighbour-joining

6. testování dvojic zbylých bodů

7. připojení nejbližšího bodu k již existující dvojici

8. výpočet délek větví a celkové délky stromu

… a tak pořád dokola

CA

B

D

E

… testování kvality stromu, obvykle metoda bootstrap:» náhodné nahrazení znaků» výpočet nového stromu» to celé min. 1000×» % nových stromů, kde shluk z původního stromu je přítomen

Page 41: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Neighbour-joining

► výsledkem nezakořeněný strom» délky větví odrážejí původní distance

» lze zakořenit, pokud je v analýze nějakýoutgroup

Hilpold et al. 2011Centaurea cineraria, AFLP

Casimiro-Soriguer et al. 2011Erophaca (Fabaceae), AFLP

Page 42: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Neighbour-net

► Jeden z typů fylogenetických sítí► Obecně pro distanční matice,

ale nejčastěji AFLP data► síť zohledňuje nejistotu

v podobnosti / příbuznosti» každá „čára“ (edge) zobrazuje

rozdělení (split) dat na 2 sku-piny, rovnoběžné edges zobrazují tentýž split

» možné spojení se 2 různýmisousedy se projeví jako „box“

» není to fylogeneze, „interní“ bodynejsou hypotetičtí předci!

» délky odpovídají pův. distanci, poměr délek „síle“ konfliktních signálů

Bryant & Moulton 2004Huson & Bryant 2006obě v Molecular Biology and Evolution

Winkler et al. 2012, Mol. Ecol.Saxifraga oppositifolia, AFLP

Page 43: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Neighbour-net

► příklad dat s opravdu nejasnou strukturou» prakticky nelze zobrazit v podobě stromu

Hörandl & Emadzade 2012Ranunculus „clade III“sekvence ITS + cpDNA

Page 44: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Prostorové závislosti / autokorelace

► Jak se mění genetická podobnost jedinců / populací v závislosti na jejich vzdálenosti?

► Respektive – do jaké vzdálenosti lze ještě považovat jedince / populace za příbuzné

► Příbuznost populací na kontinentální škále (migrace v postglaciálu apod.)

► Šíření semen / pylu

► Jemná genetická struktura populací, isolation by distance,…

Page 45: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Mantelův test

► testuje podobnost (korelaci) dvou matic

► matice genetické a geografické vzdálenosti» třídy vzdálenosti

► permutační test:» výpočet korelačního koeficientu pro odpovídající si pozice v matici 1 a

2 („přes jedince“), testová statistika RM

» permutace (náhodné zpřeházení) jedné z matic» výpočet nového korelačního koeficientu» to celé mnohokrát (≥ 1000×)» signifikance = podíl hodnot vyšších než původní výsledek, větš.

Bonferroniho korekce

Gabrielsen et al. 1997Saxifraga oppositifolia, RAPD

log stupnice

RM > 0

RM < 0

RM ~ 0 (neprůkazné)

Page 46: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Moranovo I

► koeficient pro výpočet prostorové korelace» Mantel test – jednosměrná korelace (porovnání dvou distancí)

» Moran’s I – bere v úvahu podobnost v ploše nebo dokonce v prostoru (matice)

• srovnává podobnost 2 bodů v hodnotě dané proměnné, kterou váží váhou odvozenou z geografické pozice, suma přes všechny body

I ~ -1 max. negativní autokorelace

I = -1/(n-1) náhodné rozmístění

I ~ +1 max. pozitivní autokorelace• …ale velmi různé aplikace = způsoby stanovování podobnosti i

vah

Page 47: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Moranovo I

► aplikace na genetická data» binární proměnná – např. výskyt jedinců jedné / druhé ploidie» genet. podobnost - např. software SGS (spatial genetic

structure)• rozdělí vzdálenosti mezi vzorky do zadaného počtu stejně

širokých intervalů• genetická podobnost – přítomnost dané alely u kodominantních

dat (homozygot = 1, heterozygot = 0.5, nemá = 0), resp. přítomnost daného multilokusového genotypu (haplotypu) u dominantních dat (přítomen = 1, jinak 0)

• váha – „po intervalech“, pokud vzorky padnou do stejného intervalu = 1, jinak = 0

• pro každý pár vzorků dosazení do vzorce (viz např. manuál k programu), výpočet korelace

• permutační test

Page 48: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Kinship coefficient apod.► pravděpodobnost, že 2 alely náhodně

vybrané ze 2 jedinců budou stejné (IDB, identical by descent) (0-0.25)

► v souvislosti s populačními daty – genetická podobnost dvou jedinců ve srovnání s průměrem celé populace (IIS, identity in state) (průměr 0, + i -)

► Specializovaný software (např. SpaGeDi)» nelze pro dané 2 jedince» průměr z mnoha párů» počítáno pro vzdálenostní

třídy (v rámci třídy očeká-váme stejnou příbuznost)

» permutační testy proti 0

Jump et al. 2009, Fumana thymifolia, AFLP

kinship coeff.

konfidenční interval

Hardy & Vekemans 1999, Heredity 83: 145-154

Hardy 2003, Mol. Ecol. 12: 1577–1588

Page 49: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Bayesian clustering

► hledání nejpravděpodobnějšího rozdělení jedinců do k skupin» distance-based approach

• vztahy mezi jedinci jsou popsány maticí vzdáleností• matici reprezentujeme nějakou vhodnou analytickou metodou (shluková

analýza, NJ strom nebo síť, PCoA…)• vymezení skupin ± subjektivní, obtížné / nemožné testovat

vs.

» model-based approach• jedinci jsou náhodným výběrem z nějakého základního souboru• základní soubor je statisticky popsatelný několika parametry (frekvence

alel, počet skupin,…)• odhadujeme tyto parametry a jim odpovídající pravděpodobnost daného

rozdělení jedinců do skupin• hledání nejpravděpodobnější varianty, statistické testování

Page 50: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Bayesian clustering

► hledání nejpravděpodobnějšího rozdělení jedinců do k skupin

► k není dopředu známo

► uvnitř skupin se předpokládá:» Hardy-Weinbergova rovnováha

» nezávislost lokusů (linkage equilibrium)

» v podstatě se hledá rozdělení do skupin tak, aby data ve výsledku co nejvíce splňovala tyto předpoklady

» … a aby jedinci uvnitř skupin si byli co nejpodobnější (takové řešení je nejpravděpodobnější)

Page 51: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Bayesian clustering

► několik programů» podobná základní logika a výstupy, liší se matematické

postupy (podstatně)» STRUCTURE» BAPS (Bayesian Analysis of Population Structure)» další (např. Geneland, NewHybrids,…)

► několik modelů různé složitosti» každý jedinec geneticky náleží do právě jedné skupiny

(populace ve statistickém smyslu)» genotyp jedince může být směsí alel pocházejících z různých

populací (admixture model)» modely beroucí v úvahu geografický původ jedinců apod.» modely beroucí v úvahu vazbu (linkage) mezi lokusy

Page 52: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Bayesian clustering

Typické výstupy

► počet skupin, odhad kvality modelu» likelihood apod.,

pro STRUCTURE:likelihood, ΔK

► rozdělení jedinců to skupin

► pravděpodobnost, žejedinec patří do určitéskupiny» graf

Lousada et al. 2011, Genetica 139: 431-440Vellozia gigantea, ISSR

Page 53: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Software► GenAlEx (Genetic Analysis in Excel)

http://biology.anu.edu.au/GenAlEx/Welcome.htmlsada maker v Excelu, většina populačně genetických analýz, Mantel test, matice vzdáleností, export do formátů jiných programů

► Popgene http://www.ualberta.ca/~fyeh/popgene.htmlpopulační genetika obecně

► Arlequin http://cmpg.unibe.ch/software/arlequin3/populační genetika obecně, AMOVA, pairwaise-FST

► GENEPOP http://genepop.curtin.edu.au/populační genetika obecně

► TFPGA (Tools For Population Genetic Analyses)http://www.marksgeneticsoftware.net/tfpga.htmpopulační genetika obecně

► FSTAT http://www2.unil.ch/popgen/softwares/fstat.htmF-statistiky pro kodominantní markery, permutační testy,…

Page 54: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Software► Geneland http://www2.imm.dtu.dk/~gigu/Geneland/

populační genetika obecně, založeno na R► R http://www.r-project.org/

knihovny (package): popgen,genetics, poppr, diveRsity, pegas, ape,…► FAMD (Fingerprint Analysis with Missing Data)

http://www.famd.me.uk/famd.htmlgenet. distance, AMOVA, konverze formátů pro další programy,…

► AFLPdat http://www.nhm.uio.no/english/research/ncb/aflpdat/sada funkcí pro R– konverze 0/1 matice v .txt do různých formátů,DW index, gene diversity, a pár dalších

► SplitsTree4 http://www.splitstree.org/fylogenetické sítě

► Hickory http://darwin.eeb.uconn.edu/hickory/hickory.htmlpravděpodobností (Bayes) odhad frekvencí alel a F-statistik

► MLTR http://genetics.forestry.ubc.ca/ritland/programs.htmlmax. likelihood odhady cizosprášení / autogamie, inbreedingu,…

Page 55: Metody molekulární biologie v ekologii a systematice rostlin 3 .  Populační genetika (s.l.)

Software► SGS (Spatial Genetics Software)

http://software.bfh-inst2.de/download3.htmlvýpočet prostorové statistiky (Moranovo I, apod.) z genetických dat

► SpaGeDi (Spatial Pattern Analysis of Genetic Diversity)http://ebe.ulb.ac.be/ebe/Software.html

► BAPS (Bayesian Analysis of Population Structure)http://www.helsinki.fi/bsg/software/odhad populační struktury (Bayesian clustering)

► STRUCTURE http://pritch.bsd.uchicago.edu/structure.htmlodhad populační struktury (Bayesian clustering)» na stránce odkazy na software pro tvorbu grafických výstupů

► NewHybrids http://ib.berkeley.edu/labs/slatkin/eriq/software/software.htmodhad frekvencí alel a původu jedinců u předpokládané hybridizace (F1, F2, zpětní kříženci, …) na základě Bayesian clustering