Demography - WordPress.com › 2017 › 08 › ...2017/08/03  · ·...

Preview:

Citation preview

Demography

Kosuke Teshima

kmteshima @ kyudai.jp

Kyushu University

Topics covered

. Quick review of population genetics

. Effect of population size change

. Demographic inference

What is demography?

. 集団構造

. 集団の大きさ

. 構造やサイズの変化

What is demography?

What is demography?

What is demography?

What is demography?

Why we care demography?

. Evolutionary study

. Structure, history

. Selection

. Medical research

. Ecological research and conservation

. Agriculture

Quick review ofpopulation genetics

Wright-Fisher model

第一世代

第二世代

遺伝子プール

遺伝子プール

任意抽出

親世代で作られた配偶子が大きな集まり(遺伝子プール)を形成する

次世代は遺伝子プールから任意抽出された標本の集まりと考える

Wright-Fisher model

第一世代

第二世代

第三世代

伝達

伝達

消失

増加

第n世代

種全体に固定

遺伝子頻度の変化

1個

3個

突然変異の誕生

1世代目

2世代目

3世代目

n世代目

突然変異の固定

遺伝子頻度の変化

頻度

時間

遺伝子頻度の変化

時間

頻度

遺伝子頻度の変化

時間

頻度

0

1

突然変異の固定 突然変異の固定

単型的多型的 多型的多型的単型的 単型的

突然変異の消失新しい突然変異の誕生

現在過去

aの

遺伝子頻度

A

a

Aの

遺伝子頻度

集団内変異と集団間変異

時間

頻度

0

1

置換した変異

種間変異

種内変異

時間頻度

0

1

共通祖先

種A 種B

A

B

C

現在

多型状態にある変異

塩基配列データと遺伝的変異

✓ ✏サンプル 1 ... ATTGTATCTGACGATT ...サンプル 2 ... ATCGTAACTGACGACT ...サンプル 3 ... ATCGTAACTGACGACT ...サンプル 4 ... ATCGTATCTGACGACT ...

✒ ✑

塩基配列データと遺伝的変異

塩基配列データと遺伝的変異

T2

T3

T4

T5

T6{6}

{5}

{4}

{3}

{2}

{1}Past

Present

Coalescent理論Coalescent理論を使うと遺伝子系図の全長を求めることができる

ttotal =n∑

i=2

i× ti

ただし ti はfi(Ti) =

(

i

2

)

2Ne−

(i2)2N

Ti

に従う

T2

T3

T4

T5

T6{6}

{5}

{4}

{3}

{2}

{1}Past

Present

共通祖先までたどり着く時間

ランダムに選ばれた一組の配列が共通祖先までたどり着く時間の期待値は 2N 世代

E(T2) = 2N

E(T2) =

0

t×1

2Ne−

1

2Ntdt

= 2N

平均変異量 π

ランダムに選ばれた一組の配列間の変異量の平均は θ = 4Nu

E(T2) = 2N

Pr(K) =

0

Pr(K = k|t)× f(t)dt

E(K) =∞∑

k

[

0

Pr(K = k|t)× f(t)dt

]

= u× 2× 2N

= 4Nu

変異サイト数

平均変異サイト数は遺伝子系図の全長と変異率の積 で求められる

T2

T3

T4

T5

T6

TMRCA

S = u× Ttotal

E(S) = u×n∑

i=2

iTi = 4Nun−1∑

i=1

1/i = θn−1∑

i=1

1

i

ここまでのまとめ

. 遺伝的変異パターンは集団サイズの影響を受ける

. 集団遺伝学の理論を用いると遺伝的変異パターンと集団サイズを関係づけることができる

標準中立モデルの下での遺伝子系図

現在

過去

{6}{5}

{4}{3}

{2}

{1}

{7}{8}{9}{10}

πとTajima’s Dの分布 (サイズ一定)

0 1 2 3 4 5π

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Freq

uenc

y

−4 −3 −2 −1 0 1 2 3 4Tajima's D

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Freq

uenc

y

0 2000 4000 6000 8000 10000Time

1000

Pop siz

e

集団サイズが増加した時

現在

過去

{6}{5}

{4}{3}{2}

{1}

{7}{8}

{9}{10}

πとTajima’s Dの分布 (サイズ増加)

0 1 2 3 4 5π

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Freq

uenc

y

−4 −3 −2 −1 0 1 2 3 4Tajima's D

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

Freq

uenc

y

0 2000 4000 6000 8000 10000Time

0

2000

4000

6000

8000

10000Pop siz

e

πとTajima’s Dの分布 (サイズ減少)

0 1 2 3 4 5π

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Freq

uenc

y

−4 −2 0 2 4 6Tajima's D

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Freq

uenc

y

0 2000 4000 6000 8000 10000Time

0

2000

4000

6000

8000

10000Pop siz

e

πとTajima’s Dの分布

0 1 2 3 4 5π

0.0

0.2

0.4

0.6

0.8

1.0

Freq

uenc

y

−4 −3 −2 −1 0 1 2 3 4Tajima's D

0.0

0.2

0.4

0.6

0.8

1.0

Freq

uenc

y

0 2000 4000 6000 8000 10000Time

0

2000

4000

6000

8000

10000Pop siz

e

(ボトルネック)

π: 比較

Bottleneck

Standard Neutral Model

Reduction

Growth

Tajima’s D: 比較

Growth

Reduction

Standard Neutral Model

Bottleneck

SFS: 比較

20 40 60 80 100Derived allele frequency

0.0

0.1

0.2

0.3

0.4

Cou

nt

10 20 30 40 500.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

Expansion

Shrink

Standard Neutral Model

Bottleneck

ここまでのまとめ

. Demographic historyが同じであっても遺伝的変異は確率的に変動し、分布する

. Demographic historyが異なれば、遺伝的変異の分布は異なる

. Demographic modelを設定することができれば、理論あるいはシミュレーションを用いて、遺伝的変異の分布を生成することができる

Demographic Inference inpopulation genetics

Workflow of demographic inference

Modeling

ATGCCGTA

ATGCCGTA

ATGCCGTA

ATGCCGTA

ATGCCGTA

ATGCCGTA

figure taken from 'ms' manual

DataSummarize data

θ

π

Tajima's D

SFS

haplotype data...

Choose parameter value

Simulate data

Compare simulation data

with observed data

FittingOutput

Comparing model and data

利用するデータの違い. full data. π, θ, number of SNPs. Tajima’s D, Fu and Li’s statistics. site frequency spectrum(SFS), 2D-SFS. haplotype data (IBS tract length)

計算方法の違い. Maximum likelihood. Bayesian approach

シミュレーション方法の違い. simulation with coalescent. simulation with diffusion

モデルの違い

Bayesian inferencewithout Likelihood

Approximate Bayesian

Computation

Bayesian inferenceでは事後確率分布を求める

P (θ|D) = f(D|θ) · P (θ).

我々のケースでは

Pr(進化パラメータ | ゲノム多様性デ-タ)= f(ゲノム多様性デ-タ | 進化パラメータ)× Pr(進化パラメータ)

実際の問題として、尤度関数を求めることは難しいしかし、進化モデルの下で得られるデータを生成することはできる。すなわちシミュレーションを行って データ ∼ f(·|θ)を得ることは可能。

アルゴリズム

Pr(θ|sobs) = f(sobs|θ) Pr(θ)

1. 事前確率分布 Pr(θ)からパラメータ θをサンプル2. θの下でシミュレーションを行ない、ssimを計算3. ‖sobs − ssim‖ ≤ δであれば θを accept。そうでなければ reject。

4. 上記プロセスを一定回数繰り返す5. acceptされた θの分布が求める事後分布Pr(θ|sobs)である

ABCは、任意のモデルを与えた上で事後確率を最大にするパラメータを推定する

P(#|D)

P(#)

P(D|#)x

Model

and parameters

Observed data

(Observed) Summary statistics

Data

Demographic

Model

(True)

Simulation

(Simulated)Summary statistics

prior distribution of parameters

(Random) Parameters

(Accepted) Parameters

if match

Simulation

family of ABC

現在では効率や精度を追求して様々なタイプのABCが開発されている

. rejection ABC (Fu and Li 1997, Marjoram et al. 2003)

. regression ABC (Beaumont et al. 2002)

. noisy ABC (Fearnhead and Prangle 2012)

. kernel ABC (Nakagome, Fukumizu and Mano 2013)

Inference of populationhistory

from individualwhole-genome sequences

組換え

組換え

組換え

組換え組換えがあると、共通祖先までたどり着くプロセスが染色体上の場

所ごとに異なる

{4}

{3}

{2}

{1}

{4}

{3}

{2}

{1}

{4}

{3}

{2}

{1}

組換えの影響

TMRCAの分布

0 20000 40000 60000 80000 100000Position

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

Coa

lescen

t Tim

e

TMRCAの分布

0.0 0.2 0.4 0.6 0.8 1.0Position 1e8

0

1

2

3

4

5

Coa

lescen

t Tim

e

TMRCAの分布

0 20000 40000 60000 80000 100000Genealogies

0

1

2

3

4

5

Coa

lescen

t tim

e

0 2000 4000 6000 8000 10000Time

1000

Pop siz

e

TMRCAの分布

0 20000 40000 60000 80000 100000Genealogies

0

1

2

3

4

5

Coa

lescen

t tim

e

0 2000 4000 6000 8000 10000Time

0

2000

4000

6000

8000

10000Pop siz

e

TMRCAの分布

0 20000 40000 60000 80000 100000Genealogies

0

10

20

30

40

50

60

Coa

lescen

t tim

e

0 2000 4000 6000 8000 10000Time

0

2000

4000

6000

8000

10000Pop siz

e

TMRCAの分布

0 20000 40000 60000 80000 100000Genealogies

0

1

2

3

4

5

Coa

lescen

t tim

e

0 2000 4000 6000 8000 10000Time

0

2000

4000

6000

8000

10000Pop siz

e

0 20000 40000 60000 80000 100000Genealogies

0

1

2

3

4

5

Coa

lescen

t time

0 2000 4000 6000 8000 10000Time

1000

Pop siz

e

0 20000 40000 60000 80000 100000Genealogies

0

1

2

3

4

5

Coa

lescen

t time

0 2000 4000 6000 8000 10000Time

0

2000

4000

6000

8000

10000Pop siz

e

0 20000 40000 60000 80000 100000Genealogies

0

10

20

30

40

50

60

Coa

lescen

t time

0 2000 4000 6000 8000 10000Time

0

2000

4000

6000

8000

10000Pop siz

e

0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.000

200

400

600

800

1000

1200

0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.000

2000

4000

6000

8000

10000

12000

Pop

ulation size

0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.000

2000

4000

6000

8000

10000

12000

0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00

Time (4N generations)0

2000

4000

6000

8000

10000

12000

0

200

400

600

800

1000

1200

0

500

1000

1500

2000

2500

3000

Num

ber o

f gen

ealogies

0

500

1000

1500

2000

2500

3000

0

500

1000

1500

2000

2500

3000

Demography andthe distributionof TMRCA

Pairwise SequentiallyMarkovian Coalescent

PSMC

■ SFS

◆ ∂a∂i (Gutenkunst et al., 2009, PLoS Genet. 5:e1000695)

◆ Jaatha (Naduvilezhath et al., Mol. Ecol. 20:2709-2723)

◆ Fastsimcoal2 (Excoffier et al., 2013, PLoS Genet. 9:e1003905)

■ ハプロタイプの長さの分布◆ DoRIS (Palamara and Pe’er, 2013, Bioinformatics, 29:i180-i188)

◆ IBS tract length (Harris and Nielsen, 2013, PLoS Genet. 9:e1003521)

■ ゲノムレベルのデータ◆ PSMC (Li and Durbin, 2011, Nature, 475:493-496)

◆ MSMC (Schiffels and Durbin, 2014, Nat. Genet. 46:919-925)

◆ SMC++ (Terhorst et al., 2017, Nat. Genet. 49:303-309)

◆ diCal (Sheehan et al., 2013, Genetics, 194:647-662)

◆ CoalHMM (Mailund et al., 2012, PLoS Genet. 8:e1003125)

おまけ 組換え+自然選択の影響

おまけ 組換え+自然選択の影響

まとめ

· Demographyを推測するさまざまな方法が存在する。(cf. Schraiber and Akey, Nat. Rev. Genet., 16:727-740, 2015)

· 方法ごとに前提とするデータ、扱うことのできるモデルの範囲が異なる。

· どの方法を使うとしても、研究者がモデルを与える。アプリケーションはフィッティングする。

· 可能であればシミュレーションを行って確認することをオススメする。(解析前、解析後)

If you have any comments or questions,please e-mail me at

kmteshima @ kyudai.jp