View
0
Download
0
Category
Preview:
Citation preview
Demography
Kosuke Teshima
kmteshima @ kyudai.jp
Kyushu University
Topics covered
. Quick review of population genetics
. Effect of population size change
. Demographic inference
What is demography?
. 集団構造
. 集団の大きさ
. 構造やサイズの変化
What is demography?
What is demography?
What is demography?
What is demography?
Why we care demography?
. Evolutionary study
. Structure, history
. Selection
. Medical research
. Ecological research and conservation
. Agriculture
Quick review ofpopulation genetics
Wright-Fisher model
第一世代
第二世代
遺伝子プール
遺伝子プール
任意抽出
親世代で作られた配偶子が大きな集まり(遺伝子プール)を形成する
次世代は遺伝子プールから任意抽出された標本の集まりと考える
Wright-Fisher model
第一世代
第二世代
第三世代
伝達
伝達
消失
増加
第n世代
種全体に固定
遺伝子頻度の変化
1個
3個
突然変異の誕生
1世代目
2世代目
3世代目
n世代目
突然変異の固定
遺伝子頻度の変化
頻度
時間
遺伝子頻度の変化
時間
頻度
遺伝子頻度の変化
時間
頻度
0
1
突然変異の固定 突然変異の固定
単型的多型的 多型的多型的単型的 単型的
突然変異の消失新しい突然変異の誕生
現在過去
aの
遺伝子頻度
A
a
Aの
遺伝子頻度
集団内変異と集団間変異
時間
頻度
0
1
置換した変異
種間変異
種内変異
時間頻度
0
1
共通祖先
種A 種B
A
B
C
現在
多型状態にある変異
塩基配列データと遺伝的変異
✓ ✏サンプル 1 ... ATTGTATCTGACGATT ...サンプル 2 ... ATCGTAACTGACGACT ...サンプル 3 ... ATCGTAACTGACGACT ...サンプル 4 ... ATCGTATCTGACGACT ...
✒ ✑
塩基配列データと遺伝的変異
塩基配列データと遺伝的変異
T2
T3
T4
T5
T6{6}
{5}
{4}
{3}
{2}
{1}Past
Present
Coalescent理論Coalescent理論を使うと遺伝子系図の全長を求めることができる
ttotal =n∑
i=2
i× ti
ただし ti はfi(Ti) =
(
i
2
)
2Ne−
(i2)2N
Ti
に従う
T2
T3
T4
T5
T6{6}
{5}
{4}
{3}
{2}
{1}Past
Present
共通祖先までたどり着く時間
ランダムに選ばれた一組の配列が共通祖先までたどり着く時間の期待値は 2N 世代
E(T2) = 2N
E(T2) =
∫
∞
0
t×1
2Ne−
1
2Ntdt
= 2N
平均変異量 π
ランダムに選ばれた一組の配列間の変異量の平均は θ = 4Nu
E(T2) = 2N
Pr(K) =
∫
∞
0
Pr(K = k|t)× f(t)dt
E(K) =∞∑
k
[
s×
∫
∞
0
Pr(K = k|t)× f(t)dt
]
= u× 2× 2N
= 4Nu
変異サイト数
平均変異サイト数は遺伝子系図の全長と変異率の積 で求められる
T2
T3
T4
T5
T6
TMRCA
S = u× Ttotal
E(S) = u×n∑
i=2
iTi = 4Nun−1∑
i=1
1/i = θn−1∑
i=1
1
i
ここまでのまとめ
. 遺伝的変異パターンは集団サイズの影響を受ける
. 集団遺伝学の理論を用いると遺伝的変異パターンと集団サイズを関係づけることができる
標準中立モデルの下での遺伝子系図
現在
過去
{6}{5}
{4}{3}
{2}
{1}
{7}{8}{9}{10}
πとTajima’s Dの分布 (サイズ一定)
0 1 2 3 4 5π
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Freq
uenc
y
−4 −3 −2 −1 0 1 2 3 4Tajima's D
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
Freq
uenc
y
0 2000 4000 6000 8000 10000Time
1000
Pop siz
e
集団サイズが増加した時
現在
過去
{6}{5}
{4}{3}{2}
{1}
{7}{8}
{9}{10}
πとTajima’s Dの分布 (サイズ増加)
0 1 2 3 4 5π
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Freq
uenc
y
−4 −3 −2 −1 0 1 2 3 4Tajima's D
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
Freq
uenc
y
0 2000 4000 6000 8000 10000Time
0
2000
4000
6000
8000
10000Pop siz
e
πとTajima’s Dの分布 (サイズ減少)
0 1 2 3 4 5π
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Freq
uenc
y
−4 −2 0 2 4 6Tajima's D
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
Freq
uenc
y
0 2000 4000 6000 8000 10000Time
0
2000
4000
6000
8000
10000Pop siz
e
πとTajima’s Dの分布
0 1 2 3 4 5π
0.0
0.2
0.4
0.6
0.8
1.0
Freq
uenc
y
−4 −3 −2 −1 0 1 2 3 4Tajima's D
0.0
0.2
0.4
0.6
0.8
1.0
Freq
uenc
y
0 2000 4000 6000 8000 10000Time
0
2000
4000
6000
8000
10000Pop siz
e
(ボトルネック)
π: 比較
Bottleneck
Standard Neutral Model
Reduction
Growth
Tajima’s D: 比較
Growth
Reduction
Standard Neutral Model
Bottleneck
SFS: 比較
20 40 60 80 100Derived allele frequency
0.0
0.1
0.2
0.3
0.4
Cou
nt
10 20 30 40 500.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
Expansion
Shrink
Standard Neutral Model
Bottleneck
ここまでのまとめ
. Demographic historyが同じであっても遺伝的変異は確率的に変動し、分布する
. Demographic historyが異なれば、遺伝的変異の分布は異なる
. Demographic modelを設定することができれば、理論あるいはシミュレーションを用いて、遺伝的変異の分布を生成することができる
Demographic Inference inpopulation genetics
Workflow of demographic inference
Modeling
ATGCCGTA
ATGCCGTA
ATGCCGTA
ATGCCGTA
ATGCCGTA
ATGCCGTA
figure taken from 'ms' manual
DataSummarize data
θ
π
Tajima's D
SFS
haplotype data...
Choose parameter value
Simulate data
Compare simulation data
with observed data
FittingOutput
Comparing model and data
利用するデータの違い. full data. π, θ, number of SNPs. Tajima’s D, Fu and Li’s statistics. site frequency spectrum(SFS), 2D-SFS. haplotype data (IBS tract length)
計算方法の違い. Maximum likelihood. Bayesian approach
シミュレーション方法の違い. simulation with coalescent. simulation with diffusion
モデルの違い
Bayesian inferencewithout Likelihood
Approximate Bayesian
Computation
Bayesian inferenceでは事後確率分布を求める
P (θ|D) = f(D|θ) · P (θ).
我々のケースでは
Pr(進化パラメータ | ゲノム多様性デ-タ)= f(ゲノム多様性デ-タ | 進化パラメータ)× Pr(進化パラメータ)
実際の問題として、尤度関数を求めることは難しいしかし、進化モデルの下で得られるデータを生成することはできる。すなわちシミュレーションを行って データ ∼ f(·|θ)を得ることは可能。
アルゴリズム
Pr(θ|sobs) = f(sobs|θ) Pr(θ)
1. 事前確率分布 Pr(θ)からパラメータ θをサンプル2. θの下でシミュレーションを行ない、ssimを計算3. ‖sobs − ssim‖ ≤ δであれば θを accept。そうでなければ reject。
4. 上記プロセスを一定回数繰り返す5. acceptされた θの分布が求める事後分布Pr(θ|sobs)である
ABCは、任意のモデルを与えた上で事後確率を最大にするパラメータを推定する
P(#|D)
P(#)
P(D|#)x
Model
and parameters
Observed data
(Observed) Summary statistics
Data
Demographic
Model
(True)
Simulation
(Simulated)Summary statistics
prior distribution of parameters
(Random) Parameters
(Accepted) Parameters
if match
Simulation
family of ABC
現在では効率や精度を追求して様々なタイプのABCが開発されている
. rejection ABC (Fu and Li 1997, Marjoram et al. 2003)
. regression ABC (Beaumont et al. 2002)
. noisy ABC (Fearnhead and Prangle 2012)
. kernel ABC (Nakagome, Fukumizu and Mano 2013)
Inference of populationhistory
from individualwhole-genome sequences
組換え
組換え
組換え
組換え組換えがあると、共通祖先までたどり着くプロセスが染色体上の場
所ごとに異なる
{4}
{3}
{2}
{1}
{4}
{3}
{2}
{1}
{4}
{3}
{2}
{1}
組換えの影響
TMRCAの分布
0 20000 40000 60000 80000 100000Position
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
Coa
lescen
t Tim
e
TMRCAの分布
0.0 0.2 0.4 0.6 0.8 1.0Position 1e8
0
1
2
3
4
5
Coa
lescen
t Tim
e
TMRCAの分布
0 20000 40000 60000 80000 100000Genealogies
0
1
2
3
4
5
Coa
lescen
t tim
e
0 2000 4000 6000 8000 10000Time
1000
Pop siz
e
TMRCAの分布
0 20000 40000 60000 80000 100000Genealogies
0
1
2
3
4
5
Coa
lescen
t tim
e
0 2000 4000 6000 8000 10000Time
0
2000
4000
6000
8000
10000Pop siz
e
TMRCAの分布
0 20000 40000 60000 80000 100000Genealogies
0
10
20
30
40
50
60
Coa
lescen
t tim
e
0 2000 4000 6000 8000 10000Time
0
2000
4000
6000
8000
10000Pop siz
e
TMRCAの分布
0 20000 40000 60000 80000 100000Genealogies
0
1
2
3
4
5
Coa
lescen
t tim
e
0 2000 4000 6000 8000 10000Time
0
2000
4000
6000
8000
10000Pop siz
e
0 20000 40000 60000 80000 100000Genealogies
0
1
2
3
4
5
Coa
lescen
t time
0 2000 4000 6000 8000 10000Time
1000
Pop siz
e
0 20000 40000 60000 80000 100000Genealogies
0
1
2
3
4
5
Coa
lescen
t time
0 2000 4000 6000 8000 10000Time
0
2000
4000
6000
8000
10000Pop siz
e
0 20000 40000 60000 80000 100000Genealogies
0
10
20
30
40
50
60
Coa
lescen
t time
0 2000 4000 6000 8000 10000Time
0
2000
4000
6000
8000
10000Pop siz
e
0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.000
200
400
600
800
1000
1200
0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.000
2000
4000
6000
8000
10000
12000
Pop
ulation size
0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.000
2000
4000
6000
8000
10000
12000
0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00
Time (4N generations)0
2000
4000
6000
8000
10000
12000
0
200
400
600
800
1000
1200
0
500
1000
1500
2000
2500
3000
Num
ber o
f gen
ealogies
0
500
1000
1500
2000
2500
3000
0
500
1000
1500
2000
2500
3000
Demography andthe distributionof TMRCA
Pairwise SequentiallyMarkovian Coalescent
PSMC
■ SFS
◆ ∂a∂i (Gutenkunst et al., 2009, PLoS Genet. 5:e1000695)
◆ Jaatha (Naduvilezhath et al., Mol. Ecol. 20:2709-2723)
◆ Fastsimcoal2 (Excoffier et al., 2013, PLoS Genet. 9:e1003905)
■ ハプロタイプの長さの分布◆ DoRIS (Palamara and Pe’er, 2013, Bioinformatics, 29:i180-i188)
◆ IBS tract length (Harris and Nielsen, 2013, PLoS Genet. 9:e1003521)
■ ゲノムレベルのデータ◆ PSMC (Li and Durbin, 2011, Nature, 475:493-496)
◆ MSMC (Schiffels and Durbin, 2014, Nat. Genet. 46:919-925)
◆ SMC++ (Terhorst et al., 2017, Nat. Genet. 49:303-309)
◆ diCal (Sheehan et al., 2013, Genetics, 194:647-662)
◆ CoalHMM (Mailund et al., 2012, PLoS Genet. 8:e1003125)
おまけ 組換え+自然選択の影響
おまけ 組換え+自然選択の影響
まとめ
· Demographyを推測するさまざまな方法が存在する。(cf. Schraiber and Akey, Nat. Rev. Genet., 16:727-740, 2015)
· 方法ごとに前提とするデータ、扱うことのできるモデルの範囲が異なる。
· どの方法を使うとしても、研究者がモデルを与える。アプリケーションはフィッティングする。
· 可能であればシミュレーションを行って確認することをオススメする。(解析前、解析後)
If you have any comments or questions,please e-mail me at
kmteshima @ kyudai.jp
Recommended