Upload
lydieu
View
237
Download
1
Embed Size (px)
Citation preview
1
ゲノムワイドSNP-SNP相互作用解析
東北大学 東北メディカル・メガバンク
植木優夫
2
Gene-Gene interaction
Models for Gene-Gene interaction
Allelic interaction model
Further topics
Contents
3
Gene-Gene interaction
SNP-GWASにより同定された疾患感受性SNPのほとんどは効果サイズが小さい
オッズ比は1.1-1.5 (Park et al. 2011 PNAS)
検出には多くのサンプルが必要
独立サンプルでの再現性の問題
説明できない遺伝率
CDCV (Common Disease Common Variant) 仮説に基づく
SNP (common variant)は集団頻度5%以上の高頻度バリアントを指す
4
5
Gene-Gene interaction
失われた遺伝率(Manolio et al. 2009 Nature)は
以下の成分によって隠されている?
1. 遺伝子x遺伝子相互作用
2. 遺伝子x環境相互作用
3. レアバリアント (MAF<0.5%)
[またはMAF<0.5-5%の低頻度バリアント]
6
Risch (1990 AJHG)はありふれた疾患への相互作用の寄与を示唆する:血縁度の減少に伴う再発リスク比の減少は よりも急激
データに適合
自然選択により有害アリルは直ちに集団から取り除かれる(Kimura & Crow 1979)
Hemani et al. (2013 PLoS Genet)は,エピスタシス相互作用の自然選択を仮定した進化シミュレーションを行い,加法的遺伝分散が低レベルで維持されることを示した
これまでに得られた相加的遺伝分散は,実際には非相加的遺伝分散による寄与であった可能性がある
多くの研究者は遺伝子-遺伝子相互作用の重要性を認めている
エピスタシスの進化的挙動
8
Gene-Gene interaction
相互作用効果のモデル(2つのSNPs,loci 1 and 2)
Marchini et al. (2005 Nat Genet)
9
乾癬におけるERAP1とHLA-C (Strange et al. 2010 Nat Genet)
主効果: OR = ~1.3 (ERAP1, P<1e-9), ~4.7 (HLA-C, P<1e-213)
交互作用P値 = 7e-6
強直性脊椎炎におけるERAP1とHLA-B27 (Evans et al. 2011 Nat Genet)
主効果: OR = ~1.3 (ERAP1 , P<1e-12), ~40.8 (HLA-B27, P<1e-200)
交互作用P値 = 7e-6
一型糖尿病におけるHLA領域内の非相加的効果 (Barrett et al. 2009 Nat Genet, OR=5.5)
いずれも強い主効果
GWASで発見された相互作用
10
Interaction between ERAP1 and HLA-C
(Strange et al. 2010 Nat Genet)
11
標準的なSNP-SNP相互作用モデル
2つのカテゴリ変数(各3カテゴリ)間の交互作用項を含む分散分析モデル
通常の交互作用項の有意性検定
自由度4の尤度比検定
Cordell (2009 Nat Rev Genet)
12
標準的なSNP-SNP相互作用モデル
飽和モデルの利用は検出力を低下させる
加法-加法モデルが最もよく用いられる
優性-優性モデル,劣性-劣性モデルという可能性も
モデルの選定誤りは偽陽性を招く
Cordell (2009 Nat Rev Genet)
13
L個のSNPがあるとき,合計のペア数はL(L-1)/2 例えばL=350,000であれば,61,249,825,000個のペアがで
きる
網羅的に検索
2値形質(罹患の有無等)を対象にしたロジスティック回帰モデルは,前向き研究だけでなくケース・コントロール研究にも利用可能(Anderson 1972 Biometrika, Prentice & Pyke 1979 Biometrika)だが・ ・ ・
数値最適化に伴う高い計算コスト
結果を格納するデータストレージ
ロジスティック回帰での交互作用の検定
ゲノムワイド関連解析で得られたp値が小さいSNPについてのみ相互作用を検討
検定数の削減 => 計算速度の向上,有意水準の緩和
主効果をもたない相互作用を見落とす危険性
=> 全探索
14
Use only
フィルタリング
15
飽和モデルでのロジスティック回帰
尤度比検定統計量2(Lf - L0)を全探索 Lfは数値最適化が不要,陽に書ける
L0は数値最適化が必要,陽に書けない
L0に必要な最尤推定量をKirkwood Superposition Approximation (KSA)を用いて陽に書ける量で近似
=> L0>LKSA
ある閾値tを超える2(Lf - L0)を見つけるため,2(Lf - LKSA)がtを超えるかどうか調べる
t<2(Lf - L0)< 2(Lf - LKSA)より
2(Lf - LKSA)>tとなったペアについてだけ2(Lf - L0)>tを調べて,計算コストとデータストレージの問題を解決
BOOST (Wan et al. 2010 AJHG)
16
2(Lf - L0)>tの閾値tは自由度4のカイ2乗分布の分位点
多数の仮説を相手にするため,多重検定補正が必要
L個のSNPがあると,合計のペア数はL(L-1)/2
例えばL=350,000であれば,61,249,825,000個のペア
多重検定をボンフェローニ補正で行う場合,5%有意水準での検定は,各検定の有意水準をP<8 x 10-13におくことになる
BOOST (Wan et al. 2010 AJHG)
17
BOOSTではひとまず2(Lf - LKSA)>30を用いてフィルタリングを行う
[閾値30に対応する有意水準は4.9 x 10-6]
BOOSTは全探索を可能とした最初の論文
問題:
相互作用モデルによっては自由度4の検定は検出力が低下する可能性
相互作用検定間の独立性は成立しそうにない
分割表がスパースになるケースも多い
BOOST (Wan et al. 2010 AJHG)
18
2つのSNPは連鎖不平衡になく,さらにHardy-Weinberg平衡を仮定し,各MAFをp,qとおけば,一般集団での遺伝子型の頻度は
例えばp=q=10%とすれば
遺伝子型aa/bbをもつ人の割合は0.01%,つまり平均一人観察するのに1万サンプル必要
分割表はしばしばスパースとなる
bb bB BB
aa p2q2 2p2 (1-q)q p2(1-q)2
aA 2(1-p)pq2 4(1-p)p(1-q)q 2(1-p)p(1-q)2
AA (1-p)2q2 2(1-p)2(1-q)q (1-p)2(1-q)2
19
欠測データもしばしばある
(BOOSTの作者に問い合わせると,BOOSTは欠測データを扱えず,メジャーホモ接合でimputeせよということ)
まだBOOSTを使いnovelな相互作用を発見できた結果はないようである
BOOST (Wan et al. 2010 AJHG)
20
SNP-GWASと同様,リスクアリル数によって罹患リスクが増加するモデルが自然
Han et al. (2012 JASA)は係数に単調制約を入れたisotonic回帰を用いた検定を提案した
相互作用モデルの変更
21
遺伝学の対象は,ヒト単位よりもむしろアリル単位
ヒトは2倍体生物であり,2つのアリルをもつ
2座位のSNPがそれぞれa/A,b/Bアリルからなるときの回帰モデル(アリルが与えられたもとでの条件付)(Wu et al. 2010 PLoS Genet)
アリル間の相互作用モデル
b B
a
A
i
22
ケースコントロール研究デザインでは
ここでPは以下の期待頻度
アリル間の相互作用モデル
case control
b B b B
a
A
caseabP ,
controlaBcontrolAb
controlabconrolAB
caseaBcaseAb
caseabcaseAB
PP
PP
PP
PPi
,,
,,
,,
,,loglog
caseaBP ,
caseAbP , caseABP ,
controlabP ,
controlAbP ,
controlaBP ,
controlABP ,
23
Wu et al. (2010 PLoS Genet)は期待頻度Pを推定(疑似)ハプロタイプ頻度で置き換え,帰無仮説「i=0」を検定する以下の統計量Tを提案した
Prabhu & Pe‘er (2012 Genome Res)はこの統計量を用いて高速な相互作用探索法を提案した
アリル間の相互作用モデル
s,individual control of#: s,individual case of#:
,ˆ
1
ˆ
1
ˆ
1
ˆ
1
2
1
ˆ
1
ˆ
1
ˆ
1
ˆ
1
2
1ˆ
,ˆˆ
ˆˆlog
ˆˆ
ˆˆlogˆ
,ˆ
ˆ
,,,,
,,,,
,,
,,
,,
,,
2
controlcase
controlaBcontrolAbcontrolabcontrolABcontrol
caseaBcaseAbcaseabcaseABcase
controlaBcontrolAb
controlabconrolAB
caseaBcaseAb
caseabcaseAB
nn
PPPPn
PPPPnv
PP
PP
PP
PPi
v
iT
24
Wu et al.はTの分散項(分母)に,帰無仮説「i=0」の下で計算される漸近分散を用いている
1倍体標本が得られている場合にのみ成立
ヒトのような2倍体標本では不成立
アリル間の相互作用モデル
controlaBcontrolAbcontrolabcontrolABcontrol
caseaBcaseAbcaseabcaseABcase
controlaBcontrolAb
controlabconrolAB
caseaBcaseAb
caseabcaseAB
PPPPn
PPPPnv
PP
PP
PP
PPi
v
iT
,,,,
,,,,
,,
,,
,,
,,
2
ˆ
1
ˆ
1
ˆ
1
ˆ
1
2
1
ˆ
1
ˆ
1
ˆ
1
ˆ
1
2
1ˆ
,ˆˆ
ˆˆlog
ˆˆ
ˆˆlogˆ
,ˆ
ˆ
25
2倍体においては,最尤推定等(EMアルゴリズム)を用いて(疑似)ハプロタイプ頻度を得る必要がある
Wu et al. (2010 PLoS Genet)の漸近分散はこのバラツキを考慮していない
controlaBcontrolAbcontrolabcontrolABcontrol
caseaBcaseAbcaseabcaseABcase
controlaBcontrolAb
controlabconrolAB
caseaBcaseAb
caseabcaseAB
PPPPn
PPPPnv
PP
PP
PP
PPi
v
iT
,,,,
,,,,
,,
,,
,,
,,
2
ˆ
1
ˆ
1
ˆ
1
ˆ
1
2
1
ˆ
1
ˆ
1
ˆ
1
ˆ
1
2
1ˆ
,ˆˆ
ˆˆlog
ˆˆ
ˆˆlogˆ
,ˆ
ˆ
アリル間の相互作用モデル
Ueki & Cordell (2012 PLoS Genet)ではBrown (1975 Theor Pop Biol)の結果を援用し,頻度Pを最尤推定した場合の漸近分散を導き,Wu et al.のTを修正した
修正の効果
LD(連鎖不平衡)の無い場合,最尤推定することにより漸近分散は2倍に上昇
『Wu et al.のTを使うと偽陽性(つまり相互作用がないのにあると判定される)が生じる』
26
アリル間の相互作用モデル
アリルの相互作用モデルを考慮することは遺伝学の文脈からは自然
PLINK –fast-epistasis (Purcell et al. 2007 AJHG)が計算する統計量は,アリルをカウントした2×2分割表に対するWu et al.統計量と同じ形
しかし分割表の頻度は多項分布でないため,--fast-epistasisの漸近分散に修正が必要
Ueki & Cordell (2012 PLoS Genet)は分散項を修正した
27
アリル間の相互作用モデル
2倍体(父系×母系)でのWu et al.検定は,以下のモデルにおけるパラメータiに関する検定と解釈できる
ab aB Ab AB
ab
aB
Ab
AB
2
)(2
)(2
)(2 i
2
2
i 2
2
i 22 i 22
2 2
2
i 22
i 22
i 2
アリル間の相互作用モデル
Wu et al.モデルの遺伝子型が与えられたもとでの条件付分布
aa aA AA
bb
bB
BB
2
)(2
)(2
)(2 i
2
2
i 22
i 22)|(logit AaBbaffectedP
aBAbABab
aBAbABabHWE
PPPP
PPPPi
aBAbPabABP
aBAbPaBAbaffectedPabABPabABaffectedPAaBbaffectedP
)2(logit)2(logit
),(),(
),(),|(),(),|()|(
1-1-
アリル間の相互作用モデル
30
Joint Effects統計量 (Ueki & Cordell 2012)
Wu et al.のアリル間相互作用モデルにおける主効果は加法的にパラメトライズされている
遺伝子型の主効果には様々な形式が考えられる
主効果が優性,劣性の場合に偽陽性(偽相互作用)
Ueki & Cordell (2012)で新たに提案したJoint Effects統計量
後ろ向きサンプリングに伴う主効果の影響を除去
ひとつのパラメータで相互作用効果をパラメトライズし,Wu et al.統計量と互換性を持たせた
オッズ比のキャンセリング特性を利用
31
4つのオッズ比の重みつき平均
重みは漸近分散を最小化するように決定
のときは以下の量で代替する
aa aA AA
bb a b c
bB d e f
BB g h i
)12log(loglog2
logˆ
4321 bdae
cd
af
bgahcg
ai
wwww
21
hi
ef
2
1log
e
Joint Effects統計量 (Ueki & Cordell 2012)
ケース,コントロールの観測頻度
主効果パラメータを一般化して導入
Ueki & Cordellの相互作用モデル
aa aA AA
bb
bB
BB
2
22
22
i 222
12
12
i 212
i 122 )|(logit AaBbaffectedP
aBAbABab
aBAbABabHWE
PPPP
PPPPi
aBAbPabABP
aBAbPaBAbaffectedPabABPabABaffectedPAaBbaffectedP
22
2)2(logit2)2(logit
),(),(
),(),|(),(),|()|(
11
1
11
1
ケース群の遺伝子型分布 (ロジスティック回帰モデルを乗法的モデルにより近似)
aa aA AA
bb
bB
BB
KPfa ab /2
0
)|( affectedAaBbPe
KPPgfb Abab /210 KPgfc Ab /2
20
KPPhfd aBab /210
KPhfg aB /2
20 KPPhgfh ABaB /2210
KPPhgff ABAb /2120
KPhgfi AB /2
220
2
)(
,22
)(
),(),|(),(),|()|(
110
affectedPK
K
PPPPhgf
affectedP
aBAbPaBAbaffectedPabABPabABaffectedPaffectedAaBbP
aBAbABabHWE
aBAb
ABab
PP
PP
bdae
cd
af
bgah
cgai 12
以上のケース群,コントロール群の近似を用いたものがUeki & Cordell (2012)のJoint Effects検定
相互作用がなければ(ω=1),ケースとコントロールでそれぞれ計算したλの値に差は生じない
相互作用があれば(ω≠1)差が生じる
任意の主効果の形状を許す
コントロール群の遺伝子型分布 (一般集団分布に近似可)
aa aA AA
bb
bB
BB
2
abPa
aBAbABab PPPPe 22
AbabPPb 2 2
AbPc
aBabPPd 2
2
aBPg ABaBPPh 2
ABAbPPf 2
2
ABPi
aBAb
ABab
PP
PP
bdae
cd
af
bgah
cgai 12
35
ソフトウェア
Ma et al. (2013 PLoS Genet)はSNPを遺伝子単位でグループ化し,遺伝子間の相互作用を調べる手法を提案した
SNP単位の関連解析を遺伝子単位に集約する手法GATES(Li et al. 2011 AJHG) を応用したもの
Lewinger et al. (2013 Genet Epidemiol)は2段階の検定を用いて,厳しい有意水準を緩和しようと試みた
SNP間の相関でスクリーニング
検定間の独立性を利用(Dai et al. 2012 Biomerika)
36
その他の手法
Ritchie et al. (2001 AJHG)は,遺伝子型データの高次の相互作用の分割表を高低リスクカテゴリにまとめるMultifactor Dimensionality Reduction法(MDR)を提案
クロスバリデーションを用いて効果の真偽を確認する
最近まで,相互作用の検出に用いられてきた手法であるが,計算量が高くゲノムワイドの適用は困難
Ueki & Tamiya (2012 BMC Bioinf)は変数選択を利用するMDRと同種の手法を提案
Van Lishout et al. (2013 BMC Bioinf)は 値をパーミュテーションテストから有効に求める方法を提案
37
その他の手法
38
遺伝子-遺伝子相互作用解析では,これまで再現性のあった結果はほとんど得られていない
遺伝子-環境相互作用も同様
今後さらなる研究が必要
おわりに
39
My special thanks to
Prof. Heather Cordell (Newcastle University, UK)
Prof. Gen Tamiya (Tohoku University, Japan)
Acknowledgements