ゲノムワイドSNP-SNP相互作用解析 Gene-Gene interaction 失われた遺伝率(Manolio et al. 2009 Nature)は以下の成分によって隠されている？ 1. 遺伝子x遺伝子相互作用

1

ゲノムワイドSNP-SNP相互作用解析

東北大学東北メディカル・メガバンク

植木優夫

2

Gene-Gene interaction

Models for Gene-Gene interaction

Allelic interaction model

Further topics

Contents

3


SNP-GWASにより同定された疾患感受性SNPのほとんどは効果サイズが小さい

オッズ比は1.1-1.5 (Park et al. 2011 PNAS)

検出には多くのサンプルが必要

独立サンプルでの再現性の問題

説明できない遺伝率

CDCV (Common Disease Common Variant) 仮説に基づく

SNP (common variant)は集団頻度5%以上の高頻度バリアントを指す

4

5


失われた遺伝率(Manolio et al. 2009 Nature)は

以下の成分によって隠されている？

1. 遺伝子x遺伝子相互作用

2. 遺伝子x環境相互作用

3. レアバリアント (MAF<0.5%)

[またはMAF<0.5-5％の低頻度バリアント]

6

Risch (1990 AJHG)はありふれた疾患への相互作用の寄与を示唆する：血縁度の減少に伴う再発リスク比の減少はよりも急激

データに適合

自然選択により有害アリルは直ちに集団から取り除かれる（Kimura & Crow 1979）

Hemani et al. (2013 PLoS Genet)は，エピスタシス相互作用の自然選択を仮定した進化シミュレーションを行い，加法的遺伝分散が低レベルで維持されることを示した

これまでに得られた相加的遺伝分散は，実際には非相加的遺伝分散による寄与であった可能性がある

多くの研究者は遺伝子-遺伝子相互作用の重要性を認めている

エピスタシスの進化的挙動

8


相互作用効果のモデル(2つのSNPs，loci 1 and 2)

Marchini et al. (2005 Nat Genet)

9

乾癬におけるERAP1とHLA-C (Strange et al. 2010 Nat Genet)

主効果: OR = ~1.3 (ERAP1, P<1e-9), ~4.7 (HLA-C, P<1e-213)

交互作用P値 = 7e-6

強直性脊椎炎におけるERAP1とHLA-B27 (Evans et al. 2011 Nat Genet)

主効果: OR = ~1.3 (ERAP1 , P<1e-12), ~40.8 (HLA-B27, P<1e-200)

交互作用P値 = 7e-6

一型糖尿病におけるHLA領域内の非相加的効果 (Barrett et al. 2009 Nat Genet, OR=5.5)

いずれも強い主効果

GWASで発見された相互作用

10

Interaction between ERAP1 and HLA-C

(Strange et al. 2010 Nat Genet)

11

標準的なSNP-SNP相互作用モデル

2つのカテゴリ変数（各3カテゴリ）間の交互作用項を含む分散分析モデル

通常の交互作用項の有意性検定

自由度4の尤度比検定

Cordell (2009 Nat Rev Genet)

12

標準的なSNP-SNP相互作用モデル

飽和モデルの利用は検出力を低下させる

加法-加法モデルが最もよく用いられる

優性-優性モデル，劣性-劣性モデルという可能性も

モデルの選定誤りは偽陽性を招く

Cordell (2009 Nat Rev Genet)

13

L個のSNPがあるとき，合計のペア数はL(L-1)/2 例えばL=350,000であれば，61,249,825,000個のペアがで

きる

網羅的に検索

2値形質（罹患の有無等）を対象にしたロジスティック回帰モデルは，前向き研究だけでなくケース・コントロール研究にも利用可能（Anderson 1972 Biometrika, Prentice & Pyke 1979 Biometrika）だが・・・

数値最適化に伴う高い計算コスト

結果を格納するデータストレージ

ロジスティック回帰での交互作用の検定

ゲノムワイド関連解析で得られたp値が小さいSNPについてのみ相互作用を検討

検定数の削減 => 計算速度の向上，有意水準の緩和

主効果をもたない相互作用を見落とす危険性

=> 全探索

14

Use only

フィルタリング

15

飽和モデルでのロジスティック回帰

尤度比検定統計量2(Lf - L0)を全探索 Lfは数値最適化が不要，陽に書ける

L0は数値最適化が必要，陽に書けない

L0に必要な最尤推定量をKirkwood Superposition Approximation (KSA)を用いて陽に書ける量で近似

=> L0>LKSA

ある閾値tを超える2(Lf - L0)を見つけるため，2(Lf - LKSA)がtを超えるかどうか調べる

t<2(Lf - L0)< 2(Lf - LKSA)より

2(Lf - LKSA)>tとなったペアについてだけ2(Lf - L0)>tを調べて，計算コストとデータストレージの問題を解決

BOOST (Wan et al. 2010 AJHG)

16

2(Lf - L0)>tの閾値tは自由度4のカイ2乗分布の分位点

多数の仮説を相手にするため，多重検定補正が必要

L個のSNPがあると，合計のペア数はL(L-1)/2

例えばL=350,000であれば，61,249,825,000個のペア

多重検定をボンフェローニ補正で行う場合，5%有意水準での検定は，各検定の有意水準をP<8 x 10-13におくことになる


17

BOOSTではひとまず2(Lf - LKSA)>30を用いてフィルタリングを行う

[閾値30に対応する有意水準は4.9 x 10-6]

BOOSTは全探索を可能とした最初の論文

問題:

相互作用モデルによっては自由度4の検定は検出力が低下する可能性

相互作用検定間の独立性は成立しそうにない

分割表がスパースになるケースも多い


18

2つのSNPは連鎖不平衡になく，さらにHardy-Weinberg平衡を仮定し，各MAFをp，qとおけば，一般集団での遺伝子型の頻度は

例えばp=q=10%とすれば

遺伝子型aa/bbをもつ人の割合は0.01%，つまり平均一人観察するのに1万サンプル必要

分割表はしばしばスパースとなる

bb bB BB

aa p2q2 2p2 (1-q)q p2(1-q)2

aA 2(1-p)pq2 4(1-p)p(1-q)q 2(1-p)p(1-q)2

AA (1-p)2q2 2(1-p)2(1-q)q (1-p)2(1-q)2

19

欠測データもしばしばある

(BOOSTの作者に問い合わせると，BOOSTは欠測データを扱えず，メジャーホモ接合でimputeせよということ)

まだBOOSTを使いnovelな相互作用を発見できた結果はないようである


20

SNP-GWASと同様，リスクアリル数によって罹患リスクが増加するモデルが自然

Han et al. (2012 JASA)は係数に単調制約を入れたisotonic回帰を用いた検定を提案した

相互作用モデルの変更

21

遺伝学の対象は，ヒト単位よりもむしろアリル単位

ヒトは2倍体生物であり，2つのアリルをもつ

2座位のSNPがそれぞれa/A，b/Bアリルからなるときの回帰モデル（アリルが与えられたもとでの条件付）（Wu et al. 2010 PLoS Genet）

アリル間の相互作用モデル

b B

a

A

i

22

ケースコントロール研究デザインでは

ここでPは以下の期待頻度


case control

b B b B

a

A

caseabP ,

controlaBcontrolAb

controlabconrolAB

caseaBcaseAb

caseabcaseAB

PP

PP

PP

PPi

,,

,,

,,

,,loglog

caseaBP ,

caseAbP , caseABP ,

controlabP ,

controlAbP ,

controlaBP ,

controlABP ,

23

Wu et al. (2010 PLoS Genet)は期待頻度Pを推定（疑似）ハプロタイプ頻度で置き換え，帰無仮説「i=0」を検定する以下の統計量Tを提案した

Prabhu & Pe‘er (2012 Genome Res)はこの統計量を用いて高速な相互作用探索法を提案した


s,individual control of#: s,individual case of#:

,ˆ

1

ˆ

1

ˆ

1

ˆ

1

2

1

ˆ

1

ˆ

1

ˆ

1

ˆ

1

2

1ˆ

,ˆˆ

ˆˆlog

ˆˆ

ˆˆlogˆ

,ˆ

ˆ

,,,,

,,,,

,,

,,

,,

,,

2

controlcase

controlaBcontrolAbcontrolabcontrolABcontrol

caseaBcaseAbcaseabcaseABcase

controlaBcontrolAb

controlabconrolAB

caseaBcaseAb

caseabcaseAB

nn

PPPPn

PPPPnv

PP

PP

PP

PPi

v

iT

24

Wu et al.はTの分散項（分母）に，帰無仮説「i=0」の下で計算される漸近分散を用いている

1倍体標本が得られている場合にのみ成立

ヒトのような2倍体標本では不成立




controlaBcontrolAb

controlabconrolAB

caseaBcaseAb

caseabcaseAB

PPPPn

PPPPnv

PP

PP

PP

PPi

v

iT

,,,,

,,,,

,,

,,

,,

,,

2

ˆ

1

ˆ

1

ˆ

1

ˆ

1

2

1

ˆ

1

ˆ

1

ˆ

1

ˆ

1

2

1ˆ

,ˆˆ

ˆˆlog

ˆˆ

ˆˆlogˆ

,ˆ

ˆ

25

2倍体においては，最尤推定等（EMアルゴリズム）を用いて（疑似）ハプロタイプ頻度を得る必要がある

Wu et al. (2010 PLoS Genet)の漸近分散はこのバラツキを考慮していない



controlaBcontrolAb

controlabconrolAB

caseaBcaseAb

caseabcaseAB

PPPPn

PPPPnv

PP

PP

PP

PPi

v

iT

,,,,

,,,,

,,

,,

,,

,,

2

ˆ

1

ˆ

1

ˆ

1

ˆ

1

2

1

ˆ

1

ˆ

1

ˆ

1

ˆ

1

2

1ˆ

,ˆˆ

ˆˆlog

ˆˆ

ˆˆlogˆ

,ˆ

ˆ


Ueki & Cordell (2012 PLoS Genet)ではBrown (1975 Theor Pop Biol)の結果を援用し，頻度Pを最尤推定した場合の漸近分散を導き，Wu et al.のTを修正した

修正の効果

LD（連鎖不平衡）の無い場合，最尤推定することにより漸近分散は2倍に上昇

『Wu et al.のTを使うと偽陽性（つまり相互作用がないのにあると判定される）が生じる』

26


アリルの相互作用モデルを考慮することは遺伝学の文脈からは自然

PLINK –fast-epistasis (Purcell et al. 2007 AJHG)が計算する統計量は，アリルをカウントした2×2分割表に対するWu et al.統計量と同じ形

しかし分割表の頻度は多項分布でないため，--fast-epistasisの漸近分散に修正が必要

Ueki & Cordell (2012 PLoS Genet)は分散項を修正した

27


2倍体(父系×母系)でのWu et al.検定は，以下のモデルにおけるパラメータiに関する検定と解釈できる

ab aB Ab AB

ab

aB

Ab

AB

2

)(2

)(2

)(2 i

2

2

i 2

2

i 22 i 22

2 2

2

i 22

i 22

i 2


Wu et al.モデルの遺伝子型が与えられたもとでの条件付分布

aa aA AA

bb

bB

BB

2

)(2

)(2

)(2 i

2

2

i 22

i 22)|(logit AaBbaffectedP

aBAbABab

aBAbABabHWE

PPPP

PPPPi

aBAbPabABP

aBAbPaBAbaffectedPabABPabABaffectedPAaBbaffectedP

)2(logit)2(logit

),(),(

),(),|(),(),|()|(

1-1-


30

Joint Effects統計量 (Ueki & Cordell 2012)

Wu et al.のアリル間相互作用モデルにおける主効果は加法的にパラメトライズされている

遺伝子型の主効果には様々な形式が考えられる

主効果が優性，劣性の場合に偽陽性（偽相互作用）

Ueki & Cordell (2012)で新たに提案したJoint Effects統計量

後ろ向きサンプリングに伴う主効果の影響を除去

ひとつのパラメータで相互作用効果をパラメトライズし，Wu et al.統計量と互換性を持たせた

オッズ比のキャンセリング特性を利用

31

4つのオッズ比の重みつき平均

重みは漸近分散を最小化するように決定

のときは以下の量で代替する

aa aA AA

bb a b c

bB d e f

BB g h i

)12log(loglog2

logˆ

4321 bdae

cd

af

bgahcg

ai

wwww

21

hi

ef

2

1log

e

Joint Effects統計量 (Ueki & Cordell 2012)

ケース，コントロールの観測頻度

主効果パラメータを一般化して導入

Ueki & Cordellの相互作用モデル

aa aA AA

bb

bB

BB

2

22

22

i 222

12

12

i 212

i 122 )|(logit AaBbaffectedP

aBAbABab

aBAbABabHWE

PPPP

PPPPi

aBAbPabABP

aBAbPaBAbaffectedPabABPabABaffectedPAaBbaffectedP

22

2)2(logit2)2(logit

),(),(

),(),|(),(),|()|(

11

1

11

1

ケース群の遺伝子型分布（ロジスティック回帰モデルを乗法的モデルにより近似）

aa aA AA

bb

bB

BB

KPfa ab /2

0

)|( affectedAaBbPe

KPPgfb Abab /210 KPgfc Ab /2

20

KPPhfd aBab /210

KPhfg aB /2

20 KPPhgfh ABaB /2210

KPPhgff ABAb /2120

KPhgfi AB /2

220

2

)(

,22

)(

),(),|(),(),|()|(

110

affectedPK

K

PPPPhgf

affectedP

aBAbPaBAbaffectedPabABPabABaffectedPaffectedAaBbP

aBAbABabHWE

aBAb

ABab

PP

PP

bdae

cd

af

bgah

cgai 12

以上のケース群，コントロール群の近似を用いたものがUeki & Cordell (2012)のJoint Effects検定

相互作用がなければ（ω＝１），ケースとコントロールでそれぞれ計算したλの値に差は生じない

相互作用があれば（ω≠１）差が生じる

任意の主効果の形状を許す

コントロール群の遺伝子型分布（一般集団分布に近似可）

aa aA AA

bb

bB

BB

2

abPa

aBAbABab PPPPe 22

AbabPPb 2 2

AbPc

aBabPPd 2

2

aBPg ABaBPPh 2

ABAbPPf 2

2

ABPi

aBAb

ABab

PP

PP

bdae

cd

af

bgah

cgai 12

35

ソフトウェア

Ma et al. (2013 PLoS Genet)はSNPを遺伝子単位でグループ化し，遺伝子間の相互作用を調べる手法を提案した

SNP単位の関連解析を遺伝子単位に集約する手法GATES(Li et al. 2011 AJHG) を応用したもの

Lewinger et al. (2013 Genet Epidemiol)は2段階の検定を用いて，厳しい有意水準を緩和しようと試みた

SNP間の相関でスクリーニング

検定間の独立性を利用(Dai et al. 2012 Biomerika)

36

その他の手法

Ritchie et al. (2001 AJHG)は，遺伝子型データの高次の相互作用の分割表を高低リスクカテゴリにまとめるMultifactor Dimensionality Reduction法(MDR)を提案

クロスバリデーションを用いて効果の真偽を確認する

最近まで，相互作用の検出に用いられてきた手法であるが，計算量が高くゲノムワイドの適用は困難

Ueki & Tamiya (2012 BMC Bioinf)は変数選択を利用するMDRと同種の手法を提案

Van Lishout et al. (2013 BMC Bioinf)は値をパーミュテーションテストから有効に求める方法を提案

37

その他の手法

38

遺伝子-遺伝子相互作用解析では，これまで再現性のあった結果はほとんど得られていない

遺伝子-環境相互作用も同様

今後さらなる研究が必要

おわりに

39

My special thanks to

Prof. Heather Cordell (Newcastle University, UK)

Prof. Gen Tamiya (Tohoku University, Japan)

Acknowledgements

Documents

ゲノムワイドSNP-SNP相互作用解析 Gene-Gene interaction 失われた遺伝率(Manolio et al. 2009 Nature)は 以下の成分によって隠されている？ 1. 遺伝子x遺伝子相互作用

ゲノムワイドSNP-SNP相互作用解析 Gene-Gene interaction 失われた遺伝率(Manolio et al. 2009 Nature)は以下の成分によって隠されている？ 1. 遺伝子x遺伝子相互作用