Large-scale imputation of epigenetic datasets for systematic annotation of diverse human tissues

Large-scale imputation of epigenetic datasets for systematic annotation

of diverse human tissues

2015/3/17 Epigenome Roadmap 輪読会

RIKEN ACCC BiT 露崎弘毅

欠損値について

そのまま扱う = サンプルサイズがばらばら

削除して完全データにする = 著しく情報が損失

??

? ?? ?

なんらかの理由で観測されない場合がある

データ

特徴量

例:遺伝子発現量、

蛍光強度

例: 実験、組織、細胞

??

? ?? ?

??

? ?? ?

現実のデータはたびたび欠損値がある不完全データ

??

? ?? ?

AはBより有意と言っていいのか?

A

B

検定p=0.01

p=0.03

列単位で削除行単位で削除

DNAマイクロアレイ : ゴミで蛍光が観測されないプローブがある SNPアレイ : チップが対応していないSNPが存在（メタ解析で関係） NGS : リード数が少ない

欠損値補完 = Imputation

??

? ?? ?

2.41.3

0.5 1.41.4 3.5

欠損値を予測するImputation

そのための根拠（古典的な統計学）

- 平均値代入、回帰代入、Hot-deck代入（似たデータから補完）、Cold-deck代入（同じデータの違う状況下でのデータから補完）、Average the available items, Last observation carried forward, Stochastic回帰代入- 欠損メカニズムをモデル化- 最近の方法 : Full Information maximum likelehood（FIML）、多重代入法…etc

欠損値に関するメモ（オミックス研究と関連して）

どれも一長一短

http://qiita.com/antiplastics/items/1526d1011938f78fa262

??

? ?? ?

似たデータを参考にするという方針（尺度: 相関係数、LDブロックなど）

2.4 2.5 2.3?

? ?? ?

2.1?

1.9

? ?? ?

2.12.3

列を似せる

行を似せる

オミックス解析でのImputation

列利用の方が結果が良いという比較研究はあるが大分データ依存的だとは思う（Celton, M. et. al., 2010）

似たデータ内にも欠損値があったりするので、EMアルゴリズムで逐次的に推定する

http://www.biomedcentral.com/1471-2164/11/15

この論文でImputeしたもの

sample（n=127）

mark (n=4315）

Figure 1a

Roadmap Epigenomics

Project (n=111)

ENCODE Project (n=16)

著者らが sample-mark matrix と言っているもの

mark : 25bpの各サイトにマップされたリードのカバレッジ

sample : 細胞、組織データ

ヒストン修飾、DNAアクセシビリティ、メチル化、RNA-seqなどを見た

この論文でのImputationの方針行も列も使おう！

i) 同じサンプル内の異なるmarkからの情報（あるmarkのカバレッジは周囲のmarkに似ているだろうという仮定）

ii) 異なるサンプル間でのターゲットmarkからの情報（あるmarkのカバレッジは他のサンプルでも似ているだろうという仮定）

sample c ?mark m

sample c ?mark m

mark m

mark m

sample c’

sample c’’

提案手法 : ChromImpute法

sample c ?mark m

sample c’mark m

sample c’’mark m

?

周囲500bpくらい

推定するときの重み（カバレッジが厚いところほど優先）

カバレッジ

ポジション

周りのマッピング状況から、欠損値を回帰モデルで推測する

補足 : アンサンブル回帰木回帰木 : 区間毎に値を推定する（非線形な回帰をやりたかったから使った）

scikit-learn 1.8 Decision Treesより

アンサンブル回帰木 : 木を沢山書いて、平均をとる要するにバギング、ブートストラップ集約（Random Forestではない?）

Regression tree ensembles in the perspective of kernel-based methodsより

1個の回帰木 100個の回帰木の平均

http://scikit-learn.org/stable/modules/tree.html

http://www.montefiore.ulg.ac.be/~lwh/Presentations/MPI-Tuebingen-2009.pdf

結果

sampleレベルで他と似ている markレベルで他と似ているFigure 1b,c

1. 他のデータに似せる事ができた

ランダムに200kbとってきても似てる

Figure 2a Figure 2c

相関係数計算しても似てる

結果2. H3K4me3のTSS（PromRecov）

Figure 3ac

この縦軸の値はSupplementary Figで説明しているらしいのだが、

壊れてて見れない><カバレッジが観測データと似てる

結果3. H3K36me3のGeneBody（GeneRecov）

Figure 3bd

よくわからない>< カバレッジが観測データと似てる

4. NHGRI GWASカタログとの比較

結果

Imputationで有意なSNPが増えた行と列の情報を両方使ったほうがより有意に

結果5. Quality control

あえて似てないデータだけを使ってImputationした

Worst10を使ったImputationの結果の良し悪しは実験のQC

の参考になる

結果は悪くなった

同じサンプルでもデータのクオリティによっては結果が悪くなる

結果6. クロマチン状態

著者らは過去にChromHMMという手法でクロマチン状態の予測を行った（Ernst, J. & Kellis M., 2012）

欠損値があるところは予測精度が悪かった

欠損値がある箇所を削除するとデータがかなり減ってしまった

今回、ChromImputeと組み合わせる事で、精度が改善された

（これが一番やりたかった事では?）

http://www.nature.com/nmeth/journal/v9/n3/full/nmeth.1906.html

まとめ・Epigenomics RoadmapとENCODEデータのImputationを行った

・sampleレベル、markレベルで類似度が高くなるように欠損値を推定するChromImpute法を提案した

・他のデータに似せることができた

・評価が難しい話しだけど、色々なデータから察するに多分良い推定ができた

Science

Large-scale imputation of epigenetic datasets for systematic annotation of diverse human tissues