15
A cross-species bi-clustering approach to identifying conserved co-regulated genes Jiangwen Sun, Zongliang Jiang, Xiuchun Tian and Jinbo Bi Bioinformatics, 32, 2016, i137–i146 中央大学 物理学科 田口善弘

A cross-species bi-clustering approach to identifying conserved co-regulated genes

Embed Size (px)

Citation preview

Page 1: A cross-species bi-clustering approach to identifying conserved co-regulated genes

A cross­species bi­clustering approach to identifying conserved co­regulated genes

Jiangwen Sun, Zongliang Jiang, Xiuchun Tian and Jinbo Bi

Bioinformatics, 32, 2016, i137–i146

中央大学 物理学科 田口善弘

Page 2: A cross-species bi-clustering approach to identifying conserved co-regulated genes

d samples

n genes

Species 1 Species 2

gene cluster 1

gene cluster 2

種1で発現パターンを共有すると種2でも(別の)パターンを共有する遺伝子群の同定

(      view)

(      variables)

(      subjects)

Page 3: A cross-species bi-clustering approach to identifying conserved co-regulated genes

基本は疎性非負行列分解(Sparse NMF)

特徴:

・Rank 1(ベクトル)分解・種間で共通にノンゼロになる遺伝子を選ぶベクトルz(後述)を計算(正則化項とは別)・残差に繰り返し同じ操作を繰り返すことで複数のクラスターを同定

Page 4: A cross-species bi-clustering approach to identifying conserved co-regulated genes

X u

vz

min||X−( z∘u)vT||2+λ z|z|+λu|u|+λv|v|

z ∘u=(z1 u1 , z2 u2 , z3 u3 ,⋯, znun)T

min∑i=1

m

||X i−(z ∘u i)v iT||

2+λ z|z|+∑

i=1

m

λui|u i|+∑

i=1

m

λv i|v i|

m種(view)についての和に拡張

=

multi­view

bi­clustering

L1L1正則化正則化

(1)

n genes

d samplesn×d 

Page 5: A cross-species bi-clustering approach to identifying conserved co-regulated genes

このあと(1)式を解くアルゴリズムについて詳細な説明(僕の手には負えないので省略)

概要をいうと....・求めるのはui,z,vi (i=1,...,m)の3つ。

・(z,vi):固定,ui:解く

 →(ui,z):固定,vi:解く

 → (ui,vi):固定, z,:解く

の繰り返しアルゴリズム。

・bi­(tri­?)convexの証明(全ての変数について最小値収束が保証)

・λの決め方が書いてない? ・Rでの実装をhttps://github.com/JavonSun/mvbc.git で公開(コアはC++)

Page 6: A cross-species bi-clustering approach to identifying conserved co-regulated genes

クラスターの定義:

その1:zがノンゼロの遺伝子

その2:uiが全てのiでノンゼロ遺伝子 → こっち採用

“ The second approach was used in our experiment.”(3節最後)

計算が終わったらXi   ← Xi ­ uiviTに置き換えて第2クラス

ターを同定。ほしい数のクラスターまで計算を継続。

Page 7: A cross-species bi-clustering approach to identifying conserved co-regulated genes

Synthetic Data

1000 genes

12 15

1

2

3 4

MVBC:提案手法SVO:種ごとにやって積集合を取るその他:カーネル+スペクトラル・クラスタリング

PCA+K­means規格化相互情報量

Page 8: A cross-species bi-clustering approach to identifying conserved co-regulated genes

 normalized mutual information (NMI) 

=

=

http://nlp.stanford.edu/IR­book/html/htmledition/evaluation­of­clustering­1.html

Page 9: A cross-species bi-clustering approach to identifying conserved co-regulated genes

正直言ってこのSynthetic Dataはヤラセである

・PCA+K­meansでできるのにわざわざ難しい方法を比較手法に持ってきて難しそうな問題の雰囲気を醸し出す。

・どうみても4つのクラスターじゃないものを4つだと言い張って提案手法が有利になるような結果を出す。(PCA+K­meansと提案手法の「差」は4番目のクラスターが「正しく」分割されない、という差)

しかし、これでレビューワはまんまと騙されたんだからこういう「技術」も「名を挙げる」のには重要!

Page 10: A cross-species bi-clustering approach to identifying conserved co-regulated genes

論文に載っている図

正解

この部分、意図的に順序を移動しています!

Page 11: A cross-species bi-clustering approach to identifying conserved co-regulated genes

Real Data GSE44183(初期発生)

human mouse

文献検索で同定した既知のパターン(上記)と相関係数が0.75以上の遺伝子だけを選んでから計算。得られたクラスターにenrich解析(詳細省略)

Page 12: A cross-species bi-clustering approach to identifying conserved co-regulated genes

これぐらい、まあ、なんでやってもでるでしょ、というレベル。比較手法でやってないのによく論文通ったな、という印象

Page 13: A cross-species bi-clustering approach to identifying conserved co-regulated genes

”「ISMB読み会」は、バイオインフォマティクス分野最大の国際会議に採択された論文の概要をなるべく多く知ることによって、分野全体の流行を手っ取り早く把握することを目的としています。トップのレベルを感じることによって、どうすトップのレベルを感じることによって、どうすれば世界を相手に戦うことができるか、参加者れば世界を相手に戦うことができるか、参加者全員で考える機会になることを期待全員で考える機会になることを期待します。”

Page 14: A cross-species bi-clustering approach to identifying conserved co-regulated genes

※なぜ、採択されたか?

Jinbo Bi, google scholar 407

今回採択者(特にコレポン)のgoogle scholarを見ることは大切。この程度の論文で採択されたくされたければ、この程度のgoogle scholarが必要。

Page 15: A cross-species bi-clustering approach to identifying conserved co-regulated genes

・しょぼいことがレヴューワーにばれないばれないSynthetic Dataを作る技術

・生物学的なことをしっかり考察(gene expression patterns を用いたプレスクリーニング)

→個人的なことで恐縮ですが、最近、ジョンズ・ホプキンスのメディカルの人(心筋の発生、日本人)と論文書いたけど、「離散的な発展段階ごとの考察」にとてもこだわっていた。数値を扱う側からすると「なんで連続変数(=時間)をわざわざカテゴリ化する」と思うけど、生物は「連続の中の離散」を追求する現象なので。

・数学的に厳密にフォーミュレーションしbi­convexも証明し、Rでの実装を公開。

※他に必要なこと