A cross-species bi-clustering approach to identifying conserved co-regulated genes

A crossspecies biclustering approach to identifying conserved coregulated genes

Jiangwen Sun, Zongliang Jiang, Xiuchun Tian and Jinbo Bi

Bioinformatics, 32, 2016, i137–i146

中央大学　物理学科　田口善弘

d samples

n genes

Species 1 Species 2

gene cluster 1

gene cluster 2

種１で発現パターンを共有すると種２でも（別の）パターンを共有する遺伝子群の同定

( view)

( variables)

( subjects)

基本は疎性非負行列分解(Sparse NMF)

特徴：

・Rank 1（ベクトル）分解・種間で共通にノンゼロになる遺伝子を選ぶベクトルz(後述）を計算（正則化項とは別）・残差に繰り返し同じ操作を繰り返すことで複数のクラスターを同定

X u

vz

min||X−( z∘u)vT||2+λ z|z|+λu|u|+λv|v|

z ∘u=(z1 u1 , z2 u2 , z3 u3 ,⋯, znun)T

min∑i=1

m

||X i−(z ∘u i)v iT||

2+λ z|z|+∑

i=1

m

λui|u i|+∑

i=1

m

λv i|v i|

m種(view)についての和に拡張

=

multiview

biclustering

L1L1正則化正則化

（１）

n genes

d samplesn×d

このあと（１）式を解くアルゴリズムについて詳細な説明（僕の手には負えないので省略）

概要をいうと....・求めるのはui,z,vi (i=1,...,m)の３つ。

・(z,vi):固定,ui:解く

　→(ui,z):固定,vi:解く

　→ (ui,vi):固定, z,:解く

の繰り返しアルゴリズム。

・bi(tri?)convexの証明（全ての変数について最小値収束が保証）

・λの決め方が書いてない？・Rでの実装をhttps://github.com/JavonSun/mvbc.git で公開（コアはC++）

クラスターの定義：

その１：zがノンゼロの遺伝子

その２：uiが全てのiでノンゼロ遺伝子 → こっち採用

“ The second approach was used in our experiment.”(3節最後）

計算が終わったらXi ← Xi uiviTに置き換えて第２クラス

ターを同定。ほしい数のクラスターまで計算を継続。

Synthetic Data

1000 genes

12 15

1

2

3 4

MVBC:提案手法SVO:種ごとにやって積集合を取るその他：カーネル＋スペクトラル・クラスタリング

PCA＋Kmeans規格化相互情報量

normalized mutual information (NMI)

=

=

http://nlp.stanford.edu/IRbook/html/htmledition/evaluationofclustering1.html

正直言ってこのSynthetic Dataはヤラセである

・PCA＋Kmeansでできるのにわざわざ難しい方法を比較手法に持ってきて難しそうな問題の雰囲気を醸し出す。

・どうみても４つのクラスターじゃないものを４つだと言い張って提案手法が有利になるような結果を出す。（PCA＋Kmeansと提案手法の「差」は４番目のクラスターが「正しく」分割されない、という差）

しかし、これでレビューワはまんまと騙されたんだからこういう「技術」も「名を挙げる」のには重要！

論文に載っている図

正解

この部分、意図的に順序を移動しています！

Real Data GSE44183（初期発生）

human mouse

文献検索で同定した既知のパターン（上記）と相関係数が0.75以上の遺伝子だけを選んでから計算。得られたクラスターにenrich解析（詳細省略）

これぐらい、まあ、なんでやってもでるでしょ、というレベル。比較手法でやってないのによく論文通ったな、という印象

”「ISMB読み会」は、バイオインフォマティクス分野最大の国際会議に採択された論文の概要をなるべく多く知ることによって、分野全体の流行を手っ取り早く把握することを目的としています。トップのレベルを感じることによって、どうすトップのレベルを感じることによって、どうすれば世界を相手に戦うことができるか、参加者れば世界を相手に戦うことができるか、参加者全員で考える機会になることを期待全員で考える機会になることを期待します。”

※なぜ、採択されたか？

Jinbo Bi, google scholar 407

今回採択者（特にコレポン）のgoogle scholarを見ることは大切。この程度の論文で採択されたくされたければ、この程度のgoogle scholarが必要。

・しょぼいことがレヴューワーにばれないばれないSynthetic Dataを作る技術

・生物学的なことをしっかり考察（gene expression patterns を用いたプレスクリーニング）

→個人的なことで恐縮ですが、最近、ジョンズ・ホプキンスのメディカルの人（心筋の発生、日本人）と論文書いたけど、「離散的な発展段階ごとの考察」にとてもこだわっていた。数値を扱う側からすると「なんで連続変数（＝時間）をわざわざカテゴリ化する」と思うけど、生物は「連続の中の離散」を追求する現象なので。

・数学的に厳密にフォーミュレーションしbiconvexも証明し、Rでの実装を公開。

※他に必要なこと

Science

A cross-species bi-clustering approach to identifying conserved co-regulated genes