PrePPI: structure-based protein-protein interaction prediction

Structure-based prediction of protein-protein interactions on a genome-wide scale

大上雅史 (@tonets)2014/07/04

Qiangfeng Cliff Zhang, et al. Nature, 490(7421): 556-560, 2012.

2

• タンパク質の 3 次元構造情報とその他の非構造情報を組み合わせたタンパク質間相互作用（ PPI ）予測手法の提案

• PPI の解明は細胞のメカニズムの解明のために重要• Y2H （ yeast two-hybrid ）等のハイスループットな技術がすでに存在• 計算機上での予測手法も盛んに研究されているが，

その精度はまだまだ発展途上• 我々はハイスループットな実験手法と同等の精度（ ? ）を達成した

Abstract

Introduction• 現在までのところ、タンパク質の構造情報は配列の情報に

比べ極端に数が少ない– 酵母の例だと 10% 以下（割合 :600/6500, 2010 年）

• よって、タンパク質間相互作用の研究における貢献度は小さい

• しかし、この先３次元の構造情報が増えていけば，タンパク質の単体や複合体のモデリングに有効であることは明らかである

• これまでの研究で構造的特徴付けされた複合体をテンプレートとして用いる手法はいくつかあるが、我々は新たに二次構造を用いた幾何学的関係をテンプレートに利用する

3

Method

4

PrePPI

5

Fig. 1

• 候補構造生成に相同性モデルを用いたもの• 構造情報と非構造情報をベイズ統計で組み合わせたもの

候補構造の生成

6

候補構造の生成手順• 配列相同性検索を用いて入力タンパク質の代表構造を特定す

る– 実験的定義構造か相同性モデルに一致– 相同性：遺伝子やタンパク質が、進化的に共通の祖先を持つ場合のこ

と• 構造アラインメントを用いて類似のタンパク質を大量に用意

– 近いのと遠いの両方（平均 1500 個）– Ska というツールを使用

• うちどれか 2 つを相互作用モデルのテンプレートとする– PDB に存在するもの

• 複合体モデルはテンプレートに重ね合わせることで作る

7

どのくらいの量か• この過程で得られる候補構造の数– 酵母の 5 億 5 千万の候補構造• 酵母のタンパク質 3600 個， PPI 候補 240 万

– ヒトの 120 億の候補構造• タンパク質 13000 ， PPI 候補 3600 万

• 構造ベースアラインメントを用いた– 3 次元構造では計算時間が膨大なため

8

スコア関数 1

9

予測のための 5 つの構造に基づく経験的特徴量

• SIM– テンプレートと入力タンパク質の構造の類似度

• SIZ and COV– SIZ: テンプレートとの共通の結合面残基の個数– COV: その割合

• OS– SIZ のうち、結合面の残基ペアが両方とも一致している個数

• OL– テンプレートの結合面残基のうち、入力タンパク質においても

結合面に存在するものの個数

10

SIM• 構造の類似度

– テンプレートと入力タンパク質を二次構造を用いて比較– 2 つのタンパク質について PSD を求め、平均をとって使う

• PSD （ protein structural distance ）– 二重動的計画法（ DDP ）を用いた二次構造比較＋ RMSD による

スコア

1. まず、二次構造要素（ SSE, secondary structural element ）同士の距離や角度からある二次構造ペア間の類似度を網羅的に求める

11

距離角度

𝑝 ,𝑞 ,𝑟 :パラメータ𝑖 , 𝑗 ,𝑚 ,𝑛 :二次構造番号

二重動的計画法（ DDP ）を用いた二次構造比較スコア

SIM• つまり ? （二重動的計画法）

12

タンパク質Ａ B

a1

a2a3

a4

b1

b2b3

b4a1

a2

b1

b2

二次構造

角度距離

これの平均

a1

a2

a3

a4

を計算

b1 b2 b3 b4

𝑆 (𝑎1 ,𝑏1)

10

a1

a2

a3

a4

b1 b2 b3 b4

40

組み合わせの数だけ作成

20

30

30

5 2

2

3

7

9

1

ローレベル動的計画法

ハイレベル動的計画法

累積

𝑠 ( 𝐴 ,𝐵 )=100

残基

SIM• 二重動的計画法 DDP の例 (Double Dynamic Programing)

13

SIM• 二重動的計画法 DDP の例 (Double Dynamic Programing)

14

SIM• もうひとつのスコア

optimized CαRMSD– RMSD: 2 つのタンパク質を重ね合わ

せたときの、各原子間の距離をもとにした構造差

– まず二次構造アラインメントを用いて大まかな一致箇所を探す

– 残基間アラインメントを用いて一致する残基を探し、重ね合わせ、 RMSD を求める。

15

タンパク質３次元構造のペア

二次構造と溶媒露出面積を求める

二次構造アラインメント（さっきのやつ）

残基間アラインメント

剛体重ね合わせ、 RMSD 計算

RMSD は収束したか

no

yes

終了

流れ

SIM

• 最終的なスコア– 二つのタンパク質について PSD を求め、平均

をとって使う

16

𝑥 , 𝑦 :パラメータ

RMSD スコア

二次構造スコア

SIZ and COV• SIZ– ２つの構造で共通の結合面残基ペアの個数

• COV– その割合

17

OS and OL• OS– SIZ のうち、結合面残基ペアの両方ともが一致している

個数• OL– テンプレートの結合面残基のうち、入力タンパク質に

おいても結合面に存在するものの個数

18

ベイジアンネットワーク (BN)を用いた学習モデル 1/3

• 複数の DB を組み合わせる（ Table S1 ）– ２つ以上の DB に含まれている PPI ペアを信頼性の高いもの ; HC (High Confidence) とする– そうでないものを信頼性の低いもの ; LC (Low Confidence ）– それ以外を N (negative) とする

• HC と N を用いる

10-fold cross validation

19

学習に用いたデータベース（ DB ）

• さきほどまでの５つの特徴量をベイジアンネットワークで組み合わせ、 PPI の予測モデルを作成する

yeast human

BN を用いたモデル 2/3

• COV, SIZ, OL, OS– 全結合ベイジアンネットワーク– 同時確率

• SIM– ナイーブベイズ（他の４つとは関連が薄いため）

20

COV

SIZ

OL

OS

SIMClass

特徴量の利用方法（ Fig. S1 ）

BN を用いたモデル 3/3

• 相互作用判定のための尤度比（ LR, Likelihood Ratio ）

21

𝑂𝑝𝑟𝑖𝑜𝑟=𝑃 (𝐻𝐶)𝑃 (𝑁 )

𝑂𝑝𝑜𝑠𝑡=𝑃 (𝐻𝐶∨𝑏𝑖𝑛)𝑃 (𝑁∨𝑏𝑖𝑛)

LR𝑵𝑩≥𝟔𝟎𝟎閾値

bin: 分類クラス

BN 用いたモデル : 例• つまり

22

10 個 990 個

HC N

学習データセット

HC:8N:92

HC:2N:898

0.5< 0.5≧SIM

COV SIZ OS OL4< 0.6< 3< 5<

HC:7 N:93

4≧ 0.6≧ 3≧ 5≧HC:3 N:897

𝑂𝑝𝑟𝑖𝑜𝑟 1


簡単化のため、クラス数をとても減らしています

𝑂𝑝𝑟𝑖𝑜𝑟=199

BN を用いたモデル : 例

この値が大きければ相互作用すると判断

23

𝑂𝑝𝑜𝑠𝑡 1=793

入力タンパク質ペア

𝐶𝑂𝑉 >4 ,𝑆𝐼𝑍>0.6 ,𝑂𝑆>3 ,𝑂𝐿>5𝑆𝐼𝑀>0.5

𝑂𝑝𝑜𝑠𝑡2=892

LR 𝑩𝟒=𝑂𝑝𝑜𝑠𝑡1


= 793×991≈7.45

LR𝑵𝑩=𝑂𝑝𝑜𝑠𝑡2


= 892×991≈8.61

LR𝑵𝑩=𝟔𝟒 .𝟏

ひとつ前のスライドの色の濃い方に含まれる

スコア関数 2

24

比較、組み合わせのための5 つの非構造情報（ NS ）

1. 相互作用ペアのタンパク質の必須性2. 発現の時間変動の相関係数

– 複合体を形成するタンパク質同士は遺伝子が共発現することが多い3. 遺伝子オントロジー（ GO, Gene ontology ）の機能類似性

– GO: 生物学的概念を記述するための、共通の語彙を策定しようとするプロジェクト / 統一されたデータベース

4. MIPS の機能類似性5. 系統発生プロファイルの類似性

25

非構造情報• 5番目：系統発生プロファイルの類似性

– それぞれのタンパク質について、特定のタンパク質またはドメインの発生の有無を 0,1 のベクターで表現する

– その類似度をピアソンの相関係数（ PCC ）で測る• 複数のドメインを持つものは、それぞれのドメインについて

相関係数を計算し、高い方を採用する• ２つの配列の同一性が 40％以上の場合は計算しない

26

構造情報と非構造情報の合体• 単純ベイズ分類器で結合

27

LR (SM, 𝑬𝟏 ,𝑬𝟐 ,𝑬𝟑 ,𝑬𝟒 ,𝑬𝟓 )=LR𝑺𝑴∗∏𝒊=𝟏

𝟓

𝑳𝑹𝑬 𝒊

: 構造情報: 非構造情報

Results & Discussion

28

構造と非構造の比較結果その１ Fig. S3

• 非構造情報を用いた場合、閾値の LR が大きくなると急激に悪化する

• 　構造情報は high confidence level で有効である

29

• TP （ True positive ）o HC のみ

• TP_ALLo HC+LC

• Po すべての positive 予測の個数

構造と非構造の比較結果その２ Fig. S4

• SM は低 FPR （ 0.1％以下）のときに特に効果を発揮する

• 大量のネガティブペアが存在する PPI 予測では、これは効果的である

30

• A: 全てのデータセット• B: yeast のみ• C: B のうち全ての特徴量が　利用できるもののみ

• D: B のうち構造情報を利用できるもののみ

• E: yeast で学習して humanで試した？

31

２つの相補性• 構造情報と非構造情報は相補的関係にあ

る– 力を合わせたほうが良い結果（ Fig. S4 ）– Fig. S6 でもわかる（ LR>600 ）

32

ハイスループットな実験とも比べた

• Fig.2 Fig.S8• ほぼ同等かそれ以上の精度• PrePPI と実験的手法では正解したペアが違う ( 次のスライド )

組み合わせると有効だろう

33

34

ハイスループットな実験とも比べた

DREAM exercise• DREAM (Dialogue for Reverse Engineering Assessments and Methods) とい

う予測競走のイベントにおいて、 PrePPI が一番良い

35

生物学的実験による確認• 19 個の予測結果を免疫沈降法（ IP ）とウエスタンブロッ

ティング（ IB ）によって確認（ Fig. S10～ S14, Table S6 ）– 他の４つの研究室に依頼– 大部分が実験的にも確認できた（ Table. S6 ）– 例１（ Fig.S10 ）

• PPAR-γ は β 細胞機能に働くが、直接か間接か？→実験結果から直接の可能性を示した

36

免疫沈降法 (IP) とウエスタンブロッティング(IB)

• 手順

37

A B

Flag HA

A B

Flag とかくっつけるまず Flag ついているやつだけ取り出す

A

Flag

？

今度はその中から HA がついているやつを取り出してみる

対象のタンパク質

B

HA

何もなし相互作用しない

相互作用するIB

IP複合体も取り出せる

単体のみ

我々が成功したたった 3 つの理由　その 1

• モデル化できる相互作用を増やすことが重要（ Fig. S16 ）– 今回は相同性モデルや構造的に遠い関係のものも利用したが、実験的に定義

された PDB内に存在する構造だけを用いると、候補構造の数は一気に減ってしまう

– ただし，精度は PDB中のものを用いたほうが高い– だが，相同性モデルで予測されたものも研究が進めば正しいことが証明され

るはず

38

候補構造の数既に知られている PPI の割合


スコアがつよい• 近い family 同士のタンパク質も区別できる（ Fig. S15 ）

– 結合面の情報を用いたから。例えば、出現残基の統計的要素など– それに加え、共発現などの非構造情報も大事

39SMのみ

PrePPI

幅広いスコア分布


ベイズ– 個々の独立性を保ちながら、弱い証拠が組み合わさ

り高い精度を出した

40

相同性モデルによって発見できた例

• 構造的には遠い関係、相同性モデルを用いた例• どちらも質量分析によって実験的に証明された

41

Conclusion

42

結論• 相同性モデルを用いることは新たな機能関係の

発見に有効

• PrePPI はハイスループットな実験と同等の精度を達成

• 我々は structural biology が分子システム生物学において重要な役割を持っていることを示した

43

PrePPIサーバ

44

https://bhapp.c2b2.columbia.edu/PrePPI/



45

CALM1 の検索結果（ calmodulin タンパク質）

DB には PPI はないけど CALM1 と CETN2 の予測のスコア特に構造のスコアが高い！見てみよう（ﾎﾟﾁｰ

46

CALM1-CETN2 のモデル構造