5
方法開発の背景と目的 多くのタンパク質は,他のタンパク質と相互作用することで生物学的な機能を果た している タンパク質の相互作用部位の同定は,様々なタンパク質の生物学的な機能解明に 大いに役立つ 創薬研究の手助けにもなる (創薬標的分子の同定、阻害剤などの結合部位同定 等) 既に幾つか予測法が開発されているが、予測性能が高くない トランジェントなヘテロタンパク質を標的とした、より精度の高いタンパク質 相互作用部位の新規予測法の開発したい! ISIS (Ofran and Rost, 2007) … 現在、利用不可? - 1,134配列 (333 トランジェントタンパク質)を利用して予測モデル開発 - 相互作用するアミノ酸残基の定義 … 原子間距離に基づく (6.0Å以下) SPPIDER (Porollo and Meller, 2007) - 436配列 (262 ヘテロタンパク質, 173 ホモタンパク質) - 相互作用するアミノ酸残基の定義 … 溶媒接触面積に基づく (5.0Å 2 以上)

Introduction of PSIVER (Japanese )

Embed Size (px)

Citation preview

Page 1: Introduction of PSIVER (Japanese )

方法開発の背景と目的 n  多くのタンパク質は,他のタンパク質と相互作用することで生物学的な機能を果たしている

n  タンパク質の相互作用部位の同定は,様々なタンパク質の生物学的な機能解明に大いに役立つ

n  創薬研究の手助けにもなる (創薬標的分子の同定、阻害剤などの結合部位同定 等) n  既に幾つか予測法が開発されているが、予測性能が高くない

トランジェントなヘテロタンパク質を標的とした、より精度の高いタンパク質相互作用部位の新規予測法の開発したい!

例 n  ISIS (Ofran and Rost, 2007) … 現在、利用不可? - 1,134配列 (333 トランジェントタンパク質)を利用して予測モデル開発 - 相互作用するアミノ酸残基の定義 … 原子間距離に基づく (6.0Å以下) n  SPPIDER (Porollo and Meller, 2007) - 436配列 (262 ヘテロタンパク質, 173 ホモタンパク質) - 相互作用するアミノ酸残基の定義 … 溶媒接触面積に基づく (5.0Å2以上)

Page 2: Introduction of PSIVER (Japanese )

データセットの準備 n  PDB (Protein Data Bank)からトランジェントなヘテロ二量体タンパク質のデー

タのみを取得 n  105のタンパク質から,配列類似度が25%以下の186の配列を得る n  186配列セットを訓練データセットとして、予測モデルを構築する

相互作用するアミノ酸残基の定義 n  アミノ酸残基の溶媒接触面積が1.0Å2以上のとき、その残基は「相互作用する」

と定義する (Jones and Thornton, 1996) n  137,094 残基中,5,478 残基(14.8%) は他のタンパク質と相互作用する残基

アミノ酸残基

ヘテロ二量体 単量体

溶媒接触面積 ≧1.0Å2

PDBからのデータセットの構築

Page 3: Introduction of PSIVER (Japanese )

…LIISKYPVSF TKEQSAQAA QWESVLKS…

入力 = 標的となるアミノ酸残基を中心とする部分配列

位置特異的スコア行列  に基づく単純ベイズ分類器

予測した溶媒接触面積  に基づく単純ベイズ分類器

スコア = { σ(確率比率1) + σ(確率比率2) } / 2 σ : シグモイド関数

スコア ≥ θ ならば、「相互作用する」と予測。 そうでなければ,「相互作用しない」と予測。

フィルタリング

次のアミノ酸残基へ

確率比率1 確率比率2

単純ベイズ分類器 n  独立性を仮定し、ベイズの定理に基づいた

確率モデル n  クラス付け(教師あり; 例、相互作用する/

しない)された訓練データセットを用いて確率モデルを作成

n  NBCの出力は、”相互作用する”クラスの事後確率を”相互作用しない“クラスの事後確率で割った確率比率

スコア n  2つの分類器から出力された確率比率をシ

グモイド関数を使って0~1.0に標準化して平均化する

フィルタリング n  「相互作用する」と予測された残基Aを中心

とするN残基の部分配列内に、「相互作用する」と予測された他の残基がP-1個以下の場合、残基Aを「相互作用しない」と予測

PSIVERのアルゴリズム

Page 4: Introduction of PSIVER (Japanese )

ドッキングベンチマークセット(version 3.0; Hwang et al., 2008)から作成した72のアミノ酸配列をテストデータセットして、他の方法との性能比較を行った。

Models MCC Precision (%) Recall (%) SP (%) ACC (%) F値 (%)

PSIVER (Murakami and Mizuguchi, 2010) 0.135 25.0 46.5 69.3 66.1 32.5

ISIS (Ofran and Rost, 2007) 0.091 21.0 35.0 76.2 70.9 26.3

SPPIDER (Porollo amd Meller, 2007) 0.081 20.4 45.4 64.7 61.7 24.6

Models MCC Precision Recall SP ACC

Chain E (244 residues) ‒ Uracil-DNA Glycosylase

PSIVER 0.436 32.5 90.0 72.7 74.9

ISIS 0.028 14.3 31.0 72.7 67.4

SPPIDER 0.217 32.1 31.0 90.4 82.8

Chain I (83 residues) ‒ Uracil-DNA Glycosylase inhibitor protein

PSIVER 0.310 51.2 70.0 62.3 65.1

ISIS 0.009 37.5 10.0 90.6 61.5

SPPIDER 0.083 36.6 100.0 1.9 37.4

予測例

ベンチマークの結果と他の方法との比較

Page 5: Introduction of PSIVER (Japanese )

PSIVERへの入力 •  FASTAフォーマットのアミノ酸配列 •  10配列まで同時に入力可能 •  配列データファイルのアップロード機能 •  E-mailによる予測結果の通知

Protein-Protein Interaction Sites Prediction Server http://mizuguchilab.org/PSIVER/

Webサーバ