情報生命科学特別講義 III （ 12 ）タンパク質立体構造の比較と予測

情報生命科学特別講義 III

（ 12 ）タンパク質立体構造の比較と予測

阿久津　達也

京都大学　化学研究所バイオインフォマティクスセンター

講義予定第１回 : 　文字列マッチング第２回：　文字列データ構造第３回：　たたみ込みとハッシュに基づくマッチング第４回：　近似文字列マッチング第５回：　配列アラインメント第６回：　配列解析第７回：　進化系統樹推定第８回：　木構造の比較：順序木第９回：　木構造の比較：無順序木第１０回：　文法圧縮第１１回：　 RNA 二次構造予測第１２回：　タンパク質立体構造の予測と比較第１３回：　固定パラメータアルゴリズムと部分 k 木第１４回：　グラフの比較と列挙第１５回：　まとめ

立体構造アラインメント

タンパク質立体構造比較の必要性立体構造と機能の間には密接な関係配列が似ていなくても構造類似の蛋白質が多数存

在構造分類データベース

SCOP （人間が分類） FSSP （ DALI プログラムにより分類） CATH （ SSAP プログラムなどにより分類）

立体構造アラインメント立体構造の類似性判

定のために有用どのように回転、平

行移動すれば、最適な残基間の対応づけ（アラインメント）が得られるかを計算

配列アラインメントの場合と異なり、決定版というようなアルゴリズムが無い

構造アライメント例

ヘモグロビン

ミオグロビン

RMSD(Root Mean Square Deviation)

点（ e.g., Cα 原子）の対応関係がわかっている場合に最適な重ね合わせとなる回転・平行移動を計算

行列計算により O(n) 時間で計算可能

p1p2

p3

p4

q1

q2

q3q4

T

n

iii

T

rms

Tn

QPd

1

2|)(|1

min

),(

qp

構造アラインメントプログラム : stralign 広くは利用されていないが、理論（計算幾何学）的

考察に基づいてアルゴリズムが設計されている東大 HGC よりダウンロード可能 [Akutsu 1996]

問題の定義入力：３次元点列 : P=( p1,…, pm ), Q=(q1,…, qn),

および、実数 δ 　　　（ m ≦ n とする）出力：以下を満たし、かつ、長さ（アラインさ

れる点のペアの個数）が最大となる P,Q 間のアライメント M （および、付随する平行・回転移動 T ）

|)(|max),(

jiM

Tji

qpqp

stralign の基本アルゴリズム M0← {}

for all triplets PP=(pi1,pi2,pi3) from P do

for all triplets QQ=(qj1,qj2,qj3) from Q do

Compute rigid motion TPP,QQ from PP to QQ

Compute alignment M　　between TPP,QQ(P) and Q

if |M| > |M0| then M0 ← M

Output M0

回転・平行移動 TPP,QQ の計算法

PP=(p1,p2,p3) 、 QQ=(q1,q2

,q3)

に対する TPP,QQ の計算法 p1 が q1 に重なるように

PP を並行移動 p1p2 と q1q2 が同一直線上

にあるように、 PP を回転移動

PP と QQ が同一平面上にあるように、 PP を p1p2 を軸として回転移動

TPP,QQ

p1

p2

p3

q1 q2

q3

T(P) と Q に対するアライメント M の計算

p1

p2

p3

q1

q2

q3

q4

cδ

q1

q2

q3

q4

p1

p2

p3

otherwise0

|)(|if1

]1,1[

]1,[

],1[

max],[

cTw

wjiS

jiS

jiS

jiS

jiij

ij

qp

基本アルゴリズムの性能解析(1) 補題：　 PP=(p1,p2,p3), QQ=(q1,q2,q3) とし、 T を

|T(pi) - qi| δ (≦ i=1,2,3) を満たす変換とすると、任意の p reg(p1,p2,p3) について以下が成立

　　　 |T(p) - q| δ≦ ならば |T　PP,QQ(p) - q| 8δ≦

}),(),(|,||||{),,( 21321121321 pppppxpppxxppp distdistreg

p1 p2

p3≦δ

≦8δ

qp

T(p)

TPP,QQ(p)

T

TPP,QQ

基本アルゴリズムの性能解析(2)

定理：　 δ に対する最適アラインメントを MOPT とすると、基本アルゴリズムは O(n8) 時間で、以下を満たすアラインメント M （と変換 T ）を出力する

||||and8|)(|max OPT),(

MMT jiMji

qpqp

証明概略MOPT に現れる P,Q の部分集合を、それぞれ、 P’,Q’ と

する。すると、 P’ が reg の中に全部含まれるような PPP’ が存在。

MOPT において、 PP に対応する QQ も存在し、補題の仮定を満たす。よって、 T(P’) は Q’ と 8δ 以内でマッチするため、アルゴリズムは |M| |≧MOPT| を満たすアラ

イメントを出力。注：（かなり大きくなるが）定数倍の時間をかければ、 8δ　は δ　に近づけることが可能

実用版 stralign 基本アルゴリズムは O(n8) 時間かかるので非実用的ランダムサンプリングや sparse DP などを用いると O(n5)

時間くらいに近づけることができるが、それでも非実用的そこで、理論的な性能保証はあきらめ、実用的なアルゴリズ

ムを開発

PP,QQ として長さ 10～ 20 残基程度の連続した fragment を利用し、 TPP,QQ は rmsd の計算法により求める全部で O(n2) ペアしか調べないので、 O(n2)×DP の計算量 = O(n4) 時

間。実際には rmsd が大きいペアには DP を行わないため、より高速。

解の精度を高めるため、「アライメント ⇒ rmsd fitting 　」を数回繰り返す

多くの場合、数秒程度でアライメント可能

他の構造アラインメント・アルゴリズム数多くの構造アライメント手法が提案例

DALI （距離行列のアラインメント） SSAP( 二重 DP) [Taylor & Orengo 1989]

CE (Combinatorial Expansion) [Shindyalov & Bourne 1998]

VAST (Vector Alignment Search Tool) [Gibrat et al. 1998]

DP+Iterative Improvement [Gernstein & Levitt 1998]

StrMul ( 二重ＤＰを基にした多重構造アラインメント） [Daiyasu & Toh 2000]

DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993]

Distance Matrix （同一タンパク P 内の）残基間の距離を行列形式で表現したもの

P と Q の distance matrix （ただし、アラインメントされる残基のみから構成される行列）ができるだけ類似するようなアラインメントを計算

Simulated Annealing に類似した方法を用いて、アラインメントを計算

0 3 5 8 60 1 5 4

5 1 0 2 78 5 2 0 36 4 7 3 0

3GLADV

0 5 8 1 60 2 5 7

8 2 0 2 21 5 2 0 36 7 2 3 0

5GAERV

G L A V-

G - A VR

D

E0 5 8 65 0 2 78 2 0 26 7 2 0

GAEV

G A E V

0 5 8 65 0 2 78 2 0 36 7 3 0

GADV

G A D V

アラインメント

Contact Map Overlap (CMO) 問題（１）

立体構造をグラフで表現 {vi,vj}E ⇔ 残基 vi と vj 間の距離が θ 以内

以下の制約のもとでアラインされる残基ペアを最大化アライメントにおいて (vi,uk) と (vj,ul) が対応するなら、　

{vi,vj}E 　⇔ {uk,ul}E’

K L V A

A V L A

LV

U C I

P G

K H G

Contact Map Overlap (CMO) 問題（２） CMO 問題に関する結果

NP困難 [Goldman et al. 1999] しかし、実際多くのタンパク質立体構造について最適解が計算可能

[Caprara et al. 2004] 整数計画法の利用分枝限定法の利用グラフの最大クリーク問題に還元可能（下図参照）

深く関連する問題 RNA 二次構造比較 [G-H. Lin et al. 2002] ペアエネルギー関数のもとでのスレッディング [Akutsu & Miyano 1999]

vi vj

uk ul

vi uk

vj ul

vi vj

uk ul

vi uk

vj ul

構造のマルチプルアライメントの困難性いくつかのアルゴリズム ( CE-MC, StrMul, … ) が提案されている

が、ヒューリスティクスに基づいており、解の性能保証は無い配列のマルチプルアラインメントと同様に本質的な困難さ (NP困難 ) があると予想される

実際、以下の問題として解釈すると、 NP困難

最大共通部分点集合問題 (LCP) [Akutsu & Halldorson 2000]

入力：　 d 次元空間上の点集合 S1, S2, …, SN

出力：以下を満たし、最大の要素数を持つ d 次元空間上の点集合 C各集合 Si に対し、等長変換 Ti が存在し、 T1(S1) T2(S2) …TN(SN) = C

タンパク質立体構造予測

タンパク質立体構造予測

アミノ酸配列から、タンパク質の立体構造（３次元構造）をコンピュータにより推定

実験よりは、はるかに精度が悪い

だいたいの形がわかれば良いのであれば、４～５割近くの予測率

T　 V　A　C　 L　G　F　 S　L　V　 V　G　 G　 R　 D　

アミノ酸配列　

コンピュータ　

タンパク質立体構造　

　立体構造予測法の分類物理的原理に基づく方法 (ab initio 法 )

エネルギー最小化、分子動力学法ホモロジーモデリング

配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖の配置の最適化を分子動力学法などで実行

２次構造予測各アミノ酸が α 、 β 、それ以外のいずれかにあるかを予測ランダムに予測すれば 33.3…% の予測率であるが、高性能の手法を用

いれば 80% 近い予測率格子モデルスレッディング

予測したい配列と既知構造の間のアラインメントを計算フラグメント・アセンブリー法

数残基から十数残基からなる複数のフラグメント候補をデータベース検索により選択した後、分子動力学法などを用いてそれらをつなげ合わせる

格子モデル

折れ畳み経路のシミュレーションによる定性的理解　→フォールディングファンネル

エネルギー最小の構造の計算法→ NP困難

親水性アミノ酸

疎水性アミノ酸

スコア＝－９

スコア＝－５

配列

格子モデルタンパク質構造予測のための、最も単純な数理モデル平面、もしくは、空間の格子点の中で折り曲げる隣にくる赤点（疎水性アミノ酸）の個数を最大にする　　　　　　　　　　　　（ただし、もともと隣にある点は対象外）

親水性アミノ酸

疎水性アミノ酸

スコア＝９

配列

スコア最大＝最適解スコア＝５

格子モデルの最適解の計算最適解（最大値を持つ答）の計算はとても難しい

スーパーコンピュータを使っても 1000 アミノ酸の問題は（たぶん）解けない

最大値が計算できないなら、近似解（最適解に近い値を持つ答）は計算できないだろうか？

⇒最適解はわからなくても、最適解の 4 分の 1程度

　　以上の値の答なら、いつでも速く計算可最適解がわからないのに、何でそんなことができるのだろうか？

格子モデル（ HP モデル）の近似に関する理論的結果２次元で 1/4 近似、３次元で 3/8 近似　　　　　　　　　　　　 (Hart & Istrail,

1995) ３次元で NP-Hard (Berger,Leighton,1998)

２次元で NP-Hard (Crescenzi et al.,1998)

２次元で 1/3 近似 (Newman, 2002)

最大値の見積もり性質（１）• 奇数番目の点は、偶数番目

の点としか隣り合わない• 偶数番目の点は、奇数番目

の点としか隣り合わない

以降ではわかりやすくするため、偶数番目の赤点は青点に書き換える

性質（２）• （はしの２点以外は）１

個の点は２個の点としか隣り合わない

X : 赤点の個数Y : 青点の個数

X ≦Y とする(逆の時も同様）

最大値 ≦ 2X+2

近似解の計算（１）もとの配列を中間くらいで切る

前半に青点の半分以上、後半に赤点の半分以上が来るように切る　　（そうできない場合には、赤と青を入れ替えれば大丈夫）

前半分を青点が 1 個おきに並ぶように折り曲げる後半分を赤点が 1 個おきに並ぶように折り曲げる

近似解の計算（２）もとの配列を中間くらいで切る前半分を青点が 1 個おきに並ぶように折り曲げる後半分を赤点が 1 個おきに並ぶように折り曲げる折り曲げたものを向かい合わせにする

• 下側の赤点には、必ず青点が結合• 最適解（の値）は 2X+2 以下だった• 近似解は赤点の半分以上　⇒　 X/2 　以上• よって、

近似解の解析もとの配列を中間くらいで切る

前半に青い点の半分以上、後半に赤い点の半分以上が来るように切る前半分を青点が 1 個おきに並ぶように折り曲げる後半分を赤点が 1 個おきに並ぶように折り曲げる折り曲げたものを向かい合わせにする

4

1

4422

2/

X

X

X

X

最適解近似解

まとめタンパク質立体構造アラインメント

タンパク質構造比較に利用、決定版（定式化）は無い比較的単純なアルゴリズムにより定数近似が可能

タンパク質立体構造予測様々な定式化、方法が存在 HP モデルは NP困難であるが、定数近似が可能

補足構造アラインメントに関して、今回と似た定式化のもとで O(n32)

時間で厳密解が計算可能　 [Ambuhl et al.: Proc. ESA 2000]

RMSD を用いた部分構造検索は平均的に高速に実行可能 [Shibuya: J. Comp. Biol. 2007]

HP モデルの 2 次元の場合の近似は 1/3 まで改善 [Newman: Proc. SODA 2002]

Documents

情報生命科学特別講義 III （ 12 ） タンパク質立体構造の比較と予測

情報生命科学特別講義 III （ 12 ）タンパク質立体構造の比較と予測