Upload
lysa
View
62
Download
5
Embed Size (px)
DESCRIPTION
情報生命科学特別講義 III ( 12 ) タンパク質立体構造の比較と予測. 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター. 講義予定. 第1回 : 文字列マッチング 第2回: 文字列データ構造 第3回: たたみ込みとハッシュに基づくマッチング 第4回: 近似文字列マッチング 第5回 : 配列アラインメント 第6回: 配列解析 第7回 : 進化系統樹推定 第8回 : 木構造の比較:順序木 第9回 : 木構造の比較:無順序木 第10回 : 文法圧縮 第11回 : RNA 二次構造予測 - PowerPoint PPT Presentation
Citation preview
情報生命科学特別講義 III
( 12 ) タンパク質立体構造の比較と予測
阿久津 達也
京都大学 化学研究所バイオインフォマティクスセンター
講義予定 第1回 : 文字列マッチング 第2回: 文字列データ構造 第3回: たたみ込みとハッシュに基づくマッチング 第4回: 近似文字列マッチング 第5回: 配列アラインメント 第6回: 配列解析 第7回: 進化系統樹推定 第8回: 木構造の比較:順序木 第9回: 木構造の比較:無順序木 第10回: 文法圧縮 第11回: RNA 二次構造予測 第12回: タンパク質立体構造の予測と比較 第13回: 固定パラメータアルゴリズムと部分 k 木 第14回: グラフの比較と列挙 第15回: まとめ
立体構造アラインメント
タンパク質立体構造比較の必要性 立体構造と機能の間には密接な関係 配列が似ていなくても構造類似の蛋白質が多数存
在 構造分類データベース
SCOP (人間が分類) FSSP ( DALI プログラムにより分類) CATH ( SSAP プログラムなどにより分類)
立体構造アラインメント 立体構造の類似性判
定のために有用 どのように回転、平
行移動すれば、最適な残基間の対応づけ(アラインメント)が得られるかを計算
配列アラインメントの場合と異なり、決定版というようなアルゴリズムが無い
構造アライメント例
ヘモグロビン
ミオグロビン
RMSD(Root Mean Square Deviation)
点( e.g., Cα 原子)の対応関係がわかっている場合に最適な重ね合わせとなる回転・平行移動を計算
行列計算により O(n) 時間で計算可能
p1p2
p3
p4
q1
q2
q3q4
T
n
iii
T
rms
Tn
QPd
1
2|)(|1
min
),(
qp
構造アラインメントプログラム : stralign 広くは利用されていないが、理論(計算幾何学)的
考察に基づいてアルゴリズムが設計されている 東大 HGC よりダウンロード可能 [Akutsu 1996]
問題の定義入力: 3次元点列 : P=( p1,…, pm ), Q=(q1,…, qn),
および、 実数 δ ( m ≦ n とする)出力: 以下を満たし、かつ、長さ(アラインさ
れる点のペアの個数)が最大となる P,Q 間のアライメント M (および、付随する平行・回転移動 T )
|)(|max),(
jiM
Tji
qpqp
stralign の基本アルゴリズム M0← {}
for all triplets PP=(pi1,pi2,pi3) from P do
for all triplets QQ=(qj1,qj2,qj3) from Q do
Compute rigid motion TPP,QQ from PP to QQ
Compute alignment M between TPP,QQ(P) and Q
if |M| > |M0| then M0 ← M
Output M0
回転・平行移動 TPP,QQ の計算法
PP=(p1,p2,p3) 、 QQ=(q1,q2
,q3)
に対する TPP,QQ の計算法 p1 が q1 に重なるように
PP を並行移動 p1p2 と q1q2 が同一直線上
にあるように、 PP を回転移動
PP と QQ が同一平面上にあるように、 PP を p1p2 を軸として回転移動
TPP,QQ
p1
p2
p3
q1 q2
q3
T(P) と Q に対するアライメント M の計算
p1
p2
p3
q1
q2
q3
q4
cδ
q1
q2
q3
q4
p1
p2
p3
otherwise0
|)(|if1
]1,1[
]1,[
],1[
max],[
cTw
wjiS
jiS
jiS
jiS
jiij
ij
qp
基本アルゴリズムの性能解析(1) 補題: PP=(p1,p2,p3), QQ=(q1,q2,q3) とし、 T を
|T(pi) - qi| δ (≦ i=1,2,3) を満たす変換とすると、 任意の p reg(p1,p2,p3) について以下が成立
|T(p) - q| δ≦ ならば |T PP,QQ(p) - q| 8δ≦
}),(),(|,||||{),,( 21321121321 pppppxpppxxppp distdistreg
p1 p2
p3≦δ
≦8δ
qp
T(p)
TPP,QQ(p)
T
TPP,QQ
基本アルゴリズムの性能解析(2)
定理: δ に対する最適アラインメントを MOPT とすると、基本アルゴリズムは O(n8) 時間で、以下を満たすアラインメント M (と変換 T )を出力する
||||and8|)(|max OPT),(
MMT jiMji
qpqp
証明概略MOPT に現れる P,Q の部分集合を、それぞれ、 P’,Q’ と
する。すると、 P’ が reg の中に全部含まれるような PPP’ が存在。
MOPT において、 PP に対応する QQ も存在し、補題の仮定を満たす。よって、 T(P’) は Q’ と 8δ 以内でマッチするため、アルゴリズムは |M| |≧MOPT| を満たすアラ
イメントを出力。 注: (かなり大きくなるが)定数倍の時間をかければ、 8δ は δ に近づけることが可能
実用版 stralign 基本アルゴリズムは O(n8) 時間かかるので非実用的 ランダムサンプリング や sparse DP などを用いると O(n5)
時間くらいに近づけることができるが、それでも非実用的 そこで、理論的な性能保証はあきらめ、実用的なアルゴリズ
ムを開発
PP,QQ として 長さ 10~ 20 残基程度の連続した fragment を利用し、 TPP,QQ は rmsd の計算法により求める 全部で O(n2) ペアしか調べないので、 O(n2)×DP の計算量 = O(n4) 時
間 。実際には rmsd が大きいペアには DP を行わないため、より高速。
解の精度を高めるため、「アライメント ⇒ rmsd fitting 」を数回繰り返す
多くの場合、数秒程度でアライメント可能
他の構造アラインメント・アルゴリズム 数多くの構造アライメント手法が提案 例
DALI (距離行列のアラインメント) SSAP( 二重 DP) [Taylor & Orengo 1989]
CE (Combinatorial Expansion) [Shindyalov & Bourne 1998]
VAST (Vector Alignment Search Tool) [Gibrat et al. 1998]
DP+Iterative Improvement [Gernstein & Levitt 1998]
StrMul ( 二重DPを基にした多重構造アラインメント) [Daiyasu & Toh 2000]
DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993]
Distance Matrix (同一タンパク P 内の)残基間の距離を行列形式で表現したもの
P と Q の distance matrix (ただし、アラインメントされる残基のみから構成される行列)ができるだけ類似するようなアラインメントを計算
Simulated Annealing に類似した方法を用いて、アラインメントを計算
0 3 5 8 60 1 5 4
5 1 0 2 78 5 2 0 36 4 7 3 0
3GLADV
0 5 8 1 60 2 5 7
8 2 0 2 21 5 2 0 36 7 2 3 0
5GAERV
G L A V-
G - A VR
D
E0 5 8 65 0 2 78 2 0 26 7 2 0
GAEV
G A E V
0 5 8 65 0 2 78 2 0 36 7 3 0
GADV
G A D V
アラインメント
Contact Map Overlap (CMO) 問題 (1)
立体構造をグラフで表現 {vi,vj}E ⇔ 残基 vi と vj 間の距離が θ 以内
以下の制約のもとでアラインされる残基ペアを最大化 アライメントにおいて (vi,uk) と (vj,ul) が対応するなら、
{vi,vj}E ⇔ {uk,ul}E’
K L V A
A V L A
LV
U C I
P G
K H G
Contact Map Overlap (CMO) 問題 (2) CMO 問題に関する結果
NP困難 [Goldman et al. 1999] しかし、実際多くのタンパク質立体構造について最適解が計算可能
[Caprara et al. 2004] 整数計画法の利用 分枝限定法の利用 グラフの最大クリーク問題に還元可能(下図参照)
深く関連する問題 RNA 二次構造比較 [G-H. Lin et al. 2002] ペアエネルギー関数のもとでのスレッディング [Akutsu & Miyano 1999]
vi vj
uk ul
vi uk
vj ul
vi vj
uk ul
vi uk
vj ul
構造のマルチプルアライメントの困難性 いくつかのアルゴリズム ( CE-MC, StrMul, … ) が提案されている
が、ヒューリスティクスに基づいており、解の性能保証は無い 配列のマルチプルアラインメントと同様に本質的な困難さ (NP困難 ) があると予想される
実際、以下の問題として解釈すると、 NP困難
最大共通部分点集合問題 (LCP) [Akutsu & Halldorson 2000]
入力: d 次元空間上の点集合 S1, S2, …, SN
出力: 以下を満たし、最大の要素数を持つ d 次元空間上の点集合 C各集合 Si に対し、等長変換 Ti が存在し、 T1(S1) T2(S2) …TN(SN) = C
タンパク質立体構造予測
タンパク質立体構造予測
アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定
実験よりは、はるかに精度が悪い
だいたいの形がわかれば良いのであれば、4~5割近くの予測率
T V A C L G F S L V V G G R D
アミノ酸配列
コンピュータ
タンパク質立体構造
立体構造予測法の分類 物理的原理に基づく方法 (ab initio 法 )
エネルギー最小化、分子動力学法 ホモロジーモデリング
配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖の配置の最適化を分子動力学法などで実行
2次構造予測 各アミノ酸が α 、 β 、それ以外のいずれかにあるかを予測 ランダムに予測すれば 33.3…% の予測率であるが、高性能の手法を用
いれば 80% 近い予測率 格子モデル スレッディング
予測したい配列と既知構造の間のアラインメントを計算 フラグメント・アセンブリー法
数残基から十数残基からなる複数のフラグメント候補をデータベース検索により選択した後、分子動力学法などを用いてそれらをつなげ合わせる
格子モデル
折れ畳み経路のシミュレーションによる定性的理解 →フォールディングファンネル
エネルギー最小の構造の計算法→ NP困難
親水性アミノ酸
疎水性アミノ酸
スコア=-9
スコア=-5
配列
格子モデル タンパク質構造予測のための、最も単純な数理モデル 平面、もしくは、空間の格子点の中で折り曲げる 隣にくる赤点(疎水性アミノ酸)の個数を最大にする (ただし、もともと隣にある点は対象外)
親水性アミノ酸
疎水性アミノ酸
スコア=9
配列
スコア最大=最適解 スコア=5
格子モデルの最適解の計算 最適解(最大値を持つ答)の計算はとても難しい
スーパーコンピュータを使っても 1000 アミノ酸の問題は(たぶん)解けない
最大値が計算できないなら、近似解(最適解に近い値を持つ答)は計算できないだろうか?
⇒最適解はわからなくても、最適解の 4 分の 1程度
以上の値の答なら、いつでも速く計算可最適解がわからないのに、何でそんなことができるのだろうか?
格子モデル( HP モデル)の近似に関する理論的結果 2次元で 1/4 近似、3次元で 3/8 近似 (Hart & Istrail,
1995) 3次元で NP-Hard (Berger,Leighton,1998)
2次元で NP-Hard (Crescenzi et al.,1998)
2次元で 1/3 近似 (Newman, 2002)
最大値の見積もり性質(1)• 奇数番目の点は、偶数番目
の点としか隣り合わない• 偶数番目の点は、奇数番目
の点としか隣り合わない
以降ではわかりやすくするため、偶数番目の赤点は青点に書き換える
性質(2)• (はしの2点以外は)1
個の点は2個の点としか隣り合わない
X : 赤点の個数Y : 青点の個数
X ≦Y とする(逆の時も同様)
最大値 ≦ 2X+2
近似解の計算 (1) もとの配列を中間くらいで切る
前半に青点の半分以上、後半に赤点の半分以上が来るように切る (そうできない場合には、赤と青を入れ替えれば大丈夫)
前半分を青点が 1 個おきに並ぶように折り曲げる 後半分を赤点が 1 個おきに並ぶように折り曲げる
近似解の計算 (2) もとの配列を中間くらいで切る 前半分を青点が 1 個おきに並ぶように折り曲げる 後半分を赤点が 1 個おきに並ぶように折り曲げる 折り曲げたものを向かい合わせにする
• 下側の赤点には、必ず青点が結合• 最適解(の値)は 2X+2 以下だった• 近似解は赤点の半分以上 ⇒ X/2 以上• よって、
近似解の解析 もとの配列を中間くらいで切る
前半に青い点の半分以上、後半に赤い点の半分以上が来るように切る 前半分を青点が 1 個おきに並ぶように折り曲げる 後半分を赤点が 1 個おきに並ぶように折り曲げる 折り曲げたものを向かい合わせにする
4
1
4422
2/
X
X
X
X
最適解近似解
まとめ タンパク質立体構造アラインメント
タンパク質構造比較に利用、決定版(定式化)は無い 比較的単純なアルゴリズムにより定数近似が可能
タンパク質立体構造予測 様々な定式化、方法が存在 HP モデルは NP困難であるが、定数近似が可能
補足 構造アラインメントに関して、今回と似た定式化のもとで O(n32)
時間で厳密解が計算可能 [Ambuhl et al.: Proc. ESA 2000]
RMSD を用いた部分構造検索は平均的に高速に実行可能 [Shibuya: J. Comp. Biol. 2007]
HP モデルの 2 次元の場合の近似は 1/3 まで改善 [Newman: Proc. SODA 2002]