43
生命情報学 (6) タンパク質構造解析 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター

生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

生命情報学 (6)

タンパク質構造解析

阿久津 達也

京都大学 化学研究所

バイオインフォマティクスセンター

Page 2: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

タンパク質立体構造

Page 3: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

アミノ酸とタンパク質

アミノ酸:20種類

タンパク質:アミノ酸の鎖(短いものはペプチドと呼ばれる)

R

C

H N

H

R

N

O

C C C

H H O

ペプチド結合

アミノ酸

蛋白質

C

H

H N

H

R

OH

O

C アミノ基 カルボシキル基

側鎖

Page 4: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

タンパク質の種類と高次構造

タンパク質の分類 球状タンパク質

繊維状タンパク質

膜タンパク質

一次構造(アミノ酸配列)

二次構造(α、β、それ以外(ループ、コイル))

三次構造(三次元構造、立体構造)

四次構造(複数の鎖)

Page 5: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

タンパク質立体構造の決定

主にX線結晶解析かNMR解析による

一般にX線解析の方が精度が高い

しかし、結晶中の構造しかわからない

近年はクライオ電子顕微鏡法も普及しつつある

アミノ酸配列決定より困難

半年から1年くらいかかることも珍しく無い

既知アミノ酸配列 > 数百万(?)

既知立体構造 < 17万(PDBのエントリー数)

Page 6: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

タンパク質立体構造の特徴

基本的には鎖(ひも)状

二種類の特徴的な構造が頻繁に現れ、立体構造の骨格(コア)を作る

αへリックス(らせん状の部分)

βシート(ひも状の部分が並んだ部分)

α

β

ループ

Page 7: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

タンパク質立体構造の例(1)

立体構造:Cα原子の座標列で概要がわかるαへリックスとβシートが構造の骨格を形成

Page 8: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

タンパク質立体構造の例(2)

Page 9: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

タンパク質立体構造の例(3)

Page 10: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

構造とアミノ酸の種類の関係

(球状)タンパク質 内側:疎水性アミノ酸 外側:親水性アミノ酸

αへリックス 内側:疎水性 外側:親水性

βストランド 疎水性と親水性が交互に現れる

ループ領域 親水性が高い

Page 11: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

立体構造アラインメント

Page 12: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

タンパク質立体構造比較の必要性

立体構造と機能の間には密接な関係

配列が似ていなくても構造類似のタンパク質が多数存在

構造分類データベース

SCOP(人間が分類)

FSSP(DALIプログラムにより分類)

CATH(SSAPプログラムなどにより分類)

Page 13: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

立体構造アラインメント

立体構造の類似性判定のために有用

どのように回転、平行移動すれば、最適な残基間の対応づけ(アラインメント)が得られるかを計算

配列アラインメントの場合と異なり、決定版というようなアルゴリズムが無い

Page 14: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

構造アラインメント例

ヘモグロビン

ミオグロビン

Page 15: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

RMSD(Root Mean Square Deviation)

点(e.g., Cα原子)の対応

関係がわかっている場合に最適な重ね合わせとなる回転・平行移動を計算

行列計算により O(n) 時間で計算可能

p1p2

p3

p4

q1

q2

q3

q4

T

n

i

iiT

rms

Tn

QPd

1

2|)(|1

min

),(

qp

Page 16: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

構造アラインメントプログラム: stralign

広くは利用されていないが、理論(計算幾何学)的考察に基づいてアルゴリズムが設計されている

問題の定義入力: 3次元点列: P=( p1,…, pm ), Q=(q1,…, qn),および、 実数δ (m≦ n とする)

出力: 以下を満たし、かつ、長さ(アラインされる点のペアの個数)が最大となる P,Q 間のアラインメント M (および、付随する平行・回転移動 T )

|)(|max),(

jiM

Tji

qpqp

Page 17: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

stralignの基本アルゴリズム

M0← {}

for all triplets PP=(pi1,pi2,pi3) from P do

for all triplets QQ=(qj1,qj2,qj3) from Q do

Compute rigid motion TPP,QQ from PP to QQ

Compute alignment M between TPP,QQ(P) and Q

if |M| > |M0| then M0 ← M

Output M0

Page 18: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

回転・平行移動 TPP,QQ の計算法

PP=(p1,p2,p3)、QQ=(q1,q2,q3)

に対するTPP,QQの計算法

p1 が q1 に重なるように PP

を並行移動

p1p2 と q1q2 が同一直線上にあるように、 PPを回転移動

PP と QQが同一平面上にあるように、PP を p1p2 を軸として回転移動

TPP,QQ

p1

p2

p3

q1q2

q3

Page 19: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

T(P) と Q に対するアラインメント Mの計算

p1

p2

p3

q1

q2

q3

q4

q1

q2

q3

q4

p1

p2

p3

otherwise0

|)(|if1

]1,1[

]1,[

],1[

max],[

cTw

wjiS

jiS

jiS

jiS

ji

ij

ij

qp

Page 20: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

基本アルゴリズムの性能解析(1)

補題: PP=(p1,p2,p3), QQ=(q1,q2,q3)とし、T を

|T(pi) - qi| ≦δ (i=1,2,3) を満たす変換とすると、

任意の p reg(p1,p2,p3) について以下が成立|T(p) - q| ≦ δ ならば |T PP,QQ(p) - q| ≦ 8δ

}),(),(|,||||{),,( 21321121321 pppppxpppxxppp distdistreg

p1p2

p3≦δ

≦8δ

qp

T(p)

TPP,QQ(p)

T

TPP,QQ

Page 21: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

基本アルゴリズムの性能解析(2)

定理: δに対する最適アラインメントを MOPT とすると、基本アルゴリズムは O(n8) 時間で、以下を満たすアラ

インメント M (と変換 T)を出力する

||||and8|)(|max OPT),(

MMT jiMji

qpqp

証明概略MOPT に現れる P,Q の部分集合を、それぞれ、P’,Q’ とする。すると、P’ がregの中に全部含まれるような PPP’ が存在。

MOPT において、PP に対応する QQ も存在し、補題の仮定を満たす。よって、T(P’) は Q’ と 8δ 以内でマッチするため、アル

ゴリズムは |M|≧|MOPT| を満たすアラインメントを出力。

注: (かなり大きくなるが)定数倍の時間をかければ、8δ は δ に近づけることが可能

Page 22: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

実用版 stralign

基本アルゴリズムは O(n8) 時間かかるので非実用的

ランダムサンプリングや sparse DP などを用いると O(n5) 時間くらいに近づけることができるが、それでも非実用的

そこで、理論的な性能保証はあきらめ、実用的なアルゴリズムを開発

PP,QQ として長さ 10~20残基程度の連続した fragment を利用し、TPP,QQ は rmsd の計算法により求める 全部で O(n2) ペアしか調べないので、 O(n2)×DPの計算量= O(n4)時間 。実際には rmsd が大きいペアには DP を行わないため、より高速。

解の精度を高めるため、「アラインメント⇒ rmsd fitting」 を数回繰り返す

多くの場合、数秒程度でアラインメント可能

Page 23: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

他の構造アラインメント・アルゴリズム

数多くの構造アライメント手法が提案

例 DALI(距離行列のアラインメント)

SSAP(二重DP) [Taylor & Orengo 1989]

CE (Combinatorial Expansion) [Shindyalov & Bourne 1998]

VAST (Vector Alignment Search Tool) [Gibrat et al. 1998]

DP+Iterative Improvement [Gernstein & Levitt 1998]

StrMul (二重DPを基にした多重構造アラインメント)[Daiyasu & Toh 2000]

Page 24: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

DALI (Alignment of Distance Matrices)

Distance Matrix のアラインメント [Holm & Sander 1993]

Distance Matrix

(同一タンパク P 内の)残基間の距離を行列形式で表現したもの

P と Q の distance matrix (ただし、アラインメントされる残基のみから構成される行列)ができるだけ類似するようなアラインメントを計算

Simulated Annealing に類似した方法を用いて、アラインメントを計算

0 3 5 8 6

0 1 5 4

5 1 0 2 7

8 5 2 0 3

6 4 7 3 0

3

GLADV

0 5 8 1 6

0 2 5 7

8 2 0 2 2

1 5 2 0 3

6 7 2 3 0

5

GAERV

G L A V-

G - A VR

D

E0 5 8 6

5 0 2 7

8 2 0 2

6 7 2 0

GAEV

G A E V

0 5 8 6

5 0 2 7

8 2 0 3

6 7 3 0

GADV

G A D V

アラインメント

Page 25: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

タンパク質立体構造予測

Page 26: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

タンパク質立体構造予測

アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定

実験よりは、はるかに精度が悪い

だいたいの形(fold)

がわかれば良いのであれば、ある程度有効

T V A C L G F S L V V G G R D

アミノ酸配列

コンピュータ

タンパク質

立体構造

Page 27: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

立体構造予測法の分類 物理的原理に基づく方法 (ab initio法)

エネルギー最小化、分子動力学法

ホモロジーモデリング

配列アラインメントにより主鎖のだいたいの配置を決定した後、主鎖や側鎖の配置の最適化を分子動力学法などで実行

2次構造予測 各アミノ酸がα、β、それ以外のいずれかにあるかを予測

ランダムに予測すれば33.3…%の予測率であるが、高性能の手法を用いれば80%近い予測率

格子モデル

スレッディング 予測したい配列と既知構造の間のアラインメントを計算

フラグメント・アセンブリー法

数残基から十数残基からなる複数のフラグメント候補をデータベース検索により選択した後、分子動力学法などを用いてそれらをつなげ合わせる

Page 28: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

二次構造予測

アミノ酸配列中の各残基が、α、β、それ以外のどれに属するかを予測

でたらめに推定しても、33.3%の的中率

最も高精度なソフトを使えば、80%~の的中率

ニューラルネット、HMM、サポートベクタマシンなどの利用

α β それ以外

L K I A P

Page 29: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

フォールド予測(Fold Recognition)

精密な3次元構造ではなく、だいたいの形(fold)を予測

立体構造は1000

種類程度の形に分類される、との予測(Chotia, 1992)

に基づく

T V A C L G F S L V V G G R D

1000個のテンプレート構造

アミノ酸配列

Page 30: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

タンパク質スレッディング

T V A C L G F S L V V G R D

アミノ酸配列

K

立体構造

立体構造(テンプレート)とアミノ酸配列の間のアラインメント

Page 31: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

スレッディングとアラインメント

T V A C L G F S L V V G R D

入力アミノ酸配列

K

立体構造 A G L F S G L G Y

A G L G S V L G

A G L F G S L G Y

A G L G S V L G

Page 32: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

スレディング法の分類

プロファイルによるスレッディング

動的計画法で最適解が計算可能

PSI-BLAST

3D-1D法

構造アライメント結果に基づくスレッディング

残基間ポテンシャルによるスレッディング

NP困難。ただし、整数計画法などが効果的に適用可能

コンタクトポテンシャル

距離依存ポテンシャル

その他のポテンシャル

Page 33: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

プロファイル

アラインメントにおけるスコア行列と類似

スレッディングの場合、残基位置ごとにスコア(位置依存スコア)

A

C

D

E

残基1 残基2 残基3 残基4

3.8

1.5

-1.5

0.2

-3.5

1.3

-2.9

2.1

-0.3

3.7

2.3

-4.6

3.1

-1.3

1.2

4.2

立体構造

残基1

残基2

残基3

残基4

Page 34: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

プロファイルによるアラインメント

動的計画法(DP)により最適解を計算

スコア行列のかわりにプロファイルを使う

AED ...... アミノ酸配列:

A

C

D

E

残基1 残基2 残基4 3.8

1.5

-1.5

0.2

-3.5

1.3

-2.9

-4.1

-0.3

3.7

2.3

-4.6

3.1

-1.3

1.2

4.2

残基3

プロファイル:

123 .....AED .....

アライメント

1234 .....A-ED .....

1- 23 .....AEDC ...

スコア

3.8-4.1+4.2

=3.9

3.8-2.0+3.7+

3.1=8.7

3.8-2.0-2.9+

-0.3=-1.4

Page 35: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

3D-1Dプロファイル

最初のversionはEisenbergらが1991年に提案

構造中の残基(位置)を18種類の環境に分類

二次構造(3種類)

内外性+極性(6種類)

E P 2

P 1 B 2

B 1

B 3

内外性

α

β

主鎖 側鎖

Page 36: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

3D-1Dプロファイル

3D-1Dスコア 3D-プロファイル

E

P

2

P

1

B

3

内外性

B

2

B

1

残基1

残基3

残基2

残基4

タンパク質

立体構造

A

R

Y

W

-0.66

0.18

-1.67

1.00

-0.79

-1.16

0.07

1.17

-0.91

-2.16

0.17

1.05

・ ・ ・ ・

・ ・ ・ ・

・ ・ ・ ・

・ ・ ・ ・

・ ・ ・ ・ B 1 B 1 α B 1 β

環境クラス

A

R

Y

W

-0.79

-1.16

0.07

1.17

-0.91

-2.16

0.17

1.05

・ ・ ・ ・

・ ・ ・ ・

・ ・ ・ ・

・ ・ ・ ・

残基1 残基2 残基3

-0.79

-1.16

0.07

1.17

Page 37: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

その他のプロファイル

配列のマルチプルアラインメントに基づくプロファイル PSI-BLAST、HMM

立体構造のマルチプルアラインメントに基づくプロファイル作成

角度情報なども考慮したプロファイル

プロファイル vs プロファイルによるアラインメント

Page 38: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

ポテンシャル型スコア関数を用いたスレッディング

全体のポテンシャルエネルギーを最小化(Σfd(X,Y)が最

小となるようなスレッディングを計算)

T V A C L G F S L V V G R D

アミノ酸配列

K

立体構造

d

f (T, F) d

Page 39: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

プロファイル型スコア関数とポテンシャル型スコア関数

プロファイル型スコア関数 (Eisenberg

et al. 1991)

ポテンシャル型スコア関数(Miyazawa, Sippl, . . .)

A

C

D

E

Pos1 Pos2 Pos3 Pos4

3.8

1.5

-1.5

0.2

-3.5

1.3

-2.9

2.1

-0.3

3.7

2.3

-4.6

3.1

-1.3

1.2

4.2

d

d

score

A

L

Page 40: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

立体構造予測におけるブレークスルー

スレッディング法の発明(Eisenberg et al., 1991)

構造既知の配列と類似性が無い配列の構造予測

PSI-BLASTの開発(Altschul et al, 1997)

プロファイルに基づくマルチプルアラインメントの繰り返し実行によるスレッディング

David Baker による フラグメントアセンブリ法(1997)

統計情報+シミュレーション

Page 41: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

フラグメント・アセンブリ法

Univ. Washington の Baker らが開発

現時点では最強の方法とされている

方法

数残基から十数残基の断片構造(フラグメント)をプロファイル比較法などを用いて既知構造データベースから取得

⇒ 各断片配列ごとにいくつかの候補を選ぶ

フラグメントをつなぎ合わせることにより全体構造を予測。つなぎ合わせる際には分子動力学法などによるエネルギー最適化などを行う

Page 42: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

立体構造予測コンテスト:CASP

CASP (Critical Assessment of Techniques for

Protein Structure Prediction)

ブラインドテストにより予測法を評価

① 半年以内に立体構造が実験により決定する見込みの配列(数十種類)をインターネット上で公開

② 参加者は予測結果を送付

③ 構造決定後、正解とのずれなどを評価、順位づけ

結果の公表 会議、専門学術誌(Proteins) ホームページ: http://predictioncenter.gc.ucdavis.edu/

1994年より2年ごとに開催

2018年の CASP では深層学習に基づく方法が良い成績を収めたらしい

Page 43: 生命情報学(6) タンパク質構造解析...DALI (Alignment of Distance Matrices) Distance Matrix のアラインメント [Holm & Sander 1993] Distance Matrix (同一タンパクP

まとめ

立体構造比較 構造分類データベースが作成されている

比較のためには構造アラインメントが有用 ただし、決定版はなく様々な方法が提案されている

立体構造予測 正確な座標は予測できない

だいたいの形の予測であればある程度有効

二次構造予測であれば、80%~程度

スレッディング法 プロファイル型スコア関数

動的計画法で最適解が計算可能

ポテンシャル型スコア関数 NP困難だが整数計画法などにより最適解が計算可能