明治大学大学院理工学研究科総合講義 C バイオインフォマティクスにおける数理的手法

　明治大学大学院理工学研究科総合講義 C

バイオインフォマティクスにおける

数理的手法阿久津　達也

京都大学　化学研究所　バイオインフォマティクスセンター

バイオインフォマティクス（１）

• 生物学＋情報科学　　　（＋数理科学＋統計学＋物理学＋化学＋医学＋農学

＋．．．）

• １９９０年代に大きく発展　　　←　ゲノム計画の急速な進展　　　（既に数百種類以上の生物種のゲノムが決定）

• 情報解析の必要性– DNA 配列⇔プログラムのオブジェクトコード– 意味の解析が必要– 配列以外のデータ解析も重要

• 立体構造、遺伝子発現データ、代謝パスウェイなど

バイオインフォマティクス（２）

• 主要トピック– データベース構築– 遺伝子発見、遺伝子制御領域推定– 配列検索、配列比較、進化系統樹– タンパク質構造予測、機能予測、相互作用予測– 遺伝子発現データ解析– ネットワーク構造解析– 化合物の性質推定

• 分野としての特徴– 多くのデータベース・ソフトウェアが WEB などから利用可

能– 研究成果が（生物学研究への）応用に直結

バイオインフォマティクスにおけるデータベース

• 多くの重要なデータベースが WEB からアクセス可能– DNA 配列：　 GenBank, EMBL, DDBJ– タンパク質配列：　 UniProt (Swissprot)– タンパク質立体構造： PDB– モチーフ： Prosite, Pfam, …– 代謝パスウェイ： KEGG

講義内容

• 分子生物学における基礎事項• 配列検索（動的計画法による配列アライメント）• カーネル法によるタンパク質構造予測

遺伝子とタンパク質• 遺伝情報の流れ　（セントラルドグマ）

– DNA⇒RNA⇒ タンパク質

• 遺伝子– DNA 配列中で直接的

に　機能する部分• ゲノム

– 遺伝情報の総体

• タンパク質– アミノ酸（２０種類）の

鎖

転写・スプライシング

エキソン

mRNA

DNA エキソンエキソン

GGU GCA 翻訳

GGU → Gly GCA → Ala

タンパク質

転写制御領域（プロモーターなど）

DNA とタンパク質

A T

G C

T A

G C

A T

G C

• DNA ： A,C,G,T の４文字の並び

• DNA は二重ラセン構造⇒相補鎖

• タンパク質：　アミノ酸 (20 種類）の鎖

• 固有の三次元構造をとるものが多い

• 構造は機能と深く関連

( 図は rasmol を用いて作成 )

DNA とアミノ酸

• DNA ： A,C,G,T の４文字の並び

• タンパク質 : アミノ酸の鎖

• アミノ酸：２０種類

• DNA ３文字がアミノ酸１文字に対応

コード表

T C A G 2文字目

１文字目

T

C

A

G

TTT TTC TTA TTG

F L

TCT TCC TCA TCG

S TAT TAC TAA TAG

Y stop

TGT TGC C TGA TGG W

stop

CTT CTC CTA CTG

L CCT CCC CCA CCG

P CAT CAC H CAA CAG Q

CGT CGC CGA CGG

R

ATT ATC ATA ATG

I M

ACT ACC ACA ACG

T AAT AAC N AAA AAG K

AGT AGC S AGA AGG R

GTT GTC GTA GTG

V GCT GCC GCA GCG

A GAT GAC GAA GAG

D E

GGT GGC GGA GGG

G

アミノ酸とタンパク質

• アミノ酸：側鎖の違いにより２０種類

• タンパク質：アミノ酸の鎖

R

C H

N H

R

N

O C C

C H

H O

ペプチド結合

アミノ酸

タンパク質

C H

H N H

R OH

O C

アミノ基カルボシキル基

側鎖

側鎖の例

3 CH Ala アラニン

3 CH 3 H C

CH

Val バリン

CH CH

HC C

HC CH

２ CH

Phe フェニルアラニン

2 CH

C O - O

Asp アスパラギン酸

HN NH

２ CH

+

His ヒスチジン

２ CH

SH

Cys システイン

Gly グリシン

H

配列検索：内容

• 配列検索と配列アライメント• ペアワイズ・アライメント• 配列検索の実用プログラム

配列検索

• バイオインフォマティクスにおける基本原理– 配列が似ていれば機能

も似ている– ただし、例外はある

• 配列検索の利用法– 実験を行い機能未知の配列

が見つかった– データベース中で類似の配

列を検索– 機能既知の類似の配列が見

つかれば、その配列と似た機能を持つと推定

VLPIKSKLP......

機能未知の配列

配列データベース

ACILTSTRE......

VLPIKSDLP......

HPFACILPDEL......

DFECILTSKLG......

配列検索

VLPIKSDLP......

類似配列

配列アライメント

• 配列の類似性の検出に利用

• バイオインフォマティクスの最重要技術の一つ

• 文字間の最適な対応関係を求める（最適化問題）

• 配列長を同じにするように、ギャップ記号（挿入、欠失に対応）を挿入

A G L F S G L G Y

A G L G S V V G

A G L F G S L G Y

A G L G S V V G

スコア行列（置換行列）

• 残基間（アミノ酸文字間）の類似性を表す行列– PAM250, BLOSUM45 など

A R N D C Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V

5 -2 -1 -2 -1 -1 -1 0 -2 -1 -2 -1 -1 -3 -1 1 0 -3 -2 0

BLOSUM50 スコア行列（置換行列）の一部分

-2 7 -1 -2 -4 1 0 -3 0 -4 -3 3 -2 -3 -3 -1 -1 -3 -1 3 -1 -1 7 2 -2 0 0 0 1 -3 -4 0 -2 -4 -2 1 0 -4 -2 -3 -2 -2 2 8 -4 0 2 -1 -1 -4 -4 -1 -4 -5 -1 0 -1 -5 -3 -4 -1 -4 -2 -4 13 -3 -3 -3 -3 -2 -2 -3 -2 -2 -4 -1 -1 -5 -3 -1 -1 1 0 0 -3 7 2 -2 1 -3 -2 2 0 -4 -1 0 -1 -1 -1 -3

スコア行列の導出

• 基本的には頻度の比の対数をスコアとする• BLOSUM 行列

– 既存のスコア行列を用いて多くの配列のアライメントを求め、ギャップ無しの領域（ブロック）を集める

– 残基が L ％以上一致しているものを同一クラスタに集める– 同じクラスタ内で残基 aが残基 bにアラインされる頻度 Aabを計算

– qa=∑b Aab / ∑cd Acd, pab=Aab / ∑cd Acd　を求め、　　　

　ｓ（ a,b)=log(pab/qaqb)　としたのち、

　スケーリングし近傍の整数値に丸める

ペアワイズ・アライメント

• ペアワイズ・アライメント：　２個の配列のアライメント

• 可能なアライメントの個数：　指数オーダー• しかし、スコア最大となるアライメント（最適アラ

イメント）は動的計画法により、 O(mn) 時間で計算可能（m,n:入力配列の長さ）

AGCT, ACGCT

アライメント

入力配列

スコア

AGCT - ACGCT

AG - CT ACGCT ACGCT

- AGC - - T AC - - GCT

A - GCT

（同じ文字の時: 1、違う文字の時: -1、ギャップ1文字: - 1） -3 1 3 -5

最適アライメント

動的計画法によるアライメント　 (1)

- 2 5 1 - 5 - 7

- 7

- 7

- 7

- 7 - 7 - 7 - 7

- 6 7 - 5 - 5

- 2 - 3 - 2 - 1

4 - 4 0 1

G K Y D

G

F

D

V

K G D Y G D F V

アライメントスコア 5 - 7 +7 - 7 +4 = 2

D K G Y G D F V

- 7 - 7 - 1 +0 - 7 - 7 = - 29

K G Y G D F V

D - 7 - 7 - 5 - 7 - 7 - 7 - 7 = - 47

• 入力文字列から格子状グラフを構成• アライメントと左上から右下へのパスが一対一対応• 最長経路＝最適アライメント


• 動的計画法：　テーブル（表）を用いて効率的に計算• アライメントでは以下の F(i,j) を計算

– F(i,j) : (0,0) から (i,j) に至る最適なパスの重み

- 2 5 1 - 5 - 7

- 7

- 7

- 6 7 - 5 - 5

- 2 - 3 - 2 - 1

4 - 4 0 1

G K Y D

G

F

D

V

(0,0) (1,0) (2,0) (3,0) (4,0)

(0,1)

(0,2)

(0,3)

(0,4) (4,4)

F(3,2)=5 (1,1)

(4,1)


djiFdjiF

yxsjiFjiF

idiFjdjF

ji

)1,(),1(

),()1,1(max),(

)0,(,),0(G K

G

F

F(0,0) = 0

F(1,0) = -d

F(2,0) = -2d

F(0,1) = -d

F(0,2) = -2d

F(i-1, j) F(i, j)

F(i-1, j-1) F(i, j-1)

s(K,F) - d

- d

DP　 (動的計画法 )による最長経路 (スコア )の計算

行列からの経路の復元は、F(m,n)からmaxで＝となっているF(i,j)を逆にたどることに行う（トレースバック）

⇒ 　 O(mn)時間

動的計画法によるアライメント (4)

- 2 5 1 - 5 - 7

- 7

- 7

- 7

- 7 - 7 - 7 - 7

- 6 7 - 5 - 5

- 2 - 3 - 2 - 1

4 - 4 0 1

G K Y D

G

F

D

V

0 -7 -14 -21 -28

-7

-14

-21

-28

5 -2

5

-2

2

-9 -16

-2 0 -2

-9 -4 3

-16 -9 -8

ローカルアライメント (1) (Smith-Waterman アルゴリズム )

• 配列の一部のみ共通部分があることが多い　　⇒共通部分のみのアラインメント• 配列検索において広く利用されている• 例えば、 HEAWGEH 　と　 GAWED 　の場合、　　　　　　　　 A W G E　　　　　　　　 A W － E　　というアライメントを計算　　　　　

　　　（実際にはローカルアライメントとアフィンギャップを組み合わせることが必要）

ローカルアライメント (2)

AWGE AW - E

H E A G

G A

E W

W E H 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 2 1

2

0 0 0 0 0 0 1 1 D

実行例

（ギャップ-1、置換-1、一致1）

djiFdjiF

yxsjiFjiF ji

1),()1,(

)(1)1,(0

max),( ,動的計画法の式

配列検索の実用プログラム (1)

• O(mn):　mは数百だが、 nは数ＧＢにもなる　⇒　高速アルゴリズムの開発• FASTA: 　短い配列（アミノ酸の場合、 1,2 文字、 D

NA の場合、 4-6 文字）の完全一致をもとに対角線を検索し、さらにそれを両側に伸長し、最後にＤＰを利用。

• BLAST: 　固定長（アミノ酸では 3, DNA では 11 ）の全ての類似単語のリストを生成し、ある閾値以上の単語ペアを探し、それをもとに両側に伸長させる。ギャップは基本的には入らない。伸長の際に統計的有意性を利用。– 様々なバリエーションが存在

• PSI-BLAST: 　高精度検索用• MEGA-BLAST: ゲノム比較用（大規模配列比較用）

配列検索の実用プログラム (2)

G

A C A T G A C

A T G A T

FASTA

( ktup=2 )

BLAST A F D M F D A D G G A ・・・・・・

MFD

MFE MFN MYD MYE MYN

・・・

Query

A F D M F D A D G G A ・・・・・・ A F S M F E K D G D E ・・・・・・

Query

Database

類似ワード

カーネル法によるタンパク質構造予測：内容

• サポートベクターマシンとカーネル法• 配列解析のためのカーネル• カーネル法による構造予測

サポートベクターマシン (1)

• カーネル法の一つ• 1990 年代に、 Cortes と　 Vapnik が発明• トレーニングデータとして与えられた正例と負例

から、それらを分離する超平面を計算　　　⇒　学習＝超平面の計算• 機械学習、統計学、人工知能、パターン認識、バ

イオインフォマティクスなど様々な分野に応用– 配列分類– タンパク質フォールド予測、二次構造予測– 遺伝子発現データ解析– タンパク質相互作用予測– 化合物の性質推定

サポートベクターマシン (2)

• 正例と負例を与えて、それらを最適（マージンを最大）に分離する超平面を学習

• 例＝点• カーネルを適切に

定義することにより超平面以外での分離が可能

margin

SVM によるテストデータの分類SVM: サポートベク

ターマシンSVM の利用法

1. 学習データより超平面を学習

2. 新たなデータ（テストデータ）については、超平面に対する上下で正負を判定

テストデータ

カーネル• サポートベクターマシン：基本的には超平面で分離• Φ(x) ( 特徴ベクトル）：「非線形曲面⇒超平面」に写像• カーネル：　 K(x,y)=φ(x) ・ φ(y)• x と y の類似度が高い ⇔ K(x,y) が大

φ (x)

カーネルの定義• 関数 K: X×X→ R がカーネル　　 iff.　　 X から内積空間 F への写像 φ が存在し、　　

　　とかける

)()(),( yxyx K

マーセルの定理 (1)

• X を有限空間とし、 K(x,y) を X 上の対称関数とすると、

　 K(x,y) がカーネル　　 iff.　行列 K=(K(xi,xj)) (i, j=1,…,n) が半正定値

• 行列 K が半正定値 iff. K の固有値がすべて非負 iff. (x) (xtKx 0)

カーネルの性質 (2)

• Ki が以下を満たす時、 K もカーネル),(),(lim,, yxyxyx KKX nn

カーネルの例 (1)

• (x ・ y+c)d はカーネル– 証明（ d=2, c=0 の場合）

212211212211

212122221111

22211

2

2,,2,,

2)()(

yyyyyyxxxxxx

yyxxyyxxyyxxyxyx

yx

カーネルの例 (2)• K1, K2 がカーネルの時、以下もカーネル

• (i)(ii) より、カーネルの正係数の線形和もカーネル• (i)(ii)(iii) より、カーネルの正係数の多項式もカーネル

),(),((iii))0(),((ii)

),(),((i)

21

1

21

yxyxyx

yxyx

KKaKa

KK

カーネルの例 (3)(i) f(x): X →R ⇒ f(x) f(y) はカーネル

– 証明

(ii) exp(K(x,y)) はカーネル– 略証：指数関数は正の係数を持つ多項式により任意の精度で近似でき、また、カーネルの多項式もカーネルとなるため、性質（２）によりカーネルとなる

0)()(

)()(),(

11

1 11 1

n

jjj

n

iii

n

i

n

jjiji

n

i

n

jjiji

fvfv

ffvvKvv

xx

xxxx

カーネルの例 (4)• exp(-||x-ｙ ||2/σ2) 　はカーネル　　　　　　　　　（ Gaussian RBF kernel ）• 証明

– 最初の二項の積は例 (3-i) によりカーネル、　　最後の項は例 (3-ii) によりカーネル、　　それらの積は例 (2-iii) によりカーネル

22

2

2

2

2

2

2expexpexp

exp

yxyx

yx

カーネルの例 (5)• 以下は必ずしもカーネルとはならない

)()tanh(),((iii)

),(log(ii)),((i)

シグモイドカーネル

yxyxyx

yx

aKK

K

サポートベクターマシン : 定式化 (1)• 学習データ：　 Rd 上の点とラベルのペアの集合

– yi=1 ⇒ 正例　　　 yi=-1 ⇒ 負例• 最適化問題　（凸二次計画問題）

– (w,b): Rd 上の超平面 h: w ・ x+b=0 に対応– 1/||w||: h から一番近い xi までの距離（ =margin)

}1,1{,R|),( id

iii yyS xx

1)( subject to

minimize,

by ii

b

xw

www

サポートベクターマシン : 定式化 (2)サポートベクター

h

γ

1)( bixw

1)(

bixw

1)(

bixw

1)( bixw0

)( bxw

1)(subject to

minimize,

by ii

b

xw

www

w/1

サポートベクターマシン : 定式化 (3)

• カーネルを用いた定式化

• 識別関数　　　　　　　　（ SV:サポートベクターの集合）

• 利点：　特徴ベクトルを陽に扱わずに、カーネル値のみが計算できればＯＫ　⇒　カーネルトリック

0,0 subject to

),(maximize

1

1 121

1

il

i ii

l

i

l

j jijijil

i i

y

Kyy

xxα

**** ),( bKybSVx

iiii

xxxw

2minmax *

1*

1* iyiy iibxwxw

(+ なら超平面より上側）

実問題に対するカーネル• データから特徴ベクトル (feature vector) を

作るのが一般的、かつ、　多くの場合に実用的• 特徴ベクトル：　実数値の列• 例えば、各化合物 x に対し、

– Φ(x) = ( 分子量 , 容積 , 表面積 , logP,…)

　とすれば、化合物 x,y に対するカーネルは　 Φ(x) と Φ(ｙ ) の単なる内積

　配列解析のためのカーネル• 配列を実数ベクトルに変換• 様々なカーネルの提案

– Marginalized kernel, Fisher kernel, Local alignment kernel, …

φ (x) ACCGTA CACGTA

TCCGTCC

TCCGTTC

AGCGTG AGCGTAA

TACCGTA

CCACCG CCACCGA

CTACCA

GACCGTA

CTACCGG

GACCTC

タンパク質配列解析のためのカーネル• 隠れマルコフモデル（ HMM ）から特徴ベクトルを抽出– Fisher カーネル　 (Jaakkola et al., 2000)– Marginalized カーネル (Tsuda et al., 2002)

• 配列から直接特徴ベクトルを抽出– Spectrum カーネル (Leslie et al., 2002)– Mismatch カーネル (Leslie et al., 2003)

• 他の配列とのスコアを特徴ベクトルとして利用– SVM pairwise (Liao & Noble, 2002)

• 配列パターンの出現頻度を特徴ベクトルとして利用– モチーフカーネル (Ben-Hur & Brutlag, 2003)

• 二つの配列から直接カーネル値を計算– Local Alignment Kernel (Saigo et al, 2004)

Spectrum カーネル

• 長さ k の各文字列の出現回数を特徴ベクトルとする• カーネルはその内積（ K(x,y)=φ(x) ・ φ(y))• 単純だけど有用、かつ、高速に計算可能

A C C C C T T A A G A A C G

φ (x)

Spectrumカーネル

C C T A A C

A C G T A C φ (y)

0 2 0 1 0 1 1 ( ) 0 T C

1 1 0 0 1 0 0 ( ) 1

• Local Alignment アルゴリズムをカーネルとして利用したい ⇒ カーネルの条件を満たさない　

• そこで、スコア最大のパスのみを考えるのではなく、すべてのパスのスコアを考慮した Local Alignment カーネルを開発　⇒　カーネルの条件を満たす

Local Alignment カーネル

• π ： ( ローカル )アライメント• s(x,y,π): 　 x,y の　　アライメント πの　　スコア• Π ：可能なアライメントの集合

),,(max),(),(

yxsyxSWyx

),(

)),,(exp(),(yx

LA yxsyxK

),()),(ln(lim 1 yxSWyxKLA

定理

タンパク質立体構造予測• アミノ酸配列から、タンパク質の立体構造（３次元構造）をコンピュータにより推定• 実験よりは、精度が悪い• だいたいの形がわかれば良いのであれば、 4 ～５割の予測率

T V A C L G F S L V V G G R D

アミノ酸配列

コンピュータ

タンパク質立体構造

SCOP データベース

Class.1

Fold.1

Super Family.1

Family.1 Family.2mkkrltitlsesvlenlekmaremglsksam

isvalenykkgq

SCOP Root

ispqarafleevfrrkqslnskekeevakkcgitplqvrvwfinkrmrs

Class.2

Fold.2

Super Family.2

Family.3

‥‥‥‥‥

‥‥‥‥‥

‥‥‥‥‥

• タンパク質立体構造を形状を中心に、人手で、　階層的に、分類したデータベース

Super Family 予測

madqlteeqiaefkeafslfdkdgdgtittkelgtvmrslgqnpteaelqdminevdadg

ngtidfpefltmmark

タンパク質配列 Super Family.1

Super Family.2

Super Family.3：：

• 入力配列が SCOP のどのスーパーファミリーに属するかを予測

SVM によるスーパーファミリー予測

• 各ファミリーごとに SVM を学習– i番目の SVM

• i番目のファミリーに属するタンパク質を正例• それ以外のタンパク質を負例

• 最も高いスコアを出力した SVM に対応するファミリーを予測結果とする

SVM1 SVM2 SVM3 SVMn

LVEKHPLADFCVEDRKLVIH...... タンパク質配列

スコア 3.5 -2.0 5.8 -3.2

予測結果３番目のスーパーファミリー

まとめ

• バイオインフォマティクス– 生物学＋情報科学　　（＋数理科学＋統計学＋．．．）– 成果の多くはWEBページなどを通して利用可能

• 配列検索– 動的計画法による配列アライメント– 配列検索による機能予測

• 配列が類似していれば、機能も類似

• カーネル法によるタンパク質構造予測– サポートベクターマシン：　超平面を学習– カーネル関数：　特徴ベクトルの内積– 文字列に対するカーネル関数

• Spectrum カーネル、 Local Alignment カーネル– スーパーファミリー予測への応用

参考文献

• バイオインフォマティクス– 金久實：ポストゲノム情報への招待、共立出版、 2001

• 配列解析– 岸野・浅井：生物配列の統計、岩波書店、 2003– 阿久津・浅井・矢田（訳）：バイオインフォマティクス　　　 - 確率モデルによる遺伝子配列解析 -、医学出版、 2001

• カーネル法– 大北（訳）：サポートベクターマシン入門、共立出版、 2005

Documents

明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

明治大学大学院理工学研究科総合講義 C バイオインフォマティクスにおける数理的手法