51
明明明明明明明明明明明明明 明明明明 C 明明明明明明明明明明明明明明明明 明明明明明 明明明 明明 明明明明 明明明明明 明明明明明明明明明明明明明明明明

明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

  • Upload
    tacita

  • View
    78

  • Download
    4

Embed Size (px)

DESCRIPTION

明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法. 阿久津 達也 京都大学 化学研究所  バイオインフォマティクスセンター. バイオインフォマティクス(1). 生物学 + 情報科学    (+数理科学+統計学+物理学+化学+医学+農学+...) 1990年代に大きく発展    ←  ゲノム計画の急速な進展 (既に数百種類以上の生物種のゲノムが決定) 情報解析の必要性 DNA 配列⇔プログラムのオブジェクトコード 意味の解析が必要 配列以外のデータ解析も重要 立体構造、遺伝子発現データ、代謝パスウェイなど. - PowerPoint PPT Presentation

Citation preview

Page 1: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

 明治大学大学院理工学研究科総合講義 C

バイオインフォマティクスにおける

数理的手法阿久津 達也

京都大学 化学研究所 バイオインフォマティクスセンター

Page 2: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

バイオインフォマティクス(1)

• 生物学+情報科学   (+数理科学+統計学+物理学+化学+医学+農学

+...)

• 1990年代に大きく発展   ← ゲノム計画の急速な進展   (既に数百種類以上の生物種のゲノムが決定)

• 情報解析の必要性– DNA 配列⇔プログラムのオブジェクトコード– 意味の解析が必要– 配列以外のデータ解析も重要

• 立体構造、遺伝子発現データ、代謝パスウェイなど

Page 3: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

バイオインフォマティクス(2)

• 主要トピック– データベース構築– 遺伝子発見、遺伝子制御領域推定– 配列検索、配列比較、進化系統樹– タンパク質構造予測、機能予測、相互作用予測– 遺伝子発現データ解析– ネットワーク構造解析– 化合物の性質推定

• 分野としての特徴– 多くのデータベース・ソフトウェアが WEB などから利用可

能– 研究成果が(生物学研究への)応用に直結

Page 4: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

バイオインフォマティクスにおけるデータベース

• 多くの重要なデータベースが WEB からアクセス可能– DNA 配列:  GenBank, EMBL, DDBJ– タンパク質配列:  UniProt (Swissprot)– タンパク質立体構造: PDB– モチーフ: Prosite, Pfam, …– 代謝パスウェイ: KEGG

Page 5: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

講義内容

• 分子生物学における基礎事項• 配列検索(動的計画法による配列アライメント)• カーネル法によるタンパク質構造予測

Page 6: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

遺伝子とタンパク質• 遺伝情報の流れ (セントラルドグマ)

– DNA⇒RNA⇒ タンパク質

• 遺伝子– DNA 配列中で直接的

に 機能する部分• ゲノム

– 遺伝情報の総体

• タンパク質– アミノ酸(20種類)の

転写 ・ スプライシング

エキソン

mRNA

DNA エキソン エキソン

GGU GCA 翻訳

GGU → Gly GCA → Ala

タンパク質

転写制御領域 (プロモーターなど)

Page 7: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

DNA とタンパク質

A T

G C

T A

G C

A T

G C

• DNA : A,C,G,T の4文字の並び

• DNA は二重ラセン構造⇒相補鎖

• タンパク質: アミノ酸 (20 種類)の鎖

• 固有の三次元構造をとるものが多い

• 構造は機能と深く関連

( 図は rasmol を用いて作成 )

Page 8: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

DNA とアミノ酸

• DNA : A,C,G,T の4文字の並び

• タンパク質 : アミノ酸の鎖

• アミノ酸: 20種類

• DNA 3文字がアミノ酸1文字に対応

コード表

T C A G 2文字目

1文字目

T

C

A

G

TTT TTC TTA TTG

F L

TCT TCC TCA TCG

S TAT TAC TAA TAG

Y stop

TGT TGC C TGA TGG W

stop

CTT CTC CTA CTG

L CCT CCC CCA CCG

P CAT CAC H CAA CAG Q

CGT CGC CGA CGG

R

ATT ATC ATA ATG

I M

ACT ACC ACA ACG

T AAT AAC N AAA AAG K

AGT AGC S AGA AGG R

GTT GTC GTA GTG

V GCT GCC GCA GCG

A GAT GAC GAA GAG

D E

GGT GGC GGA GGG

G

Page 9: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

アミノ酸とタンパク質

• アミノ酸:側鎖の違いにより20種類

• タンパク質:アミノ酸の鎖

R

C H

N H

R

N

O C C

C H

H O

ペプチド結合

アミノ酸

タンパク質

C H

H N H

R OH

O C

アミノ基 カルボシキル基

側鎖

Page 10: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

側鎖の例

3 CH Ala アラニン

3 CH 3 H C

CH

Val バリン

CH CH

HC C

HC CH

2 CH

Phe フェニル アラニン

2 CH

C O - O

Asp アスパラギン酸

HN NH

2 CH

+

His ヒスチジン

2 CH

SH

Cys システイン

Gly グリシン

H

Page 11: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

配列検索:内容

• 配列検索と配列アライメント• ペアワイズ・アライメント• 配列検索の実用プログラム

Page 12: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

配列検索

• バイオインフォマティクスにおける基本原理– 配列が似ていれば機能

も似ている– ただし、例外はある

• 配列検索の利用法– 実験を行い機能未知の配列

が見つかった– データベース中で類似の配

列を検索– 機能既知の類似の配列が見

つかれば、その配列と似た機能を持つと推定

VLPIKSKLP......

機能未知の配列

配列データベース

ACILTSTRE......

VLPIKSDLP......

HPFACILPDEL......

DFECILTSKLG......

配列検索

VLPIKSDLP......

類似配列

Page 13: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

配列アライメント

• 配列の類似性の検出に利用

• バイオインフォマティクスの最重要技術の一つ

• 文字間の最適な対応関係を求める(最適化問題)

• 配列長を同じにするように、ギャップ記号(挿入、欠失に対応)を挿入

A G L F S G L G Y

A G L G S V V G

A G L F G S L G Y

A G L G S V V G

Page 14: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

スコア行列(置換行列)

• 残基間(アミノ酸文字間)の類似性を表す行列– PAM250, BLOSUM45 など

A R N D C Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V

5 -2 -1 -2 -1 -1 -1 0 -2 -1 -2 -1 -1 -3 -1 1 0 -3 -2 0

BLOSUM50 スコア行列(置換行列)の一部分

-2 7 -1 -2 -4 1 0 -3 0 -4 -3 3 -2 -3 -3 -1 -1 -3 -1 3 -1 -1 7 2 -2 0 0 0 1 -3 -4 0 -2 -4 -2 1 0 -4 -2 -3 -2 -2 2 8 -4 0 2 -1 -1 -4 -4 -1 -4 -5 -1 0 -1 -5 -3 -4 -1 -4 -2 -4 13 -3 -3 -3 -3 -2 -2 -3 -2 -2 -4 -1 -1 -5 -3 -1 -1 1 0 0 -3 7 2 -2 1 -3 -2 2 0 -4 -1 0 -1 -1 -1 -3

Page 15: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

スコア行列の導出

• 基本的には頻度の比の対数をスコアとする• BLOSUM 行列

– 既存のスコア行列を用いて多くの配列のアライメントを求め、ギャップ無しの領域(ブロック)を集める

– 残基が L %以上一致しているものを同一クラスタに集める– 同じクラスタ内で残基 aが残基 bにアラインされる頻度 Aabを計算

– qa=∑b Aab / ∑cd Acd, pab=Aab / ∑cd Acd を求め、   

 s( a,b)=log(pab/qaqb)  としたのち、

 スケーリングし近傍の整数値に丸める

Page 16: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

ペアワイズ・アライメント

• ペアワイズ・アライメント: 2個の配列のアライメント

• 可能なアライメントの個数: 指数オーダー• しかし、スコア最大となるアライメント(最適アラ

イメント)は動的計画法により、 O(mn) 時間で計算可能(m,n:入力配列の長さ)

AGCT, ACGCT

アライメント

入力配列

スコア

AGCT - ACGCT

AG - CT ACGCT ACGCT

- AGC - - T AC - - GCT

A - GCT

(同じ文字の時: 1、違う文字の時: -1、ギャップ1文字: - 1) -3 1 3 -5

最適アライメント

Page 17: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

動的計画法によるアライメント  (1)

- 2 5 1 - 5 - 7

- 7

- 7

- 7

- 7 - 7 - 7 - 7

- 6 7 - 5 - 5

- 2 - 3 - 2 - 1

4 - 4 0 1

G K Y D

G

F

D

V

K G D Y G D F V

アライメント スコア 5 - 7 +7 - 7 +4 = 2

D K G Y G D F V

- 7 - 7 - 1 +0 - 7 - 7 = - 29

K G Y G D F V

D - 7 - 7 - 5 - 7 - 7 - 7 - 7 = - 47

• 入力文字列から格子状グラフを構成• アライメントと左上から右下へのパスが一対一対応• 最長経路=最適アライメント

Page 18: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

動的計画法によるアライメント  (2)

• 動的計画法: テーブル(表)を用いて効率的に計算• アライメントでは以下の F(i,j) を計算

– F(i,j) : (0,0) から (i,j) に至る最適なパスの重み

- 2 5 1 - 5 - 7

- 7

- 7

- 6 7 - 5 - 5

- 2 - 3 - 2 - 1

4 - 4 0 1

G K Y D

G

F

D

V

(0,0) (1,0) (2,0) (3,0) (4,0)

(0,1)

(0,2)

(0,3)

(0,4) (4,4)

F(3,2)=5 (1,1)

(4,1)

Page 19: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

動的計画法によるアライメント  (3)

djiFdjiF

yxsjiFjiF

idiFjdjF

ji

)1,(),1(

),()1,1(max),(

)0,(,),0(G K

G

F

F(0,0) = 0

F(1,0) = -d

F(2,0) = -2d

F(0,1) = -d

F(0,2) = -2d

F(i-1, j) F(i, j)

F(i-1, j-1) F(i, j-1)

s(K,F) - d

- d

DP  (動的計画法 )による最長経路 (スコア )の計算

行列からの経路の復元は、F(m,n)からmaxで=となっているF(i,j)を逆にたどることに行う(トレースバック)

⇒   O(mn)時間

Page 20: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

動的計画法によるアライメント (4)

- 2 5 1 - 5 - 7

- 7

- 7

- 7

- 7 - 7 - 7 - 7

- 6 7 - 5 - 5

- 2 - 3 - 2 - 1

4 - 4 0 1

G K Y D

G

F

D

V

0 -7 -14 -21 -28

-7

-14

-21

-28

5 -2

5

-2

2

-9 -16

-2 0 -2

-9 -4 3

-16 -9 -8

Page 21: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

ローカルアライメント (1) (Smith-Waterman アルゴリズム )

• 配列の一部のみ共通部分があることが多い  ⇒共通部分のみのアラインメント• 配列検索において広く利用されている• 例えば、 HEAWGEH  と  GAWED  の場合、         A W G E         A W - E  というアライメントを計算     

   (実際にはローカルアライメントとアフィンギャップを組み合わせることが必要)

Page 22: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

ローカルアライメント (2)

AWGE AW - E

H E A G

G A

E W

W E H 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 2 1

2

0 0 0 0 0 0 1 1 D

実行例

(ギャップ-1、 置換-1、一致1)

djiFdjiF

yxsjiFjiF ji

1),()1,(

)(1)1,(0

max),( ,動的計画法の式

Page 23: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

配列検索の実用プログラム (1)

• O(mn): mは数百だが、 nは数GBにもなる ⇒ 高速アルゴリズムの開発• FASTA:  短い配列(アミノ酸の場合、 1,2 文字、 D

NA の場合、 4-6 文字)の完全一致をもとに対角線を検索し、さらにそれを両側に伸長し、最後にDPを利用。

• BLAST:  固定長(アミノ酸では 3, DNA では 11 )の全ての類似単語のリストを生成し、ある閾値以上の単語ペアを探し、それをもとに両側に伸長させる。ギャップは基本的には入らない。伸長の際に統計的有意性を利用。– 様々なバリエーションが存在

• PSI-BLAST:  高精度検索用• MEGA-BLAST: ゲノム比較用(大規模配列比較用)

Page 24: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

配列検索の実用プログラム (2)

G

A C A T G A C

A T G A T

FASTA

( ktup=2 )

BLAST A F D M F D A D G G A ・・・ ・・・

MFD

MFE MFN MYD MYE MYN

・・・

Query

A F D M F D A D G G A ・・・ ・・・ A F S M F E K D G D E ・・・ ・・・

Query

Database

類似ワード

Page 25: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

カーネル法によるタンパク質構造予測:内容

• サポートベクターマシンとカーネル法• 配列解析のためのカーネル• カーネル法による構造予測

Page 26: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

サポートベクターマシン (1)

• カーネル法の一つ• 1990 年代に、 Cortes と  Vapnik が発明• トレーニングデータとして与えられた正例と負例

から、それらを分離する超平面を計算   ⇒ 学習=超平面の計算• 機械学習、統計学、人工知能、パターン認識、バ

イオインフォマティクスなど様々な分野に応用– 配列分類– タンパク質フォールド予測、二次構造予測– 遺伝子発現データ解析– タンパク質相互作用予測– 化合物の性質推定

Page 27: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

サポートベクターマシン (2)

• 正例と負例を与えて、それらを最適(マージンを最大)に分離する超平面を学習

• 例=点• カーネルを適切に

定義することにより超平面以外での分離が可能

margin

Page 28: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

SVM によるテストデータの分類SVM: サポートベク

ターマシンSVM の利用法

1. 学習データより超平面を学習

2. 新たなデータ(テストデータ)については、超平面に対する上下で正負を判定

テストデータ

Page 29: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

カーネル• サポートベクターマシン:基本的には超平面で分離• Φ(x) ( 特徴ベクトル):「非線形曲面⇒超平面」に写像• カーネル:  K(x,y)=φ(x) ・ φ(y)• x と y の類似度が高い ⇔ K(x,y) が大

φ (x)

Page 30: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

カーネルの定義• 関数 K: X×X→ R がカーネル   iff.   X から内積空間 F への写像 φ が存在し、  

  とかける

)()(),( yxyx K

Page 31: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

マーセルの定理 (1)

• X を有限空間とし、 K(x,y) を X 上の対称関数とすると、

  K(x,y) がカーネル   iff. 行列 K=(K(xi,xj)) (i, j=1,…,n) が半正定値

• 行列 K が半正定値 iff. K の固有値がすべて非負 iff. (x) (xtKx 0)

Page 32: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

カーネルの性質 (2)

• Ki が以下を満たす時、 K もカーネル),(),(lim,, yxyxyx KKX nn

Page 33: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

カーネルの例 (1)

• (x ・ y+c)d はカーネル– 証明( d=2, c=0 の場合)

212211212211

212122221111

22211

2

2,,2,,

2)()(

yyyyyyxxxxxx

yyxxyyxxyyxxyxyx

yx

Page 34: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

カーネルの例 (2)• K1, K2 がカーネルの時、以下もカーネル

• (i)(ii) より、カーネルの正係数の線形和もカーネル• (i)(ii)(iii) より、カーネルの正係数の多項式もカーネル

),(),((iii))0(),((ii)

),(),((i)

21

1

21

yxyxyx

yxyx

KKaKa

KK

Page 35: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

カーネルの例 (3)(i) f(x): X →R ⇒ f(x) f(y) はカーネル

– 証明

(ii) exp(K(x,y)) はカーネル– 略証: 指数関数は正の係数を持つ多項式により任意の精度で近似でき、また、カーネルの多項式もカーネルとなるため、性質(2)によりカーネルとなる

0)()(

)()(),(

11

1 11 1

n

jjj

n

iii

n

i

n

jjiji

n

i

n

jjiji

fvfv

ffvvKvv

xx

xxxx

Page 36: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

カーネルの例 (4)• exp(-||x-y ||2/σ2)  はカーネル         ( Gaussian RBF kernel )• 証明

– 最初の二項の積は例 (3-i) によりカーネル、  最後の項は例 (3-ii) によりカーネル、  それらの積は例 (2-iii) によりカーネル

22

2

2

2

2

2

2expexpexp

exp

yxyx

yx

Page 37: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

カーネルの例 (5)• 以下は必ずしもカーネルとはならない

)()tanh(),((iii)

),(log(ii)),((i)

シグモイドカーネル

yxyxyx

yx

aKK

K

Page 38: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

サポートベクターマシン : 定式化 (1)• 学習データ:  Rd 上の点とラベルのペアの集合

– yi=1 ⇒ 正例    yi=-1 ⇒ 負例• 最適化問題 (凸二次計画問題)

– (w,b): Rd 上の超平面 h: w ・ x+b=0 に対応– 1/||w||: h から一番近い xi までの距離( =margin)

}1,1{,R|),( id

iii yyS xx

1)( subject to

minimize,

by ii

b

xw

www

Page 39: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

サポートベクターマシン : 定式化 (2)サポート ベクター

h

γ

1)( bixw

1)(

bixw

1)(

bixw

1)( bixw0

)( bxw

1)(subject to

minimize,

by ii

b

xw

www

w/1

Page 40: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

サポートベクターマシン : 定式化 (3)

• カーネルを用いた定式化

• 識別関数        ( SV:サポートベクターの集合)

• 利点: 特徴ベクトルを陽に扱わずに、カーネル値のみが計算できればOK ⇒ カーネルトリック

0,0 subject to

),(maximize

1

1 121

1

il

i ii

l

i

l

j jijijil

i i

y

Kyy

xxα

**** ),( bKybSVx

iiii

xxxw

2minmax *

1*

1* iyiy iibxwxw

(+ なら超平面より上側)

Page 41: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

実問題に対するカーネル• データから特徴ベクトル (feature vector) を

作るのが一般的、かつ、 多くの場合に実用的• 特徴ベクトル: 実数値の列• 例えば、各化合物 x に対し、

– Φ(x) = ( 分子量 , 容積 , 表面積 , logP,…)

 とすれば、化合物 x,y に対するカーネルは  Φ(x) と Φ(y ) の単なる内積

Page 42: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

 配列解析のためのカーネル• 配列を実数ベクトルに変換• 様々なカーネルの提案

– Marginalized kernel, Fisher kernel, Local alignment kernel, …

φ (x) ACCGTA CACGTA

TCCGTCC

TCCGTTC

AGCGTG AGCGTAA

TACCGTA

CCACCG CCACCGA

CTACCA

GACCGTA

CTACCGG

GACCTC

Page 43: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

タンパク質配列解析のためのカーネル• 隠れマルコフモデル( HMM )から特徴ベクトルを抽出– Fisher カーネル  (Jaakkola et al., 2000)– Marginalized カーネル (Tsuda et al., 2002)

• 配列から直接特徴ベクトルを抽出– Spectrum カーネル (Leslie et al., 2002)– Mismatch カーネル (Leslie et al., 2003)

• 他の配列とのスコアを特徴ベクトルとして利用– SVM pairwise (Liao & Noble, 2002)

• 配列パターンの出現頻度を特徴ベクトルとして利用– モチーフカーネル (Ben-Hur & Brutlag, 2003)

• 二つの配列から直接カーネル値を計算– Local Alignment Kernel (Saigo et al, 2004)

Page 44: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

Spectrum カーネル

• 長さ k の各文字列の出現回数を特徴ベクトルとする• カーネルはその内積( K(x,y)=φ(x) ・ φ(y))• 単純だけど有用、かつ、高速に計算可能

A C C C C T T A A G A A C G

φ (x)

Spectrumカーネル

C C T A A C

A C G T A C φ (y)

0 2 0 1 0 1 1 ( ) 0 T C

1 1 0 0 1 0 0 ( ) 1

Page 45: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

• Local Alignment アルゴリズムをカーネルとして利用したい ⇒ カーネルの条件を満たさない 

• そこで、スコア最大のパスのみを考えるのではなく、すべてのパスのスコアを考慮した Local Alignment カーネルを開発 ⇒ カーネルの条件を満たす

Local Alignment カーネル

• π : ( ローカル )アライメント• s(x,y,π):   x,y の  アライメント πの  スコア• Π :可能なアライメントの集合

),,(max),(),(

yxsyxSWyx

),(

)),,(exp(),(yx

LA yxsyxK

),()),(ln(lim 1 yxSWyxKLA

定理

Page 46: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

タンパク質立体構造予測• アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定• 実験よりは、精度が悪い• だいたいの形がわかれば良いのであれば、 4 ~5割の予測率

T V A C L G F S L V V G G R D

アミノ酸配列

コンピュータ

タンパク質立体構造

Page 47: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

SCOP データベース

Class.1

Fold.1

Super Family.1

Family.1 Family.2mkkrltitlsesvlenlekmaremglsksam

isvalenykkgq

SCOP Root

ispqarafleevfrrkqslnskekeevakkcgitplqvrvwfinkrmrs

Class.2

Fold.2

Super Family.2

Family.3

‥‥‥‥‥

‥‥‥‥‥

‥‥‥‥‥

• タンパク質立体構造を形状を中心に、人手で、 階層的に、分類したデータベース

Page 48: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

Super Family 予測

madqlteeqiaefkeafslfdkdgdgtittkelgtvmrslgqnpteaelqdminevdadg

ngtidfpefltmmark

タンパク質配列 Super Family.1

Super Family.2

Super Family.3::

• 入力配列が SCOP のどのスーパーファミリーに属するかを予測

Page 49: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

SVM によるスーパーファミリー予測

• 各ファミリーごとに SVM を学習– i番目の SVM

• i番目のファミリーに属するタンパク質を正例• それ以外のタンパク質を負例

• 最も高いスコアを出力した SVM に対応するファミリーを予測結果とする

SVM1 SVM2 SVM3 SVMn

LVEKHPLADFCVEDRKLVIH...... タンパク質配列

スコア 3.5 -2.0 5.8 -3.2

予測結果 3番目のスーパーファミリー

Page 50: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

まとめ

• バイオインフォマティクス– 生物学+情報科学  (+数理科学+統計学+...)– 成果の多くはWEBページなどを通して利用可能

• 配列検索– 動的計画法による配列アライメント– 配列検索による機能予測

• 配列が類似していれば、機能も類似

• カーネル法によるタンパク質構造予測– サポートベクターマシン: 超平面を学習– カーネル関数: 特徴ベクトルの内積– 文字列に対するカーネル関数

• Spectrum カーネル、 Local Alignment カーネル– スーパーファミリー予測への応用

Page 51: 明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法

参考文献

• バイオインフォマティクス– 金久實:ポストゲノム情報への招待、共立出版、 2001

• 配列解析– 岸野・浅井:生物配列の統計、岩波書店、 2003– 阿久津・浅井・矢田(訳):バイオインフォマティクス     - 確率モデルによる遺伝子配列解析 -、医学出版、 2001

• カーネル法– 大北(訳):サポートベクターマシン入門、共立出版、 2005