Upload
tacita
View
78
Download
4
Embed Size (px)
DESCRIPTION
明治大学大学院理工学研究科 総合講義 C バイオインフォマティクスにおける 数理的手法. 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター. バイオインフォマティクス(1). 生物学 + 情報科学 (+数理科学+統計学+物理学+化学+医学+農学+...) 1990年代に大きく発展 ← ゲノム計画の急速な進展 (既に数百種類以上の生物種のゲノムが決定) 情報解析の必要性 DNA 配列⇔プログラムのオブジェクトコード 意味の解析が必要 配列以外のデータ解析も重要 立体構造、遺伝子発現データ、代謝パスウェイなど. - PowerPoint PPT Presentation
Citation preview
明治大学大学院理工学研究科総合講義 C
バイオインフォマティクスにおける
数理的手法阿久津 達也
京都大学 化学研究所 バイオインフォマティクスセンター
バイオインフォマティクス(1)
• 生物学+情報科学 (+数理科学+統計学+物理学+化学+医学+農学
+...)
• 1990年代に大きく発展 ← ゲノム計画の急速な進展 (既に数百種類以上の生物種のゲノムが決定)
• 情報解析の必要性– DNA 配列⇔プログラムのオブジェクトコード– 意味の解析が必要– 配列以外のデータ解析も重要
• 立体構造、遺伝子発現データ、代謝パスウェイなど
バイオインフォマティクス(2)
• 主要トピック– データベース構築– 遺伝子発見、遺伝子制御領域推定– 配列検索、配列比較、進化系統樹– タンパク質構造予測、機能予測、相互作用予測– 遺伝子発現データ解析– ネットワーク構造解析– 化合物の性質推定
• 分野としての特徴– 多くのデータベース・ソフトウェアが WEB などから利用可
能– 研究成果が(生物学研究への)応用に直結
バイオインフォマティクスにおけるデータベース
• 多くの重要なデータベースが WEB からアクセス可能– DNA 配列: GenBank, EMBL, DDBJ– タンパク質配列: UniProt (Swissprot)– タンパク質立体構造: PDB– モチーフ: Prosite, Pfam, …– 代謝パスウェイ: KEGG
講義内容
• 分子生物学における基礎事項• 配列検索(動的計画法による配列アライメント)• カーネル法によるタンパク質構造予測
遺伝子とタンパク質• 遺伝情報の流れ (セントラルドグマ)
– DNA⇒RNA⇒ タンパク質
• 遺伝子– DNA 配列中で直接的
に 機能する部分• ゲノム
– 遺伝情報の総体
• タンパク質– アミノ酸(20種類)の
鎖
転写 ・ スプライシング
エキソン
mRNA
DNA エキソン エキソン
GGU GCA 翻訳
GGU → Gly GCA → Ala
タンパク質
転写制御領域 (プロモーターなど)
DNA とタンパク質
A T
G C
T A
G C
A T
G C
• DNA : A,C,G,T の4文字の並び
• DNA は二重ラセン構造⇒相補鎖
• タンパク質: アミノ酸 (20 種類)の鎖
• 固有の三次元構造をとるものが多い
• 構造は機能と深く関連
( 図は rasmol を用いて作成 )
DNA とアミノ酸
• DNA : A,C,G,T の4文字の並び
• タンパク質 : アミノ酸の鎖
• アミノ酸: 20種類
• DNA 3文字がアミノ酸1文字に対応
コード表
T C A G 2文字目
1文字目
T
C
A
G
TTT TTC TTA TTG
F L
TCT TCC TCA TCG
S TAT TAC TAA TAG
Y stop
TGT TGC C TGA TGG W
stop
CTT CTC CTA CTG
L CCT CCC CCA CCG
P CAT CAC H CAA CAG Q
CGT CGC CGA CGG
R
ATT ATC ATA ATG
I M
ACT ACC ACA ACG
T AAT AAC N AAA AAG K
AGT AGC S AGA AGG R
GTT GTC GTA GTG
V GCT GCC GCA GCG
A GAT GAC GAA GAG
D E
GGT GGC GGA GGG
G
アミノ酸とタンパク質
• アミノ酸:側鎖の違いにより20種類
• タンパク質:アミノ酸の鎖
R
C H
N H
R
N
O C C
C H
H O
ペプチド結合
アミノ酸
タンパク質
C H
H N H
R OH
O C
アミノ基 カルボシキル基
側鎖
側鎖の例
3 CH Ala アラニン
3 CH 3 H C
CH
Val バリン
CH CH
HC C
HC CH
2 CH
Phe フェニル アラニン
2 CH
C O - O
Asp アスパラギン酸
HN NH
2 CH
+
His ヒスチジン
2 CH
SH
Cys システイン
Gly グリシン
H
配列検索:内容
• 配列検索と配列アライメント• ペアワイズ・アライメント• 配列検索の実用プログラム
配列検索
• バイオインフォマティクスにおける基本原理– 配列が似ていれば機能
も似ている– ただし、例外はある
• 配列検索の利用法– 実験を行い機能未知の配列
が見つかった– データベース中で類似の配
列を検索– 機能既知の類似の配列が見
つかれば、その配列と似た機能を持つと推定
VLPIKSKLP......
機能未知の配列
配列データベース
ACILTSTRE......
VLPIKSDLP......
HPFACILPDEL......
DFECILTSKLG......
配列検索
VLPIKSDLP......
類似配列
配列アライメント
• 配列の類似性の検出に利用
• バイオインフォマティクスの最重要技術の一つ
• 文字間の最適な対応関係を求める(最適化問題)
• 配列長を同じにするように、ギャップ記号(挿入、欠失に対応)を挿入
A G L F S G L G Y
A G L G S V V G
A G L F G S L G Y
A G L G S V V G
スコア行列(置換行列)
• 残基間(アミノ酸文字間)の類似性を表す行列– PAM250, BLOSUM45 など
A R N D C Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V
5 -2 -1 -2 -1 -1 -1 0 -2 -1 -2 -1 -1 -3 -1 1 0 -3 -2 0
BLOSUM50 スコア行列(置換行列)の一部分
-2 7 -1 -2 -4 1 0 -3 0 -4 -3 3 -2 -3 -3 -1 -1 -3 -1 3 -1 -1 7 2 -2 0 0 0 1 -3 -4 0 -2 -4 -2 1 0 -4 -2 -3 -2 -2 2 8 -4 0 2 -1 -1 -4 -4 -1 -4 -5 -1 0 -1 -5 -3 -4 -1 -4 -2 -4 13 -3 -3 -3 -3 -2 -2 -3 -2 -2 -4 -1 -1 -5 -3 -1 -1 1 0 0 -3 7 2 -2 1 -3 -2 2 0 -4 -1 0 -1 -1 -1 -3
スコア行列の導出
• 基本的には頻度の比の対数をスコアとする• BLOSUM 行列
– 既存のスコア行列を用いて多くの配列のアライメントを求め、ギャップ無しの領域(ブロック)を集める
– 残基が L %以上一致しているものを同一クラスタに集める– 同じクラスタ内で残基 aが残基 bにアラインされる頻度 Aabを計算
– qa=∑b Aab / ∑cd Acd, pab=Aab / ∑cd Acd を求め、
s( a,b)=log(pab/qaqb) としたのち、
スケーリングし近傍の整数値に丸める
ペアワイズ・アライメント
• ペアワイズ・アライメント: 2個の配列のアライメント
• 可能なアライメントの個数: 指数オーダー• しかし、スコア最大となるアライメント(最適アラ
イメント)は動的計画法により、 O(mn) 時間で計算可能(m,n:入力配列の長さ)
AGCT, ACGCT
アライメント
入力配列
スコア
AGCT - ACGCT
AG - CT ACGCT ACGCT
- AGC - - T AC - - GCT
A - GCT
(同じ文字の時: 1、違う文字の時: -1、ギャップ1文字: - 1) -3 1 3 -5
最適アライメント
動的計画法によるアライメント (1)
- 2 5 1 - 5 - 7
- 7
- 7
- 7
- 7 - 7 - 7 - 7
- 6 7 - 5 - 5
- 2 - 3 - 2 - 1
4 - 4 0 1
G K Y D
G
F
D
V
K G D Y G D F V
アライメント スコア 5 - 7 +7 - 7 +4 = 2
D K G Y G D F V
- 7 - 7 - 1 +0 - 7 - 7 = - 29
K G Y G D F V
D - 7 - 7 - 5 - 7 - 7 - 7 - 7 = - 47
• 入力文字列から格子状グラフを構成• アライメントと左上から右下へのパスが一対一対応• 最長経路=最適アライメント
動的計画法によるアライメント (2)
• 動的計画法: テーブル(表)を用いて効率的に計算• アライメントでは以下の F(i,j) を計算
– F(i,j) : (0,0) から (i,j) に至る最適なパスの重み
- 2 5 1 - 5 - 7
- 7
- 7
- 6 7 - 5 - 5
- 2 - 3 - 2 - 1
4 - 4 0 1
G K Y D
G
F
D
V
(0,0) (1,0) (2,0) (3,0) (4,0)
(0,1)
(0,2)
(0,3)
(0,4) (4,4)
F(3,2)=5 (1,1)
(4,1)
動的計画法によるアライメント (3)
djiFdjiF
yxsjiFjiF
idiFjdjF
ji
)1,(),1(
),()1,1(max),(
)0,(,),0(G K
G
F
F(0,0) = 0
F(1,0) = -d
F(2,0) = -2d
F(0,1) = -d
F(0,2) = -2d
F(i-1, j) F(i, j)
F(i-1, j-1) F(i, j-1)
s(K,F) - d
- d
DP (動的計画法 )による最長経路 (スコア )の計算
行列からの経路の復元は、F(m,n)からmaxで=となっているF(i,j)を逆にたどることに行う(トレースバック)
⇒ O(mn)時間
動的計画法によるアライメント (4)
- 2 5 1 - 5 - 7
- 7
- 7
- 7
- 7 - 7 - 7 - 7
- 6 7 - 5 - 5
- 2 - 3 - 2 - 1
4 - 4 0 1
G K Y D
G
F
D
V
0 -7 -14 -21 -28
-7
-14
-21
-28
5 -2
5
-2
2
-9 -16
-2 0 -2
-9 -4 3
-16 -9 -8
ローカルアライメント (1) (Smith-Waterman アルゴリズム )
• 配列の一部のみ共通部分があることが多い ⇒共通部分のみのアラインメント• 配列検索において広く利用されている• 例えば、 HEAWGEH と GAWED の場合、 A W G E A W - E というアライメントを計算
(実際にはローカルアライメントとアフィンギャップを組み合わせることが必要)
ローカルアライメント (2)
AWGE AW - E
H E A G
G A
E W
W E H 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 2 1
2
0 0 0 0 0 0 1 1 D
実行例
(ギャップ-1、 置換-1、一致1)
djiFdjiF
yxsjiFjiF ji
1),()1,(
)(1)1,(0
max),( ,動的計画法の式
配列検索の実用プログラム (1)
• O(mn): mは数百だが、 nは数GBにもなる ⇒ 高速アルゴリズムの開発• FASTA: 短い配列(アミノ酸の場合、 1,2 文字、 D
NA の場合、 4-6 文字)の完全一致をもとに対角線を検索し、さらにそれを両側に伸長し、最後にDPを利用。
• BLAST: 固定長(アミノ酸では 3, DNA では 11 )の全ての類似単語のリストを生成し、ある閾値以上の単語ペアを探し、それをもとに両側に伸長させる。ギャップは基本的には入らない。伸長の際に統計的有意性を利用。– 様々なバリエーションが存在
• PSI-BLAST: 高精度検索用• MEGA-BLAST: ゲノム比較用(大規模配列比較用)
配列検索の実用プログラム (2)
G
A C A T G A C
A T G A T
FASTA
( ktup=2 )
BLAST A F D M F D A D G G A ・・・ ・・・
MFD
MFE MFN MYD MYE MYN
・・・
Query
A F D M F D A D G G A ・・・ ・・・ A F S M F E K D G D E ・・・ ・・・
Query
Database
類似ワード
カーネル法によるタンパク質構造予測:内容
• サポートベクターマシンとカーネル法• 配列解析のためのカーネル• カーネル法による構造予測
サポートベクターマシン (1)
• カーネル法の一つ• 1990 年代に、 Cortes と Vapnik が発明• トレーニングデータとして与えられた正例と負例
から、それらを分離する超平面を計算 ⇒ 学習=超平面の計算• 機械学習、統計学、人工知能、パターン認識、バ
イオインフォマティクスなど様々な分野に応用– 配列分類– タンパク質フォールド予測、二次構造予測– 遺伝子発現データ解析– タンパク質相互作用予測– 化合物の性質推定
サポートベクターマシン (2)
• 正例と負例を与えて、それらを最適(マージンを最大)に分離する超平面を学習
• 例=点• カーネルを適切に
定義することにより超平面以外での分離が可能
margin
SVM によるテストデータの分類SVM: サポートベク
ターマシンSVM の利用法
1. 学習データより超平面を学習
2. 新たなデータ(テストデータ)については、超平面に対する上下で正負を判定
テストデータ
カーネル• サポートベクターマシン:基本的には超平面で分離• Φ(x) ( 特徴ベクトル):「非線形曲面⇒超平面」に写像• カーネル: K(x,y)=φ(x) ・ φ(y)• x と y の類似度が高い ⇔ K(x,y) が大
φ (x)
カーネルの定義• 関数 K: X×X→ R がカーネル iff. X から内積空間 F への写像 φ が存在し、
とかける
)()(),( yxyx K
マーセルの定理 (1)
• X を有限空間とし、 K(x,y) を X 上の対称関数とすると、
K(x,y) がカーネル iff. 行列 K=(K(xi,xj)) (i, j=1,…,n) が半正定値
• 行列 K が半正定値 iff. K の固有値がすべて非負 iff. (x) (xtKx 0)
カーネルの性質 (2)
• Ki が以下を満たす時、 K もカーネル),(),(lim,, yxyxyx KKX nn
カーネルの例 (1)
• (x ・ y+c)d はカーネル– 証明( d=2, c=0 の場合)
212211212211
212122221111
22211
2
2,,2,,
2)()(
yyyyyyxxxxxx
yyxxyyxxyyxxyxyx
yx
カーネルの例 (2)• K1, K2 がカーネルの時、以下もカーネル
• (i)(ii) より、カーネルの正係数の線形和もカーネル• (i)(ii)(iii) より、カーネルの正係数の多項式もカーネル
),(),((iii))0(),((ii)
),(),((i)
21
1
21
yxyxyx
yxyx
KKaKa
KK
カーネルの例 (3)(i) f(x): X →R ⇒ f(x) f(y) はカーネル
– 証明
(ii) exp(K(x,y)) はカーネル– 略証: 指数関数は正の係数を持つ多項式により任意の精度で近似でき、また、カーネルの多項式もカーネルとなるため、性質(2)によりカーネルとなる
0)()(
)()(),(
11
1 11 1
n
jjj
n
iii
n
i
n
jjiji
n
i
n
jjiji
fvfv
ffvvKvv
xx
xxxx
カーネルの例 (4)• exp(-||x-y ||2/σ2) はカーネル ( Gaussian RBF kernel )• 証明
– 最初の二項の積は例 (3-i) によりカーネル、 最後の項は例 (3-ii) によりカーネル、 それらの積は例 (2-iii) によりカーネル
22
2
2
2
2
2
2expexpexp
exp
yxyx
yx
カーネルの例 (5)• 以下は必ずしもカーネルとはならない
)()tanh(),((iii)
),(log(ii)),((i)
シグモイドカーネル
yxyxyx
yx
aKK
K
サポートベクターマシン : 定式化 (1)• 学習データ: Rd 上の点とラベルのペアの集合
– yi=1 ⇒ 正例 yi=-1 ⇒ 負例• 最適化問題 (凸二次計画問題)
– (w,b): Rd 上の超平面 h: w ・ x+b=0 に対応– 1/||w||: h から一番近い xi までの距離( =margin)
}1,1{,R|),( id
iii yyS xx
1)( subject to
minimize,
by ii
b
xw
www
サポートベクターマシン : 定式化 (2)サポート ベクター
h
γ
1)( bixw
1)(
bixw
1)(
bixw
1)( bixw0
)( bxw
1)(subject to
minimize,
by ii
b
xw
www
w/1
サポートベクターマシン : 定式化 (3)
• カーネルを用いた定式化
• 識別関数 ( SV:サポートベクターの集合)
• 利点: 特徴ベクトルを陽に扱わずに、カーネル値のみが計算できればOK ⇒ カーネルトリック
0,0 subject to
),(maximize
1
1 121
1
il
i ii
l
i
l
j jijijil
i i
y
Kyy
xxα
**** ),( bKybSVx
iiii
xxxw
2minmax *
1*
1* iyiy iibxwxw
(+ なら超平面より上側)
実問題に対するカーネル• データから特徴ベクトル (feature vector) を
作るのが一般的、かつ、 多くの場合に実用的• 特徴ベクトル: 実数値の列• 例えば、各化合物 x に対し、
– Φ(x) = ( 分子量 , 容積 , 表面積 , logP,…)
とすれば、化合物 x,y に対するカーネルは Φ(x) と Φ(y ) の単なる内積
配列解析のためのカーネル• 配列を実数ベクトルに変換• 様々なカーネルの提案
– Marginalized kernel, Fisher kernel, Local alignment kernel, …
φ (x) ACCGTA CACGTA
TCCGTCC
TCCGTTC
AGCGTG AGCGTAA
TACCGTA
CCACCG CCACCGA
CTACCA
GACCGTA
CTACCGG
GACCTC
タンパク質配列解析のためのカーネル• 隠れマルコフモデル( HMM )から特徴ベクトルを抽出– Fisher カーネル (Jaakkola et al., 2000)– Marginalized カーネル (Tsuda et al., 2002)
• 配列から直接特徴ベクトルを抽出– Spectrum カーネル (Leslie et al., 2002)– Mismatch カーネル (Leslie et al., 2003)
• 他の配列とのスコアを特徴ベクトルとして利用– SVM pairwise (Liao & Noble, 2002)
• 配列パターンの出現頻度を特徴ベクトルとして利用– モチーフカーネル (Ben-Hur & Brutlag, 2003)
• 二つの配列から直接カーネル値を計算– Local Alignment Kernel (Saigo et al, 2004)
Spectrum カーネル
• 長さ k の各文字列の出現回数を特徴ベクトルとする• カーネルはその内積( K(x,y)=φ(x) ・ φ(y))• 単純だけど有用、かつ、高速に計算可能
A C C C C T T A A G A A C G
φ (x)
Spectrumカーネル
C C T A A C
A C G T A C φ (y)
0 2 0 1 0 1 1 ( ) 0 T C
1 1 0 0 1 0 0 ( ) 1
• Local Alignment アルゴリズムをカーネルとして利用したい ⇒ カーネルの条件を満たさない
• そこで、スコア最大のパスのみを考えるのではなく、すべてのパスのスコアを考慮した Local Alignment カーネルを開発 ⇒ カーネルの条件を満たす
Local Alignment カーネル
• π : ( ローカル )アライメント• s(x,y,π): x,y の アライメント πの スコア• Π :可能なアライメントの集合
),,(max),(),(
yxsyxSWyx
),(
)),,(exp(),(yx
LA yxsyxK
),()),(ln(lim 1 yxSWyxKLA
定理
タンパク質立体構造予測• アミノ酸配列から、タンパク質の立体構造(3次元構造)をコンピュータにより推定• 実験よりは、精度が悪い• だいたいの形がわかれば良いのであれば、 4 ~5割の予測率
T V A C L G F S L V V G G R D
アミノ酸配列
コンピュータ
タンパク質立体構造
SCOP データベース
Class.1
Fold.1
Super Family.1
Family.1 Family.2mkkrltitlsesvlenlekmaremglsksam
isvalenykkgq
SCOP Root
ispqarafleevfrrkqslnskekeevakkcgitplqvrvwfinkrmrs
Class.2
Fold.2
Super Family.2
Family.3
‥‥‥‥‥
‥‥‥‥‥
‥‥‥‥‥
• タンパク質立体構造を形状を中心に、人手で、 階層的に、分類したデータベース
Super Family 予測
madqlteeqiaefkeafslfdkdgdgtittkelgtvmrslgqnpteaelqdminevdadg
ngtidfpefltmmark
タンパク質配列 Super Family.1
Super Family.2
Super Family.3::
• 入力配列が SCOP のどのスーパーファミリーに属するかを予測
SVM によるスーパーファミリー予測
• 各ファミリーごとに SVM を学習– i番目の SVM
• i番目のファミリーに属するタンパク質を正例• それ以外のタンパク質を負例
• 最も高いスコアを出力した SVM に対応するファミリーを予測結果とする
SVM1 SVM2 SVM3 SVMn
LVEKHPLADFCVEDRKLVIH...... タンパク質配列
スコア 3.5 -2.0 5.8 -3.2
予測結果 3番目のスーパーファミリー
まとめ
• バイオインフォマティクス– 生物学+情報科学 (+数理科学+統計学+...)– 成果の多くはWEBページなどを通して利用可能
• 配列検索– 動的計画法による配列アライメント– 配列検索による機能予測
• 配列が類似していれば、機能も類似
• カーネル法によるタンパク質構造予測– サポートベクターマシン: 超平面を学習– カーネル関数: 特徴ベクトルの内積– 文字列に対するカーネル関数
• Spectrum カーネル、 Local Alignment カーネル– スーパーファミリー予測への応用
参考文献
• バイオインフォマティクス– 金久實:ポストゲノム情報への招待、共立出版、 2001
• 配列解析– 岸野・浅井:生物配列の統計、岩波書店、 2003– 阿久津・浅井・矢田(訳):バイオインフォマティクス - 確率モデルによる遺伝子配列解析 -、医学出版、 2001
• カーネル法– 大北(訳):サポートベクターマシン入門、共立出版、 2005