Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
生命情報とアルゴリズム
北海道大学人獣共通感染症リサーチセンター
バイオインフォマティクス部門
伊藤公人
さきがけ数学塾 「数学を使う - 生命現象への挑戦-」
伊藤公人
北海道大学人獣共通感染症リサーチセンターバイオインフォマティクス部門
北海道大学情報科学研究科 データから規則性を発見する技術の研究
北海道大学人獣共通感染症リサーチセンター インフルエンザウイルスの抗原変異予測
北海道大学
人獣共通感染症リサーチセンター
人獣共通感染症の研究・教育を抜本的に強化するため、 医学・獣医学・薬学・理学・情報科学を基盤とする研究者が協働。
獣医学部
人獣共通感染症リサーチセンター
医学部
工学部
薬学部
理学部
農学部
Year Base Pairs Sequences
1982 680,338 6061983 2,274,029 2,4271984 3,368,765 4,1751985 5,204,420 5,7001986 9,615,371 9,9781987 15,514,776 14,5841988 23,800,000 20,5791989 34,762,585 28,7911990 49,179,285 39,5331991 71,947,426 55,6271992 101,008,486 78,6081993 157,152,442 143,4921994 217,102,462 215,2731995 384,939,485 555,6941996 651,972,984 1,021,2111997 1,160,300,687 1,765,8471998 2,008,761,784 2,837,8971999 3,841,163,011 4,864,5702000 11,101,066,288 10,106,0232001 15,849,921,438 14,976,3102002 28,507,990,166 22,318,8832003 36,553,368,485 30,968,4182004 44,575,745,176 40,604,3192005 56,037,734,462 52,016,762
GenBank Data
大量の遺伝子情報
計算機科学と生命科学の関わり
計算機科学
バイオインフォマティクス
生命科学
情報の流れ
配列比較、配列検索遺伝子発見
進化系統解析配列モチーフ発見
機能予測構造予測
相互作用・ネットワーク推定
統計学 生物物理学
1930~40年代
計算機科学 バイオインフォマティクス 分子生物学
Turingマシン(1936) デジタル回路設計
(1937)
ノイマン型コンピュータの提案(1945)
ENIAC(1946)
Shannonの情報理論(1948)
タンパク質の電気泳動(1930)
DNAに遺伝子があることの発見(1944)
1930
1950
1
1950年代
計算機科学 バイオインフォマティクス 分子生物学 EDVAC、UNIVAC
(1950) 動的計画法(1953)
プログラミング言語FORTRAN(1956)
集積回路(1958) UPGMA法 (1958)
分子動力学計算(1959)
ワトソンとクリックがDNAの二重らせん構造を発見 (1953)
タンパク質は遺伝子情報から作られることの発見(1958)
タンパク質の三次元立体構造(1958)
抗体の基本構造の解明(1959)
1950
1960
1960年代
計算機科学 バイオインフォマティクス 分子生物学
T. Nelson Hypertext(1965)
D.Engelbart マウス・ウインドウ(1968)
UNIXとC(1969) ARPAネット(1969)
最大節約法による進化解析(1965)
遺伝コード(コドン表)の解読
1960
1970
1970年代
計算機科学 バイオインフォマティクス 分子生物学 Coddの関係モデル
(1970) 電子メール(1971) 文字列照合アルゴリ
ズムの研究(1974) Ethernet(1975) CRAY-1(1976)
Apple-II(1977)
Needleman-Wunsch アルゴリズム(1970)
第一原理計算(1970)
タンパク質の分子動力学計算(1977)
Protein Data Bank(1977)
抗体の遺伝子再構成の発見(1976)
高速塩基配列決定法(1977)
1970
1980
1980年代
計算機科学 バイオインフォマティクス 分子生物学 オブジェクト指向言語
Smalltalk(1980)
SGI(1982)
スクリプト言語Perl (1987)
World Wide Web (1989)
Smith-Waterman アルゴリズム(1981)
FASTPアルゴリズム(1985)
近隣結合法(1987)
NCBIの設立(1988) FASTAアルゴリズム
(1988)
インフルエンザウイルスの全ゲノム 解読
PCRによる遺伝子増幅法の発明 (1985)
1980
1990
1990年代
計算機科学 バイオインフォマティクス 分子生物学
Linuxの誕生 (1991)
NCSA Mosaic(1993) データマイニング
(1994) Windows95(1995) Java(1995)
ホモロジーモデリング(1992)
PubMedの公開(1997)
Gene Ontology(1998)
自然免疫(1996) DNAチップ (1996) 大腸菌の全ゲノム
(4.7MB)決定(1997)
インフルエンザウイルスのリバースジェネティクス(1999)
1990
2000
2000年代
計算機科学 バイオインフォマティクス 分子生物学
セマンティックウェブ(2001)
ショウジョウバエ全ゲノム解読(180MB)(2000)
ヒトゲノムのドラフト配列(3GB)の決定(2001)
2000
現在
2
計算機科学と生命科学の関わり
計算機科学
バイオインフォマティクス
生命科学
情報の流れ
配列比較、配列検索遺伝子発見
進化系統解析配列モチーフ発見
機能予測構造予測
相互作用・ネットワーク推定
統計学 生物物理学基盤技術文字列アルゴリズムグラフ理論クラスタリング機械学習情報可視化
数理科学者と生命科学者の協働
数理科学者(特に計算機科学者)は、新規手法(アルゴリズム)の開発に興味を持つ。
既存の技術で、生命科学に十分に応用できる技術が眠っている可能性
既存の技術だけでは、対応できない生命科学のデータ解析問題の可能性
生命科学者に、理解しやすい手法が必要 技術的背景や仮定を明らか伝える必要性。
生命科学者との協働が必要
講義内容
1.生命情報とアルゴリズム序論
2.遺伝子の多重配列アライメント
3.進化系統解析と分子疫学
4.生命情報と機械学習
5.コンピューターでインフルエンザウイルスの変異を予測する
本講義では、文字列アルゴリズム、クラスタリング、情報理論や機械学習などの項目に焦点をあてて、生命情報を扱うアルゴリズムについて解説する。
3
遺伝子配列のアライメント
さきがけ数学塾 「数学を使う - 生命現象への挑戦-」
北海道大学人獣共通感染症リサーチセンター
バイオインフォマティクス部門
伊藤公人
目標
塩基配列やアミノ酸配列をアライメントするアルゴリズムについて学ぶ。
ペアワイズアライメント
二つの文字列について、文字間の対応関係を計算する。
Needleman-Wunsch Algorithm (動的計画法)。
多重配列アライメント
三つ以上の文字列について、対応関係を計算する。
多次元動的計画法。
ツリーベース法。
アルゴリズム
アルゴリズム=ある問題を解くための手順。 問題は、「入力」と「出力」で定義される。
アルゴリズムは、ある「入力」をその「出力」に変換する手順。
塩基配列とアミノ酸配列
塩基配列とは、 {A, C, G, T}上の文字列である(DNAの場合)。
例:ACGTCCTATCCATCA {A, C, G, U}上の文字列である(RNAの場合)。
例:ACGUCCUAUCCAUCA
アミノ酸配列とは、 {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S,
T, V, W, Y}上の文字列である。 例:MKTEDVLMNPRSYGE
塩基配列とアミノ酸配列の関係
翻訳
転写
メッセンジャーRNA
遺伝子暗号(コドン表)
タンパク質
メッセンジャーRNA
アミノ酸
DNA
塩基配列とアミノ酸配列の関係
AUGAAGACCAUCAUUGCUUUGAGCUACAUUUUCUGUCUGGCUCUCGGCCAAGACCUUCCAGGAAAUGACAACAGCACAGCAACGCUGUGCCUGGGACAUCAUGCGGUGCCAAACGGAACACUAGUGAAAACAAUCACAGAUGAUCAGAUUGAAGUGACUAAUGCUACUGAGCUAGUUCAGAGCUCCUCAACGGGGAAAAUAUGCAACAAUCCUCAUCGAAUCCUUGAUGGAAUAGACUGCACACUGAUAGAUGCUCUAUUGGGGGACCCUCAUUGUGAUGUUUUUCAAAAUGAGACAUGGGACCUUUUCGUUGAACGCAGCAAAGCUUUCAGCAACUGUUACCCUUAUGAUGUGCCAGAUUAUGCCUCCCUUAGGUCACUAGUUGCCUCGUCAGGCACUCUGGAGUUUAUCACUGAGGGUUUCACUUGGACUGGGGUCACUCAGAAUGGGGGAAGCAAUGCUUGCAAAAGGGGACCUGGUAGCGGUUUUUUCAGUAGACUGAACUGGUUGACCAAAUCAGGAAGCACAUAUCCAGUGCUGAACGUGACUAUGCCAAACAAUGACAAUUUUGACAAACUAUACAUUUGGGGGAUUCACCACCCGAGCACGAACCAAGAACAAACCAGCCUGUAUGUUCAAGCAUCAGGGAGAGUCACAGUCUCUACCAGGAGAAGCCAGCAAACUAUAAUCCCGAAUAUCGGGUCCAGACCCUGGGUAAGGGGUCUGUCUAGUAGAAUAAGCAUCUAUUGGACAAUAGUUAAGCCGGGAGACGUACUGGUAAUUAAUAGUAAUGGGAACCUAAUCGCUCCUCGGGGUUAUUUCAAAAUGCGCACUGGGAAAAGCUCAAUAAUGAGGUCAGAUGCACCUAUUGAUACCUGUAUUUCUGAAUGCAUCACUCCAAAUGGAAGCAUUCCCAAUGACAAGCCCUUUCAAAACGUAAACAAGAUCACAUAUGGAGCAUGCCCCAAGUAUGUUAAGCAAAACACCCUGAAGUUGGCAACAGGGAUGCGGAAUGUACCAGAGAAACAAACUAGAGGCCUAUUCGGCGCAAUAGCAGGUUUCAUAGAAAAUGGUUGGGAGGGAAUGAUAGACGGUUGGUACGGUUUCAGGCAUCAAAAUUCUGAGGGCACAGGACAAGCAGCAGAUCUUAAAAGCACUCAAGCAGCCAUCGACCAAAUCAAUGGGAAAUUGAACAGGGUAAUCGAGAAGACGAACGAGAAAUUCCAUCAAAUCGAAAAGGAAUUCUCAGAAGUAGAAGGGAGAAUUCAGGACCUCGAGAAAUACGUUGAAGACACUAAAAUAGAUCUCUGGUCUUACAAUGCGGAGCUUCUUGUCGCUCUGGAGAAUCAACAUACAAUUGACCUGACUGACUCGGAAAUGAACAAGCUGUUUGAAAAAACAAGGAGGCAACUGAGGGAAAAUGCUGAAGAGAUGGGCAAUGGUUGCUUCAAAAUAUACCACAAAUGUGACAACGCUUGCAUAGAGUCAAUCAGAAAUGGUACUUAUGACCAUGAUGUAUACAGAGACGAAGCAUUAAACAACCGGUUUCAGAUCAAAGGUGUUGAACUGAAGUCUGGAUACAAAGACUGGAUCCUGUGGAUUUCCUUUGCCAUAUCAUGCUUUUUGCUUUGUGUUGUUUUGCUGGGGUUCAUCAUGUGGGCCUGCCAGAGAGGCAACAUUAGGUGCAACAUUUGCAUUUGAGUGUAUU
MKTIIALSYIFCLALGQDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQTRGLFGAIAGFIENGWEGMIDGWYGFRHQNSEGTGQAADLKSTQAAIDQINGKLNRVIEKTNEKFHQIEKEFSEVEGRIQDLEKYVEDTKIDLWSYNAELLVALENQHTIDLTDSEMNKLFEKTRRQLRENAEEMGNGCFKIYHKCDNACIESIRNGTYDHDVYRDEALNNRFQIKGVELKSGYKDWILWISFAISCFLLCVVLLGFIMWACQRGNIRCNICI
塩基配列(メッセンジャーRNA)
作られるタンパク質のアミノ酸配列
C CN
H
H
H O
M
C CN
H
H O
K
C CN
H
H O
T
C CN
H
H O
OH
P
遺伝
子暗
号(コ
ドン
表)
翻訳
AUGAAGACCAUCAUUGCUUUGAGCU…
M K T I I A L S…
4
遺伝子の比較
遺伝子を比較するためには、なにが必要か?
塩基配列(A,C,G,Tの文字列)の集合A/duck/Yokohama/aq10/03A/dk/ST/4003/2003(H5N1)A/chicken/Kyoto/3/04A/crow/Kyoto/53/04A/crow/Osaka/102/04A/chicken/Yamaguchi/7/04A/chicken/Oita/8/04A/whooper-swan/Mongolia/4/05A/chicken/Afghanistan/1207/06A/duck/Tuva/01/06A/cygnus-cygnus/Iran/754/06A/Bar-headedGoose/Qinghai/12/05
文字列の対応関係(アライメント)A/duck/Yokohama/aq10/03A/dk/ST/4003/2003(H5N1)A/chicken/Kyoto/3/04A/crow/Kyoto/53/04A/crow/Osaka/102/04A/chicken/Yamaguchi/7/04A/chicken/Oita/8/04A/whooper-swan/Mongolia/4/05A/chicken/Afghanistan/1207/06A/duck/Tuva/01/06A/cygnus-cygnus/Iran/754/06A/Bar-headedGoose/Qinghai/12/05
遺伝子同士の類似度(文字列が違っている割合)が判る!
配列のアライメント
複数の配列が入力されたときに、文字間の対応関係を計算すること
ペアワイズアライメント 二つの文字列を比較する。
Needleman-Wunsch Algorithm (動的計画法)
多重配列アライメント 三つ以上の文字列を比較する。
多次元動的計画法
ツリーベース法
ペアワイズアライメントのアルゴリズム
1:CAGGAAATGACAGCACAG
2:CCGGAAATGGCACGG
1:CAGGAAATGACAGCACAG| ||||||| ||
2:CCGGAAATGGCACGG---
配列のアライメント
二本の文字列が与えられたとき、最も置換数が少なくなるような文字間の対応関係を計算する。
次の2つの配列を考える
たくさんのアライメントが存在。
1:CAGGAAATGACAGCACAG| ||||||| |||| |
2:CCGGAAATG---GCACGG
1:CAGGAAATGACAGCACAG| ||||||| || | |
2:CCGGAAATGGCA---CGG
一致:10個
一致:12個 一致:13個
アライメントのスコアリング
簡単なスコアリングの例: 一致:+1点 不一致→-1点 ギャップ(挿入欠損):-2点
1:CAGGAAATGACAGCACAG| ||||||| ||
2:CCGGAAATGGCACGG---
一致:10個不一致:5個ギャップ:3個
一致:12個不一致:3個ギャップ:3個
一致:13個不一致:2個ギャップ:3個
10-5-6=-1点
12-3-6=3点
13-2-6=5点1:CAGGAAATGACAGCACAG
| ||||||| |||| |2:CCGGAAATG---GCACGG
1:CAGGAAATGACAGCACAG| ||||||| || | |
2:CCGGAAATGGCA---CGG
スコア関数w(x,y)
簡単なスコアリングの例: 一致:+1点 不一致→-1点 挿入欠損:-2点
w A C G T -A +1 -1 -1 -1 -2C -1 +1 -1 -1 -2G -1 -1 +1 -1 -2T -1 -1 -1 +1 -2- -2 -2 -2 -2 0
w(A,A)=+1w(A,C)=-1w(A,-)=-2
.
.
.
ギャップペナルティー
d
5
アライメントのスコア
文字列sのi番目の要素をs[i]で表すとする。 s1,s2にギャップ’-’を挿入した文字列をs’1, s’2とする。
アライメントのスコアはw(s’1[i], s’2[i])の合計:
l
i
isiswssScore1
2121 ])['],['()','(
一致:12個不一致:3個挿入欠損:3個
12-3-6=3点1:CAGGAAATGACAGCACAG
| ||||||| || | |2:CCGGAAATGGCA---CGG
|'||'| 21 ssl ここで、
ペアワイズアライメント
ペアワイズアライメント問題
入力:二つの文字列 s1, s2、スコア関数w(x, y)
出力:最もスコアの高いアライメント(s’1, s’2)
l
i
isiswssScore1
2121 ])['],['()','(
|'||'| 21 ssl である。
ここで、アライメント(s’1, s’2)のスコアは、
最適アライメントの計算
最適アライメントの計算は、全探索でも可能であるが、可能なアライメントの数は、配列の長さの指数オーダーである。
1:CAGGAAATGACAGCACAG| ||||||| ||
2:CCGGAAATGGCACGG---
1:CAGGAAATGACAGCACAG| ||||||| |||| |
2:CCGGAAATG---GCACGG
1:CAGGAAATGACAGCACAG| ||||||| || | |
2:CCGGAAATGGCA---CGG
1:CAGGAAATGACAGCACAG| ||||||| ||
2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG
| ||||||| || 2:CCGGAAATGGCACGG---
1:CAGGAAATGACAGCACAG| ||||||| ||
2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG
| ||||||| || 2:CCGGAAATGGCACGG---
1:CAGGAAATGACAGCACAG| ||||||| ||
2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG
| ||||||| || 2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG
| ||||||| || 2:CCGGAAATGGCACGG---
1:CAGGAAATGACAGCACAG| ||||||| ||
2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG
| ||||||| || 2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG
| ||||||| || 2:CCGGAAATGGCACGG---
1:CAGGAAATGACAGCACAG| ||||||| ||
2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG
| ||||||| || 2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG
| ||||||| || 2:CCGGAAATGGCACGG---
1:CAGGAAATGACAGCACAG| ||||||| ||
2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG
| ||||||| || 2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG
| ||||||| || 2:CCGGAAATGGCACGG---
動的計画法(Dynamic Programming )
Bellman(1953) 最適部分構造を利用して、最適化問題を解
く方法
最適部分構造
「全体の問題に対する最適解は,その中に部分問題に対する最適解を含んでいる」
「最適部分構造」を持つ問題は、動的計画法で効率よく解くことができる。
ペアワイズアライメントにおける
スコア関数の性質
1:ACGTT2:ATCGT
1:ACGT2:ATCG
1:ACGTT2:ATCG
1:ACGT2:ATCGT
w(T,T)=+1
w(-,T)=-2
w(T,-)=-2
A-CGTTATCG-T
Score=0
A-CGTTATCGT-
Score=0A-CGTT-ATCG--TScore=-5
A-CGTTATCG-T部分問題3
部分問題1部分問題2
A-CGTATCG-
Score=-1
A-CGTTATCG--Score=-3
A-CGTATCGT
Score=+2
問題
ペアワイズアライメントにおける
スコア関数の性質(再帰式)
])[],[(]1,1[
]1,[
],1[
max],[
)0( ],0[
)0( ]0,[
21 jsiswjiScore
djiScore
djiScore
jiScore
njdjjScore
midiiScore
入力文字列をs1, s2とし、その長さをm, nとする。
s1[1…i]とs2[1…j]に対する最適アライメントのスコアを
Score[i, j]とする。すると、 Score[i, j]は、次の再帰式により計算できる。
6
再帰式の説明
],1[ jiScore
]1,[ jiScoredjsw ])[,( 2 ],[ jiScore
]1,1[ jiScore
disw )],[( 1)][],[( 21 jsisw
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C C G G C A C G G
0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24
-2
-4
-6
-8
-10
-12
-14
-16
-18
C A G A C A G C A C A G
1:CAGACAGCACAG2:CCGGCACGG 行列をつくる
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C C G G C A C G G
0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24
-2
-4
-6
-8
-10
-12
-14
-16
-18
C A G A C A G C A C A G
s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
0 -2
-2
C
C
-2 -4-4
-2+1
+1
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C C G G C A C G G
0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24
-2 +1
-4
-6
-8
-10
-12
-14
-16
-18
C A G A C A G C A C A G
s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C C G G C A C G G
0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24
-2 +1
-4
-6
-8
-10
-12
-14
-16
-18
C A G A C A G C A C A G
s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
-2 -4
+1
C
A
-2 -1-6
-2-3
-1
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C C G G C A C G G
0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24
-2 +1 -1
-4
-6
-8
-10
-12
-14
-16
-18
C A G A C A G C A C A G
s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
7
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C C G G C A C G G
0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24
-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21
-4
-6
-8
-10
-12
-14
-16
-18
C A G A C A G C A C A G
s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C C G G C A C G G
0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24
-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21
-4 -1 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20
-6
-8
-10
-12
-14
-16
-18
C A G A C A G C A C A G
s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C C G G C A C G G
0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24
-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21
-4 -1 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20
-6 -3 -2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17
-8 -5 -4 -1 0 -2 -4 -4 -6 -8 -10 -12 -14
-10 -7 -6 -3 -2 +1 -1 -3 -3 -5 -7 -9 -11
-12 -9 -6 -5 -2 -1 +2 0 -2 -2 -4 -6 -8
-14 -11 -8 -7 -4 -1 0 +1 +1 -1 -1 -3 -5
-16 -13 -10 -7 -6 -3 -2 +1 0 0 -2 -2 -2
-18 -15 -12 -9 -8 -5 -4 -1 0 -1 -1 -3 -1
C A G A C A G C A C A G
s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C C G G C A C G G
0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24
-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21
-4 -1 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20
-6 -3 -2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17
-8 -5 -4 -1 0 -2 -4 -4 -6 -8 -10 -12 -14
-10 -7 -6 -3 -2 +1 -1 -3 -3 -5 -7 -9 -11
-12 -9 -6 -5 -2 -1 +2 0 -2 -2 -4 -6 -8
-14 -11 -8 -7 -4 -1 0 +1 +1 -1 -1 -3 -5
-16 -13 -10 -7 -6 -3 -2 +1 0 0 -2 -2 -2
-18 -15 -12 -9 -8 -5 -4 -1 0 -1 -1 -3 -1
C A G A C A G C A C A G
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C CG G C A C GG
0
+1
0
+1 -1 -3 -5
-4
-3
-2
-1
-2
-1
C A G A C A G C A C A G
1:CAGACAGCACAG| | |||| |
2:CCG---GCACGG
一致:7個不一致:2個挿入欠損:3個
7-2-6=-1点
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C C G G C A C G G
0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24
-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21
-4 -1 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20
-6 -3 -2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17
-8 -5 -4 -1 0 -2 -4 -4 -6 -8 -10 -12 -14
-10 -7 -6 -3 -2 +1 -1 -3 -3 -5 -7 -9 -11
-12 -9 -6 -5 -2 -1 +2 0 -2 -2 -4 -6 -8
-14 -11 -8 -7 -4 -1 0 +1 +1 -1 -1 -3 -5
-16 -13 -10 -7 -6 -3 -2 +1 0 0 -2 -2 -2
-18 -15 -12 -9 -8 -5 -4 -1 0 -1 -1 -3 -1
C A G A C A G C A C A G
1:CAGA| |
2:CCG-
一致:2個不一致:1個挿入欠損:1個
2-1-1=-1点
8
最もスコアの高いアライメントを求めるアルゴリズム
Needleman-Wunsch Algorithm
C C G G C A C G G
0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24
-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21
-4 -1 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20
-6 -3 -2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17
-8 -5 -4 -1 0 -2 -4 -4 -6 -8 -10 -12 -14
-10 -7 -6 -3 -2 +1 -1 -3 -3 -5 -7 -9 -11
-12 -9 -6 -5 -2 -1 +2 0 -2 -2 -4 -6 -8
-14 -11 -8 -7 -4 -1 0 +1 +1 -1 -1 -3 -5
-16 -13 -10 -7 -6 -3 -2 +1 0 0 -2 -2 -2
-18 -15 -12 -9 -8 -5 -4 -1 0 -1 -1 -3 -1
C A G A C A G C A C A G
1:CAGA| |
2:CCGG
一致:2個不一致:2個挿入欠損:0個
2-2=0点
Needleman-Wunsch Algorithm
],[
])[],[(]1,1[
]1,[
],1[
max],[
1
1
],0[ 0
]0,[ 0
)],1[,]1[(gnmentPaiwizeAli Procedure
21
21
jiScore
jsiswjiScore
djiScore
djiScore
jiScore
nj
mi
djjScorenj
diiScoremi
wnsms
return
dotofor
dotofor
dotofor
dotofor
練習問題
二つの配列をs1=GCGTCGT、s2=CGATCCTCとする。s1のs2の最適アライメントを求めよ。ただし、スコアリング関数は、一致:+1点、不一致→-1点、挿入欠損:-2点 とする。
C G A T C C T C
0
G C G T C G T
メモリ消費量
長さが200Kb の二つの文字列の最適アライメントをNeedleman-Wunschアルゴリズムで求めることを考える。このとき、メモリは何バイト以上必要か?
メモリ消費量を抑えることは、可能か?
アライメントに関する補足(1)
1:CAGGAAATGACACCACAG| ||||||| ||| |
2:CCGGAAATG---GCACGG
1:CAGGAAATGACACCACAG| ||||||| || | |
2:CCGGAAATGGCA---CGG
同一スコアを持つアライメントが複数存在
一致: (+1)×12個不一致: (-1)×3個ギャップ: (-2)×3個
一致: (+1)×12個不一致: (-1)×3個ギャップ: (-2)×3個
+3点 +3点
一般的なソフトウェアでは、一つのアライメントのみ出力される。(同一スコアを持つアライメントは出力されない)
一致:+1点 不一致→-1点 ギャップ:-2点
アライメントに関する補足(2)
様々なスコアリング関数が考えられる。
不一致:トランジションとトランジションを区別
トランジション(A~G、C~T) -0.5点
トランスバージョン (上記以外) -1点
w A C G T -
A +1 -1 -1 -1 -2
C -1 +1 -1 -1 -2
G -1 -1 +1 -1 -2
T -1 -1 -1 +1 -2
- -2 -2 -2 -2
w A C G T -
A +1 -1 -0.5 -1 -2
C -1 +1 -1 -0.5 -2
G -0.5 -1 +1 -1 -2
T -1 -0.5 -1 +1 -2
- -2 -2 -2 -2
9
アミノ酸配列のアライメント
一致、不一致のスコアとしてPAM250, BLOSUM62等実測値に基づいた置換行列が用いられる
Ala (A) 2Arg (R) -2 6Asn (N) 0 0 2Asp (D) 0 -1 2 4Cys (C) -2 -4 -4 -5 12Gln (Q) 0 1 1 2 -5 4Glu (E) 0 -1 1 3 -5 2 4Gly (G) 1 -3 0 1 -3 -1 0 5His (H) -1 2 2 1 -3 3 1 -2 6
Ile (I) -1 -2 -2 -2 -2 -2 -2 -3 -2 5Leu (L) -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6Lys (K) -1 3 1 0 -5 1 0 -2 0 -2 -3 5Met (M) -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6Phe (F) -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9Pro (P) 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6Ser (S) 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2Thr (T) 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3Trp (W) -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17Tyr (Y) -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10Val (V) 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4
A R N D C Q E G H I L K M F P S T W Y V
Ala (A) 4Arg (R) -1 5Asn (N) -2 0 6Asp (D) -2 -2 1 6Cys (C) 0 -3 -3 -3 9Gln (Q) -1 1 0 0 -3 5Glu (E) -1 0 0 2 -4 2 5Gly (G) 0 -2 -2 -1 -3 -2 -2 6His (H) -2 0 1 1 -3 0 0 -2 8
Ile (I) -1 -3 -3 -3 -1 -3 -3 -4 -3 4Leu (L) -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4Lys (K) -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5Met (M) -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5Phe (F) -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6Pro (P) -1 -2 -1 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7Ser (S) 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4Thr (T) -1 -1 0 1 -1 0 0 1 0 -2 -2 0 -1 -2 1 1 4Trp (W) -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -3 11Tyr (Y) -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7Val (V) 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 -2 -3 -1 4
A R N D C Q E G H I L K M F P S T W Y V
DayhoffのPAM250行列
Henikoff&HenikoffBLOSUM62行列
アライメントに関する補足(3)
ギャップに対するスコアリング関数
線形ギャップスコア
キャップ一文字に対して常に同じペナルティー
アフィンギャップスコア:ギャップ開始とギャップ伸長を区別
ギャップ開始 -10点
ギャップ伸長 -1点
1:ACAGGGAAT|| ||||
2:AC---GAAT
1:ACAGGGAAT|| | | ||
2:AC-G-G-AT
ギャップ開始:(-10点)×3ギャップ開始:(-10点)×1
ギャップ伸長:(-1点)×2
<
アライメントに関する補足(4)
グローバル(大域)アライメント
配列の全体の対応(類似性)を計算する。
Needleman-Wunschアルゴリズム
ローカル(局所)アライメント
配列の一部の対応(類似性)を計算する。
Smith-Watermanアルゴリズム
マルチプルアライメントのアルゴリズム
マルチプルアライメント
N個の配列のアライメントを計算する
原理的には、動的計画法のN次元拡張で可能である。
現在のコンピュータでは厳密な計算は困難。
近似アルゴリズムが用いられる セグメント法、単純組み合わせ法、ツリーベース法、反復改
善法、シミュレーテットアニーリング法
1:CAGGAAATGACAGCACAG2:CCGGAAATGGCA---CGG3:CAG---ATGACAGTACAG4:CCGGAAATGACAGCACGG
マルチプルアライメント
マルチプルアライメント問題
入力:N個の文字列s1,..., sN, スコア関数w(x1,..., xN)
出力:最もスコアの高いアライメント(s’1,..., s’N)
l
iNN isiswssScore
111 ])[',],['()',,'(
10
スコア関数
SPスコア(the Sum of all Pairs score) ペアワイズアライメントにおけるw(x,y)を同じ列に
並ぶすべての文字のペアに適用した和。
lk
lkN isiswisisw ])['],['(])[',],['( 1
多次元動的計画法
動的計画法のN次元への拡張
),],[(],,1[
)],[,(],1,[
])[,,(]1,,[
)],[],[(],1,1[
])[,],[(]1,,1[
])[],[,(]1,1,[
])[],[],[(]1,1,1[
max],,[
1
2
3
21
31
32
321
iswkjiScore
jswkjiScore
jswkjiScore
jsiswkjiScore
jsiswkjiScore
jsjswkjiScore
jsjsiswkjiScore
kjiScore
N=3の場合:
N次元の場合、各要素の値の計算には、2N-1個のギャップパターンについての最大値を計算
ツリーベース法
N 本の配列のすべてのペアについてアライメントを行い距離行列を作成
最もスコアの高い配列ペアを一つにまとめる作業を繰り返し、2分木を作成する。
2分木に基づき、アライメントを順次行う。
1:CAGGAAATGACAGCACAG
2:CCGGAAATGGCACGG3:CAGATGACAGTACAG
4:CCGGAAATGACAGCACGGアライメント
アライメント
アライメント
ガイドツリーの作成
入力配列のスコア行列を作成
1:GAATTC2:GATTA3:GAATC
1 2 3
1 0
2 +1 0
3 +3 +1 0
全ての配列ペアに関してペアワイズアライメント
1:GAATTC
3:GAATC
2:GATTA
アライメント
アライメント
ガイド木を作成
ガイド木にしたがって順次アライメント
1:GAATTC2:GA-TTA
2:GATTA3:GAATC
1:GAATTC3:GAA-TC
+1
+1
+3
配列と配列セットのアライメント
0
G A A T T CG A A - T C
G A
T
T A
配列セット間のアライメント
0 -3
G A A T T CG A A - T C
G A
T
T A
GG-
SP=-3
11
配列セット間のアライメント
0 -3 -6 -9 -13 -16 -19
-4
-8
-12
-16
-20
G A A T T CG A A - T C
G A
T
T A
配列セット間のアライメント
0 -3 -6 -9 -13 -16 -19
-4 +3
-8
-12
-16
-20
G A A T T CG A A - T C
G A
T
T A
GGG
配列セット間のアライメント
0 -3 -6 -9 -13 -16 -19
-4 +3 0
-8
-12
-16
-20
G A A T T CG A A - T C
G A
T
T A
AA-
SP=-3
配列セット間のアライメント
0 -3 -6 -9 -13 -16 -19
-4 +3 0 -3 -7 -10 -13
-8
-12
-16
-20
G A A T T CG A A - T C
G A
T
T A
配列セット間のアライメント
0 -3 -6 -9 -13 -16 -19
-4 +3 0 -3 -7 -10 -13
-8 -1
-12
-16
-20
G A A T T CG A A - T C
G A
T
T A
--A
SP=-4
配列セット間のアライメント
0 -3 -6 -9 -13 -16 -19
-4 +3 0 -3 -7 -10 -13
-8 -1 +6 +3 -1 -4 -7
-12 -5 +2 +5 +1 +2 -1
-16 -9 -2 +1 +2 +4 +1
-20 -13 -6 +1 -2 0 +3
G A A T T CG A A - T C
G A
T
T A
12
配列セット間のアライメント
0 -3 -6 -9 -13 -16 -19
-4 +3 0 -3 -7 -10 -13
-8 -1 +6 +3 -1 -4 -7
-12 -5 +2 +5 +1 +2 -1
-16 -9 -2 +1 +2 +4 +1
-20 -13 -6 +1 -2 0 +3
G A A T T CG A A - T C
G A
T
T A
配列セット間のアライメント
1:GAATTC3:GAA-TC2:GAT-TA
0
+3
+6
+5 +1
+4
+3
G A A T T CG A A - T C
G A
T
T A
配列セット間のペアワイズアライメント
],[
]})[,],[{},,({]1,1[
}),,{]}[,,][({]1,[
]})[,],[{]}[,,][({],1[
max],[
1
1
0]0,0[
||||||
||||||
}),,,{},,,,({etgnmentForSPaiwizeAli Procedure
1
1
11
21
21
2121
jiScore
jtjtSPjiScore
isisSPjiScore
jtjtisisSPjiScore
jiScore
nj
mi
Score
tttn
sssm
tttsss
l
k
lk
l
k
lk
return
dotofor
dotofor
とする
とする
ツリーベース法
利点:
比較的高速である。
(多くのプログラムで採用されている)。
欠点:
一度行ったアライメントは固定されてしまう。
1:CAGGAAATGACAGCACAG
2:CCGGAAATGGCACGG3:CAGATGACAGTACAG
4:CCGGAAATGACAGCACGGアライメント
アライメント
アライメント
その他の近似アルゴリズム
セグメント法
1:CAGGAAATGACAGCACAG2:CCGGAAATGGCACGG3:CAGATGACAGTACAG4:CCGGAAATGACAGCACGG
すべての配列でよく保存されている領域をつないでゆく
単純組み合わせ法
1:CAG---GAAATGACAGCACAG2:CCG---GAAATGGCA---CGG3:CAG---ATGACAGTA---CAG4:CCGGAAATGACAGCA---CGG
配列の順番によっては、ギャップが大きくなる可能性あり
1:CAGGAAATGACAGCACAG2:CCGGAAATGGCA---CGG
2:CCGGAAATGGCACGG 3:CAGATGACAGTACAG
3:CAG---ATGACAGTACAG4:CCGGAAATGACAGCACGG
反復改善法
1:CAGGAAATGACAGCACAG3:CAGATGACAGTACAG
2:CCGGAAATGGCACGG4:CCGGAAATGACAGCACGG
配列をランダムに2つのグループに分け、グループ間アライメントを行う。この操作を繰り返す
グループ間アライメント
1:CAGGAAATGACAGCACAG4:CCGGAAATGACAGCACGG3:CAGATGACAGTACAG
2:CCGGAAATGGCACGG
グループ間アライメント
遺伝子配列のアライメントを行う
代表的フリーソフトウェア
13
推奨する読み物
An Introduction to Bioinformatics AlgorithmsISBN:9780262101066 Jones, Neil C. /Pevzner, Pavel Bradford Books外貨定価:US$ 60.00
バイオインフォマティクスのためのアルゴリズム入門ISBN:4320056507共立出版Jones, Neil C. /Pevzner, Pavel渋谷 哲朗、坂内 英夫【訳】¥5,040(税込) (本体価:¥4,800)
バイオインフォマティクスの数理とアルゴリズムISBN: 4320121783共立出版阿久津 達也¥3,150(税込) (本体価:¥3,000)
14
北海道大学人獣共通感染症リサーチセンター
バイオインフォマティクス部門
伊藤公人
進化系統解析と分子疫学
さきがけ数学塾 「数学を使う - 生命現象への挑戦-」
進化系統樹
遺伝子間の近縁関係を表す図
進化系統樹の枝
似ている遺伝子配列同士は、短い枝で接続(枝を辿る時の長さの合計が小さい)
似ていない遺伝子配列同士は、長い枝で接続(枝を辿る時の長さの合計が大きい)
進化系統解析
遺伝子配列の集合から、全ての遺伝子の組について、遺伝子同士の類似性を正確に表現された「枝の接続関係」と「長さ」を推定する。
進化系統樹の作成
進化系統樹を作るためには、なにが必要か?
特定の遺伝子の配列(A,C,G,Tの文字列)A/duck/Yokohama/aq10/03A/dk/ST/4003/2003(H5N1)A/chicken/Kyoto/3/04A/crow/Kyoto/53/04A/crow/Osaka/102/04A/chicken/Yamaguchi/7/04A/chicken/Oita/8/04A/whooper-swan/Mongolia/4/05A/chicken/Afghanistan/1207/06A/duck/Tuva/01/06A/cygnus-cygnus/Iran/754/06A/Bar-headedGoose/Qinghai/12/05
文字列の対応関係(アライメント)A/duck/Yokohama/aq10/03A/dk/ST/4003/2003(H5N1)A/chicken/Kyoto/3/04A/crow/Kyoto/53/04A/crow/Osaka/102/04A/chicken/Yamaguchi/7/04A/chicken/Oita/8/04A/whooper-swan/Mongolia/4/05A/chicken/Afghanistan/1207/06A/duck/Tuva/01/06A/cygnus-cygnus/Iran/754/06A/Bar-headedGoose/Qinghai/12/05
遺伝子同士の類似度(文字列が違っている割合)が判る!
進化系統樹の作成法
進化系統樹の作成
遺伝子配列の集合から、全ての遺伝子の組について、遺伝子同士の類似性を正確に表現された「枝の接続関係」と「長さ」を推定する。
Ai68
Vi75
Me88
NY05
Ai68:GGC CAA GAC
Vi75:GCC CAA GAA
Me88:GCC CAA AAA
NY05:GCT CAA AAA
トポロジー 1HK71:GCC CAA GAC
HK71
Ai68
HK71
Me88
NY05
トポロジー2
Vi75
Me88
NY05
Ai68
Vi75
トポロジー3
HK71
?
枝の接続関係 トポロジーという
15
有根系統樹と無根系統樹
有根系統樹
無根系統樹
有根系統樹
根が一つ存在する。
根は最も古い祖先を表す。
進化の向きが解る。
無根系統樹
根を持たない。
遺伝子同士の近縁関係のみ解る
進化の向きは解らない。
root
root
無根系統樹のトポロジー
4つの遺伝子配列が与えられたとき、3つのトポロジーが考えられる。
どのトポロジーが最も、遺伝子の類似性を正確に表しているか?
A: GGCCAAGACB: GACCAAGAAC: GCCCAAGACD: GACCAAAAA
遺伝子配列
A B C DA: 0B: 2 0C: 1 2 0D: 3 1 3 0
遺伝子の違い
有根系統樹のトポロジー
どのトポロジーが最も、遺伝子の類似性を正確に表しているか?
3つの遺伝子配列が与えられたとき、3つのトポロジーが考えられる。
4つの遺伝子配列が与えられたとき、15種類のトポロジーが考えられる。
Number of Possible Topologies
進化系統樹の代表的作成法
四つの代表的手法 UPGMA法(古典的手法)
計算機科学でいうところのAverage-Linkage法 近隣結合法 (早い、比較的正確)
遺伝子配列の近いもの同士の結合を繰り返して、トポロジーを推定
最節約法 (詳細,遅い) 遺伝子変異の数が最小になるようなトポロジーを探索
最尤法 (より詳細,より遅い) ある塩基から別の塩基に変わる確率を利用し、確率的に尤もらしいトポロジーを推定
進化系統解析
進化系統樹のトポロジーを遺伝子配列から推測する
Ai68
Vi75
Me88
NY05
Aichi68:GGC CAA GAC
Victoria75:GCC CAA GAA
Memphis88:GCC CAA AAA
NewYork05:GCT CAA AAA
トポロジー①
HongKong71:GCC CAA GAC
HK71
Ai68
HK71
Me88
NY05
トポロジー②
Vi75
Me88
NY05
Ai68
Vi75
トポロジー③
HK71
?
16
距離行列を用いる方法
距離行列:置換数の総和の行列
A H V M N
Ai68 0HK71 1 0Vi75 2 1 0Me88 3 2 1 0NY05 5 4 3 2 0
Aichi68:GGC CAA GAC
Victoria75:GCC CAA GAA
Memphis88:GCC CAA AAA
NewYork05:GCT CAG AAA
HongKong71:GCC CAA GAC
*一般には多重置換を考慮し、補正を行う
距離行列の補正
塩基配列を扱う場合、多重置換を考慮し、進化的距離の補正が行われる。
進化的距離の補正 塩基配列における1座位あたりの置換数を推定
Jukes Cantor法 Kimuraの2パラメータ法
A H V M N
Ai68 0
HK71 0.12 0
Vi75 0.26 0.12 0
Me88 0.44 0.26 0.12 0
NY05 1.01 0.67 0.44 0.26 0
A H V M N
Ai68 0
HK71 1 0
Vi75 2 1 0
Me88 3 2 1 0
NY05 5 4 3 2 0
Jukes Cantor法による補正後の行列距離行列
UPGMA法
平均距離法(UPGMA)
距離行列から有根系統樹を作成する単純なアルゴリズム
UPGMA法のアルゴリズム 距離行列において、近い配列をグループ化する
距離行列を含まれるグループに含まれる配列間の距離の平均とする
グループが残り一つになるまで繰り返す
Unweighted Pair-Group Method with Arithmetic Means [Sokal et. 1958]
距離行列
A H V M N
Ai68 0
HK71 1 0
Vi75 2 1 0
Me88 3 2 1 0
NY05 5 4 3 2 0Ai68 HK71
0.5 0.5
Ai68とHK71をグループ化
AH V M N
A-H 0
Vi75 0
Me88 1 0
NY05 3 2 0
Ai68とHK71をグループ化したときの距離行列
1.5
2.5
4.5
平均距離法(UPGMA) UPGMA法のアルゴリズム
距離行列において、近い配列をグループ化する
距離行列を含まれるグループに含まれる配列間の距離の平均とする
グループが残り一つになるまで繰り返す 距離行列
Ai68 HK710.5 0.5
AH V M N
A-H 0
Vi75 1.5 0
Me88 2.5 1 0
NY05 4.5 3 2 0
Ai68とHK71をグループ化したときの距離行列
AH VM N
A-H 0
V-M 0
NY05 4.5 02.52
Vi75 Me880.5 0.5
(Ai68, HK71)(Vi75, Me88)の距離行列
Vi75とMe88をグループ化
4
2
1
0
H
1HK71
NMVA
0235NY05
013Me88
02Vi75
0Ai68
4
2
1
0
H
1HK71
NMVA
0235NY05
013Me88
02Vi75
0Ai68
平均距離法(UPGMA) UPGMA法のアルゴリズム
距離行列において、近い配列をグループ化する
距離行列を含まれるグループに含まれる配列間の距離の平均とする
グループが残り一つになるまで繰り返す 距離行列
Ai68 HK710.5 0.5
(Ai68, HK71)(Vi75, Me88)の距離行列
AH VM N
A-H 0
V-M 2 0
NY05 4.5 2.5 0
Vi75 Me880.5 0.5
AHVMをグループ化した時の距離行列
A-HとV-Mをグループ化
0.5 0.5
AHVM N
AHVM 0
NY05 03.5
4
2
1
0
H
1HK71
NMVA
0235NY05
013Me88
02Vi75
0Ai68
4
2
1
0
H
1HK71
NMVA
0235NY05
013Me88
02Vi75
0Ai68
17
平均距離法(UPGMA) UPGMA法のアルゴリズム
距離行列において、近い配列をグループ化する
距離行列を含まれるグループに含まれる配列間の距離の平均とする
グループが残り一つになるまで繰り返す 距離行列
Ai68 HK710.5 0.5
AHVMをグルー
プ化した時の距離行列
Vi75 Me880.5 0.5
AHVMとNY05をグループ化
0.5 0.5
AHVM N
AHVM 0
NY05 3.5 0
NY05
1.750.75 進化系統樹の完成
4
2
1
0
H
1HK71
NMVA
0235NY05
013Me88
02Vi75
0Ai68
4
2
1
0
H
1HK71
NMVA
0235NY05
013Me88
02Vi75
0Ai68
アルゴリズム
1
}{}{}{
2/],[,
),(],[
||||
1],[
1|| 1
1||
1 },,,1{
}{ 0
),,,( UPGMAProcedure 21
return
dotofordotofor
dowhile
dotofor
kk
jikLL
jiDkji
CCCjijiD
dCC
jiD
LijLi
L
nknL
sCni
sss
jik
CsCsij
ji
ii
n
jjii
に配置するを作り、高さを子にもつ節点節点
とするを求め、が最小の組
平均距離法(UPGMA)法の注意点
進化速度が一定でない、つまり、共通の祖先からの置換数が均一でない場合、正しい系統樹を作ることが出来ない
分離した年代の異なるウイルスの系統樹作成には不向き
距離行列 UPGMA法によって得られた進化系統樹
42
1
0
H
1HK71
NMVA
0235NY05013Me88
02Vi75
0Ai68
42
1
0
H
1HK71
NMVA
0235NY05013Me88
02Vi75
0Ai68
Ai68 HK710.5 0.5
Vi75 Me880.5 0.5
0.5 0.50.5 0.5
NY05
1.750.75
近隣結合法
世界で、最も利用されている系統樹作成法 1987年に斉藤と根井が開発 系統樹の枝の長さが短くなるようなトポロジーを、高速に構築
UPGMA法との違い: 進化速度が一定でない、つまり、共通の祖先からの置換数が均一でない場合にも適用可能。
結合すべき対の選び方と新たに生成された節点と他の節点との距離の計算方法が異なる。
無根系統樹を出力(根の位置は判らない)
Neighbor Joining Method
近隣結合法
X
A
C G
EFD
HB
X
D
F
A
HG
CE
Y
BX
D
F
A
HG
C
E
Y
B
Z
X
D
F
A
HG
C
E
Y
B
Z
W X
D
F
A
HG
C
E
Y
B
Z
W
V
X
D
F
A
HG
C
E
Y
B
Z
W
VU
Neighbor Joining Method
近隣結合法
星型のトポロジーから開始し、 枝の長さの合計が最も短くなる二点のグループ化を繰り返す。
無根系統樹
18
加法的な距離行列
Dを距離行列とする。ある無根系統樹Tが存在し、Tの全ての葉の組(i, j)に関して、i, j間の経路にある枝の長さの合計がD[i, j]に一致するとき、Dは加法的であるという。
X
D
F
A
HG
C
E
Y
B
Z
W
VU
A B C D E F G H
A 0
B DAB 0
C DAC DBC 0
D DAD DBD DCD 0
E DAE DBE DCE DDE 0
F DAF DBF DCF DDF DEF 0
G DAG DBG DCG DDG DEG DFG 0
H DAH DBH DCH DDH DEH DFH DGH 0
考え方
近隣
無根系統樹において、一つのノードだけでつながった二つの葉を近隣とよぶ。
X
D
F
A
HG
C
E
Y
B
Z
W
VU
(A,B),(D,E)(G,H)は近隣
距離行列から近隣を見つける方法
ikiki
jiijij
DR
RRDNS )2(
距離行列DをN×Nの加法的な行列とする。このとき、Sijが最小となる組(i, j)は近隣である。
Riはiから他の葉までの距離の合計
X
D
F
A
HG
C
E
Y
B
Z
W
VU
枝の長さの計算
i
j
mkDij
Djm
Dim
(i, j)を近隣とする。
このとき、k-m間の距離 Dkmは?
枝の長さの計算
i
j
mkDij
Djm
Dim
jkikij
kmjkjm
kmikim
DDD
DDD
DDD 連立方程式を解くと
2ijjmim
km
DDDD
枝の長さの計算
i
j
mkDij
Djm
Dim
(i, j)を近隣とする。
このとき、i-k間の距離 Dikは?
19
枝の長さの計算
i
j
mkDij
Djm
Dim
)2(22
)2(22
n
RRDD
n
RRDD
ijijjk
jiijik
jlkljkj
ilkliki
DDnR
DDnR
)1(
)1(
連立方程式を解くと
Neighbor Joining(近隣結合)法
D Ai68 HK71 Vi75 Me88 NY05
Ai68 0 3 4 6 8
HK71 3 0 3 5 7
Vi75 4 3 0 4 6
Me88 6 5 4 0 4
NY05 8 7 6 4 0
入力距離行列D:
Neighbor Joining(近隣結合)法
D Ai68 HK71 Vi75 Me88 NY05
Ai68 0 3 4 6 8 21
HK71 3 0 3 5 7 18
Vi75 4 3 0 4 6 17
Me88 6 5 4 0 4 19
NY05 8 7 6 4 0 25
21 18 17 19 25
ik
iki DR を計算する.
Neighbor Joining(近隣結合)法
D Ai68 HK71 Vi75 Me88 NY05
Ai68 0 3 4 6 8 21
HK71 3 0 3 5 7 18
Vi75 4 3 0 4 6 17
Me88 6 5 4 0 4 19
NY05 8 7 6 4 0 25
21 18 17 19 25
を計算する.jiijij RRDNS )2(
S Ai68 HK71 Vi75 Me88 NY05
Ai68
HK71 -30
Vi75 -26 -26
Me88 -22 -22 -24
NY05 -22 -22 -24 -32
Neighbor Joining(近隣結合)法
D Ai68 HK71 Vi75 Me88 NY05
Ai68 0 3 4 6 8 21
HK71 3 0 3 5 7 18
Vi75 4 3 0 4 6 17
Me88 6 5 4 0 4 19
NY05 8 7 6 4 0 25
21 18 17 19 25
を計算する.jiijij RRDNS )2(
S Ai68 HK71 Vi75 Me88 NY05
Ai68
HK71 -30
Vi75 -26 -26
Me88 -22 -22 -24
NY05 -22 -22 -24 -32
近隣すなわち、Sijが最小となる組(i, j)を探す。
Neighbor Joining(近隣結合)法
D Ai68 HK71 Vi75 Me88 NY05
Ai68 0 3 4 6 8 21
HK71 3 0 3 5 7 18
Vi75 4 3 0 4 6 17
Me88 6 5 4 0 4 19
NY05 8 7 6 4 0 25
21 18 17 19 25
近隣を結合して枝の長さを計算する.
Ai68
HK71
Vi75 Me88
NY05Ai68
HK71
Vi75Me88
NY05
1)25(2
2519
2
4
)2(22
3)25(2
1925
2
4
)2(22
N
RRDD
N
RRDD
ijijjk
jiijik
1
3
20
Neighbor Joining(近隣結合)法
D Ai68 HK71 Vi75 Me88 NY05
Ai68 0 3 4 6 8 21
HK71 3 0 3 5 7 18
Vi75 4 3 0 4 6 17
Me88 6 5 4 0 4 19
NY05 8 7 6 4 0 25
21 18 17 19 25
新しいノードから他の枝への距離を計算する
Ai68
HK71
Vi75Me88
NY05
1
3
2ijjmim
km
DDDD
MENY
32
464
42
475
52
486
MENYVi
MENYHk
MENYAi
D
D
D
54
3
Neighbor Joining(近隣結合)法
D Ai68 HK71 Vi75 Me88 NY05
Ai68 0 3 4 6 8 21
HK71 3 0 3 5 7 18
Vi75 4 3 0 4 6 17
Me88 6 5 4 0 4 19
NY05 8 7 6 4 0 25
21 18 17 19 25
距離行列を更新する
Ai68
HK71
Vi75Me88
NY05
1
3
MENY
54
3
D Ai68 HK71 Vi75 MeNY
Ai68 0 3 4 5
HK71 3 0 3 4
Vi75 4 3 0 3
MeNY 5 4 3 0
Neighbor Joining(近隣結合)法
新しい距離行列で再スタート
D Ai68 HK71 Vi75 MeNY
Ai68 0 3 4 5
HK71 3 0 3 4
Vi75 4 3 0 3
MeNY 5 4 3 0
Neighbor Joining(近隣結合)法
ik
iki DR を計算する.
D Ai68 HK71 Vi75 MeNY
Ai68 0 3 4 5 12
HK71 3 0 3 4 10
Vi75 4 3 0 3 10
MeNY 5 4 3 0 12
12 10 10 12
Neighbor Joining(近隣結合)法
を計算する.jiijij RRDNS )2(
D Ai68 HK71 Vi75 MeNY
Ai68 0 3 4 5 12
HK71 3 0 3 4 10
Vi75 4 3 0 3 10
MeNY 5 4 3 0 12
12 10 10 12
S Ai68 HK71 Vi75 MeNY
Ai68
HK71 -16
Vi75 -14 -14
MeNY -14 -14 -16
Neighbor Joining(近隣結合)法
D Ai68 HK71 Vi75 MeNY
Ai68 0 3 4 5 12
HK71 3 0 3 4 10
Vi75 4 3 0 3 10
MeNY 5 4 3 0 12
12 10 10 12
を計算する.jiijij RRDNS )2(
S Ai68 HK71 Vi75 MeNY
Ai68
HK71 -16
Vi75 -14 -14
MeNY -14 -14 -16
近隣すなわち、Sijが最小となる組(i, j)を探す。
21
Neighbor Joining(近隣結合)法
近隣を結合して枝の長さを計算する.
1)24(2
1210
2
3
)2(22
2)24(2
1012
2
3
)2(22
N
RRDD
N
RRDD
ijijjk
jiijik
Ai68
HK71
Vi75Me88
NY05
1
3
MeNY
D Ai68 HK71 Vi75 MeNY
Ai68 0 3 4 5 12
HK71 3 0 3 4 10
Vi75 4 3 0 3 10
MeNY 5 4 3 0 12
12 10 10 12
Ai68
HK71
Vi75Me88
NY05
1
3
MeNY
2
1
Neighbor Joining(近隣結合)法
新しいノードから他の枝への距離を計算する
2ijjmim
km
DDDD
22
334
32
345
Vi75AiHK
MeNYAiHK
D
D
D Ai68 HK71 Vi75 MeNY
Ai68 0 3 4 5 12
HK71 3 0 3 4 10
Vi75 4 3 0 3 10
MeNY 5 4 3 0 12
12 10 10 12
Ai68
HK71
Vi75Me88
NY05
1
3
MeNY
2
1AiHK
32
Neighbor Joining(近隣結合)法
D Ai68 HK71 Vi75 MeNY
Ai68 0 3 4 5 12
HK71 3 0 3 4 10
Vi75 4 3 0 3 10
MENY 5 4 3 0 12
12 10 10 12
Ai68
HK71
Vi75Me88
NY05
1
3
MeNY
2
1AiHK
32
距離行列を更新する
D AiHK Vi75 MeNY
AiHK 0 2 3
Vi75 2 0 3
MeNY 3 3 0
Neighbor Joining(近隣結合)法
Ai68
HK71
Vi75Me88
NY05
1
3
MeNY
2
1AiHK
N=2になるまで、繰り返す。
D AiHK Vi75 MeNY
AiHK 0 2 3
VI75 2 0 3
MeNY 3 3 0
32
3
Ai68
HK71
Vi75Me88
NY05
1
3
MeNY
2
1AiHK
2
1
2ijjmim
km
DDDD
1AiHKVi
系統樹を出力
13
1
2
1
12
Ai68
HK71
Vi75 Me88
NY05
D Ai68 HK71 Vi75 Me88 NY05
Ai68 0 3 4 6 8
HK71 3 0 3 5 7
Vi75 4 3 0 4 6
Me88 6 5 4 0 4
NY05 8 7 6 4 0
入力
出力
アルゴリズム
1
}{}{}{ 2
}{}{
)2(22
)2(22
,
)(
;)2(,
;
2||
1 },,,1{
),,,(JoiningNeighbor Procedure 21
return
dowhile
kk
jikLL
DDDDjiLm
n
RRDD
n
RRDD
kji
i,jS
RRDNSLji
DRLi
L
nknL
sss
ijjmimkm
ijijjk
jiijik
ij
jiijij
ikiki
n
とするに対し、すべての
とする
とする
を作るを子にもつ節点節点
を見つけるが最小となる組
に対し、すべての
とするに対し、すべての
22
ポイント
i
j
mkDij
Djm
Dim
2ijjmim
km
DDDD
)2(22
)2(22
n
RRDD
n
RRDD
ijijjk
jiijik
進化系統樹の統計的評価
Bootstrap法による系統樹の検定
ランダム選択されたサイトから系統樹を作成し、得られた系統樹の確からしさを評価する手法
Aichi68:GGC CAA GAC
Victoria75:GCC CAA GAA
Memphis88:GCC CAA AAA
NewYork05:GCT CAG AAA
HongKong71:GCC CAA GAC
Aichi68:GCA GCG AAC
Victoria75:CCA GCC AAA
Memphis88:CCA ACC AAA
NewYork05:CCG ACC AGA
HongKong71:CCA GCC AAC
オリジナル
2,4,6,7,4,2,8,9,6
ランダムにサイトを選択
123 456 789 246 742 896
1000回程度繰り返す
系統樹作成
オリジナルから作った系統樹
比較、トポロジーの一致をカウント
The Bootstrap technique
For Your Further Understanding
Dan Graur and Wen-Hsiung Li:
Fundamentals of Molecular Evolution
Sinauer Associates; 2nd edition (January 15, 2000)
ISBN-10: 0878932666
ISBN-13: 978-0878932665
23
生命情報と機械学習
北海道大学人獣共通感染症リサーチセンター
バイオインフォマティクス部門
伊藤公人
さきがけ数学塾 「数学を使う - 生命現象への挑戦-」
機械学習
学習アルゴリズムe1e2…
訓練例
規則f1f2…
例以外のデータ
正しく処理
人間が自然に行っている学習能力と同様の機能をコンピュータで実現させるための技術・手法。
データから未知の値、規則、式などを学習する。
学習
計算機科学と生命科学の境界
アルゴリズム
形式化された問題
生命情報
出力 入力
計算機科学と生命科学の境界においては、
「データから何が判明し得るのか」
「どのような観点から分析を行えば、データを有効に活用できるのか」
「どのような構造をとっているのか」
が事前に判っていないことがある。
機械学習を形式的に定義するには
どのような規則を学習させたいのか?
形式言語、関数、パターン、 etc
規則をどのように出力するのか?
文法、式、パラメータ、etc
例をどのように与えるのか?
正負の例、入出力関係、ノイズの有無、 etc
どのように学習させるのか?
アルゴリズム
どのような学習結果を正しいと見るか?
生命情報を用いた機械学習問題
モチーフ発見
塩基配列に共通する部分文字列を発見する。
タンパク質の二次構造の予測
アミノ酸配列の部分配列から、二次構造(αへリックス、βシート)を予測する。
遺伝子領域の予測
塩基配列から、タンパク質をコードしている領域を推定する。
モチーフ発見
次の14本の塩基配列に共通する部分文字列は?
1:GCTTTTTTCTCGGGATTTCCCCGTGAGCAGCCTTCTGACCTGG2:ATTCTCGGGATTTCCTACGAAACCGAATAGGCGCCATACCCTA3:CTTGGTCTGTTAGGTTGTGGCCCTCACGTTCGGGATTTCCGGG4:GTGATGAAGCTCTAAGGTCTCAGCAATCGGGATTTCCCAGGCT5:AGGACGAGCCATTACGGTCGGGATTTCCGGAGCTACACCCCCC6:GCTAGACTTAACAGATCGGGATTTCCGTCCGCACGCATTACCT7:GCATCTCTGATATAATCCAGAGGCATAGTCGGGATTTCCGACA8:TGTGCATTAATGTCGGGATTTCCCTGCAGAAGATCACAGGTTA9:GATTCGGGATTTCCCGGGCACCGGCGGCAAGTTACCGCTGTCC
10:GTCTATGTCGACTCTGCGCGCCAAGCCGAGTCGGGATTTCCAA11:GAGTCCAAATTACGCCTTTCTCGGGATTTCCCACACACGAGTC12:AGAGATCAAGAGCTTCGCCTTCGGGATTTCCATGCATAGTGGC13:ATCGGGATTTCCCCAAGATACCGAGTAATTAATTTTGCCTCAT14:ATAGTCTTCATTCGGGATTTCCTCTAGGGTAGATCCCGGGTTT
24
モチーフ発見
次の14本の塩基配列に共通する部分文字列は?
1:GCTTTTTTCTCGGGATTTCCCCGTGAGCAGCCTTCTGACCTGG2:ATTCTCGGGATTTCCTACGAAACCGAATAGGCGCCATACCCTA3:CTTGGTCTGTTAGGTTGTGGCCCTCACGTTCGGGATTTCCGGG4:GTGATGAAGCTCTAAGGTCTCAGCAATCGGGATTTCCCAGGCT5:AGGACGAGCCATTACGGTCGGGATTTCCGGAGCTACACCCCCC6:GCTAGACTTAACAGATCGGGATTTCCGTCCGCACGCATTACCT7:GCATCTCTGATATAATCCAGAGGCATAGTCGGGATTTCCGACA8:TGTGCATTAATGTCGGGATTTCCCTGCAGAAGATCACAGGTTA9:GATTCGGGATTTCCCGGGCACCGGCGGCAAGTTACCGCTGTCC
10:GTCTATGTCGACTCTGCGCGCCAAGCCGAGTCGGGATTTCCAA11:GAGTCCAAATTACGCCTTTCTCGGGATTTCCCACACACGAGTC12:AGAGATCAAGAGCTTCGCCTTCGGGATTTCCATGCATAGTGGC13:ATCGGGATTTCCCCAAGATACCGAGTAATTAATTTTGCCTCAT14:ATAGTCTTCATTCGGGATTTCCTCTAGGGTAGATCCCGGGTTT
モチーフ発見の意義
関連する遺伝子配列の上流に共通した塩基配列が見られることがある。
転写因子 特定のモチーフに結合し、下流にある遺伝子の発現を制御する。
GCTTTTTTCTATACCGTGAGCAGCCTTCTGACCTGG
TATA-binding protein
プロファイル行列
NF-κBの結合部位 1:A C G G T A A T T A C2:T C A G G C T T T C C3:T A G G G A T A T C C4:T C G G G A T T T C T5:T C G G T A A T T G C6:T C G G G G T T A C T7:G C G G G A G T T T C8:T G G G G A T T T C C9:C G G G G A T T T T T
10:T C G C G A T C T C C
A:1 1 1 0 0 8 2 1 1 1 0T:7 0 0 0 2 0 7 8 9 2 3G:1 2 9 9 8 1 1 0 0 1 0C:1 7 0 1 0 1 0 1 0 6 7
プロファイル
コンセンサス配列 T C G G G A T T T C C
コンセンサススコア
NF-κBの結合部位1:A C G G T A A T T A C2:T C A G G C T T T C C3:T A G G G A T A T C C4:T C G G G A T T T C T5:T C G G T A A T T G C6:T C G G G G T T A C T7:G C G G G A G T T T C8:T G G G G A T T T C C9:C G G G G A T T T T T
10:T C G C G A T C T C C
A:1 1 1 0 0 8 2 1 1 1 0T:7 0 0 0 2 0 7 8 9 2 3G:1 2 9 9 8 1 1 0 0 1 0C:1 7 0 1 0 1 0 1 0 6 7
プロファイル
コンセンサススコア Score7+7+9+9+8+8+7+8+9+6+7 =85
モチーフ発見問題
与えられたDNA配列集合に対して、各配列から一つづつ選んだl-merの集合で、コンセンサススコアを最大化する。
入力:
配列集合を表すt×n行列 DNAと、見つけるべきパタンの長さl
出力:
Score(s, DNA)を最大化するt個の開始位置の配列s=(s1,…,st)
モチーフ発見
1:GAGCAGCGATATTGAGATCTATAT2:TGACTGACAGTAGTATAATGATGG3:GCCTATAAAAGGGCCTACTTTATG4:CTGGCTAGCTTTATACGTTACGCC5:TAATCGAGCAGTAAGGACGTATAC6:GGTCCCTTTTTCGAAAGTATAGTT7:TATAGCTAAAGAAATGAGTATGGA8:GTATACTCCCGTTAGGACGCACAT9:TTGCTATAGTCGCTCTGGGAAGCG
10:AAACCGGCGGACACTGTATACCGA
l=4のとする。s=(20,14, 4, 12, 20, 18, 1, 2, 5, 17 )のとき、Score(s, DNA)=40で最大。
25
モチーフ発見
1:GAGCAGCGATATTGAGATCTATAT2:TGACTGACAGTAGTATAATGATGG3:GCCTATAAAAGGGCCTACTTTATG4:CTGGCTAGCTTTATACGTTACGCC5:TAATCGAGCAGTAAGGACGTATAC6:GGTCCCTTTTTCGAAAGTATAGTT7:TATAGCTAAAGAAATGAGTATGGA8:GTATACTCCCGTTAGGACGCACAT9:TTGCTATAGTCGCTCTGGGAAGCG
10:AAACCGGCGGACACTGTATACCGA
l=4のとする。s=(20,14, 4, 12, 20, 18, 1, 2, 5, 17 )のとき、Score(s, DNA)=40で最大。
力まかせのアプローチ
bestMotif
ssbestMotif
DNAssScorebestScore
bestScoreDNAssScore
n-ln-lss
bestScore
lntDNA
t
t
t
t
),,(
),),,((
),),,((
)1,,1(,1),1( ),,(
0
),,,(hMotifSearcBruteForce
1
1
1
1
return
if
to fromeachfor
BruteForceMotifSearchの計算量
各インデックスsiの選び方:
n-l+1個の選択肢
t個の配列の開始位置の選び方
(n-l+1)t個の選択肢
スコアの計算O(l)
全体の計算量は、O(lnt)。
中央文字列を探すアプローチ
1:A C G G T A A T T A C2:T C A G G C T T T C C3:T A G G G A T A T C C4:T C G G G A T T T C T5:T C G G T A A T T G C6:T C G G G G T T A C T7:G C G G G A G T T T C8:T G G G G A T T T C C9:C G G G G A T T T T T
10:T C G C G A T C T C C
V:T C G G G A T T T C C
モチーフ発見問題は、別の見方をすると、中央文字列を発見する問題としてとらえることができる。
dH = 4dH = 2dH = 2dH = 1dH = 3dH = 3dH = 3dH = 1dH = 4dH = 2
ハミングディスタンス
モチーフ発見
次の14本の塩基配列に共通する部分文字列は?
1:GCTTTTTTCTCGGGATTTCCCCGTGAGCAGCCTTCTGACCTGG2:ATTCTCGGGATTTCCTACGAAACCGAATAGGCGCCATACCCTA3:CTTGGTCTGTTAGGTTGTGGCCCTCACGTTCGGGATTTCCGGG4:GTGATGAAGCTCTAAGGTCTCAGCAATCGGGATTTCCCAGGCT5:AGGACGAGCCATTACGGTCGGGATTTCCGGAGCTACACCCCCC6:GCTAGACTTAACAGATCGGGATTTCCGTCCGCACGCATTACCT7:GCATCTCTGATATAATCCAGAGGCATAGTCGGGATTTCCGACA8:TGTGCATTAATGTCGGGATTTCCCTGCAGAAGATCACAGGTTA9:GATTCGGGATTTCCCGGGCACCGGCGGCAAGTTACCGCTGTCC
10:GTCTATGTCGACTCTGCGCGCCAAGCCGAGTCGGGATTTCCAA11:GAGTCCAAATTACGCCTTTCTCGGGATTTCCCACACACGAGTC12:AGAGATCAAGAGCTTCGCCTTCGGGATTTCCATGCATAGTGGC13:ATCGGGATTTCCCCAAGATACCGAGTAATTAATTTTGCCTCAT14:ATAGTCTTCATTCGGGATTTCCTCTAGGGTAGATCCCGGGTTT
TotalDistance 文字列vと、i番目のDNA配列の位置siで始まるl-merとの距離をdH(v,si)をする。
DNA配列の開始位置の並びsに対して、vの総ハミング距離を次のように定義する。
t
iHH sivdvd
1
),(),( s
与えられたvとあらゆるDNAの開始位置の並びsとの総ハミング距離のうち、最小のものを
),(min),nce(TotalDista ss
vdDNAv H
と定義する。
26
TotalDistanceの例
v=TATAとする。
1:GAGCAGCGATATTGAGATCTATAT2:TGACTGACAGTAGTATAATGATGG3:GCCTATAAAAGGGCCTACTTTATG4:CTGGCTAGCTTTATACGTTACGCC5:TAATCGAGCAGTAAGGACGTATAC6:GGTCCCTTTTTCGAAAGTATAGTT7:TATAGCTAAAGAAATGAGTATGGA8:GTATACTCCCGTTAGGACGCACAT9:TTGCTATAGTCGCTCTGGGAAGCG
10:AAACCGGCGGACACTGTATACCGA
TotalDistance(v,DNA)=0
0000000000
最小のハミングディスタンス
中央文字列
全てのl-merのうちTotalDistance(v,DNA)が最小となるvを中央文字列という。
1:GAGCAGCGATATTGAGATCTATAT2:TGACTGACAGTAGTATAATGATGG3:GCCTATAAAAGGGCCTACTTTATG4:CTGGCTAGCTTTATACGTTACGCC5:TAATCGAGCAGTAAGGACGTATAC6:GGTCCCTTTTTCGAAAGTATAGTT7:TATAGCTAAAGAAATGAGTATGGA8:GTATACTCCCGTTAGGACGCACAT9:TTGCTATAGTCGCTCTGGGAAGCG
10:AAACCGGCGGACACTGTATACCGA
TotalDistance(TATA,DNA)=0 ‘TATA’は中央文字列
中央文字列問題
与えられたDNA配列集合の中央文字列をもとめよ。
入力:
配列集合を表すt×n行列 DNAと、見つけるべきパタンの長さl
出力:
TotalDistance(v, DNA)が最小となるl-mer v
モチーフ発見問題と中央文字列問題
1:GCTTTTTTCTCGGGATTTCCCCGTGAGCAGCCTTCTGACCTGG2:ATTCTCGGGATTTCCTACGAAACCGAATAGGCGCCATACCCTA3:CTTGGTCTGTTAGGTTGTGGCCCTCACGTTCGGGATTTCCGGG4:GTGATGAAGCTCTAAGGTCTCAGCAATCGGGATTTCCCAGGCT5:AGGACGAGCCATTACGGTCGGGATTTCCGGAGCTACACCCCCC6:GCTAGACTTAACAGATCGGGATTTCCGTCCGCACGCATTACCT7:GCATCTCTGATATAATCCAGAGGCATAGTCGGGATTTCCGACA8:TGTGCATTAATGTCGGGATTTCCCTGCAGAAGATCACAGGTTA9:GATTCGGGATTTCCCGGGCACCGGCGGCAAGTTACCGCTGTCC10:GTCTATGTCGACTCTGCGCGCCAAGCCGAGTCGGGATTTCCAA11:GAGTCCAAATTACGCCTTTCTCGGGATTTCCCACACACGAGTC12:AGAGATCAAGAGCTTCGCCTTCGGGATTTCCATGCATAGTGGC13:ATCGGGATTTCCCCAAGATACCGAGTAATTAATTTTGCCTCAT14:ATAGTCTTCATTCGGGATTTCCTCTAGGGTAGATCCCGGGTTT
モチーフ発見問題 与えられたDNA配列集合に対して、各配列から一つづつ選んだl-
merの集合で、コンセンサススコアを最大化する。
中央文字列問題 与えられたDNA配列集合の中央文字列を求めよ。
モチーフ発見問題
等価
中央文字列問題
力まかせのアプローチ
bestWord
wordbestWord
DNAwordnceTotalDistacebestDistan
cebestDistanDNAwordnceTotalDista
word
cebestDistan
bestWord
lntDNA
),(
),(
TTT...TAAA...A
AAA...A
),,,(chMedianSearBruteForce
return
if
to fromeachfor
BruteForceMedianSearchの計算量
word枚のTotalDistanceの計算
O(nt)
長さlのword の選び方
4lの選択肢
全体の計算量は、O(4lnt)。
*BroteForceMotifeSearchはO(lnt)。
27
中央文字列の探索木
***
A** C**
AAA AAT AAG AAC
AA* AT* AG* AC*
G**T**
Preorder()1.現在のノード2.一番目の子のPreorder3.一番目の子のPreorder4.一番目の子のPreorder5.一番目の子のPreorderreturn
キーアイディア
1:GAGCAGCGATATTGAGATCTATAT2:TGACTGACAGTAGTATAATGATGG3:GCCTATAAAAGGGCCTACTTTATG4:CTGGCTAGCTTTATACGTTACGCC5:TAATCGAGCAGTAAGGACGTATAC6:GGTCCCTTTTTCGAAAGTATAGTT7:TATAGCTAAAGAAATGAGTATGGA8:GTATACTCCCGTTAGGACGCACAT9:TTGCTATAGTCGCTCTGGGAAGCG
10:AAACCGGCGGACACTGTATACCGA
TotalDistance(XA,DNA)>TotalDistance(X,DNA)
TotalDistance(T,DNA)
TotalDistance(TA,DNA)
TotalDistance(TAT,DNA)
TotalDistance(TATA, DNA)
<<
<
分岐限定法
***
A** C**
AAA AAT AAG AAC
AA* AT* AG* AC*
G**T**
現在のbestWordbestDistance=0
接頭辞のtotalDistanceが1以上なら、
どう文字を後ろにつけても1以下にならない。現在のbestより大きい、子は探索する必要なし。
tD (AG,DNA)=1
tD(T,DNA)=1 tD(G,DNA)=1
分岐限定アルゴリズム
bestWords
lλ
cebestDistan
bestWords
lntDNA
),0,rder(searchPreo
{}
),,,(chMedianSear
return
}{
)ance( totalDist
}{
)nce(totalDista
)ance( totalDist
)1,C,rder(SearchPreo
)1,G,rder(SearchPreo
)1,T,rder(SearchPreo
)1,A,rder(SearchPreo
)ance( totalDist
),,rder(SearchPreo
return
if else
if
else
if
if
sbestWordsbestWords
cebestDistans
sbestWords
scebestDistan
cebestDistans
lis
lis
lis
lis
cebestDistans
li
lis
モチーフ発見の高速なアルゴリズム
CONSENSUSアルゴリズム
[Hertz&Stormo 1999]
MITRA [Eskin&Pevzner2002]
MaxMotif [Arimura&Uno 2005]
タンパク質の二次構造
αヘリックス
βシート
主鎖の部分的な立体構造のことを二次構造という。
28
二次構造予測
アミノ酸配列中の各残基が、{αへリックス、βシート、それ以外}のどれに属するかを予測
-----------------------SSS-------SSS--SSS--------SSS-----SSSQDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILD
-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----SGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEF
QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEF
二次構造予測
アミノ酸配列中の各残基が、α、β、それ以外のどれに属するかを予測
三次構造(全体)を予測するよりは容易
でたらめに推定しても、33.3%の的中率
最も高精度なソフトを使えば、70%~80%の的中率
ニューラルネット、HMM、サポートベクタマシンなど機械学習のテクニックが使われている
ソフトウェア PROF、EVA(ニューラルネット)
三次構造予測への応用が期待される。
二次構造予測手法
Chou-Fasman法(1974) 15タンパク質から二次構造頻度Pα、Pβを計算し、それを基にある閾
値以上をα、βと予測する・・・精度:50-60%
GOR(Garnier,Osguthorpe,Robson)法(1978) 17残基のWindowで配列をスキャンし、その情報量を基に、中心の
アミノ酸の二次構造(α、β、)を予測・・・精度:約65%
ニューラルネットワーク(NN)法(1988~) 13-17残基のWindowでNNを学習させ、二次構造(α、β、コイル)を
予測
NNPREDICT(1990),PHD(1993),PSIPRED(1999) Nearest Neighbor法
PREDATOR (1995)
インフルエンザウイルスの
ヘマグルチニンを用いた予測の実験
QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQT
-----------------------SSS-------SSS--SSS--------SSS-----SSS-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----SSS-------------SSSSSS--SSS----SSS----------SSSSSS------SSSSSSSSS---HHHHHHHH-----SSSSS----SSSS---------------SSSSSSSSS----SSSSSSSS--SSS-SSS-------SSSS---SSS---------------------------------------SSS-----------
アミノ酸配列
結晶構造における二次構造(正解)
Chou-Fasman法で実際に試してみる
http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1
Sequence:QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQT
Chou-Fasman法の予測結果QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILD------------HHHHHHH-----HHHHHHHHHHHHHHHHHHHH-------------HHH---------SSSSS-----SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS------SSS-----------------------SSS-------SSS--SSS--------SSS-----SSSGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH--------------HH--------HHHSSSSSSSSSS-----SSSSSSSSSSSS------SSSSSSSSS-----SSSSSSSSSSSSS-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----SITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWHHHHH-----------------------HHHHHHH-------HH-------HHHHHHHHHSSSSSSSSSSS---------------SSSSSSSS-----SSSSSSSS------SSSSSSSSS-------------SSSSSS--SSS----SSS----------SSSSSS------SSSSSGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGHHH-----HHHHHHHHH-------HHHHHHHHH----------------HHHHHHHHHHHS-----SSSSSSSSSS-----SSSSSSSSSSSSSSSS---SSSSS----SSSSSSS----SSSS---HHHHHHHH-----SSSSS----SSSS---------------SSSSSSSSS---DVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKIHHHH-----------------------------------------------HHHHHHHH--SSSS-----------SSSSS------------SSSSSSSSS-----------SSSSSSS-SSSSSSSS--SSS-SSS-------SSSS---SSS-------------------------TYGACPKYVKQNTLKLATGMRNVPEKQT------HHHHHHHHHHHHHH--HH----SSSSSSSSSSSSSSSSSSSSS-SSSS----------------SSS-----------
(予測)(予測)(正解)
(予測)(予測)(正解)
(予測)(予測)(正解)
(予測)(予測)(正解)
(予測)(予測)(正解)
(予測)(予測)(正解)
29
NNPREDICTで実際に試してみる
http://www.cmpharm.ucsf.edu/%7Enomi/nnpredict.html
Sequence:QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQT
NNPREDICTの予測結果QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILD----------HSSHS---------SSSS-----SSS----HHSS------S-------S------------------------SSS-------SSS--SSS--------SSS-----SSS
GIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEF----HSH------------------HHHHH------------------SSSS-----SSS-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----S
ITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWSSH---SS-S-----------------SSHHHSS--------SS-----------HHSSSSS-------------SSSSSS--SSS----SSS----------SSSSSS------SSSSS
GIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGS-----------SSSSS----SSS--------SSS------SSS----SSSSSSSS----SSSS---HHHHHHHH-----SSSSS----SSSS---------------SSSSSSSSS---
DVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKI-SSSS------S------SS------SS------------S--------------------SSSSSSSS--SSS-SSS-------SSSS---SSS-------------------------
TYGACPKYVKQNTLKLATGMRNVPEKQTS-----------HHHHH-------------------------SSS-----------
(予測)(正解)
(予測)(正解)
(予測)(正解)
(予測)(正解)
(予測)(正解)
(予測)(正解)
PSIPREDで実際に試してみる
http://bioinf.cs.ucl.ac.uk/psipred/psiform.html
Sequence:QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQT
PSIPREDによる予測結果QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILD-----------SSSSSSSS-----SSSSS----SSSS-SSSSSS------HH-----SSS-----------------------SSS-------SSS--SSS--------SSS-----SSS
GIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEF-----SSSSSS-----------SSSSSSS---------------HHHHHHHHH----SSS-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----S
ITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWS-------------SSSS-------HHHHHHHHHHH---------SSSS-----SSSSSSSS-------------SSSSSS--SSS----SSS----------SSSSSS------SSSSS
GIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPG-------HHHHHHHH----SSSSSSS---SSSS--------------SSSSSSSSSS---SSSS---HHHHHHHH-----SSSSS----SSSS---------------SSSSSSSSS---
DVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKI-SSSSSS---SS---SSSSSS-----SS-----------SSS-------------------SSSSSSSS--SSS-SSS-------SSSS---SSS-------------------------
TYGACPKYVKQNTLKLATGMRNVPEKQTSS-----SS----SSS--------------------------SSS-----------
(予測)(正解)
(予測)(正解)
(予測)(正解)
(予測)(正解)
(予測)(正解)
(予測)(正解)
PREDATORで実際に試してみる
http://www-db.embl-heidelberg.de/jss/servlet/de.embl.bk.wwwTools.GroupLeftEMBL/argos/predator/predator_info.html
Sequence:QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQT
コマンドライン
PREDATORによる予測結果QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILD---------SSSSSS---------SSSSS----SSSS----SSSS--------------------------------------SSS-------SSS--SSS--------SSS-----SSS
GIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEF---HHHHHHH---------------SSS-----------------HHHHHHHH----SSS-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----S
ITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWSS--SSSS----------------------------------SSSSS--------SSSSSSS-------------SSSSSS--SSS----SSS----------SSSSSS------SSSSS
GIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGSS----------SSSSS----SSSS------------------------SSSSSSSS---SSSS---HHHHHHHH-----SSSSS----SSSS---------------SSSSSSSSS---
DVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKI-SSSS-------------------------------SSS-------------------SS-SSSSSSSS--SSS-SSS-------SSSS---SSS-------------------------
TYGACPKYVKQNTLKLATGMRNVPEKQTSS------HHHHH-----------------------------SSS-----------
(予測)(正解)
(予測)(正解)
(予測)(正解)
(予測)(正解)
(予測)(正解)
(予測)(正解)
30
コンピューターでインフルエンザウイルスの変異を予測する
伊藤公人
北海道大学 人獣共通感染症リサーチセンター・准教授
さきがけ数学塾 「数学を使う - 生命現象への挑戦-」 インフルエンザウイルス
16 HA (H1-H16)× 9 NA (N1-N9)144 亜型
カモなどの水禽類を自然宿主とする人獣共通感染症病原体 鳥のウイルスが種の壁を越え人に馴化するとパンデミックを引き起こす。
パンデミックの後、人の免疫圧による選択淘汰を受けてウイルスが変異し続け、毎年世界中で季節性インフルエンザを引き起こす。
インフルエンザの予防にはワクチン接種が有効 ワクチン株を頻繁に更新しなければならない。
ワクチン株の更新
変異 変異 変異 変異
人の免疫圧による選択淘汰パンデミック
季節性インフルエンザ
季節性インフルエンザ
季節性インフルエンザ
ワクチン株の更新
ワクチン株の更新
H1N1H1N2H3N2
H3N8H7N7H3N3
H4N5H7N7
H13N2H13N9
H[1-10]N[1-9]
1918スペインかぜ(H1N1)
1957アジアかぜ(H2N2)
1968香港かぜ(H3N2)
2009 今回のH1N1
北大における
インフルエンザウイルスの野外調査
大野池
カモのフン
27
H3N8(1)
15 26 294
H10N5(1)
8 12 19 2224
H10N5(2)
2 5 9
H1N1(1)H4N2(1)H5N3(1)H10N5(2)H15N8(1)
H4N2(1)
H4N2(1)H15N8(1)
H10N5(2)
H4N2(1)
H5N3(1)
H4N2(1)
H4N2(1)
H6N1(4)
H4N2(1)H5N3(1)H6N1(1)
26 Influenza virus isolates(N=340)
16 19 26
DecNovSep Oct
インフルエンザウイルス
16 HA (H1-H16)× 9 NA (N1-N9)144 亜型
カモなどの水禽類を自然宿主とする人獣共通感染症病原体 鳥のウイルスが種の壁を越え人に馴化するとパンデミックを引き起こす。
パンデミックの後、人の免疫圧による選択淘汰を受けてウイルスが変異し続け、毎年世界中で季節性インフルエンザを引き起こす。
インフルエンザの予防にはワクチン接種が有効 ワクチン株を頻繁に更新しなければならない。
ワクチン株の更新
変異 変異 変異 変異
人の免疫圧による選択淘汰パンデミック
季節性インフルエンザ
季節性インフルエンザ
季節性インフルエンザ
ワクチン株の更新
ワクチン株の更新
H1N1H1N2H3N2
H3N8H7N7H3N3
H4N5H7N7
H13N2H13N9
H[1-10]N[1-9]
1918スペインかぜ(H1N1)
1957アジアかぜ(H2N2)
1968香港かぜ(H3N2)
2009 今回のH1N1
シーズン WHO推奨ワクチン株 実際に流行ったウイルス株
1997-1998 A/Wuhan/359/95-like A/Sydney/5/97-like1998-1999 A/Sydney/5/97-like A/Sydney/5/97-like1999-2000 A/Sydney/5/97-like A/Moscow/10/99-like2000-2001 A/Moscow/10/99-like A/Moscow/10/99-like2001-2002 A/Moscow/10/99-like A/Moscow/10/99-like2002-2003 A/Moscow/10/99-like A/Moscow/10/99-like, A/Fujian/411/2002-like2003-2004 A/Moscow/10/99-like A/Fujian/411/2002-like2004-2005 A/Fujian/411/2002-like A/California/7/2004-like2005-2006 A/California/7/2004-like A/Wisconsin/67/2005-like2006-2007 A/Wisconsin/67/2005-like A/Wisconsin/67/2005-like2007-2008 A/Wisconsin/67/2005-like A/Brisbane/10/2007-like2008-2009 A/Brisbane/10/2007-like A/Brisbane/10/2007-like2009-2010 A/Brisbane/10/2007-like A/Perth/16/2009-like2010-2011 A/Perth/16/2009-like A/Perth/16/2009-like
A香港型(H3N2)インフルエンザウイルスの
ワクチン株と実際の流行株
14 シーズン中8シーズンで不一致:ワクチンの部分的効果はあるが、一致することが望ましい。
インフルエンザウイルスの構造粒子表面のHAタンパクとNAタンパク:主要抗原(抗体のターゲット)
粒子内部に8本RNA遺伝子がある
HA
NA
RNA
RNA複製酵素
[Noda T., Nature (2006)]
31
輪切りウイルス粒子
A/WSN/33
野田 岳志 Noda et al, Nature (2006)
RNA
インフルエンザウイルスの遺伝子
Seg-ment
Length(nucleotides)
EncodedProtein
Length(polypeptide)
1 2,313 PB2 759
2 2,341 PB1 757
3 2,209 PA 716
4 1,736 HA 566
5 1,520 NP 498
6 1,467 NA 469
7 1,002 M1M2
25297
8 890 NS1NS2
230121
インフルエンザウイルス13,000塩基=13KB
ヒトゲノム3,000,000,000塩基=3GB
携帯で送れるサイズ DVDのサイズ
インフルエンザウイルスの複製
ウイルスRNA(遺伝子)
ATGAAGACCATCATTGCTTTGAGCT…
M K T I I A L S… 翻訳
C CN
H
H
H O
M
C CN
H
H O
K
C CN
H
H O
T
C CN
H
H O
OH
P
アミノ酸 アミノ酸 アミノ酸 アミノ酸
RNA(遺伝子)は、タンパク質の設計図
RNA複製酵素
タンパク質(部品)ウイルスRNA
子孫
複製
宿主細胞
携帯メールがなかった頃のチェーンメール
「不幸の手紙」
写し手が文言・言い回しを変えることにより、たくみに増え続ける。
効果的な「ころし文句」を獲得した手紙は一気に増え続ける。
手紙の内容がチェーンメールだと世の中に認識されると、流通量は激減する。
Scientific American, June, 2003, pp. 76-81, "Chain letters and evolutionary histories" by Charles H. Bennett, Ming Li, Bin Ma.
インフルエンザウイルスの
生き残り戦略
RNAポリメラーゼ(複製酵素)が精度が低い。
遺伝子のコピーミスが起こりやすい。
子孫ウイルスの多様性。
環境に適応したウイルスだけが生き残る。
∴∴
∴
流行しているウイルス
突然変異を持った多様な子孫ウイルス
宿主免疫等による排除
生き残りが次に流行
∴
∴
∴∴
∴∴
∴
∴∴
∴
∴
∴∴∴∴
∴∴∴∴
∴∴
∴
∴
∴∴
∴
∴
∴
1968年のH3N2亜型のインフルエンザウイルスのアミノ酸配列
MKTIIALSYIFCLALGQDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQTRGLFGAIAGFIENGWEGMIDGWYGFRHQNSEGTGQAADLKSTQAAIDQINGKLNRVIEKTNEKFHQIEKEFSEVEGRIQDLEKYVEDTKIDLWSYNAELLVALENQHTIDLTDSEMNKLFEKTRRQLRENAEEMGNGCFKIYHKCDNACIESIRNGTYDHDVYRDEALNNRFQIKGVELKSGYKDWILWISFAISCFLLCVVLLGFIMWACQRGNIRCNICI
1968年の株: A/Aichi/2/1968(H3N2) HAのアミノ酸配列
32
1971年のH3N2亜型のインフルエンザウイルスのアミノ酸配列
MKTIIALSYIFCLTLGQDLPGNDNSKATLCLGHHAVPNGTLVKTITDDQTEVTNATELVQSSSTGKICNNPHRILDGMDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLAASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGNTYPVLNVTMPNNDNFDKLYIWGVHHPSTDQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNINKITYGACPKYVKQNTLKLATGMRNVPEKQTRGLFGAIAGFIENGWEGMIDGWYGFRHQNSEGTGQAADLKSTQAAIDQINGKLNRIIEKTNEKFHQIEKEFSEVEGRIQDLEKYVEDTKIDLWSYNAELLVAMENQHTIDLTDSEMNKLFEKTRRQLRENAEDMGNGCFKIYHKCDNACIESIRNGTYDHDVYRDEALNNRFQIKGVELKSGYKDWILWISFAISCFLLCVVLLGFIMWACQRGNIRCNICI
1971年の株:A/Hong Kong/46/1971(H3N2)HAのアミノ酸配列
2005年のH3N2亜型のインフルエンザウイルスのアミノ酸配列
MKTIIALSYILCLVFAQKLPGNDNSTATLCLGHHAVPNGTIVKTITNDQIEVTNATELVQSSSTGGICDSPHQILDGENCTLIDALLGDPQCDGFQNKKWDLFIERSKAYSNCYPYDVPDYASLRSLVASSGTLEFNNESFNWTGVTQNGTSSACKRRSNNSFFSRLNWLTHLKFKYPALNVTMPNNEKFDKLYIWGVHHPGTDNDQISLYAQASGRITVSTKRSQQTVIPNIGSRPRVRDIPSRISIYWTIVKPGDILLINSTGNLIAPRGYFKIRSGKSSIMRSDAPIGKCNSECITPNGSIPNDKPFQNVNRITYGACPRYVKQNTLKLATGMRNVPEKQTRGIFGAIAGFIENGWEGMVDGWYGFRHQNSEGIGQAADLKSTQAAINQINGKLNRLIGKTNEKFHQIEKEFSEVEGRIQDLEKYVEDTKIDLWSYNAELLVALENQHTIDLTDSEMNKLFERTKKQLRENAEDMGNGCFKIYHKCDNACIGSIRNGTYDHDVYRDEALNNRFQIKGVELKSGYKDWILWISFAISCFLLCVALLGFIMWACQKGNIRCNICI
2005年の株: A/New York/191/2005(H3N2) HAのアミノ酸配列
MKTIIALSYIFCLALGQDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQTRGLFGAIAGFIENGWEGMIDGWYGFRHQNSEGTGQAADLKSTQAAIDQINGKLNRVIEKTNEKFHQIEKEFSEVEGRIQDLEKYVEDTKIDLWSYNAELLVALENQHTIDLTDSEMNKLFEKTRRQLRENAEEMGNGCFKIYHKCDNACIESIRNGTYDHDVYRDEALNNRFQIKGVELKSGYKDWILWISFAISCFLLCVVLLGFIMWACQRGNIRCNICI
インフルエンザウイルスの変異予測
? どの位置のアミノ酸が置き換わるのか?
その置換がいつ起こるか?
どのアミノ酸に置き換わるのか?
HA たんぱくのアミノ酸配列
将来起こるHA上のアミノ酸置換を予測する。
変異予測のアプローチ
過去の抗原変異
1968(パンデミック)
2010(現在)
アミノ酸置換
=共通するパターン
コンピュータ解析によるパターンの発見
時間
201X(近い将来)
将来の抗原変異
ワクチン株を先回りして
準備
アミノ酸置換
アミノ酸置換
コンピュータ予測
アミノ酸置換
インターネット上に公開されている
インフルエンザウイルスの遺伝子配列
データベース中の配列データの増大
インフルエンザウイルスの塩基配列の数= 169,290本(2010年11月7日)
従来の解析手法
進化系統樹による解析が主流
株の進化系統を解析するのが目的
本日の講演
MDS法により配列データの次元を圧縮・視覚化する。
ウイルス変異のモデルを構築し、予測に応用し、予測の精度を検証する。 H3N2亜型ウイルス
のHAの進化系統樹
従来手法
0.01
500km
Madrid
Munich
Paris
Stockholm
Athens
Brussels Copenhagen
Lisbon
Rome Vienna
多次元尺度構成法(MDS)
[出力] 対象の配置
[入力] 距離の行列
アミノ酸配列の距離行列をMDSの入力として用いることにより、大量の配列を視覚化できる。
MDS
相違度に基づき、対象物を低次元空間上に配置する手法
Athen
s
Brussels
Copenhagen
Lisbo
n
Madrid
Mun
ich
Paris
Rom
e
Stockho
lm
Vienn
a
Athens 0Brussels 2963 0Copenhagen 3276 966 0Lisbon 4532 2084 2971 0Madrid 3949 1558 2498 668 0Munich 2179 747 1104 2507 2010 0Paris 3000 285 1176 1799 1273 821 0Rome 817 1511 2050 2700 2097 946 1476 0Stockholm 3927 1616 650 3231 3188 1754 1827 2707 0Vienna 1991 1175 1455 2937 2409 428 1249 1209 2105 0
ij
ji
ijijd,
2)( が小さくなるような対象物の配置を計算
ijd
D
33
ij
MDS法による
H3N2ウイルスのHAのアミノ酸配列解析
ijd05 03 2 07 5 3 08 3 3 3 09 5 4 4 2 0
11 10 8 3 6 5 012 7 8 11 6 6 10 0
5
32
11
3
3
7
10
3
3
3
5
5
10
56
4
MDS法により、異なるアミノ酸の
数が、三次元空間上の相対距離で表されるようなウイルス株の配置を計算した。
三次元地図距離行列アミノ酸配列
過去40年間に人から分離されたH3N2亜型ウイルスのHAのアミノ酸配列2640本を取得した。
配列のすべての組み合わせ
について、異なるアミノ酸の数を求め、2640行2640列の距離行列を作成した。
HAの進化
A香港型(H3N2)ウイルスの流行における
HA配列の三次元空間での時間発展
(各点はウイルス株を表す。点間の相対距離は、配列間で異なるアミノ酸数を表す。)
0
10
20
30
40
50
60
70
0 10 20 30 40 50 60 70
dist
ance
in th
e 3D
spa
ce
number of different amino acids配列間で異なるアミノ酸の数
三次
元空
間上
での
距離
香港かぜの出現(1968)
最近(2010)
Movie
ijd
HAは一定の曲率をもつ曲線上を進化している。
直線的配置と曲線的配置の意味
(a) 直線的な配置の進化 (b) 曲線的な配置の進化
二回置換する残基がない。 同じ位置の残基が複数回置換
QTKLYLACWAT
QNKVYIACWAS
QTKLYLACWAT
QSKIYIACWAT QSKIYIACWAT
QSEIHIACWAS ウイルスの進化
H3N2亜型ウイルスのHAの進化
H3N2亜型ウイルスの進化
0回置換
1回置換
2回置換
3回置換
4回以上
一定の曲率:
分離年の差とアミノ酸置換数の関係に一定のパターンがあることを示唆
曲線的な進化
同じの位置のアミノ酸が複数回置換
Number of amino acid substitution
Num
ber o
f pos
ition
s
0 2 4 6 8
050
100
150
200
250
インフルエンザウイルスHA配列の
時間発展を表すモデル
各アミノ酸残基毎の置換確率の違いがガンマ分布に従うことを仮定することにより、ウイルス株の分離年の差とアミノ酸置換数の関係をよく回帰できる。
幹におけるアミノ酸置換の回数
アミノ酸
残基
位置
の数 同じ平均と分散を持つ
ガンマ分布の曲線
将来の変異株
HAの進化における
一定の曲率を説明するモデル
株の分離年の差
異なるアミノ酸の数
H3N2亜型ウイルスのHAの進化
一定の確率で同じ位置のアミノ酸が置き換わる。
分離年の差とHAのアミノ酸置換数の関係を予測できる。
0
10
20
30
40
50
60
70
0 5 10 15 20 25 30 35 40
a
xra
ay 1328
012.0,117.0 ra
一定の確率で同じ位置のアミノ酸が置き換わるとき
この位置に一番近い株を選ぶ
34
予測手法の評価方法:
遡及試験(Retrospective Test)
1997年から2009年の各年について、翌年のアミノ酸置換を予測し、実際に起こった置換と予測結果を比較することにより、予測の精度を評価した。
199719961995 1998 1999 2000 2001 2002 2003…
Predicted[…]
Actual[…]
Predicted[…]
Actual[…]
Predicted[…]
Actual[…]
Predicted[…]
Actual[…]
Predicted[…]
Actual[…]
Predicted[…]
Actual[…]
Test Year Predicted substitutions Actual substitutions in the next year
1997-1998 K62E T121N G124S V144I K156Q E158K V196A I236L N276K
K62E T121N G124S V144I K156Q E158K V196A N276K
1998-1999 G129E Y137S L194I V223I R57Q Y137S D172E
1999-2000 R109K I144N T192I D271N G5V Q33H K92T T192I D271N
2000-2001 V5G H33Q R50G T92K I144N T167A S199P S247C N271D P273S V5G H33Q T92K I144N N271D
2001-2002 S46F R50G E83K S186G V202I W222RG225D A106V N144D S186G
2002-2003L25I R50G H75Q E83K V106A A131T D144N H155T V202I W222R G225D V226I S227P
L25I R50G H75Q E83K V106A A131T D144N H155T Q156H V202I W222R G225D
2003-2004 I25V Y159F S189N S227P K145N Y159F S189N V226I S227P
2004-2005 K83R D291G
2005-2006 S193F D225N I274F G275C S193F D225N
2006-2007 G50E A106V S193F Y195H D225N G50E K140I
2007-2008 Q33R T48I D85G K207R K173Q
2008-2009 L3F K83N T128I L157S Q173N K276N A304S E62K N144K K158N N189K
2009-2010 L3F I25L K62E T131N A138S R142G K144N N158R Q173N K189N K62E K144N T212A
Overall precision =0.40 Overall recall=0.64
fntp
tp
fptp
tp
まとめ
多次元尺度構成法(MDS)により、H3N2亜型ウイルスのHAアミノ酸配列を解析した。
HAは一定の曲率をもつ曲線上を進化している。
HAの各位置の置換頻度の違いは、ガンマ分布に従う。
分離年の差とHAのアミノ酸置換数の関係を予測できる。
過去11年に溯って、それぞれ翌年のアミノ酸置換を予測する試験を行った。
翌年のアミノ酸置換を再現率=64%適合率=40%で予測可能
サーベイランスで得られるHAの遺伝子情報から、翌年の抗原変異株を比較的高い精度で予測できる可能性が示唆された。
WHOの2010-2011シーズン推奨ワクチン株(2010年12月発表)
>A/Perth/16/2009(H3N2)QKLPGNDNSTATLCLGHHAVPNGTIVKTITNDQIEVTNATELVQSSSTGEICDSPHQILDGKNCTLIDALLGDPQCDGFQNKKWDLFVERSKAYSNCYPYDVPDYASLRSLVASSGTLEFNNESFNWTGVTQNGTSSACIRRSKNSFFSRLNWLTHLNFKYPALNVTMPNNEQFDKLYIWGVHHPGTDKDQIFLYAQASGRITVSTKRSQQTVSPNIGSRPRVRNIPSRISIYWTIVKPGDILLINSTGNLIAPRGYFKIRSGKSSIMRSDAPIGKCNSECITPNGSIPNDKPFQNVNRITYGACPRYVKQNTLKLATGMRNVPEKQT
>A/Nanjing/1663/2010(H3N2)QKLPGNDNSTATLCLGHHAVPNGTIVKTITNDQIEVTNATELVQSSSTGKICDSPHQILDGKNCTLIDALLGDPQCDGFQNKKWDPFVERSKAYSNCYPYDVPDYASLRSLVASSGTLEFNNENFNWTGVTQNGTSSACIRRSKNSFFSRLNWLTHLNFKYSALNVTMPNNEQFDKLYIWGVHHPGTDKDQIFLYAQASGRITVSTKRSQQTVIPNIGSRPRVRNIPSRISIYWTIVKPGDILLINSTGNLIAPRGYFKMQRGKSSIMRSDAPIGKCNSECITPNGSIPNDKPFQNVNRITYGACPRYVKQNTLKLATGMRNVPEKQT
本システムでの予測された2011年以降の流行株(2010年12月)
A香港型(H3N2)ウイルスの流行におけるHA配列の三次元空間での時間発展
香港かぜの出現(1968)
HAの進化の方向性
E50K
S124N
P162S
I260M
R261QS262R
H3N2ウイルスの変異の予測
Research Center for Zoonosis ControlResearch Center for Zoonosis Control
ご清聴ありがとうございました。
35