35
生命情報とアルゴリズム 北海道大学人獣共通感染症リサーチセンター バイオインフォマティクス部門 伊藤公人 [email protected] さきがけ数学塾 「数学を使う - 生命現象への挑戦-」 伊藤公人 北海道大学 人獣共通感染症リサーチセンター バイオインフォマティクス部門 北海道大学情報科学研究科 データから規則性を発見する技術の研究 北海道大学人獣共通感染症リサーチセンター インフルエンザウイルスの抗原変異予測 北海道大学 人獣共通感染症リサーチセンター 人獣共通感染症の研究・教育を抜本的に強化 するため、 医学・獣医学・薬学・理学・情報科 を基盤とする研究者が協働。 獣医学部 人獣共通感染症 リサーチセンター 医学部 工学部 薬学部 理学部 農学部 Year Base Pairs Sequences 1982 680,338 606 1983 2,274,029 2,427 1984 3,368,765 4,175 1985 5,204,420 5,700 1986 9,615,371 9,978 1987 15,514,776 14,584 1988 23,800,000 20,579 1989 34,762,585 28,791 1990 49,179,285 39,533 1991 71,947,426 55,627 1992 101,008,486 78,608 1993 157,152,442 143,492 1994 217,102,462 215,273 1995 384,939,485 555,694 1996 651,972,984 1,021,211 1997 1,160,300,687 1,765,847 1998 2,008,761,784 2,837,897 1999 3,841,163,011 4,864,570 2000 11,101,066,288 10,106,023 2001 15,849,921,438 14,976,310 2002 28,507,990,166 22,318,883 2003 36,553,368,485 30,968,418 2004 44,575,745,176 40,604,319 2005 56,037,734,462 52,016,762 GenBank Data 大量の遺伝子情報 計算機科学と生命科学の関わり 計算機科学 バイオインフォマティクス 生命科学 情報の流れ 配列比較、配列検索 遺伝子発見 進化系統解析 配列モチーフ発見 機能予測 構造予測 相互作用・ネットワーク推定 統計学 生物物理学 1930~40年代 計算機科学 バイオインフォマティクス 分子生物学 Turingマシン(1936) デジタル回路設計 (1937) ノイマン型コンピュータ の提案(1945) ENIAC(1946) Shannonの情報理論 (1948) タンパク質の電気泳動 (1930 DNAに遺伝子があるこ との発見(19441930 1950 1

伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

生命情報とアルゴリズム

北海道大学人獣共通感染症リサーチセンター

バイオインフォマティクス部門

伊藤公人

[email protected]

さきがけ数学塾 「数学を使う - 生命現象への挑戦-」

伊藤公人

北海道大学人獣共通感染症リサーチセンターバイオインフォマティクス部門

北海道大学情報科学研究科 データから規則性を発見する技術の研究

北海道大学人獣共通感染症リサーチセンター インフルエンザウイルスの抗原変異予測

北海道大学

人獣共通感染症リサーチセンター

人獣共通感染症の研究・教育を抜本的に強化するため、 医学・獣医学・薬学・理学・情報科学を基盤とする研究者が協働。

獣医学部

人獣共通感染症リサーチセンター

医学部

工学部

薬学部

理学部

農学部

Year Base Pairs Sequences

1982 680,338 6061983 2,274,029 2,4271984 3,368,765 4,1751985 5,204,420 5,7001986 9,615,371 9,9781987 15,514,776 14,5841988 23,800,000 20,5791989 34,762,585 28,7911990 49,179,285 39,5331991 71,947,426 55,6271992 101,008,486 78,6081993 157,152,442 143,4921994 217,102,462 215,2731995 384,939,485 555,6941996 651,972,984 1,021,2111997 1,160,300,687 1,765,8471998 2,008,761,784 2,837,8971999 3,841,163,011 4,864,5702000 11,101,066,288 10,106,0232001 15,849,921,438 14,976,3102002 28,507,990,166 22,318,8832003 36,553,368,485 30,968,4182004 44,575,745,176 40,604,3192005 56,037,734,462 52,016,762

GenBank Data

大量の遺伝子情報

計算機科学と生命科学の関わり

計算機科学

バイオインフォマティクス

生命科学

情報の流れ

配列比較、配列検索遺伝子発見

進化系統解析配列モチーフ発見

機能予測構造予測

相互作用・ネットワーク推定

統計学 生物物理学

1930~40年代

計算機科学 バイオインフォマティクス 分子生物学

Turingマシン(1936) デジタル回路設計

(1937)

ノイマン型コンピュータの提案(1945)

ENIAC(1946)

Shannonの情報理論(1948)

タンパク質の電気泳動(1930)

DNAに遺伝子があることの発見(1944)

1930

1950

1

Page 2: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

1950年代

計算機科学 バイオインフォマティクス 分子生物学 EDVAC、UNIVAC

(1950) 動的計画法(1953)

プログラミング言語FORTRAN(1956)

集積回路(1958) UPGMA法 (1958)

分子動力学計算(1959)

ワトソンとクリックがDNAの二重らせん構造を発見 (1953)

タンパク質は遺伝子情報から作られることの発見(1958)

タンパク質の三次元立体構造(1958)

抗体の基本構造の解明(1959)

1950

1960

1960年代

計算機科学 バイオインフォマティクス 分子生物学

T. Nelson Hypertext(1965)

D.Engelbart マウス・ウインドウ(1968)

UNIXとC(1969) ARPAネット(1969)

最大節約法による進化解析(1965)

遺伝コード(コドン表)の解読

1960

1970

1970年代

計算機科学 バイオインフォマティクス 分子生物学 Coddの関係モデル

(1970) 電子メール(1971) 文字列照合アルゴリ

ズムの研究(1974) Ethernet(1975) CRAY-1(1976)

Apple-II(1977)

Needleman-Wunsch アルゴリズム(1970)

第一原理計算(1970)

タンパク質の分子動力学計算(1977)

Protein Data Bank(1977)

抗体の遺伝子再構成の発見(1976)

高速塩基配列決定法(1977)

1970

1980

1980年代

計算機科学 バイオインフォマティクス 分子生物学 オブジェクト指向言語

Smalltalk(1980)

SGI(1982)

スクリプト言語Perl (1987)

World Wide Web (1989)

Smith-Waterman アルゴリズム(1981)

FASTPアルゴリズム(1985)

近隣結合法(1987)

NCBIの設立(1988) FASTAアルゴリズム

(1988)

インフルエンザウイルスの全ゲノム 解読

PCRによる遺伝子増幅法の発明 (1985)

1980

1990

1990年代

計算機科学 バイオインフォマティクス 分子生物学

Linuxの誕生 (1991)

NCSA Mosaic(1993) データマイニング

(1994) Windows95(1995) Java(1995)

ホモロジーモデリング(1992)

PubMedの公開(1997)

Gene Ontology(1998)

自然免疫(1996) DNAチップ (1996) 大腸菌の全ゲノム

(4.7MB)決定(1997)

インフルエンザウイルスのリバースジェネティクス(1999)

1990

2000

2000年代

計算機科学 バイオインフォマティクス 分子生物学

セマンティックウェブ(2001)

ショウジョウバエ全ゲノム解読(180MB)(2000)

ヒトゲノムのドラフト配列(3GB)の決定(2001)

2000

現在

2

Page 3: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

計算機科学と生命科学の関わり

計算機科学

バイオインフォマティクス

生命科学

情報の流れ

配列比較、配列検索遺伝子発見

進化系統解析配列モチーフ発見

機能予測構造予測

相互作用・ネットワーク推定

統計学 生物物理学基盤技術文字列アルゴリズムグラフ理論クラスタリング機械学習情報可視化

数理科学者と生命科学者の協働

数理科学者(特に計算機科学者)は、新規手法(アルゴリズム)の開発に興味を持つ。

既存の技術で、生命科学に十分に応用できる技術が眠っている可能性

既存の技術だけでは、対応できない生命科学のデータ解析問題の可能性

生命科学者に、理解しやすい手法が必要 技術的背景や仮定を明らか伝える必要性。

生命科学者との協働が必要

講義内容

1.生命情報とアルゴリズム序論

2.遺伝子の多重配列アライメント

3.進化系統解析と分子疫学

4.生命情報と機械学習

5.コンピューターでインフルエンザウイルスの変異を予測する

本講義では、文字列アルゴリズム、クラスタリング、情報理論や機械学習などの項目に焦点をあてて、生命情報を扱うアルゴリズムについて解説する。

3

Page 4: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

遺伝子配列のアライメント

さきがけ数学塾 「数学を使う - 生命現象への挑戦-」

北海道大学人獣共通感染症リサーチセンター

バイオインフォマティクス部門

伊藤公人

[email protected]

目標

塩基配列やアミノ酸配列をアライメントするアルゴリズムについて学ぶ。

ペアワイズアライメント

二つの文字列について、文字間の対応関係を計算する。

Needleman-Wunsch Algorithm (動的計画法)。

多重配列アライメント

三つ以上の文字列について、対応関係を計算する。

多次元動的計画法。

ツリーベース法。

アルゴリズム

アルゴリズム=ある問題を解くための手順。 問題は、「入力」と「出力」で定義される。

アルゴリズムは、ある「入力」をその「出力」に変換する手順。

塩基配列とアミノ酸配列

塩基配列とは、 {A, C, G, T}上の文字列である(DNAの場合)。

例:ACGTCCTATCCATCA {A, C, G, U}上の文字列である(RNAの場合)。

例:ACGUCCUAUCCAUCA

アミノ酸配列とは、 {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S,

T, V, W, Y}上の文字列である。 例:MKTEDVLMNPRSYGE

塩基配列とアミノ酸配列の関係

翻訳

転写

メッセンジャーRNA

遺伝子暗号(コドン表)

タンパク質

メッセンジャーRNA

アミノ酸

DNA

塩基配列とアミノ酸配列の関係

AUGAAGACCAUCAUUGCUUUGAGCUACAUUUUCUGUCUGGCUCUCGGCCAAGACCUUCCAGGAAAUGACAACAGCACAGCAACGCUGUGCCUGGGACAUCAUGCGGUGCCAAACGGAACACUAGUGAAAACAAUCACAGAUGAUCAGAUUGAAGUGACUAAUGCUACUGAGCUAGUUCAGAGCUCCUCAACGGGGAAAAUAUGCAACAAUCCUCAUCGAAUCCUUGAUGGAAUAGACUGCACACUGAUAGAUGCUCUAUUGGGGGACCCUCAUUGUGAUGUUUUUCAAAAUGAGACAUGGGACCUUUUCGUUGAACGCAGCAAAGCUUUCAGCAACUGUUACCCUUAUGAUGUGCCAGAUUAUGCCUCCCUUAGGUCACUAGUUGCCUCGUCAGGCACUCUGGAGUUUAUCACUGAGGGUUUCACUUGGACUGGGGUCACUCAGAAUGGGGGAAGCAAUGCUUGCAAAAGGGGACCUGGUAGCGGUUUUUUCAGUAGACUGAACUGGUUGACCAAAUCAGGAAGCACAUAUCCAGUGCUGAACGUGACUAUGCCAAACAAUGACAAUUUUGACAAACUAUACAUUUGGGGGAUUCACCACCCGAGCACGAACCAAGAACAAACCAGCCUGUAUGUUCAAGCAUCAGGGAGAGUCACAGUCUCUACCAGGAGAAGCCAGCAAACUAUAAUCCCGAAUAUCGGGUCCAGACCCUGGGUAAGGGGUCUGUCUAGUAGAAUAAGCAUCUAUUGGACAAUAGUUAAGCCGGGAGACGUACUGGUAAUUAAUAGUAAUGGGAACCUAAUCGCUCCUCGGGGUUAUUUCAAAAUGCGCACUGGGAAAAGCUCAAUAAUGAGGUCAGAUGCACCUAUUGAUACCUGUAUUUCUGAAUGCAUCACUCCAAAUGGAAGCAUUCCCAAUGACAAGCCCUUUCAAAACGUAAACAAGAUCACAUAUGGAGCAUGCCCCAAGUAUGUUAAGCAAAACACCCUGAAGUUGGCAACAGGGAUGCGGAAUGUACCAGAGAAACAAACUAGAGGCCUAUUCGGCGCAAUAGCAGGUUUCAUAGAAAAUGGUUGGGAGGGAAUGAUAGACGGUUGGUACGGUUUCAGGCAUCAAAAUUCUGAGGGCACAGGACAAGCAGCAGAUCUUAAAAGCACUCAAGCAGCCAUCGACCAAAUCAAUGGGAAAUUGAACAGGGUAAUCGAGAAGACGAACGAGAAAUUCCAUCAAAUCGAAAAGGAAUUCUCAGAAGUAGAAGGGAGAAUUCAGGACCUCGAGAAAUACGUUGAAGACACUAAAAUAGAUCUCUGGUCUUACAAUGCGGAGCUUCUUGUCGCUCUGGAGAAUCAACAUACAAUUGACCUGACUGACUCGGAAAUGAACAAGCUGUUUGAAAAAACAAGGAGGCAACUGAGGGAAAAUGCUGAAGAGAUGGGCAAUGGUUGCUUCAAAAUAUACCACAAAUGUGACAACGCUUGCAUAGAGUCAAUCAGAAAUGGUACUUAUGACCAUGAUGUAUACAGAGACGAAGCAUUAAACAACCGGUUUCAGAUCAAAGGUGUUGAACUGAAGUCUGGAUACAAAGACUGGAUCCUGUGGAUUUCCUUUGCCAUAUCAUGCUUUUUGCUUUGUGUUGUUUUGCUGGGGUUCAUCAUGUGGGCCUGCCAGAGAGGCAACAUUAGGUGCAACAUUUGCAUUUGAGUGUAUU

MKTIIALSYIFCLALGQDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQTRGLFGAIAGFIENGWEGMIDGWYGFRHQNSEGTGQAADLKSTQAAIDQINGKLNRVIEKTNEKFHQIEKEFSEVEGRIQDLEKYVEDTKIDLWSYNAELLVALENQHTIDLTDSEMNKLFEKTRRQLRENAEEMGNGCFKIYHKCDNACIESIRNGTYDHDVYRDEALNNRFQIKGVELKSGYKDWILWISFAISCFLLCVVLLGFIMWACQRGNIRCNICI

塩基配列(メッセンジャーRNA)

作られるタンパク質のアミノ酸配列

C CN

H

H

H O

M

C CN

H

H O

K

C CN

H

H O

T

C CN

H

H O

OH

P

遺伝

子暗

号(コ

ドン

表)

翻訳

AUGAAGACCAUCAUUGCUUUGAGCU…

M K T I I A L S…

4

Page 5: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

遺伝子の比較

遺伝子を比較するためには、なにが必要か?

塩基配列(A,C,G,Tの文字列)の集合A/duck/Yokohama/aq10/03A/dk/ST/4003/2003(H5N1)A/chicken/Kyoto/3/04A/crow/Kyoto/53/04A/crow/Osaka/102/04A/chicken/Yamaguchi/7/04A/chicken/Oita/8/04A/whooper-swan/Mongolia/4/05A/chicken/Afghanistan/1207/06A/duck/Tuva/01/06A/cygnus-cygnus/Iran/754/06A/Bar-headedGoose/Qinghai/12/05

文字列の対応関係(アライメント)A/duck/Yokohama/aq10/03A/dk/ST/4003/2003(H5N1)A/chicken/Kyoto/3/04A/crow/Kyoto/53/04A/crow/Osaka/102/04A/chicken/Yamaguchi/7/04A/chicken/Oita/8/04A/whooper-swan/Mongolia/4/05A/chicken/Afghanistan/1207/06A/duck/Tuva/01/06A/cygnus-cygnus/Iran/754/06A/Bar-headedGoose/Qinghai/12/05

遺伝子同士の類似度(文字列が違っている割合)が判る!

配列のアライメント

複数の配列が入力されたときに、文字間の対応関係を計算すること

ペアワイズアライメント 二つの文字列を比較する。

Needleman-Wunsch Algorithm (動的計画法)

多重配列アライメント 三つ以上の文字列を比較する。

多次元動的計画法

ツリーベース法

ペアワイズアライメントのアルゴリズム

1:CAGGAAATGACAGCACAG

2:CCGGAAATGGCACGG

1:CAGGAAATGACAGCACAG| ||||||| ||

2:CCGGAAATGGCACGG---

配列のアライメント

二本の文字列が与えられたとき、最も置換数が少なくなるような文字間の対応関係を計算する。

次の2つの配列を考える

たくさんのアライメントが存在。

1:CAGGAAATGACAGCACAG| ||||||| |||| |

2:CCGGAAATG---GCACGG

1:CAGGAAATGACAGCACAG| ||||||| || | |

2:CCGGAAATGGCA---CGG

一致:10個

一致:12個 一致:13個

アライメントのスコアリング

簡単なスコアリングの例: 一致:+1点 不一致→-1点 ギャップ(挿入欠損):-2点

1:CAGGAAATGACAGCACAG| ||||||| ||

2:CCGGAAATGGCACGG---

一致:10個不一致:5個ギャップ:3個

一致:12個不一致:3個ギャップ:3個

一致:13個不一致:2個ギャップ:3個

10-5-6=-1点

12-3-6=3点

13-2-6=5点1:CAGGAAATGACAGCACAG

| ||||||| |||| |2:CCGGAAATG---GCACGG

1:CAGGAAATGACAGCACAG| ||||||| || | |

2:CCGGAAATGGCA---CGG

スコア関数w(x,y)

簡単なスコアリングの例: 一致:+1点 不一致→-1点 挿入欠損:-2点

w A C G T -A +1 -1 -1 -1 -2C -1 +1 -1 -1 -2G -1 -1 +1 -1 -2T -1 -1 -1 +1 -2- -2 -2 -2 -2 0

w(A,A)=+1w(A,C)=-1w(A,-)=-2

.

.

.

ギャップペナルティー

d

5

Page 6: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

アライメントのスコア

文字列sのi番目の要素をs[i]で表すとする。 s1,s2にギャップ’-’を挿入した文字列をs’1, s’2とする。

アライメントのスコアはw(s’1[i], s’2[i])の合計:

l

i

isiswssScore1

2121 ])['],['()','(

一致:12個不一致:3個挿入欠損:3個

12-3-6=3点1:CAGGAAATGACAGCACAG

| ||||||| || | |2:CCGGAAATGGCA---CGG

|'||'| 21 ssl ここで、

ペアワイズアライメント

ペアワイズアライメント問題

入力:二つの文字列 s1, s2、スコア関数w(x, y)

出力:最もスコアの高いアライメント(s’1, s’2)

l

i

isiswssScore1

2121 ])['],['()','(

|'||'| 21 ssl である。

ここで、アライメント(s’1, s’2)のスコアは、

最適アライメントの計算

最適アライメントの計算は、全探索でも可能であるが、可能なアライメントの数は、配列の長さの指数オーダーである。

1:CAGGAAATGACAGCACAG| ||||||| ||

2:CCGGAAATGGCACGG---

1:CAGGAAATGACAGCACAG| ||||||| |||| |

2:CCGGAAATG---GCACGG

1:CAGGAAATGACAGCACAG| ||||||| || | |

2:CCGGAAATGGCA---CGG

1:CAGGAAATGACAGCACAG| ||||||| ||

2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG

| ||||||| || 2:CCGGAAATGGCACGG---

1:CAGGAAATGACAGCACAG| ||||||| ||

2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG

| ||||||| || 2:CCGGAAATGGCACGG---

1:CAGGAAATGACAGCACAG| ||||||| ||

2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG

| ||||||| || 2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG

| ||||||| || 2:CCGGAAATGGCACGG---

1:CAGGAAATGACAGCACAG| ||||||| ||

2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG

| ||||||| || 2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG

| ||||||| || 2:CCGGAAATGGCACGG---

1:CAGGAAATGACAGCACAG| ||||||| ||

2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG

| ||||||| || 2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG

| ||||||| || 2:CCGGAAATGGCACGG---

1:CAGGAAATGACAGCACAG| ||||||| ||

2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG

| ||||||| || 2:CCGGAAATGGCACGG---1:CAGGAAATGACAGCACAG

| ||||||| || 2:CCGGAAATGGCACGG---

動的計画法(Dynamic Programming )

Bellman(1953) 最適部分構造を利用して、最適化問題を解

く方法

最適部分構造

「全体の問題に対する最適解は,その中に部分問題に対する最適解を含んでいる」

「最適部分構造」を持つ問題は、動的計画法で効率よく解くことができる。

ペアワイズアライメントにおける

スコア関数の性質

1:ACGTT2:ATCGT

1:ACGT2:ATCG

1:ACGTT2:ATCG

1:ACGT2:ATCGT

w(T,T)=+1

w(-,T)=-2

w(T,-)=-2

A-CGTTATCG-T

Score=0

A-CGTTATCGT-

Score=0A-CGTT-ATCG--TScore=-5

A-CGTTATCG-T部分問題3

部分問題1部分問題2

A-CGTATCG-

Score=-1

A-CGTTATCG--Score=-3

A-CGTATCGT

Score=+2

問題

ペアワイズアライメントにおける

スコア関数の性質(再帰式)

])[],[(]1,1[

]1,[

],1[

max],[

)0( ],0[

)0( ]0,[

21 jsiswjiScore

djiScore

djiScore

jiScore

njdjjScore

midiiScore

入力文字列をs1, s2とし、その長さをm, nとする。

s1[1…i]とs2[1…j]に対する最適アライメントのスコアを

Score[i, j]とする。すると、 Score[i, j]は、次の再帰式により計算できる。

6

Page 7: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

再帰式の説明

],1[ jiScore

]1,[ jiScoredjsw ])[,( 2 ],[ jiScore

]1,1[ jiScore

disw )],[( 1)][],[( 21 jsisw

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C C G G C A C G G

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24

-2

-4

-6

-8

-10

-12

-14

-16

-18

C A G A C A G C A C A G

1:CAGACAGCACAG2:CCGGCACGG 行列をつくる

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C C G G C A C G G

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24

-2

-4

-6

-8

-10

-12

-14

-16

-18

C A G A C A G C A C A G

s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

0 -2

-2

C

C

-2 -4-4

-2+1

+1

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C C G G C A C G G

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24

-2 +1

-4

-6

-8

-10

-12

-14

-16

-18

C A G A C A G C A C A G

s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C C G G C A C G G

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24

-2 +1

-4

-6

-8

-10

-12

-14

-16

-18

C A G A C A G C A C A G

s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

-2 -4

+1

C

A

-2 -1-6

-2-3

-1

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C C G G C A C G G

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24

-2 +1 -1

-4

-6

-8

-10

-12

-14

-16

-18

C A G A C A G C A C A G

s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

7

Page 8: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C C G G C A C G G

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24

-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21

-4

-6

-8

-10

-12

-14

-16

-18

C A G A C A G C A C A G

s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C C G G C A C G G

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24

-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21

-4 -1 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20

-6

-8

-10

-12

-14

-16

-18

C A G A C A G C A C A G

s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C C G G C A C G G

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24

-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21

-4 -1 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20

-6 -3 -2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17

-8 -5 -4 -1 0 -2 -4 -4 -6 -8 -10 -12 -14

-10 -7 -6 -3 -2 +1 -1 -3 -3 -5 -7 -9 -11

-12 -9 -6 -5 -2 -1 +2 0 -2 -2 -4 -6 -8

-14 -11 -8 -7 -4 -1 0 +1 +1 -1 -1 -3 -5

-16 -13 -10 -7 -6 -3 -2 +1 0 0 -2 -2 -2

-18 -15 -12 -9 -8 -5 -4 -1 0 -1 -1 -3 -1

C A G A C A G C A C A G

s[i,j]の値=文字が一致した場合:s[i-1,j-1](左上の値)+1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

s[i,j]の値 一致しない場合: s[i-1,j-1](左上の値)-1、s[i-1,j](左の値)-2、s[i,j](上の値)-2の最大値

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C C G G C A C G G

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24

-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21

-4 -1 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20

-6 -3 -2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17

-8 -5 -4 -1 0 -2 -4 -4 -6 -8 -10 -12 -14

-10 -7 -6 -3 -2 +1 -1 -3 -3 -5 -7 -9 -11

-12 -9 -6 -5 -2 -1 +2 0 -2 -2 -4 -6 -8

-14 -11 -8 -7 -4 -1 0 +1 +1 -1 -1 -3 -5

-16 -13 -10 -7 -6 -3 -2 +1 0 0 -2 -2 -2

-18 -15 -12 -9 -8 -5 -4 -1 0 -1 -1 -3 -1

C A G A C A G C A C A G

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C CG G C A C GG

0

+1

0

+1 -1 -3 -5

-4

-3

-2

-1

-2

-1

C A G A C A G C A C A G

1:CAGACAGCACAG| | |||| |

2:CCG---GCACGG

一致:7個不一致:2個挿入欠損:3個

7-2-6=-1点

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C C G G C A C G G

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24

-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21

-4 -1 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20

-6 -3 -2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17

-8 -5 -4 -1 0 -2 -4 -4 -6 -8 -10 -12 -14

-10 -7 -6 -3 -2 +1 -1 -3 -3 -5 -7 -9 -11

-12 -9 -6 -5 -2 -1 +2 0 -2 -2 -4 -6 -8

-14 -11 -8 -7 -4 -1 0 +1 +1 -1 -1 -3 -5

-16 -13 -10 -7 -6 -3 -2 +1 0 0 -2 -2 -2

-18 -15 -12 -9 -8 -5 -4 -1 0 -1 -1 -3 -1

C A G A C A G C A C A G

1:CAGA| |

2:CCG-

一致:2個不一致:1個挿入欠損:1個

2-1-1=-1点

8

Page 9: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

最もスコアの高いアライメントを求めるアルゴリズム

Needleman-Wunsch Algorithm

C C G G C A C G G

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 -24

-2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 -21

-4 -1 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20

-6 -3 -2 +1 -1 -3 -5 -7 -9 -11 -13 -15 -17

-8 -5 -4 -1 0 -2 -4 -4 -6 -8 -10 -12 -14

-10 -7 -6 -3 -2 +1 -1 -3 -3 -5 -7 -9 -11

-12 -9 -6 -5 -2 -1 +2 0 -2 -2 -4 -6 -8

-14 -11 -8 -7 -4 -1 0 +1 +1 -1 -1 -3 -5

-16 -13 -10 -7 -6 -3 -2 +1 0 0 -2 -2 -2

-18 -15 -12 -9 -8 -5 -4 -1 0 -1 -1 -3 -1

C A G A C A G C A C A G

1:CAGA| |

2:CCGG

一致:2個不一致:2個挿入欠損:0個

2-2=0点

Needleman-Wunsch Algorithm

],[

])[],[(]1,1[

]1,[

],1[

max],[

1

1

],0[ 0

]0,[ 0

)],1[,]1[(gnmentPaiwizeAli Procedure

21

21

jiScore

jsiswjiScore

djiScore

djiScore

jiScore

nj

mi

djjScorenj

diiScoremi

wnsms

return

dotofor

dotofor

dotofor

dotofor

練習問題

二つの配列をs1=GCGTCGT、s2=CGATCCTCとする。s1のs2の最適アライメントを求めよ。ただし、スコアリング関数は、一致:+1点、不一致→-1点、挿入欠損:-2点 とする。

C G A T C C T C

0

G C G T C G T

メモリ消費量

長さが200Kb の二つの文字列の最適アライメントをNeedleman-Wunschアルゴリズムで求めることを考える。このとき、メモリは何バイト以上必要か?

メモリ消費量を抑えることは、可能か?

アライメントに関する補足(1)

1:CAGGAAATGACACCACAG| ||||||| ||| |

2:CCGGAAATG---GCACGG

1:CAGGAAATGACACCACAG| ||||||| || | |

2:CCGGAAATGGCA---CGG

同一スコアを持つアライメントが複数存在

一致: (+1)×12個不一致: (-1)×3個ギャップ: (-2)×3個

一致: (+1)×12個不一致: (-1)×3個ギャップ: (-2)×3個

+3点 +3点

一般的なソフトウェアでは、一つのアライメントのみ出力される。(同一スコアを持つアライメントは出力されない)

一致:+1点 不一致→-1点 ギャップ:-2点

アライメントに関する補足(2)

様々なスコアリング関数が考えられる。

不一致:トランジションとトランジションを区別

トランジション(A~G、C~T) -0.5点

トランスバージョン (上記以外) -1点

w A C G T -

A +1 -1 -1 -1 -2

C -1 +1 -1 -1 -2

G -1 -1 +1 -1 -2

T -1 -1 -1 +1 -2

- -2 -2 -2 -2

w A C G T -

A +1 -1 -0.5 -1 -2

C -1 +1 -1 -0.5 -2

G -0.5 -1 +1 -1 -2

T -1 -0.5 -1 +1 -2

- -2 -2 -2 -2

9

Page 10: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

アミノ酸配列のアライメント

一致、不一致のスコアとしてPAM250, BLOSUM62等実測値に基づいた置換行列が用いられる

Ala (A) 2Arg (R) -2 6Asn (N) 0 0 2Asp (D) 0 -1 2 4Cys (C) -2 -4 -4 -5 12Gln (Q) 0 1 1 2 -5 4Glu (E) 0 -1 1 3 -5 2 4Gly (G) 1 -3 0 1 -3 -1 0 5His (H) -1 2 2 1 -3 3 1 -2 6

Ile (I) -1 -2 -2 -2 -2 -2 -2 -3 -2 5Leu (L) -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6Lys (K) -1 3 1 0 -5 1 0 -2 0 -2 -3 5Met (M) -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6Phe (F) -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9Pro (P) 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6Ser (S) 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2Thr (T) 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3Trp (W) -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17Tyr (Y) -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10Val (V) 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4

A R N D C Q E G H I L K M F P S T W Y V

Ala (A) 4Arg (R) -1 5Asn (N) -2 0 6Asp (D) -2 -2 1 6Cys (C) 0 -3 -3 -3 9Gln (Q) -1 1 0 0 -3 5Glu (E) -1 0 0 2 -4 2 5Gly (G) 0 -2 -2 -1 -3 -2 -2 6His (H) -2 0 1 1 -3 0 0 -2 8

Ile (I) -1 -3 -3 -3 -1 -3 -3 -4 -3 4Leu (L) -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4Lys (K) -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5Met (M) -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5Phe (F) -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6Pro (P) -1 -2 -1 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7Ser (S) 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4Thr (T) -1 -1 0 1 -1 0 0 1 0 -2 -2 0 -1 -2 1 1 4Trp (W) -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -3 11Tyr (Y) -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7Val (V) 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 -2 -3 -1 4

A R N D C Q E G H I L K M F P S T W Y V

DayhoffのPAM250行列

Henikoff&HenikoffBLOSUM62行列

アライメントに関する補足(3)

ギャップに対するスコアリング関数

線形ギャップスコア

キャップ一文字に対して常に同じペナルティー

アフィンギャップスコア:ギャップ開始とギャップ伸長を区別

ギャップ開始 -10点

ギャップ伸長 -1点

1:ACAGGGAAT|| ||||

2:AC---GAAT

1:ACAGGGAAT|| | | ||

2:AC-G-G-AT

ギャップ開始:(-10点)×3ギャップ開始:(-10点)×1

ギャップ伸長:(-1点)×2

アライメントに関する補足(4)

グローバル(大域)アライメント

配列の全体の対応(類似性)を計算する。

Needleman-Wunschアルゴリズム

ローカル(局所)アライメント

配列の一部の対応(類似性)を計算する。

Smith-Watermanアルゴリズム

マルチプルアライメントのアルゴリズム

マルチプルアライメント

N個の配列のアライメントを計算する

原理的には、動的計画法のN次元拡張で可能である。

現在のコンピュータでは厳密な計算は困難。

近似アルゴリズムが用いられる セグメント法、単純組み合わせ法、ツリーベース法、反復改

善法、シミュレーテットアニーリング法

1:CAGGAAATGACAGCACAG2:CCGGAAATGGCA---CGG3:CAG---ATGACAGTACAG4:CCGGAAATGACAGCACGG

マルチプルアライメント

マルチプルアライメント問題

入力:N個の文字列s1,..., sN, スコア関数w(x1,..., xN)

出力:最もスコアの高いアライメント(s’1,..., s’N)

l

iNN isiswssScore

111 ])[',],['()',,'(

10

Page 11: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

スコア関数

SPスコア(the Sum of all Pairs score) ペアワイズアライメントにおけるw(x,y)を同じ列に

並ぶすべての文字のペアに適用した和。

lk

lkN isiswisisw ])['],['(])[',],['( 1

多次元動的計画法

動的計画法のN次元への拡張

),],[(],,1[

)],[,(],1,[

])[,,(]1,,[

)],[],[(],1,1[

])[,],[(]1,,1[

])[],[,(]1,1,[

])[],[],[(]1,1,1[

max],,[

1

2

3

21

31

32

321

iswkjiScore

jswkjiScore

jswkjiScore

jsiswkjiScore

jsiswkjiScore

jsjswkjiScore

jsjsiswkjiScore

kjiScore

N=3の場合:

N次元の場合、各要素の値の計算には、2N-1個のギャップパターンについての最大値を計算

ツリーベース法

N 本の配列のすべてのペアについてアライメントを行い距離行列を作成

最もスコアの高い配列ペアを一つにまとめる作業を繰り返し、2分木を作成する。

2分木に基づき、アライメントを順次行う。

1:CAGGAAATGACAGCACAG

2:CCGGAAATGGCACGG3:CAGATGACAGTACAG

4:CCGGAAATGACAGCACGGアライメント

アライメント

アライメント

ガイドツリーの作成

入力配列のスコア行列を作成

1:GAATTC2:GATTA3:GAATC

1 2 3

1 0

2 +1 0

3 +3 +1 0

全ての配列ペアに関してペアワイズアライメント

1:GAATTC

3:GAATC

2:GATTA

アライメント

アライメント

ガイド木を作成

ガイド木にしたがって順次アライメント

1:GAATTC2:GA-TTA

2:GATTA3:GAATC

1:GAATTC3:GAA-TC

+1

+1

+3

配列と配列セットのアライメント

0

G A A T T CG A A - T C

G A

T

T A

配列セット間のアライメント

0 -3

G A A T T CG A A - T C

G A

T

T A

GG-

SP=-3

11

Page 12: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

配列セット間のアライメント

0 -3 -6 -9 -13 -16 -19

-4

-8

-12

-16

-20

G A A T T CG A A - T C

G A

T

T A

配列セット間のアライメント

0 -3 -6 -9 -13 -16 -19

-4 +3

-8

-12

-16

-20

G A A T T CG A A - T C

G A

T

T A

GGG

配列セット間のアライメント

0 -3 -6 -9 -13 -16 -19

-4 +3 0

-8

-12

-16

-20

G A A T T CG A A - T C

G A

T

T A

AA-

SP=-3

配列セット間のアライメント

0 -3 -6 -9 -13 -16 -19

-4 +3 0 -3 -7 -10 -13

-8

-12

-16

-20

G A A T T CG A A - T C

G A

T

T A

配列セット間のアライメント

0 -3 -6 -9 -13 -16 -19

-4 +3 0 -3 -7 -10 -13

-8 -1

-12

-16

-20

G A A T T CG A A - T C

G A

T

T A

--A

SP=-4

配列セット間のアライメント

0 -3 -6 -9 -13 -16 -19

-4 +3 0 -3 -7 -10 -13

-8 -1 +6 +3 -1 -4 -7

-12 -5 +2 +5 +1 +2 -1

-16 -9 -2 +1 +2 +4 +1

-20 -13 -6 +1 -2 0 +3

G A A T T CG A A - T C

G A

T

T A

12

Page 13: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

配列セット間のアライメント

0 -3 -6 -9 -13 -16 -19

-4 +3 0 -3 -7 -10 -13

-8 -1 +6 +3 -1 -4 -7

-12 -5 +2 +5 +1 +2 -1

-16 -9 -2 +1 +2 +4 +1

-20 -13 -6 +1 -2 0 +3

G A A T T CG A A - T C

G A

T

T A

配列セット間のアライメント

1:GAATTC3:GAA-TC2:GAT-TA

0

+3

+6

+5 +1

+4

+3

G A A T T CG A A - T C

G A

T

T A

配列セット間のペアワイズアライメント

],[

]})[,],[{},,({]1,1[

}),,{]}[,,][({]1,[

]})[,],[{]}[,,][({],1[

max],[

1

1

0]0,0[

||||||

||||||

}),,,{},,,,({etgnmentForSPaiwizeAli Procedure

1

1

11

21

21

2121

jiScore

jtjtSPjiScore

isisSPjiScore

jtjtisisSPjiScore

jiScore

nj

mi

Score

tttn

sssm

tttsss

l

k

lk

l

k

lk

return

dotofor

dotofor

とする

とする

ツリーベース法

利点:

比較的高速である。

(多くのプログラムで採用されている)。

欠点:

一度行ったアライメントは固定されてしまう。

1:CAGGAAATGACAGCACAG

2:CCGGAAATGGCACGG3:CAGATGACAGTACAG

4:CCGGAAATGACAGCACGGアライメント

アライメント

アライメント

その他の近似アルゴリズム

セグメント法

1:CAGGAAATGACAGCACAG2:CCGGAAATGGCACGG3:CAGATGACAGTACAG4:CCGGAAATGACAGCACGG

すべての配列でよく保存されている領域をつないでゆく

単純組み合わせ法

1:CAG---GAAATGACAGCACAG2:CCG---GAAATGGCA---CGG3:CAG---ATGACAGTA---CAG4:CCGGAAATGACAGCA---CGG

配列の順番によっては、ギャップが大きくなる可能性あり

1:CAGGAAATGACAGCACAG2:CCGGAAATGGCA---CGG

2:CCGGAAATGGCACGG 3:CAGATGACAGTACAG

3:CAG---ATGACAGTACAG4:CCGGAAATGACAGCACGG

反復改善法

1:CAGGAAATGACAGCACAG3:CAGATGACAGTACAG

2:CCGGAAATGGCACGG4:CCGGAAATGACAGCACGG

配列をランダムに2つのグループに分け、グループ間アライメントを行う。この操作を繰り返す

グループ間アライメント

1:CAGGAAATGACAGCACAG4:CCGGAAATGACAGCACGG3:CAGATGACAGTACAG

2:CCGGAAATGGCACGG

グループ間アライメント

遺伝子配列のアライメントを行う

代表的フリーソフトウェア

13

Page 14: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

推奨する読み物

An Introduction to Bioinformatics AlgorithmsISBN:9780262101066 Jones, Neil C. /Pevzner, Pavel Bradford Books外貨定価:US$ 60.00

バイオインフォマティクスのためのアルゴリズム入門ISBN:4320056507共立出版Jones, Neil C. /Pevzner, Pavel渋谷 哲朗、坂内 英夫【訳】¥5,040(税込) (本体価:¥4,800)

バイオインフォマティクスの数理とアルゴリズムISBN: 4320121783共立出版阿久津 達也¥3,150(税込) (本体価:¥3,000)

14

Page 15: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

北海道大学人獣共通感染症リサーチセンター

バイオインフォマティクス部門

伊藤公人

[email protected]

進化系統解析と分子疫学

さきがけ数学塾 「数学を使う - 生命現象への挑戦-」

進化系統樹

遺伝子間の近縁関係を表す図

進化系統樹の枝

似ている遺伝子配列同士は、短い枝で接続(枝を辿る時の長さの合計が小さい)

似ていない遺伝子配列同士は、長い枝で接続(枝を辿る時の長さの合計が大きい)

進化系統解析

遺伝子配列の集合から、全ての遺伝子の組について、遺伝子同士の類似性を正確に表現された「枝の接続関係」と「長さ」を推定する。

進化系統樹の作成

進化系統樹を作るためには、なにが必要か?

特定の遺伝子の配列(A,C,G,Tの文字列)A/duck/Yokohama/aq10/03A/dk/ST/4003/2003(H5N1)A/chicken/Kyoto/3/04A/crow/Kyoto/53/04A/crow/Osaka/102/04A/chicken/Yamaguchi/7/04A/chicken/Oita/8/04A/whooper-swan/Mongolia/4/05A/chicken/Afghanistan/1207/06A/duck/Tuva/01/06A/cygnus-cygnus/Iran/754/06A/Bar-headedGoose/Qinghai/12/05

文字列の対応関係(アライメント)A/duck/Yokohama/aq10/03A/dk/ST/4003/2003(H5N1)A/chicken/Kyoto/3/04A/crow/Kyoto/53/04A/crow/Osaka/102/04A/chicken/Yamaguchi/7/04A/chicken/Oita/8/04A/whooper-swan/Mongolia/4/05A/chicken/Afghanistan/1207/06A/duck/Tuva/01/06A/cygnus-cygnus/Iran/754/06A/Bar-headedGoose/Qinghai/12/05

遺伝子同士の類似度(文字列が違っている割合)が判る!

進化系統樹の作成法

進化系統樹の作成

遺伝子配列の集合から、全ての遺伝子の組について、遺伝子同士の類似性を正確に表現された「枝の接続関係」と「長さ」を推定する。

Ai68

Vi75

Me88

NY05

Ai68:GGC CAA GAC

Vi75:GCC CAA GAA

Me88:GCC CAA AAA

NY05:GCT CAA AAA

トポロジー 1HK71:GCC CAA GAC

HK71

Ai68

HK71

Me88

NY05

トポロジー2

Vi75

Me88

NY05

Ai68

Vi75

トポロジー3

HK71

?

枝の接続関係 トポロジーという

15

Page 16: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

有根系統樹と無根系統樹

有根系統樹

無根系統樹

有根系統樹

根が一つ存在する。

根は最も古い祖先を表す。

進化の向きが解る。

無根系統樹

根を持たない。

遺伝子同士の近縁関係のみ解る

進化の向きは解らない。

root

root

無根系統樹のトポロジー

4つの遺伝子配列が与えられたとき、3つのトポロジーが考えられる。

どのトポロジーが最も、遺伝子の類似性を正確に表しているか?

A: GGCCAAGACB: GACCAAGAAC: GCCCAAGACD: GACCAAAAA

遺伝子配列

A B C DA: 0B: 2 0C: 1 2 0D: 3 1 3 0

遺伝子の違い

有根系統樹のトポロジー

どのトポロジーが最も、遺伝子の類似性を正確に表しているか?

3つの遺伝子配列が与えられたとき、3つのトポロジーが考えられる。

4つの遺伝子配列が与えられたとき、15種類のトポロジーが考えられる。

Number of Possible Topologies

進化系統樹の代表的作成法

四つの代表的手法 UPGMA法(古典的手法)

計算機科学でいうところのAverage-Linkage法 近隣結合法 (早い、比較的正確)

遺伝子配列の近いもの同士の結合を繰り返して、トポロジーを推定

最節約法 (詳細,遅い) 遺伝子変異の数が最小になるようなトポロジーを探索

最尤法 (より詳細,より遅い) ある塩基から別の塩基に変わる確率を利用し、確率的に尤もらしいトポロジーを推定

進化系統解析

進化系統樹のトポロジーを遺伝子配列から推測する

Ai68

Vi75

Me88

NY05

Aichi68:GGC CAA GAC

Victoria75:GCC CAA GAA

Memphis88:GCC CAA AAA

NewYork05:GCT CAA AAA

トポロジー①

HongKong71:GCC CAA GAC

HK71

Ai68

HK71

Me88

NY05

トポロジー②

Vi75

Me88

NY05

Ai68

Vi75

トポロジー③

HK71

?

16

Page 17: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

距離行列を用いる方法

距離行列:置換数の総和の行列

A H V M N

Ai68 0HK71 1 0Vi75 2 1 0Me88 3 2 1 0NY05 5 4 3 2 0

Aichi68:GGC CAA GAC

Victoria75:GCC CAA GAA

Memphis88:GCC CAA AAA

NewYork05:GCT CAG AAA

HongKong71:GCC CAA GAC

*一般には多重置換を考慮し、補正を行う

距離行列の補正

塩基配列を扱う場合、多重置換を考慮し、進化的距離の補正が行われる。

進化的距離の補正 塩基配列における1座位あたりの置換数を推定

Jukes Cantor法 Kimuraの2パラメータ法

A H V M N

Ai68 0

HK71 0.12 0

Vi75 0.26 0.12 0

Me88 0.44 0.26 0.12 0

NY05 1.01 0.67 0.44 0.26 0

A H V M N

Ai68 0

HK71 1 0

Vi75 2 1 0

Me88 3 2 1 0

NY05 5 4 3 2 0

Jukes Cantor法による補正後の行列距離行列

UPGMA法

平均距離法(UPGMA)

距離行列から有根系統樹を作成する単純なアルゴリズム

UPGMA法のアルゴリズム 距離行列において、近い配列をグループ化する

距離行列を含まれるグループに含まれる配列間の距離の平均とする

グループが残り一つになるまで繰り返す

Unweighted Pair-Group Method with Arithmetic Means [Sokal et. 1958]

距離行列

A H V M N

Ai68 0

HK71 1 0

Vi75 2 1 0

Me88 3 2 1 0

NY05 5 4 3 2 0Ai68 HK71

0.5 0.5

Ai68とHK71をグループ化

AH V M N

A-H 0

Vi75 0

Me88 1 0

NY05 3 2 0

Ai68とHK71をグループ化したときの距離行列

1.5

2.5

4.5

平均距離法(UPGMA) UPGMA法のアルゴリズム

距離行列において、近い配列をグループ化する

距離行列を含まれるグループに含まれる配列間の距離の平均とする

グループが残り一つになるまで繰り返す 距離行列

Ai68 HK710.5 0.5

AH V M N

A-H 0

Vi75 1.5 0

Me88 2.5 1 0

NY05 4.5 3 2 0

Ai68とHK71をグループ化したときの距離行列

AH VM N

A-H 0

V-M 0

NY05 4.5 02.52

Vi75 Me880.5 0.5

(Ai68, HK71)(Vi75, Me88)の距離行列

Vi75とMe88をグループ化

4

2

1

0

H

1HK71

NMVA

0235NY05

013Me88

02Vi75

0Ai68

4

2

1

0

H

1HK71

NMVA

0235NY05

013Me88

02Vi75

0Ai68

平均距離法(UPGMA) UPGMA法のアルゴリズム

距離行列において、近い配列をグループ化する

距離行列を含まれるグループに含まれる配列間の距離の平均とする

グループが残り一つになるまで繰り返す 距離行列

Ai68 HK710.5 0.5

(Ai68, HK71)(Vi75, Me88)の距離行列

AH VM N

A-H 0

V-M 2 0

NY05 4.5 2.5 0

Vi75 Me880.5 0.5

AHVMをグループ化した時の距離行列

A-HとV-Mをグループ化

0.5 0.5

AHVM N

AHVM 0

NY05 03.5

4

2

1

0

H

1HK71

NMVA

0235NY05

013Me88

02Vi75

0Ai68

4

2

1

0

H

1HK71

NMVA

0235NY05

013Me88

02Vi75

0Ai68

17

Page 18: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

平均距離法(UPGMA) UPGMA法のアルゴリズム

距離行列において、近い配列をグループ化する

距離行列を含まれるグループに含まれる配列間の距離の平均とする

グループが残り一つになるまで繰り返す 距離行列

Ai68 HK710.5 0.5

AHVMをグルー

プ化した時の距離行列

Vi75 Me880.5 0.5

AHVMとNY05をグループ化

0.5 0.5

AHVM N

AHVM 0

NY05 3.5 0

NY05

1.750.75 進化系統樹の完成

4

2

1

0

H

1HK71

NMVA

0235NY05

013Me88

02Vi75

0Ai68

4

2

1

0

H

1HK71

NMVA

0235NY05

013Me88

02Vi75

0Ai68

アルゴリズム

1

}{}{}{

2/],[,

),(],[

||||

1],[

1|| 1

1||

1 },,,1{

}{ 0

),,,( UPGMAProcedure 21

return

dotofordotofor

dowhile

dotofor

kk

jikLL

jiDkji

CCCjijiD

dCC

jiD

LijLi

L

nknL

sCni

sss

jik

CsCsij

ji

ii

n

jjii

に配置するを作り、高さを子にもつ節点節点

とするを求め、が最小の組

平均距離法(UPGMA)法の注意点

進化速度が一定でない、つまり、共通の祖先からの置換数が均一でない場合、正しい系統樹を作ることが出来ない

分離した年代の異なるウイルスの系統樹作成には不向き

距離行列 UPGMA法によって得られた進化系統樹

42

1

0

H

1HK71

NMVA

0235NY05013Me88

02Vi75

0Ai68

42

1

0

H

1HK71

NMVA

0235NY05013Me88

02Vi75

0Ai68

Ai68 HK710.5 0.5

Vi75 Me880.5 0.5

0.5 0.50.5 0.5

NY05

1.750.75

近隣結合法

世界で、最も利用されている系統樹作成法 1987年に斉藤と根井が開発 系統樹の枝の長さが短くなるようなトポロジーを、高速に構築

UPGMA法との違い: 進化速度が一定でない、つまり、共通の祖先からの置換数が均一でない場合にも適用可能。

結合すべき対の選び方と新たに生成された節点と他の節点との距離の計算方法が異なる。

無根系統樹を出力(根の位置は判らない)

Neighbor Joining Method

近隣結合法

X

A

C G

EFD

HB

X

D

F

A

HG

CE

Y

BX

D

F

A

HG

C

E

Y

B

Z

X

D

F

A

HG

C

E

Y

B

Z

W X

D

F

A

HG

C

E

Y

B

Z

W

V

X

D

F

A

HG

C

E

Y

B

Z

W

VU

Neighbor Joining Method

近隣結合法

星型のトポロジーから開始し、 枝の長さの合計が最も短くなる二点のグループ化を繰り返す。

無根系統樹

18

Page 19: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

加法的な距離行列

Dを距離行列とする。ある無根系統樹Tが存在し、Tの全ての葉の組(i, j)に関して、i, j間の経路にある枝の長さの合計がD[i, j]に一致するとき、Dは加法的であるという。

X

D

F

A

HG

C

E

Y

B

Z

W

VU

A B C D E F G H

A 0

B DAB 0

C DAC DBC 0

D DAD DBD DCD 0

E DAE DBE DCE DDE 0

F DAF DBF DCF DDF DEF 0

G DAG DBG DCG DDG DEG DFG 0

H DAH DBH DCH DDH DEH DFH DGH 0

考え方

近隣

無根系統樹において、一つのノードだけでつながった二つの葉を近隣とよぶ。

X

D

F

A

HG

C

E

Y

B

Z

W

VU

(A,B),(D,E)(G,H)は近隣

距離行列から近隣を見つける方法

ikiki

jiijij

DR

RRDNS )2(

距離行列DをN×Nの加法的な行列とする。このとき、Sijが最小となる組(i, j)は近隣である。

Riはiから他の葉までの距離の合計

X

D

F

A

HG

C

E

Y

B

Z

W

VU

枝の長さの計算

i

j

mkDij

Djm

Dim

(i, j)を近隣とする。

このとき、k-m間の距離 Dkmは?

枝の長さの計算

i

j

mkDij

Djm

Dim

jkikij

kmjkjm

kmikim

DDD

DDD

DDD 連立方程式を解くと

2ijjmim

km

DDDD

枝の長さの計算

i

j

mkDij

Djm

Dim

(i, j)を近隣とする。

このとき、i-k間の距離 Dikは?

19

Page 20: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

枝の長さの計算

i

j

mkDij

Djm

Dim

)2(22

)2(22

n

RRDD

n

RRDD

ijijjk

jiijik

jlkljkj

ilkliki

DDnR

DDnR

)1(

)1(

連立方程式を解くと

Neighbor Joining(近隣結合)法

D Ai68 HK71 Vi75 Me88 NY05

Ai68 0 3 4 6 8

HK71 3 0 3 5 7

Vi75 4 3 0 4 6

Me88 6 5 4 0 4

NY05 8 7 6 4 0

入力距離行列D:

Neighbor Joining(近隣結合)法

D Ai68 HK71 Vi75 Me88 NY05

Ai68 0 3 4 6 8 21

HK71 3 0 3 5 7 18

Vi75 4 3 0 4 6 17

Me88 6 5 4 0 4 19

NY05 8 7 6 4 0 25

21 18 17 19 25

ik

iki DR を計算する.

Neighbor Joining(近隣結合)法

D Ai68 HK71 Vi75 Me88 NY05

Ai68 0 3 4 6 8 21

HK71 3 0 3 5 7 18

Vi75 4 3 0 4 6 17

Me88 6 5 4 0 4 19

NY05 8 7 6 4 0 25

21 18 17 19 25

を計算する.jiijij RRDNS )2(

S Ai68 HK71 Vi75 Me88 NY05

Ai68

HK71 -30

Vi75 -26 -26

Me88 -22 -22 -24

NY05 -22 -22 -24 -32

Neighbor Joining(近隣結合)法

D Ai68 HK71 Vi75 Me88 NY05

Ai68 0 3 4 6 8 21

HK71 3 0 3 5 7 18

Vi75 4 3 0 4 6 17

Me88 6 5 4 0 4 19

NY05 8 7 6 4 0 25

21 18 17 19 25

を計算する.jiijij RRDNS )2(

S Ai68 HK71 Vi75 Me88 NY05

Ai68

HK71 -30

Vi75 -26 -26

Me88 -22 -22 -24

NY05 -22 -22 -24 -32

近隣すなわち、Sijが最小となる組(i, j)を探す。

Neighbor Joining(近隣結合)法

D Ai68 HK71 Vi75 Me88 NY05

Ai68 0 3 4 6 8 21

HK71 3 0 3 5 7 18

Vi75 4 3 0 4 6 17

Me88 6 5 4 0 4 19

NY05 8 7 6 4 0 25

21 18 17 19 25

近隣を結合して枝の長さを計算する.

Ai68

HK71

Vi75 Me88

NY05Ai68

HK71

Vi75Me88

NY05

1)25(2

2519

2

4

)2(22

3)25(2

1925

2

4

)2(22

N

RRDD

N

RRDD

ijijjk

jiijik

1

3

20

Page 21: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

Neighbor Joining(近隣結合)法

D Ai68 HK71 Vi75 Me88 NY05

Ai68 0 3 4 6 8 21

HK71 3 0 3 5 7 18

Vi75 4 3 0 4 6 17

Me88 6 5 4 0 4 19

NY05 8 7 6 4 0 25

21 18 17 19 25

新しいノードから他の枝への距離を計算する

Ai68

HK71

Vi75Me88

NY05

1

3

2ijjmim

km

DDDD

MENY

32

464

42

475

52

486

MENYVi

MENYHk

MENYAi

D

D

D

54

3

Neighbor Joining(近隣結合)法

D Ai68 HK71 Vi75 Me88 NY05

Ai68 0 3 4 6 8 21

HK71 3 0 3 5 7 18

Vi75 4 3 0 4 6 17

Me88 6 5 4 0 4 19

NY05 8 7 6 4 0 25

21 18 17 19 25

距離行列を更新する

Ai68

HK71

Vi75Me88

NY05

1

3

MENY

54

3

D Ai68 HK71 Vi75 MeNY

Ai68 0 3 4 5

HK71 3 0 3 4

Vi75 4 3 0 3

MeNY 5 4 3 0

Neighbor Joining(近隣結合)法

新しい距離行列で再スタート

D Ai68 HK71 Vi75 MeNY

Ai68 0 3 4 5

HK71 3 0 3 4

Vi75 4 3 0 3

MeNY 5 4 3 0

Neighbor Joining(近隣結合)法

ik

iki DR を計算する.

D Ai68 HK71 Vi75 MeNY

Ai68 0 3 4 5 12

HK71 3 0 3 4 10

Vi75 4 3 0 3 10

MeNY 5 4 3 0 12

12 10 10 12

Neighbor Joining(近隣結合)法

を計算する.jiijij RRDNS )2(

D Ai68 HK71 Vi75 MeNY

Ai68 0 3 4 5 12

HK71 3 0 3 4 10

Vi75 4 3 0 3 10

MeNY 5 4 3 0 12

12 10 10 12

S Ai68 HK71 Vi75 MeNY

Ai68

HK71 -16

Vi75 -14 -14

MeNY -14 -14 -16

Neighbor Joining(近隣結合)法

D Ai68 HK71 Vi75 MeNY

Ai68 0 3 4 5 12

HK71 3 0 3 4 10

Vi75 4 3 0 3 10

MeNY 5 4 3 0 12

12 10 10 12

を計算する.jiijij RRDNS )2(

S Ai68 HK71 Vi75 MeNY

Ai68

HK71 -16

Vi75 -14 -14

MeNY -14 -14 -16

近隣すなわち、Sijが最小となる組(i, j)を探す。

21

Page 22: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

Neighbor Joining(近隣結合)法

近隣を結合して枝の長さを計算する.

1)24(2

1210

2

3

)2(22

2)24(2

1012

2

3

)2(22

N

RRDD

N

RRDD

ijijjk

jiijik

Ai68

HK71

Vi75Me88

NY05

1

3

MeNY

D Ai68 HK71 Vi75 MeNY

Ai68 0 3 4 5 12

HK71 3 0 3 4 10

Vi75 4 3 0 3 10

MeNY 5 4 3 0 12

12 10 10 12

Ai68

HK71

Vi75Me88

NY05

1

3

MeNY

2

1

Neighbor Joining(近隣結合)法

新しいノードから他の枝への距離を計算する

2ijjmim

km

DDDD

22

334

32

345

Vi75AiHK

MeNYAiHK

D

D

D Ai68 HK71 Vi75 MeNY

Ai68 0 3 4 5 12

HK71 3 0 3 4 10

Vi75 4 3 0 3 10

MeNY 5 4 3 0 12

12 10 10 12

Ai68

HK71

Vi75Me88

NY05

1

3

MeNY

2

1AiHK

32

Neighbor Joining(近隣結合)法

D Ai68 HK71 Vi75 MeNY

Ai68 0 3 4 5 12

HK71 3 0 3 4 10

Vi75 4 3 0 3 10

MENY 5 4 3 0 12

12 10 10 12

Ai68

HK71

Vi75Me88

NY05

1

3

MeNY

2

1AiHK

32

距離行列を更新する

D AiHK Vi75 MeNY

AiHK 0 2 3

Vi75 2 0 3

MeNY 3 3 0

Neighbor Joining(近隣結合)法

Ai68

HK71

Vi75Me88

NY05

1

3

MeNY

2

1AiHK

N=2になるまで、繰り返す。

D AiHK Vi75 MeNY

AiHK 0 2 3

VI75 2 0 3

MeNY 3 3 0

32

3

Ai68

HK71

Vi75Me88

NY05

1

3

MeNY

2

1AiHK

2

1

2ijjmim

km

DDDD

1AiHKVi

系統樹を出力

13

1

2

1

12

Ai68

HK71

Vi75 Me88

NY05

D Ai68 HK71 Vi75 Me88 NY05

Ai68 0 3 4 6 8

HK71 3 0 3 5 7

Vi75 4 3 0 4 6

Me88 6 5 4 0 4

NY05 8 7 6 4 0

入力

出力

アルゴリズム

1

}{}{}{ 2

}{}{

)2(22

)2(22

,

)(

;)2(,

;

2||

1 },,,1{

),,,(JoiningNeighbor Procedure 21

return

dowhile

kk

jikLL

DDDDjiLm

n

RRDD

n

RRDD

kji

i,jS

RRDNSLji

DRLi

L

nknL

sss

ijjmimkm

ijijjk

jiijik

ij

jiijij

ikiki

n

とするに対し、すべての

とする

とする

を作るを子にもつ節点節点

を見つけるが最小となる組

に対し、すべての

とするに対し、すべての

22

Page 23: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

ポイント

i

j

mkDij

Djm

Dim

2ijjmim

km

DDDD

)2(22

)2(22

n

RRDD

n

RRDD

ijijjk

jiijik

進化系統樹の統計的評価

Bootstrap法による系統樹の検定

ランダム選択されたサイトから系統樹を作成し、得られた系統樹の確からしさを評価する手法

Aichi68:GGC CAA GAC

Victoria75:GCC CAA GAA

Memphis88:GCC CAA AAA

NewYork05:GCT CAG AAA

HongKong71:GCC CAA GAC

Aichi68:GCA GCG AAC

Victoria75:CCA GCC AAA

Memphis88:CCA ACC AAA

NewYork05:CCG ACC AGA

HongKong71:CCA GCC AAC

オリジナル

2,4,6,7,4,2,8,9,6

ランダムにサイトを選択

123 456 789 246 742 896

1000回程度繰り返す

系統樹作成

オリジナルから作った系統樹

比較、トポロジーの一致をカウント

The Bootstrap technique

For Your Further Understanding

Dan Graur and Wen-Hsiung Li:

Fundamentals of Molecular Evolution

Sinauer Associates; 2nd edition (January 15, 2000)

ISBN-10: 0878932666

ISBN-13: 978-0878932665

23

Page 24: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

生命情報と機械学習

北海道大学人獣共通感染症リサーチセンター

バイオインフォマティクス部門

伊藤公人

[email protected]

さきがけ数学塾 「数学を使う - 生命現象への挑戦-」

機械学習

学習アルゴリズムe1e2…

訓練例

規則f1f2…

例以外のデータ

正しく処理

人間が自然に行っている学習能力と同様の機能をコンピュータで実現させるための技術・手法。

データから未知の値、規則、式などを学習する。

学習

計算機科学と生命科学の境界

アルゴリズム

形式化された問題

生命情報

出力 入力

計算機科学と生命科学の境界においては、

「データから何が判明し得るのか」

「どのような観点から分析を行えば、データを有効に活用できるのか」

「どのような構造をとっているのか」

が事前に判っていないことがある。

機械学習を形式的に定義するには

どのような規則を学習させたいのか?

形式言語、関数、パターン、 etc

規則をどのように出力するのか?

文法、式、パラメータ、etc

例をどのように与えるのか?

正負の例、入出力関係、ノイズの有無、 etc

どのように学習させるのか?

アルゴリズム

どのような学習結果を正しいと見るか?

生命情報を用いた機械学習問題

モチーフ発見

塩基配列に共通する部分文字列を発見する。

タンパク質の二次構造の予測

アミノ酸配列の部分配列から、二次構造(αへリックス、βシート)を予測する。

遺伝子領域の予測

塩基配列から、タンパク質をコードしている領域を推定する。

モチーフ発見

次の14本の塩基配列に共通する部分文字列は?

1:GCTTTTTTCTCGGGATTTCCCCGTGAGCAGCCTTCTGACCTGG2:ATTCTCGGGATTTCCTACGAAACCGAATAGGCGCCATACCCTA3:CTTGGTCTGTTAGGTTGTGGCCCTCACGTTCGGGATTTCCGGG4:GTGATGAAGCTCTAAGGTCTCAGCAATCGGGATTTCCCAGGCT5:AGGACGAGCCATTACGGTCGGGATTTCCGGAGCTACACCCCCC6:GCTAGACTTAACAGATCGGGATTTCCGTCCGCACGCATTACCT7:GCATCTCTGATATAATCCAGAGGCATAGTCGGGATTTCCGACA8:TGTGCATTAATGTCGGGATTTCCCTGCAGAAGATCACAGGTTA9:GATTCGGGATTTCCCGGGCACCGGCGGCAAGTTACCGCTGTCC

10:GTCTATGTCGACTCTGCGCGCCAAGCCGAGTCGGGATTTCCAA11:GAGTCCAAATTACGCCTTTCTCGGGATTTCCCACACACGAGTC12:AGAGATCAAGAGCTTCGCCTTCGGGATTTCCATGCATAGTGGC13:ATCGGGATTTCCCCAAGATACCGAGTAATTAATTTTGCCTCAT14:ATAGTCTTCATTCGGGATTTCCTCTAGGGTAGATCCCGGGTTT

24

Page 25: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

モチーフ発見

次の14本の塩基配列に共通する部分文字列は?

1:GCTTTTTTCTCGGGATTTCCCCGTGAGCAGCCTTCTGACCTGG2:ATTCTCGGGATTTCCTACGAAACCGAATAGGCGCCATACCCTA3:CTTGGTCTGTTAGGTTGTGGCCCTCACGTTCGGGATTTCCGGG4:GTGATGAAGCTCTAAGGTCTCAGCAATCGGGATTTCCCAGGCT5:AGGACGAGCCATTACGGTCGGGATTTCCGGAGCTACACCCCCC6:GCTAGACTTAACAGATCGGGATTTCCGTCCGCACGCATTACCT7:GCATCTCTGATATAATCCAGAGGCATAGTCGGGATTTCCGACA8:TGTGCATTAATGTCGGGATTTCCCTGCAGAAGATCACAGGTTA9:GATTCGGGATTTCCCGGGCACCGGCGGCAAGTTACCGCTGTCC

10:GTCTATGTCGACTCTGCGCGCCAAGCCGAGTCGGGATTTCCAA11:GAGTCCAAATTACGCCTTTCTCGGGATTTCCCACACACGAGTC12:AGAGATCAAGAGCTTCGCCTTCGGGATTTCCATGCATAGTGGC13:ATCGGGATTTCCCCAAGATACCGAGTAATTAATTTTGCCTCAT14:ATAGTCTTCATTCGGGATTTCCTCTAGGGTAGATCCCGGGTTT

モチーフ発見の意義

関連する遺伝子配列の上流に共通した塩基配列が見られることがある。

転写因子 特定のモチーフに結合し、下流にある遺伝子の発現を制御する。

GCTTTTTTCTATACCGTGAGCAGCCTTCTGACCTGG

TATA-binding protein

プロファイル行列

NF-κBの結合部位 1:A C G G T A A T T A C2:T C A G G C T T T C C3:T A G G G A T A T C C4:T C G G G A T T T C T5:T C G G T A A T T G C6:T C G G G G T T A C T7:G C G G G A G T T T C8:T G G G G A T T T C C9:C G G G G A T T T T T

10:T C G C G A T C T C C

A:1 1 1 0 0 8 2 1 1 1 0T:7 0 0 0 2 0 7 8 9 2 3G:1 2 9 9 8 1 1 0 0 1 0C:1 7 0 1 0 1 0 1 0 6 7

プロファイル

コンセンサス配列 T C G G G A T T T C C

コンセンサススコア

NF-κBの結合部位1:A C G G T A A T T A C2:T C A G G C T T T C C3:T A G G G A T A T C C4:T C G G G A T T T C T5:T C G G T A A T T G C6:T C G G G G T T A C T7:G C G G G A G T T T C8:T G G G G A T T T C C9:C G G G G A T T T T T

10:T C G C G A T C T C C

A:1 1 1 0 0 8 2 1 1 1 0T:7 0 0 0 2 0 7 8 9 2 3G:1 2 9 9 8 1 1 0 0 1 0C:1 7 0 1 0 1 0 1 0 6 7

プロファイル

コンセンサススコア Score7+7+9+9+8+8+7+8+9+6+7 =85

モチーフ発見問題

与えられたDNA配列集合に対して、各配列から一つづつ選んだl-merの集合で、コンセンサススコアを最大化する。

入力:

配列集合を表すt×n行列 DNAと、見つけるべきパタンの長さl

出力:

Score(s, DNA)を最大化するt個の開始位置の配列s=(s1,…,st)

モチーフ発見

1:GAGCAGCGATATTGAGATCTATAT2:TGACTGACAGTAGTATAATGATGG3:GCCTATAAAAGGGCCTACTTTATG4:CTGGCTAGCTTTATACGTTACGCC5:TAATCGAGCAGTAAGGACGTATAC6:GGTCCCTTTTTCGAAAGTATAGTT7:TATAGCTAAAGAAATGAGTATGGA8:GTATACTCCCGTTAGGACGCACAT9:TTGCTATAGTCGCTCTGGGAAGCG

10:AAACCGGCGGACACTGTATACCGA

l=4のとする。s=(20,14, 4, 12, 20, 18, 1, 2, 5, 17 )のとき、Score(s, DNA)=40で最大。

25

Page 26: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

モチーフ発見

1:GAGCAGCGATATTGAGATCTATAT2:TGACTGACAGTAGTATAATGATGG3:GCCTATAAAAGGGCCTACTTTATG4:CTGGCTAGCTTTATACGTTACGCC5:TAATCGAGCAGTAAGGACGTATAC6:GGTCCCTTTTTCGAAAGTATAGTT7:TATAGCTAAAGAAATGAGTATGGA8:GTATACTCCCGTTAGGACGCACAT9:TTGCTATAGTCGCTCTGGGAAGCG

10:AAACCGGCGGACACTGTATACCGA

l=4のとする。s=(20,14, 4, 12, 20, 18, 1, 2, 5, 17 )のとき、Score(s, DNA)=40で最大。

力まかせのアプローチ

bestMotif

ssbestMotif

DNAssScorebestScore

bestScoreDNAssScore

n-ln-lss

bestScore

lntDNA

t

t

t

t

),,(

),),,((

),),,((

)1,,1(,1),1( ),,(

0

),,,(hMotifSearcBruteForce

1

1

1

1

return

if

to fromeachfor

 

BruteForceMotifSearchの計算量

各インデックスsiの選び方:

n-l+1個の選択肢

t個の配列の開始位置の選び方

(n-l+1)t個の選択肢

スコアの計算O(l)

全体の計算量は、O(lnt)。

中央文字列を探すアプローチ

1:A C G G T A A T T A C2:T C A G G C T T T C C3:T A G G G A T A T C C4:T C G G G A T T T C T5:T C G G T A A T T G C6:T C G G G G T T A C T7:G C G G G A G T T T C8:T G G G G A T T T C C9:C G G G G A T T T T T

10:T C G C G A T C T C C

V:T C G G G A T T T C C

モチーフ発見問題は、別の見方をすると、中央文字列を発見する問題としてとらえることができる。

dH = 4dH = 2dH = 2dH = 1dH = 3dH = 3dH = 3dH = 1dH = 4dH = 2

ハミングディスタンス

モチーフ発見

次の14本の塩基配列に共通する部分文字列は?

1:GCTTTTTTCTCGGGATTTCCCCGTGAGCAGCCTTCTGACCTGG2:ATTCTCGGGATTTCCTACGAAACCGAATAGGCGCCATACCCTA3:CTTGGTCTGTTAGGTTGTGGCCCTCACGTTCGGGATTTCCGGG4:GTGATGAAGCTCTAAGGTCTCAGCAATCGGGATTTCCCAGGCT5:AGGACGAGCCATTACGGTCGGGATTTCCGGAGCTACACCCCCC6:GCTAGACTTAACAGATCGGGATTTCCGTCCGCACGCATTACCT7:GCATCTCTGATATAATCCAGAGGCATAGTCGGGATTTCCGACA8:TGTGCATTAATGTCGGGATTTCCCTGCAGAAGATCACAGGTTA9:GATTCGGGATTTCCCGGGCACCGGCGGCAAGTTACCGCTGTCC

10:GTCTATGTCGACTCTGCGCGCCAAGCCGAGTCGGGATTTCCAA11:GAGTCCAAATTACGCCTTTCTCGGGATTTCCCACACACGAGTC12:AGAGATCAAGAGCTTCGCCTTCGGGATTTCCATGCATAGTGGC13:ATCGGGATTTCCCCAAGATACCGAGTAATTAATTTTGCCTCAT14:ATAGTCTTCATTCGGGATTTCCTCTAGGGTAGATCCCGGGTTT

TotalDistance 文字列vと、i番目のDNA配列の位置siで始まるl-merとの距離をdH(v,si)をする。

DNA配列の開始位置の並びsに対して、vの総ハミング距離を次のように定義する。

t

iHH sivdvd

1

),(),( s

与えられたvとあらゆるDNAの開始位置の並びsとの総ハミング距離のうち、最小のものを

),(min),nce(TotalDista ss

vdDNAv H

と定義する。

26

Page 27: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

TotalDistanceの例

v=TATAとする。

1:GAGCAGCGATATTGAGATCTATAT2:TGACTGACAGTAGTATAATGATGG3:GCCTATAAAAGGGCCTACTTTATG4:CTGGCTAGCTTTATACGTTACGCC5:TAATCGAGCAGTAAGGACGTATAC6:GGTCCCTTTTTCGAAAGTATAGTT7:TATAGCTAAAGAAATGAGTATGGA8:GTATACTCCCGTTAGGACGCACAT9:TTGCTATAGTCGCTCTGGGAAGCG

10:AAACCGGCGGACACTGTATACCGA

TotalDistance(v,DNA)=0

0000000000

最小のハミングディスタンス

中央文字列

全てのl-merのうちTotalDistance(v,DNA)が最小となるvを中央文字列という。

1:GAGCAGCGATATTGAGATCTATAT2:TGACTGACAGTAGTATAATGATGG3:GCCTATAAAAGGGCCTACTTTATG4:CTGGCTAGCTTTATACGTTACGCC5:TAATCGAGCAGTAAGGACGTATAC6:GGTCCCTTTTTCGAAAGTATAGTT7:TATAGCTAAAGAAATGAGTATGGA8:GTATACTCCCGTTAGGACGCACAT9:TTGCTATAGTCGCTCTGGGAAGCG

10:AAACCGGCGGACACTGTATACCGA

TotalDistance(TATA,DNA)=0 ‘TATA’は中央文字列

中央文字列問題

与えられたDNA配列集合の中央文字列をもとめよ。

入力:

配列集合を表すt×n行列 DNAと、見つけるべきパタンの長さl

出力:

TotalDistance(v, DNA)が最小となるl-mer v

モチーフ発見問題と中央文字列問題

1:GCTTTTTTCTCGGGATTTCCCCGTGAGCAGCCTTCTGACCTGG2:ATTCTCGGGATTTCCTACGAAACCGAATAGGCGCCATACCCTA3:CTTGGTCTGTTAGGTTGTGGCCCTCACGTTCGGGATTTCCGGG4:GTGATGAAGCTCTAAGGTCTCAGCAATCGGGATTTCCCAGGCT5:AGGACGAGCCATTACGGTCGGGATTTCCGGAGCTACACCCCCC6:GCTAGACTTAACAGATCGGGATTTCCGTCCGCACGCATTACCT7:GCATCTCTGATATAATCCAGAGGCATAGTCGGGATTTCCGACA8:TGTGCATTAATGTCGGGATTTCCCTGCAGAAGATCACAGGTTA9:GATTCGGGATTTCCCGGGCACCGGCGGCAAGTTACCGCTGTCC10:GTCTATGTCGACTCTGCGCGCCAAGCCGAGTCGGGATTTCCAA11:GAGTCCAAATTACGCCTTTCTCGGGATTTCCCACACACGAGTC12:AGAGATCAAGAGCTTCGCCTTCGGGATTTCCATGCATAGTGGC13:ATCGGGATTTCCCCAAGATACCGAGTAATTAATTTTGCCTCAT14:ATAGTCTTCATTCGGGATTTCCTCTAGGGTAGATCCCGGGTTT

モチーフ発見問題 与えられたDNA配列集合に対して、各配列から一つづつ選んだl-

merの集合で、コンセンサススコアを最大化する。

中央文字列問題 与えられたDNA配列集合の中央文字列を求めよ。

モチーフ発見問題

等価

中央文字列問題

力まかせのアプローチ

bestWord

wordbestWord

DNAwordnceTotalDistacebestDistan

cebestDistanDNAwordnceTotalDista

word

cebestDistan

bestWord

lntDNA

),(

),(

TTT...TAAA...A

AAA...A

),,,(chMedianSearBruteForce

return

if

to fromeachfor

BruteForceMedianSearchの計算量

word枚のTotalDistanceの計算

O(nt)

長さlのword の選び方

4lの選択肢

全体の計算量は、O(4lnt)。

*BroteForceMotifeSearchはO(lnt)。

27

Page 28: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

中央文字列の探索木

***

A** C**

AAA AAT AAG AAC

AA* AT* AG* AC*

G**T**

Preorder()1.現在のノード2.一番目の子のPreorder3.一番目の子のPreorder4.一番目の子のPreorder5.一番目の子のPreorderreturn

キーアイディア

1:GAGCAGCGATATTGAGATCTATAT2:TGACTGACAGTAGTATAATGATGG3:GCCTATAAAAGGGCCTACTTTATG4:CTGGCTAGCTTTATACGTTACGCC5:TAATCGAGCAGTAAGGACGTATAC6:GGTCCCTTTTTCGAAAGTATAGTT7:TATAGCTAAAGAAATGAGTATGGA8:GTATACTCCCGTTAGGACGCACAT9:TTGCTATAGTCGCTCTGGGAAGCG

10:AAACCGGCGGACACTGTATACCGA

TotalDistance(XA,DNA)>TotalDistance(X,DNA)

TotalDistance(T,DNA)

TotalDistance(TA,DNA)

TotalDistance(TAT,DNA)

TotalDistance(TATA, DNA)

<<

分岐限定法

***

A** C**

AAA AAT AAG AAC

AA* AT* AG* AC*

G**T**

現在のbestWordbestDistance=0

接頭辞のtotalDistanceが1以上なら、

どう文字を後ろにつけても1以下にならない。現在のbestより大きい、子は探索する必要なし。

tD (AG,DNA)=1

tD(T,DNA)=1 tD(G,DNA)=1

分岐限定アルゴリズム

bestWords

cebestDistan

bestWords

lntDNA

),0,rder(searchPreo

{}

),,,(chMedianSear

return

}{

)ance( totalDist

}{

)nce(totalDista

)ance( totalDist

)1,C,rder(SearchPreo

)1,G,rder(SearchPreo

)1,T,rder(SearchPreo

)1,A,rder(SearchPreo

)ance( totalDist

),,rder(SearchPreo

return

if else

if

else

if

if

sbestWordsbestWords

cebestDistans

sbestWords

scebestDistan

cebestDistans

lis

lis

lis

lis

cebestDistans

li

lis

モチーフ発見の高速なアルゴリズム

CONSENSUSアルゴリズム

[Hertz&Stormo 1999]

MITRA [Eskin&Pevzner2002]

MaxMotif [Arimura&Uno 2005]

タンパク質の二次構造

αヘリックス

βシート

主鎖の部分的な立体構造のことを二次構造という。

28

Page 29: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

二次構造予測

アミノ酸配列中の各残基が、{αへリックス、βシート、それ以外}のどれに属するかを予測

-----------------------SSS-------SSS--SSS--------SSS-----SSSQDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILD

-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----SGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEF

QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEF

二次構造予測

アミノ酸配列中の各残基が、α、β、それ以外のどれに属するかを予測

三次構造(全体)を予測するよりは容易

でたらめに推定しても、33.3%の的中率

最も高精度なソフトを使えば、70%~80%の的中率

ニューラルネット、HMM、サポートベクタマシンなど機械学習のテクニックが使われている

ソフトウェア PROF、EVA(ニューラルネット)

三次構造予測への応用が期待される。

二次構造予測手法

Chou-Fasman法(1974) 15タンパク質から二次構造頻度Pα、Pβを計算し、それを基にある閾

値以上をα、βと予測する・・・精度:50-60%

GOR(Garnier,Osguthorpe,Robson)法(1978) 17残基のWindowで配列をスキャンし、その情報量を基に、中心の

アミノ酸の二次構造(α、β、)を予測・・・精度:約65%

ニューラルネットワーク(NN)法(1988~) 13-17残基のWindowでNNを学習させ、二次構造(α、β、コイル)を

予測

NNPREDICT(1990),PHD(1993),PSIPRED(1999) Nearest Neighbor法

PREDATOR (1995)

インフルエンザウイルスの

ヘマグルチニンを用いた予測の実験

QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQT

-----------------------SSS-------SSS--SSS--------SSS-----SSS-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----SSS-------------SSSSSS--SSS----SSS----------SSSSSS------SSSSSSSSS---HHHHHHHH-----SSSSS----SSSS---------------SSSSSSSSS----SSSSSSSS--SSS-SSS-------SSSS---SSS---------------------------------------SSS-----------

アミノ酸配列

結晶構造における二次構造(正解)

Chou-Fasman法で実際に試してみる

http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1

Sequence:QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQT

Chou-Fasman法の予測結果QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILD------------HHHHHHH-----HHHHHHHHHHHHHHHHHHHH-------------HHH---------SSSSS-----SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS------SSS-----------------------SSS-------SSS--SSS--------SSS-----SSSGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH--------------HH--------HHHSSSSSSSSSS-----SSSSSSSSSSSS------SSSSSSSSS-----SSSSSSSSSSSSS-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----SITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWHHHHH-----------------------HHHHHHH-------HH-------HHHHHHHHHSSSSSSSSSSS---------------SSSSSSSS-----SSSSSSSS------SSSSSSSSS-------------SSSSSS--SSS----SSS----------SSSSSS------SSSSSGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGHHH-----HHHHHHHHH-------HHHHHHHHH----------------HHHHHHHHHHHS-----SSSSSSSSSS-----SSSSSSSSSSSSSSSS---SSSSS----SSSSSSS----SSSS---HHHHHHHH-----SSSSS----SSSS---------------SSSSSSSSS---DVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKIHHHH-----------------------------------------------HHHHHHHH--SSSS-----------SSSSS------------SSSSSSSSS-----------SSSSSSS-SSSSSSSS--SSS-SSS-------SSSS---SSS-------------------------TYGACPKYVKQNTLKLATGMRNVPEKQT------HHHHHHHHHHHHHH--HH----SSSSSSSSSSSSSSSSSSSSS-SSSS----------------SSS-----------

(予測)(予測)(正解)

(予測)(予測)(正解)

(予測)(予測)(正解)

(予測)(予測)(正解)

(予測)(予測)(正解)

(予測)(予測)(正解)

29

Page 30: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

NNPREDICTで実際に試してみる

http://www.cmpharm.ucsf.edu/%7Enomi/nnpredict.html

Sequence:QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQT

NNPREDICTの予測結果QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILD----------HSSHS---------SSSS-----SSS----HHSS------S-------S------------------------SSS-------SSS--SSS--------SSS-----SSS

GIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEF----HSH------------------HHHHH------------------SSSS-----SSS-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----S

ITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWSSH---SS-S-----------------SSHHHSS--------SS-----------HHSSSSS-------------SSSSSS--SSS----SSS----------SSSSSS------SSSSS

GIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGS-----------SSSSS----SSS--------SSS------SSS----SSSSSSSS----SSSS---HHHHHHHH-----SSSSS----SSSS---------------SSSSSSSSS---

DVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKI-SSSS------S------SS------SS------------S--------------------SSSSSSSS--SSS-SSS-------SSSS---SSS-------------------------

TYGACPKYVKQNTLKLATGMRNVPEKQTS-----------HHHHH-------------------------SSS-----------

(予測)(正解)

(予測)(正解)

(予測)(正解)

(予測)(正解)

(予測)(正解)

(予測)(正解)

PSIPREDで実際に試してみる

http://bioinf.cs.ucl.ac.uk/psipred/psiform.html

Sequence:QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQT

PSIPREDによる予測結果QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILD-----------SSSSSSSS-----SSSSS----SSSS-SSSSSS------HH-----SSS-----------------------SSS-------SSS--SSS--------SSS-----SSS

GIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEF-----SSSSSS-----------SSSSSSS---------------HHHHHHHHH----SSS-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----S

ITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWS-------------SSSS-------HHHHHHHHHHH---------SSSS-----SSSSSSSS-------------SSSSSS--SSS----SSS----------SSSSSS------SSSSS

GIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPG-------HHHHHHHH----SSSSSSS---SSSS--------------SSSSSSSSSS---SSSS---HHHHHHHH-----SSSSS----SSSS---------------SSSSSSSSS---

DVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKI-SSSSSS---SS---SSSSSS-----SS-----------SSS-------------------SSSSSSSS--SSS-SSS-------SSSS---SSS-------------------------

TYGACPKYVKQNTLKLATGMRNVPEKQTSS-----SS----SSS--------------------------SSS-----------

(予測)(正解)

(予測)(正解)

(予測)(正解)

(予測)(正解)

(予測)(正解)

(予測)(正解)

PREDATORで実際に試してみる

http://www-db.embl-heidelberg.de/jss/servlet/de.embl.bk.wwwTools.GroupLeftEMBL/argos/predator/predator_info.html

Sequence:QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQT

コマンドライン

PREDATORによる予測結果QDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILD---------SSSSSS---------SSSSS----SSSS----SSSS--------------------------------------SSS-------SSS--SSS--------SSS-----SSS

GIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEF---HHHHHHH---------------SSS-----------------HHHHHHHH----SSS-----HHHHHH--HHHHHH------SSSS----------SSS--HHHHHHHHHHH----S

ITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWSS--SSSS----------------------------------SSSSS--------SSSSSSS-------------SSSSSS--SSS----SSS----------SSSSSS------SSSSS

GIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGSS----------SSSSS----SSSS------------------------SSSSSSSS---SSSS---HHHHHHHH-----SSSSS----SSSS---------------SSSSSSSSS---

DVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKI-SSSS-------------------------------SSS-------------------SS-SSSSSSSS--SSS-SSS-------SSSS---SSS-------------------------

TYGACPKYVKQNTLKLATGMRNVPEKQTSS------HHHHH-----------------------------SSS-----------

(予測)(正解)

(予測)(正解)

(予測)(正解)

(予測)(正解)

(予測)(正解)

(予測)(正解)

30

Page 31: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

コンピューターでインフルエンザウイルスの変異を予測する

伊藤公人

北海道大学 人獣共通感染症リサーチセンター・准教授

さきがけ数学塾 「数学を使う - 生命現象への挑戦-」 インフルエンザウイルス

16 HA (H1-H16)× 9 NA (N1-N9)144 亜型

カモなどの水禽類を自然宿主とする人獣共通感染症病原体 鳥のウイルスが種の壁を越え人に馴化するとパンデミックを引き起こす。

パンデミックの後、人の免疫圧による選択淘汰を受けてウイルスが変異し続け、毎年世界中で季節性インフルエンザを引き起こす。

インフルエンザの予防にはワクチン接種が有効 ワクチン株を頻繁に更新しなければならない。

ワクチン株の更新

変異 変異 変異 変異

人の免疫圧による選択淘汰パンデミック

季節性インフルエンザ

季節性インフルエンザ

季節性インフルエンザ

ワクチン株の更新

ワクチン株の更新

H1N1H1N2H3N2

H3N8H7N7H3N3

H4N5H7N7

H13N2H13N9

H[1-10]N[1-9]

1918スペインかぜ(H1N1)

1957アジアかぜ(H2N2)

1968香港かぜ(H3N2)

2009 今回のH1N1

北大における

インフルエンザウイルスの野外調査

大野池

カモのフン

27

H3N8(1)

15 26 294

H10N5(1)

8 12 19 2224

H10N5(2)

2 5 9

H1N1(1)H4N2(1)H5N3(1)H10N5(2)H15N8(1)

H4N2(1)

H4N2(1)H15N8(1)

H10N5(2)

H4N2(1)

H5N3(1)

H4N2(1)

H4N2(1)

H6N1(4)

H4N2(1)H5N3(1)H6N1(1)

26 Influenza virus isolates(N=340)

16 19 26

DecNovSep Oct

インフルエンザウイルス

16 HA (H1-H16)× 9 NA (N1-N9)144 亜型

カモなどの水禽類を自然宿主とする人獣共通感染症病原体 鳥のウイルスが種の壁を越え人に馴化するとパンデミックを引き起こす。

パンデミックの後、人の免疫圧による選択淘汰を受けてウイルスが変異し続け、毎年世界中で季節性インフルエンザを引き起こす。

インフルエンザの予防にはワクチン接種が有効 ワクチン株を頻繁に更新しなければならない。

ワクチン株の更新

変異 変異 変異 変異

人の免疫圧による選択淘汰パンデミック

季節性インフルエンザ

季節性インフルエンザ

季節性インフルエンザ

ワクチン株の更新

ワクチン株の更新

H1N1H1N2H3N2

H3N8H7N7H3N3

H4N5H7N7

H13N2H13N9

H[1-10]N[1-9]

1918スペインかぜ(H1N1)

1957アジアかぜ(H2N2)

1968香港かぜ(H3N2)

2009 今回のH1N1

シーズン WHO推奨ワクチン株 実際に流行ったウイルス株

1997-1998 A/Wuhan/359/95-like A/Sydney/5/97-like1998-1999 A/Sydney/5/97-like A/Sydney/5/97-like1999-2000 A/Sydney/5/97-like A/Moscow/10/99-like2000-2001 A/Moscow/10/99-like A/Moscow/10/99-like2001-2002 A/Moscow/10/99-like A/Moscow/10/99-like2002-2003 A/Moscow/10/99-like A/Moscow/10/99-like, A/Fujian/411/2002-like2003-2004 A/Moscow/10/99-like A/Fujian/411/2002-like2004-2005 A/Fujian/411/2002-like A/California/7/2004-like2005-2006 A/California/7/2004-like A/Wisconsin/67/2005-like2006-2007 A/Wisconsin/67/2005-like A/Wisconsin/67/2005-like2007-2008 A/Wisconsin/67/2005-like A/Brisbane/10/2007-like2008-2009 A/Brisbane/10/2007-like A/Brisbane/10/2007-like2009-2010 A/Brisbane/10/2007-like A/Perth/16/2009-like2010-2011 A/Perth/16/2009-like A/Perth/16/2009-like

A香港型(H3N2)インフルエンザウイルスの

ワクチン株と実際の流行株

14 シーズン中8シーズンで不一致:ワクチンの部分的効果はあるが、一致することが望ましい。

インフルエンザウイルスの構造粒子表面のHAタンパクとNAタンパク:主要抗原(抗体のターゲット)

粒子内部に8本RNA遺伝子がある

HA

NA

RNA

RNA複製酵素

[Noda T., Nature (2006)]

31

Page 32: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

輪切りウイルス粒子

A/WSN/33

野田 岳志 Noda et al, Nature (2006)

RNA

インフルエンザウイルスの遺伝子

Seg-ment

Length(nucleotides)

EncodedProtein

Length(polypeptide)

1 2,313 PB2 759

2 2,341 PB1 757

3 2,209 PA 716

4 1,736 HA 566

5 1,520 NP 498

6 1,467 NA 469

7 1,002 M1M2

25297

8 890 NS1NS2

230121

インフルエンザウイルス13,000塩基=13KB

ヒトゲノム3,000,000,000塩基=3GB

携帯で送れるサイズ DVDのサイズ

インフルエンザウイルスの複製

ウイルスRNA(遺伝子)

ATGAAGACCATCATTGCTTTGAGCT…

M K T I I A L S… 翻訳

C CN

H

H

H O

M

C CN

H

H O

K

C CN

H

H O

T

C CN

H

H O

OH

P

アミノ酸 アミノ酸 アミノ酸 アミノ酸

RNA(遺伝子)は、タンパク質の設計図

RNA複製酵素

タンパク質(部品)ウイルスRNA

子孫

複製

宿主細胞

携帯メールがなかった頃のチェーンメール

「不幸の手紙」

写し手が文言・言い回しを変えることにより、たくみに増え続ける。

効果的な「ころし文句」を獲得した手紙は一気に増え続ける。

手紙の内容がチェーンメールだと世の中に認識されると、流通量は激減する。

Scientific American, June, 2003, pp. 76-81, "Chain letters and evolutionary histories" by Charles H. Bennett, Ming Li, Bin Ma.

インフルエンザウイルスの

生き残り戦略

RNAポリメラーゼ(複製酵素)が精度が低い。

遺伝子のコピーミスが起こりやすい。

子孫ウイルスの多様性。

環境に適応したウイルスだけが生き残る。

∴∴

流行しているウイルス

突然変異を持った多様な子孫ウイルス

宿主免疫等による排除

生き残りが次に流行

∴∴

∴∴

∴∴

∴∴∴∴

∴∴∴∴

∴∴

∴∴

1968年のH3N2亜型のインフルエンザウイルスのアミノ酸配列

MKTIIALSYIFCLALGQDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQTRGLFGAIAGFIENGWEGMIDGWYGFRHQNSEGTGQAADLKSTQAAIDQINGKLNRVIEKTNEKFHQIEKEFSEVEGRIQDLEKYVEDTKIDLWSYNAELLVALENQHTIDLTDSEMNKLFEKTRRQLRENAEEMGNGCFKIYHKCDNACIESIRNGTYDHDVYRDEALNNRFQIKGVELKSGYKDWILWISFAISCFLLCVVLLGFIMWACQRGNIRCNICI

1968年の株: A/Aichi/2/1968(H3N2) HAのアミノ酸配列

32

Page 33: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

1971年のH3N2亜型のインフルエンザウイルスのアミノ酸配列

MKTIIALSYIFCLTLGQDLPGNDNSKATLCLGHHAVPNGTLVKTITDDQTEVTNATELVQSSSTGKICNNPHRILDGMDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLAASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGNTYPVLNVTMPNNDNFDKLYIWGVHHPSTDQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNINKITYGACPKYVKQNTLKLATGMRNVPEKQTRGLFGAIAGFIENGWEGMIDGWYGFRHQNSEGTGQAADLKSTQAAIDQINGKLNRIIEKTNEKFHQIEKEFSEVEGRIQDLEKYVEDTKIDLWSYNAELLVAMENQHTIDLTDSEMNKLFEKTRRQLRENAEDMGNGCFKIYHKCDNACIESIRNGTYDHDVYRDEALNNRFQIKGVELKSGYKDWILWISFAISCFLLCVVLLGFIMWACQRGNIRCNICI

1971年の株:A/Hong Kong/46/1971(H3N2)HAのアミノ酸配列

2005年のH3N2亜型のインフルエンザウイルスのアミノ酸配列

MKTIIALSYILCLVFAQKLPGNDNSTATLCLGHHAVPNGTIVKTITNDQIEVTNATELVQSSSTGGICDSPHQILDGENCTLIDALLGDPQCDGFQNKKWDLFIERSKAYSNCYPYDVPDYASLRSLVASSGTLEFNNESFNWTGVTQNGTSSACKRRSNNSFFSRLNWLTHLKFKYPALNVTMPNNEKFDKLYIWGVHHPGTDNDQISLYAQASGRITVSTKRSQQTVIPNIGSRPRVRDIPSRISIYWTIVKPGDILLINSTGNLIAPRGYFKIRSGKSSIMRSDAPIGKCNSECITPNGSIPNDKPFQNVNRITYGACPRYVKQNTLKLATGMRNVPEKQTRGIFGAIAGFIENGWEGMVDGWYGFRHQNSEGIGQAADLKSTQAAINQINGKLNRLIGKTNEKFHQIEKEFSEVEGRIQDLEKYVEDTKIDLWSYNAELLVALENQHTIDLTDSEMNKLFERTKKQLRENAEDMGNGCFKIYHKCDNACIGSIRNGTYDHDVYRDEALNNRFQIKGVELKSGYKDWILWISFAISCFLLCVALLGFIMWACQKGNIRCNICI

2005年の株: A/New York/191/2005(H3N2) HAのアミノ酸配列

MKTIIALSYIFCLALGQDLPGNDNSTATLCLGHHAVPNGTLVKTITDDQIEVTNATELVQSSSTGKICNNPHRILDGIDCTLIDALLGDPHCDVFQNETWDLFVERSKAFSNCYPYDVPDYASLRSLVASSGTLEFITEGFTWTGVTQNGGSNACKRGPGSGFFSRLNWLTKSGSTYPVLNVTMPNNDNFDKLYIWGIHHPSTNQEQTSLYVQASGRVTVSTRRSQQTIIPNIGSRPWVRGLSSRISIYWTIVKPGDVLVINSNGNLIAPRGYFKMRTGKSSIMRSDAPIDTCISECITPNGSIPNDKPFQNVNKITYGACPKYVKQNTLKLATGMRNVPEKQTRGLFGAIAGFIENGWEGMIDGWYGFRHQNSEGTGQAADLKSTQAAIDQINGKLNRVIEKTNEKFHQIEKEFSEVEGRIQDLEKYVEDTKIDLWSYNAELLVALENQHTIDLTDSEMNKLFEKTRRQLRENAEEMGNGCFKIYHKCDNACIESIRNGTYDHDVYRDEALNNRFQIKGVELKSGYKDWILWISFAISCFLLCVVLLGFIMWACQRGNIRCNICI

インフルエンザウイルスの変異予測

? どの位置のアミノ酸が置き換わるのか?

その置換がいつ起こるか?

どのアミノ酸に置き換わるのか?

HA たんぱくのアミノ酸配列

将来起こるHA上のアミノ酸置換を予測する。

変異予測のアプローチ

過去の抗原変異

1968(パンデミック)

2010(現在)

アミノ酸置換

=共通するパターン

コンピュータ解析によるパターンの発見

時間

201X(近い将来)

将来の抗原変異

ワクチン株を先回りして

準備

アミノ酸置換

アミノ酸置換

コンピュータ予測

アミノ酸置換

インターネット上に公開されている

インフルエンザウイルスの遺伝子配列

データベース中の配列データの増大

インフルエンザウイルスの塩基配列の数= 169,290本(2010年11月7日)

従来の解析手法

進化系統樹による解析が主流

株の進化系統を解析するのが目的

本日の講演

MDS法により配列データの次元を圧縮・視覚化する。

ウイルス変異のモデルを構築し、予測に応用し、予測の精度を検証する。 H3N2亜型ウイルス

のHAの進化系統樹

従来手法

0.01

500km

Madrid

Munich

Paris

Stockholm

Athens

Brussels Copenhagen

Lisbon

Rome Vienna

多次元尺度構成法(MDS)

[出力] 対象の配置

[入力] 距離の行列

アミノ酸配列の距離行列をMDSの入力として用いることにより、大量の配列を視覚化できる。

MDS

相違度に基づき、対象物を低次元空間上に配置する手法

Athen

s

Brussels

Copenhagen

Lisbo

n

Madrid

Mun

ich

Paris

Rom

e

Stockho

lm

Vienn

a

Athens 0Brussels 2963 0Copenhagen 3276 966 0Lisbon 4532 2084 2971 0Madrid 3949 1558 2498 668 0Munich 2179 747 1104 2507 2010 0Paris 3000 285 1176 1799 1273 821 0Rome 817 1511 2050 2700 2097 946 1476 0Stockholm 3927 1616 650 3231 3188 1754 1827 2707 0Vienna 1991 1175 1455 2937 2409 428 1249 1209 2105 0

ij

ji

ijijd,

2)( が小さくなるような対象物の配置を計算

ijd

D

33

Page 34: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

ij

MDS法による

H3N2ウイルスのHAのアミノ酸配列解析

ijd05 03 2 07 5 3 08 3 3 3 09 5 4 4 2 0

11 10 8 3 6 5 012 7 8 11 6 6 10 0

5

32

11

3

3

7

10

3

3

3

5

5

10

56

4

MDS法により、異なるアミノ酸の

数が、三次元空間上の相対距離で表されるようなウイルス株の配置を計算した。

三次元地図距離行列アミノ酸配列

過去40年間に人から分離されたH3N2亜型ウイルスのHAのアミノ酸配列2640本を取得した。

配列のすべての組み合わせ

について、異なるアミノ酸の数を求め、2640行2640列の距離行列を作成した。

HAの進化

A香港型(H3N2)ウイルスの流行における

HA配列の三次元空間での時間発展

(各点はウイルス株を表す。点間の相対距離は、配列間で異なるアミノ酸数を表す。)

0

10

20

30

40

50

60

70

0 10 20 30 40 50 60 70

dist

ance

in th

e 3D

spa

ce

number of different amino acids配列間で異なるアミノ酸の数

三次

元空

間上

での

距離

香港かぜの出現(1968)

最近(2010)

Movie

ijd

HAは一定の曲率をもつ曲線上を進化している。

直線的配置と曲線的配置の意味

(a) 直線的な配置の進化 (b) 曲線的な配置の進化

二回置換する残基がない。 同じ位置の残基が複数回置換

QTKLYLACWAT

QNKVYIACWAS

QTKLYLACWAT

QSKIYIACWAT QSKIYIACWAT

QSEIHIACWAS ウイルスの進化

H3N2亜型ウイルスのHAの進化

H3N2亜型ウイルスの進化

0回置換

1回置換

2回置換

3回置換

4回以上

一定の曲率:

分離年の差とアミノ酸置換数の関係に一定のパターンがあることを示唆

曲線的な進化

同じの位置のアミノ酸が複数回置換

Number of amino acid substitution

Num

ber o

f pos

ition

s

0 2 4 6 8

050

100

150

200

250

インフルエンザウイルスHA配列の

時間発展を表すモデル

各アミノ酸残基毎の置換確率の違いがガンマ分布に従うことを仮定することにより、ウイルス株の分離年の差とアミノ酸置換数の関係をよく回帰できる。

幹におけるアミノ酸置換の回数

アミノ酸

残基

位置

の数 同じ平均と分散を持つ

ガンマ分布の曲線

将来の変異株

HAの進化における

一定の曲率を説明するモデル

株の分離年の差

異なるアミノ酸の数

H3N2亜型ウイルスのHAの進化

一定の確率で同じ位置のアミノ酸が置き換わる。

分離年の差とHAのアミノ酸置換数の関係を予測できる。

0

10

20

30

40

50

60

70

0 5 10 15 20 25 30 35 40

a

xra

ay 1328

012.0,117.0 ra

一定の確率で同じ位置のアミノ酸が置き換わるとき

この位置に一番近い株を選ぶ

34

Page 35: 伊藤公人 - jst.go.jp · ルゴリズムについて学ぶ。 ペアワイズアライメント 二つの文字列について、文字間の対応関係を計算する。 Needleman-Wunsch

予測手法の評価方法:

遡及試験(Retrospective Test)

1997年から2009年の各年について、翌年のアミノ酸置換を予測し、実際に起こった置換と予測結果を比較することにより、予測の精度を評価した。

199719961995 1998 1999 2000 2001 2002 2003…

Predicted[…]

Actual[…]

Predicted[…]

Actual[…]

Predicted[…]

Actual[…]

Predicted[…]

Actual[…]

Predicted[…]

Actual[…]

Predicted[…]

Actual[…]

Test Year Predicted substitutions Actual substitutions in the next year

1997-1998 K62E T121N G124S V144I K156Q E158K V196A I236L N276K

K62E T121N G124S V144I K156Q E158K V196A N276K

1998-1999 G129E Y137S L194I V223I R57Q Y137S D172E

1999-2000 R109K I144N T192I D271N G5V Q33H K92T T192I D271N

2000-2001 V5G H33Q R50G T92K I144N T167A S199P S247C N271D P273S V5G H33Q T92K I144N N271D

2001-2002 S46F R50G E83K S186G V202I W222RG225D A106V N144D S186G

2002-2003L25I R50G H75Q E83K V106A A131T D144N H155T V202I W222R G225D V226I S227P

L25I R50G H75Q E83K V106A A131T D144N H155T Q156H V202I W222R G225D

2003-2004 I25V Y159F S189N S227P K145N Y159F S189N V226I S227P

2004-2005 K83R D291G

2005-2006 S193F D225N I274F G275C S193F D225N

2006-2007 G50E A106V S193F Y195H D225N G50E K140I

2007-2008 Q33R T48I D85G K207R K173Q

2008-2009 L3F K83N T128I L157S Q173N K276N A304S E62K N144K K158N N189K

2009-2010 L3F I25L K62E T131N A138S R142G K144N N158R Q173N K189N K62E K144N T212A

Overall precision =0.40 Overall recall=0.64

fntp

tp

fptp

tp

まとめ

多次元尺度構成法(MDS)により、H3N2亜型ウイルスのHAアミノ酸配列を解析した。

HAは一定の曲率をもつ曲線上を進化している。

HAの各位置の置換頻度の違いは、ガンマ分布に従う。

分離年の差とHAのアミノ酸置換数の関係を予測できる。

過去11年に溯って、それぞれ翌年のアミノ酸置換を予測する試験を行った。

翌年のアミノ酸置換を再現率=64%適合率=40%で予測可能

サーベイランスで得られるHAの遺伝子情報から、翌年の抗原変異株を比較的高い精度で予測できる可能性が示唆された。

WHOの2010-2011シーズン推奨ワクチン株(2010年12月発表)

>A/Perth/16/2009(H3N2)QKLPGNDNSTATLCLGHHAVPNGTIVKTITNDQIEVTNATELVQSSSTGEICDSPHQILDGKNCTLIDALLGDPQCDGFQNKKWDLFVERSKAYSNCYPYDVPDYASLRSLVASSGTLEFNNESFNWTGVTQNGTSSACIRRSKNSFFSRLNWLTHLNFKYPALNVTMPNNEQFDKLYIWGVHHPGTDKDQIFLYAQASGRITVSTKRSQQTVSPNIGSRPRVRNIPSRISIYWTIVKPGDILLINSTGNLIAPRGYFKIRSGKSSIMRSDAPIGKCNSECITPNGSIPNDKPFQNVNRITYGACPRYVKQNTLKLATGMRNVPEKQT

>A/Nanjing/1663/2010(H3N2)QKLPGNDNSTATLCLGHHAVPNGTIVKTITNDQIEVTNATELVQSSSTGKICDSPHQILDGKNCTLIDALLGDPQCDGFQNKKWDPFVERSKAYSNCYPYDVPDYASLRSLVASSGTLEFNNENFNWTGVTQNGTSSACIRRSKNSFFSRLNWLTHLNFKYSALNVTMPNNEQFDKLYIWGVHHPGTDKDQIFLYAQASGRITVSTKRSQQTVIPNIGSRPRVRNIPSRISIYWTIVKPGDILLINSTGNLIAPRGYFKMQRGKSSIMRSDAPIGKCNSECITPNGSIPNDKPFQNVNRITYGACPRYVKQNTLKLATGMRNVPEKQT

本システムでの予測された2011年以降の流行株(2010年12月)

A香港型(H3N2)ウイルスの流行におけるHA配列の三次元空間での時間発展

香港かぜの出現(1968)

HAの進化の方向性

E50K

S124N

P162S

I260M

R261QS262R

H3N2ウイルスの変異の予測

Research Center for Zoonosis ControlResearch Center for Zoonosis Control

ご清聴ありがとうございました。

35