23
生生生生生生生 生生生生生生生生生生生生生 阿阿阿 阿阿 阿阿阿阿 阿阿阿阿阿 阿阿阿阿阿阿阿阿阿阿阿阿阿阿阿阿

生命情報学入門 配列のつなぎ合わせと再編成

  • Upload
    fancy

  • View
    40

  • Download
    0

Embed Size (px)

DESCRIPTION

生命情報学入門 配列のつなぎ合わせと再編成. 阿久津 達也 京都大学 化学研究所 バイオインフォマティクスセンター. 講義予定. 5 月 24 日 : タンパク質立体構造予測法 5 月 31 日 : タンパク質立体構造予測演習 6 月 7 日 : 機械学習を用いたタンパク質の分類法 6 月 14 日 : タンパク質の分類法演習 6 月 21 日 : 配列のつなぎ合わせと再編成. 講義の内容. 配列のつなぎ合わせ 等長断片からの配列決定 最短共通拡大文字列 ゲノム再編成 逆位によるソーティング(符号なしの場合) 逆位によるソーティング(符号ありの場合). - PowerPoint PPT Presentation

Citation preview

Page 1: 生命情報学入門 配列のつなぎ合わせと再編成

生命情報学入門配列のつなぎ合わせと再編成

阿久津 達也

京都大学 化学研究所バイオインフォマティクスセンター

Page 2: 生命情報学入門 配列のつなぎ合わせと再編成

講義予定• 5 月 24 日 : タンパク質立体構造予測法• 5 月 31 日 : タンパク質立体構造予測演習• 6 月 7 日 : 機械学習を用いたタンパク質の

分類法• 6 月 14 日 : タンパク質の分類法演習• 6 月 21 日 : 配列のつなぎ合わせと再編成

Page 3: 生命情報学入門 配列のつなぎ合わせと再編成

講義の内容• 配列のつなぎ合わせ

– 等長断片からの配列決定– 最短共通拡大文字列

• ゲノム再編成– 逆位によるソーティング(符号なしの場合)– 逆位によるソーティング(符号ありの場合)

Page 4: 生命情報学入門 配列のつなぎ合わせと再編成

配列のつなぎ合わせ

Page 5: 生命情報学入門 配列のつなぎ合わせと再編成

配列のつなぎあわせ• ゲノム配列の決定

– 32 億文字を一度に決めるのは無理– (制限酵素を使って)短く切って、つなぎ合わせる

CTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAA

元の配列酵素を使って切断

CTCACTCAAAGGCGGTAA

GGTAATACGGTTATCCAC

TATCCACAGAATCAGGGGATAA

つなぎあわせ

CTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAA

Page 6: 生命情報学入門 配列のつなぎ合わせと再編成

等長断片からの配列決定

Page 7: 生命情報学入門 配列のつなぎ合わせと再編成

問題の定式化データ: 同じ長さの配列断片問題:  それぞれの配列断片のみがちょうど1回づつ      出てくるような配列はあるか?

ACA

CAC

ACT

CTGACACTG

ACA

CAC

ACT

CAGなし

Page 8: 生命情報学入門 配列のつなぎ合わせと再編成

一筆書きとオイラーオイラーの定理(有向グラフ版)次のどちらかの条件を満たす時、一筆書きができ

る(a) どの点についても

• 入って来る矢印の数 = 出て行く矢印の数(b) 2点以外は上と同じで、残りの点は、それぞれ以下を満

たす• 入って来る矢印の数 = 出て行く矢印の数-1• 入って来る矢印の数-1 = 出て行く矢印の数(a) (b)

Page 9: 生命情報学入門 配列のつなぎ合わせと再編成

オイラーパス問題への変換• 最初の2文字に対応する点から、最後の 2文字に対応する点に

矢印を引く。 一筆書きできれば解あり、できなければ解なし

CAAACCCAC

A CA AAACAAA

CACCAA ACC

CCA CCCC CC A

AAA, AAC, ACC, CAA, CAC, CCA, CCCデータ

Page 10: 生命情報学入門 配列のつなぎ合わせと再編成

例題の解答

ACA

CAC

ACT

CTG

ACA

CAC

ACT

CAG

AC CA

CT TG

AC CA

CT AG

ただし、実際には誤りがあったり、断片の長さが同じではないので、このままでは使えない。様々な工学的な工夫が必要

Page 11: 生命情報学入門 配列のつなぎ合わせと再編成

最短共通拡大文字列問題

Page 12: 生命情報学入門 配列のつなぎ合わせと再編成

問題の定式化データ: 配列断片問題:  それぞれの配列断片を(重なりありで)

つなぎわせてできる一番短い文字列を見つけよ

ACGT GTAC CAGT GTCAG

ACGTACAGTCAG

GTACGTCAGT

12 文字

10 文字で最短

Page 13: 生命情報学入門 配列のつなぎ合わせと再編成

問題の解き方(1)着目点:断片の並べ方を決めると(その順番での)最短

拡大文字列が一意に決まる(なるべく左につめるようにつなげていく) ⇒ 並び方をみつければ良い

pref(a,b): 断片 a の後に断片 b をつなげた時の a の中で b と重ならない部分の長さ

ovlp(a,b): 断片 a の後に断片 b をつなげた時の a と b の重なっている部分の長さ

a = CAGTC b = GTCAG

CAGTC

GTCAGpref(a,b)=2ovlp(a,b)=3

Page 14: 生命情報学入門 配列のつなぎ合わせと再編成

問題の解き方( 2 )断片の並べ方( s1,s2,s3,…,sn)を決めた後の最短拡大文字列の長さ = pref の総和 + ovlp(sn,s1)

ACGT

GTAC

CAGT

GTCAG

GTAC

s1

s2

s3

s4

s1

GTACGTCAGT

ovlp(sn,s1)

pref(si,si+1)

Page 15: 生命情報学入門 配列のつなぎ合わせと再編成

巡回セールスマン問題への変換

GTACGTCAGT

ACGT

GTAC

CAGT

GTCAG

(=pref(GTCAG,

ACGT))

23

24

44 4

4(=pref(GTAC,

CAGT))

522

2

2+2+2+2+ovlp(CAGT,GTAC)=10

s1

s2

s3

s4

Page 16: 生命情報学入門 配列のつなぎ合わせと再編成

等長断片の場合との比較等長断片の場合

・オイラーパス(一筆書き)問題へ変換・すべての辺をちょうど1回通る・効率良く計算可能

拡大最短共通文字列の場合・巡回セールスマン問題へ変換・すべての頂点をちょうど1回通る・効率の良い計算は難しい( NP 困難)

Page 17: 生命情報学入門 配列のつなぎ合わせと再編成

ゲノム再編成

Page 18: 生命情報学入門 配列のつなぎ合わせと再編成

ゲノム再編成

• ゲノムの概要構造は染色体の融合・分裂や部分配列の大規模な逆位・転座・重複により進化

• 二種類の生物を比較して進化の過程を復元

Page 19: 生命情報学入門 配列のつなぎ合わせと再編成

逆位によるソーティング

Page 20: 生命情報学入門 配列のつなぎ合わせと再編成

逆位によるソーティング(符号なしの場合)

• ゲノム構造: 1 から n までの数字の順列• 逆位:連続した部分列を反転• 問題:与えられた順列を (1,2,3,4,…,n) に

するための最短の逆位系列を計算

6 4 1 5 2 3

1 4 6 5 2 3

1 4 3 2 5 6

1 2 3 4 5 6

Page 21: 生命情報学入門 配列のつなぎ合わせと再編成

逆位によるソーティング(符号ありの場合)

• ゲノム構造: 1 から n までの数字の順列。ただし、各数字は符号(遺伝子の方向)がつく

• 逆位:反転した場合、符号も反転

1 2 3 4 5

1 -5 4 -3 2

1 -5 4 -3 -2

1 -5 -4 -3 -2

キャベツ

カブ

Page 22: 生命情報学入門 配列のつなぎ合わせと再編成

逆位によるソーティング

• 符号ありの場合–高速に計算可能– でも、アルゴリズムはかなり複雑

• 符号なしの場合–高速な計算は難しい( NP 困難)

• 転座、重複などを許した様々なパターンの問題が研究されている

Page 23: 生命情報学入門 配列のつなぎ合わせと再編成

まとめ

• 等長断片のつなぎ合わせ ⇒ 一筆書きへの変換• 拡大最短共通文字列 ⇒ 巡回セールスマン問題への変

換• ゲノム再編成 ⇒ 最小回数の逆位による順列の    並び換え(ソーティング)