バイオインフォマティクスtohhiro/... · 2019-10-09 · Linus Carl Pauling (1901-1994)...

バイオインフォマティクス分⼦系統解析１

藤博幸

本⽇の講義

(1) 分⼦系統解析の概要

(2) 犯罪捜査への応⽤

本⽇の講義

分⼦系統解析の⼿続き

(1)相同配列の収集系統分類の場合は、オーソロガスな配列を収集

(2) 相同配列のマルチプルアラインメントの作成

(3) アラインメントから分⼦系統樹を構築

分⼦系統解析の⼿続き

(1)相同配列の収集系統分類の場合は、オーソロガスな配列を収集

例えばBLASTで検索して収集(2) 相同配列のマルチプルアラインメントの作成

例えばmafftで構築(3) アラインメントから分⼦系統樹を構築

p.17-18

分⼦時計の発⾒ (1)ライナス•ポーリングLinus Carl Pauling(1901-1994)量⼦化学者、⽣化学者

Pauling and Zuckerkandle (1962)

⼆つの⽣物のヘモグロビンのアミノ酸配列を⽐較し、その置換数を、化⽯から推定される、それら⽣物の分岐時期に対してプロット

近似的な直性関係が得られた。

化⽯がない⽣物でも、配列の⽐較から分岐年代を推定できる。

宮⽥隆 (2014) 「分⼦からみた⽣物進化」講談社

>gi|57013850|sp|P69905.2|HBA_HUMAN Full=Hemoglobin alpha chainMVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

>gi|145301578|ref|NP_032244.2| hemoglobin subunit alpha MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFDVSHGSAQVKGHGKKVADALANAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFTPAVHASLDKFLASVSTVLTSKYR

ヒトのヘモグロビンα （上段）とマウスのヘモグロビンα （下段）アミノ酸は１⽂字表記で表現

CLUSTAL format alignment by MAFFT L-INS-i (v7.221)

gi|57013850|sp| MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGgi|145301578|re MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFDVSHGSAQVKGHG

**** **:*:******:*.*..*********** *************:***********

gi|57013850|sp| KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPgi|145301578|re KKVADALANAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFTP

*******:**..*:**:*.********************************:* **:***

gi|57013850|sp| AVHASLDKFLASVSTVLTSKYRgi|145301578|re AVHASLDKFLASVSTVLTSKYR

**********************

アラインメント(alignment):相同な配列の対応するアミノ酸あるいは塩基を対応する位置に並べる操作、あるいは並べたもの

CLUSTAL format alignment by MAFFT L-INS-i (v7.221)

gi|57013850|sp| MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGgi|145301578|re MVLSGEDKSNIKAAWGKIGGHGAEYGAEALERMFASFPTTKTYFPHFDVSHGSAQVKGHG

**** **:*:******:*.*..*********** *************:***********

gi|57013850|sp| KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPgi|145301578|re KKVADALANAAGHLDDLPGALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPADFTP

*******:**..*:**:*.********************************:* **:***

gi|57013850|sp| AVHASLDKFLASVSTVLTSKYRgi|145301578|re AVHASLDKFLASVSTVLTSKYR

**********************

19/142 = 0.1338028 ヒトとマウス化⽯から約7500万年前に分岐

分岐年代(化⽯から）7500

0.1338

アミノ酸の置換率

ヒト vs マウス

0.1338

ヒト vs マウス

様々な⽣物のペアについて同様のプロットを作成

0.1338

ヒト vs マウス

近似的な直線関係アミノ酸置換数は分岐年代に⽐例し⼀定のペースで置換している

0.1338

ヒト vs マウス

⽣物の進化の過程での分⼦の変化：分⼦進化(molecular Evolution)分⼦の変化が⼀定のペースを刻むこと：分⼦時計(molecular clock)変化の速度:分⼦進化速度(molecular evolutionary rate)

= 直線の傾き = 単位時間あたりのアミノ酸の置換数

0.1338

ヒト vs マウス

分⼦時計が成⽴していれば、化⽯がなくてもアミノ酸配列から分岐年代を推定できる。

0.1338

ヒト vs マウス

今、現存の⽣物Xと⽣物Yの分岐を⽰す化⽯はないが、ヘモグロビンαの置換率が0.3であったとすると、分岐年代を直線関係から推定できる。

XとYのヘモグロビンαのアミノ酸置換率

0.1338

ヒト vs マウス

今、現存の⽣物Xと⽣物Yの分岐を⽰す化⽯はないが、ヘモグロビンαの置換率が0.3であったとすると、分岐年代を直線関係から推定できる。

推定された分岐年代

分⼦時計の発⾒ (2)

Dickerson (1971)

様々はタンパク質で分⼦時計が成⽴していること、タンパク質によって分⼦進化速度が違うことを発⾒

進化速度の違いは機能的制約の強さを反映している。

⽣物にとって機能的な重要性の⾼い分⼦は進化速度が遅く、それほどでもない分⼦は速く変化する。

分⼦時計の発⾒ (3)

今⽇の分⼦進化学者は、すべての分⼦に対して、分⼦進化速度の⼀定性が成⽴するとは考えていない。• 分⼦によっては変動が激しく、分岐時間にも依存• 綱レベルの⽐較では近似的な⼀定性が認められるが、⽬、科、属、種などのレベルでは⼀定性が成⽴しないものも多い。

primates slow down, rodents speed up霊⻑類では進化速度は遅くなり、齧⻭類では速くなる傾向

がある。

分⼦系統樹の構築 (1)

Fitch and Margoliash (1967)

チトクローム c というタンパク質の配列を⽐べ、その置換数からほ乳類、⿃類、は⾍類、昆⾍、菌類を含む系統樹を構築した。これは、それ以前の形質の⽐較に基づく分類では不可能なものであった。

分⼦系統樹の構築 (2)分⼦系統樹は、これまでの分類を反映しており、これまでの分類と⾷い違う場合、分⼦系統樹が正しいことがしばしばあった。

特に”隠蔽種 (cryptic species)”の発⾒に⼒を発揮（⾒た⽬には区別がつかないが、DNAレベルでは全く異なるもの）例：ウーズは16S r RNAを利⽤して、界レベルでの隠蔽されていた古細菌を発⾒。

現在、分⼦系統学的⼿法は、系統分類の⼿法として広く受け⼊れられ、⼒を発揮している。

系統樹とは？

最初に描かれた系統樹エルンスト・ヘッケル (1866)

生物の進化を樹になぞらえて書いた。

- 枝の先に各生物群- 高い所ほど複雑な体制の生物近縁な系統は互いに近い枝に配置

このような傾向はあるが，確固たるルールに従っているものではない。

ダーウィンの「種の起源」(1859)に、進化の模式的な図が記載されている。

p.20-21

p.23-24

p.24 図2.4

p.24-25

相同(homologous, homolog)

orthologous, ortholog種分化に伴い分岐

paralogous, paralog遺伝⼦重複に伴い分岐

共通祖先から分岐

p. 25 図2.5

種系統樹と遺伝⼦系統樹

分⼦系統樹

種系統樹 (Species Tree)

遺伝⼦系統樹 (Gene Tree)

オーソロガスな遺伝⼦のみ使⽤⽣物の進化的関係を反映

パラロガスな遺伝⼦もオーソロガスな遺伝⼦も混在。遺伝⼦（タンパク質）の分⼦進化の歴史を反映

p.25-26

p.26 - 27

主な分子系統樹推定法

（１）距離行列法

（２）形質状態法●最節約法（Maximum Parsimony Method）

●統計的方法○最尤法（Maximum Likelihood Method）○ベイズ法

主な分子系統樹推定法

（１）距離行列法

（２）形質状態法●最節約法（Maximum Parsimony Method）

●統計的方法○最尤法（Maximum Likelihood Method）○ベイズ法

距離⾏列法

(1) アラインメントから全ての配列ペアの間の距離を計算

(2) 距離⾏列 (distance matrix) の構築

(3) 距離⾏列に基づき系統樹を構築

距離⾏列法

距離⾏列法として複数の系統樹構築法が提案されているが、ここでは現在最も広く利⽤されている近隣結合法(neighbor-joining method)について説明する

距離⾏列法

(3) (2)の距離⾏列に基づき系統樹を構築

(1), (2)は様々な距離⾏列法で共通(3)の部分が、距離⾏列法の⼿法により異なる。ただし、(1)には複数の⼿法がある。

距離⾏列法

最も簡単な配列間距離＝p距離 (p distance)

Nヌクレオチドの⻑さの⼆つの配列で、Mサイトに差異がある場合p-distance = M / Np距離の問題点多重置換（復帰置換や平⾏置換を含む）

＝同じサイトでの複数回の置換-------> 数回分の変化が隠されてしまう

p.22 図2.3

p.21-22

ピリミジン T, Cプリン A, G

トランジションピリミジン間あるいはプリン間の置換

トランスバージョンピリミジンとプリン間の置換

分⼦系統学への統計的アプローチ計算分⼦進化学Yang, Z著藤、加藤、⼤安訳共⽴出版より

進化モデルを考え、観測値から真の距離を推定する。塩基の進化モデルの例JC69

全ての塩基は同じ速度で他の塩基に置換K80

トランジション（プリン間あるいはピリミジン間の置換）とトランスバージョン（プリンとピリミジン間の置換）では

異なる速度…この他にも多くの進化モデルが考えられ、距離の推定が⾏われている。

アミノ酸でも同様に多くの進化モデルが考えられており、観測値からの真の距離の推定が⾏われている。

マルチプルアラインメント種１種2種3種4種5

選択された進化モデル

種1と種２の距離d12

種1と種3の距離d12

.種4と種5の距離

マルチプルアラインメント中の全ての配列のペアに対して、選択した進化モデルにしたがって、距離を計算

距離⾏列法

マルチプルアラインメント種１種2種3種4種5

選択された進化モデル

マルチプルアラインメント中の全ての配列のペアに対して、選択した進化モデルにしたがって、距離を計算

計算された配列ペアの距離を⾏列の形にまとめる

種１種２ d12

種３ d13 d23

種４ d14 d24 d34

種５ d15 d25 d35 d45

種１種２種３種４種５

距離⾏列dij = dji なので上半分は表⽰していない

距離⾏列法

(3) 距離⾏列に基づき系統樹を構築近隣結合法について説明

種２

種3種4

種1種２

種3種4

種4種5

種1種2

種1種3

種4種4

.星状系統樹

任意の⼆つのOUTを組んだ全ての樹形を発⽣させる

それぞれの系統樹について、距離⾏列から枝の⻑さの総和を求める

種1種２

種3種4

種5 L１L２

L３L４

L６L５

枝の⻑さの総和とは

L1 + L2 + L3 + L4 + L5 + L6

距離⾏列からの枝の⻑さの求め⽅の基本的な考え⽅（配列３つのケースを例として）

種１種２種3

種１種２ d12

種３ d13 d23L3

L1 + L2 = d12L1 + L3 = d13L2 + L3 = d23

距離⾏列

d13 ‒ d23 + d122L1 =

L2 = d12 ‒ d13 + d23 2

L3 = d13 ‒ d12 + d23 2

系統樹と距離⾏列から連⽴⽅程式をつくる

⽅程式を解いてL1 + L2＋L３を求める

種1種２

種3種4

種4種5

種1種2

種1種3

種4種4

それぞれの系統樹について、距離⾏列から枝の⻑さの総和を求める

枝の⻑さの総和が最⼩になるペアリングを選択

種1種２

種3種4

種4種5

種1種2

種1種3

種4種4

枝の⻑さの総和が最⼩のペアを選択することの意味

枝の⻑さは、距離（＝サイトあたりの置換数）から計算される

枝の⻑さの総和が最⼩であるとは、距離⾏列から計算されるその系統樹の形の上で⽣じた置換の総数が最⼩であることを意味する

種1種２

種3種4

種4種5

種1種2

種1種3

種4種4

種1種3

種4種4

今、種1と種３のペアリングにおいて枝の⻑さの総和が最⼩になったする

種１と種２をOUTから外し、種１と種２をペアとした新たなOUTを考え距離⾏列を再構築

種２種4 d24

種5 d25 d45

種1-3 d2,1-3 d4,1-3 d5,1-3

種2 種4 種5 種1-3

距離⾏列の更新

d2,1-3= d12 + d23 ‒ d132

d4,1-3= d14 + d34 ‒ d132

d5,1-3= d15 + d35 ‒ d132

更新された距離⾏列をもとに、同じ処理を繰り返す。

OUTの数が３になったところで繰り返しを停⽌する。

上記の例であれば

種2 種4

種5 種1-3

種2 種5

種4 種1-3

種2 種1-3

種4 種5

の３つの樹形から枝の⻑さの総和が最⼩のものを選択種2と種５がペアをつくったものが最⼩であったとする。ここでOUT数が３となり、この結果の系統樹は次のようになる

種１種3

種２

種5種2

無根系統樹が得られる近隣結合法では進化速度の⼀定性は仮定されていないので、⼀つの内部節から分岐した外部節への枝の⻑さが異なることに注意

分⼦系統解析では、系統樹は無根系統樹として作成される。根の導⼊は、外群(outgroup)を⽤いてなされる

進化速度の⼀定性が成⽴する場合（=分⼦時計が成⽴している場合）を除き、注⽬するグループの根を決められない

多くの場合、分⼦時計の⼀定性は仮定できない

外群の利⽤、ブートストラップについては次回

最尤法・ベイズ推定プログラムPHYLIP (http://evolution.genetics.washington.edu/phyli.html)

最尤法、最節約法、距離⾏列法などPAUP* (http://paup.csit.fsu.edu)

最尤法、最節約法、距離⾏列法などMolphy (http://bioweb.pasteur.fr/seqanal/interfaces/prot.nucml.html)

最尤法RAxML (http://sco.h-its.org/exelixis/web/software/raxml/index.html)

最尤法MEGA (http://www.megasoftware.net)

最尤法MrBayes (http://mrbayes.csit.fsu.edu/index.php)

ベイズ推定を導⼊した系統樹推定

本⽇の講義

Maria Jones (20) ♀看護師既婚

Robert White (34) ♂消化器科の医者既婚

ルイジアナ州ラファイエット

いわゆるW不倫

離婚妻と離婚することを約束するが守らない

Maria Jones (20) ♀看護師

・妻と離婚することを約束するが守らない

・異常に嫉妬深く、⽀配的(Mariaが他の男性を⾒ただけで、彼らを殺すなどという）

１０年間つきあったが、ついに別れることを決⼼

1994年7⽉

Maria Jones (20) ♀看護師

関係が悪化する前、定期的にビタミンB12の注射をしていた

1994年８⽉深夜にMariaが息⼦とベッドで眠っている所にRobertがやってきて、もう⼀度注射をしたいという

Mairaは疲れており、深夜であることから断ったが、注射されてしまうMairaは、何かがおかしいと感じた。これまで感じたことのない強い痛みを覚えた。

2週間後、Mairaのリンパ節が腫れ上がった（ウイルス感染を意味する）

12⽉の定期検診で、HIV陽性、HCV陽性であることが判明

MairaはRobertを疑い、1995年１⽉に警察に訴えた

当初、警察はMairaの訴えをまじめに捉えていなかった

しかし、(1) 1984 ‒ 1995の期間にMariaが関係を持った男性は全員 HIV陰性であった

(2) Mairaについて問い合わせた時に、Robertは嘘をついていた

(3) Robertの患者の記録の中に、8⽉初頭に２つの⾎液サンプルがとられているにも関わらず、適切な検査記録がないものがあることを警察が⾒つけた。⾎液サンプルの⼀⽅はAIDS患者からのもので、他⽅はC型肝炎の患者からのものであった。2⼈の患者はRobertから研究のために⾎液サンプルが欲しいといわれ、提供していた。

Robertの注射によって、MariaはHIVとHCVに感染した可能性が⾼い

しかし、検察はMairaのHIVが、他の⼈から感染したのではなく、Robertの患者のサンプルに由来するという確固とした証拠を必要とした

(1) Mariaから分離したHIV,(2) Robertの患者から分離したHIV,(3) 同じ地域の他のAIDS患者から分離したHIVで分⼦系統解析が⾏われた

配列データの⼊⼿法については、今回の資料の最後に書いてある。

今回のデータは既に論⽂になっており、NCBIから⼊⼿可能

今回は、mafftで作成したアラインメントデータ (hivpol.aln)を⽤いて、系統樹を構築する。

P1.BCM.RT ---------cccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatP4.BCM.RT ---------cccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatP7.BCM.RT ---------cccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatP3.MIC.RT ttaaattttcccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatP5.MIC.RT ttaaattttcccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatP2.BCM.RT ---------cccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatP1.MIC.RT ttaaattttcccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatP2.MIC.RT ttaaattttcccataagtcctattgaaactgtaccagtaaaattagagccaggaatggatP3.BCM.RT ---------cccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatP5.BCM.RT ---------cccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatV1.BCM.RT ---------cccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatV2.BCM.RT ---------cccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatP6.MIC.RT ttaaattttcccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatV1.MIC.RT ttaaattttcccataagtcctgttgaaactgtaccagtaaaattaaagccaggaatggatV2.MIC.RT ttaaattttcccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatP4.MIC.RT ttaaattttcccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatP6.BCM.RT ---------cccataagtcctattgaaactgtaccagtaaaattaaagccaggaatggatLA04.RT ---------cccattagtcctattgaaactgtaccagtaaaattaaagccaggaatggatLA21.RT ---------cccattagtcctattgraactgtaccagtaaaattaaagccaggaatggatLA24.RT ---------cccattagtcctattgaaactgtaccagtaaaattaaagccaggaatggatLA31.RT ---------cccattagtcctattgaaactgtaccagtaaaattaaagccaggaatggatLA10.RT ---------cccattagtcctattgaaactgtaccagtaaaattaaagccaggaatggat

準備したファイルでは、配列の名前を短くしてあります。

Vで始まる名前 victim = Mariaから分離されたHIVのRT

Pで始まる名前 patient=Robertの患者から分離されたHIVのRT

LAで始まる名前 Lafeyetteで⽣活するAIDS患者から分離されたHIVのRT

RT = Reverse Transcriptase 逆転写酵素

得られたアラインメントを使ってMEGAで系統樹を作成

(1) MEGAを起動してmafftで作成したアラインメントの読み込み

(2) MEGA形式へのデータの変換

(3) モデル選択

(1) 近隣結合法による系統樹の構築

(3) モデル選択

MEGAの起動

① 左下のスタートをクリック

②下部ウィンドウにMEGAと⼊⼒ ③MEGAのアイコンが出てくる

ので、クリックして起動

起動画⾯左上に注⽬

メニューバーのFileをクリック

Open A File/Sessionを選択

ファイル選択のウィンドウが表⽰される

前ページのファイル選択ウィンドウを拡⼤したもの

スクロールバーで表⽰位置を変更しながらファイルを探して選択

ファイルがおかれているフォルダを選択してクリック

ファイルを選択すると、File name ウィンドウにファイル名が現れるこの状態でOpenをクリック

②③

アラインメントを表⽰するウィンドウが表意される

(3) モデル選択

アラインメントを表⽰するウィンドウが表意される

Utilitiesをクリック

Convert to MEGA Format を選択

OKをクリック

MEGA形式のデータを保存するファイル名を⼊⼒するウィンドウが開く*の部分を書き換える。拡張⼦(.meg)は変更してはいけない

前ページのファイル名⼊⼒ウィンドウを拡⼤ファイル名を*から書き換える

変換が終了したことを⽰すメッセージ。OKをクリック

MEGA形式に変換されたアラインメントが表⽰される

(3) モデル選択

① Modelsをクリック

② Find Best DNA.Protein Models (ML)をクリック

現在 activeばファイル(=hivpol.meg)を使⽤するかを聞いてくるウィンドウが開くYesをクリック

モデル選択の計算のオプション確認のウィンドウが開く⻩⾊の部分がAutomaticNucleotideComplete deletionになっていることを確認して、Computeをクリック

計算経過を⽰すウィンドウが開く

結果画⾯出⼒⾏がモデル列に情報量基準とパラメータが書かれている

BIC, AICc : 情報量基準この表がBICでソートされている情報量は⼩さい⽅が良い

lnL: 対数尤度⼤きい⽅が良い

BIC最⼩の T92+G モデルを今回使⽤することにする

このウィンドウは閉じる

(3) モデル選択

(1) 近隣結合法による系統樹の構築とbootstrap解析

① Phylogenyをクリックしプルダウンメニューから②Construct/Test Neighbor-Joining Tree…を選択

現在activeなファイル(=hivpol.meg)を使⽤するかを問い合せるウィンドウが開くので、Yesをクリック

計算の設定を問い合わせるウィンドウが開く⻩⾊の部分が変更可能

Bootstrap法デフォルトのリサンプリング回数は500まんで、右端をクリックした時に現れる上下の⽮印の上向⽮印をクリックし1000にする。

Model/Methodは、デフォルトはNo. of differencesになっている

モデル選択の結果に従い、T92+Gに変更する。

Tamura 3-parameterモデルは1992に提案されており、これがT92に相当すると考えられるので、これを選択。

Tamura の3パラメータを選択するとRates among Sitesでは、GammaDistributedが⾃動的に選択されるこれがモデル選択の+Gの部分

Computeをクリックして計算

計算の進⾏状況を⽰すウィンドウが表⽰

計算が終わると系統樹が別のウィンドウに表⽰される。

Victim (Maria)から単離されたHIVは、Robertの患者から単離されたHIVに近縁（ただし、bootstrap support(bootstrap probabilityともよぶ）⼩さい）

デフォルトではOriginal Treeが表⽰されているBootstrap consensus treeのタブを選択

1000回のbootstrap サンプルのそれぞれについて構築された系統樹のコンセンサスが⽰される。系統樹の枝振り（トポロジー）についてのみコンセンサスが⽰されており、枝の⻑さには意味はない。

コンセンサスでもVictim由来HIVはPatient由来HIVに近い

再び、Original treeタブを選択

① Original treeタブを選択しオリジナルの系統樹を表⽰

② メニューバーのFileをクリック

③ Export Current Tree (Newick)を選択

Newick 形式のデータを保存するファイル名を聞いてくるので、Hivpol.nwkとファイル名を指定してSaveをクリック

hivpol.nwkをメモ帳で開く(((((((((((((((V1.MIC.RT:0.00183356,V2.MIC.RT:-0.00005991)0.8910:0.00358471,P6\.MIC.RT:-0.00000974)0.1770:0.00000487,V1.BCM.RT:-0.00000487)0.1240:0.00000487,P\5.BCM.RT:-0.00000487)0.1580:0.00000487,V2.BCM.RT:-0.00000649)0.6510:0.00179596,\P6.BCM.RT:-0.00002443)0.2560:0.00047535,(P3.MIC.RT:0.00247068,(P5.MIC.RT:0.0001\0360,(P4.BCM.RT:-0.00001486,(P1.BCM.RT:0.00180051,P7.BCM.RT:-0.00002890)0.3290:\0.00001486)0.6290:0.00167160)0.3700:0.00110497)0.1450:0.00042271)0.1300:0.00012\758,(P2.MIC.RT:0.00692434,(P3.BCM.RT:0.00000000,P4.MIC.RT:0.00000000)0.3170:0.0\0022865)0.3800:0.00123392)0.2950:0.00120878,P2.BCM.RT:0.00151719)0.1530:0.00021\449,LA32.RT:0.00555837)0.1380:0.00004296,(LA08.RT:0.00517567,LA05.RT:0.01117874\)0.4190:0.00175445)0.2030:0.00101235,P1.MIC.RT:0.00223222)0.3350:0.00231784,LA1\8.RT:0.00719763)0.0810:0.00037487,((((LA29.RT:0.01283766,LA06.RT:0.00724592)0.3\080:0.00136025,LA12.RT:0.00407447)0.1500:0.00100562,(LA28.RT:0.01213187,LA07.RT\:0.00795380)0.5010:0.00248453)0.0890:0.00048663,((LA10.RT:0.00771152,LA23.RT:0.\01441878)0.4210:0.00234077,((((LA04.RT:0.00992803,LA25.RT:0.01196780)0.2190:0.0\0075079,LA27.RT:0.00367005)0.1520:0.00156941,(LA22.RT:0.01275031,LA30.RT:0.0111\6664)0.2420:0.00081036)0.0260:0.00057137,((LA17.RT:0.00971516,LA13.RT:0.0103715\9)0.5080:0.00308458,(LA31.RT:0.00767816,(LA14.RT:0.01046118,(LA21.RT:0.00708465\,LA24.RT:0.00192401)0.8140:0.00438466)0.2290:0.00054839)0.1320:0.00076469)0.146\0:0.00116298)0.0090:0.00046111)0.0210:0.00077806)0.0200:0.00022654)0.1420:0.001\01897,LA16.RT:0.00625876)0.5290:0.00018712,(LA26.RT:0.00566221,LA02.RT:0.016280\61)0.5290:0.00268962);

Newick形式とは、系統樹の情報を、テキストとして記述したもの

合衆国の法廷ではじめて分⼦系統解析が利⽤されたのがこの事件

1998年、Robert Whiteは⼆級殺⼈について有罪判決をうけ現在50年の禁固刑に服している

モデル選択のモデルとは何か

距離の最尤推定とは何か

bootstrap support (bootstrap probablity)とは何か？

Newick 形式とは何か？

参考⽂献

Samuelsson, T. (2012) “Genomics and Bioinformatics- An Introduction to Programming Tools - “Cambridge Univ Press

今回の配列データの⼊⼿と、mafftによるマルチプルアラインメント

配列データはNCBIに登録されているAY156734 ‒ AY156907

配列を取得

Multi FASTA 形式のファイルで保存

mafft でmultiple alignment

MEGAで系統解析

NCBIをググる

クリック

① AY156734 を⼊⼒② Searchをクリック

前ページの⼊⼒ウィンドウを拡⼤したもの

Genesの中のPopSetをクリック

前ページのGenes部分を拡⼤

PopSetをクリック

前ページのトップを拡⼤ FASTA をクリック

Multi-Fasta形式で配列が表⽰される

前ページの図のトップを拡⼤

画⾯右上の Send to をクリック

Send to をクリックすると図のようなメニューが出てくるFileをチェックすると、下部のメニューが出てくるので最下段の Create File をクリック

OKをおしてファイルを保存

>gi|24209939|gb|AY156734.1| HIV-1 clone P1.BCM.RT from USA reverse transcriptase (pol) gene, partial cdsCCCATAAGTCCTATTGAAACTGTACCAGTAAAATTAAAGCCAGGAATGGATGGCCCAAAAGTTAAACAATGGCCACTGACAGAAGAAAAAATAAAAGCATTAGTAGAAATTTGTACAGAAATGGAAAAGGAAGGAAAAATTTCAAAAATTGGGCCTGAAAATCCATACAATACTCCAGTATTTGCCATAAAGAAAAAAGACAGTACTAAATGGAGAAAATTAGTAGATTTCAGAGAACTTAATAAGAGAACTCAGGACTTCTGGGAAGTTCAATTAGGAATACCACATCCTGCAGGGTTAAAAAAGAAAAAATCAGTAACAGTGCTGGATGTGGGTGATGCATATTTTTCAGTTCCCTTAGATAAAGAGTTCAGGAAGTATACTGCATTTACCATACCTAGTATAAACAATGAGACACCAGGGATTAGATATCAGTACAATGTGCTTCCACAGGGATGGAAAGGATCACCAGCAATATTCCAAAGTAGCATGACAAAAATCTTAGAGCCTTTTAGAAAACAAAATCCAGACATAGTTATCTATCAATACATGGATGATCTGTATGTAGGATCTGACTTAGAAATAGGGCAGCATAGAATAAAAATAGAGGAACTAAGACAACATCTGTTGAAGTGGGGACTTACCACACCAGACAAAAAACATAAGAAGGAACCCCCATTCCTTTGGAT>gi|24209941|gb|AY156735.1| HIV-1 clone P2.BCM.RT from USA reverse transcriptase (pol) gene, partial cdsCCCATAAGTCCTATTGAAACTGTACCAGTAAAATTAAAGCCAGGAATGGATGGCCCAAAAGTTAAGCAATGGCCACTGACAGAAGAAAAAATAAAAGCATTAGTAGAAATTTGTACAGAAATGGAAAAGGAAGGAAAAATTTCAAAAATTGGGCCTGAAAATCCATACAATACTCCAGTATTTGCCATAAAGAAAAAAGACAGTACTAAATGGAGAAAATTAGTAGATTTCAGAGAACTTAATAAGAGAACTCAAGACTTCTGGGAAGTTCAATTAGGAATACCACATCCTGCAGGGTTAAAAAAGAAAAAATCAGTAACAGTGCTGGATGTGGGTGATGCATATTTTTCAGTTCCCTTAGATAAGGAGTTCAGGAAGTATACTGCATTTACCATACCTAGTATAAACAATGAGACACCAGGGATTAGATATCAGTACAATGTGCTTCCACAGGGATGGAAAGGATCACCAGCAATATTCCAAAGTAGCATGACAAAAATCTTAGAGCCTTTTAGAAAACAAAATCCAGACATAGTTATCTATCAATACATGGATGATTTGTATGTAGGATCTGACTTAGAAATAGGGCAGCATAGAATAAAAATAGAAGAACTAAGACAACATCTGTTGAAGTGGGGACTTACCACACCAGACAAAAAACATCAGAAGGAACCTCCATTCCTTTGGAT>gi|24209943|gb|AY156736.1| HIV-1 clone P3.BCM.RT from USA reverse transcriptase (pol) gene, partial cdsCCCATAAGTCCTATTGAAACTGTACCAGTAAAATTAAAGCCAGGAATGGATGGCCCAAAAGTTAAACAATGGCCACTGACAGAAGAAAAAATAAAAGCATTAGTAGAAATTTGTACAGAAATGGAAAAGGAAGGAAAAATTTCAAAGATTGGGCCTGAAAATCCATACAATACTCCAGTATTTGCCATAAAGAAAAAAAACAGTACTAGATGGAGAAAATTAGTAGATTTCAGAGAACTTAATAAGAGAACTCAAGACTTCTGGGAAGTTCAATTAGGAATACCACATCCTGCAGGGTTAAAAAAGAAAAAATCAGTAACAGTGCTGGATGTGGGTGATGCATATTTTTCAGTTCCCTTAGATAAAGAGTTCAGGAAGTATACTGCATTTACCATACCTAGTATAAACAATGAGACACCAGGGATTAGATATCAATACAATGTGCTTCCACAGGGATGGAAAGGATCACCAGCAATATTCCAAAGTAGCATGACAAAAATCTTAGAGCCTTTTAGAAAACAAAATCCAGACATAGTTATCTATCAATACATGGATGATCTGTATGTAGGATCTGACTTAGAAATAGGGCAGCATAGAATAAAAATAGAGGAACTAAGACAACATCTGTTGAAGTGGGGATTTATCACACCAGACGAAAAACACCAGAAGGAACCTCCATTCCGTTGGAT

ダウンロードされたファイルにはMulti-Fasta形式で塩基配列が含まれている

準備したファイルでは、配列の名前を短くしてあります。

Vで始まる名前 victim = Mariaから分離されたHIVのRT

Pで始まる名前 patient=Robertの患者から分離されたHIVのRT

LAで始まる名前 Lafeyetteで⽣活するAIDS患者から分離されたHIVのRT

RT = Reverse Transcriptase 逆転写酵素

ダウンロードしたファイルをMafftでアラインして、Clustal 形式のアラインメントを作成する。

Mafftを起動する

1 左下スタートをクリック

2. 検索ウィンドウにmafftと⼊⼒上部にmafftのインストール場所が表⽰される。このmafftのアイコンをクリック

1. このウィンドウにmafftと⼊⼒

2. 表⽰されたmafftをクリック

3. mafftの⼊⼒画⾯がたちあがる。

Input file? (fasta format)@ ここに⼊⼒ファイルを記⼊（次のようにする）

4. ⼊⼒ファイルを指定するために、multi-fasta formatのファイルが置かれたDirectoryを表⽰する。（ここからはWindows OS上での処理）左下のスタートをクリックし、出て来たパネル左上のドキュメントを選択

ドキュメントを選択

ファイルがドキュメントフォルダにある場合

5. ドキュメントdirectoryが表⽰される。Directoryからmafftのウィンドウにファイルをドラッグすると、ファイル名が⼊⼒される。ファイル名が⼊⼒されたらenterキーをおす。

Fasta formatの⼊⼒ファイルのアイコンをmafftの⼊⼒画⾯にドラッグする

6. Outputすなわち、アラインメントを出⼒するファイル名を聞かれる、⼊⼒ファイル名を参考にZドライブ上のファイル（新規でも既存の者でも良い）を指定しEnterキーをおす。出⼒オプションを聞いてくるので2を指定する。Clustal形式/Fasta形式 Sorted Order/Input Order 説明はアラインメントを⾒ながら

1. ⼊⼒ファイルが

Z:\ファイル名の形で記⼊される

エンターキーをおす

2. Output file?@

とアラインメントの出⼒ファイルを聞いてくるのでZ:¥ファイル名としてドキュメントフォルダのファイル名を持つファイルに保存するようにしてエンターキーをおす

3. 6つのアウトプット形式が出⼒される

６つ出⼒形式1 Clustal format/ Sorted2 Clustal format / Input order3 Fasta format / Sorted4 Fasta format / Input Order5 Phylip format / Sorted6 Phylip format / Input Order

Clustal と Fastaは説明済みPhylipは系統解析の際に説明

Sorted と Input Order ⼊⼒ファイル fasta format>配列1atgccttgcccaccgctg…>配列2atgggttgggcacccctg…>配列3atgcgttggccaccgctg…>配列4atgccctggcccccgctc…

Guide-treeは次のようになっているとする

配列1 配列4 配列2 配列3

Sorted

Input Order

配列1 ATGCCTTGCC配列4 ATGCCCTGGC配列2 ATGGGTTGG配列3 ATGCGTTGGCA

配列1 ATGCCTTGCC配列2 ATGGGTTGG配列3 ATGCGTTGGCA配列4 ATGCCCTGGC

7. アラインメントのオプションを聞いてくる。1の̶autoオプションを指定してenterautoオプション⼩規模データ丁寧に、⼤規模データそれなりにアライン

アラインメントのオプションを聞いてくる（正確さ優先か、速度優先か）。1の̶autoオプションを指定してenterautoオプション⼩規模データ丁寧に、⼤規模データそれなりにアライン

8. 指定したファイルやオプションを、コマンドライン形式で確認してくる問題なければ Y を⼊⼒してenter

（前ページのウィンドウを拡⼤）

9. ウィンドウ中に、出⼒が表⽰(END)が表⽰された時点で、出⼒ファイルに書き込まれている。

（前ページのウィンドウを拡⼤）

バイオインフォマティクスtohhiro/... · 2019-10-09 · Linus Carl Pauling (1901-1994)...

Documents

Linus Pauling - Come Vivere Felici

QUÍMICA DEL CARBONO August Kekulé (1829 -1896) Linus Pauling (1901 – 1994)

⾼校⽣対象︓ 新型コロナウイルスの影響による⽣ …Copyright©2020NPO KidsDoor 校対象新型コロナウィルスの影響による活状況アンケート

Átomo moderno e o Diagrama de Linus Pauling

⾷品衛⽣法における農薬の残留基準について - maff.go.jp · 2019. 4. 13. · Ministry of Health, Labour and Welfare ⾷品衛⽣法における農薬の残留基準について

Area1- Coordenacao e Pauling

El XXXI Concurso Regional Pauling de Física y Matemáticas ...galia.fc.uaslp.mx/museo/fismat/2013/noticias/6.pdf · Concurso Regional Pauling de Física y Matemáticas, ... matemáticas,

Linus Carl Pauling

a a b,# a, b,# a, Artigo Linus Pauling F. Peixoto

ディスレクシアの児童・⽣徒達のための⼿書き⽂字・数式⼊⼒ ... · 2015. 11. 2. · ディスレクシアの児童・⽣徒達のための⼿書き⽂字・数式⼊⼒インタフェースの

Linus Pauling, un hombre excepcional - … · que nuestro protagonista, Linus Carl Pauling, no tuviera mayor valor que el de ser hombre, pero no cabe duda que fue un hom-bre excepcional,

LINUS PAULING FRENTE A ATENEA: LOS FUNDAMENTOS

Linus Pauling Kako Ziveti Duze i Osecati Se Bolje

“弘前だんぶり池”にみられる⽔⽣無脊椎動物 · ⽣無脊椎動物が確認されました。このうち種数が最も多かったのは節⾜動物⾨の昆⾍類で，153

九州の地⽅創⽣事業の現状 · 2019. 2. 15. · -3-2．九州の地⽅創⽣事業の現状（これまでの交付⾦事業⼀覧）地方公共団体名上乗せ交付金

El XXXI Concurso Regional Pauling de Física y Matemáticasgalia.fc.uaslp.mx/museo/fismat/2013/noticias/7.pdf · El XXXI Concurso Regional Pauling de Física y Matemáticas Reconoció

⽣物配列解析基礎 - 東京大学 · 2020. 4. 13. · ⽣物配列解析基礎 test1.seq test2.seq test3.seq Mgenitalium.faa Mpneumoniae.faa Ureaplasma.faa parse-blast7.pl の7つのファイルをダウンロードして

Lois de Pauling

Come vivere più a lungo e sentirsi meglio (Vitamina C) - Linus Pauling

「事業場における治療と職業⽣活の両⽴⽀援のためのガイドライ … · 【治療と職業⽣活の両⽴⽀援の特徴を踏まえた対応】治療と職業⽣活の両⽴⽀援は、育児や介護と仕事の両⽴⽀援とは異なり、時間