51
EMBOSS いた 引き

EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

EMBOSSを用いた配列解析への手引き

Page 2: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ
Page 3: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

3

Preface from translators

The original title of this document is ’Introduction to Sequence Analysis using EMBOSS’, whichis distributed with EMBOSS package, and also accessible athttp://www.hgmp.mrc.ac.uk/Software/EMBOSS/Doc/Tutorial/emboss tutorial/emboss tutorial.htmlIt is written by Val Curwen, Lisa Mullen, David Martin, and others.

This is a translated version of it into Japanese by JAMBO ( Japan EMBOSS Users Group,http://transgenic.cats.st/jambo/ ) that organized by M. Tagaya. It is edited and converted fromWiki into LATEXby H. Kawaji. The main translators are in the following table.

We, the translators, thank to the original authors (thanks for your permission to translate),EMBOSS developers, EMBOSS community, and all people related with JAMBO.

Chapter Translator

What is EMBOSS? Mitsuhiro TagayaWorking with sequences Itoshi NikaidoPairwise sequence alignment Hideya KawajiProtein analysis Takeshi NagashimaPatterns, profiles and multiple sequence alignment Takeru NakazatoConclusion Itoshi Nikaido

翻訳者による序

本ドキュメントのオリジナルは、’Introduction to Sequence Analysis using EMBOSS’です。これは、EMBOSSパッケージに同梱されており、http://www.hgmp.mrc.ac.uk/Software/EMBOSS/Doc/Tutorial/emboss tutorial/emboss tutorial.htmlからも見ることができるものです。Val Curwen, Lisa Mullen, David Martin, 他の方々によって書かれました。

Page 4: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

4

本ドキュメントは、これをJAMBO ( Japan EMBOSS Users Group, http://transgenic.cats.st/jambo/, 多賀谷主宰) が日本語へ翻訳したものです。翻訳文の編集や wikiから LATEXへの変換は川路が行ないました。各章を (主に)担当した方は、上記の表のとおりです。

オリジナルのドキュメントの著者に感謝します (翻訳の許可をくださいまして、ありがとうございました)。また、EMBOSSの開発者の方々、EMBOSSコミュニティの方々、そして JAMBOに少しでも関わって下さったすべての皆様へ感謝します。

Page 5: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

5

第1章 EMBOSSって何?

1988年以来、配列解析パッケージである EGCGは、市場をリードする商用配列解析パッケージGCGに拡張機能を提供してきました。EGCGの開発は、EMBnetと他のグループとの共同作業によるものでした。

EGCGは英国サンガー・センターにおける配列解析作業の中核を支えていました。150以上のサイトで先進的な機能を提供するばかりでなく、(内部で行なう)新しい配列解析の基盤としても利用されていました。また、EMBnetサービスのユーザ 10,000人以上にも利用されていました。しかし、そのプロジェクトは、GCGパッケージを利用する限界につきあたりました。とりわけ、

GCGライブラリーを使用したアカデミックなソフトウェアのソース・コードを提供することは、もはや不可能であり、バイナリ形式でソフトウェアを配布することさえも困難でした。

そこで、EGCGの元開発者たちが、アカデミックな次世代配列解析ソフトウェアを設計しました。これが、現在の EMBOSSプロジェクトになったのです。

1.1 それでは、EMBOSSとは何ですか?

EMBOSSは、分子生物学のユーザ・コミュニティー (例:EMBnet)のために開発された、全く新しいオープン・ソースな解析用ソフトウェア・パッケージです。このソフトウェアを使うことで、

様々なフォーマットで書かれたデータを自動的に処理したり、ウェブからの配列データ検索を透過

的に行うことができます。また、EMBOSSパッケージには拡張ライブラリが含まれているので、”オープンソース・スピリット”にのっとった開発を行なうプラットフォームともなります。さらに、様々な配列解析用パッケージやツールがシームレスに統合されています。EMBOSSは、長く続いた商用パッケージソフトウェアへの流れを断ち切ったのです。

EMBOSSスイートは、

• 配列解析プログラム (150以上)の包括的なセットを提供します。

• コアとなるソフトウェア・ライブラリ (AJAX、NUCLEUS)一式を提供します。

• 公的に利用可能ないくつかのパッケージが統合されています。

• 配列解析の練習において、EMBOSSの利用を推奨します。

• EMBOSS以外のパッケージでも、開発者による EMBOSSのライブラリーの利用を推奨します

• Linux、Digital Unix、Irix、Solarisを含んだ、全ての Unixプラットフォームをサポートします (訳注: MacOS X や Windows でも利用できます)。

Page 6: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

6 第 1章 EMBOSSって何?

EMBOSSには、150以上のプログラム (アプリケーション)が含まれています。以下に紹介するものは、カバーされている分野の一例です:

• 配列アラインメント

• 配列パターンによる、高速なデータベース検索

• ドメイン解析を含む、タンパク質のモチーフ同定

• EST解析

• CpGアイランドの同定などの、核酸配列のパターン解析

• 単純で種特異的なリピートの同定

• 小さなゲノムにおけるコドン使用頻度解析

• 大規模な配列セットにおける、迅速な配列パターン同定

• 出版のためのプレゼンテーション・ツール

• その他もろもろ

更に EMBOSSに関する情報を得たい場合は、下記の URLを訪れて下さい。http://www.uk.embnet.org/Software/EMBOSS/

1.2 EMBOSSを使ってみよう

1.2.1 このチュートリアルの構成

このチュートリアルは、ファイルとディレクトリを操作するための基本的な Unixコマンドに精通している方を想定してかかれています。EMBOSSには、紙面では伝えきれないほど非常に多数のアプリケーションが含まれていますので、ここでは、それらのうちのいくつかのアプリケーショ

ンについて紹介します。また、その他のアプリケーションについての情報を知る方法についても紹

介します。各セクションには、多くの練習問題を用意しました。すべてがうまくいった場合の結果

も記してあります。どうぞ、自由にプログラムを試してみてくださいね!それは、これらのプログ

ラムで何ができるのかを知る上で、いちばんの近道なのですから。

次のテキストは、このドキュメント中で、良く見ることになるでしょう ... unix % 。これは、

Unixプロンプトを意味するのに使用します。ですから、これをタイプ入力しないでくださいね! タイプしなければならないコマンドは太字 (bold)で示します。とくに入力が指定されない場合は、

入力の後に returnを押してください。また、returnを押すことは、グラフィックス・ウィンドウを閉じることになるかもしれません。この記号 ((縦に3つ並んだ点))は、スペースが足らないためにプログラムの出力を省略したことを意味するのに使用します。

Page 7: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

1.3. wossname: 最初の EMBOSSのアプリケーション 7

1.3 wossname: 最初のEMBOSSのアプリケーション

全ての EMBOSSプログラムは、Unixのコマンドラインで動きます。ここでは、特別な例を用いて基本を紹介しましょう。EMBOSSのユーティリティwossnameは、EMBOSSに含まれる様々なアプリケーションのリストを生成します。

1.3.1 練習:wossname

unix % プロンプトの後に、wossnameとタイプしてください。

unix % wossname

EMBOSSプログラムは、起動されるとまずそのプログラムに関する情報を一行表示し、それからユーザからの入力を受け付けるためのプロンプトを表示します。今回の場合は、次のように表示

されます。

Finds programs by keywords in their one-line documentation

Keyword to search for: proteinSEARCH FOR ’PROTEIN’

Page 8: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

8 第 1章 EMBOSSって何?

antigenic Finds antigenic sites in proteins

backtranseq Back translate a protein sequence

checktrans Reports STOP codons and ORF statistics of a protein sequence

emowse Protein identification by mass spectrometry

digest Protein proteolytic enzyme or reagent cleavage digest

eprotdist Protein distance algorithm

eprotpars Protein parsimony algorithm

fuzzpro Protein pattern search

fuzztran Protein pattern search after translation

garnier GARNIER predicts protein secondary structure.

iep Calculates the isoelectric point of a protein

octanol Displays protein hydropathy

oddcomp Finds protein sequence regions with a biased composition

patmatdb Search a protein sequence database with a motif

patmatmotifs Search a motif database with a protein sequence

pepnet Displays proteins as a helical net

pepstats Protein statistics

pepwheel Shows protein sequences as helices

pepwindow Displays protein hydropathy

pepwindowall Displays protein hydropathy of a set of sequences

preg Regular expression search of a protein sequence

pscan Scans proteins using PRINTS

sigcleave Reports protein signal cleavage sites

topo Draws an image of a transmembrane protein

EMBOSSプログラムの多くは、様々な機能を提供するためのオプション・パラメータを追加できます。原則として、プログラムの名前に続いて-opt フラグを追加することにより、そのプログ

ラムのオプションに関する情報を表示させることができます。

unix % wossname -opt

さぁ、さまざまなオプションを追加してみましょう。それぞれのオプションのデフォルト値は角

括弧で示されており、リターンキーを押すとデフォルト値が選択されます。必要に応じて、値を入

力してください。

Keyword to search for: protein

Output program details to a file [stdout]: myfile

Page 9: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

1.3. wossname: 最初の EMBOSSのアプリケーション 9

Format the output for HTML [N]: Y

String to form the first half of an HTML link:

String to form the second half on an HTML link:

Output only the group names [N]:

Output an alphabetic list of programs [N]:

Use the expanded group names [N]:

このコマンドにより、wossname は myfile という名前のファイルにプログラムのリストを、

Webブラウザで閲覧可能な htmlフォーマットで書き出します。現在の EMBOSSパッケージに含まれるプログラムのリストを作成するには、wossnameを起動

した後、キーワードを指定せずに returnを押してください。プログラムのリストが、機能により

グループ分けされてスクリーン上にずらずらとでてくるでしょう。全部を見るためには、上下にス

クロールしてみてください。さてどうしたらこのデータをファイルに取り込めるでしょう?(ヒント:-optを使う)

EMBOSSプログラムの名前の後ろに-helpフラグを付ければ、そのプログラムで利用可能な全

てのコマンド・フラグのリストを見ることができます。例えば:

unix % wossname -help

いくつかのフラグについては、後の章で出て来るでしょう。では、次に配列解析の話へ移りま

しょう . . .

Page 10: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ
Page 11: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

11

第2章 配列の取扱い

このチュートリアルでは、Gタンパク質共役型レセプターのロドプシンファミリーのメンバーを調べていきます。ここで使用した原則は、もちろん、あなたが解析したいどんな配列にも応用できま

す。ここでは EMBLや SwissProtから取り出した配列を扱っていきますが、テキストファイルの配列も EMBOSSで使うことができます。

2つの EMBLの配列、XL23808, XLRHODOPから始めます。これらは、Xenopus laevis のロドプシンのゲノム配列とそれに対応した cDNA配列です。まず、解析したい配列 (群)を読みこむ場所を EMBOSSへ指定する必要があります。EMBOSS

は、配列をテキストファイルからも読むことができますし、配列データベースから直接読み込むこ

ともできます。理解しやすいように、例を挙げてみましょう。

2.1 データベースからの配列の取り出し

EMBOSSは database:entry という形式で、さまざまな配列データベースから配列を読み込むことができます。この形式は、USA (Uniform Sequence Address) として知られており、USAの詳細は EMBOSSのウェブサイトで見ることができます。用意されているデータベースを見るためには、showdbを使います:

2.1.1 練習: showdb

例として、HGMPの EMBOSSで最初に利用できるいくつかのデータベースを示します。あなたのローカルサイトでは、管理者によりますが、おそらく違ったデータベースが設定されているこ

とでしょう。

unix % showdbDisplays information on the currently availavle databases

Page 12: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

12 第 2章 配列の取扱い

#Name Type ID Qry All Comment

#==== ==== == === === =======

nbrf P OK OK OK PIR/NBRF

pir P OK OK OK PIR/NBRF

remtrembl P OK OK OK REMTREMBL sequences

sptrembl P OK OK OK SPTREMBL sequences

sw P OK OK OK SWISSPROT sequences

swissprot P OK OK OK SWISSPROT sequences

trarc P OK OK OK TREMBL ARC sequences

trembl P OK OK OK TREMBL sequences

tremblnew P OK OK OK New TREMBL sequences

showdbは、データベース名、内容、アクセス方法を簡単な表で出力します。

ID 一つの固有の名前が付けられた配列 (例えば、embl:x13776)を、そのデータベースから取りだすことが可能であることを示しています。

Query エントリ名のワイルドカードにマッチする配列群 (例えば、swissprot:pax* human)を、取り出すことが可能であることを示しています。

All そのデータベースのすべてのエントリ (例えば、embl:*)を続けて解析可能であることを示しています。

EMBLへのアクセスは、xlrhodp のような識別子か、L07770のようなアクセッション番号のどちらでも可能です。では早速、試してみましょう。

2.1.2 seqret

seqretは配列を読み込んで、そしてその配列を出力します。要するに EMBOSSは readseqと同

等の効力を持っています(訳注: readseqはよく使われる配列の形式を変換するプログラム)。こ

のプログラムはおそらく、EMBOSSの中でもっとも広く使われるプログラムでしょう。

2.1.3 練習: seqret

unix % seqret

Reads and writes (returns) a sequence

Input sequence: embl:xlrhodopOutput sequence [xlrhodop.fasta]:

Page 13: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

2.1. データベースからの配列の取り出し 13

unix % more xlrhodop.fasta

>XLRHODOP L07770 Xenopus laevis rhodopsin mRNA, complete cds.

ggtagaacagcttcagttgggatcacaggcttctagggatcctttgggcaaaaaagaaac

acagaaggcattctttctatacaagaaaggactttatagagctgctaccatgaacggaac

...

では、アクセッション番号を使って、配列を取り出してみましょう。

unix % seqretReads and writes (returns) a sequence

Input sequence: embl:L07770Output sequence [xlrhodop.fasta]: xlrhodop2.fasta

unix % more xlrhodop2.fasta

>XLRHODOP L07770 Xenopus laevis rhodopsin mRNA, complete cds.

ggtagaacagcttcagttgggatcacaggcttctagggatcctttgggcaaaaaagaaac

acagaaggcattctttctatacaagaaaggactttatagagctgctaccatgaacggaac

...

この例を完全にコマンドラインから実行することもできます:

unix % seqret embl:xlrhodop -outseq xlrhodop.fasta

デフォルトでは、seqretは FASTA形式で出力します。また、違う出力形式を指定することもできます:

unix % seqret embl:L07770 -outseq xlrhodop.gcg -osformat gcg

USAを用いて出力形式を指定する別の方法として、-osformatフラグを利用することができま

す。次のコマンドは前に示したコマンドとまったく同じ動作をします:

Page 14: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

14 第 2章 配列の取扱い

unix % seqret embl:L07770 -outseq xlrhodop.gcg -osformat gcg

unix % more xlrhodop.gcg

!!NA_SEQUENCE 1.0

Xenopus laevis rhodopsin mRNA, complete cds.

XLRHODOP Length: 1684 Type: N Check: 9453 ..

1 ggtagaacag cttcagttgg gatcacaggc ttctagggat cctttgggca

51 aaaaagaaac acagaaggca ttctttctat acaagaaagg actttataga

...

EMBOSSが理解できるさまざまな形式のリストは、http://www.uk.embnet.org/Software/EMBOSS/Usa/formats.htmlにあります。

2.2 ファイルからの配列の読み込み

EMBOSSはファイルから配列を読むこともできます。例えば、もし私たちが、ダウンロードした FASTA形式の配列を gcg 形式へ変換したい場合、このようにします:

unix % seqret xlrhodop.fasta -outseq gcg::myseq.gcg

あるいは、

unix % seqret xlrhodop.fasta -outseq myseq.gcg -osformat gcg

Page 15: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

2.3. 配列についての情報の取得 15

2.3 配列についての情報の取得

2.3.1 infoseq

infoseqは、配列の USA、名前、アクセッション番号、種類 (核酸かタンパク質か)、長さ、G+Cのパーセンテージ (核酸用)、および/または、概要 (description)を一覧表示する小さなユーティリティです。先程の配列に対しては、次のような情報が閲覧できます。

unix % infoseq embl:xlrhodop

Displays some simple information about sequences

# USA Name Accession Type Length GC Description

embl-id:XLRHODOP XLRHODOP L07770 N 1684 45.72 X.laevis rhodopsin

2.3.2 配列の注釈

配列データベースは単に配列だけを含んでいるわけではなく、エントリについての非常に重要な

関連情報 (注釈, annotation)も含んでいます。しかし、seqretではこれらすべての情報を得ることはできません。

配列を取り出したいデータベースの元の形式で、完全なエントリを得るためには entret を使います。

unix % entret embl:xl23808Reads and writes (returns) flatfile entries

Output file [xl23808.entret]:

unix % more xl23808.entretID XL23808 standard; DNA; VRT; 4734 BP.

XX

AC U23808;

XX

SV U23808.1

XX

DT 23-APR-1995 (Rel. 43, Created)

DT 04-MAR-2000 (Rel. 63, Last updated, Version 7)

XX

DE Xenopus laevis rhodopsin gene, complete cds.

XX

Page 16: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

16 第 2章 配列の取扱い

KW .

XX

OS Xenopus laevis (African clawed frog)

OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Amphibia;

OC Batrachia; Anura; Mesobatrachia; Pipoidea; Pipidae; Xenopodinae; Xenopus.

XX...

これによって、たくさんの情報が表示されます。最後のほう (配列の直前)には関係のある featureのリストが表示されます。featureは配列上のある領域を指し、これに関する説明も記述されています。showfeat を使えば、feature の概要をシンプルかつグラフィカルに見ることができます:

unix % showfeat embl:xl23808

Show features of a sequence.

Output file [xl23808.showfeat]:

unix % more xl23808.showfeat

XL23808

Xenopus laevis rhodopsin gene, complete cds.

|==========================================================| 4734

|----------------------------------------------------------> source

|-----> mRNA

|---> CDS

|-> CDS

|-> mRNA

|-> CDS

|-> mRNA

|--> CDS

|--> mRNA

|> CDS

|-------> mRNA

配列と共に、これの持つすべての featureを取りだすためには、seqret に -feature フラグを

付けて実行します。

unix % seqret embl:xl23808 -feature

Page 17: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

2.3. 配列についての情報の取得 17

Reads and writes (returns) one or more sequences

Output sequence [xl23808.fasta]:

このとき、xl23808.fastaの他に xl23808.gffが作られます。このファイルを見てみましょう。

unix % more unknown.gff

##gff-version 2.0

##date 2003-02-21

##Type DNA XL23808

XL23808 EMBL source 1 4734 0.000 + . Sequence ‘‘XL23808.1’’ ; db_xref \

‘‘taxon:8355’’ ; organism ‘‘Xenopus laevis’’

XL23808 EMBL mRNA 1181 1650 0.000 + . Sequence ‘‘XL23808.2’’ ; FeatFlags\

‘‘0x100’’ ; product ‘‘rhodopsin’’

XL23808 EMBL mRNA 1899 2067 0.000 + . Sequence ‘‘XL23808.2’’ ; FeatFlags\

‘‘0x104’’

XL23808 EMBL mRNA 2669 2834 0.000 + . Sequence ‘‘XL23808.2’’ ; FeatFlags\

‘‘0x104’’

...

これは、GFF (General Feature Format) での、データベースエントリの featureのリストです。EMBOSSのウェブサイトでは、このフォーマットについてもっと知ることができます。フォーマットとファイル名を変更するためには、seqretを実行するときに、適切なフラグを使って指定することが必要です。feature を EMBL 形式で rhodop.features というファイルに保存してみましょう:

unix % seqret embl:xl23808 -feature -offormat embl -ofname rhodop.featuresReads and writes (returns) one or more sequences

Output sequence [xl23808.fasta]:

これで、期待どおりの出力が得られることでしょう。また、-offormatや -ofname フラグで個

別に指定するかわりに、Uniform Feature Object (UFO) を使って指定することもできます。unix % seqret embl:xl23808 -feature -oufo embl::rhodop.features

Page 18: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

18 第 2章 配列の取扱い

2.4 複数配列を取り扱う

EMBOSSのプログラムは、複数の配列を処理することができます。SRS(訳注:EMBLのThureEtzoldらが開発した配列データベース検索システム http://srs.embl-heidelberg.de:8000/srs5/)を使えば、今まで見て来た EMBLの配列に対応する SwissProtの配列が、OPSD XENLAであることがすぐにわかるでしょう。SwissProtにある他のOPSD配列すべてを取りだすためには、ワイルドカード文字を使うことができます。

unix % infoseqDisplays some simple information about sequences

Input sequence(s): sw:opsd *# USA Name Accession Type Length Description

sw-id:OPSD ABYKO OPSD ABYKO O42294 P 289 RHODOPSIN (FRAGMENT).

sw-id:OPSD ALLMI OPSD ALLMI P52202 P 352 RHODOPSIN.

sw-id:OPSD AMBTI OPSD AMBTI Q90245 P 354 RHODOPSIN.

sw-id:OPSD ANGAN OPSD ANGAN Q90214 P 352 RHODOPSIN, DEEP-SEA

sw-id:OPSD ANOCA OPSD ANOCA P41591 P 352 RHODOPSIN.

sw-id:OPSD APIME OPSD APIME Q17053 P 377 RHODOPSIN.

sw-id:OPSD ASTFA OPSD ASTFA P41590 P 352 RHODOPSIN.

sw-id:OPSD BATMU OPSD BATMU O42300 P 289 RHODOPSIN (FRAGMENT).

sw-id:OPSD BATNI OPSD BATNI O42301 P 289 RHODOPSIN (FRAGMENT).

sw-id:OPSD BOVIN OPSD BOVIN P02699 P 348 RHODOPSIN.

また、コマンドラインからもワイルドカード文字を利用することができます。しかし、指定する

識別子をクォーテーションマークで囲まなければなりません:

unix % infoseq “sw:opsd *”

seqretを使って、複数配列をファイルに取り出すことができます。例えば:

unix % seqret “sw:opsd a*” -outseq opsd a.seqs

この操作により、識別子が opsd aで始まるすべての配列を、opsd a.seqsというファイルに取り

Page 19: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

2.5. リストファイル 19

出します。それぞれの配列を別々のファイルに取り出したい場合はこのようにします。

unix % seqret “sw:opsd a*” -ossingle

ファイル名は、配列の識別子を元に付けられます。

2.5 リストファイル

EMBOSSはリストファイルを使うこともできます。リストファイルとは、配列そのものが書かれているのではなく、配列へのリファレンスが書かれたファイルです。例えば、データベースエン

トリ、配列が書かれたファイルの名前、他のリストファイルの名前、などが書かれています。リス

トファイルを使うためには、適切なリストファイルを作るために、picoのようなテキストエディタが必要になるでしょう (訳注: pico がインストールされている UNIX/Linux はそれほど多くありません。というか、見たことない。vi, vim, emacs, jed などを使いましょう。)以下は、正しいリストファイルの例 (seq.list)です。

opsd_abyko.fasta

sw:opsd_xenla

sw:opsd_c*

@another_list

作ったファイルを、次のようにして見てみましょう:

unix % more seq.listちょっと奇妙に見えるかもしれませんが、実はとても単純なのです。各行は、次のような意味を

表しています。

• opsd abyko.fasta - 配列ファイル名です。このファイルはカレントディレクトリから読み込まれます。

• sw:opsd xenla - SwissProtデータベースの特定の配列へのリファレンスです。

• sw:opsd c* - opsd c で始まる SwissProtのすべての配列を示しています。

• @another list - 別のリストファイル名です。

最後の行の前についている @ に注意してください。これは、このファイルが、通常の配列ファ

イルではなく、リストファイルであることを EMBOSSに知らせています。@を使わない方法とし

Page 20: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

20 第 2章 配列の取扱い

ては、「list:ファイル名」が利用できます。では、このリストファイルを seqret の入力として使

い、新しいファイルに配列を取得してみましょう。恐らく、多重アラインメント (5.3節参照)などで利用されるでしょう。

まず、opsd abyko.fasta ファイルを seqret を使って作ります:

unix % seqret sw:opsd abyko -outseq opsd abyko.fasta

今度は、another list を作りましょう。ファイルの構造が seq.list にとても似ていますが、データベースのリファレンスだけが含まれていることに注意してください:

sw:opsd_anoca

sw:opsd_apime

sw:opsd_astfa

作ったファイルは、次のようにして見てみましょう。

unix % more another list

では最後に、seq.list ファイルを使って seqret を実行し、結果を見てみましょう ( @ を忘れないでくださいね ):unix % seqret @seq.list -outseq outfile

unix % more outfile

>OPSD_ABYKO O42294 RHODOPSIN (FRAGMENT).

YLVNPAAYAALGAYMFLLILIGFPINFLTLYVTLEHKKLRTPLNYILLNLAVANLFMVLG

GFTTTMYTSMHGYFVLGRLGCNLEAFFATLGGEIALWSLVVLAIERWIVVCKPISNFRFT

EDHAIMGLAFTWVMALACAVPPLVGWSRYIPEGMQCSCGVDYYTRAEGFNNESFVIYMFI

VHFLIPLSVIFFCYGRLLCAVKEAPAAQQESETTQRAEKEVSRMVVIMVIGFLVCWLPYA

SVAWWIFCNQGSDFGPIFMTLPSFFAKSAAIYNPMIYICMNKQFRHCMI

>OPSD_XENLA P29403 RHODOPSIN.

MNGTEGPNFYVPMSNKTGVVRSPFDYPQYYLAEPWQYSALAAYMFLLILLGLPINFMTLF

VTIQHKKLRTPLNYILLNLVFANHFMVLCGFTVTMYTSMHGYFIFGPTGCYIEGFFATLG

GEVALWSLVVLAVERYIVVCKPMANFRFGENHAIMGVAFTWIMALSCAAPPLFGWSRYIP

Page 21: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

2.5. リストファイル 21

EGMQCSCGVDYYTLKPEVNNESFVIYMFIVHFTIPLIVIFFCYGRLLCTVKEAAAQQQES

LTTQKAEKEVTRMVVIMVVFFLICWVPYAYVAFYIFTHQGSNFGPVFMTVPAFFAKSSAI

YNPVIYIVLNKQFRNCLITTLCCGKNPFGDEDGSSAATSKTEASSVSSSQVSPA

>OPSD_CAMAB Q17292 RHODOPSIN.

MMSIASGPSHAAYTWASQGGGFGNQTVVDKVPPEMLHMVDAHWYQFPPMNPLWHALLGFV

IGVLGVISVIGNGMVIYIFTTTKSLRTPSNLLVVNLAISDFLMMLCMSPAMVINCYYETW

VLGPLFCELYGLAGSLFGCASIWTMTMIAFDRYNVIVKGLSAKPMTINGALIRILTIWFF

TLAWTIAPMFGWNRYVPEGNMTACGTDYLTKDLFSRSYILIYSIFVYFTPLFLIIYSYFF

IIQAVAAHEKNMREQAKKMNVASLRSAENQSTSAECKLAKVALMTISLWFMAWTPYLVIN

YSGIFETTKISPLFTIWGSLFAKANAVYNPIVYGISHPKYRAALFQKFPSLACTTEPTGA

DTMSTTTTVTEGNEKPAA

>OPSD_CAMHU O18312 RHODOPSIN (FRAGMENT).

LHMIHLHWYQYPPMNPMMYPLLLIFMLFTGILCLAGNFVTIWVFMNTKSLRTPANLLVVN

LAMSDFLMMFTMFPPMMVTCYYHTWTLGPTFCQVYAFLGNLCGCASIWTMVFITFDRYNV

IVKGVAGEPLSTKKASLWILSVWVLSTAWCIAPFFGWNHYVPEGNLTGCGTDYLSEDILS

RSYLYIYSTWVYFLPLAITIYCYVFIIKAVAAHEKGMRDQAKKMGIKSLRNEEAQKTSAE

CRLAKNAMTTVALWFIAWTPCLLINWVGMFARSYLSPVYTIWGYVFAKANAVYNPIVYAI

S

...

期待した通り、出力ファイルには seq.list で指定したすべての配列が含まれていることを確認してください。

Page 22: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ
Page 23: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

23

第3章 ペアワイズアラインメント

この章では、配列類似性を扱います。まずはじめに、配列の類似度を表す基準は複数あり、その計

算方法も複数あることを覚えておいて下さい。それぞれに長所と短所があり (あるいは前提とする条件が異なり)、どのような類似度と計算方法を用いればよいかは状況に応じて使い分ける必要があります。二つの配列どうしを、類似している部分と違いのある部分がわかるように文字を揃える

ことをペアワイズアラインメントといいます。最適なアラインメントを行なうことで、最も有意な

類似を示す領域と、互いに類似しない領域がわかるのです。一般的に、配列を比較する方法は次の

三つに分類することができます。

• セグメント法は、片方の配列の全てのウィンドウ (10アミノ酸、といったように予め決まった長さの全ての部分配列)をもう片方の配列の全てのウィンドウと比較します。これは、ドットプロットで使用されている方法です

• 大域アラインメント法では、二つの配列の全長にわたってアラインメントを行なったときの最も良いスコアが計算されます。ここではセグメント法とは異なり、ギャップを考慮に入れ

て比較を行ないます。

• 局所アラインメント法では、各配列の部分配列同士のアラインメントを行なったときの最も良いスコアが計算されます。ここでも、ギャップを考慮に入れた比較を行ないます。

3.1 ドットプロット

二つの配列を比較するときの表現方法として、最も直感に訴えるものがドットプロットです。各

配列は、x軸あるいは y軸に対応しており、有意に類似している領域は、マトリクスの対角線として表示されます。

3.1.1 練習:ドットプロットを作ろう

unix % dottup

DNA sequence dot plot

Input sequence: embl:xl23808

Second sequence: embl:xlrhodopWord size [4]: 10

Graph type [x11]:

Page 24: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

24 第 3章 ペアワイズアラインメント

次のようなウィンドウが画面に表示されるでしょう。

対角線は、二つの配列が互いに類似している領域を表します。5つの対角線がありますね。今、アラインメントで使用している配列は、片方はゲノム、もう片方は cDNAだったのを覚えていますか? これらの五つの対角線は五つのエキソンに対応しているのです! SRSを使って、元の EMBLのゲノム配列を見て下さい。そうすれば、この遺伝子は五つのエキソンを持っているという註釈を

見つけられるでしょう。自分の解析と註釈が一致する瞬間です。

ここで使ったパラメータの設定は、最もいい結果がでてくるようなものを選びました。dottupは配列の間で、局所的にギャップ無しで一致している部分を探します。さっきのように、エキソン

の領域はゲノムの局所配列と正確に一致しているだろう、と予想できる場合には、もっと長いワー

ド長 (訳注: ウィンドウの幅)を使ってもいいでしょう。そうすればきっと、もっときれいなドットプロットが得られます。でも、さっきの cDNA配列を、進化的な関係はあるけれど異なる配列 (例えば、マウスのロドプシン embl:m55171)と比較する場合には、長い一致は期待できませんね? この場合には、より短いワード長を使うべきでしょう。

3.1.2 練習:ドットプロットのパラメータを考えよう

カエルのロドプシン cDNA配列と、マウスのゲノム配列を使って、さっきのようにドットプロットを描いてみましょう。

unix % dottup embl:m55171 embl:xlrhodopDNA sequence dot plot

Word size [4]: 10Graph type [x11]:

同じことを、ワード長を変えてやってみましょう。なにか気付きましたか? どのワード長が、一番きれいなドットプロットを出力しましたか? なぜ、最初と最後のエキソンは、きれいじゃないのでしょう? (ヒント:showfeatの結果をみてみましょう)ドットプロットでは、配列の詳細は何もわかりません。そこで、他のプログラムを使う必要が出

てきます。今から使うアルゴリズムは、データベース検索の際に用いられるものよりも厳密なもの

Page 25: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

3.2. 大域アラインメント 25

です。ですから、BLASTか何かでデータベースから類似配列をみつけたとしても、その後で更に、ペアワイズアラインメントを注意深く行なう価値は十分にあります。

配列アラインメントプログラムの基本的な考え方は、最も高いスコアをとるように二つの配列を

揃えることです。文字同士が一致したときのスコア、また不一致のときのスコアはスコアマトリク

スによって決められます。核酸同士のスコアマトリクスは比較的単純に、一致/不一致に対するスコアだけを与えるようなものが使われることが多いですが、アミノ酸同士のスコアマトリクスは

もっと複雑になります。アミノ酸同士の類似性を反映するようにスコアが与えられるのです。

進化の過程では、配列には様々な変異が起きます。スコアマトリクスは、文字の置換に対するス

コアのみを与えるので、挿入/削除に対応するためには別のパラメータ (ギャップペナルティ)が必要になります。これには、ギャップの開始に対するペナルティと、ギャップの伸張に対するペナル

ティがあります。アラインメントプログラムで採用されているデフォルトのパラメータは経験的に

正しいと思われているものが設定されていますが、あなたが実際にプログラムを使用する際には、

自分で異なるパラメータも試してみるべきでしょう。

3.2 大域アラインメント

大域アラインメントは配列の全長を比較します。従って、互いに全長にわたって類似している

と予想される配列同士の比較に向いています。予め与えられたスコアマトリクスとギャップのパラ

メータを使って、互いに類似している領域を可能な限り大きく、そして、ギャップをできるだけ小

さくするように計算します。EMBOSSに含まれる needleは、Needleman-Wunsch [3] によって提案されたアルゴリズムの実装です。これは、スコアが最大になるようなアラインメントを正確に計

算しますが、配列が長い場合にはとても時間がかかってしまいます。

3.2.1 練習: needle

unix % needleNeedleman-Wunsch global alignment.

Input sequence: embl:xlrhodopSecond sequence: embl:xl23808

Gap opening penalty [10.0]:

Gap extension penalty [0.5]:

Output file [xlrhodop.needle]:

unix % more xlrhodop.needle

Global: XLRHODOP vs XL23808

Score: 7471.00

XLRHODOP

Page 26: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

26 第 3章 ペアワイズアラインメント

XL23808 1 cgtaactaggaccccaggtcgacacgacaccttccctttcccagt 45

XLRHODOP

XL23808 46 tatttcccctgtagacgttagaaggggaaggggtgtacttatgtc 90

XLRHODOP

XL23808 91 acgacgaactacgtccttgactacttagggccagagagacgaggt 135

...ここでは、cDNA配列とゲノム配列の大域アラインメントであることに注意してください。このため、cDNA配列と対応する領域だけでなく、対応しない領域も含めたゲノム配列全体が、結果として出力されます。2つの配列が並んでいる領域まで、出力結果をスクロールしてみてください。

XLRHODOP 1 ggtagaacagcttcagttgggatcacaggcttcta 35

||||||||||||||||||||||||||||||||||

XL23808 1171 tgggtcatactgtagaacagcttcagttgggatcacaggcttcta 1215

XLRHODOP 36 gggatcctttgggcaaaaaagaaacacagaaggcattctttctat 80

|||||||||||||||||||||||||||||||||||||||||||||

XL23808 1216 gggatcctttgggcaaaaaagaaacacagaaggcattctttctat 1260

XLRHODOP 81 acaagaaaggactttatagagctgctaccatgaacggaacagaag 125

|||||||||||||||||||||||||||||||||||||||||||||

XL23808 1261 acaagaaaggactttatagagctgctaccatgaacggaacagaag 1305

XLRHODOP 126 gtccaaatttttatgtccccatgtccaacaaaactggggtggtac 170

|||||||||||||||||||||||||||||||||||||||||||||

XL23808 1306 gtccaaatttttatgtccccatgtccaacaaaactggggtggtac 1350

...出力結果はとても長いので、その一部だけを表示してます。自分でやってみて、結果の全体を見

てみてください。そうすれば、ドットプロットでも予測された五つのエキソンに対応する、五つの

領域が揃っていることがわかるでしょう。

アラインメントがとられているところと、そうでないところの境界をよく見てください。私達

は、生物学者なので、エキソンとイントロンの境界は保存されている (スプライスサイトは、gt ..

ag で区切られている)ことを知っています。しかし needleは、こういった遺伝子の構造を理解し

ていないので、境界を正しくアラインメントするのが苦手です。これは、スプライシングサイトに

特化したスコア付けを行なってないためです。イントロン/エキソン境界を、より正しくアラインメントするようにスコア計算を行なうプログラムとして、est2genomeがあります。

Page 27: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

3.3. 局所アラインメント 27

3.3 局所アラインメント

上記で述べたように、大域アラインメントは配列の全長のアラインメントを行ないます。実際に

解析を行なう際には、どの種類のアラインメントが適切かというのを、しっかり考えてください。

先の例では、各エキソンの領域が同じ順番で並んでいたので、うまくアラインメントできました。

でも例えば、複数のドメインを含むタンパク質同士が一つのドメインしか共有しない場合や、ある

ドメインが片方の配列でのみくり返されているような場合は、どうすればうまくアラインメントで

きるでしょう?二つめのアラインメント法である局所アラインメントでは、全長をアラインメントするのでなく、

局所的に類似している領域を捜し、アラインメントします。従って、配列データベース検索など、配

列同士が局所的に類似しているのか全体的に類似しているのか、予めわからない場合にはとても有効

です。EMBOSSのプログラム waterは、局所アラインメントを厳密に計算する Smith-Watermanアルゴリズム [4].の実装です。

3.3.1 練習: water

unix % water

Smith-Waterman local alignment.

Input sequence: embl:xlrhodop

Second sequence: embl:xl23808

Gap opening penalty [10.0]:

Gap extension penalty [0.5]:

Output file [xlrhodop.water]:

unix % more xlrhodop.water

Local: XLRHODOP vs XL23808

Score: 7448.00

XLRHODOP 2 gtagaacagcttcagttgggatcacaggcttctagggatcctttg 46

|||||||||||||||||||||||||||||||||||||||||||||

XL23808 1182 gtagaacagcttcagttgggatcacaggcttctagggatcctttg 1226

XLRHODOP 47 ggcaaaaaagaaacacagaaggcattctttctatacaagaaagga 91

|||||||||||||||||||||||||||||||||||||||||||||

XL23808 1227 ggcaaaaaagaaacacagaaggcattctttctatacaagaaagga 1271

XLRHODOP 92 ctttatagagctgctaccatgaacggaacagaaggtccaaatttt 136

|||||||||||||||||||||||||||||||||||||||||||||

XL23808 1272 ctttatagagctgctaccatgaacggaacagaaggtccaaatttt 1316

Page 28: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

28 第 3章 ペアワイズアラインメント

XLRHODOP 137 tatgtccccatgtccaacaaaactggggtggtacgaagcccattc 181

|||||||||||||||||||||||||||||||||||||||||||||

XL23808 1317 tatgtccccatgtccaacaaaactggggtggtacgaagcccattc 1361

XLRHODOP 182 gattaccctcagtattacttagcagagccatggcaatattcagca 226

|||||||||||||||||||||||||||||||||||||||||||||

XL23808 1362 gattaccctcagtattacttagcagagccatggcaatattcagca 1406

XLRHODOP 227 ctggctgcttacatgttcctgctcatcctgcttgggttaccaatc 271

|||||||||||||||||||||||||||||||||||||||||||||

XL23808 1407 ctggctgcttacatgttcctgctcatcctgcttgggttaccaatc 1451

XLRHODOP 272 aacttcatgaccttgtttgttaccatccagcacaagaaactcaga 316

|||||||||||||||||||||||||||||||||||||||||||||

XL23808 1452 aacttcatgaccttgtttgttaccatccagcacaagaaactcaga 1496

XLRHODOP 317 acacccctaaactacatcctgctgaacctggtatttgccaatcac 361

|||||||||||||||||||||||||||||||||||||||||||||

XL23808 1497 acacccctaaactacatcctgctgaacctggtatttgccaatcac 1541

...出力結果の下のほうまで見て、五つのエキソンがみつかっていることを確認して下さい。この例

では、ギャップのパラメータをデフォルトのものから変更していません。しかし、あなたの実際の

解析では、パラメータを変える必要があるかもしれないことを認識しておいてください。

EMBOSS には、他にも大域アラインメント/局所アラインメントを行なうプログラムとしてstretcher/matcherが含まれています。これらは needleや waterと比べると、計算には厳密さ

を欠きますが、より短時間で計算が行なえます。ですから、データベースの検索等に向いていると

いえるしょう。また、supermatcherも、計算の厳密さを多少欠きますが、とても長い配列を局所

アラインメントできるプログラムです。これらのプログラムに関するドキュメントは、ウェブサイ

(http://www.uk.embnet.org/Software/EMBOSS/Apps/index.html ) をご覧下さい。

Page 29: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

29

第4章 タンパク質解析

この章ではタンパク質配列解析の際に利用することができるいくつかのプログラムを紹介します。

もちろん、前の章で説明したペアワイズアラインメントは、タンパク質配列の解析にも利用でき

ます。

4.1 ORFの同定

本節では、cDNA配列をタンパク質配列へと翻訳するための EMBOSSアプリケーションについて見ていくことにします。なお、遺伝子の構造予測は、とても難しい問題だということは理解して

おいて下さい。ゲノム配列から エキソン - イントロンの境界を認識することは、簡単ではないのです。ここではこれらの問題を扱うことを避け、cDNA配列を用います。まず、オープンリーディングフレーム (Open Reading Frame。以下、ORFと記します)を同定しましょう。plotorfを使

うことで、配列中の 6つの読み枠全てに関するORFの概要を、グラフィカルに表示することができます。

4.1.1 練習: plotorf

unix % plotorf

Plot potential open reading frames

Input sequence: embl:xlrhodopGraph type [x11]:

6つの読み枠に存在する、全ての ORF侯補がグラフィカルに表示されるでしょう。

Page 30: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

30 第 4章 タンパク質解析

最も長い ORFは読み枠 2の 100から 1200塩基目あたりに存在します。getorfを使うことで、

この ORFの正確な開始位置と終了位置を同定することが出来ます。

4.1.2 練習: getorf

unix % getorf -optFinds and extracts open reading frames (ORFs)

Input sequence: embl:xlrhodopOutput sequence [xlrhodop.orf]:

Genetic codes

0 : Standard

1 : Standard (with alternative initiation codons)

2 : Vertebrate Mitochondrial

3 : Yeast Mitochondrial

4 : Mold, Protozoan, Coelenterate Mitochondrial and Mycoplasma/Spiroplasma

5 : Invertebrate Mitochondrial

6 : Ciliate Macronuclear and Dasycladacean

9 : Echinoderm Mitochondrial

10 : Euplotid Nuclear

11 : Bacterial

Page 31: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

4.2. 配列の翻訳 31

12 : Alternative Yeast Nuclear

13 : Ascidian Mitochondrial

14 : Flatworm Mitochondrial

15 : Blepharisma Macronuclear

Code to use [0]:

Minimum nucleotide size of ORF to report [30]:

Type of sequence to output

0 : Translation of regions between STOP codons

1 : Translation of regions between START and STOP codons

2 : Nucleic sequences between STOP codons

3 : Nucleic sequences between START and STOP codons

4 : Nucleotides flanking START codons

5 : Nucleotides flanking initial STOP codons

6 : Nucleotides flanking ending STOP codons

Type of output [0]: 3

適切な遺伝暗号を使用するために生物名を指定すること、また、このプログラムに出力して欲し

い情報を選択する必要があること、に気をつけて下さい。ここでは単純に、この配列の開始コドン

と終止コドンの位置に注目しています。

plotorfは getorf の出力するテキスト形式の情報をグラフィカルに表示するプログラムです。

先程の getorfの例では、最小サイズ (デフォルトでは 30塩基) を上回る大きさの全 ORFを出力するように指定したため、数多くの ORF侯補が出力されました。plotorfにより、我々の対象

である ORFは 100から 1200塩基目あたりにあることがわかっているので、これを見つけるまでgetorfの出力ファイル xlrhodop.orfをスクロールダウンしてみましょう。正確な開始と終了の位置はどこですか?unix % more xlrhodop.orf

>XLRHODOP_7 [110 - 1171] Xenopus laevis rhodopsin mRNA, complete cds.

atgaacggaacagaaggtccaaatttttatgtccccatgtccaacaaaactggggtggta

cgaagcccattcgattaccctcagtattacttagcagagccatggcaatattcagcactg

...

4.2 配列の翻訳

先ほどの練習から、cDNA配列中で翻訳されるであろう位置が 110から 1171塩基目であることが分かりました。transeqを使えばこの領域をタンパク質に翻訳することができ、その翻訳結果

を用いて更に解析を行うことができます。

Page 32: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

32 第 4章 タンパク質解析

4.2.1 練習: transeq

コマンドラインフラグを使う練習をもう一回やってみましょう。ここで登場する新しいフラグは

-sbeginと-sendです。これらのフラグは配列中の部分領域を指定するために使われます。ここで

は、先程コーディング領域として同定した embl:xlrhodopの一部分だけを翻訳をするために使用します。 refchap:seqret章に出てきた-outseq フラグも忘れず指定しましょう。

unix % transeq embl:xlrhodop -sbegin 110 -send 1171 -outseq xlrhodop.pep

Translate nucleic acid sequences

unix % more xlrhodop.pep

>XLRHODOP+1 Xenopus laevis rhodopsin mRNA, complete cds.

MNGTEGPNFYVPMSNKTGVVRSPFDYPQYYLAEPWQYSALAAYMFLLILLGLPINFMTLF

VTIQHKKLRTPLNYILLNLVFANHFMVLCGFTVTMYTSMHGYFIFGQTGCYIEGFFATLG

GEVALWSLVVLAVERYMVVCKPMANFRFGENHAIMGVAFTWIMALSCAAPPLFGWSRYIP

EGMQCSCGVDYYTLKPEVNNESFVIYMFIVHFTIPLIVIFFCYGRLLCTVKEAAAQQQES

ATTQKAEKEVTRMVVIMVVFFLICWVPYAYVAFYIFTHQGSNFGPVFMTVPAFFAKSSAI

YNPVIYIVLNKQFRNCLITTLCCGKNPFGDEDGSSAATSKTEASSVSSSQVSPA

2章で見たように、この cDNAに対応するタンパク質配列は、SwissProtの opsd xenla という

識別子を持つことがわかっています。では、ここまでの理解度を確かめるために needleを使ってあなたの翻訳した配列とそのデータベース配列を比較してみてください。あなたの発見 (翻訳したタンパク質配列)と、SRSで調べた SwissProtエントリを比較してみましょう。

4.3 部分配列に対するUSA

配列中での開始と終了の位置や、相補鎖か否かを指定するためには、-sbeginや-sendフラグだけでなく、USA形式 (訳注:2章参照)を使用することもできます。つまり、db:sequence[start:end]

(相補鎖を指定する場合は db:sequence[start:end:r])として指定できるのです。ただし、開始位置は終了位置より小さい値でなければなりません。もし入力した配列の実際の開始位置と終了位置

を使いたければ位置 (何塩基目か) を指定する代わりに 0を使うことができます。また、配列の先頭からではなく終わりから数えたければ負の値を使うことも出来ます。

4.3.1 例

SwissProt opsd xenlaの 10から 20残基目まで sw:opsd xenla[10:20]opsd xenlaの最後の 10残基 sw:opsd xenla[-10:0]

opsd xenlaの最後の 20残基から後ろ 5残基を除いたもの sw:opsd xenla[-20:-6]embl:xlrhodopの 134から 458塩基目までの相補鎖 embl:xlrhodop[134:458:r]

Page 33: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

4.4. 二次構造予測 33

4.4 二次構造予測

DNA配列がどのようにして特定のタンパク質立体構造を決定するかという疑問は、その問題が提起されてから常に我々を魅了し、様々な思索の源となってきました。それは”フォールディング問題”と呼ばれる分子生物学における未解決の非常に困難な問題であり続けています。これまでにタンパク質の一次配列から三次構造 (立体構造)を予測しようとする多くの試みがなされてきました。これらは二つのアプローチに分類することができます。

• タンパク質鎖の現実的な力学モデルを立て、フォールディング過程をシミュレートするアプローチ

• 既知の三次構造から推測するという経験的なアプローチ

力学モデルに基づいたアプローチは、理論的にはタンパク質の三次構造に関する何の事前知識も

必要としない、という魅力を持っています。もしこのアプローチが成功すれば、全ての配列に等し

く適用できることでしょう。対照的に、既知の構造からの推論に基づく全ての方法は、本質的に限

られた範囲にしか適用できません。つまり、推論する際に用いられたものと類似した構造を持つも

のにしか適用できないのです。幸運にも、生物物理学的あるいは生化学的な特徴から、既知の構造

と類似しているかどうかを決定できる場合が、しばしばあります。そのため、これらの特徴を統合

した構造予測手法も提案されています。

現時点での、妥当な二次構造予測に到達するための最善の方法は、様々な予測アルゴリズムを

実行し、それらが与える結果間でのコンセンサスを決定することです。このような解析を行ってく

れるいくつかの webサーバがあります。例えば、HGMPにある PIXやDundee大学にある Jpredがそうです。

http://www.hgmp.mrc.ac.uk/Registered/Webapp/pix/

http://www.compbio.dundee.ac.uk/ www-jpred

今までのところ、EMBOSSに含まれるプログラムによって可能な二次構造予測の範囲は限られています。上で述べたようなコンセンサスを決定するような手法を可能にするために、これから多

くのアルゴリズムが追加されることでしょう。以下では現在の EMBOSSを使って行うことが出来る予測のいくつかを見ていくことにします。

4.5 pepinfo

pepinfoはアミノ酸の特性 (大きさ、極性、芳香族性、電荷等)に関する情報を生成します。また、疎水性プロファイルも計算します。これは、ターン、抗原性ペプチドの侯補や膜貫通へリックス位

置の侯補を推定するのに有用です。この計算には、様々なアルゴリズムが用いられています。例え

ば、Kyte-Doolittleの疎水性指標は、ある残基を中心とする幅 9残基のウィンドウ中で疎水性指標の平均をとったものです。この値が上側にあれば疎水性であることを、下側にあれば親水性である

ことを示します。

Page 34: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

34 第 4章 タンパク質解析

4.5.1 練習: pepinfo

unix % pepinfo xlrhodop.pepPlots simple amino acid properties in parallel

Graph type [x11]:

Output file [pepinfo.out]:

以下に示すような二つの図がスクリーン上に表示されます (最初の図から次の図へ表示を切り替えるにはリターンキーを押してください)。

Page 35: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

4.5. pepinfo 35

4.5.2 膜貫通領域の予測

pepinfoの疎水性指標のプロットは、xlrhodop.pep中に非常に疎水性の強い領域が 7個あることを示しています。これらは膜貫通ドメインなのでしょうか? これを調べるには tmapを使うこ

とができます。

4.5.3 練習: tmap

unix % tmap

Displays membrane spanning regions

Sequences file to be read in: xlrhodop.pep

Graph type [x11]:

以下のようなウィンドウが表示されるでしょう。

Page 36: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

36 第 4章 タンパク質解析

ウィンドウ上部にあるバーは予測された膜貫通領域を表しています。pepinfoと tmapの結果を合わせて考慮すると、このタンパク質には 7つの膜貫通領域があるであろうことがわかります。このことは、この配列の SwissProtエントリ opsd xenlaや、次章で見ることになるパターンやプ

ロファイルを利用して得られる情報とよく合致しています。

EMBOSSの中にはペプチド配列を解析する際に利用できる他の様々なプログラムがあります。どのようなプログラムがあるかを調べるには 1章で行ったように wossnameを実行してください。

Page 37: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

37

第5章 パターン、プロファイル、多重配列アラインメント

BLASTや FASTAによるデータベース検索は、世界中の数多くのウェブサイトで提供されていますが、現在は EMBOSSに含まれていないため、このチュートリアルでは説明しません。しかしながらデータベース検索は、バイオインフォマティクスに携わる人間にとって、とても重要な武器の

一つです。既知の配列を集めたデータベースに対し、新しい配列を検索する場合は、次のような疑

問に対する答えを得ようとしているはずです。

• 解析対象のタンパク質配列と、同じファミリーに属すると示唆されるくらい十分に類似している、構造が既知のタンパク質はあるか?

• もしないようであれば、そのタンパク質配列と最も類似している配列はどれか?

もし、構造が既知であるタンパク質との関係が同定できれば、解析対象のタンパク質も同様な構

造を持つと予測でき、共通の折り畳み構造をあてはめることができるでしょう。しかしながら、相

同性のあるタンパク質の構造が未知である場合はどうすればいいでしょう? もし、その機能が同定されていれば、その解析対象のタンパク質も類似した機能を持つと期待できるかもしれません。し

かしながら、これには例外が存在します。古典的な例は、ライソザイム(lysozyme:リゾチーム)です。ライソザイムは、α-ラクトアルブミン (α-lactalbumin) の配列と、50%のアミノ酸が一致し、70%のアミノ酸で類似を示します。また、これら 2つのタンパク質の折り畳み構造は互いに類似していますが、それらの機能はまったく違います。ライソザイムの 2つの重要な酵素活性部位の残基は、α-ラクトアルブミンでは保存されていません。逆に、ほとんどのライソザイムは、α-ラクトアルブミンの機能に重要なカルシウム結合モチーフを持っていません。このようなことからも、コン

ピュータによる予測を実験によって確かめることは必要不可欠といえるでしょう。

もし、近縁のタンパク質であるかどうかを同定するのに、配列の類似性だけでは十分でないとし

たら、どのようにすればいいでしょう? この章では、未知のタンパク質配列の機能を予測するのに有用な EMBOSSのプログラムをいくつか紹介します。

5.1 パターンマッチング

多くの場合、タンパク質の活性部位は特異的な「フィンガープリント」あるいは「テンプレー

ト」として認識することができます。これは、あるタンパク質ファミリーに特有な、ごく短いアミ

ノ酸の並びです。例えば、ある GTP結合部位を表す並びとしては GXGXXG(G=グリシン、X=任意のアミノ酸) があります。配列中で、前もって (むしろあいまいに)定義された文字列を探すことは、パターンマッチングと呼ばれます。

Page 38: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

38 第 5章 パターン、プロファイル、多重配列アラインメント

patmatmotifsは、PROSITEデータベースで定義されたパターンに基づき、与えられたタンパク質の配列からパターン探索アルゴリズムによって配列モチーフを探し出します。PROSITEは、Dr.Amos Bairoch (the University of Geneva)により編纂されている、タンパク質のファミリーやドメインのデータベースです。厖大な数が存在するタンパク質の大部分は、配列類似性によって限ら

れた個数のファミリーに分類できる、という知見に基づいて編纂が行なわれています。ある特定の

ファミリーに属するタンパク質やタンパク質ドメインは、共通の祖先に由来し、一般には同じ機能

を有します。

5.1.1 練習: patmatmotifs

unix % patmatmotifs

Search a motif database with a protein sequence

Input sequence: xlrhodop.pep

Output file [xlrhodop 1.patmatmotifs]: xlrhodop.patmatmotifs

unix % more xlrhodop.patmatmotifs

Number of matches found in this Sequence = 1

Length of the sequence = 354 basepairs

Start of match = position 123 of sequence

End of match = position 139 of sequence

Length of motif = 17

patmatmotifs of G_PROTEIN_RECEPTOR with XLRHODOP+1 from 123 to 139\\

TLGGEVALWSLVVLAVERYMVVCKPMA

| |

123 139

Number of matches found in this Sequence = 1

Length of the sequence = 354 basepairs

Start of match = position 290 of sequence

End of match = position 306 of sequence

Length of motif = 17

patmatmotifs of OPSIN with XLRHODOP+1 from 290 to 306

PVFMTVPAFFAKSSAIYNPVIYIVLNK

| |

290 306

Page 39: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

5.1. パターンマッチング 39

今回は、検索に用いた配列がロドプシン (rhodopsin) であることが既にわかっていました。しかし、検索に用いるのが未知の配列だった場合、モチーフの同定は実験を計画する上で有用な情報を

与えてくれることがわかっていただけると思います。

5.1.2 レポートフォーマット (出力結果の形式)

多くの EMBOSSプログラムは、出力としてレポートを作成します。これには様々な形式があり、ユーザが選択することができます。例えば、先程の例のようにモチーフを少しグラフィカルに表示

するのではなく、リストファイル(訳注:2章参照)で出力して、後の目的のために各々の配列のマッチを得ることもあるかもしれません。このような場合は、-rformatというフラグを使用することができます。例を示しましょう。

unix % patmatmotifs xlrhodop.pep -rformat listfileSearch a PROSITE motif database with a protein sequence

Output report [xlrhodop 1.patmatmotifs]:

unix % more xlrhodop 1.patmatmotifs

########################################

# Program: patmatmotifs

# Rundate: Fri Feb 21 13:37:58 2003

# Report_format: listfile

# Report_file: xlrhodop_1.patmatmotifs

########################################

#=======================================

#

# Sequence: sw-id:OPSD_XENLA from: 1 to: 354

# HitCount: 2

#

# Full: No

# Prune: Yes

# Data_file: /site/share/EMBOSS/data/PROSITE/prosite.lines

#

#=======================================

sw-id:OPSD_XENLA[123:139]

sw-id:OPSD_XENLA[290:306]

#---------------------------------------

#---------------------------------------

Page 40: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

40 第 5章 パターン、プロファイル、多重配列アラインメント

xlrhodop 1.patmatmotifsをリストファイルとして例えば seqret に与えることで、これら

の配列を得ることができます。

他にも結果の形式があります(その中には feature table形式もあります)。EMBOSSのウェブページには、使用可能な形式に関する最新のドキュメントがあります。

5.2 タンパク質のフィンガープリント

PRINTSは、短く、特によく保存された多くの部分配列により、各ドメインとして同定された機能の面でのタンパク質ファミリーのデータベースです。これらの「フィンガープリント」に完全に

マッチする、ということはつまり、すべての関連のある短い部分配列が正しい順番でマッチする、

ということです。もし、なんらかの部分配列がマッチしなかったり、異なる順番でマッチしていた

場合には、部分的なマッチとして処理されます。PRINTSデータベースは、pscanというプログラムを用いて検索できます。

5.2.1 練習: pscan

unix % pscan

Scans proteins using PRINTS

Input sequence: xlrhodop.pep

Minimum number of elements per fingerprint [2]:

Maximum number of elements per fingerprint [20]:

Output file [xlrhodop 1.pscan]: xlrhodop.pscan

Scanning XLRHODOP+1...

unix % more xlrhodop.pscan

CLASS 1

Fingerprints with all elements in order

Fingerprint GPCRRHODOPSN Elements 7

Accession number PR00237

Rhodopsin-like GPCR superfamily signature

Element 1 Threshold 54% Score 61%

Start position 39 Length 25

Element 2 Threshold 49% Score 49%

Start position 72 Length 22

Element 3 Threshold 48% Score 55%

Start position 117 Length 23

Element 4 Threshold 50% Score 69%

Page 41: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

5.3. 多重配列解析 41

Start position 152 Length 22

Element 5 Threshold 51% Score 82%

Start position 204 Length 24

Element 6 Threshold 42% Score 72%

Start position 250 Length 25

Element 7 Threshold 46% Score 68%

Start position 288 Length 27

CLASS 2

All elements match but not all in the correct order

Fingerprint RHODOPSIN Elements 6

Accession number PR00579

Rhodopsin signature

Element 1 Threshold 80% Score 100%

Start position 3 Length 19

Element 2 Threshold 76% Score 94%

Start position 22 Length 17

Element 3 Threshold 53% Score 90%

Start position 85 Length 17

Element 4 Threshold 71% Score 100%

Start position 191 Length 17

Element 5 Threshold 56% Score 97%

Start position 271 Length 19

Element 6 Threshold 81% Score 95%

Start position 319 Length 14

CLASS 3

Not all elements match but those that do are in order

CLASS 4

Remaining partial matches

5.3 多重配列解析

複数 (3つ以上)の核酸あるいはアミノ酸配列のアラインメントを同時に行なうことは、現在、分子生物学の分野では必要不可欠な作業です。多重アラインメントは、タンパク質ファミリーに特徴

的なパターンを見つける際に用いられます。また、新しい配列と既知のファミリーに属する配列と

Page 42: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

42 第 5章 パターン、プロファイル、多重配列アラインメント

の間での相同性の検出や検証にも用いられます。更に、新しい配列の 2次構造、3次構造予測の補助や、PCRのためのオリゴヌクレオチドプライマーを作成する部位を見つけ出す作業、分子進化解析のためのとても重要な準備としても用いられています。

多重アラインメントを行う最も有名なプログラムの 1つに clustalw [1] があります。EMBOSSには、累進ペアワイズアラインメントを用いて、類似した配列群から多重アラインメントを作る、

emma clustal (つまり emma) と呼ばれる clustal のインターフェイス があります。emma は、最終

的なアラインメントと一緒に、ペアワイズアラインメントの順序と配列のクラスタを示す樹状図

(デンドログラム) も出力します。枝の長さは配列同士の相対的な距離と関連しますが、決して進化系統樹ではありませんので、気をつけてください。

clustal は、次のような手順で大域アラインメントを計算します。まず、もっとも類似している2つの配列をまとめて一つのクラスタとし、配列同士でペアワイズアラインメントを行ないます。次に、このアラインメントされたクラスタと残りの配列の中から最も類似しているものを探し、一

つのクラスタにまとめます。この操作を、全ての配列が一つのクラスタにまとまるまで繰り返しま

す。既にアラインメントされているクラスタを、他の配列あるいはクラスタとまとめる際には、互

いのアラインメントが行なわれます。これは、ペアワイズアラインメントを単純に拡張した方式、

つまり既にアラインメントされているクラスタにギャップを挿入する必要がある場合には、すべて

の配列の対応する場所にギャップを挿入するような方法で、アラインメントが行なわれます。ペア

ワイズアラインメントのアルゴリズムとしては Needleman-Wunsch法が採用されており、これを基に、既にアラインメントされたクラスタを扱うことができるような拡張が行なわれています。

pscanによって、先程の配列がロドプシンファミリーに属することがわかりました。これはとても大きなファミリーです。例えば、Pfamエントリを、次の URLからキーワードサーチしてみれば、そのその大きさがわかるでしょう :

http://www.sanger.ac.uk/Software/Pfam今度は、SwissProtからこのファミリーに属するタンパク質配列をいくつか取りだし、多重アラインメントを行なってみましょう。そうすれば、この配列グループのプロファイルを生成すること

ができます。このプロファイルを使えば、SwissProtのロドプシンファミリーに属する配列と、これまで解析してきた配列をアラインメントすることができます。

まず最初に、seqretを用いて配列を取り出しましょう。

5.3.1 練習:いくつかの配列の取り出し

unix % seqret

Reads and writes (returns) a set of sequences all at once

Input sequence: sw:ops2 *

Output sequence [ops2 drome.fasta]: ops2.fasta

識別子が ops2 から始まるすべての SwissProtの配列を取り出すために、ワイルドカード文字 *

を用いていることに注意してください。

Page 43: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

5.3. 多重配列解析 43

5.3.2 練習:emma

unix % emmaMultiple alignment program - interface to ClustalW program

Input sequence: ops2.fastaOutput sequence [ops2 drome.aln]: ops2.aln

Output file [ops2 drome.dnd]: ops2.dnd

..clustalw -infile=21665A -outfile=21665B -align

-type=protein -output=gcg -pwmatrix=blosum -pwgapopen=10.000

-pwgapext=0.100 -newtree=21665C -matrix=blosum -gapopen=10.000

-gapext=5.000 -gapdist=8 -hgapresidues=GPSNDQEKR -maxdiv=30..

CLUSTAL W (1.74) Multiple Sequence Alignments

Sequence type explicitly set to Protein

Sequence format is Pearson

Sequence 1: OPS2 DROME 381 aa

Sequence 2: OPS2 DROPS 381 aa

Sequence 3: OPS2 HEMSA 377 aa

Sequence 4: OPS2 LIMPO 376 aa

Sequence 5: OPS2 PATYE 399 aa

Sequence 6: OPS2 SCHGR 380 aa

Start of Pairwise alignments

Aligning...

Sequences (1:2) Aligned. Score: 91

Sequences (1:3) Aligned. Score: 37

Sequences (1:4) Aligned. Score: 48

Sequences (1:5) Aligned. Score: 20

Sequences (1:6) Aligned. Score: 32

Sequences (2:3) Aligned. Score: 37

Sequences (2:4) Aligned. Score: 48

Sequences (2:5) Aligned. Score: 22

Sequences (2:6) Aligned. Score: 31

Sequences (3:4) Aligned. Score: 40

Sequences (3:5) Aligned. Score: 23

Sequences (3:6) Aligned. Score: 32

Sequences (4:5) Aligned. Score: 20

Sequences (4:6) Aligned. Score: 34

Sequences (5:6) Aligned. Score: 18

Guide tree file created: [21665C]

Page 44: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

44 第 5章 パターン、プロファイル、多重配列アラインメント

Start of Multiple Alignment

There are 5 groups

Aligning...

Group 1: Sequences: 2 Score:6084

Group 2: Sequences: 3 Score:3046

Group 3: Sequences: 4 Score:2772

Group 4: Sequences: 5 Score:2489

Group 5: Delayed

Sequence:5 Score:2819

Alignment Score 11778

GCG-Alignment file created [21665B]

私たちは 2種のショウジョウバエ、2種のカニ、イナゴ、ホタテガイから得た ops2の配列をアラインメントしました。それでは emma が何を生成したか見てみましょう。unix % more ops2.aln

>OPS2_DROME

MERSHLPETPFDLAHSGPRFQAQSSGNGSVLD-NVLPDMAHLVNPYWSRFAPMDPMMSKI

LGLFTLAIMIISCCGNGVVVYIFGGTKSLRTPANLLVLNLAFSDFCMMASQSPVMIINFY

Y-ETWVLGPLWCDIYAGCGSLFGCVSIWSMCMIAFDRYNVIVKGINGTPMTIKTSIMKIL

FIWMMAVFWTVMPLIGWSAYVPEGNLTACSIDYMTRMWNPRSYLITYSLFVYYTPLFLIC

YSYWFIIAAVAAHEKAMREQAKKMNVKSLRSSEDCDK-SAEGKLAKVALTTISLWFMAWT

PYLVICYFGLFKIDG-LTPLTTIWGATFAKTSAVYNPIVYGISHPKYRIVLKEKCPMCVF

GNTDEPKPDAPASDTETTSEADSKA-----------------------------------

---------------------------

>OPS2_DROPS

MERSLLPEPPLAMALLGPRFEAQTGGNRSVLD-NVLPDMAPLVNPHWSRFAPMDPTMSKI

LGLFTLVILIISCCGNGVVVYIFGGTKSLRTPANLLVLNLAFSDFCMMASQSPVMIINFY

Y-ETWVLGPLWCDIYAACGSLFGCVSIWSMCMIAFDRYNVIVKGINGTPMTIKTSIMKIA

FIWMMAVFWTIMPLIGWSSYVPEGNLTACSIDYMTRQWNPRSYLITYSLFVYYTPLFMIC

YSYWFIIATVAAHEKAMRDQAKKMNVKSLRSSEDCDK-SAENKLAKVALTTISLWFMAWT

PYLIICYFGLFKIDG-LTPLTTIWGATFAKTSAVYNPIVYGISHPNDRLVLKEKCPMCVC

GTTDEPKPDAPPSDTETTSEAESKD-----------------------------------

---------------------------

>OPS2_LIMPO

----------MANQLSYSSLGWPYQPNASVVD-TMPKEMLYMIHEHWYAFPPMNPLWYSI

LGVAMIILGIICVLGNGMVIYLMMTTKSLRTPTNLLVVNLAFSDFCMMAFMMPTMASNCF

A-ETWILGPFMCEVYGMAGSLFGCASIWSMVMITLDRYNVIVRGMAAAPLTHKKATLLLL

FVWIWSGGWTILPFFGWSRYVPEGNLTSCTVDYLTKDWSSASYVIIYGLAVYFLPLITMI

YCYFFIVHAVAEHEKQLREQAKKMNVASLRANADQQKQSAECRLAKVAMMTVGLWFMAWT

PYLIIAWAGVFSSGTRLTPLATIWGSVFAKANSCYNPIVYGISHPRYKAALYQRFPSLAC

Page 45: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

5.3. 多重配列解析 45

GSGESGSDVKSEASATMTMEEKPKSPEA--------------------------------

---------------------------

>OPS2_HEMSA

---MTNATGPQMAYYGAASMDFGYPEGVSIVD-FVRPEIKPYVHQHWYNYPPVNPMWHYL

LGVIYLFLGTVSIFGNGLVIYLFNKSAALRTPANILVVNLALSDLIMLTTNVPFFTYNCF

SGGVWMFSPQYCEIYACLGAITGVCSIWLLCMISFDRYNIICNGFNGPKLTTGKAVVFAL

ISWVIAIGCALPPFFGWGNYILEGILDSCSYDYLTQDFNTFSYNIFIFVFDYFLPAAIIV

FSYVFIVKAIFAHEAAMRAQAKKMNVSTLRSNEADAQ-RAEIRIAKTALVNVSLWFICWT

PYALISLKGVMGDTSGITPLVSTLPALLAKSCSCYNPFVYAISHPKYRLAITQHLPWFCV

HETETKSNDDSQSNSTVAQDKA--------------------------------------

---------------------------

>OPS2_SCHGR

------MVNTTDFYPVPAAMAYESSVGLPLLGWNVPTEHLDLVHPHWRSFQVPNKYWHFG

LAFVYFMLMCMSSLGNGIVLWIYATTKSIRTPSNMFIVNLALFDVLMLLEMPMLVVSSLF

Y-QRPVGWELGCDIYAALGSVAGIGSAINNAAIAFDRYRTISCPIDGRLTQGQVLALIAG

TWVWTLPFTLMPLLRIWSRFTAEGFLTTCSFDYLTDDEDTKVFVGCIFAWSYAFPLCLIC

CFYYRLIGAVREHEKMLRDQAKKMNVKSLQSNADTEAQSAEIRIAKVALTIFFLFLCSWT

PYAVVAMIGAFGNRAALTPLSTMIPAVTAKIVSCIDPWVYAINHPRFRAEVQKRMKWLHL

GEDARSSKSDTSSTATDRTVGNVSASA---------------------------------

---------------------------

>OPS2_PATYE

---------------------------------------MPFPLNRTDTALVISPSEFRI

IGIFISICCIIGVLGNLLIIIVFAKRRSVRRPINFFVLNLAVSDLIVALLGYPMTAASAF

S-NRWIFDNIGCKIYAFLCFNSGVISIMTHAALSFCRYIIICQYGYRKKITQTTVLRTLF

SIWSFAMFWTLSPLFGWSSYVIEVVPVSCSVNWYGHGLGDVSYTISVIVAVYVFPLSIIV

FSYGMIL-----QEKVCKDSRKNGIRAQQRYTPRFIQ-DIEQRVTFISFLMMAAFMVAWT

PYAIMSALAIGSFNV--ENSFAALPTLFAKASCAYNPFIYAFTNANFRDTVVEIMAPWTT

RRVGVSTLPWPQVTYYPRRRTSAVNTTDIEFPDDNIFIVNSSVNGPTVKREKIVQRNPIN

VRLGIKIEPRDSRAATENTFTADFSVI

これらの配列は、互いにとても似ていますが、いくつか違いもあることに注意してください。ま

ず、ギャップが挿入されています。そして、大域アラインメントを行なっています。だから、すべ

ての配列の長さが同じになるようにギャップが挿入されているのです。

この形式では、アラインメントにおける配列間の違いが、とても見にくいものとなっています。

prettyplotというプログラムを用いると、それぞれの配列の頭をそろえることにより結果を見や

すくすることができます。

5.3.3 練習:prettyplot

unix % prettyplot

Displays aligned sequences, with colouring and boxing

Page 46: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

46 第 5章 パターン、プロファイル、多重配列アラインメント

Input sequence set: ops2.aln

Graph type [x11]:

アラインメントの詳細が、グラフィカルに表示されるでしょう。同じ残基は赤字で、似た残基は

緑字で表されます。こういった表示を見ることで、保存されている領域に関するイメージがわくで

しょう。

EMBOSSに含まれる、他のグラフィカルな表示をするプログラムと同様に、出力を画面にでなくファイルに保存することもできます。これは、-graph フラグや、これと関連するフラグを用いることで指定できます (すべてのフラグのリストを得るには prettyplot -help -verboseと打っ

てください)。先程の prettyplotの出力をカラーの PostScript形式で rhodopsin.ps というファイルに保存す

るためには、-graph cps と -goutfile rhodopsin を指定します。

unix % prettyplot ops2.aln -goutfile rhodopsin -graph cpsDisplays aligned sequences, with colouring and boxing

Created rhodopsin.ps

この結果、rhodopsin.psファイルが作られます。このファイルは PostScriptプリンタで印刷したり、ps2pdf(これは EMBOSSのプログラムではありませんが、多くの UNIXあるいは Linuxシステムで使うことができます) を用いて PDFドキュメントに変換することができます。PDFドキュメントは、Acrobat Readerのような PDFビューワーで見ることが可能です。prettyplotの出力を調節するために(例えば、一行あたりに表示される残基数を増やすなど)

多くのオプションが用意されています。ヘルプファイルを読んで、いろいろ試してみてください。

コンセンサス配列と共に表示したり、一行あたりの残基数を変更するなど、いろいろできます (ヒント:prettyplot -help)。

5.4 プロファイル

タンパク質の構造や機能を配列に基づいて予測する際に、プロファイル解析 [2]はとても有用です。これは、配列類似性は低いけれども関連のある配列を探索しアラインメントする際に用いられ

る、配列比較の方法です。プロファイル解析を行なうことで、新しい配列と、これと類似したファ

ミリーとの間の最適なアラインメントを行なうことができます。この計算には、スコアマトリクス

と、複数の似た配列からつくられた最適な多重アラインメントが必要です。このグループあるいは

「ファミリー」のアラインメントから多重アラインメントをつくるための最初のアラインメントが

とられます。その多重アラインメントの情報から、位置特異的な文字の出現頻度とギャップペナル

ティの表が作成されます。この表が、プロファイルと呼ばれるものです。得られたプロファイルと

配列は、Smith/Watermanのアルゴリズムを基とした手法で比較することができ、これによって、その配列がファミリーと類似を示すかどうかを評価することができます。

Page 47: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

5.4. プロファイル 47

5.4.1 練習:prophecy

prophecyは多重アラインメントからプロファイルをつくるEMBOSSのプログラムです。prophecyの例を示すために osp2 のアラインメントを使います。unix % prophecyCreates matrices/profiles from multiple alignments

Input sequence: ops2.aln

Profile type

F : Frequency

G : Gribskov

H : Henikoff

Select type [F]: gEnter a name for the profile [My matrix]: ops2 sequences

Scoring matrix [Epprofile]:

Gap opening penalty [3.0]:

Gap extension penalty [0.3]:

Output file [outfile.prophecy]: ops2.prophecy

5.4.2 練習:prophet

それでは、今作ったプロファイルを使って、xlrhodop.pepと opsin2の配列をアラインメントしてみましょう。

unix % prophetGapped alignment for profiles

Input sequence(s): xlrhodop.pepProfile or matrix file: ops2.prophecy

Gap opening coefficient [1.0]:

Gap extension coefficient [0.1]:

Output file [ops2.prophet]:

unix % more ops2.prophet

Local: Consensus vs OPSD_XENLA

Score: 2189.00

Consensus 1 M.ERS.HLPEG.PFAAALSGARFAAQSSGN.ASVL..DWNVLP.E 38

| : : : || : ::::: : |: | ::|: : | :

OPSD_XENLA 1 MNG.GTE..EGPN.NFYVP.PMS...SN.NKTGVVRSP.P..PFD 33

Consensus 39 MAPLVHPHWSRF.APMNPMWHKILGLFTLILGII.SCLG.NGLVI 80

Page 48: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

48 第 5章 パターン、プロファイル、多重配列アラインメント

::: ::: : : :|: :::|: ::::|::: |: | :::

OPSD_XENLA 34 YPQ.Q.QYYL.LAE..EPWQYSALAAYMFLLILLGL.LPINFMTL 72

Consensus 81 YI.FA.GTKSLRTPANLLVLNLAFSD..FCMMASMSPV.MAINCF 120

:: :: :: |||| |:::|||:|:: : |:: :::| | ::::

OPSD_XENLA 73 FVTIQHKKL.LRTPLNYILLNLVFANHFM.MVLCGFTVTMYTSMH 115

Consensus 121 YGETWVLGPLGC..D.IYAAL.GSLFGCVSIWSMCMIAFDRYNVI 161

: :::|| || : ::|:| | | |::||::::|::|| |:

OPSD_XENLA 116 G.GYFIFGPTGCYIEGFFATLGG...GEVALWSLVVLAVERYIVV 156

Consensus 162 VKGINGTPLTIKTAILKALFIWMM.AVFW.TIMPLFGWSRYVPEG 204

:|:::: ::::: ||: ::|:|:| : :: : :||||||||:|||

OPSD_XENLA 157 CKPMANFRFGENHAIMGVAFTWIMAL.LSCAAPPLFGWSRYIPEG 200

Consensus 205 NLTSCSIDYLT.R.DWNPRSYL.ITYFLFV.YFFPLFIICYSY.W 244

: :||::||:| : : |: |:: |:::| : :||::|:::| :

OPSD_XENLA 201 MQCSCGVDYYTLKPEVNNESFVIY.YMFIVHFTIPLIVIFFCYGR 244

Consensus 245 FIIAAVAAHEKAMRDQAKKMNVKSLRSNEDCDKQSAEI.R.LAKV 287

::::: :|:|:::|:: : :::::::: : |: | :: |

OPSD_XENLA 245 LLCTVK..KEAAAQQQESLT..TTQKAEKE..E...EVTRMVV.V 279

Consensus 288 ALTTISLWFMAWTPYAIIAY.FGLFGIDGA.LTP.LTT.IWGALF 328

:::: :::::|:|||::|: : :|: :|: ::| ::| :|:|

OPSD_XENLA 280 IMVVF.FFLICWVPYAYVAFYI.IFTHQGSNFGPVFMTVP.PAFF 321

Consensus 329 AKASSCYNPIVYAISHPKYRA.ALKEKCPMCVCGETD.EPSPDAP 371

||:|::|||::| : ::::| :: :: ::||::: :::::::

OPSD_XENLA 322 AKSSAIYNPVIYIVLNKQFRNCLI...ITTLCCGKNPFGDEDGSS 363

Consensus 372 QSDATTTSEAAS..KAPAAI.EFPD 393

|:||:::||:| ::: :: : |:

OPSD_XENLA 364 .SAATSKTEASSVSSSQ.QVSP.PA 385

縦棒 (|)は、ops2のコンセンサスと rhodopsinが一致した残基を示し、コロン (:)は同義置換を示します。ファミリーのメンバーをアラインメントすれば、構造や機能にとって重要な保存領域を

発見できることが、わかっていただけると思います。

Page 49: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

49

第6章 結論

これまで、EMBOSSで提供されているプログラムのいくつかについて、またこれらをコマンドラインから実行する方法を紹介してきました。ただし、これらのプログラムの全てのオプションを

説明したわけではありませんし、現在 EMBOSSで可能な解析を全て網羅できたわけでもありません。あなたがここまで EMBOSSについて楽しく学習でき、EMBOSSで解析できる新しいタイプの問題を思いついているようであれば、私達の期待どおりといえるでしょう。

是非、EMBOSSのウェブサイト http://www.uk.embnet.org/Software/EMBOSS/ を訪れてください。そこには、EMBOSSで可能な解析に関するものなど、様々な情報があります。さらに、EMBOSSのマニュアルを表示するプログラム tfmもあります。

6.1 練習: tfm

EMBOSSのそれぞれのプログラムのマニュアルを閲覧するために、このプログラムを使うことができます。では、wossname プログラムのマニュアルを見てみましょう。

unix % tfm wossname

Displays a program’s help documentation manual

EMBOSS: wossname

_________________________________________________________________

Program wossname

Function

Finds programs by keywords in their one-line documentation

Description

This allows a user to search for keywords or parts of words in the

brief documentation (as displayed by a program when it first starts).

The program name and the brief description is output. If no words to

search for are specified, then details of all the EMBOSS programs are

Page 50: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

50 第 6章 結論

output.

The program has been written on the assumption that most people will

use it to quickly find the name of a program based on that program’s

description, so the output goes to the screen by default.

This program may find some use in automatically generating lists of

EMBOSS programs and their groups for Web pages.

Usage

Here are some sample sessions with wossname.

Search for programs with ’restrict’ in their description

% wossname restrict

Display a listing of programs in their groups

--More--(8%)

マニュアルの内容はページごとに表示されており、スペースバー (訳注:スペースキー)を使うことで次のページに移動できます。この動作は、-nomore フラグを使うことで、無効にすることが

できます。

Page 51: EMBOSSを用いた配列解析への手引き...5 第1章 EMBOSSって何? 1988 年以来、配列解析パッケージであるEGCG は、市場をリードする商用配列解析パッケージ

51

関連図書

[1] D.G. Higgins J.D. Thompson and T.J. Gibson. CLUSTAL W: improving the sensitivity ofprogressive multiple sequence alignment through sequence weighting, position specific gappenalties and weight matrix choice. . Nucleic Acids Research., 22:4673–4680, 1994.

[2] A.D. McClachlan M. Gribskov and D. Eisenberg. Profile analysis - detection of distantlyrelated proteins. . Proc. Natl. Acad. Sci. USA, 84:4355–4358, 1987.

[3] S.B. Needlman and C.D. Wunsch. A general method applicable to the search for similaritiesin the amino acid sequence of two proteins. . J. Mol. Biol., 48:443–453, 1970.

[4] T.F. Smith and M.S. Waterman. Identification of common molecular subsequences. J. Mol.Biol., 147:195–197, 1981.