Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Technical Note: Systems And Software
はじめにRNAシーケンスは、バイアスの少ないトランスクリプトーム (選択的アイソフォームや選択的スプライスサイトなど)のプロファイリングを行うための、非常に強力な手法です。RNAシーケンスリードは転写産物に由来するため、スプライスジャンクションをまたぐリードも多数得られます。これらのスプライスジャンクションリードは、リードの2つの末端がゲノム上で多数の塩基を挟むように位置します(イントロンの大きさの分だけ離れている)。そのため、ゲノムデータベースに対して適切にアライメントされません(図1)。
イルミナは、スプライスジャンクションをまたぐRNAシーケンスリードを効率よくアライメントする方法を提供します。 リードは既知のスプライスジャンクションの周辺の配列が含まれるファイルに対してアライメントされます。ヒト、ラット、マウス、その他の生物種について、このスプライスジャンク ションセットを用意しています。これらのデータはイルミナのiComからダウンロード可能です。
このテクニカルノートでは、イルミナのスプライスジャンク ションセットのコンテンツについて説明します。
スプライスジャンクションに対するリードのマッピングRNAシーケンスリードは、解析パイプラインCASAVAのeland_rnaモジュールによりマッピングされます(図2)。 eland_rnaは以下の3つのターゲットに対してアライメントを行います。
・ コンタミネーションおよび繰り返し配列(主にミトコンドリアおよびリボソームの配列):これらのターゲットにアライメントされたリードは削除
・ 研究しようとする生物種のゲノムビルド:遺伝子およびエクソンのアライメントに関する情報を取得
・ 同じゲノムビルドのスプライスジャンクションセット:スプライスジャンクションのアライメントに関する情報を産出
スプライスジャンクションセットは、一般的なmulti-FASTA形式のファイルであり、既知のRefSeq転写産物に由来するスプライスジャンクションの非重複セットの上下流のエクソン配列が含まれています。スプライスジャンクションセットは、シーケンスリードの長さに適合していなければなりません。隣接配列の長さがリード長-1に等しいことが理想的です。例えば、リード長が50塩基の場合、個々のスプライスサイトの上下流に49塩基のエクソンが含まれるスプライスジャンクション セットが最適です。49塩基未満のエクソンでは、エクソン全体が用いられます(図3)。
RNAシーケンスにおける スプライスジャンクションリードのマッピング転写産物に由来するRNAシーケンス解析では、スプライスジャンクションをまたぐリードも多数得られます。イルミナは、スプライスジャンクションリードをゲノムデータベースに対してマッピングする方法を提供します。
図1:アライメントが困難なスプライスジャンクションリード
スプライスジャンクションに由来するRNAシーケンスリードは、ゲノム配列に対して適切にアライメントすることが困難です。
ゲノム
mRNA転写産物
RNAシーケンスリード
ゲノムに対するアライメント
スプライスサイト
適切なアライメント
適切なアライメント
イントロン
イントロン
スプライスジャンクション
エクソン1 エクソン2
エクソン1 エクソン2
スプライスサイト
アライメントされないリード
図2:イルミナのRNAシーケンスワークフローにおける スプライスジャンクションのアライメント
ベースコール
リードのアライメント
レポートの作成
データの視覚化
データの視覚化と解析
Genome Viewerでの視覚化 プロットの表示
データのフィルタリングと並べ替え
データ取得イルミナ次世代シーケンサー
画像解析RTA
RTA
CASAVA:eland_rna
データの集約と解析エクソン、遺伝子、ジャンクションのカウント
CASAVA run.RNA.pl
プロジェクトの作成GenomeStudio
RNAシーケンスモジュール
多数のシーケンス、ゲノム、スプライスジャンクションに対するアライメント
スプライスジャンクションのアライメントに用いられるアプリケーション
Technical Note: Systems And Software
スプライスジャンクションセットの形式スプライスジャンクションシーケンスはFASTA形式で保存されます。エントリーの例を図5に示します。
エントリーは以下の形式を用いてアノテーションされます (下線は区切り)。ID_NumberOfBasesFrom5primeExon_
NumberOfBasesFrom3primeExon_Chromosome_
EndPosition5primeExon_StartPosition3primeExon
このアノテーションは以下の性質を持ちます。
・ 5’と3’はゲノム上の順鎖を表す(mRNAの順鎖ではない)
・染色体上の位置および配列はすべて順鎖に基づく
・各染色体の第1塩基はposition 1の塩基
・ ID中に英数字以外の文字が存在してはならない。存在する場合はダッシュ(―)で置換
・ 染色体の表示にchrまたはcが含まれていてはならない。数字または文字のみで表示
・ 染色体上の位置にはその塩基自体が含まれる。すなわち、 EndPosition5primeExonの塩基は5’エクソンに属する(StartPosition3primeExonも同様)
・ UCSC由来のエントリーについては、遺伝子記号またはRefSeq IDがIDとなる
・ これらの位置の基本となるゲノムビルドは、リードのアライメントに用いられるビルドと同一でなければならない
リードがスプライスジャンクションセットに対してマッピングされると、eland_rnaにより染色体、染色体上の位置、スプライスジャンクション、アライメントスコア、リードに固有の他の関連情報がexport.txtファイルに保存されます。このファイルには、ゲノムや多量に存在する配列(リボソーム配列など)に対してマッピングされるリードについても同様の情報が含まれ、CASAVAにより以降のRNAシーケンス実験のプロセスに用いられます。
スプライスジャンクションセットの作成スプライスジャンクションセットは、Perlスクリプトsplice_sites.plにより作成されます。
このスクリプトでは、ゲノムFASTAファイル(ゲノム配列情報を完全に構築された染色体として提供するファイル)とRefFlat.txtファイル(エクソンおよび遺伝子の情報を提供するファイル)を入力ファイルとして用います。これらの ファイルは弊社ウェブサイト iComまたはUCSC Genome Bioinformaticsのサイト(http://genome.ucsc.edu)から入手できます。
このスクリプトは、すべてのスプライスジャンクションエントリーの座標の計算、重複する(複数の遺伝子に存在する)すべてのジャンクションの削除、スプライスジャンクションセットシーケンスの作成を行い、シーケンスとヘッダーをスプライスジャンクションセット出力ファイルに保存します(図4)。
図4:スプライスジャンクションセットのフロー
図3B:短いエクソンのシーケンスエントリー
図3A:スプライスジャンクションセットのシーケンス エントリー
スプライスジャンクションセットのシーケンスエントリーと、そのゲノム配列との関連の例。図3Aは通常のエントリーを表します。図3Bはエクソン1がシーケンスリード長よりも短い場合のエントリーを表します。
NNNNN...NNCAGGTAAGTNN……NNTGCAGGNNNN...NNNNNN
GNNNN...NNNNN...NNCAG
エクソン1 エクソン2
イントロン
スプライスジャンクション
リード長
リード長‒1 リード長‒1エクソンの終止
エクソンの開始
リード長ゲノム配列
スプライスジャンクションセットのシーケンスエントリー
....AGGNNNCAGGTAAGTNN……NNTGCAGGNNNN...NNNNNN
GNNNN...NNNGNNNCAG
エクソン1 エクソン2イントロンイントロン
スプライスジャンクション
リード長‒1エクソンの開始
リード長 リード長
ゲノム配列
スプライスジャンクションセットのシーケンスエントリー
エクソンの開始
エクソンの終止
ファイル入力ゲノムFASTAファイル
RefFlat.txt
スプライスジャンクションセット
入力
隣接配列の長さおよびエクソンの長さに基づくジャンクションセットの座標の計算
重複ジャンクションの削除
出力ファイルの保存ヘッダーおよびスプライスジャンクションシーケンス
スプライスジャンクションシーケンスの作成ゲノムファイルおよび座標を用いる
Perlスクリプト(splice_sites.pl)の 実行
出力ファイル
ユーザー入力左隣接配列の長さ右隣接配列の長さ
Technical Note: Systems And Software
図5:スプライスジャンクションセットのエントリーの例
このスクリプトはCASAVAに収録されています。詳細な説明はCASAVA User Guideに記載されています。
>WDR78_28_19_1_67100573_67109640
TGTGATAAAATCATAATGGAAGATAAAGGCATAATGTCCACTG
CTGGGATTTGTANNNNN
このジャンクションは以下の性質を持ちます。
・ WDR78遺伝子に属する
・ 左エクソンから1番染色体の位置 67,100,573で終わる28塩基を取る
・ 右エクソンから位置 67,109,640で始まる19塩基を取る
代理店イルミナ株式会社
本製品の使用目的は研究に限定されます。
© 2013 Illumina, Inc. All rights reserved.
Illumina, illuminaDx, BaseSpace, BeadArray, BeadXpress, cBot, CSPro, DASL, DesignStudio, Eco, GAIIx, Genetic Energy, Genome Analyzer, GenomeStudio, GoldenGate, HiScan, HiSeq, Infinium, iSelect, MiSeq, Nextera, NuPCR, SeqMonitor, Solexa, TruSeq, TruSight, VeraCode, the pumpkin orange color, the Genetic Energy streaming bases design は Illumina, Incの商標または登録商標です。その他の会社名や商品名は、各社の商標または登録商標です。予告なしに仕様を変更する場合があります。
Pub. No. 970-2008-J030 20JUN11
〒108-0014東京都港区芝5-36-7 三田ベルジュビル22階
Tel (03)4578-2800 Fax (03)4578-2810
www.illuminakk.co.jp
Technical Note: Systems And Software