Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
2
Biomedical Genomics Workbench
解析ワークフローを標準搭載
• 全ゲノム、全エクソーム、ターゲットアンプリコン、全トランスクリプトーム解析用のワークフローを搭載
リファレンスデータを管理するマネジャーを搭載
• 解析に必要となる様々なリファレンス・アノテーションの取得・管理
様々な解析ツール
• 標準の解析ワークフローに追加できる様々なツールを搭載 Reference Data Management
• Ensembl • dbSNP • 1000 Genomes Project • HapMap • ClinVar • Gene Ontology...etc.
• 複数からなる解析ステップをワークフローにより一括し、ストレートに結果を取得
• トリオ解析・CNV解析用のツールも搭載
直観的に操作できるインターフェイス
• フォルダ構造によるデータの管理
• アプリケーションごとに解析ワークフロー・ツールを分類
• 洗練されたゲノムブラウズ
3
Biomedical Genomics Workbench
Ready-to-Use Workflows: ワークフロー
• クオリティチェック用ワークフロー(Preparing Raw Data)
• 全ゲノム解析(Whole Genome Sequencing: WGS)
• 全エクソーム解析(Whole Exome Sequencing: WES)
• ターゲットアンプリコン解析(Targeted Amplicon Sequencing: TAS)
• 全トランスクリプトーム解析(Whole Transcriptome Sequencing: WTS)
Tools: ツール
• ワークフローで取得した結果に対する、更なる解析に使用
• 既存のワークフローに組み込み、独自のワークフローの作成に使用
• 順々に使用することで、解析結果を取得することも可能
4
データ解析の手順
手順1: リファレンスデータの取得
手順2: 各種データのインポート
各サンプルのリード配列データのインポート
キャプチャーキットのターゲット領域データのインポート
手順4: 解析ワークフローの実行
Preparing Raw Dataワークフローによるクオリティチェック
WGA / WES / TASワークフローによる変異解析の実行
手順3: メタデータファイルの作成
サンプルの分類情報をまとめたファイルを作成
ヒトゲノムリファレンスデータのダウンロード
5
手順1. リファレンスデータの取得
6
本Workbenchのワークフローを使用するには、リファレンスデータを取得する必要があります。
リファレンスデータはhuman/mouse/ratをカバーし、専用のマネジャーを介して取得します。
全てのリファレンスデータを取得するには、約300GBの空き容量が必要です(2017年3月現在):
• Hg38 150GB: Ensembl v86, dbSNP v147, ClinVar 20161101
• Hg38 118GB: RefSeq GRCh38 p9, dbSNP v149, ClinVar 20161101
• Hg19 63GB: Ensembl v74, dbSNP v138, ClinVar 20131203
• Mouse 15GB: Ensembl v86
• Rat 5.5GB: Ensembl v79
リファレンスデータの取得には、インターネット接続が必須です。
リファレンスデータの取得
7
リファレンスデータのダウンロードマネジャーはToolbarからアクセスします。
初めてWorkbenchを起動した場合や、リファレンスのアップデートがあった場合は通知がポップアップされ、ダウンロードマネジャーにアクセスすることが可能です。
Or
リファレンスデータの取得
8
リファレンスデータをダウンロードするにはDownloadをクリックします。
ダウンロードしたリファレンスデータを削除するにはDeleteをクリックします。
ダウンロードしたリファレンスデータをワークフローに反映させるにはApplyをクリックします。
ダウンロードが完了すると、アイコンが変わります: →
リファレンスデータの取得
9
リファレンスデータの取得
ダウンロードが終了すると、Navigation Area内のCLC_Referencesフォルダ内に、各種データが保存されます。
アノテーションデータトラック
ゲノム配列データトラック
変異データトラック
イデオグラムトラック
10
手順2. 各種データのインポート
11
本Workbenchには各フォーマットに適したインポーターが用意されています。
ToolbarのImportアイコンから表示されるインポーターから選択して、インポートを実行します。
アノテーションファイル(BEDなど)
SAM/BAMファイル
サンガーシークエンスデータ
メ タ デ ー タ
次世代シークエンスデータ
次世代シークエンサー以外のファイル
プライマーペアデータ
RNAスパイクインデータ
リード配列データのインポート
12
次世代シークエンスデータの各インポーターは、以下のファイル形式に対応しています:
次世代シークエンス プラットフォーム ファイル形式
Roche 454
illumina
SOLiD
Ion Torrent※
.sff .fasta/ .qual
.txt .fastq
.fq .qseq
.xsq .fastq
.csfasta/ .qual
.sff .fastq
.fq
※Ion TorrentのUnmapped BAMファイルはStandard Importよりインポートします。
PacBio
.bas.h5/ .bax.h5 .fastq
.fq .fasta
.fa .fna
リード配列データのインポート
13
General options(各NGSプラットフォームに共通):
• Paired reads: ペアリードの場合、チェックを入れる
• Discard read names: インポート時にリード名を削除
• Discard quality scores: インポート時にクオリティスコアを削除
• ペアエンドであればPaired-end、メイトペアであればMate-pairを選択
• Distanceにはライブラリーのサイズを入力
古いバージョンのilluminaソフトで処理されたデータの場合、バージョンを指定
ペアリードの場合、forwardとreverseの2データ(fastqファイル)を選択
Illuminaデータは、Import > Illumina...からインポートします。
リード配列データのインポート
14
リ ー ド 配 列 リ ー ド 名
クオリティスコア
リード配列データのインポート
15
全エクソーム・ターゲットアンプリコン解析用ワークフローではターゲット領域データが必要です:
ターゲット領域データはBED形式またはGFF形式のファイル
各キットのメーカーより取得(メーカーによってはホームページで公開されています)
ターゲット領域データ例: Illumina社のNextera Rapid Capture Exomeの場合
nexterarapidcapture_exome_targetedregions_v1.2.bed
ターゲット領域データのインポート
16
ファイルタイプを選択(.bedならBED、.gtfならGFF2/GTF/GVFを選択)
ターゲット領域データ(e.g. .bedファイル)は、Import > Tracks...からインポートします。
インポートするファイルを選択
• 対象とするリファレンスゲノム配列を選択
• CLC Referencesのデータを利用可能
※上記はヒトhg19を例示。
ターゲット領域データのインポート
17
ターゲット領域データのインポート
インポートが終了すると、アノテーション形式のトラックデータが作成されます。
18
手順3. メタデータファイルの作成
19
Tumor/Normalなどのペアサンプルデータやトリオサンプルデータを使用したBatch処理、およびRNA-Seq遺伝子発現データにおけるグループ間比較を行う場合、各サンプル情報を記載したメタデータが必要です:
まず始めにMicrosoft Excelなどを使用し、以下の例のように、1行1サンプルごとにサンプル情報をまとめたファイル(.txt, .xlsx形式など)を作成します。
1列目には、関連付ける各データの、Navigation Area上でのデータ名の一部またはすべてと同じにします。
2列目以降の列数とヘッダー名は任意に指定できます。
例1:2サンプル分のTumor/Normalペアデータ(合計4データ)の場合
例2:2家系分のトリオデータ(合計6データ)の場合
メタデータファイルの作成
20
手順4. 解析ワークフローの実行
21
WGS/ WES/ TAS ワークフロー:
ヒトのシークエンスデータを用いた変異解析用ワークフローを収録
解析目的に合わせて3つのフォルダに分類:
General Workflow • 検出した変異に対するアノテーション(遺伝子、アミノ酸置換等) • ユーザーのカスタムデータの変異がサンプルに含まれるか否か検証 Somatic Cancer • がんサンプル解析を主としてデザインされたワークフロー • 1サンプルやペアサンプル(正常・病変)を用いた変異検出・アノテーション Hereditary Disease • 遺伝性疾患サンプル解析を主としてデザインされたワークフロー • トリオサンプルなど家族サンプルを用いた遺伝性変異やDe Novo変異などの検出・アノテーション
WTS ワークフロー: ヒト/マウス/ラットのRNA-Seqデータを用いた、各種解析用のワークフローを収録
Preparing Raw Dataワークフロー:
リードデータのクオリティ向上のために使用するワークフローを収録
どのような解析であっても、実施する前に本ワークフローを実行
ワークフローの種類
22
解析の実行前に、シークエンスデータのクオリティチェックや低クオリティ配列のトリミングをおこないます。
本Workbenchは専用のワークフローを2種類用意しています。
Prepare Overlapping Raw Data:
• リードデータのクオリティチェックの実施
• クオリティの低い領域の除外(トリミング)
• Forward/reverseリードのオーバーラップ領域のマージ
• Forward/reverseリードでオーバーラップするようデザイン;
Target Amplicon Sequencing解析での使用を推奨
Prepare Raw Data:
• リードデータのクオリティチェックの実施
• クオリティの低い領域のトリミング
• Forward/reverseリードでオーバーラップが無い場合に使用
Preparing Raw Data
23
リードのクオリティが向上
低クオリティ領域をカット
トリミング後のデータは、オリジナルとは別のファイルとして出力されます。
Preparing Raw Data
24
Forward read
Reverse read
オーバーラップ領域
Merged read
Forward/ Reverseリード間のオーバーラップ領域をマージして一つのリードにします。
より長いリードの取得、およびクオリティの向上が期待されます。
Preparing Raw Data
25
1. ToolboxのReady-to-Use WorkflowsからPreparing Raw Dataにあるワークフローの内、いずれか一方を選択。
2. Select sequencing reads画面でリードデータを選択し、Nextをクリック。
Prepare Raw Data
26
ア ダ プ タ ー ト リ ミ ン グ の パ ラ メ ー タ ー
クオリティに基づくトリミングのパラメーター
長さに基づくトリミングのパラメーター
※ パラメーターはデフォルト設定を利用できますが、必要に応じて調整することも可能です。
※ アダプターリストの作成についてはマニュアルをご参照ください:
http://resources.qiagenbioinformatics.com/manuals/biomedicalgenomicsworkbench/current/index.php?manual=Adapter_trimming.html
3. 各種トリミングのパラメーターを設定し、Nextをクリック(アダプタートリミングをする場合、アダプターリストを指定します)。
Prepare Raw Data
27
クオリティチェック実行前のデータ
クオリティチェック実行結果のデータ
ワークフローの実行により、クオリティチェック結果のレポートや、トリミングまたはトリミングとオーバーラップがマージされた、リード配列データが作成されます。
Prepare Raw Data
28
Somatic Cancerはがんサンプルの解析用にデザインされたワークフローを収録しています。
ワークフローは、WGSおよびWES、TASのSomatic Cancerフォルダにあります。
ワークフローは変異検出ツールとしてLow Frequency Variant Detection※を採用しています。 ※本ツールはサンプルの倍数性を指定する必要が無く、かつ低頻度の変異検出に優れています。
Somatic Cancer
29
Identify Variants:
リードをリファレンスにマッピングし、それをローカルリアライメントにより部分的に補正してから変異を検出します。検出した変異から偽陽性
やターゲット領域外(ターゲット領域トラックを指定した場合)のものを除外します。
Identify Somatic Variants from Tumor Normal Pair:
Identify Variantsと同様にして変異を検出しますが、本ワークフローではコントロールサンプルのマッピングデータに基づいて生殖細胞突然
変異候補を取り除くことで、体細胞突然変異候補を取得します。また、各変異に対して遺伝子名や配列保存スコア、アミノ酸置換、臨床
関連変異データベースの情報などをアノテーションします。本ワークフローでは同一個体由来のペア(病変部・正常部)サンプルが必要です。
Filter Somatic Variants:
ペアサンプルの利用できない変異データから、公共データベースのコモンバリアントを除外することで、体細胞突然変異候補の取得を試みる
ワークフローです。また、遺伝子名や配列保存スコア、アミノ酸置換、臨床関連変異データベースの情報などをアノテーションします。
Identify and Annotate Variants:
上述のIdentify VariantsとGeneral WorkflowのAnnotate Variantsの2つを組み合わせたワークフローです。変異検出から各種
アノテーションまでをおこないます。WGSにおいて、本ワークフローは用意されていません。
Somatic Cancer
30
1. Somatic CancerにあるIdentify Somatic Variants from Tumor Normal Pairをダブルクリック(WES用を選択していますが、WGSおよびTASでも同様です)。
2. Select tumor sequencing reads画面でテストサンプルのシークエンスリード(トリミング済)を選択し、Nextをクリック。
Identify Somatic Variants from Tumor Normal Pair
31
3. Select normal sequencing reads画面で、コントロールサンプルのシークエンスリード(トリミング済)を選択してNextをクリック。
4. InDels and Structural Targets (tumor)画面でキャプチャー領域トラックを指定し、Nextをクリック。
5. InDels and Structural Targets (normal)画面でキャプチャー領域トラックを指定し、Nextをクリック。
Identify Somatic Variants from Tumor Normal Pair
32
6. Low Frequency Variant Detection画面のRestrict calling to target regionsにキャプチャー領域データを指定します。また、必要に応じて他の変異検出用パラメーター※を設定し、Nextをクリック; キャプチャー領域データを指定することで、その領域内にある変異のみが検出されます。まずはデフォルト設定で解析し、結果を見ながら調節することをお勧めいたします。
※パラメーターの詳細は、マニュアルのLow Frequency Variant Detectionツールをご覧ください:
http://resources.qiagenbioinformatics.com/manuals/biomedicalgenomicsworkbench/current/index.php?manual=Low_Frequency_Variant_Detection.html
Identify Somatic Variants from Tumor Normal Pair
33
7. QC for Target Sequencing (tumor)にキャプチャー領域トラックを指定し、Nextをクリック; 本ステップはテストサンプルにおいて、キャプチャー領域がどの程度カバーされているかの評価に関連します。パラメーターでは、キャプチャー領域が有すべき最小カバレッジ数の入力、ペアリードの内一方が失われてしまったリード(broken pairs)や非特異的リード(non-specific matches)を評価時に無視(Ignore)するか設定できます。
8. QC for Target Sequencing (normal)画面でキャプチャー領域トラックを指定し、Nextをクリック。
9. Remove Germline Variants画面にあるKeep variants with control read count belowの値を任意で調節し、Nextをクリック; コントロールサンプルにおいて、テストサンプルで検出された変異を支持するリード数が、閾値よりも多く認められた場合、そうした変異を結果から除外します。
10. Result handling画面でSaveが選択されていることを確認して
Nextをクリックし、データの保存先を指定して解析を開始。
Identify Somatic Variants from Tumor Normal Pair
34
Identify Somatic Variants from Tumor Normal Pairによって、多くのデータ(トラック)が出力されます。出力されるデータはお互いに
リンクしているものもあるため、削除する場合はデータの一部のみではなく、全てを対象としてください。
ゲノムブラウズでは、テストサンプルから検出されて各種アノテーションのされた変異、テストおよびコントロールサンプルのマッピングリード、ターゲット
領域カバレッジ、ヒト リファレンス配列、遺伝子、転写産物、 アミノ酸置換、ClinVarデータベースの臨床関連変異が閲覧できます。また、各
変異の周辺領域における、配列の保存レベルを確認することができるよう、Conservation scoreも追加されています。ゲノムブラウズを開くと、
変異のテーブルも表示されます。このテーブルの変異には様々なアノテーションが付加されています。
変異テーブル
ゲノムブラウズ
体細胞突然変異候補トラック
ゲノム ブラウズ トラック
ターゲット領域カバレッジ トラック
マッピング リード トラック (Normal)
マッピング リード トラック (Tumor)
アミノ酸置換 トラック
Identify Somatic Variants from Tumor Normal Pair
35
サンプルセットごとのバッチ処理機能を利用する場合、使用するワークフローを選択して右クリックし、メニューからRun in Batch Mode...を選択します。
Run in Batch Mode...が使用できるワークフローは、Tumor/Normalサンプル解析ワークフローや、トリオ解析ワークフローなどです。
サンプルセットごとのバッチ処理
36
メタデータのインポート時と同様に、メタデータファイルとリード配列データを指定します。
リード配列データの指定は、フォルダを選択して行います。
Data association: • Exact: 1列目のデータ名と、関連付けるデータ名が完全一致する場合に選択。 • Partial: 1列目のデータ名と、関連付けるデータ名が部分一致する場合に選択。 *関連付けが実行可能だと、緑色のチェックが付く。
サンプルセットごとのバッチ処理
37
メタデータ内のどのカラムが、それぞれサンプルセット情報とサンプルタイプ情報のものかを指定します。
さらにサンプルタイプ情報カラム内の各データ項目について、ワークフロー内のデータの種類を指定します。
Grouping: Group by:サンプルセット情報のカラム Type:サンプルタイプ情報のカラム Sample columns: サンプルタイプ情報のカラムに含まれる各データ項目が、ワークフロー内のそれぞれどのデータかを指定する。 *関連付けが実行可能だと、緑色のチェックが付く。
サンプルセットごとのバッチ処理
38
補足1. 解析データのフィルタリング
39
デフォルトではリファレンス配列上における変異の局在が棒グラフ形式で表示されます。
画面左下に表示されているテーブルアイコンをクリックし、テーブルデータに表示が切り替わります。
解析データのフィルタリング
40
• Chromosome: 変異の検出された染色体番号 • Region: 変異の位置
• Type: 変異の種類(SNV, Insertion, Deletionなど)
• Reference: リファレンスの塩基配列
• Allele: 検出された塩基配列
• Zygosity: 変異の接合性(HeteroかHomoか)
• Count: マップされたリードのうち、変異を有するリードの数
• Coverage: マップされたリード数
• Frequency: 変異の頻度
※CountおよびCoverageについて:
ForwardとReverseリードがオーバーラップするペアリードの場合、
両者を合わせたフラグメントがカウントされます(2リードで1フラグメントとなり、その場合は1としてカウントされます)。
解析データのフィルタリング
41
テーブルデータのフィルタリングには、Filter機能を使用します。 1. ク リ ッ ク
• 「+」ボタンで条件を追加、「×」ボタンで条件を削除
• 設定した後にFilterボタンをクリック
2. 条 件 設 定
解析データのフィルタリング
42
• Coding region change: 何番目の塩基が置換したか表示(例. c.[1531T>C]; coding DNAの1531塩基目がTからCに置換)
• Amino acid change: 何番目のアミノ酸が置換したか表示(例. p.[Ser511Pro];タンパク質の563番アミノ酸がセリンからプロリンに置換)
• Non-synonymous: 非同義置換情報を表示(変異が非同義置換であればYesと表示されます)
※~ in longest transcript: 転写産物が複数あるものの内、最も長い転写産物における置換情報が表示されます。
Non-synonymousを選択 「=」を選択 Yesを入力 条件に一致した変異の数が表示
解析データのフィルタリング
43
補足2. CNV解析
44
1. Resequencing AnalysisにあるCopy Number Variant Detectionをダブルクリック。
2. Select read mappings画面でリードマッピングトラックを選択し、Nextをクリック。
Copy Number Variant Detection
45
※パラメーターの詳細は、マニュアルのCopy Number Variant Detectionツールを
ご覧ください:
http://resources.qiagenbioinformatics.com/manuals/biomedicalgen
omicsworkbench/current/index.php?manual=Copy_Number_Variant
_Detection.html
3. Input and reference parameters画面でキャプチャー領域トラック、コントロールサンプルのリードマッピングトラック、Gene trackを指定し、Nextをクリック; 本ステップはキャプチャー領域がどの程度カバーされているかの評価に関連し、オプションでは、ペアリードの内一方が失われてしまったリード(broken pairs)や非特異的リード(non-specific matches)を評価時に無視(Ignore)することを、✔を入れて指定できます。
4. 有意差ありとして検出するコピー数異常の条件(検出時に使用するP値※やカバレッジ比、最小カバレッジ数)、およびコピー数異常領域の長さに基づいた検出感度を設定し、Nextをクリック。
5. Result handling画面でSaveが選択されていることを確認してNextをクリックし、データの保存先を指定してFinishをクリックして解析を開始。
Copy Number Variant Detection
46
Region level のCNVデータ
Target level のCNVデータ
Gene level のCNVデータ
Copy Number Variant Detection