Biomedical Genomics Workbench€¦ · 1 Biomedical Genomics Workbench ... •1サンプルやペアサンプル(正常・病変)を用いた変異検出・アノテーション Hereditary

フィルジェン株式会社バイオサイエンス部

([email protected])

1

Biomedical Genomics Workbench

ウェブトレーニングセミナー: がん解析編

2


解析ワークフローを標準搭載

• 全ゲノム、全エクソーム、ターゲットアンプリコン、全トランスクリプトーム解析用のワークフローを搭載

リファレンスデータを管理するマネジャーを搭載

• 解析に必要となる様々なリファレンス・アノテーションの取得・管理

様々な解析ツール

• 標準の解析ワークフローに追加できる様々なツールを搭載 Reference Data Management

• Ensembl • dbSNP • 1000 Genomes Project • HapMap • ClinVar • Gene Ontology...etc.

• 複数からなる解析ステップをワークフローにより一括し、ストレートに結果を取得

• トリオ解析・CNV解析用のツールも搭載

直観的に操作できるインターフェイス

• フォルダ構造によるデータの管理

• アプリケーションごとに解析ワークフロー・ツールを分類

• 洗練されたゲノムブラウズ

3


Ready-to-Use Workflows: ワークフロー

• クオリティチェック用ワークフロー(Preparing Raw Data)

• 全ゲノム解析(Whole Genome Sequencing: WGS)

• 全エクソーム解析(Whole Exome Sequencing: WES)

• ターゲットアンプリコン解析(Targeted Amplicon Sequencing: TAS)

• 全トランスクリプトーム解析(Whole Transcriptome Sequencing: WTS)

Tools: ツール

• ワークフローで取得した結果に対する、更なる解析に使用

• 既存のワークフローに組み込み、独自のワークフローの作成に使用

• 順々に使用することで、解析結果を取得することも可能

4

データ解析の手順

手順1：リファレンスデータの取得

手順2：各種データのインポート

各サンプルのリード配列データのインポート

キャプチャーキットのターゲット領域データのインポート

手順4：解析ワークフローの実行

Preparing Raw Dataワークフローによるクオリティチェック

WGA / WES / TASワークフローによる変異解析の実行

手順3：メタデータファイルの作成

サンプルの分類情報をまとめたファイルを作成

ヒトゲノムリファレンスデータのダウンロード

5

手順1. リファレンスデータの取得

6

本Workbenchのワークフローを使用するには、リファレンスデータを取得する必要があります。

リファレンスデータはhuman/mouse/ratをカバーし、専用のマネジャーを介して取得します。

全てのリファレンスデータを取得するには、約300GBの空き容量が必要です(2017年3月現在):

• Hg38 150GB: Ensembl v86, dbSNP v147, ClinVar 20161101

• Hg38 118GB: RefSeq GRCh38 p9, dbSNP v149, ClinVar 20161101

• Hg19 63GB: Ensembl v74, dbSNP v138, ClinVar 20131203

• Mouse 15GB: Ensembl v86

• Rat 5.5GB: Ensembl v79

リファレンスデータの取得には、インターネット接続が必須です。

リファレンスデータの取得

7

リファレンスデータのダウンロードマネジャーはToolbarからアクセスします。

初めてWorkbenchを起動した場合や、リファレンスのアップデートがあった場合は通知がポップアップされ、ダウンロードマネジャーにアクセスすることが可能です。

Or


8

リファレンスデータをダウンロードするにはDownloadをクリックします。

ダウンロードしたリファレンスデータを削除するにはDeleteをクリックします。

ダウンロードしたリファレンスデータをワークフローに反映させるにはApplyをクリックします。

ダウンロードが完了すると、アイコンが変わります: →


9


ダウンロードが終了すると、Navigation Area内のCLC_Referencesフォルダ内に、各種データが保存されます。

アノテーションデータトラック

ゲノム配列データトラック

変異データトラック

イデオグラムトラック

10

手順2. 各種データのインポート

11

本Workbenchには各フォーマットに適したインポーターが用意されています。

ToolbarのImportアイコンから表示されるインポーターから選択して、インポートを実行します。

アノテーションファイル(BEDなど)

SAM/BAMファイル

サンガーシークエンスデータ

メタデータ

次世代シークエンスデータ

次世代シークエンサー以外のファイル

プライマーペアデータ

RNAスパイクインデータ

リード配列データのインポート

12

次世代シークエンスデータの各インポーターは、以下のファイル形式に対応しています：

次世代シークエンスプラットフォームファイル形式

Roche 454

illumina

SOLiD

Ion Torrent※

.sff .fasta/ .qual

.txt .fastq

.fq .qseq

.xsq .fastq

.csfasta/ .qual

.sff .fastq

.fq

※Ion TorrentのUnmapped BAMファイルはStandard Importよりインポートします。

PacBio

.bas.h5/ .bax.h5 .fastq

.fq .fasta

.fa .fna


13

General options(各NGSプラットフォームに共通):

• Paired reads: ペアリードの場合、チェックを入れる

• Discard read names: インポート時にリード名を削除

• Discard quality scores: インポート時にクオリティスコアを削除

• ペアエンドであればPaired-end、メイトペアであればMate-pairを選択

• Distanceにはライブラリーのサイズを入力

古いバージョンのilluminaソフトで処理されたデータの場合、バージョンを指定

ペアリードの場合、forwardとreverseの2データ(fastqファイル)を選択

Illuminaデータは、Import > Illumina...からインポートします。


14

リード配列リード名

クオリティスコア


15

全エクソーム・ターゲットアンプリコン解析用ワークフローではターゲット領域データが必要です：

ターゲット領域データはBED形式またはGFF形式のファイル

各キットのメーカーより取得(メーカーによってはホームページで公開されています)

ターゲット領域データ例: Illumina社のNextera Rapid Capture Exomeの場合

nexterarapidcapture_exome_targetedregions_v1.2.bed

ターゲット領域データのインポート

16

ファイルタイプを選択(.bedならBED、.gtfならGFF2/GTF/GVFを選択)

ターゲット領域データ(e.g. .bedファイル)は、Import > Tracks...からインポートします。

インポートするファイルを選択

• 対象とするリファレンスゲノム配列を選択

• CLC Referencesのデータを利用可能

※上記はヒトhg19を例示。


17


インポートが終了すると、アノテーション形式のトラックデータが作成されます。

18

手順3. メタデータファイルの作成

19

Tumor/Normalなどのペアサンプルデータやトリオサンプルデータを使用したBatch処理、およびRNA-Seq遺伝子発現データにおけるグループ間比較を行う場合、各サンプル情報を記載したメタデータが必要です：

まず始めにMicrosoft Excelなどを使用し、以下の例のように、1行1サンプルごとにサンプル情報をまとめたファイル（.txt, .xlsx形式など）を作成します。

1列目には、関連付ける各データの、Navigation Area上でのデータ名の一部またはすべてと同じにします。

2列目以降の列数とヘッダー名は任意に指定できます。

例1：2サンプル分のTumor/Normalペアデータ（合計4データ）の場合

例2：2家系分のトリオデータ（合計6データ）の場合

メタデータファイルの作成

20

手順4. 解析ワークフローの実行

21

WGS/ WES/ TAS ワークフロー:

ヒトのシークエンスデータを用いた変異解析用ワークフローを収録

解析目的に合わせて3つのフォルダに分類:

General Workflow • 検出した変異に対するアノテーション(遺伝子、アミノ酸置換等) • ユーザーのカスタムデータの変異がサンプルに含まれるか否か検証 Somatic Cancer • がんサンプル解析を主としてデザインされたワークフロー • 1サンプルやペアサンプル(正常・病変)を用いた変異検出・アノテーション Hereditary Disease • 遺伝性疾患サンプル解析を主としてデザインされたワークフロー • トリオサンプルなど家族サンプルを用いた遺伝性変異やDe Novo変異などの検出・アノテーション

WTS ワークフロー: ヒト/マウス/ラットのRNA-Seqデータを用いた、各種解析用のワークフローを収録

Preparing Raw Dataワークフロー:

リードデータのクオリティ向上のために使用するワークフローを収録

どのような解析であっても、実施する前に本ワークフローを実行

ワークフローの種類

22

解析の実行前に、シークエンスデータのクオリティチェックや低クオリティ配列のトリミングをおこないます。

本Workbenchは専用のワークフローを2種類用意しています。

Prepare Overlapping Raw Data:

• リードデータのクオリティチェックの実施

• クオリティの低い領域の除外(トリミング)

• Forward/reverseリードのオーバーラップ領域のマージ

• Forward/reverseリードでオーバーラップするようデザイン；

Target Amplicon Sequencing解析での使用を推奨

Prepare Raw Data:

• リードデータのクオリティチェックの実施

• クオリティの低い領域のトリミング

• Forward/reverseリードでオーバーラップが無い場合に使用

Preparing Raw Data

23

リードのクオリティが向上

低クオリティ領域をカット

トリミング後のデータは、オリジナルとは別のファイルとして出力されます。

Preparing Raw Data

24

Forward read

Reverse read

オーバーラップ領域

Merged read

Forward/ Reverseリード間のオーバーラップ領域をマージして一つのリードにします。

より長いリードの取得、およびクオリティの向上が期待されます。

Preparing Raw Data

25

1. ToolboxのReady-to-Use WorkflowsからPreparing Raw Dataにあるワークフローの内、いずれか一方を選択。

2. Select sequencing reads画面でリードデータを選択し、Nextをクリック。

Prepare Raw Data

26

アダプタートリミングのパラメーター

クオリティに基づくトリミングのパラメーター

長さに基づくトリミングのパラメーター

※ パラメーターはデフォルト設定を利用できますが、必要に応じて調整することも可能です。

※ アダプターリストの作成についてはマニュアルをご参照ください：

http://resources.qiagenbioinformatics.com/manuals/biomedicalgenomicsworkbench/current/index.php?manual=Adapter_trimming.html

3. 各種トリミングのパラメーターを設定し、Nextをクリック(アダプタートリミングをする場合、アダプターリストを指定します)。

Prepare Raw Data

27

クオリティチェック実行前のデータ

クオリティチェック実行結果のデータ

ワークフローの実行により、クオリティチェック結果のレポートや、トリミングまたはトリミングとオーバーラップがマージされた、リード配列データが作成されます。

Prepare Raw Data

28

Somatic Cancerはがんサンプルの解析用にデザインされたワークフローを収録しています。

ワークフローは、WGSおよびWES、TASのSomatic Cancerフォルダにあります。

ワークフローは変異検出ツールとしてLow Frequency Variant Detection※を採用しています。 ※本ツールはサンプルの倍数性を指定する必要が無く、かつ低頻度の変異検出に優れています。

Somatic Cancer

29

Identify Variants:

リードをリファレンスにマッピングし、それをローカルリアライメントにより部分的に補正してから変異を検出します。検出した変異から偽陽性

やターゲット領域外(ターゲット領域トラックを指定した場合)のものを除外します。

Identify Somatic Variants from Tumor Normal Pair:

Identify Variantsと同様にして変異を検出しますが、本ワークフローではコントロールサンプルのマッピングデータに基づいて生殖細胞突然

変異候補を取り除くことで、体細胞突然変異候補を取得します。また、各変異に対して遺伝子名や配列保存スコア、アミノ酸置換、臨床

関連変異データベースの情報などをアノテーションします。本ワークフローでは同一個体由来のペア(病変部・正常部)サンプルが必要です。

Filter Somatic Variants:

ペアサンプルの利用できない変異データから、公共データベースのコモンバリアントを除外することで、体細胞突然変異候補の取得を試みる

ワークフローです。また、遺伝子名や配列保存スコア、アミノ酸置換、臨床関連変異データベースの情報などをアノテーションします。

Identify and Annotate Variants:

上述のIdentify VariantsとGeneral WorkflowのAnnotate Variantsの２つを組み合わせたワークフローです。変異検出から各種

アノテーションまでをおこないます。WGSにおいて、本ワークフローは用意されていません。

Somatic Cancer

30

1. Somatic CancerにあるIdentify Somatic Variants from Tumor Normal Pairをダブルクリック(WES用を選択していますが、WGSおよびTASでも同様です)。

2. Select tumor sequencing reads画面でテストサンプルのシークエンスリード(トリミング済)を選択し、Nextをクリック。

Identify Somatic Variants from Tumor Normal Pair

31

3. Select normal sequencing reads画面で、コントロールサンプルのシークエンスリード(トリミング済)を選択してNextをクリック。

4. InDels and Structural Targets (tumor)画面でキャプチャー領域トラックを指定し、Nextをクリック。

5. InDels and Structural Targets (normal)画面でキャプチャー領域トラックを指定し、Nextをクリック。


32

6. Low Frequency Variant Detection画面のRestrict calling to target regionsにキャプチャー領域データを指定します。また、必要に応じて他の変異検出用パラメーター※を設定し、Nextをクリック; キャプチャー領域データを指定することで、その領域内にある変異のみが検出されます。まずはデフォルト設定で解析し、結果を見ながら調節することをお勧めいたします。

※パラメーターの詳細は、マニュアルのLow Frequency Variant Detectionツールをご覧ください:

http://resources.qiagenbioinformatics.com/manuals/biomedicalgenomicsworkbench/current/index.php?manual=Low_Frequency_Variant_Detection.html


33

7. QC for Target Sequencing (tumor)にキャプチャー領域トラックを指定し、Nextをクリック; 本ステップはテストサンプルにおいて、キャプチャー領域がどの程度カバーされているかの評価に関連します。パラメーターでは、キャプチャー領域が有すべき最小カバレッジ数の入力、ペアリードの内一方が失われてしまったリード(broken pairs)や非特異的リード(non-specific matches)を評価時に無視(Ignore)するか設定できます。

8. QC for Target Sequencing (normal)画面でキャプチャー領域トラックを指定し、Nextをクリック。

9. Remove Germline Variants画面にあるKeep variants with control read count belowの値を任意で調節し、Nextをクリック; コントロールサンプルにおいて、テストサンプルで検出された変異を支持するリード数が、閾値よりも多く認められた場合、そうした変異を結果から除外します。

10. Result handling画面でSaveが選択されていることを確認して

Nextをクリックし、データの保存先を指定して解析を開始。


34

Identify Somatic Variants from Tumor Normal Pairによって、多くのデータ(トラック)が出力されます。出力されるデータはお互いに

リンクしているものもあるため、削除する場合はデータの一部のみではなく、全てを対象としてください。

ゲノムブラウズでは、テストサンプルから検出されて各種アノテーションのされた変異、テストおよびコントロールサンプルのマッピングリード、ターゲット

領域カバレッジ、ヒトリファレンス配列、遺伝子、転写産物、アミノ酸置換、ClinVarデータベースの臨床関連変異が閲覧できます。また、各

変異の周辺領域における、配列の保存レベルを確認することができるよう、Conservation scoreも追加されています。ゲノムブラウズを開くと、

変異のテーブルも表示されます。このテーブルの変異には様々なアノテーションが付加されています。

変異テーブル

ゲノムブラウズ

体細胞突然変異候補トラック

ゲノムブラウズトラック

ターゲット領域カバレッジトラック

マッピングリードトラック (Normal)

マッピングリードトラック (Tumor)

アミノ酸置換トラック


35

サンプルセットごとのバッチ処理機能を利用する場合、使用するワークフローを選択して右クリックし、メニューからRun in Batch Mode...を選択します。

Run in Batch Mode...が使用できるワークフローは、Tumor/Normalサンプル解析ワークフローや、トリオ解析ワークフローなどです。

サンプルセットごとのバッチ処理

36

メタデータのインポート時と同様に、メタデータファイルとリード配列データを指定します。

リード配列データの指定は、フォルダを選択して行います。

Data association: • Exact: 1列目のデータ名と、関連付けるデータ名が完全一致する場合に選択。 • Partial: 1列目のデータ名と、関連付けるデータ名が部分一致する場合に選択。＊関連付けが実行可能だと、緑色のチェックが付く。


37

メタデータ内のどのカラムが、それぞれサンプルセット情報とサンプルタイプ情報のものかを指定します。

さらにサンプルタイプ情報カラム内の各データ項目について、ワークフロー内のデータの種類を指定します。

Grouping: Group by：サンプルセット情報のカラム Type：サンプルタイプ情報のカラム Sample columns：サンプルタイプ情報のカラムに含まれる各データ項目が、ワークフロー内のそれぞれどのデータかを指定する。＊関連付けが実行可能だと、緑色のチェックが付く。


38

補足1. 解析データのフィルタリング

39

デフォルトではリファレンス配列上における変異の局在が棒グラフ形式で表示されます。

画面左下に表示されているテーブルアイコンをクリックし、テーブルデータに表示が切り替わります。

解析データのフィルタリング

40

• Chromosome: 変異の検出された染色体番号 • Region: 変異の位置

• Type: 変異の種類(SNV, Insertion, Deletionなど)

• Reference: リファレンスの塩基配列

• Allele: 検出された塩基配列

• Zygosity: 変異の接合性(HeteroかHomoか)

• Count: マップされたリードのうち、変異を有するリードの数

• Coverage: マップされたリード数

• Frequency: 変異の頻度

※CountおよびCoverageについて:

ForwardとReverseリードがオーバーラップするペアリードの場合、

両者を合わせたフラグメントがカウントされます(2リードで1フラグメントとなり、その場合は1としてカウントされます)。


41

テーブルデータのフィルタリングには、Filter機能を使用します。 1. クリック

• 「＋」ボタンで条件を追加、「×」ボタンで条件を削除

• 設定した後にFilterボタンをクリック

2. 条件設定


42

• Coding region change: 何番目の塩基が置換したか表示(例. c.[1531T>C]; coding DNAの1531塩基目がTからCに置換)

• Amino acid change: 何番目のアミノ酸が置換したか表示(例. p.[Ser511Pro];タンパク質の563番アミノ酸がセリンからプロリンに置換)

• Non-synonymous: 非同義置換情報を表示(変異が非同義置換であればYesと表示されます)

※~ in longest transcript: 転写産物が複数あるものの内、最も長い転写産物における置換情報が表示されます。

Non-synonymousを選択「=」を選択 Yesを入力条件に一致した変異の数が表示


43

補足2. CNV解析

44

1. Resequencing AnalysisにあるCopy Number Variant Detectionをダブルクリック。

2. Select read mappings画面でリードマッピングトラックを選択し、Nextをクリック。

Copy Number Variant Detection

45

※パラメーターの詳細は、マニュアルのCopy Number Variant Detectionツールを

ご覧ください:

http://resources.qiagenbioinformatics.com/manuals/biomedicalgen

omicsworkbench/current/index.php?manual=Copy_Number_Variant

_Detection.html

3. Input and reference parameters画面でキャプチャー領域トラック、コントロールサンプルのリードマッピングトラック、Gene trackを指定し、Nextをクリック; 本ステップはキャプチャー領域がどの程度カバーされているかの評価に関連し、オプションでは、ペアリードの内一方が失われてしまったリード(broken pairs)や非特異的リード(non-specific matches)を評価時に無視(Ignore)することを、✔を入れて指定できます。

4. 有意差ありとして検出するコピー数異常の条件(検出時に使用するP値※やカバレッジ比、最小カバレッジ数)、およびコピー数異常領域の長さに基づいた検出感度を設定し、Nextをクリック。

5. Result handling画面でSaveが選択されていることを確認してNextをクリックし、データの保存先を指定してFinishをクリックして解析を開始。


46

Region level のCNVデータ

Target level のCNVデータ

Gene level のCNVデータ


お問い合わせ先：フィルジェン株式会社

TEL 052-624-4388 (9:00～17：00）

FAX 052-624-4389

E-mail: [email protected]

47

Documents

Biomedical Genomics Workbench€¦ · 1 Biomedical Genomics Workbench ... •1サンプルやペアサンプル(正常・病変)を用いた変異検出・アノテーション Hereditary