Ingenuity Variant Analysis - Amazon S3 · ⑤データ解析のための統計の基礎 (9)!...

Preview:

Citation preview

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

公共データベースの再解析を例とした Ingenuity Variant Analysis による変異データの絞り込み

坊農 秀雅 情報・システム研究機構

ライフサイエンス統合データベースセンター(DBCLS)

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

本日の話•公共DBの現状とその再利用

•次世代シークエンサー(NGS)の普及

• NGSデータの検索

•エクソームデータ再利用解析の実例–(Academic)freeなツールでの解析–Ingenuity Variant Analysis

2

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

公共DBの現状とその再利用

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

次世代シークエンサー (NGS)• 2015年現在、普通に使われるようになった

–ほぼIllumina社の• HiSeq2500 -> その後継機種

• Miseq -> NextSeq–長読みはPacBio

•「もう『次世代』ちゃうやろ」–NGS: Now Generation Sequencer

4

Togo picture gallery by DBCLS is licensed under a Creative Commons Attribution 2.1 Japan license (c)

http://g86.dbcls.jp/togopic/

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

• PublicなNGSデータを把握するため、DBCLSが活動–DBCLS SRA–http://sra.dbcls.jp/

5

NGSデータの現状

領域融合レビュー, 4, e008 (2015) DOI: 10.7875/leading.author.4.e008Hidemasa Bono: Sequence data analysis in life science utilizing next generation sequencers.図1

Nakazato T, Ohta T, Bono HPLOS ONE. 8, e77910, 2013doi: 10.1371/journal.pone.0077910

© 2015 DBCLS Licensed under CC BY 2.1JAPAN6

© 2015 DBCLS Licensed under CC BY 2.1JAPANhttp://www.ncbi.nlm.nih.gov/Traces/sra/7

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

参考: raw data at NCBIhttp://www.ncbi.nlm.nih.gov/Traces/sra/

8

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

SRA以外にもpublicなNGSデータが

•制限公開データ–例: NBDCヒトデータベース

•大型プロジェクトのデータ–例: TCGA(The Cancer Genome Atlas)

9

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

領域融合レビュー

10

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

無料で使えます•基本的にユーザー登録なし• for profit(企業の方)もタダ

11

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

歴史

12

http://dbcls.rois.ac.jp/about/history

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

DBカタログ

13

http://integbio.jp/dbcatalog/

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

3つの「センター」

• DDBJ: DNAデータアーカイブ• DBCLS: データベース統合基盤技術開発• NBDC: 戦略立案、funding

14

http://dbcls.rois.ac.jp/about日本版NCBI

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

ROIS

NIG,DDBJ,DBCLS,NBDC…• DDBJ: DNA Data Bank of

Japan• DBCLS: Database Center for

Life Science• NBDC: National Bioscience

Database Center

15

NIG DDBJ DBCLS NBDC

hono, bono, nakazato, meso, iNut

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

Refseq

三島のDBCLSは何をしているのか?

16

Data in DDBJ

GEO ArrayExpress

1. Annotated sequences 2. Samples(BioSample) 3. Studies(BioProject) 4. Capillary reads 5. Next generation

reads(SRA) RNAseq ChIPseq microarray (GeneChip,

Oligoarray)

Ref: http://www.insdc.org/

DDBJにあるデータの

「知の巡り」を良くしています

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

#NGLSBI

DBCLS SRA

• NGSデータ(SRA)の電話帳–メタデータで整理• 動的な統計レポート• SRAデータと論文との対応表

• Taxonomy–Direct link to original DB(SRA)

•前もって計算されたQCデータ

17

Search data

Download

Quality Check

Data processing

Analysis

公共NGSデータを利用するためのシステム

http://SRA.dbcls.jp/

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

論文が紐付いているデータだけ

18 http://bit.ly/sra2pubmed

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

前もって計算されたQCデータ

19

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

データモデル

20http://trace.ddbj.nig.ac.jp/dra/submission.html

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

NGS関連ファイルフォーマット

21

フォーマット名

読み方 拡張子 用途

FASTA ふぁすた or ふぁすとえー

.faや.fasta 1行目に“>”で始まるヘッダ行,2行目以降に実際の塩基配列文字列という配列データ形式

FASTQ ふぁすときゅー .fqや.fastq NGS配列データ形式のデファクトスタンダード.配列クオリティ値付き,4行1エントリ

SRA えすあーるえー .sra NGS配列データ配布フォーマット.NCBI SRA-toolkitを使ってFASTQを生成できる

SAM さむ .sam ゲノムマッピングした時に生成されるアラインメントのフォーマット.プレーンテキスト形式

BAM ばむ .bam ゲノムマッピングした時に生成されるアラインメントのフォーマット.バイナリ形式

GTF(GFF) じーてぃーえふ (じえふえふ)

.gtf(.gff) ゲノム上のどこに遺伝子があるかなどが記述されたゲノムアノテーションのフォーマット

BED べっど .bed ゲノム上のどこに遺伝子があるかなどが記述されたゲノムアノテーションのフォーマット

VCF ぶいしーえふ .vcf Variant Call Format.配列の多型を記述するフォーマット.bcfはvcfのバイナリ版

© 2015 DBCLS Licensed under CC BY 2.1JAPAN22

データ解析のハブとなるFASTQ形式

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

次世代シーケンサからのデータ• FASTQフォーマットのファイル

–4行/readが基本単位

–MiSeq v3• 5000万リードx4行

• =2億行

•ファイルサイズも2Gbyte/file超–FAT32フォーマットでは扱えない

•いわゆる「開く」ことが不可能23

SRR001356.1 2023DAAXX:5:1:123:563 length=33 TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC +SRR001356.1 2023DAAXX:5:1:123:563 length=33 -IIIIIIII8IIIIIIIIIII6IIIIIIIII9I @SRR001356.2 2023DAAXX:5:1:123:476 length=33 TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG +SRR001356.2 2023DAAXX:5:1:123:476 length=33 IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III @SRR001356.3 2023DAAXX:5:1:121:746 length=33 GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT +SRR001356.3 2023DAAXX:5:1:121:746 length=33 IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

塩基配列情報を使って様々な応用1. ゲノムの解析(Exome, WGBS)WGBS: Whole Genome Bisulfite Sequence

2. トランスクリプトームの解析(RNA-seq)

3. DNA結合タンパク質の 結合配列の解析(ChIP-seq)

4. メタゲノムの解析などなど

24

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

必要メモリの目安

25

NGS 解析手法

必要メモリ関連項目

RNA-seq 4G 2Exome 8G 1ChIP-seq 8G 3WGBS 16G 1

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

ゲノムの解析• DNA-seqとはあまりいわず、主にExome

–Exon + -ome => Exome(エクソーム)

–Exon部分だけResequence

•ごく簡単な解析の流れ(ヒトやマウス)1. データのクレンジング2. Reference genomeへのmapping (BWA)

3. 変異(SNV:Simple Nucleotide Variation)をcall

4. 変異のアノテーション26

⇒ FASTQ

⇒ BAM

⇒ VCF

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

初心者向け次世代DRY解析本発刊• 10月8日 日本癌学会学術総会にて先行発売

• 10月14日 日本人類遺伝学会大会にて先行発売

• 10月15日 全国発売

27

これからは生命科学者がデータ解析する時代です

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

目次■Level 1(準備編)①Macの買い方 (7)②コマンドラインの使い方 (20)③Rの使い方 (17)④データベースの選び方 (4)⑤データ解析のための統計の基礎 (9)● NGS基本用語解説 (4)

■Level 2(実践編)①練習用公開データの選び方 (19) ②発現解析(35)● 発現解析・手順書 (1)●【再現・検証】研究者の妻のDRY解析奮闘日記(9)

③疾患ゲノム解析(52)● 疾患ゲノム解析・手順書 (2)●【再現・検証】疾患ゲノム解析実習レポート (7)●【再現・検証】有償ソフトウェアならここまでできます(24)

④エピゲノム解析(ChIP-seq/FAIRE-seq/ATAC-seq) (30)

● エピゲノム解析(ChIP-seq)・手順書(3)●【再現・検証】ウェットなPIのChIP-seqことはじめブログ(8)⑤エピゲノム解析(WGBS) (22)● エピゲノム解析(WGBS)・手順書① (2)●【再現・検証】ギーク女優のWGBSガチ実況 (8)

● エピゲノム解析(WGBS)・手順書② (2)●【再現・検証】担当編集者のつぶやき検証レポート(11)

■Level 3(論文別・作図コマンド解説)A. R pairs.panels (3)B. R vioplot (2)C. R ggplot2 grid (3)D. R rGADEM (4)E. R biomaRt reshape2 ggplot2 grid entropy (4)F. R KEGGgraph (18)G. R trisomy.R (4)H. R edgeR hclust (8)I. R beanplot boxplot barplot IGV (7)J. Perl R ChromHMM IGV (5)K. R python visMut2sp.R (4)L. Velvet Murasaki GMV (5)M. Perl gc_contentSkew Tcl/Tk (3)N. imlib2 distriSNP (4)O. SQLite3 R Ruby Univa Grid Engine (5)

28

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

エクソームデータ再利用解析の実例

DRR006760を例に 1. vcfがある時 2. vcfがない時

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

vcfファイルがある時•共同研究者がすでに作成•自前で作成–フリーウェアを組み合わせて作成可能?

–GATKなどはアカデミックフリー

–for-profitには有償なものが多くなっている

⇒ IVAをウェブインターフェースから利用

30

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

エクソームデータ解析の概略

• https://www.broadinstitute.org/gatk/guide/article?id=3238 より

31

FASTQ

BAM VCF

vcfファイルをアップロードすると…

32

33

validating…

34

active! then analyze

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

IVAでやれること

• https://www.broadinstitute.org/gatk/guide/article?id=3238 より50

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

vcfファイルがない時Biomedical Genomics Workbench(BxWB)

51

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

BxWBいい点、悪い点• FASTQファイルからスタートできる

–vcfファイルを自ら生成しなくていい

• BxWBですべて完結–IVAもBxWBからプラグインで利用できる

•リファレンスゲノムなどすべてダウンロードしてこないといけない

•マッピング等、計算が自前でやるため重い52

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

BxWBを使うワークフロー•トリミング•バリアント検出

•フィルタリング

•ナレッジベースからの情報付加

•候補となったバリアントの精査

Biomedical Genomics Workbench (BxWB)

Ingenuity Variant Analysis (IVA)

Biomedical Genomics Workbench (BxWB)

53

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

IVA+BxWB

• https://www.broadinstitute.org/gatk/guide/article?id=3238 より54

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

詳しい手順は次世代DRY解析本に■Level 2(実践編)③疾患ゲノム解析(52)

● 疾患ゲノム解析・手順書 (2)

●【再現・検証】疾患ゲノム解析実習レポート (7)

!【再現・検証】有償ソフトウェアならここまでできます(24)

55

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

IVAはプラグインとして使える

56

57

58

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

Verification in genome browser

59

© 2015 DBCLS Licensed under CC BY 2.1JAPAN

これからは、生物学者自身がデータ解析する時代なんです

Recommended