View
2
Download
0
Category
Preview:
Citation preview
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
公共データベースの再解析を例とした Ingenuity Variant Analysis による変異データの絞り込み
坊農 秀雅 情報・システム研究機構
ライフサイエンス統合データベースセンター(DBCLS)
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
本日の話•公共DBの現状とその再利用
•次世代シークエンサー(NGS)の普及
• NGSデータの検索
•エクソームデータ再利用解析の実例–(Academic)freeなツールでの解析–Ingenuity Variant Analysis
2
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
公共DBの現状とその再利用
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
次世代シークエンサー (NGS)• 2015年現在、普通に使われるようになった
–ほぼIllumina社の• HiSeq2500 -> その後継機種
• Miseq -> NextSeq–長読みはPacBio
•「もう『次世代』ちゃうやろ」–NGS: Now Generation Sequencer
4
Togo picture gallery by DBCLS is licensed under a Creative Commons Attribution 2.1 Japan license (c)
http://g86.dbcls.jp/togopic/
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
• PublicなNGSデータを把握するため、DBCLSが活動–DBCLS SRA–http://sra.dbcls.jp/
5
NGSデータの現状
領域融合レビュー, 4, e008 (2015) DOI: 10.7875/leading.author.4.e008Hidemasa Bono: Sequence data analysis in life science utilizing next generation sequencers.図1
Nakazato T, Ohta T, Bono HPLOS ONE. 8, e77910, 2013doi: 10.1371/journal.pone.0077910
© 2015 DBCLS Licensed under CC BY 2.1JAPANhttp://www.ncbi.nlm.nih.gov/Traces/sra/7
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
参考: raw data at NCBIhttp://www.ncbi.nlm.nih.gov/Traces/sra/
8
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
SRA以外にもpublicなNGSデータが
•制限公開データ–例: NBDCヒトデータベース
•大型プロジェクトのデータ–例: TCGA(The Cancer Genome Atlas)
9
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
領域融合レビュー
10
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
無料で使えます•基本的にユーザー登録なし• for profit(企業の方)もタダ
11
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
歴史
12
http://dbcls.rois.ac.jp/about/history
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
DBカタログ
13
http://integbio.jp/dbcatalog/
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
3つの「センター」
• DDBJ: DNAデータアーカイブ• DBCLS: データベース統合基盤技術開発• NBDC: 戦略立案、funding
14
http://dbcls.rois.ac.jp/about日本版NCBI
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
ROIS
NIG,DDBJ,DBCLS,NBDC…• DDBJ: DNA Data Bank of
Japan• DBCLS: Database Center for
Life Science• NBDC: National Bioscience
Database Center
15
NIG DDBJ DBCLS NBDC
hono, bono, nakazato, meso, iNut
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
Refseq
三島のDBCLSは何をしているのか?
16
Data in DDBJ
GEO ArrayExpress
1. Annotated sequences 2. Samples(BioSample) 3. Studies(BioProject) 4. Capillary reads 5. Next generation
reads(SRA) RNAseq ChIPseq microarray (GeneChip,
Oligoarray)
Ref: http://www.insdc.org/
DDBJにあるデータの
「知の巡り」を良くしています
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
#NGLSBI
DBCLS SRA
• NGSデータ(SRA)の電話帳–メタデータで整理• 動的な統計レポート• SRAデータと論文との対応表
• Taxonomy–Direct link to original DB(SRA)
•前もって計算されたQCデータ
17
Search data
Download
Quality Check
Data processing
Analysis
公共NGSデータを利用するためのシステム
http://SRA.dbcls.jp/
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
論文が紐付いているデータだけ
18 http://bit.ly/sra2pubmed
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
前もって計算されたQCデータ
19
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
データモデル
20http://trace.ddbj.nig.ac.jp/dra/submission.html
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
NGS関連ファイルフォーマット
21
フォーマット名
読み方 拡張子 用途
FASTA ふぁすた or ふぁすとえー
.faや.fasta 1行目に“>”で始まるヘッダ行,2行目以降に実際の塩基配列文字列という配列データ形式
FASTQ ふぁすときゅー .fqや.fastq NGS配列データ形式のデファクトスタンダード.配列クオリティ値付き,4行1エントリ
SRA えすあーるえー .sra NGS配列データ配布フォーマット.NCBI SRA-toolkitを使ってFASTQを生成できる
SAM さむ .sam ゲノムマッピングした時に生成されるアラインメントのフォーマット.プレーンテキスト形式
BAM ばむ .bam ゲノムマッピングした時に生成されるアラインメントのフォーマット.バイナリ形式
GTF(GFF) じーてぃーえふ (じえふえふ)
.gtf(.gff) ゲノム上のどこに遺伝子があるかなどが記述されたゲノムアノテーションのフォーマット
BED べっど .bed ゲノム上のどこに遺伝子があるかなどが記述されたゲノムアノテーションのフォーマット
VCF ぶいしーえふ .vcf Variant Call Format.配列の多型を記述するフォーマット.bcfはvcfのバイナリ版
© 2015 DBCLS Licensed under CC BY 2.1JAPAN22
データ解析のハブとなるFASTQ形式
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
次世代シーケンサからのデータ• FASTQフォーマットのファイル
–4行/readが基本単位
–MiSeq v3• 5000万リードx4行
• =2億行
•ファイルサイズも2Gbyte/file超–FAT32フォーマットでは扱えない
•いわゆる「開く」ことが不可能23
SRR001356.1 2023DAAXX:5:1:123:563 length=33 TGTCGGTCCAGCTCGGCCTTGGGCTCCGTTTTC +SRR001356.1 2023DAAXX:5:1:123:563 length=33 -IIIIIIII8IIIIIIIIIII6IIIIIIIII9I @SRR001356.2 2023DAAXX:5:1:123:476 length=33 TCTGAACCCGACTCCCTTTCGATCGGCCGCGGG +SRR001356.2 2023DAAXX:5:1:123:476 length=33 IIIIIIIIIIIIIIIIIIIIIGIIIIIII-III @SRR001356.3 2023DAAXX:5:1:121:746 length=33 GTGGCAGCGTTTTTGGGCCCGCCGCTTGCCGTT +SRR001356.3 2023DAAXX:5:1:121:746 length=33 IIIII&IIIIIIIIIIIIIIIIHI1IIIIIIII
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
塩基配列情報を使って様々な応用1. ゲノムの解析(Exome, WGBS)WGBS: Whole Genome Bisulfite Sequence
2. トランスクリプトームの解析(RNA-seq)
3. DNA結合タンパク質の 結合配列の解析(ChIP-seq)
4. メタゲノムの解析などなど
24
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
必要メモリの目安
25
NGS 解析手法
必要メモリ関連項目
RNA-seq 4G 2Exome 8G 1ChIP-seq 8G 3WGBS 16G 1
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
ゲノムの解析• DNA-seqとはあまりいわず、主にExome
–Exon + -ome => Exome(エクソーム)
–Exon部分だけResequence
•ごく簡単な解析の流れ(ヒトやマウス)1. データのクレンジング2. Reference genomeへのmapping (BWA)
3. 変異(SNV:Simple Nucleotide Variation)をcall
4. 変異のアノテーション26
⇒ FASTQ
⇒ BAM
⇒ VCF
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
初心者向け次世代DRY解析本発刊• 10月8日 日本癌学会学術総会にて先行発売
• 10月14日 日本人類遺伝学会大会にて先行発売
• 10月15日 全国発売
27
これからは生命科学者がデータ解析する時代です
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
目次■Level 1(準備編)①Macの買い方 (7)②コマンドラインの使い方 (20)③Rの使い方 (17)④データベースの選び方 (4)⑤データ解析のための統計の基礎 (9)● NGS基本用語解説 (4)
■Level 2(実践編)①練習用公開データの選び方 (19) ②発現解析(35)● 発現解析・手順書 (1)●【再現・検証】研究者の妻のDRY解析奮闘日記(9)
③疾患ゲノム解析(52)● 疾患ゲノム解析・手順書 (2)●【再現・検証】疾患ゲノム解析実習レポート (7)●【再現・検証】有償ソフトウェアならここまでできます(24)
④エピゲノム解析(ChIP-seq/FAIRE-seq/ATAC-seq) (30)
● エピゲノム解析(ChIP-seq)・手順書(3)●【再現・検証】ウェットなPIのChIP-seqことはじめブログ(8)⑤エピゲノム解析(WGBS) (22)● エピゲノム解析(WGBS)・手順書① (2)●【再現・検証】ギーク女優のWGBSガチ実況 (8)
● エピゲノム解析(WGBS)・手順書② (2)●【再現・検証】担当編集者のつぶやき検証レポート(11)
■Level 3(論文別・作図コマンド解説)A. R pairs.panels (3)B. R vioplot (2)C. R ggplot2 grid (3)D. R rGADEM (4)E. R biomaRt reshape2 ggplot2 grid entropy (4)F. R KEGGgraph (18)G. R trisomy.R (4)H. R edgeR hclust (8)I. R beanplot boxplot barplot IGV (7)J. Perl R ChromHMM IGV (5)K. R python visMut2sp.R (4)L. Velvet Murasaki GMV (5)M. Perl gc_contentSkew Tcl/Tk (3)N. imlib2 distriSNP (4)O. SQLite3 R Ruby Univa Grid Engine (5)
28
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
エクソームデータ再利用解析の実例
DRR006760を例に 1. vcfがある時 2. vcfがない時
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
vcfファイルがある時•共同研究者がすでに作成•自前で作成–フリーウェアを組み合わせて作成可能?
–GATKなどはアカデミックフリー
–for-profitには有償なものが多くなっている
⇒ IVAをウェブインターフェースから利用
30
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
エクソームデータ解析の概略
• https://www.broadinstitute.org/gatk/guide/article?id=3238 より
31
FASTQ
BAM VCF
vcfファイルをアップロードすると…
32
33
validating…
34
active! then analyze
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
IVAでやれること
• https://www.broadinstitute.org/gatk/guide/article?id=3238 より50
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
vcfファイルがない時Biomedical Genomics Workbench(BxWB)
51
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
BxWBいい点、悪い点• FASTQファイルからスタートできる
–vcfファイルを自ら生成しなくていい
• BxWBですべて完結–IVAもBxWBからプラグインで利用できる
•リファレンスゲノムなどすべてダウンロードしてこないといけない
•マッピング等、計算が自前でやるため重い52
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
BxWBを使うワークフロー•トリミング•バリアント検出
•フィルタリング
•ナレッジベースからの情報付加
•候補となったバリアントの精査
Biomedical Genomics Workbench (BxWB)
↓
Ingenuity Variant Analysis (IVA)
↓
Biomedical Genomics Workbench (BxWB)
53
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
IVA+BxWB
• https://www.broadinstitute.org/gatk/guide/article?id=3238 より54
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
詳しい手順は次世代DRY解析本に■Level 2(実践編)③疾患ゲノム解析(52)
● 疾患ゲノム解析・手順書 (2)
●【再現・検証】疾患ゲノム解析実習レポート (7)
!【再現・検証】有償ソフトウェアならここまでできます(24)
55
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
IVAはプラグインとして使える
56
57
58
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
Verification in genome browser
59
© 2015 DBCLS Licensed under CC BY 2.1JAPAN
これからは、生物学者自身がデータ解析する時代なんです
Recommended