Licensed under CC-BY 4.0 ©2016 Takeru Nakazato (DBCLS)
東京大学 弥生講堂 一条ホール平成 28年 10月 5日~6日
トーゴーの日シンポジウム 2016
次世代シーケンサー(NGS)と公共データベース 公共NGSデータの現状
DRA
ENA
SRA
(Sequence Read Archive)
分類、
トレンド分析
公共データベース
データ交換
連携
塩基配列が GenBank/ENA/DDBJに登録されたりマイクロアレイのデータが GEOに登録されるのと同様に、NGSデータも公共データベースである Sequence Read Archive (SRA) に登録され、日米欧の 3局でデータ交換がなされている。DBCLSでは、DDBJ と連携し、登録データに対して、目次作成、データの傾向分析を行い、NGS
データの検索サイトである DBCLS SRAを構築、提供している。
NGS
登録
公共NGSデータ検索エンジン DBCLS SRA
その後のデータ解析フロー
BioProject
BioSample
ArrayExpress
もともとマイクロアレイのデータベースであった GEOに NGSの発現解析のデータが登録されるようになったこともあり、プロジェクト情報が BioProjectに、サンプル情報が BioSampleにとデータが分散することになった。現在、これらを融合して横断的に検索・閲覧できるように開発を行っている。
DBCLS SRAでは目的や機器から公共 NGSデータの検索が行える。また、非モデル生物のための検索や文献からの検索も行える。いくつかのデータについては QCの結果も閲覧可能である。
参考文献
Experimental design-based functional mining and characterization of
high-throughput sequencing data in the Sequence Read Archive.
Nakazato T., Ohta T., Bono H.,
PLOS One, 8 (10): e77910 (2013)
PMID: 24167589
超並列シーケンサ(NGS)は今や生命科学分野で必要不可欠な技術となっており、その公共データベースであるSequence Read Archive (SRA) も登場から10年近くが経過した現在は3500兆塩基対(≒3.5PB)のデータを収載するまでに成長した。DBCLSではこのような大規模データの取扱いに早くから注目し、効率良い再利用のために目次サイトであるDBCLS SRA (http://sra.dbcls.jp/)の構築・運用を行ってきた。DBCLS SRAでは、目的や機器、生物種別に登録データを検索することが可能である。加えて疾患からの検索、非モデル生物種データの検索機能も充実させた。また、2010年より登録件数の推移を統計情報として公開しており、NGS機器の栄枯盛衰を垣間見ることができる。最近は、遺伝子発現データがGEOにも登録されるなど、他のデータベースにもまたがる登録が増えており、それらを横断的に検索するためDDBJと協力してプロジェクトやサンプルのデータベースであるBioProjectやBioSampleとの連携を進めている。
NGS技術の進展と登録データThe progress of NGS technology and its public database, sequence read archive (SRA)
情報・システム研究機構 (ROIS) データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター (DBCLS)Database Center for Life Science (DBCLS), Joint Support-Center for Data Science Research, Research Organization of Information and Systems (ROIS), JAPAN
◎ 登録状況(目的別)
◎ 登録状況(データ量)
◎ 登録状況(機器別)
◎ 今後の展開
11-0
111
-07
12-0
112
-07
13-0
113
-07
14-0
114
-07
15-0
115
-07
16-0
116
-07
0k
25k
50k
75k
100k
125k
600k
IlluminaGA II
IlluminaHiSeq 2000
IlluminaMiSeq
Total 1317530
Illumina HiSeq 2000 680492
Illumina MiSeq 126689
454 GS FLX Titanium 101720
Illumina
Genome Analyzer II
90869
Illumina
HiSeq 2500
90521
Ion Torrent PGM 11892
PacBio RS II 5861
PacBio RS 4343
Helicos HeliScope 3830
Complete Genomics
3389NextSeq 500
2972
Ion Torrent Proton
MinION 122
......
......
...
1113
11-0
111
-07
12-0
112
-07
13-0
113
-07
14-0
114
-07
15-0
115
-07
16-0
116
-07
0k
20k
40k
60k
80k
Whole Genome SeqTranscriptome AnalysisMetagenomicsEpigeneticsReseqOtherRNASeqPopulation GenomicsGene Reg StudyCancer GenomicsExome SeqSynthetic GenomicsForensic or Paleo-genomicsPooled Clone SeqTOTAL
TOTAL
3660
78264
種名 or Taxonomy ID入力
下位概念も検索するときはチェック
下位概念も検索されるように
上位概念にも容易にアクセス可
その先の解析はこのあたりの本で。(統合TVにも 講義等の動画あり)
SRA
Mappingde novo assemble
Quality check
Database search
Downloadown data
Exp analysis SNP detectionGenome
http://sra.dbcls.jp/FREE!
https://trace.ncbi.nlm.nih.gov/Traces/sra/
Tazro Ohta Hidemasa Bono
坊農 秀雅大田 達郎仲里 猛留Takeru Nakazato
@chalkless
撮影可
Creative Commons Licence(表示 ) のもと、再利用可