1
Licensed under CC-BY 4.0 ©2016 Takeru Nakazato (DBCLS) 東京大学 弥生講堂 一条ホール 平成 28 10 5 日~6 トーゴーの日シンポジウム 2016 次世代シーケンサー(NGS)と公共データベース 公共NGSデータの現状 DRA ENA SRA (Sequence Read Archive) 分類、 トレンド分析 公共データベース データ交換 連携 塩基配列が GenBank/ENA/DDBJ に登録されたりマイクロアレイの データが GEO に登録されるのと同様に、NGS データも公共デー タベースである Sequence Read Archive (SRA) に登録され、日米欧 3 局でデータ交換がなされている。 DBCLS では、 DDBJ と連携し、 登録データに対して、目次作成、データの傾向分析を行い、NGS データの検索サイトである DBCLS SRA を構築、提供している。 NGS 登録 公共NGSデータ検索エンジン DBCLS SRA その後のデータ解析フロー BioProject BioSample ArrayExpress もともとマイクロアレイのデータベースであった GEO NGS 発現解析のデータが登録されるようになったこともあり、プロ ジェクト情報が BioProject に、サンプル情報が BioSample にと データが分散することになった。現在、これらを融合して横断的 に検索・閲覧できるように開発を行っている。 DBCLS SRA では目的や機器から公共 NGS データの検索が行える。 また、非モデル生物のための検索や文献からの検索も行える。 いくつかのデータについては QC の結果も閲覧可能である。 参考文献 Experimental design-based functional mining and characterization of high-throughput sequencing data in the Sequence Read Archive. Nakazato T., Ohta T., Bono H., PLOS One, 8 (10): e77910 (2013) PMID: 24167589 超並列シーケンサ(NGS)は今や生命科学分野で必要不可欠な技術となっており、その公共データベースであるSequence Read Archive (SRA) も登場から10年近くが 経過した現在は3500兆塩基対(≒3.5PB)のデータを収載するまでに成長した。DBCLSではこのような大規模データの取扱いに早くから注目し、効率良い再利用のた めに目次サイトであるDBCLS SRA (http://sra.dbcls.jp/)の構築・運用を行ってきた。DBCLS SRAでは、目的や機器、生物種別に登録データを検索することが可能であ る。加えて疾患からの検索、非モデル生物種データの検索機能も充実させた。また、2010年より登録件数の推移を統計情報として公開しており、NGS機器の栄枯盛衰 を垣間見ることができる。最近は、遺伝子発現データがGEOにも登録されるなど、他のデータベースにもまたがる登録が増えており、それらを横断的に検索するため DDBJと協力してプロジェクトやサンプルのデータベースであるBioProjectBioSampleとの連携を進めている。 NGS技術の進展と登録データ The progress of NGS technology and its public database, sequence read archive (SRA) 情報・システム研究機構 (ROIS) データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター (DBCLS) Database Center for Life Science (DBCLS), Joint Support-Center for Data Science Research, Research Organization of Information and Systems (ROIS), JAPAN ◎ 登録状況(目的別) ◎ 登録状況(データ量) ◎ 登録状況(機器別) ◎ 今後の展開 11-01 11-07 12-01 12-07 13-01 13-07 14-01 14-07 15-01 15-07 16-01 16-07 0k 25k 50k 75k 100k 125k 600k Illumina GA II Illumina HiSeq 2000 Illumina MiSeq Total 1317530 Illumina HiSeq 2000 680492 Illumina MiSeq 126689 454 GS FLX Titanium 101720 Illumina Genome Analyzer II 90869 Illumina HiSeq 2500 90521 Ion Torrent PGM 11892 PacBio RS II 5861 PacBio RS 4343 Helicos HeliScope 3830 Complete Genomics 3389 NextSeq 500 2972 Ion Torrent Proton MinION 122 ... ... ... ... ... 1113 11-01 11-07 12-01 12-07 13-01 13-07 14-01 14-07 15-01 15-07 16-01 16-07 0k 20k 40k 60k 80k Whole Genome Seq Transcriptome Analysis Metagenomics Epigenetics Reseq Other RNASeq Population Genomics Gene Reg Study Cancer Genomics Exome Seq Synthetic Genomics Forensic or Paleo-genomics Pooled Clone Seq TOTAL TOTAL 3660 78264 種名 or Taxonomy ID 入力 下位概念も 検索するときは チェック 下位概念も 検索されるように 上位概念にも 容易にアクセス可 その先の解析は このあたりの本で。 (統合 TV にも 講義等の動画あり) SRA Mapping de novo assemble Quality check Database search Download own data Exp analysis SNP detection Genome http://sra.dbcls.jp/ FREE! https://trace.ncbi.nlm.nih.gov/Traces/sra/ Tazro Ohta Hidemasa Bono 坊農 秀雅 大田 達郎 仲里 猛留 Takeru Nakazato [email protected] @chalkless 撮影 Creative Commons Licence ( 表示) のもと、再利用可

NGS技術の進展と登録データ - biosciencedbc.jp...Licensed under CC-BY 4.0 ©2016 Takeru Nakazato (DBCLS) 東京大学 弥生講堂 一条ホール 平成28 年10 月5 日~6

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: NGS技術の進展と登録データ - biosciencedbc.jp...Licensed under CC-BY 4.0 ©2016 Takeru Nakazato (DBCLS) 東京大学 弥生講堂 一条ホール 平成28 年10 月5 日~6

Licensed under CC-BY 4.0 ©2016 Takeru Nakazato (DBCLS)

東京大学 弥生講堂 一条ホール平成 28年 10月 5日~6日

トーゴーの日シンポジウム 2016

次世代シーケンサー(NGS)と公共データベース 公共NGSデータの現状

DRA

ENA

SRA

(Sequence Read Archive)

分類、

トレンド分析

公共データベース

データ交換

連携

塩基配列が GenBank/ENA/DDBJに登録されたりマイクロアレイのデータが GEOに登録されるのと同様に、NGSデータも公共データベースである Sequence Read Archive (SRA) に登録され、日米欧の 3局でデータ交換がなされている。DBCLSでは、DDBJ と連携し、登録データに対して、目次作成、データの傾向分析を行い、NGS

データの検索サイトである DBCLS SRAを構築、提供している。

NGS

登録

公共NGSデータ検索エンジン DBCLS SRA

その後のデータ解析フロー

BioProject

BioSample

ArrayExpress

もともとマイクロアレイのデータベースであった GEOに NGSの発現解析のデータが登録されるようになったこともあり、プロジェクト情報が BioProjectに、サンプル情報が BioSampleにとデータが分散することになった。現在、これらを融合して横断的に検索・閲覧できるように開発を行っている。

DBCLS SRAでは目的や機器から公共 NGSデータの検索が行える。また、非モデル生物のための検索や文献からの検索も行える。いくつかのデータについては QCの結果も閲覧可能である。

参考文献

Experimental design-based functional mining and characterization of

high-throughput sequencing data in the Sequence Read Archive.

Nakazato T., Ohta T., Bono H.,

PLOS One, 8 (10): e77910 (2013)

PMID: 24167589

超並列シーケンサ(NGS)は今や生命科学分野で必要不可欠な技術となっており、その公共データベースであるSequence Read Archive (SRA) も登場から10年近くが経過した現在は3500兆塩基対(≒3.5PB)のデータを収載するまでに成長した。DBCLSではこのような大規模データの取扱いに早くから注目し、効率良い再利用のために目次サイトであるDBCLS SRA (http://sra.dbcls.jp/)の構築・運用を行ってきた。DBCLS SRAでは、目的や機器、生物種別に登録データを検索することが可能である。加えて疾患からの検索、非モデル生物種データの検索機能も充実させた。また、2010年より登録件数の推移を統計情報として公開しており、NGS機器の栄枯盛衰を垣間見ることができる。最近は、遺伝子発現データがGEOにも登録されるなど、他のデータベースにもまたがる登録が増えており、それらを横断的に検索するためDDBJと協力してプロジェクトやサンプルのデータベースであるBioProjectやBioSampleとの連携を進めている。

NGS技術の進展と登録データThe progress of NGS technology and its public database, sequence read archive (SRA)

情報・システム研究機構 (ROIS) データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター (DBCLS)Database Center for Life Science (DBCLS), Joint Support-Center for Data Science Research, Research Organization of Information and Systems (ROIS), JAPAN

◎ 登録状況(目的別)

◎ 登録状況(データ量)

◎ 登録状況(機器別)

◎ 今後の展開

11-0

111

-07

12-0

112

-07

13-0

113

-07

14-0

114

-07

15-0

115

-07

16-0

116

-07

0k

25k

50k

75k

100k

125k

600k

IlluminaGA II

IlluminaHiSeq 2000

IlluminaMiSeq

Total 1317530

Illumina HiSeq 2000 680492

Illumina MiSeq 126689

454 GS FLX Titanium 101720

Illumina

Genome Analyzer II

90869

Illumina

HiSeq 2500

90521

Ion Torrent PGM 11892

PacBio RS II 5861

PacBio RS 4343

Helicos HeliScope 3830

Complete Genomics

3389NextSeq 500

2972

Ion Torrent Proton

MinION 122

......

......

...

1113

11-0

111

-07

12-0

112

-07

13-0

113

-07

14-0

114

-07

15-0

115

-07

16-0

116

-07

0k

20k

40k

60k

80k

Whole Genome SeqTranscriptome AnalysisMetagenomicsEpigeneticsReseqOtherRNASeqPopulation GenomicsGene Reg StudyCancer GenomicsExome SeqSynthetic GenomicsForensic or Paleo-genomicsPooled Clone SeqTOTAL

TOTAL

3660

78264

種名 or Taxonomy ID入力

下位概念も検索するときはチェック

下位概念も検索されるように

上位概念にも容易にアクセス可

その先の解析はこのあたりの本で。(統合TVにも 講義等の動画あり)

SRA

Mappingde novo assemble

Quality check

Database search

Downloadown data

Exp analysis SNP detectionGenome

http://sra.dbcls.jp/FREE!

https://trace.ncbi.nlm.nih.gov/Traces/sra/

Tazro Ohta Hidemasa Bono

坊農 秀雅大田 達郎仲里 猛留Takeru Nakazato

[email protected]

@chalkless

撮影可

Creative Commons Licence(表示 ) のもと、再利用可