1
ホテル阪急エキスポパーク(大阪) 平成 24 5 23 日~25 NGS 現場の会 2 回研究会 Creative Commons Licence ( 表示) のもと、再利用可 Backgrounds (2012-5-15 現在 ) 統計値より 文献より 疾患より データのクオリティより Results and Discussions SRA のデータ構造 NGS もデータベースの横断的な活用へ Future works Corresponding NGS data Publications using NGS O12:公共 NGS データベース Sequence Read Archive における シーケンスクオリティによるデータ検索(大田 )参照 BioProject SRA GEO Project Summary Run data Umbrella Project Study Sample Platform Sample Run data Primary Project Exp Run BioSample Sample TOTAL 11273 3660 Big Project List NGS データも、マイクロアレイのデータが GEO に登録されるのと同様に、公共データベー スである Sequence Read Archive (SRA) に登録 され、日米欧の 3 局でデータ交換がなされてい る。その数は、プロジェクト数でおよそ 11300 (2012 5 月現在 ) に及んでいる。DBCLS では、 DDBJ と連携して登録データに対して、目次作 成、データの傾向分析を行い、NGS データの検 索サイトを構築、提供している。 http://sra.dbcls.jp/ ※ デモしますので発表者   までお気軽に。 SRA に登録された NGS データは、リード(検出 された塩基配列)のほかに、実験情報(プロジェ クト名、機器名、生物種名)がメタデータとし 6 つの XML ファイルの形で記載され、登録 されている。しかしながら、1 つの登録 Submissionにすべてのメタデータが付与され ているわけはない。 今回、これらのメタ情報の関連づけと、情報抽 出を行うことで、目的の SRA エントリにすばや くたどりつくためのエントリ間の整理を行った。 通称 NCBI SRA やめます事件 (2011 2 ) の顛末として、 RNA-Seq 等が、GEO にゲノムデータが DDBJ/GenBank/EMBL 登録されたりと、目的の NGS データを取得するのに、複数のデー タベースを横断的に活用する必要がある。 3 局では、複数のデー タベースを俯瞰するた め、プロジェクトのデー タベースである BioProject と、サンプ ルのデータベースであ BioSample を立ち上 げており、今後、これ らによる統合的な活用 ができるよう、開発を 行っている。 ユーザーのニーズに合わせ、目的別、機器別、 生物種別に SRA に登録されたデータを検索・閲 覧できるサイトを構築した。また、より信頼度 の高いデータにアクセスするため、文献の出て いるデータのリスト化も行った。QC 結果を閲 覧できる鎖鋸システムとも連携しており、今後、 一体的な運用ができるよう改良を行う。 DRA ENA SRA Next generation Sequencer (Sequence Read Archive) Indexing, Trend analysis Public Database データ受け入れ データ交換 連携 検索サービス提供 http://sra.dbcls.jp/ SRAs: the survey of read archives 「使える」SRA データにすばやくたどりつくために Takeru Nakazato *: [email protected] Database Center for Life Science (DBCLS), Res. Org. of Info. and Systems (ROIS) 情報・システム研究機構 ライフサイエンス統合データベースセンター 仲里 猛留 * 大田 達郎、 坊農 秀雅 How to provide quick access to SRA entries of interest Hidemasa Bono Tazro Ohta http://trace.ddbj.nig.ac.jp/dra/documentation.shtml より Study SRR036299 SRX016867 Submission Study Experiment Run Sample Analysis 28790 20258 9553 3995 2407 2146 834 514 491 441 181 123 73 Total (submissions) 70003 SRA010353 Submission Experiment Sample Run SRP001599 Study SRA012004 Submission SRX016866 Experiment SRS010549 Sample SRR36297 Run SRR036393 SRX016903 SRA012014 Submission SRX016902 Experiment SRS010533 Sample SRR36397 Run Study ... 94 撮影

「使える」SRAデータにすばやくたどりつくために …data.dbcls.jp/~nakazato/presentation/ngsfield2012.a4.pdfSRA に登録されたNGS データは、リード(検出

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 「使える」SRAデータにすばやくたどりつくために …data.dbcls.jp/~nakazato/presentation/ngsfield2012.a4.pdfSRA に登録されたNGS データは、リード(検出

ホテル阪急エキスポパーク(大阪)平成 24年 5月 23日~25日

NGS現場の会 第 2回研究会

Creative Commons Licence(表示 ) のもと、再利用可

Backgrounds(2012-5-15 現在 )統計値より

文献より 疾患より

データのクオリティより

Results and Discussions

SRA のデータ構造

NGSもデータベースの横断的な活用へ

Future works

Corresponding NGS dataPublications using NGS

O12:公共 NGSデータベース Sequence Read Archiveにおけるシーケンスクオリティによるデータ検索 (大田 )参照

BioProject

SRA GEO

Project Summary

Run data

Umbrella Project

Study

Sample

Platform

Sample

Run data

Primary Project

Exp

Run

BioSample

Sample

TOTAL

11273

3660

Big Project List

NGSデータも、マイクロアレイのデータがGEOに登録されるのと同様に、公共データベースである Sequence Read Archive (SRA) に登録され、日米欧の 3局でデータ交換がなされている。その数は、プロジェクト数でおよそ 11300

(2012年 5月現在 )に及んでいる。DBCLSでは、DDBJと連携して登録データに対して、目次作成、データの傾向分析を行い、NGSデータの検索サイトを構築、提供している。

http://sra.dbcls.jp/

※ デモしますので発表者   までお気軽に。

SRA に登録された NGSデータは、リード(検出された塩基配列)のほかに、実験情報(プロジェクト名、機器名、生物種名)がメタデータとして 6つの XMLファイルの形で記載され、登録されている。しかしながら、1つの登録(Submission) にすべてのメタデータが付与されているわけはない。今回、これらのメタ情報の関連づけと、情報抽出を行うことで、目的の SRAエントリにすばやくたどりつくためのエントリ間の整理を行った。

通称 NCBI SRA やめます事件 (2011年 2月 ) の顛末として、RNA-Seq等が、GEOにゲノムデータが DDBJ/GenBank/EMBL に登録されたりと、目的の NGSデータを取得するのに、複数のデータベースを横断的に活用する必要がある。

3局では、複数のデータベースを俯瞰するため、プロジェクトのデータベースである

BioProject と、サンプルのデータベースである BioSample を立ち上げており、今後、これらによる統合的な活用ができるよう、開発を行っている。

ユーザーのニーズに合わせ、目的別、機器別、生物種別に SRAに登録されたデータを検索・閲覧できるサイトを構築した。また、より信頼度の高いデータにアクセスするため、文献の出ているデータのリスト化も行った。QC結果を閲覧できる鎖鋸システムとも連携しており、今後、一体的な運用ができるよう改良を行う。

DRA

ENASRA

Next generation Sequencer

(Sequence Read Archive)

Indexing,Trend analysis

Public Databaseデータ受け入れ

データ交換

連携

検索サービス提供

http://sra.dbcls.jp/SRAs: the survey of read archives

「使える」SRAデータにすばやくたどりつくために

Takeru Nakazato

*: [email protected]

Database Center for Life Science (DBCLS), Res. Org. of Info. and Systems (ROIS)

情報・システム研究機構 ライフサイエンス統合データベースセンター 仲里 猛留 *、 大田 達郎、 坊農 秀雅

How to provide quick access to SRA entries of interest

Hidemasa BonoTazro Ohta

http://trace.ddbj.nig.ac.jp/dra/documentation.shtml より

Study

SRR036299

SRX016867

Subm

ission

Stud

yEx

perim

ent

Run

Sam

ple

Analys

is

✓✓✓

✓ ✓

✓✓ ✓✓ ✓

✓✓

✓✓✓✓ ✓✓ ✓✓

✓ ✓

✓ ✓

✓✓

✓✓

✓✓ ✓ ✓

28790

20258

9553

3995

2407

2146

834

514

491

441

181

123

73

Total (submissions) 70003

SRA010353Submission

Experiment

Sample

Run

SRP001599

Study

SRA012004Submission

SRX016866

ExperimentSRS010549

Sample

SRR36297Run

SRR036393

SRX016903

SRA012014Submission

SRX016902

ExperimentSRS010533

Sample

SRR36397Run

Study

...

✓✓ ✓ ✓ 94

撮影可