1
9. DDBJ サービス 慶範・青野英雄・大城戸利久・児玉悠一・小菅武英・杉田里江・鈴木紀美子・高木佳苗・ 筒井波留・時松敏明・秦千比呂・福田亜沙美・真島 淳・三村公子・横山会美 NCBI および EBI と国際塩基配列データベース(INSDC)を協同運営する DDBJ は、遺伝研スーパーコンピュータを基盤として生命科学研究から産 み出されるデータの登録・共有・解析サービスを提供している。今年 3 月には遺伝研スパコンを一新し、ゲノム解析環境を強化した Singularity ンテナ、個人ゲノム解析に対応した区画、データサイズの増加に対応する階層ストレージを導入した。DDBJ が運営するサービスには、アノテー ションを付与/アセンブルした塩基配列データ:NSSS MSS、次世代シークエンスデータ:DRA、機能ゲノミクスデータ:GEA、アクセス制限の ある個人ゲノムデータ:JGA、研究プロジェクト・サンプルのデータ:BioProjectBioSample がある。国際的には Genomic Standards Consortium GSC)のメンバーとして様々なタイプのゲノムの記述に関するガイドライン制定にも貢献している。今後はメタボローム情報にも対応予定であ り、スパコンに併設された一次データリポジトリとして国内外のデータサイエンス推進に貢献している。 要約 大学共同利用機関法人 情報・システム研究機構 国立遺伝学研究所 生命情報・DDBJセンター 〒411-8540 静岡県三島市谷田1111 問い合わせ:https://www.ddbj.nig.ac.jp/contact.html Creative Commons 表示4.0国際ライセンス + Assembly + Annotation e.g. WGS, CON, TSA etc. e.g. 16S rRNA, EST etc. e.g. complete genome DDBJ Nucleotide Sequence Submission System http://www.ddbj.nig.ac.jp/sub/websub-e.html Mass Submission System http://www.ddbj.nig.ac.jp/sub/mss_flow-e.html Interactive nucleotide sequence submission system via WWW Kosuge,T. et al. Nucl. Acids Res.(2014) 42(D1):D44-D49 - multi-FASTA format - authenticated submission system based on e-mail - flexible input system - specialized templates such as 16S rRNA, CDS, D-loop etc. 6.Issue Accession No. 1.MSS Request 2.Introduce how to use MSS 3.BioProject BioSample 4. Submission files 5. Check by annotators UME check tool - large-scale sequences - multiple nucleotide sequences - complex or many features - FASTA file + Annotation file +Annotation file +Sequence file (+)AGP file(CON) (submitter) (submitter) (submitter) - Genome-level data - Transcriptome Shotgun Assembly (TSA) For large-scale data WGS, CON, EST, TSA, complete genome etc. アノテーションを付与した/アセンブルした塩基配列 Nucleotide Sequence Submission System Mass Submission System DDBJ Sequence Read Archive Tag counting Peak calling Functional genomics data Gene expression, epigenetics and microarray etc 今年 3 月には遺伝研スパコンを一新 ゲノム解析環境を強化 - Singularity コンテナ - 個人ゲノム解析に対応した区画 階層ストレージ -データサイズの増加に対応する BioSample 1 BioSample 2 data Umbrella BioProject Genome BioProject Transcriptome BioProject Epigenome BioProject data data data data data 次世代シークエンサからの出力データ とアライメントデータの登録 controlled- access database Register a BioProject Register raw sequencing data files to DRA Upload processed data files to GEA Select a BioProject and DRA submission(s) Prepare IDF and SDRF Submit IDF and SDRF Microarray experiment submission workflow Sequencing experiment submission workflow Register BioSample(s) Register a BioProject Upload raw and processed data files to GEA Select a BioProject and BioSample(s) Prepare IDF and SDRF Submit IDF and SDRF Register BioSample(s) GEA GEA Genomic Expression Archive BioProject PRJD • プロジェクト情報 • 研究費情報 • 文献情報 データファイル (fastq, BAM) 赤字: アクセッション番号プレフィックス Sequence Read Archive BioProject BioSample BioSample SAMD BioSample SAMD • サンプル情報 • Taxonomy ID BioSample SAMD Run DRR Run DRR • データファイル指定 Run DRR • ライブラリー情報 • シークエンサの機種 Experiment DRX (従来の DRA Sample) (従来の DRA Study) GEA epigenetics Complete genome WGS 16S rRNA 遺伝子発現、機能ゲノミクスデータ 登録者 データ提供を申請 NBDC JGA 登録アカウント 承認 、登録アカウント発行 専用ツールでデータを暗号化し、アップロード 利用者 データ利用を申請 承認、利用アカウント発行 利用アカウント 専用ツールでデータをダウンロードし、復号化 セキュアエリア 再暗号化 概要を公開し、JGA で利用できる データ一覧を表示 メタデータ+データ # メタデータは専用エクセルファイルで作成 高速にダウンロード 個人ゲノム解析環境 スパコンにログイン 専用ツールでダウンロード、復号化 Raw reads alignment data CDS アクセス制限 NSSS MSS JGA DRA Japanese Genotype-phenotype Archive 個人レベルの遺伝学的なデータ 匿名化表現型情報を保存・提供 JVar 準備中 MetaboBank 準備中 BioProject 研究プロジェクト BioSample サンプルのデータ メタボローム情報 Japan Variation Database Transcriptome TSA TLS CON SFF format BAM file NGS Run Reviewer access ChIP Biological Feature Fasta file Annotation file Protein リード Quality value アライメント 次世代シークエンス生データとアライメント情報 GEA ArrayExpress OmicsDI metadata index

9. DDBJ サービス - biosciencedbc.jp · 2019-11-05 · 9. ddbj サービス 李 慶範・青野英雄・大城戸利久・児玉悠一・小菅武英・杉田里江・鈴木紀美子・高木佳苗・

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 9. DDBJ サービス - biosciencedbc.jp · 2019-11-05 · 9. ddbj サービス 李 慶範・青野英雄・大城戸利久・児玉悠一・小菅武英・杉田里江・鈴木紀美子・高木佳苗・

9. DDBJ サービス李 慶範・青野英雄・大城戸利久・児玉悠一・小菅武英・杉田里江・鈴木紀美子・高木佳苗・

筒井波留・時松敏明・秦千比呂・福田亜沙美・真島 淳・三村公子・横山会美

NCBI および EBI と国際塩基配列データベース(INSDC)を協同運営する DDBJ は、遺伝研スーパーコンピュータを基盤として生命科学研究から産み出されるデータの登録・共有・解析サービスを提供している。今年 3 月には遺伝研スパコンを一新し、ゲノム解析環境を強化した Singularity コンテナ、個人ゲノム解析に対応した区画、データサイズの増加に対応する階層ストレージを導入した。DDBJ が運営するサービスには、アノテーションを付与/アセンブルした塩基配列データ:NSSS と MSS、次世代シークエンスデータ:DRA、機能ゲノミクスデータ:GEA、アクセス制限のある個人ゲノムデータ:JGA、研究プロジェクト・サンプルのデータ:BioProject・BioSample がある。国際的には Genomic Standards Consortium(GSC)のメンバーとして様々なタイプのゲノムの記述に関するガイドライン制定にも貢献している。今後はメタボローム情報にも対応予定であり、スパコンに併設された一次データリポジトリとして国内外のデータサイエンス推進に貢献している。

要約

大学共同利用機関法人 情報・システム研究機構 国立遺伝学研究所 生命情報・DDBJセンター〒411-8540静岡県三島市谷田1111 問い合わせ:https://www.ddbj.nig.ac.jp/contact.html

Creative Commons 表示4.0国際ライセンス

+ Assembly

+ Annotation

e.g. WGS, CON, TSA etc.e.g. 16S rRNA, EST etc.

e.g. complete genome

DDBJ Nucleotide Sequence

Submission Systemhttp://www.ddbj.nig.ac.jp/sub/websub-e.html

Mass Submission Systemhttp://www.ddbj.nig.ac.jp/sub/mss_flow-e.html

Interactive nucleotide sequence

submission system via WWW

Kosuge,T. et al. Nucl. Acids Res.(2014) 42(D1):D44-D49

- multi-FASTA format

- authenticated submission system based on e-mail

- flexible input system

- specialized templates such as 16S rRNA, CDS, D-loop etc.

6.Issue Accession No.

1.MSSRequest

2.Introduce how to use MSS

3.BioProject

BioSample

4. Submission files

5. Check by annotators

UME check tool

- large-scale sequences

- multiple nucleotide sequences

- complex or many features

- FASTA file + Annotation file+Annotation file

+Sequence file

(+)AGP file(CON)

(submitter)

(submitter)

(submitter)

- Genome-level data

- Transcriptome Shotgun Assembly (TSA)

For large-scale data

WGS, CON, EST, TSA, complete genome etc.

アノテーションを付与した/アセンブルした塩基配列

Nucleotide Sequence Submission System Mass Submission System

DDBJ Sequence Read Archive

Tag counting

Peak calling

Functional

genomics data

Gene expression, epigenetics and microarray etc

今年 3 月には遺伝研スパコンを一新 ゲノム解析環境を強化

- Singularity コンテナ- 個人ゲノム解析に対応した区画

階層ストレージ-データサイズの増加に対応する

BioSample 1 BioSample 2

data

Umbrella BioProject

GenomeBioProject

TranscriptomeBioProject

EpigenomeBioProject

data data data data data

次世代シークエンサからの出力データとアライメントデータの登録

con

trolle

d-

access

datab

ase

Register a BioProject

Register raw sequencing data files to DRA

Upload processed data files to GEA

Select a BioProject and DRA submission(s)

Prepare IDF and SDRF

Submit IDF and SDRF

Microarray experiment submission workflow Sequencing experiment submission workflow

Register BioSample(s)

Register a BioProject

Upload raw and processed data files to GEA

Select a BioProject and BioSample(s)

Prepare IDF and SDRF

Submit IDF and SDRF

Register BioSample(s)

GEAGEA

Genomic Expression Archive

BioProject PRJD

• プロジェクト情報

• 研究費情報

• 文献情報

データファイル (fastq, BAM)

赤字: アクセッション番号プレフィックス

Sequence Read Archive

BioProject BioSample

BioSample SAMD

BioSample SAMD

• サンプル情報

• Taxonomy ID

BioSample SAMD

Run DRR

Run DRR

• データファイル指定

Run DRR

• ライブラリー情報

• シークエンサの機種

Experiment DRX

(従来の DRA Sample)(従来の DRA Study)

GEA

epigenetics

Completegenome

WGS 16S rRNA

遺伝子発現、機能ゲノミクスデータ

登録者

データ提供を申請

NBDC

JGA

登録アカウント

承認 、登録アカウント発行

専用ツールでデータを暗号化し、アップロード

利用者

データ利用を申請

承認、利用アカウント発行

利用アカウント

専用ツールでデータをダウンロードし、復号化

セキュアエリア

再暗号化

概要を公開し、JGA で利用できるデータ一覧を表示

メタデータ+データ

# メタデータは専用エクセルファイルで作成

高速にダウンロード

個人ゲノム解析環境

スパコンにログイン専用ツールでダウンロード、復号化

Rawreads

alignment data

CDS

アクセス制限

NSSSMSS

JGA

DRA

Japanese Genotype-phenotype Archive

個人レベルの遺伝学的なデータ匿名化表現型情報を保存・提供

JVar準備中

MetaboBank準備中

BioProject研究プロジェクト

BioSampleサンプルのデータ

メタボローム情報

Japan Variation Database

Transcriptome

TSA

TLS

CONSFF

form

at

BAM file

NGSRun

Reviewer access

ChIP

BiologicalFeature

Fastafile Annotation

file

Protein

リード

Quality value

アライメント

次世代シークエンス生データとアライメント情報

GEAArrayExpress

OmicsDI

metadata index