Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
9. DDBJ サービス李 慶範・青野英雄・大城戸利久・児玉悠一・小菅武英・杉田里江・鈴木紀美子・高木佳苗・
筒井波留・時松敏明・秦千比呂・福田亜沙美・真島 淳・三村公子・横山会美
NCBI および EBI と国際塩基配列データベース(INSDC)を協同運営する DDBJ は、遺伝研スーパーコンピュータを基盤として生命科学研究から産み出されるデータの登録・共有・解析サービスを提供している。今年 3 月には遺伝研スパコンを一新し、ゲノム解析環境を強化した Singularity コンテナ、個人ゲノム解析に対応した区画、データサイズの増加に対応する階層ストレージを導入した。DDBJ が運営するサービスには、アノテーションを付与/アセンブルした塩基配列データ:NSSS と MSS、次世代シークエンスデータ:DRA、機能ゲノミクスデータ:GEA、アクセス制限のある個人ゲノムデータ:JGA、研究プロジェクト・サンプルのデータ:BioProject・BioSample がある。国際的には Genomic Standards Consortium(GSC)のメンバーとして様々なタイプのゲノムの記述に関するガイドライン制定にも貢献している。今後はメタボローム情報にも対応予定であり、スパコンに併設された一次データリポジトリとして国内外のデータサイエンス推進に貢献している。
要約
大学共同利用機関法人 情報・システム研究機構 国立遺伝学研究所 生命情報・DDBJセンター〒411-8540静岡県三島市谷田1111 問い合わせ:https://www.ddbj.nig.ac.jp/contact.html
Creative Commons 表示4.0国際ライセンス
+ Assembly
+ Annotation
e.g. WGS, CON, TSA etc.e.g. 16S rRNA, EST etc.
e.g. complete genome
DDBJ Nucleotide Sequence
Submission Systemhttp://www.ddbj.nig.ac.jp/sub/websub-e.html
Mass Submission Systemhttp://www.ddbj.nig.ac.jp/sub/mss_flow-e.html
Interactive nucleotide sequence
submission system via WWW
Kosuge,T. et al. Nucl. Acids Res.(2014) 42(D1):D44-D49
- multi-FASTA format
- authenticated submission system based on e-mail
- flexible input system
- specialized templates such as 16S rRNA, CDS, D-loop etc.
6.Issue Accession No.
1.MSSRequest
2.Introduce how to use MSS
3.BioProject
BioSample
4. Submission files
5. Check by annotators
UME check tool
- large-scale sequences
- multiple nucleotide sequences
- complex or many features
- FASTA file + Annotation file+Annotation file
+Sequence file
(+)AGP file(CON)
(submitter)
(submitter)
(submitter)
- Genome-level data
- Transcriptome Shotgun Assembly (TSA)
For large-scale data
WGS, CON, EST, TSA, complete genome etc.
アノテーションを付与した/アセンブルした塩基配列
Nucleotide Sequence Submission System Mass Submission System
DDBJ Sequence Read Archive
Tag counting
Peak calling
Functional
genomics data
Gene expression, epigenetics and microarray etc
今年 3 月には遺伝研スパコンを一新 ゲノム解析環境を強化
- Singularity コンテナ- 個人ゲノム解析に対応した区画
階層ストレージ-データサイズの増加に対応する
BioSample 1 BioSample 2
data
Umbrella BioProject
GenomeBioProject
TranscriptomeBioProject
EpigenomeBioProject
data data data data data
次世代シークエンサからの出力データとアライメントデータの登録
con
trolle
d-
access
datab
ase
Register a BioProject
Register raw sequencing data files to DRA
Upload processed data files to GEA
Select a BioProject and DRA submission(s)
Prepare IDF and SDRF
Submit IDF and SDRF
Microarray experiment submission workflow Sequencing experiment submission workflow
Register BioSample(s)
Register a BioProject
Upload raw and processed data files to GEA
Select a BioProject and BioSample(s)
Prepare IDF and SDRF
Submit IDF and SDRF
Register BioSample(s)
GEAGEA
Genomic Expression Archive
BioProject PRJD
• プロジェクト情報
• 研究費情報
• 文献情報
データファイル (fastq, BAM)
赤字: アクセッション番号プレフィックス
Sequence Read Archive
BioProject BioSample
BioSample SAMD
BioSample SAMD
• サンプル情報
• Taxonomy ID
BioSample SAMD
Run DRR
Run DRR
• データファイル指定
Run DRR
• ライブラリー情報
• シークエンサの機種
Experiment DRX
(従来の DRA Sample)(従来の DRA Study)
GEA
epigenetics
Completegenome
WGS 16S rRNA
遺伝子発現、機能ゲノミクスデータ
登録者
データ提供を申請
NBDC
JGA
登録アカウント
承認 、登録アカウント発行
専用ツールでデータを暗号化し、アップロード
利用者
データ利用を申請
承認、利用アカウント発行
利用アカウント
専用ツールでデータをダウンロードし、復号化
セキュアエリア
再暗号化
概要を公開し、JGA で利用できるデータ一覧を表示
メタデータ+データ
# メタデータは専用エクセルファイルで作成
高速にダウンロード
個人ゲノム解析環境
スパコンにログイン専用ツールでダウンロード、復号化
Rawreads
alignment data
CDS
アクセス制限
NSSSMSS
JGA
DRA
Japanese Genotype-phenotype Archive
個人レベルの遺伝学的なデータ匿名化表現型情報を保存・提供
JVar準備中
MetaboBank準備中
BioProject研究プロジェクト
BioSampleサンプルのデータ
メタボローム情報
Japan Variation Database
Transcriptome
TSA
TLS
CONSFF
form
at
BAM file
NGSRun
Reviewer access
ChIP
BiologicalFeature
Fastafile Annotation
file
Protein
リード
Quality value
アライメント
次世代シークエンス生データとアライメント情報
GEAArrayExpress
OmicsDI
metadata index