25
Mass Submission System 紹介 DDBJ annotator 30DDBJing 講習会 (DDBJ)

[DDBJing30] Mass Submission System の紹介

Embed Size (px)

Citation preview

Mass  Submission  System  紹介

DDBJ  annotator  李 慶 範

第30回 DDBJing  講習会 (DDBJ)

NGS data (raw reads)

+ Assembly + Annotation

Sanger data

e.g. WGS, CON, TSA etc. e.g. 16S rRNA, EST etc.

e.g. complete genome

DDBJ Data Submission

DDBJ Trace Archive (DTA)

http://trace.ddbj.nig.ac.jp/dta/index_e.html

DDBJ Sequence Read Archive (DRA)

http://trace.ddbj.nig.ac.jp/dra/index_e.html

DDBJ Nucleotide Sequence Submission System

http://www.ddbj.nig.ac.jp/sub/websub-e.html

Mass Submission System http://www.ddbj.nig.ac.jp/sub/mss_flow-e.html

Interactive nucleotide sequence submission system via WWW

Raw outputs

Kosuge,T. et al. Nucl. Acids Res.(2014) 42(D1):D44-D49

- multi-FASTA format - authenticated submission system based on e-mail - flexible input system - specialized templates such as 16S rRNA, CDS, D-loop etc.

6.Issue  Accession  

No.

1.MSS  Request  

2.Introduce  how  to  use  

MSS

3.BioProject          BioSample    

4.  Submission  files

5.  Check  by  annotators

UME check tool

- large-scale sequences - multiple nucleotide sequences - complex or many features - FASTA file + Annotation file +Annotation file

+Sequence file (+)AGP file(CON)

(submitter)

(submitter)

(submitter)

- Genome-level data - Transcriptome Shotgun Assembly (TSA)

For large-scale data

WGS, CON, EST, TSA, complete genome etc.

1

raw  reads

次世代シークエンサ(NGS)の Genomic  DNA

Assembly(overlapping)  

個々に登録された一連の配列データを相互に  結合し,  より長い配列を構築  (superconJg,  scaffoldconJg)

WGS  data conJg(overlapping  reads)  配列

Sequencing  gap  を用いた断片配列の連結構造

Complete  genome

Finished 配列

CON  data gap gap

・WGS  (Whole  Genome  Shotgun)  

-­‐  冗長な raw  reads  をつなぎ合わせた con6g(overlapping  reads) -­‐  CDS  等のアノテーションの記載が可能/未記載も登録可能 -­‐  "アノテーションファイル +  配列ファイル"  

・CON  division  

-­‐ 個々に登録された一連の配列データ(WGS  または HTG  データ)を  sequencing  gap  を用い相互に結合し、再構築したデータ -­‐  CDS  等のアノテーションの記載が可能/未記載も登録可能 -­‐  "アノテーションファイル +  AGP  ファイル"  +  op6on(配列ファイル)  

・Complete  genome  sequence    (Taxonomic  Division)  

-­‐  配列解析を Finishing  したデータ -­‐  CDS,tRNA,rRNA等のアノテーションに /locus_tag  の使用 -­‐  "アノテーションファイル +  配列ファイル"  

Genome-level data 概要

MSS  submission

DDBJ  Sequence  Read  Archive  (DRA)

MSS  submission

第30回 DDBJing  講習会 (DDBJ) 2

raw  reads

新型シーケンサー 由来の Genomic  DNA

Assembly  

TSA  data

conJg(overlapping)  配列

Transcriptome  Shotgun  Assembly  (TSA)  data  概要

MSS  submission

再構成された (assembled) mRNA 配列

EST  data cDNA1

cDNA2 cDNA3

TSA contig1

TSA contig2 TSA contig3

-­‐  先立ってアセンブリの元となる1次転写産物 (primary  transcripts)の配列データ(プライマリーエントリ)が DDBJ/EMBL-­‐Bank/GenBank  の EST  division,DDBJ  Trace  Archive,DDBJ  Sequence  Read  Archive  (DRA)  の何れかに登録されている必要がある (注意);プライマリーエントリが TSA  登録者と異なる登録者に帰属する配列データである場合は,TPA  (Third  Party  Annota6on)  

http://www.ddbj.nig.ac.jp/sub/tsa-j.html

MSS  submission

DRA

MSS  submission

第30回 DDBJing  講習会 (DDBJ) 3

DDBJ  Submission  System

http://www.ddbj.nig.ac.jp/index-j.html

アノテーションをつけた塩基配列の登録

http://www.ddbj.nig.ac.jp/submission_general-j.html

・DDBJ Nucleotide Sequence Submission System (Web経由の塩基配列登録システム)

・Mass Submission System (MSS)

第30回 DDBJing  講習会 (DDBJ) 4

MSS  利用案内 1  

Mass  Submission  System

http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html

登録予定データが,件数が多い,多数の Feature を持つ,配列が長大,などの場合や,web経由の登録システムが対応していないデータ(例:WGS)の登録

特徴  

・定型化したテキストファイルの利用による登録    -­‐ 登録に必要なアノテーションファイルと配列ファイル          -­‐>  登録者側で作成(テキストファイル)          -­‐> スクリプト、(MS  Excel  などの)  表計算ソフト、   テキストエディタ等を使用    -­‐ 作成したファイルは、 ソフトウェアツールでチェック UME  (UJliJes  for  MSS  file  Errorcheck)                                    Paser/transChecker  

・データ転送が簡便(Eメール、D-way 経由) ・大規模データの登録向き

受付対象のデータ  

・エントリ数(登録する配列の数)が多い 例:  大規模転写物(EST,  HTC,  TSA) ,  ゲノム断片(GSS,  HTG), 特定の遺伝子や領域(16S  rRNA,  ITS-­‐rRNA  など)

・1エントリあたり,多数(概ね30以上)のBiological  Feature 例:  オルガネラゲノム,プラスミド全長など

・配列が長大 (概ね 500  kbp  以上)      例:  全ゲノム規模データ,遺伝子クラスターなど

・塩基配列登録システムが対応していない登録 例: WGS,CONなど

第30回 DDBJing  講習会 (DDBJ) 5

MSS  利用案内 2  

6.アクセッション  

番号発行

1.登録依頼

2.MSS  利用案内 登録案内

3.BioProject    

     BioSample    

登録

4.登録ファイル作成

5.査定作業

MSS

UME  check  tool

+AnnotaJon  file  +Sequence  file  (+)AGP  file  (for  CON)  

-­‐ 登録ファイルフォーマットチェックツール  

データ公開・公開待ち

データ公開・共有

MSS  submission  flow

登録者  塩基配列解析データ

BP/BS  登録対象データ  - Genome-level data (WGS, CON, complete genome) - Transcriptome Shotgun Assembly (TSA)

INSDC  

第30回 DDBJing  講習会 (DDBJ) 6

http://www.ddbj.nig.ac.jp/sub/mss_flow-j.html

1.登録依頼

http://www.ddbj.nig.ac.jp/sub/masssub-j.html

1. 以前に MSS を利用されたことがありますか?

2. コンタクトパーソン * 氏名(英語)

* E-mail address * FAX number * 所属 (英語)

3. 登録担当者

4. 登録データの概略 * 公開予定

* 件数 * Sequencing Technology (複数選択可)

* データ種別 * 生物学的概要(日本語可)

5. 補足情報 (日本語可)

MSS  submission  flow

MSS申し込みフォーム MSS申し込み  

必須項目を記載

第30回 DDBJing  講習会 (DDBJ) 7

2.MSS  利用案内 登録案内

Subject: [DDBJ:mass-0001] How to use MSS From: [email protected]

登録依頼の内容を確認

登録案内メール送付

MSS  submission  flow

第30回 DDBJing  講習会 (DDBJ) 8

2.MSS  利用案内 登録案内

登録案内メールの参照リンク  

MSS 関連資料

・データファイルチェック用ツール ・データファイル作成関連ドキュメント ・アノテーション関連ドキュメント

MSS  submission  flow

第30回 DDBJing  講習会 (DDBJ) 9

http://www.ddbj.nig.ac.jp/sub/mss/massSub-j.html

3.BioProject・BioSample 登録

-­‐  BioProject 登録

http://trace.ddbj.nig.ac.jp/bioproject/index.html

From: [email protected]

---------------------------------------------------------------------------------- PSUB ID | BioProject ID | Organism name | Hold/Release PSUBxxxxxx | PRJDBxxxx | Streptomyces flavus | Hold ----------------------------------------------------------------------------------

BP/BS  登録対象データ  - Genome-level data (WGS, CON, complete genome)

- Transcriptome Shotgun Assembly (TSA)

BioProject  ID  Organism  name  locus_tag  prefix  登録

MSS  登録に使用

BioProject 登録完了(locus_tag  prefix  取得)

研究プロジェクトとプロジェクトに由来するデータをまとめるためのデータベース

MSS  submission  flow

例、

第30回 DDBJing  講習会 (DDBJ) 10

3.BioProject・BioSample 登録

-­‐  BioSample 登録

BioSample 登録完了

BP/BS  登録対象データ  - Genome-level data (WGS, CON, complete genome)

- Transcriptome Shotgun Assembly (TSA)

http://trace.ddbj.nig.ac.jp/biosample/index.html

From: [email protected]

------------------------------------

---------------------- [Submission ID] SSUBxxxxxx [Hold/Release] Hold

Sample Name | BioSample ID Streptomyces flavus | SAMD000xxxxx -----------------------------------------------------------

BioSample  ID  MSS  登録に使用

DDBJ の一次データベースに登録されている実験データを得るのに使われた生物学的な試料 (サンプル) についての情報を集中して管理するデータベース

MSS  submission  flow

例、

第30回 DDBJing  講習会 (DDBJ) 11

4.  MSS  登録ファイル作成

・配列ファイル作成 ・アノテーションファイル作成  ・ AGPファイル作成(CON  data)

http://www.ddbj.nig.ac.jp/sub/mss/massSub-j.html

http://www.ddbj.nig.ac.jp/sub/mss/make_files-j.html

MSS  submission  flow

第30回 DDBJing  講習会 (DDBJ) 12

配列  

・ベクター,リンカー,アダプターなどの配列は必ず除去 -­‐  ベクターなどの配列自体は例外  

・特殊なケースを除き,末端の n  は除去

・塩基配列には a,t,g,c  以外にも、必要に応じて、     各種核酸コードが使用可能

・途中にスペース、空行が入らないように

4.  MSS  登録ファイル作成

http://www.ddbj.nig.ac.jp/sub/mss/sequence_file-j.html

エントリ名  

・エントリ名は行頭の「>」に続けて、 [space],  "  [double-­‐quote],  ?  [ques6on],  [back-­‐slash]  を   含まない半角英数字 32  文字以内

・エントリ名はエントリ毎にユニークな文字列

-­‐  clone  名,isolate  名といった個々のエントリに   よって異なる名称の使用が一般的

・アノテーションファイルと配列ファイルの同一のエントリ名 -­‐  同じエントリ名をつけ、同じ順番になるようにそれぞれ入力

・入力されたエントリ順にアクセッション番号を発行

終端子  

・終端子として配列情報終了フラグ(//)を必ず入力

(配列ファイル作成)

MSS  submission  flow

第30回 DDBJing  講習会 (DDBJ) 13

4.  MSS  登録ファイル作成 (アノテーションファイル作成)

Entry, Feature, Location, Qualifier, Value の 5 カラム

アノテーションファイルでは全てのエントリに共通な情報

COMMON

Entry  情報

SUBMITTER

REFERENCE  

COMMENT  

登録者情報

登録データ関連の文献情報

FEATURES/Loca6on/Qualifiers  で記述できない  その他の情報やコメント

Biological Feature

Biological feature の定義、記述方法の詳細 The DDBJ/EMBL/GenBank Feature Table: Definition  hdp://www.ddbj.nig.ac.jp/FT/full_index.html

一般登録ファイルの例

MSS  submission  flow

第30回 DDBJing  講習会 (DDBJ) 14

type WGS を記載 DATATYPE

ST_COMMENT  

BioProject  BioSample  DRA(op6on)

特定データベースへのリンク

Genome  assembly  情報  -­‐ Assembly  sogware    -­‐ Genome  coverage  -­‐ Sequencers

4.  MSS  登録ファイル作成 (アノテーションファイル作成) WGS 登録ファイルの例

KEYWORD

DBLINK

http://www.ddbj.nig.ac.jp/sub/locus_tag-j.html

一定な識別子を 遺伝子とその関連 feature の検索を目的として割り当てたものCDS,tRNA,rRNA,  ncRNA  など遺伝子関連の feature  配下 に記載

locus_tag  は

DIVISION と DATATYPE で示されたデータ種別を  基本に細分化した情報、実験手法に関する情報などを、  原則として、規定値で記載  例、WGS データ:  WGS と methodological  keyword  記載

・INSDC agreed methodological keywords - STANDARD_DRAFT - HIGH_QUALITY_DRAFT

- IMPROVED_HIGH_QUALITY_DRAFT - ANNOTATION_GRADE - NON_CONTIGUOUS_FINISHED

MSS  submission  flow

第30回 DDBJing  講習会 (DDBJ) 15

4.  MSS  登録ファイル作成 (  CON の AGP  ファイル作成)

CON 登録ファイルの例 (AGP  ファイル)

・AGP ファイル  

- CON エントリを構築する際のピースエントリの順序,種類,方向等が記載 - 公開フラットファイル上に表示 "contig 行"

例、

CONTIG join(BZZZ01123456.1:1..1345,gap(1500),BZZZ01123457.1:1..1456, gap(unk100),complement(BZZZ01123458.1:1..1230))  

 - AGPファイルは、UME (Utilities for MSS Error check)でチェック可

http://www.ddbj.nig.ac.jp/sub/mss/agp_file-j.html

MSS  submission  flow

9 カラムで構成

第30回 DDBJing  講習会 (DDBJ) 16

4.  MSS  登録ファイル作成 (Sample  files)

http://www.ddbj.nig.ac.jp/sub/mss/sample-j.html

MSS  submission  flow

アノテーションファイルの作成に際しては、サンプルアノテーションファイルをご参照ください

第30回 DDBJing  講習会 (DDBJ) 17

4.  MSS  登録ファイル作成 (登録ファイルフォーマットチェック)

http://www.ddbj.nig.ac.jp/sub/mss/massSub-j.html

UME (Utilities for MSS file Error check) Mass Submission System (MSS) を利用した登録に必要な 配列ファイル と アノテーションファイル のフォーマットチェックを行うツール

- あらかじめ、Java Development Kit (JDK) をインストール - OS と 実行環境 に応じて、ツールを選択

MSS  submission  flow

第30回 DDBJing  講習会 (DDBJ) 18

4.  MSS  登録ファイル作成 登録ファイルフォーマットチェック・データの送付

登録に必要な配列ファイルとアノテーションファイルを作成し、 登録予定データの一部をサンプルデータとして DDBJ に送付

ファイルサイズが合計で 10 M byte を超える場合は、 公開鍵と秘密鍵を用いた SCP によるファイル転送

登録ファイルフォーマットチェックの後  データの送付

・Parser エラーメッセージ一覧 http://www.ddbj.nig.ac.jp/sub/validator-j.html#parser

・transChecker エラーメッセージ一覧 http://www.ddbj.nig.ac.jp/sub/validator-j.html#transChecker

・AGPParser エラーメッセージ一覧 http://www.ddbj.nig.ac.jp/sub/validator-j.html#AGP

#2  Parser の機能 - 構文とフォーマットを検証

#3  transChecker の機能 - アミノ酸翻訳を検証

(登録データが CDS feature を含む場合)

#4  FFconv の機能 - 擬似的なフラットファイルを作成

#5  CON エントリの配列の構築 - AGPファイルとピースエントリの配列ファイルを用いて構築

#1  アノテーションファイルと配列ファイル をそれぞれ指定

http://www.ddbj.nig.ac.jp/sub/mss/ume-j.html

#1

#2

#3

#4

#5

MSS  submission  flow

第30回 DDBJing  講習会 (DDBJ) 19

6.アクセッション番号発行

[Hold-­‐Date]          20150612  Accession  number  :  BXXX01000001-­‐BXXX01000100  (100  entries)

5. 査定作業

From: DDBJ <[email protected]>

査定作業完了後

アクセッション番号発行

MSS  submission  flow

例、 WGS  data

第30回 DDBJing  講習会 (DDBJ) 20

MSS  submission 公開ファイルとの対応関係

第30回 DDBJing  講習会 (DDBJ) 21

MSS  submission 公開ファイルとの対応関係

http://www.ddbj.nig.ac.jp/sub/mss/sample-j.html

第30回 DDBJing  講習会 (DDBJ) 22

..中略..

..中略..

MSS  submission WGS  公開ファイルの記載例

http://getentry.ddbj.nig.ac.jp/top-j.html

#1

#2

#3

#4

#5

#1 Accession  No.

#2 DBLINK

#3 KEYWORDS

#4 ST_COMMENT

#5 locus_tag

第30回 DDBJing  講習会 (DDBJ) 23

MSS  ホーム    hdp://www.ddbj.nig.ac.jp/sub/mss/massSub-­‐j.html    hdp://www.ddbj.nig.ac.jp/sub/mss/massSub-­‐e.html

MSS  用データファイル作成 -­‐目次-­‐                  hdp://www.ddbj.nig.ac.jp/sub/mss/make_files-­‐j.html hdp://www.ddbj.nig.ac.jp/sub/mss/make_files-­‐e.html

UME  ユーザーマニュアル

    hdp://www.ddbj.nig.ac.jp/sub/mss/ume-­‐j.html    hdp://www.ddbj.nig.ac.jp/sub/mss/ume-­‐e.html

Parser  ユーザーマニュアル    hdp://www.ddbj.nig.ac.jp/sub/mss/parser-­‐j.html    hdp://www.ddbj.nig.ac.jp/sub/mss/parser-­‐e.html

transChecker  ユーザーマニュアル

    hdp://www.ddbj.nig.ac.jp/sub/mss/transchecker-­‐j.html    hdp://www.ddbj.nig.ac.jp/sub/mss/transchecker-­‐e.html

サンプルアノテーションファイル    hdp://www.ddbj.nig.ac.jp/sub/mss/sample-­‐j.html    hdp://www.ddbj.nig.ac.jp/sub/mss/sample-­‐e.html

アノテーションファイルとフラットファイルの対応関係    hdp://www.ddbj.nig.ac.jp/sub/mss/ann2ff-­‐j.html    hdp://www.ddbj.nig.ac.jp/sub/mss/ann2ff-­‐e.html

MSS  submission

MSS 登録関連ページ

MSS 参考資料

第30回 DDBJing  講習会 (DDBJ) 24