View
57
Download
2
Embed Size (px)
Citation preview
次世代シークエンスデータの登録
児玉 悠一 Kodama Yuichi, Ph.D
DDBJ センター、アノテータ DDBJ center, annotator
2015年6月12日
DDBJ センターが運営するデータベース
INSDC: オープンアクセスデータベース
個人レベルの遺伝型と表現型 JGA アクセス制限データベース
ヒトデータ審査委員会 DDBJ
アセンブリ
アノテーション
リード Quality value
アライメント (bam)
DRA
BioProject BioSample
第31回 DDBJing 講習会 (JST東京) 1
2015年6月12日
SRA データモデル
SRA データは3つのデータベースにまたがる
第31回 DDBJing 講習会 (JST東京) 2
BioProject
2015年6月12日
http://www.ncbi.nlm.nih.gov/bioproject/PRJDA38027
ゲノム配列 SRA データ
Pubmed 論文情報
プロジェクト概要
プロジェクト単位でデータをまとめる
NCBI BioProject:
第31回 DDBJing 講習会 (JST東京) 4
2015年6月12日
プロジェクトの定義は柔軟
第31回 DDBJing 講習会 (JST東京) 5
植物サンプルのゲノム配列と遺伝子発現を解析 三つの微生物株のゲノム配列を解析
BioSample
2015年6月12日
BioSample でサンプル情報を集中管理
データベースに散在していたサンプル情報を集中管理 サンプル記述を標準化
http://trace.ddbj.nig.ac.jp/biosample/index.html
第31回 DDBJing 講習会 (JST東京) 7
2015年6月12日
属性 (attributes) でサンプルを記述
「属性名:値」のペアでサンプルを記述 (例: tissue:liver)
http://www.ncbi.nlm.nih.gov/biosample/1990977
パッケージ
サンプル属性
関連データ
タイトル
NCBI BioSample:
第31回 DDBJing 講習会 (JST東京) 8
2015年6月12日
BioProject/BioSample でデータをまとめる
BioSample 1 BioSample 2
data
Umbrella BioProject
Genome BioProject
Transcriptome BioProject
Epigenome BioProject
data data data data data
データベースを横断してデータをまとめる
第31回 DDBJing 講習会 (JST東京) 9
データ登録
2015年6月12日
DRA 登録の流れ
第31回 DDBJing 講習会 (JST東京) 11
1. 「なぜ」そのサンプルを シークエンスしたのか 2. 「なに」をシークエンスしたのか
3. 「どのように」シークエンスしたのか
4. シークエンスの結果
登録を始める前に
2015年6月12日
D-way アカウントを取得しておく
D-way アカウントをウェブサイト (https://trace.ddbj.nig.ac.jp/D-way/) で取得 公開鍵と center name をアカウントに登録し、DRA 登録権限を取得
DRA
BioProject BioSample
公開鍵 と center name を D-way アカウントに登録
http://trace.ddbj.nig.ac.jp/book/account.html 登録アカウント Handbook:
center name : SRA が組織に運用上割り振っている略号 公開鍵 : 秘密鍵とペアでユーザの認証に使用される
第31回 DDBJing 講習会 (JST東京) 13
2015年6月12日
予めメタデータの構成を決めておく
登録する前に必要な BioProject・BioSample・Experiment・Run の数を決めておく サンプル数 (≦ Experiment/Run 数) から考えると分かりやすい
1. 最もシンプルな登録 2. 三つの菌株の比較ゲノム解析
http://trace.ddbj.nig.ac.jp/dra/submission.html#オブジェクトの構成例
メタデータ: シークエンスデータがどのようにして得られたのかを説明するデータ
第31回 DDBJing 講習会 (JST東京) 14
登録手順
2015年6月12日
次世代シークエンスデータの登録フロー DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第31回 DDBJing 講習会 (JST東京) 16
DRA Run の作成
2015年6月12日
次世代シークエンスデータの登録フロー DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第31回 DDBJing 講習会 (JST東京) 17
DRA Run の作成
2015年6月12日
DRA 新規登録の作成
登録アカウントにログインし、新規 DRA 登録を作成 DRA ファイル受付サーバに対応するディレクトリが作成される
第31回 DDBJing 講習会 (JST東京) 18
2015年6月12日
次世代シークエンスデータの登録フロー DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第31回 DDBJing 講習会 (JST東京) 19
DRA Run の作成
2015年6月12日
データファイルの転送
鍵認証で DRA ファイル受付サーバにアクセスし、 データファイルを新規登録に対応するディレクトリにアップロード
DRA ファイル受付サーバ
秘密鍵 公開鍵
DRA 新規登録
シークエンスデータファイル (fastq, bam etc)
http://trace.ddbj.nig.ac.jp/dra/submission.html#シークエンスデータのアップロード
ファイル名に空白を含めない サブディレクトリをつくらない ディスク郵送には対応していますが、登録処理に時間がかかります
第31回 DDBJing 講習会 (JST東京) 20
2015年6月12日
次世代シークエンスデータの登録フロー DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第31回 DDBJing 講習会 (JST東京) 21
DRA Run の作成
2015年6月12日
メタデータ作成ツールを起動
DRA 登録リストから登録ページへ移動し、メタデータ作成ツールを起動
第31回 DDBJing 講習会 (JST東京) 22
ファイルがアップロードされていないとエラーになります
2015年6月12日
BioProject の作成
作成済みのプロジェクトを選択 or 新規作成
第31回 DDBJing 講習会 (JST東京) 23
2015年6月12日
BioProject 登録管理情報の入力
登録者情報(名前、メールアドレス、所属組織) 即日公開 or 非公開を選択 (公開予定日は指定できない)
第31回 DDBJing 講習会 (JST東京) 24
アカウントの所有者情報がコピーされます
2015年6月12日
BioProject の投稿
プロジェクト (概要・研究費・プロジェクトのタイプなど) を入力 内容を入力して投稿
第31回 DDBJing 講習会 (JST東京) 25
アノテーション付きゲノム配列を登録する場合、Locus tag prefix を取得します
2015年6月12日
プロジェクトの選択
新規作成したプロジェクトが選択された状態になります
第31回 DDBJing 講習会 (JST東京) 26
2015年6月12日
次世代シークエンスデータの登録フロー DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第31回 DDBJing 講習会 (JST東京) 27
DRA Run の作成
2015年6月12日
BioSample の作成
第31回 DDBJing 講習会 (JST東京) 28
作成済みのサンプルを選択 or 新規作成
2015年6月12日
BioSample 登録管理情報の入力
第31回 DDBJing 講習会 (JST東京) 29
登録者情報(名前、メールアドレス、所属組織) 即日公開 or 非公開を選択 (公開予定日は指定できない)
BioProject の登録管理情報がコピーされます
2015年6月12日
サンプルの種類を選択
サンプルの種類 (Sample type) に応じた属性セット
http://trace.ddbj.nig.ac.jp/biosample/attribute.html サンプル属性一覧:
第31回 DDBJing 講習会 (JST東京) 30
例: ゲノムの場合 num_replicons が必須
2015年6月12日
サンプル属性を記載
Sample type に対応したタブ区切りのテキストファイルをダウンロード エクセルなどで1行に1サンプルの情報を入力し、テキストファイルをアップロード
必須属性に対する値がない場合は “missing” などを記入
第31回 DDBJing 講習会 (JST東京) 31
2015年6月12日
サンプルを投稿
属性ファイルの内容を確認し投稿
第31回 DDBJing 講習会 (JST東京) 32
2015年6月12日
サンプルの選択
第31回 DDBJing 講習会 (JST東京) 33
新規作成したサンプルが選択された状態になります
2015年6月12日
次世代シークエンスデータの登録フロー DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第31回 DDBJing 講習会 (JST東京) 34
DRA Run の作成
2015年6月12日
DRA 登録管理情報の作成
登録者情報と公開予定日 (2年後まで指定可能) を記入
第31回 DDBJing 講習会 (JST東京) 35
BioProject の登録管理情報がコピーされます
2015年6月12日
DRA Experiment の作成
デフォルトで選択した BioSample を参照している Experiment が作成される サンプルから構築したライブラリー、シークエンサーやリード長について記入
第31回 DDBJing 講習会 (JST東京) 36
タブ区切りテキストファイルで まとめて内容を作成することができます
2015年6月12日
次世代シークエンスデータの登録フロー DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第31回 DDBJing 講習会 (JST東京) 37
DRA Run の作成
2015年6月12日
DRA Run の作成
第31回 DDBJing 講習会 (JST東京) 38
タブ区切りテキストファイルで まとめて内容を作成することができます
デフォルトで作成した Experiment と同数の Run が作成される
Run に含まれるデータファイルを記述
2015年6月12日
DRA メタデータの投稿
メタデータ作成後 [Submit/Update DRA metadata] をクリックして投稿 オブジェクト相互が過不足なく参照されているかどうかチェックされます
第31回 DDBJing 講習会 (JST東京) 39
2015年6月12日
次世代シークエンスデータの登録フロー DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第31回 DDBJing 講習会 (JST東京) 40
DRA Run の作成
2015年6月12日
データファイルの検証処理
データファイルの形式とメタデータとの整合性が検証され、 アーカイブ用の SRA ファイルが作成されます
第31回 DDBJing 講習会 (JST東京) 41
検証処理を開始
2015年6月12日
よくある検証処理エラー
合計長を記入 (例 Forward 100 + Reverse 100 = 200)
ファイルが破損している場合は再度ファイルをアップロード
空白を除去
サブディレクトリを含めず、ファイルそのものをアップロード
配列長が一定のペアリードで Experiment.Spot Length にペアの合計 配列長が記入されていない
メタデータ中の md5 値と転送されたファイルの md5 値が異なる
アップロードされたデータファイル名に空白が含まれている
サブディレクトリを含んでいる
第31回 DDBJing 講習会 (JST東京) 42
2015年6月12日
次世代シークエンスデータの登録フロー DRA 新規登録の作成
データファイルの転送
DRA Experiment の作成
データファイルの検証処理
アクセッション番号発行
BioProject の作成
BioSample の作成
第31回 DDBJing 講習会 (JST東京) 43
DRA Run の作成
2015年6月12日
アクセッション番号の発行
BioProject (PRJDB) BioSample (SAMD) Submission (DRA), Experiment (DRX), Run (DRR)
第31回 DDBJing 講習会 (JST東京) 44
データの公開と更新 BioProject・BioSample・DRA
2015年6月12日
BioProject と BioSample の連動公開
塩基配列データの公開は参照している BioProject/BioSample の公開を引き起こす BioProject/BioSample の公開は参照元の塩基配列データの公開を引き起こさない
BioProject/BioSample 公開
DRA/DDBJ 塩基配列データ 公開
BioProject/BioSample 公開
DRA/DDBJ 塩基配列データ 非公開
http://trace.ddbj.nig.ac.jp/bioproject/submission.html#データ公開
第31回 DDBJing 講習会 (JST東京) 46
2015年6月12日
データの公開
公開されたデータはミラーされ DDBJ/EBI/NCBI で利用できるようになります
DDBJ DRASearch
NCBI BioProject
NCBI BioSample
NCBI SRA
第31回 DDBJing 講習会 (JST東京) 47
2015年6月12日
データの更新
更新内容を BioProject チームに連絡 関連する論文が公開されたら pubmed ID などの文献情報を連絡
BioProject
BioSample
DRA
更新内容を BioSample チームに連絡 Sample name は ID として使用しているため変更不可
メタデータの内容と公開予定日はアカウントにログインし、自身で変更 データファイルの追加: 新規登録を作成し、既存のオブジェクトを参照する
Do it yourself
Request by e-mail
第31回 DDBJing 講習会 (JST東京) 48
2015年6月12日
お問い合わせ先
http://trace.ddbj.nig.ac.jp/contact.html
登録について問い合わせる場合には D-way アカウント名と データの ID をお知らせください
第31回 DDBJing 講習会 (JST東京) 49
補足
2015年6月12日
プロジェクト番号でデータが関連付けられる
同じプロジェクト番号を参照しているデータが関連付けられる
DDBJ
DRA
リード Quality value
アノテーション
BioProject
第31回 DDBJing 講習会 (JST東京) 51
2015年6月12日
アンブレラプロジェクトの活用
アンブレラプロジェクト (非公開にできない) でプロジェクトをまとめる 大規模プロジェクトからの成果を整理して提示することができる 初期段階でアンブレラを取得し、関係者に周知することを推奨
DDBJ 側では申告されないとアンブレラとの関係が分からない
http://trace.ddbj.nig.ac.jp/bioproject/submission.html#アンブレラプロジェクトの活用
アンブレラ
プライマリー
第31回 DDBJing 講習会 (JST東京) 52
2014年6月12日
微生物ゲノム配列の登録
Strain-level taxonomy ID にかわり BioSample 微生物ゲノムを識別
BioProject BioSample Strain: 1 Locus tag prefix: AAAA1
BioSample Strain: 2 Locus tag prefix: AAAA2
BioSample Strain: 3 Locus tag prefix: AAAA3
BioProject Strain: 1 Locus tag prefix: AAAA1 Strain-level taxonomy ID: 10
BioProject Strain: 2 Locus tag prefix: AAAA2 Strain-level taxonomy ID: 11
BioProject Strain: 3 Locus tag prefix: AAAA3 Strain-level taxonomy ID: 12
Species-level taxonomy ID: 100
Federhen S et al. Stand Genomic Sci (2014) doi: 10.4056/sigs.4851102
2014年2月以前
2014年2月以降
Genome
Genome
Genome
Bacteria: A Strain: 1
Bacteria: A Strain: 2
Bacteria: A Strain: 3
Genome
Genome
Genome
Bacteria: A Strain: 1
Bacteria: A Strain: 2
Bacteria: A Strain: 3
第31回 DDBJing 講習会 (JST東京) 53
2014年6月12日
Biological/technical replicates
BioSample ではなく SRA Experiment で表現することを推奨
http://trace.ddbj.nig.ac.jp/dra/faq.html#samples-for-sra
第31回 DDBJing 講習会 (JST東京) 54
2014年6月12日
別々の論文に発表する場合
論文ごとに BioProject を分けると別々にデータを公開することができる
第31回 DDBJing 講習会 (JST東京) 55
2014年6月12日
アカウント外の BioProject/BioSample を参照
アカウントをまたがった参照を希望する場合は DRA チームに連絡 参照元と先、双方の登録者の承認が必要 連動公開に注意
第31回 DDBJing 講習会 (JST東京) 56
2014年6月12日
データファイルの追加
新しい DRA 登録から既存の BioProject を参照することでデータを追加
http://trace.ddbj.nig.ac.jp/dra/submission.html#データファイルの追加
第31回 DDBJing 講習会 (JST東京) 57
2014年6月12日
ファイルの破損を md5 値でチェック
md5 値が一致 : ファイルの破損なし md5 値が不一致 : ファイルの破損あり
DRA ファイル受付サーバ
md5 値
md5 値
md5 値
md5 値 =
≠
md5 値 : ファイルに固有の32桁の英数字からなるハッシュ値
http://trace.ddbj.nig.ac.jp/dra/submission.html#補足__MD5_値
第31回 DDBJing 講習会 (JST東京) 58