Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
植物大規模オミックス研究に必須な NIGスパコンの明治大&遺伝研での活用事例
大栁一1,2・倉田のり1 ・矢野健太郎2
1 国立遺伝学研究所 植物遺伝研究室
2 明治大学 バイオインフォマティクス研究室
遺伝研スパコンユーザ会 (2014年7月22日 @ 国立遺伝学研究所)
内容
1. 事例1「遠縁野生イネゲノム解読への挑戦」
2. 事例2「植物オミックスデータベース PODC」
3. さらに便利になって欲しい点
Oryza officinalisゲノム解読(リード種類・量)
• NGS reads
(1) PE300 (150bp x2)
(2) PE500 (150bp x2)
(3) Nextera-MP3k (150bp x2)
(4) Nextera-MP5k (150bp x2)
(5) Nextera-MP10k (150bp x2)
(6) Nextera-MP16.5k (150bp x2)
(7) PacBio 31セル、1.84Mリード、総塩基数 8.39Gb
5kb以上のサブリードの総塩基数が約5.4Gb
現時点でのアセンブル結果
手法 スキャフォルド数(>=1,000bp)
スキャフォルドN50(bp)
トータル長(bp)
トータル長(bp, Nを除く)
Nの
割合(%)
Ray + PBJelly
8,850 144,443 652,341,683 639,069,716 2.0
Platanus + PBJelly
3,383 1,901,421 582,582,400 543,925,938 6.6
CA + SSPACE + GapCloser
9,501 174,929 689,800,166 686,212,491 0.5
PODC (Plant Omics Data Center)
PODC (Plant Omics Data Center)
PODC (Plant Omics Data Center)
• DRA等からmRNA-Seqデータを入手
(8種、1,000〜2,000サンプル)
• 前処理/マッピング/共発現プロファイリング
• 公開DBへ格納(&付加的解析、NLPなど)
多くの作業行程でNIGスパコンを有意義に 活用させていただいています。
• NGSリードの前処理(特にk-mer出現頻度を利用したエラーリードの除去プログラム実行)
• NGSリードのアセンブル解析
• NGSリードのマッピング解析
さらに便利になって欲しい点
• ジョブ混雑/ディスク逼迫の解消
• 解析ツールのバージョン管理
• NIGスパコンアカウントを作成できない外部研究者とのデータ授受
• 仮想化/特権ユーザ貸与
• オリジナルリード&結果ファイルを念のためラボサーバ(〜100TBストレージ)上に残しているが、出来ればスパコンに完全依存してしまいたい
明治大学
矢野健太郎 先生
小林正明 さん
アリゾナ大学
Rod Wing 先生
Dario Copetti さん
Jose-Luis Goicoechea さん
Jianwei Zhang さん
メイン州立大学
Benildo G. de los Reyes 先生
北住愛 さん
謝辞
遺伝研(大量遺伝情報)
中村保一 先生
神沼英里 さん
長崎英樹 さん
望月孝子 さん
遺伝研(比較ゲノム解析)
藤山秋佐夫 先生
豊田敦 さん
遺伝研(植物遺伝)
倉田のり 先生
久保貴彦 さん
藤田雅丈 さん