1
目的 現在、モデル植物や実用作物など多種多様な植物のゲノム 配列が解読されている。近年のシークエンシング技術の進 展により、今後、迅速にかつ高精度でゲノム配列が解読さ れ、より多様な植物のゲノム配列が明らかになると考えられ る。一方、様々な品種についてリシークエンスや転写産物の 解読も行われており、品種間の塩基配列やゲノム構造の違 いが調べられている。従来の統合化推進プログラムでは植 物ゲノム統合ポータルサイトPGDBjhttp://pgdbj.jp)を構築 し、緑色植物40種とラン藻213種のオルソログ、65植物種 26万件のDNAマーカー、45種約1万6千件のQTL情報を 公開した。第三期では、ゲノムワイドなデータに対応するよ PGDBjの内容を一新し、新たにPlant GARDENを構築す る。各植物で公開されているゲノムワイド多型情報をゲノム ブラウザ上に集約させ、さらに、複数植物間での遺伝子配 列の類似性に基づいたデータリンク基盤を構築することで、 ゲノムを横断的に比較できるシステムを開発する。また、 ユーザがNGSデータを投入しSNP解析を実施できるカスタ ム型多型・ハプロタイプ検出システムを構築している。 ポータルサイト Plant Genome DataBase Japan PGDBj)(2011年~) 本研究はJSTのバイオサイエンスセンター(NBDC)の「統合化推進プログラム」 の支援により実施した。 RDF;オルソログDB3,424万件(SPARQLエンドポイント:http://pgdbj.jp/sparqlデータリンク基盤の構築 (阪大グループ) ・大規模な遺伝子間の類似性検索 ・シンテニー様領域の検出 ・効率の良いデータの追加と更新 詳細は以下のポスターにて発表 「32 種を超えた植物ゲノム情報統合のた めのデータリンク基盤の構築(市原ら)」 遺伝子のアミノ酸配列の類似関係に基づいた植物種や系統群を 超えた対応関係の整理と蓄積を行うシステムを構築する。 ゲノムブラウザJBrowseを用いて、各生物種についてのゲノム塩基配列(Pseudomoleculescaffolds)に対して、遺伝子、転写産物、多型、DNAマーカー、近縁種との相同性など様々な情報を 合わせて閲覧、比較できるサイトを開設する。 ユーザが独自で取得したNGSデータを本システムに投入することによって、多型 SNPInDelCNVSV)やLD、ハプロタイプを検出する仕組みを構築する。 対象とする植物種 ・かずさで解読した11植物種とPseudomoleculeとして解読された27植物種 (ミヤコグサ、シバ、ダイコンで構築中) ・データリンク基盤の構築で用いられている植物種 ・植物種は適宜追加 植物ゲノム配列情報 解析ツール SNP CNV SV ダウン ロード ユーザーがローカルで処理 結果ファ イルの Upload ハプロタイプ 他系統との比較 など 植物ゲノム情報統合ポータルサイト Plant GARDENの構築 ○平川英樹 1 、原田大士朗 1 Andrea Ghelfi 1 Jeffrey Fawcett 1 、白澤沙知子 1 、市原寿子 2 、中谷明弘 2 、磯部祥子 1 、田畑哲之 1 E-mail : [email protected] 1. かずさDNA研究所、2. 大阪大学大学院医学研究系研究科 次世代シークエンサー(NGS)の普及 2011年~ 新たな植物種で全ゲノム情報が次々と公開 品種間や変異株がもつゲノムワイドな多型情報を迅速・安価に収集 異種間でのゲノム関連情報の比較 増え続けるゲノム関連情報の統合 品種、系統などの個体ゲノム解析による多型・ハプロタイプ検出 2018年~ 必要情報を閲覧して 取得 ユーザ所有のデータを解析 プログラムの開発 ゲノム、トランスクリプトーム、プロテオーム、メタボローム、マーカー、 変異、形質などの情報を公開。国内外の様々な植物ゲノム関連 データベースを統合し、横断検索を実施可能。 現在構築中。今年度末に公開予定 登録植物種: ゲノム解読された350種以上を対象 Pseudomolecule:約90種) 植物種の選択 登録データ ・参照配列 ・連鎖地図、マーカー、QTLなど SRAデータの内容 多型・ハプロタイプ検出システムの構築(かずさグループ) 高速アノテーションシステム(Hayai-Annotation詳細は以下のポスターにて発表(Ghelfiら) 「30 Killer Applications in Plant GARDEN: Integration of Bioinformatics Tools for Plant Science and BreedingNGSに対応した統合化データベースの構築 DNAマーカーDB オルソログDB 横断検索システム 緑色植物:40種 ラン藻:213種 DNAマーカー:65種 QTL:45種 KNapSAcK MassBase 他データベース (メタボローム) リソースDB Citrusリソース 約900種 6種 http://pgdbj.jp Plant GARDENにデータを移行。移行完了までは公開 配列類似情報によるデータリンク アミノ酸配列 M S A V K S A L M S A V Y S A L M G A V Y S A I M S V V K S A L M H V V R S A L クラスタリング 配列クラスタ M S A V K S A L M S A V Y S A L M G A V Y S A I M S V V K S A L M H V V R S A L 配列プロファイル プロファイル生成 植物名からの選択 形質、配列、キー ワードからの選択 解析ツールの選択 SNP検出ツールなど データ一覧 ・全情報、マーカー、形質 植物のゲノム関連情報 Total 366 Curated 319 Assembly Level CDS CDS, GFF, AA_fasta Complete Genome 3 3 3 Chromosome 89 52 52 Scaffold 138 43 40 Contig 19 6 5 unknown 20 12 11 ・植物ゲノム解読に関するキュレーション DB(スキーマ)の設計など 詳細は以下のポスターにて発表 「33 世界における植物ゲノム解析の現状と課題(原田ら)」 ゲノム解読が行われた植物種数(20188月) ・ユーザが投入した配列に対して高速に アノテーションを実施 データベース:UniProtKB プログラム:USEARCH アノテーション:Product名、GOEC番号 SNP解析ツールは既に公開 https://pgdbjsnp.kazusa.or.jp共通ユーザ、パスワード設定 ユーザがfastqファイルをアップロード QC、トリミング、マッピング、 SNP検出を実行 結果はメールで送信される。 デモユーザー募集! ご希望の方は [email protected] にご連絡ください! Plant GARDENの構築 (かずさグループ) ゲノムブラウザの構築 (かずさグループ) DNAマーカー情報 ・EST-SSR、SNP、CAPSなど QTL情報 ・QTL領域(物理地図上) ゲノムワイド多型情報(NCBI SRA) ・ゲノム配列(リシークエンス) ・RNA-Seq、RAD-Seq、BS-Seq、ChIP-Seqなど 公開されたゲノム情報 ・ゲノム配列 Pseudomolecule(染色体数に収束したもの) ・遺伝子配列、アミノ酸配列 ミヤコグサで構築しているJBrowseの例 アノテーションに 基づいた遺伝子 様々な品種のNGS データなどから得ら れたSNPInDel MG-20 B129 rel 3.0 chr01: 32919951..33005300緑: 同義置換 紫: 非同義置換 赤: Truncated gene、偽遺伝子 青: イントロン、その他 varianteffect ミヤコグサ SNPアノテーション(遺伝子機能への影響)の程度(一部) HIGH(影響が大きい) Frameshift(フレームシフト) Exon loss variant(エキソンの消失) Start lost(開始コドンの欠失) Stop gained(停止コドンの生成) Stop lost(停止コドンの欠失) MODERATE(中程度) Inframe insertion(1個以上のコドンの挿入) Inframe deletion(1個以上のコドンの欠失) Missense variant(非同義置換) 3’ (5’) UTR Truncation(第一エキソンの消失) LOW(低い) Initiator codon variant(開始コドンから他の アミノ酸残基への置換) Start retained(開始コドンから開始コドンへの置換) Synonymous variant(同義置換) SNPの位置 SNP SNPアノテーション(SnpEff厚み ご希望の植物でJBrowseを構築します! ご希望がありましたら [email protected] にご連絡ください! Licensed under a Creative Commons表示4.0国際ライセンス © 2018 平川英樹 、原田大士朗 、Andrea GhelfiJeffrey Fawcett、白澤沙知子、市原寿子、中谷明弘、磯部祥子、田畑哲之 SNPアノテーション情報 ゲノム配列が解読された植物について、ゲノム 情報、DNAマーカー、QTL情報、ゲノムワイド多型 情報をJBrowse上に集約させ、ゲノム情報の統合 化を行う。 DNAマーカー、QTL情報のキュレーションを行い 更新する。

植物ゲノム情報統合ポータルサイトPlant GARDENの構築 ......・SRAデータの内容 多型・ハプロタイプ検出システムの構築(かずさグループ)

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 植物ゲノム情報統合ポータルサイトPlant GARDENの構築 ......・SRAデータの内容 多型・ハプロタイプ検出システムの構築(かずさグループ)

目的

現在、モデル植物や実用作物など多種多様な植物のゲノム配列が解読されている。近年のシークエンシング技術の進展により、今後、迅速にかつ高精度でゲノム配列が解読され、より多様な植物のゲノム配列が明らかになると考えられる。一方、様々な品種についてリシークエンスや転写産物の解読も行われており、品種間の塩基配列やゲノム構造の違いが調べられている。従来の統合化推進プログラムでは植物ゲノム統合ポータルサイトPGDBj(http://pgdbj.jp)を構築し、緑色植物40種とラン藻213種のオルソログ、65植物種約26万件のDNAマーカー、45種約1万6千件のQTL情報を

公開した。第三期では、ゲノムワイドなデータに対応するようPGDBjの内容を一新し、新たにPlant GARDENを構築す

る。各植物で公開されているゲノムワイド多型情報をゲノムブラウザ上に集約させ、さらに、複数植物間での遺伝子配列の類似性に基づいたデータリンク基盤を構築することで、ゲノムを横断的に比較できるシステムを開発する。また、ユーザがNGSデータを投入しSNP解析を実施できるカスタム型多型・ハプロタイプ検出システムを構築している。

ポータルサイト Plant Genome DataBase Japan

(PGDBj)(2011年~)

本研究はJSTのバイオサイエンスセンター(NBDC)の「統合化推進プログラム」の支援により実施した。

RDF;オルソログDB:3,424万件(SPARQLエンドポイント:http://pgdbj.jp/sparql)

データリンク基盤の構築 (阪大グループ)

・大規模な遺伝子間の類似性検索・シンテニー様領域の検出・効率の良いデータの追加と更新

詳細は以下のポスターにて発表

「32 種を超えた植物ゲノム情報統合のためのデータリンク基盤の構築(市原ら)」

遺伝子のアミノ酸配列の類似関係に基づいた植物種や系統群を超えた対応関係の整理と蓄積を行うシステムを構築する。

ゲノムブラウザJBrowseを用いて、各生物種についてのゲノム塩基配列(Pseudomolecule、scaffolds)に対して、遺伝子、転写産物、多型、DNAマーカー、近縁種との相同性など様々な情報を合わせて閲覧、比較できるサイトを開設する。

ユーザが独自で取得したNGSデータを本システムに投入することによって、多型(SNP、InDel、CNV、SV)やLD、ハプロタイプを検出する仕組みを構築する。

対象とする植物種・かずさで解読した11植物種とPseudomoleculeとして解読された27植物種(ミヤコグサ、シバ、ダイコンで構築中)・データリンク基盤の構築で用いられている植物種・植物種は適宜追加

植物ゲノム配列情報解析ツール

SNP CNV SV

ダウンロード

ユーザーがローカルで処理

結果ファイルのUpload

ハプロタイプ

他系統との比較など

植物ゲノム情報統合ポータルサイトPlant GARDENの構築

○平川英樹1 、原田大士朗1 、Andrea Ghelfi 1 、Jeffrey Fawcett 1 、白澤沙知子1 、市原寿子2 、中谷明弘2、磯部祥子1 、田畑哲之1

E-mail : [email protected]. かずさDNA研究所、2. 大阪大学大学院医学研究系研究科

次世代シークエンサー(NGS)の普及

2011年~

新たな植物種で全ゲノム情報が次々と公開

品種間や変異株がもつゲノムワイドな多型情報を迅速・安価に収集

異種間でのゲノム関連情報の比較

増え続けるゲノム関連情報の統合

品種、系統などの個体ゲノム解析による多型・ハプロタイプ検出

2018年~

必要情報を閲覧して取得

ユーザ所有のデータを解析プログラムの開発

ゲノム、トランスクリプトーム、プロテオーム、メタボローム、マーカー、変異、形質などの情報を公開。国内外の様々な植物ゲノム関連データベースを統合し、横断検索を実施可能。

現在構築中。今年度末に公開予定

登録植物種: ゲノム解読された350種以上を対象(Pseudomolecule:約90種)

植物種の選択

登録データ・参照配列・連鎖地図、マーカー、QTLなど・SRAデータの内容

多型・ハプロタイプ検出システムの構築(かずさグループ)

高速アノテーションシステム(Hayai-Annotation)

詳細は以下のポスターにて発表(Ghelfiら)「30 Killer Applications in Plant GARDEN: Integration of Bioinformatics Tools for Plant Science and Breeding」

NGSに対応した統合化データベースの構築

DNAマーカーDB

オルソログDB

横断検索システム

緑色植物:40種ラン藻:213種

DNAマーカー:65種QTL:45種

KNapSAcK MassBase

他データベース(メタボローム)

リソースDB

Citrusリソース約900種

6種

http://pgdbj.jp

Plant GARDENにデータを移行。移行完了までは公開

配列類似情報によるデータリンク

アミノ酸配列

3

M S A V K S A L

M S A V Y S A L

M G A V Y S A I

M S V V K S A L

M H V V R S A L

M S A V K S A L

M S A V Y S A L

M G A V Y S A I

M S V V K S A L

M H V V R S A L

クラスタリング

配列クラスタ

3

M S A V K S A L

M S A V Y S A L

M G A V Y S A I

M S V V K S A L

M H V V R S A L

M S A V K S A L

M S A V Y S A L

M G A V Y S A I

M S V V K S A L

M H V V R S A L

配列プロファイル

プロファイル生成

データベース化

植物名からの選択

形質、配列、キーワードからの選択

解析ツールの選択・SNP検出ツールなど

データ一覧・全情報、マーカー、形質

植物のゲノム関連情報

Total 366

Curated 319

Assembly Level CDSCDS, GFF,

AA_fasta

Complete Genome 3 3 3

Chromosome 89 52 52

Scaffold 138 43 40

Contig 19 6 5

unknown 20 12 11

・植物ゲノム解読に関するキュレーション・DB(スキーマ)の設計など詳細は以下のポスターにて発表「33 世界における植物ゲノム解析の現状と課題(原田ら)」

ゲノム解読が行われた植物種数(2018年8月)

・ユーザが投入した配列に対して高速にアノテーションを実施データベース:UniProtKBプログラム:USEARCHアノテーション:Product名、GO、EC番号

SNP解析ツールは既に公開(https://pgdbjsnp.kazusa.or.jp)共通ユーザ、パスワード設定ユーザがfastqファイルをアップロード・QC、トリミング、マッピング、SNP検出を実行結果はメールで送信される。

デモユーザー募集!ご希望の方は [email protected] にご連絡ください!

Plant GARDENの構築 (かずさグループ)

ゲノムブラウザの構築 (かずさグループ)

DNAマーカー情報・EST-SSR、SNP、CAPSなど

QTL情報・QTL領域(物理地図上)

ゲノムワイド多型情報(NCBI SRA)・ゲノム配列(リシークエンス)・RNA-Seq、RAD-Seq、BS-Seq、ChIP-Seqなど

公開されたゲノム情報・ゲノム配列

Pseudomolecule(染色体数に収束したもの)・遺伝子配列、アミノ酸配列

ミヤコグサで構築しているJBrowseの例

アノテーションに基づいた遺伝子

様々な品種のNGS

データなどから得られたSNPやInDel

MG-20

B129

rel 3.0 (chr01: 32919951..33005300)

緑: 同義置換紫: 非同義置換赤: Truncated gene、偽遺伝子青: イントロン、その他

varianteffect

ミヤコグサ

SNPアノテーション(遺伝子機能への影響)の程度(一部)HIGH(影響が大きい)

Frameshift(フレームシフト)Exon loss variant(エキソンの消失)Start lost(開始コドンの欠失)Stop gained(停止コドンの生成)Stop lost(停止コドンの欠失)

MODERATE(中程度)Inframe insertion(1個以上のコドンの挿入)Inframe deletion(1個以上のコドンの欠失)Missense variant(非同義置換)3’ (5’) UTR Truncation(第一エキソンの消失)

LOW(低い)Initiator codon variant(開始コドンから他の

アミノ酸残基への置換)Start retained(開始コドンから開始コドンへの置換)Synonymous variant(同義置換)

SNPの位置

SNP

SNPアノテーション(SnpEff)

厚み

ご希望の植物でJBrowseを構築します!ご希望がありましたら [email protected] にご連絡ください!

Licensed under a Creative Commons表示4.0国際ライセンス© 2018 平川英樹 、原田大士朗 、Andrea Ghelfi、Jeffrey Fawcett、白澤沙知子、市原寿子、中谷明弘、磯部祥子、田畑哲之

SNPアノテーション情報

・ ゲノム配列が解読された植物について、ゲノム情報、DNAマーカー、QTL情報、ゲノムワイド多型情報をJBrowse上に集約させ、ゲノム情報の統合化を行う。・ DNAマーカー、QTL情報のキュレーションを行い更新する。