NGSデータのエンリッチメント解析による生物学的 ......Licensed under CC-BY 4.0...

Preview:

Citation preview

Licensed under CC-BY 4.0 ©2018 Takeru Nakazato (DBCLS)

日本科学未来館平成 30年 10月 5日

トーゴーの日シンポジウム 2018

従来の Gene Ontology (GO) や pathway による生物学的解釈は分子や細胞レベルでの解釈であった。他に臓器や疾患という観点からの生物学的解釈も試みたい。そこで MeSH の用語を用いることとした。

MeSH keywordsCategory

Diseases

Chemicalsand drugs

Anatomy

Diabetes MellitusDiabetes Mellitus, Type 1Diabetes Mellitus, Type 2

Autoimmune DiseasesInsulin Resistance

ObesityInsulin

AdiponectinPancreas

SpleenAdipocytes

1型 2型

10e-1010e-0910e-0810e-0710e-0610e-0510e-0410e-0310e-020.05

0.100.200.300.400.500.751

p-value

MeSH は遺伝子でなく文献に付与されたキーワード集なので、各遺伝子について関連文献を収集し、そこから MeSH の語を抽出することにより Gene-MeSH ペアを作成している。

MeSH によるアノテーションの結果例。本図は同じ手法を OMIM の各疾患に対して行い、1 型 /2 型糖尿病について図示したもの。

NGS データの検索DDBJ Search → ポスター 3発現データ検索 AOE → ポスター 5

遺伝子発現リファレンスRefEx → ポスター 4

NGS 解析というと、リードをどううまくつなぎ、遺伝子として組み上げ、どのくらいの発現量であったか、という点について、バイオインフォマティクスの課題として議論され、多くの手法が提案されてきた。もちろん、その点は非常に重要なのだが、実際のデータを解析するにあたっては、得られた(たとえば発現がある条件で上昇した、というような)遺伝子リストに対し、生物学的な意味づけを行うことが必要不可欠である。これまで、BLAST をかけて遺伝子名を対応づける他、Gene Ontology や Pathway に対応づけての生物学的な意味づけが行われてきた。

得られた MeSH によるアノテーション情報やそこから作成するなどした各種遺伝子リストを用いたエンリッチメント解析を行うためのウェブサービスを構築中である。画像は現在よく使われているエンリッチメント解析のウェブサービスである Metascape の画面。

既存のウェブサービス Gendoo では、個々の関連度を並べるにすぎなかった。これは、遺伝子と MeSH 用語について文献数である/ ないの 2×2 表を作成し、p-value をあらかじめ計算してあったためである。逆につどつど遺伝子リストについて計算するのは非常に時間がかかる。さらに上記の表で遺伝子 / 用語がともにない(右下)の数字が非常に大きくなるのにこのスコアリングでよいか、というのも検討課題である。また、MeSH は階層構造をとっているので、それを反映したスコアリングも行いたい。BLAST

ドメインサーチGene OntologyPathwayゲノム上の位置...

生物学的機能は ?実験条件との関連は ?

文献数

RNA-Seq データ解析のフロー アノテーションからエンリッチメント解析へ新たな切り口での「生物学的解釈」

分子 細胞 組織/臓器 個体

MEDLINE収載の文献をインデキシングするためのキーワード集 (controlled vocabulary)

15分野 (Disease, Chemicals and Drugs, Anatomy, ...)階層構造により語を整理NLM (National Library of Medicine) により管理

http://www.nlm.nih.gov/mesh/

MeSH (Medical Subject Headings)

~23,000語

MeSH terms

参考文献

近年、NGS解析が盛んに行われており、ライフサイエンス統合データベースセンター(DBCLS)でも公共NGSデータ検索サービスDBCLS SRAなどを開発してきた。NGS

解析というと、マッピングや発現定量などが注目されがちだが、得られた遺伝子リストについて生物学的解釈を行うことも必要不可欠である。DBCLSでは、各遺伝子について疾患や化合物の側面から特徴づけを行うGendooシステムを開発してきた(http://gendoo.dbcls.jp/)。各遺伝子について、関連文献に付与されたMeSH terms

を抽出してスコアリングすることにより特徴づけを行っている。従来、生物学的な解釈としてGene Ontologyやパスウェイを用いてのエンリッチメント解析が行われているが、今回、 我々はGendooシステムを拡張し、新たに疾患や化合物の側面からエンリッチメント解析を行えるよう改良を行った。これまでは個々の遺伝子の特徴を並べているにすぎなかったが、本改良により遺伝子リストとしての特徴を示すことが可能となる。

NGSデータのエンリッチメント解析による生物学的解釈

情報・システム研究機構 (ROIS) データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター (DBCLS)

特徴抽出パイプライン

課題:スコアリング

PMID

Gene-MeSHPairs

Gene-PMIDPairs

PMID

Gene ID

Gene ID

PMID

Gene ID

PubMedSearch

Step 3: 各遺伝子に対応する MeSH のついた論文を抽出

Step 1: Entrez Geneの Bibliographyセクションより、 論文の PMID (PubMed ID) を抽出

Scoringp-value

RefSeq ID

MeSH keyword

Step 2: MEDLINE中の文献でGene ID の記載のある論文を抽出

SRA

Mappingde novo assemble

Quality check

Database search

Downloadown data

発現定量

Gendoo: Functional profiling of gene and disease features using MeSH vocabulary

Nakazato T., Bono H., Matsuda H., Takagi T.,

Nucleic Acids Research, 37 (Suppl. 2) (Web Server issue), 2009

doi:10.1093/nar/gkp483

統計処理

遺伝子リスト

生物学的意味は???

Hidemasa Bono

坊農 秀雅仲里 猛留Takeru Nakazato

nakazato@dbcls.rois.ac.jp

@chalkless

撮影可

Creative Commons Licence( 表示 ) のもと、再利用可

Recommended