1
nih.gov/bioproject/?term=288> gov/bioproject/?term=240102> h.gov/bioproject/?term=67155> h.gov/bioproject/?term=16067> gov/bioproject/?term=240101> h.gov/bioproject/?term=36547> gov/bioproject/?term=240100> h.gov/bioproject/?term=30505> gov/bioproject/?term=240108> h.gov/bioproject/?term=36545> h.gov/bioproject/?term=36507> gov/bioproject/?term=240103> h.gov/bioproject/?term=16700> gov/bioproject/?term=239345> gov/bioproject/?term=240082> gov/bioproject/?term=240104> gov/bioproject/?term=240105> m.nih.gov/bioproject/?term=34> h.gov/bioproject/?term=10638> gov/bioproject/?term=240106> gov/bioproject/?term=239341> gov/bioproject/?term=240085> ail caf1 cnf flgA flgB flgC flgD flgE flgF flgG flgH flgI flgJ flgK flgL flgM flgN flhA flhB flhC flhE fliA fliC fliD fliE fliF fliG fliH fliI fliJ fliK fliL fliM fliN fliO fliP fliQ fliR fliS fliT fliZ inv irp1 irp2 lcrE/yopN lcrG lcrO/yscI lcrQ/yscM lcrR lcrV pla psaA psn/fyuA sycD/lcrH sycN tyeA unnamed gene virF/lcrF virG/yscW ybtA ybtE ybtP ybtQ ybtS ybtT ybtU ybtX ylpB/yscJ ymt yopB yopD yopE yopH yopJ/yopP yopM yopO/ypkA yopR/yscH/lcrP yopT yplA yscA yscB yscC yscD yscE yscF yscG yscK yscL yscN yscO yscP yscQ yscR yscS yscT yscU yscV/lcrD yscX yscY 疾病関連語句オントロジーを利用したゲノム、メタゲノムデータのRDF 化と利用 山本希 1) 、岡本忍 2) 、川島秀一 2) 、鈴木真也 3) 、森宙史 3) 、黒川顕 1) 、MicrobeDB.jpプロジェクトチーム 1)2)3) 1) 東京工業大学地球生命研究所  2) 情報・システム研究機構 ライフサイエンス統合データベースセンター  3) 東京工業大学大学院生命理工学研究科 新型シーケンサーの普及により、ヒト疾病に関連する細菌のゲノムやメタゲノム解析が 盛んに行われ、公共のデータベース(DB)に登録されている。これまでに疾病関連語句 オントロジー(PDO)および症状語句オントロジー(CSSO)を構築し、同義語・和訳 の登録や他オントロジーとの対応づけを行った。また公共のDBに登録されている約560 の細菌株ゲノム配列データとのマッピングRDFを作成した。 しかし、登録ゲノムデータが増加している事や、疾病メタデータの記載が種内で統一 されていない事から、検索しても得られるデータが不十分であった。 また、メタゲノムデータ中に疾病を引き起こす病原性関連遺伝子が存在するかどうか、 さらにはその種類や割合を他データと比較する際にリファレンスとなるDBが必要となる。 本研究ではそのためにオントロジーの継続開発、病原性遺伝子DBの作成および PDO-菌株-VFデータのRDF化を行った。 研究背景と目的 まとめと課題 A, オントロジーの開発 B, 疾病関連菌株ゲノムデータのRDF化 PDO(Pathogenic Disease Ontology)ver 0.6 CSSO(Clinical Signs and Symptoms Ontology)ver 0.5 ヒトの細菌・真核微生物の感染症および関連疾病についてのオントロジー  クラス数:358 ヒトが疾病によって示す症状についてのオントロジー クラス数:301 本研究では約1,500のゲノムデータについてPDOとのマッピングを行い、 検索可能データの拡充を図った。 また、PDOで定義された疾病に関連する25属の細菌について、既存の病原性 関連遺伝子DBを元に、各菌株のもつVFをまとめたDBを作成し、RDF化した。 これにより特定の疾病について、各株の系統や環境などのメタデータと病原性 遺伝子の有無を同時に取得し、株間で比較することが可能となった。 ○これからの課題 PDOとメタゲノムデータの連携 特定の微生物や病原遺伝子の割合を、他のデータと比較 <本研究による拡張> 1. 疾病タームの追加(29ターム) 2. 菌株とのマッピングに必要なobject propertyを追加 v C, 病原性関連遺伝子(VF)のDB作成、RDF化 ①DBの新規取得 2014年公開のGOLD Release v.5を取得 Project statusが”complete” or “complete and published”のBacteriaを抽出 2,902株 ②前DB作成時点で”complete”だった株を追加 計2,918株 ③全菌株の分離源、種としての関連疾病を以下の方法で調査 ・BioprojectIDによる検索(NCBI Bioproject/Nucleotide/BioSample) ・ゲノム解析論文の調査 ・株名によるGoogle検索でヒットした論文の調査 ・菌株保存機関(ATCC/DSMZ)のIDによる検索 ④GOLDに入っていない2014年7月以降のゲノムデータをマニュアルで追加 499株 これまでにRDF化した疾病関連菌株:591株 △元にした2012年版GOLD DBの記載内容に依存 同じ種でもRDF化された株とされていない株が混在 △RDF構造の不備 菌株そのものが病気を引き起こす原因であるかは不明(日和見菌など) →環境株/他生物株/ヒト由来株による病原性の違いが表現されていない 241菌種、1,076株が何らかの疾病と関連 合計1,575菌株についてRDF化 “disease name” “host name” “strain name” ido:disorder PDO_ID NCBI:taxon Biosample ID “symptom name” CSSO_ID ido:host rdfs:label rdfs:label rdfs:label rdf:Bag ro:has_symptom rdf:type ro:host_of pdo:hasInfectiousAgent/ pdo:hasRelatedOrganism rdf:type rdfs:label 宿主 菌種 疾病 ro:has_host pdo:mayCause/ pdo:isRelatedTo 症状 rdf:type rdf:_1 skos:subClassOf pdo:strainType <PDO-菌株RDF構造>トリプル数:36,931 pdo:pathogenicity ToHumans “group/ serotype name” pdo:subGroup skos:broader NCBI:taxon rdfs:label “species name” rdf:type ido:infecti ous agent pdo:sufferFrom PDO_ID “agent type” pdo:agentType skos:broader “strain type” “Yes/No” CSSO_ID rdf:_2 NCBI:taxon skos:broader mccv:isolation source description “isolation source” NCBI:taxon mccv:strain DBの更新およびRDFの修正が必要 病原性因子=微生物が宿主に疾病を起こすために必要な因子 例)毒素、表面付着因子、分泌系 菌株によってVFの有無に違いがある メタゲノムデータ中に病原性関連遺伝子が存在するかどうか→リファレンスとなるDBが必要 ①DBの取得 Virulence factors of Pathogenic Bacteria (VFDB, http://www.mgc.ac.cn/VFs/) から種ごとにVFをまとめたリストを取得 DB化した細菌種(25種) ②VFを抽出する菌株の選択 RDF化に使用した菌株リストから各種の菌株を選択し、Refseqよりアミノ酸配列を取得 1,168株 全アミノ酸について種ごとにAll to AllのBLASTP解析 BLASTP結果を加工(coverage > 95%、identity > 80%の結果のみ以下の解析に使用) ③VFの抽出 OrthoMCLを用い、アミノ酸のortholog groupを作成 VFDB中に含まれるアミノ酸と同じortholog groupに属するアミノ酸を菌株VFとして抽出 <本研究による拡張> 1. PDOターム追加に伴う症状語句の追加 2. 他オントロジーとのマッピングの修正 Bacillus Bartonella Bordetella Brucella Burkholderia Campyrobacter Chlamydia Clostridium Corynebacterium Enterococcus Escherichia Haemophilus Helicbacter Legionella Listeria Mycobacterium Mycoplasma Neisseria Pseudomonas Salmonella Shigella Staphylococcus Streptococcus Vibrio Yersinia <VF-菌株RDF構造> VFのDB作成、RDF化 mccv:strain “VF name” NCBI:prot ein NCBI:prot ein NCBI:prot ein “VF name” “VF name” Y. pestis菌株リスト VFリスト <VF-菌株RDFを用いたSPARQL検索> 例:Bubonic plague(腺ペスト) を引き起こす種のVFリストを取得 PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX pdo: <http://purl.jp/bio/11/pdo/> PREFIX skos: <http://www.w3.org/2004/02/skos/core#> SELECT DISTINCT ?proteinName ?project ?protein WHERE { ?sp pdo:mayCause pdo:PDO_000107 . ?ID skos:broader ?sp . {?strain pdo:hasSampleID ?ID.} UNION {?strain pdo:hasTaxonID ?ID.} ?strain pdo:hasProjectID ?project . ?strain rdfs:label ?strainName . ?strain pdo:hasVirulenceFactor ?protein . ?protein rdfs:label ?proteinName . } 上記菌株RDFと結合 heatmap化 <疾病-症状マッピングの修正、追加> 以下のデータベース・辞書でタームを検索 medical dictionary (http://medical-dictionary.thefreedictionary.com/) Dorland's Medical Dictionary for Health Care Consumers Mosby‘s Medical Dictionary, 8th editionの2種を選択 Google scholar検索(case数が多い論文等) The Gale Encyclopedia of Medicine Merck manual Home health handbook PDO160タームについてマッピング 主な病変部位による 階層構造 “symptom name” rdfs:label skos:broader pdo:hasSampleID pdo:hasProjectID Bioproject ID pdo:hasTaxonID pdo:hasProjectID 主な症状発生部位 による階層構造 例)メタゲノムデータにおける壊死性大腸炎の 原因菌が分類される属の割合 菌株 pdo:hasVirulenceFactor rdf:type Biosample ID NCBI:taxon pdo:hasSampleID pdo:hasProjectID Bioproject ID pdo:hasTaxonID ○類似部位で起こる疾病をまとめて検索できる ○類義語、同義語にも対応 ○症状タームから関連する疾病タームを検索可能 ○株ごとの情報(感染性、毒性の有無)も記載 ○疾病・症状、系統、株の特徴からゲノムデータを検索可能 ○VFに注目した菌株の比較が可能(株情報、分離源による区別も可能) ○メタゲノムデータ中のVFを抽出するためのリファレンスDBとして使用可能 Licensed under a Creative Commons表示2.1日本 license (c)2015 山本希(東京工業大学)

研究背景と目的 まとめと課題 - biosciencedbc.jp · 2017-02-09 · Dorland's Medical Dictionary for Health Care Consumers Mosbyʻs Medical Dictionary, 8th editionの2種を選択

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 研究背景と目的 まとめと課題 - biosciencedbc.jp · 2017-02-09 · Dorland's Medical Dictionary for Health Care Consumers Mosbyʻs Medical Dictionary, 8th editionの2種を選択

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=288

>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

102>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=671

55>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=160

67>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

101>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=365

47>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

100>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=305

05>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

108>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=365

45>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=365

07>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

103>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=167

00>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=239

345>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

082>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

104>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

105>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=34>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=106

38>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

106>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=239

341>

<http

://w

ww

.ncb

i.nlm

.nih

.gov

/bio

proj

ect/?

term

=240

085>

ailcaf1cnfflgAflgBflgCflgDflgEflgFflgGflgHflgIflgJflgKflgLflgMflgNflhAflhBflhCflhEfliAfliCfliDfliEfliFfliGfliHfliIfliJfliKfliLfliMfliNfliOfliPfliQfliRfliSfliTfliZinvirp1irp2lcrE/yopNlcrGlcrO/yscIlcrQ/yscMlcrRlcrVplapsaApsn/fyuAsycD/lcrHsycNtyeAunnamed genevirF/lcrFvirG/yscWybtAybtEybtPybtQybtSybtTybtUybtXylpB/yscJymtyopByopDyopEyopHyopJ/yopPyopMyopO/ypkAyopR/yscH/lcrPyopTyplAyscAyscByscCyscDyscEyscFyscGyscKyscLyscNyscOyscPyscQyscRyscSyscTyscUyscV/lcrDyscXyscY

疾病関連語句オントロジーを利用したゲノム、メタゲノムデータのRDF 化と利用 山本希1)、岡本忍2)、川島秀一2)、鈴木真也3)、森宙史3)、黒川顕1)、MicrobeDB.jpプロジェクトチーム1)2)3)

 1)東京工業大学地球生命研究所 2)情報・システム研究機構 ライフサイエンス統合データベースセンター   3)東京工業大学大学院生命理工学研究科

 新型シーケンサーの普及により、ヒト疾病に関連する細菌のゲノムやメタゲノム解析が 盛んに行われ、公共のデータベース(DB)に登録されている。これまでに疾病関連語句 オントロジー(PDO)および症状語句オントロジー(CSSO)を構築し、同義語・和訳 の登録や他オントロジーとの対応づけを行った。また公共のDBに登録されている約560 の細菌株ゲノム配列データとのマッピングRDFを作成した。 しかし、登録ゲノムデータが増加している事や、疾病メタデータの記載が種内で統一 されていない事から、検索しても得られるデータが不十分であった。 また、メタゲノムデータ中に疾病を引き起こす病原性関連遺伝子が存在するかどうか、 さらにはその種類や割合を他データと比較する際にリファレンスとなるDBが必要となる。 本研究ではそのためにオントロジーの継続開発、病原性遺伝子DBの作成および PDO-菌株-VFデータのRDF化を行った。

研究背景と目的 まとめと課題

A, オントロジーの開発

B, 疾病関連菌株ゲノムデータのRDF化

PDO(Pathogenic Disease Ontology)ver 0.6 CSSO(Clinical Signs and Symptoms Ontology)ver 0.5 ヒトの細菌・真核微生物の感染症および関連疾病についてのオントロジー  クラス数:358

ヒトが疾病によって示す症状についてのオントロジー クラス数:301

 本研究では約1,500のゲノムデータについてPDOとのマッピングを行い、 検索可能データの拡充を図った。 また、PDOで定義された疾病に関連する25属の細菌について、既存の病原性 関連遺伝子DBを元に、各菌株のもつVFをまとめたDBを作成し、RDF化した。 これにより特定の疾病について、各株の系統や環境などのメタデータと病原性 遺伝子の有無を同時に取得し、株間で比較することが可能となった。 ○これからの課題 PDOとメタゲノムデータの連携 特定の微生物や病原遺伝子の割合を、他のデータと比較

<本研究による拡張> 1. 疾病タームの追加(29ターム) 2. 菌株とのマッピングに必要なobject propertyを追加

v

C, 病原性関連遺伝子(VF)のDB作成、RDF化

①DBの新規取得 2014年公開のGOLD Release v.5を取得 Project statusが”complete” or “complete and published”のBacteriaを抽出 2,902株 ②前DB作成時点で”complete”だった株を追加 計2,918株 ③全菌株の分離源、種としての関連疾病を以下の方法で調査 ・BioprojectIDによる検索(NCBI Bioproject/Nucleotide/BioSample) ・ゲノム解析論文の調査 ・株名によるGoogle検索でヒットした論文の調査 ・菌株保存機関(ATCC/DSMZ)のIDによる検索 ④GOLDに入っていない2014年7月以降のゲノムデータをマニュアルで追加 499株  

これまでにRDF化した疾病関連菌株:591株 △元にした2012年版GOLD DBの記載内容に依存  同じ種でもRDF化された株とされていない株が混在 △RDF構造の不備  菌株そのものが病気を引き起こす原因であるかは不明(日和見菌など) →環境株/他生物株/ヒト由来株による病原性の違いが表現されていない

241菌種、1,076株が何らかの疾病と関連

合計1,575菌株についてRDF化

“disease name”

“host name”

“strain name”

ido:disorder

PDO_ID

NCBI:taxon

BiosampleID

“symptom name” CSSO_ID

ido:host

rdfs:label

rdfs:label

rdfs:label

rdf:Bag

ro:has_symptom

rdf:type

ro:host_of

pdo:hasInfectiousAgent/ pdo:hasRelatedOrganism

rdf:type rdfs:label

宿主

菌種 疾病

ro:has_host

pdo:mayCause/ pdo:isRelatedTo

症状

rdf:type

rdf:_1

skos:subClassOf

pdo:strainType

<PDO-菌株RDF構造>トリプル数:36,931

pdo:pathogenicity ToHumans

“group/serotype name”

pdo:subGroup

skos:broader

NCBI:taxon

rdfs:label “species name”

rdf:type

ido:infectious agent

pdo:sufferFrom PDO_ID

“agent type”

pdo:agentType

skos:broader

“strain type” “Yes/No”

CSSO_ID

rdf:_2

NCBI:taxon

skos:broader

mccv:isolation source description

“isolation source”

NCBI:taxon

mccv:strain

DBの更新およびRDFの修正が必要

病原性因子=微生物が宿主に疾病を起こすために必要な因子       例)毒素、表面付着因子、分泌系 菌株によってVFの有無に違いがある メタゲノムデータ中に病原性関連遺伝子が存在するかどうか→リファレンスとなるDBが必要

①DBの取得 Virulence factors of Pathogenic Bacteria (VFDB, http://www.mgc.ac.cn/VFs/) から種ごとにVFをまとめたリストを取得 DB化した細菌種(25種) ②VFを抽出する菌株の選択 RDF化に使用した菌株リストから各種の菌株を選択し、Refseqよりアミノ酸配列を取得 1,168株 全アミノ酸について種ごとにAll to AllのBLASTP解析 BLASTP結果を加工(coverage > 95%、identity > 80%の結果のみ以下の解析に使用) ③VFの抽出 OrthoMCLを用い、アミノ酸のortholog groupを作成 VFDB中に含まれるアミノ酸と同じortholog groupに属するアミノ酸を菌株VFとして抽出  

<本研究による拡張> 1.  PDOターム追加に伴う症状語句の追加 2.  他オントロジーとのマッピングの修正

Bacillus Bartonella Bordetella Brucella Burkholderia

Campyrobacter Chlamydia Clostridium Corynebacterium Enterococcus

Escherichia Haemophilus Helicbacter Legionella Listeria

Mycobacterium Mycoplasma Neisseria Pseudomonas Salmonella

Shigella Staphylococcus Streptococcus Vibrio Yersinia

<VF-菌株RDF構造>

VFのDB作成、RDF化

mccv:strain

“VF name” NCBI:protein

NCBI:protein

NCBI:protein “VF name”

“VF name”

Y. pestis菌株リスト

VFリスト

<VF-菌株RDFを用いたSPARQL検索> 例:Bubonic plague(腺ペスト) を引き起こす種のVFリストを取得 PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX pdo: <http://purl.jp/bio/11/pdo/> PREFIX skos: <http://www.w3.org/2004/02/skos/core#> SELECT DISTINCT ?proteinName ?project ?protein WHERE { ?sp pdo:mayCause pdo:PDO_000107 . ?ID skos:broader ?sp . {?strain pdo:hasSampleID ?ID.} UNION {?strain pdo:hasTaxonID ?ID.} ?strain pdo:hasProjectID ?project . ?strain rdfs:label ?strainName . ?strain pdo:hasVirulenceFactor ?protein . ?protein rdfs:label ?proteinName . }

上記菌株RDFと結合

heatmap化

<疾病-症状マッピングの修正、追加> 以下のデータベース・辞書でタームを検索   medical dictionary (http://medical-dictionary.thefreedictionary.com/) Dorland's Medical Dictionary for Health Care Consumers   Mosby‘s Medical Dictionary, 8th editionの2種を選択   Google scholar検索(case数が多い論文等)   The Gale Encyclopedia of Medicine   Merck manual Home health handbook

PDO160タームについてマッピング 主な病変部位による

階層構造

“symptom name”

rdfs:label

skos:broader

pdo:hasSampleID pdo:hasProjectID

BioprojectID

pdo:hasTaxonID

pdo:hasProjectID

主な症状発生部位による階層構造

例)メタゲノムデータにおける壊死性大腸炎の   原因菌が分類される属の割合

菌株

pdo:hasVirulenceFactor

rdf:type

BiosampleID NCBI:taxon

pdo:hasSampleID pdo:hasProjectID

BioprojectID

pdo:hasTaxonID

○類似部位で起こる疾病をまとめて検索できる ○類義語、同義語にも対応 ○症状タームから関連する疾病タームを検索可能

○株ごとの情報(感染性、毒性の有無)も記載 ○疾病・症状、系統、株の特徴からゲノムデータを検索可能

○VFに注目した菌株の比較が可能(株情報、分離源による区別も可能) ○メタゲノムデータ中のVFを抽出するためのリファレンスDBとして使用可能

Licensed under a Creative Commons表示2.1日本 license (c)2015 山本希(東京工業大学)