Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=288
>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=240
102>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=671
55>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=160
67>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=240
101>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=365
47>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=240
100>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=305
05>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=240
108>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=365
45>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=365
07>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=240
103>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=167
00>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=239
345>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=240
082>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=240
104>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=240
105>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=34>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=106
38>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=240
106>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=239
341>
<http
://w
ww
.ncb
i.nlm
.nih
.gov
/bio
proj
ect/?
term
=240
085>
ailcaf1cnfflgAflgBflgCflgDflgEflgFflgGflgHflgIflgJflgKflgLflgMflgNflhAflhBflhCflhEfliAfliCfliDfliEfliFfliGfliHfliIfliJfliKfliLfliMfliNfliOfliPfliQfliRfliSfliTfliZinvirp1irp2lcrE/yopNlcrGlcrO/yscIlcrQ/yscMlcrRlcrVplapsaApsn/fyuAsycD/lcrHsycNtyeAunnamed genevirF/lcrFvirG/yscWybtAybtEybtPybtQybtSybtTybtUybtXylpB/yscJymtyopByopDyopEyopHyopJ/yopPyopMyopO/ypkAyopR/yscH/lcrPyopTyplAyscAyscByscCyscDyscEyscFyscGyscKyscLyscNyscOyscPyscQyscRyscSyscTyscUyscV/lcrDyscXyscY
疾病関連語句オントロジーを利用したゲノム、メタゲノムデータのRDF 化と利用 山本希1)、岡本忍2)、川島秀一2)、鈴木真也3)、森宙史3)、黒川顕1)、MicrobeDB.jpプロジェクトチーム1)2)3)
1)東京工業大学地球生命研究所 2)情報・システム研究機構 ライフサイエンス統合データベースセンター 3)東京工業大学大学院生命理工学研究科
新型シーケンサーの普及により、ヒト疾病に関連する細菌のゲノムやメタゲノム解析が 盛んに行われ、公共のデータベース(DB)に登録されている。これまでに疾病関連語句 オントロジー(PDO)および症状語句オントロジー(CSSO)を構築し、同義語・和訳 の登録や他オントロジーとの対応づけを行った。また公共のDBに登録されている約560 の細菌株ゲノム配列データとのマッピングRDFを作成した。 しかし、登録ゲノムデータが増加している事や、疾病メタデータの記載が種内で統一 されていない事から、検索しても得られるデータが不十分であった。 また、メタゲノムデータ中に疾病を引き起こす病原性関連遺伝子が存在するかどうか、 さらにはその種類や割合を他データと比較する際にリファレンスとなるDBが必要となる。 本研究ではそのためにオントロジーの継続開発、病原性遺伝子DBの作成および PDO-菌株-VFデータのRDF化を行った。
研究背景と目的 まとめと課題
A, オントロジーの開発
B, 疾病関連菌株ゲノムデータのRDF化
PDO(Pathogenic Disease Ontology)ver 0.6 CSSO(Clinical Signs and Symptoms Ontology)ver 0.5 ヒトの細菌・真核微生物の感染症および関連疾病についてのオントロジー クラス数:358
ヒトが疾病によって示す症状についてのオントロジー クラス数:301
本研究では約1,500のゲノムデータについてPDOとのマッピングを行い、 検索可能データの拡充を図った。 また、PDOで定義された疾病に関連する25属の細菌について、既存の病原性 関連遺伝子DBを元に、各菌株のもつVFをまとめたDBを作成し、RDF化した。 これにより特定の疾病について、各株の系統や環境などのメタデータと病原性 遺伝子の有無を同時に取得し、株間で比較することが可能となった。 ○これからの課題 PDOとメタゲノムデータの連携 特定の微生物や病原遺伝子の割合を、他のデータと比較
<本研究による拡張> 1. 疾病タームの追加(29ターム) 2. 菌株とのマッピングに必要なobject propertyを追加
v
C, 病原性関連遺伝子(VF)のDB作成、RDF化
①DBの新規取得 2014年公開のGOLD Release v.5を取得 Project statusが”complete” or “complete and published”のBacteriaを抽出 2,902株 ②前DB作成時点で”complete”だった株を追加 計2,918株 ③全菌株の分離源、種としての関連疾病を以下の方法で調査 ・BioprojectIDによる検索(NCBI Bioproject/Nucleotide/BioSample) ・ゲノム解析論文の調査 ・株名によるGoogle検索でヒットした論文の調査 ・菌株保存機関(ATCC/DSMZ)のIDによる検索 ④GOLDに入っていない2014年7月以降のゲノムデータをマニュアルで追加 499株
これまでにRDF化した疾病関連菌株:591株 △元にした2012年版GOLD DBの記載内容に依存 同じ種でもRDF化された株とされていない株が混在 △RDF構造の不備 菌株そのものが病気を引き起こす原因であるかは不明(日和見菌など) →環境株/他生物株/ヒト由来株による病原性の違いが表現されていない
241菌種、1,076株が何らかの疾病と関連
合計1,575菌株についてRDF化
“disease name”
“host name”
“strain name”
ido:disorder
PDO_ID
NCBI:taxon
BiosampleID
“symptom name” CSSO_ID
ido:host
rdfs:label
rdfs:label
rdfs:label
rdf:Bag
ro:has_symptom
rdf:type
ro:host_of
pdo:hasInfectiousAgent/ pdo:hasRelatedOrganism
rdf:type rdfs:label
宿主
菌種 疾病
ro:has_host
pdo:mayCause/ pdo:isRelatedTo
症状
rdf:type
rdf:_1
skos:subClassOf
pdo:strainType
<PDO-菌株RDF構造>トリプル数:36,931
pdo:pathogenicity ToHumans
“group/serotype name”
pdo:subGroup
skos:broader
NCBI:taxon
rdfs:label “species name”
rdf:type
ido:infectious agent
pdo:sufferFrom PDO_ID
“agent type”
pdo:agentType
skos:broader
“strain type” “Yes/No”
CSSO_ID
rdf:_2
NCBI:taxon
skos:broader
mccv:isolation source description
“isolation source”
NCBI:taxon
mccv:strain
DBの更新およびRDFの修正が必要
病原性因子=微生物が宿主に疾病を起こすために必要な因子 例)毒素、表面付着因子、分泌系 菌株によってVFの有無に違いがある メタゲノムデータ中に病原性関連遺伝子が存在するかどうか→リファレンスとなるDBが必要
①DBの取得 Virulence factors of Pathogenic Bacteria (VFDB, http://www.mgc.ac.cn/VFs/) から種ごとにVFをまとめたリストを取得 DB化した細菌種(25種) ②VFを抽出する菌株の選択 RDF化に使用した菌株リストから各種の菌株を選択し、Refseqよりアミノ酸配列を取得 1,168株 全アミノ酸について種ごとにAll to AllのBLASTP解析 BLASTP結果を加工(coverage > 95%、identity > 80%の結果のみ以下の解析に使用) ③VFの抽出 OrthoMCLを用い、アミノ酸のortholog groupを作成 VFDB中に含まれるアミノ酸と同じortholog groupに属するアミノ酸を菌株VFとして抽出
<本研究による拡張> 1. PDOターム追加に伴う症状語句の追加 2. 他オントロジーとのマッピングの修正
Bacillus Bartonella Bordetella Brucella Burkholderia
Campyrobacter Chlamydia Clostridium Corynebacterium Enterococcus
Escherichia Haemophilus Helicbacter Legionella Listeria
Mycobacterium Mycoplasma Neisseria Pseudomonas Salmonella
Shigella Staphylococcus Streptococcus Vibrio Yersinia
<VF-菌株RDF構造>
VFのDB作成、RDF化
mccv:strain
“VF name” NCBI:protein
NCBI:protein
NCBI:protein “VF name”
“VF name”
Y. pestis菌株リスト
VFリスト
<VF-菌株RDFを用いたSPARQL検索> 例:Bubonic plague(腺ペスト) を引き起こす種のVFリストを取得 PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX pdo: <http://purl.jp/bio/11/pdo/> PREFIX skos: <http://www.w3.org/2004/02/skos/core#> SELECT DISTINCT ?proteinName ?project ?protein WHERE { ?sp pdo:mayCause pdo:PDO_000107 . ?ID skos:broader ?sp . {?strain pdo:hasSampleID ?ID.} UNION {?strain pdo:hasTaxonID ?ID.} ?strain pdo:hasProjectID ?project . ?strain rdfs:label ?strainName . ?strain pdo:hasVirulenceFactor ?protein . ?protein rdfs:label ?proteinName . }
上記菌株RDFと結合
heatmap化
<疾病-症状マッピングの修正、追加> 以下のデータベース・辞書でタームを検索 medical dictionary (http://medical-dictionary.thefreedictionary.com/) Dorland's Medical Dictionary for Health Care Consumers Mosby‘s Medical Dictionary, 8th editionの2種を選択 Google scholar検索(case数が多い論文等) The Gale Encyclopedia of Medicine Merck manual Home health handbook
PDO160タームについてマッピング 主な病変部位による
階層構造
“symptom name”
rdfs:label
skos:broader
pdo:hasSampleID pdo:hasProjectID
BioprojectID
pdo:hasTaxonID
pdo:hasProjectID
主な症状発生部位による階層構造
例)メタゲノムデータにおける壊死性大腸炎の 原因菌が分類される属の割合
菌株
pdo:hasVirulenceFactor
rdf:type
BiosampleID NCBI:taxon
pdo:hasSampleID pdo:hasProjectID
BioprojectID
pdo:hasTaxonID
○類似部位で起こる疾病をまとめて検索できる ○類義語、同義語にも対応 ○症状タームから関連する疾病タームを検索可能
○株ごとの情報(感染性、毒性の有無)も記載 ○疾病・症状、系統、株の特徴からゲノムデータを検索可能
○VFに注目した菌株の比較が可能(株情報、分離源による区別も可能) ○メタゲノムデータ中のVFを抽出するためのリファレンスDBとして使用可能
Licensed under a Creative Commons表示2.1日本 license (c)2015 山本希(東京工業大学)