Upload
maori-ito
View
309
Download
0
Embed Size (px)
Citation preview
本日の予定
• Sagace
– アクセス解析
– 進捗報告
– Sagaceに追加するDBについて
・医薬基盤研内のデータのRDF化
– 希少疾病用医薬品のRDF化について
• 厚生労働科学研究成果データベース
– カタログ化と論文化について
• 今後の予定
追加予定のDBについて
ファセット分類/データベース名 ウイルス図鑑 KEGG BRITE KEGG ORTHOLOGY
データベースの種類
文献・用語集・辞書
その他のデータベース その他のデータベース
生物種 微生物 特定生物なし 特定生物なし
生体の階層 個体 その他 遺伝子
分類 A B A
セマンティックウェブ
• データが意味を持ちつつ繋がりを作るデータのウェブ
• コンピュータが意味を理解可能な構造化されたデータを使ったウェブ
• Linked Open Dataでは,セマンティック・ウェブ分野で検討されてきた知識の構造化手法を適用
活用例
• 一般
– DBpedia, BBC, Data.gov.uk,
– Geonames, RDF Book Mashup
• ライフサイエンス・医薬
– Bio2RDF, UniProt, KEGG
– Open Drug Data, ChEMBL, Drugbank
RDF(Resource Description
Framework)
• データ間の関係性を記述し,データを連結させていくフレームワーク
(8薬A)第81号 イミグルセラーゼ
医薬品の名称
基本的な考え方はグラフ
RDFの記述方法(Turtle形式の場合)
@prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> .
@prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> .
@prefix db: <http://dbpedia.org/ontology/> .
<http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号>
drgb:name "イミグルセラーゼ(遺伝子組換え)";
drgn:designationApplicant "ジェンザイム・ジャパン㈱";
db:icd10 "E752" .
ラフになる。
(8 薬 A)第 81 号
イミグルセラーゼ
ジェンザイム・ジャパン㈱
E752
医薬品の名称
販売者
ICD10
Subject
Predicate
Object
RDFの記述方法(Turtle形式の場合)
@prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> .
@prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> .
@prefix db: <http://dbpedia.org/ontology/> .
<http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号>
drgb:name "イミグルセラーゼ(遺伝子組換え)";
drgn:designationApplicant "ジェンザイム・ジャパン㈱";
db:icd10 "E752" .
汎用性の高いPredicateを可能な限り使用することも同種のデータを取り出すことを考えると重要
PREFIX ab: <http://learningsparql.com/ns/addressbook#>
SELECT ?craigEmail WHERE
{
?person ab:firstName "Craig" .
?person ab:email ?craigEmail . }
@prefix ab: <http://learningsparql.com/ns/addressbook#> .
@prefix d: <http://learningsparql.com/ns/data#> .
d:i9771 ab:firstName "Cindy" .
d:i9771 ab:lastName "Marshall" .
d:i9771 ab:homeTel "(245) 646-5488" .
d:i9771 ab:email "[email protected]" .
d:i8301 ab:firstName "Craig" .
d:i8301 ab:lastName "Ellis" .
d:i8301 ab:email "[email protected]" .
d:i8301 ab:email "[email protected]" .
--------------------------------------------
| craigEmail |
=========================
| "[email protected]" |
| "[email protected]” |
--------------------------------------------
RDF (turtle形式)
SPARQL
firstNameが”Craig”という人をpersonとした時にその人のemailを
craigEmailとして出して!
実行結果
SPARQL endpoint例:DBpedia
• http://dbpedia.org/snorql
クエリ例
• 中田ヤスタカさんがプロデュースしたアーティストの名前とアルバム名を取り出してくださいな。PREFIX d: <http://dbpedia.org/ontology/>
SELECT ?artistName ?albumName
WHERE
{
?album d:producer :Yasutaka_Nakata;
d:musicalArtist ?artist;
rdfs:label ?albumName.
?artist rdfs:label ?artistName.
}
近況
• ひと通り希少疾病用医薬品のデータをRDF化
• 研究振興部の希少疾病用医薬品・希少疾病用医療機器の業務支援システムへの導入を予定
– RDFを自動作成
– ウェブにRDFデータのダウンロード機能を搭載
今後の予定(RDF化について)
• 希少疾病用医薬品のデータとToxygatesのデータをRDFによる統合
• 実験動物研究資源バンクのRDF化
• 上記データをダウンロード可能へ
• SPARQL endpointの立ち上げ
• 上記RDFデータをSPARQL endpoint
から検索可能に。
祝!論文アクセプト!!
厚生労働科学研究成果データベース
• 文献情報
– 報告区分,研究課題名,研究年度,研究代表者と所属機関,研究費,開始年度から終了予定年度
• 研究報告書
– 概要版
– 本文(添付ファイルのPDF)
カタログのみにする場合
• 2009年度までは調査済み
• 検出されたデータベース
– 2009:17件,2008:16件,2007:13件,2006:9
件,2005:7件,2004以前:14件
• DB名,URL,タイトル,文献,連絡先,運用機関が調査済み
カタログのみにする場合
• 2010年度以降
– “データベース”で検索
– 該当する報告書の概要等をチェック
– データベースと関連のありそうなものをピックアップ(皆さんの協力要)
– 除:カタログに既に掲載,調査済み
– カタログに掲載する価値の有無を判断
– カタログに掲載するためのメタデータ
(名称,URL,運用機関,説明,生物種,文献等)を記入
論文にする場合
• カタログに必要な情報+αを調査
• 2009年度以前も調査が必要。
• 必要なデータはcsv形式でダウンロード可能(本文はPDFのため除く)
• DBの名称やURLは報告書に無いことも多
いため,分担作業が必要(カタログ化の場合も同様)
• 2012年 “データベース”で検索
• 201件ヒット,うち調査が必要な(DBと関連がありそうなDB)報告書132件
今後の予定
• 9月– 文献データを検索結果に反映
– Apache Solrの検討と実装
• 10月– トーゴーの日
• 11月– 実験動物バンクのRDF化
– 外部データベースとの連携
• 12月– 分子生物学会
• 1月– BioHackathon 国内版