30
2013/9/20 24回統合DBミーティング Integrated MTG in NIBIO

24th mtg 1

Embed Size (px)

Citation preview

2013/9/20

第24回統合DBミーティングIntegrated MTG in NIBIO

本日の予定

• Sagace

– アクセス解析

– 進捗報告

– Sagaceに追加するDBについて

・医薬基盤研内のデータのRDF化

– 希少疾病用医薬品のRDF化について

• 厚生労働科学研究成果データベース

– カタログ化と論文化について

• 今後の予定

追加予定のDBについて

ファセット分類/データベース名 ウイルス図鑑 KEGG BRITE KEGG ORTHOLOGY

データベースの種類

文献・用語集・辞書

その他のデータベース その他のデータベース

生物種 微生物 特定生物なし 特定生物なし

生体の階層 個体 その他 遺伝子

分類 A B A

進捗報告

• 難病情報センターのインデックスの追加

• ファセット部分の表示の高速化

http://www.mkbergman.com/968/a-new-best-friend-gephi-for-large-scale-networks/

Linked Open Data

セマンティックウェブ

• データが意味を持ちつつ繋がりを作るデータのウェブ

• コンピュータが意味を理解可能な構造化されたデータを使ったウェブ

• Linked Open Dataでは,セマンティック・ウェブ分野で検討されてきた知識の構造化手法を適用

活用例

• 一般

– DBpedia, BBC, Data.gov.uk,

– Geonames, RDF Book Mashup

• ライフサイエンス・医薬

– Bio2RDF, UniProt, KEGG

– Open Drug Data, ChEMBL, Drugbank

実装方法

• 複雑なグラフを書く

– RDF (RDF/XML,N3,Turtleなど)など

• html上で書く

– Microdata, RDFa Liteなど

RDF(Resource Description

Framework)

• データ間の関係性を記述し,データを連結させていくフレームワーク

(8薬A)第81号 イミグルセラーゼ

医薬品の名称

基本的な考え方はグラフ

ライフサイエンスにおけるRDF化のメリット

データ構成が複雑かつファジーなデータを柔軟に統合することが可能

基本的な考え方はグラフ

• グラフ間の関係性は明示する。

(8薬A)第81号 イミグルセラーゼ

医薬品の名称

RDFの場合

• トリプルでグラフを表記

URI URI

希少疾病用医薬品のRDF化

• Object(目的語)に複数のPredicate(述語)をSubject(主語)に 付与した場合

希少疾病用医薬品のRDF化

Predicateの種類を色で示した場合

• 同種関係性のデータは同じpredicate

で書かれている方が望ましい。

• ID化されているデータの活用でハブとなるノードを増やせる。

希少疾病用医薬品のRDF化

ハブ

RDFの記述方法(Turtle形式の場合)

@prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> .

@prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> .

@prefix db: <http://dbpedia.org/ontology/> .

<http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号>

drgb:name "イミグルセラーゼ(遺伝子組換え)";

drgn:designationApplicant "ジェンザイム・ジャパン㈱";

db:icd10 "E752" .

ラフになる。

(8 薬 A)第 81 号

イミグルセラーゼ

ジェンザイム・ジャパン㈱

E752

医薬品の名称

販売者

ICD10

Subject

Predicate

Object

RDFの記述方法(Turtle形式の場合)

@prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> .

@prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> .

@prefix db: <http://dbpedia.org/ontology/> .

<http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号>

drgb:name "イミグルセラーゼ(遺伝子組換え)";

drgn:designationApplicant "ジェンザイム・ジャパン㈱";

db:icd10 "E752" .

汎用性の高いPredicateを可能な限り使用することも同種のデータを取り出すことを考えると重要

データの取得・検索方法

• SPARQLの利用

• SPARQL(SPARQL Protocol and RDF Query

Language)

– RDFを検索・操作するためのクエリ言語の一種

PREFIX ab: <http://learningsparql.com/ns/addressbook#>

SELECT ?craigEmail WHERE

{

?person ab:firstName "Craig" .

?person ab:email ?craigEmail . }

@prefix ab: <http://learningsparql.com/ns/addressbook#> .

@prefix d: <http://learningsparql.com/ns/data#> .

d:i9771 ab:firstName "Cindy" .

d:i9771 ab:lastName "Marshall" .

d:i9771 ab:homeTel "(245) 646-5488" .

d:i9771 ab:email "[email protected]" .

d:i8301 ab:firstName "Craig" .

d:i8301 ab:lastName "Ellis" .

d:i8301 ab:email "[email protected]" .

d:i8301 ab:email "[email protected]" .

--------------------------------------------

| craigEmail |

=========================

| "[email protected]" |

| "[email protected]” |

--------------------------------------------

RDF (turtle形式)

SPARQL

firstNameが”Craig”という人をpersonとした時にその人のemailを

craigEmailとして出して!

実行結果

SPARQL endpoint例:DBpedia

• http://dbpedia.org/snorql

クエリ例

• 中田ヤスタカさんがプロデュースしたアーティストの名前とアルバム名を取り出してくださいな。PREFIX d: <http://dbpedia.org/ontology/>

SELECT ?artistName ?albumName

WHERE

{

?album d:producer :Yasutaka_Nakata;

d:musicalArtist ?artist;

rdfs:label ?albumName.

?artist rdfs:label ?artistName.

}

実行結果

近況

• ひと通り希少疾病用医薬品のデータをRDF化

• 研究振興部の希少疾病用医薬品・希少疾病用医療機器の業務支援システムへの導入を予定

– RDFを自動作成

– ウェブにRDFデータのダウンロード機能を搭載

今後の予定(RDF化について)

• 希少疾病用医薬品のデータとToxygatesのデータをRDFによる統合

• 実験動物研究資源バンクのRDF化

• 上記データをダウンロード可能へ

• SPARQL endpointの立ち上げ

• 上記RDFデータをSPARQL endpoint

から検索可能に。

祝!論文アクセプト!!

厚生労働科学研究成果データベース

• 文献情報

– 報告区分,研究課題名,研究年度,研究代表者と所属機関,研究費,開始年度から終了予定年度

• 研究報告書

– 概要版

– 本文(添付ファイルのPDF)

カタログのみにする場合

• 2009年度までは調査済み

• 検出されたデータベース

– 2009:17件,2008:16件,2007:13件,2006:9

件,2005:7件,2004以前:14件

• DB名,URL,タイトル,文献,連絡先,運用機関が調査済み

カタログのみにする場合

• 2010年度以降

– “データベース”で検索

– 該当する報告書の概要等をチェック

– データベースと関連のありそうなものをピックアップ(皆さんの協力要)

– 除:カタログに既に掲載,調査済み

– カタログに掲載する価値の有無を判断

– カタログに掲載するためのメタデータ

(名称,URL,運用機関,説明,生物種,文献等)を記入

論文にする場合

• カタログに必要な情報+αを調査

• 2009年度以前も調査が必要。

• 必要なデータはcsv形式でダウンロード可能(本文はPDFのため除く)

• DBの名称やURLは報告書に無いことも多

いため,分担作業が必要(カタログ化の場合も同様)

• 2012年 “データベース”で検索

• 201件ヒット,うち調査が必要な(DBと関連がありそうなDB)報告書132件

今後の予定

• 9月– 文献データを検索結果に反映

– Apache Solrの検討と実装

• 10月– トーゴーの日

• 11月– 実験動物バンクのRDF化

– 外部データベースとの連携

• 12月– 分子生物学会

• 1月– BioHackathon 国内版

次回

• 10月25日(金)?