1
Licensed under a Creative Commons 表⽰ 4.0 国際 © 2016 ⼤波純⼀(バイオサイエンスデータベースセンター) トーゴーの⽇シンポジウム2016 〜統合データベース、実りの時へ〜 会期︓2016年10⽉5⽇(⽔)-6⽇(⽊) 於︓東京⼤学弥⽣講堂 ○大波純一 1 、杉崎太一朗 2 、坂本麗 2 、平井信一 2 、牧口大旭 2 、川本祥子 3 、畠中秀樹 1 1.国立研究開発法人科学技術振興機構バイオサイエンスデータベースセンター(NBDC)、2.三井情報株式会社、 3.大学共同利用法人情報・システム研究機構ライフサイエンス統合データベースセンター(DBCLS生命科学データベース横断検索とは 利用者 ウェブ上の 生命科学系 DBの中で、 オートファジーという単語を 含むエントリは? 全部で6865ヒットしました。 タンパク質関連DB では774件、 エントリへのリンクは こちらです・・・ 横断検索システム インデックス インデックス インデックス インデックス インデックス インデックス 数十台のサーバに 検索対象となる データベース インデックスを配置 インデックス システム概要 キーワードに対し、データベースの一括検索を行い、 ヒット件数と、検索結果(対象へのリンク、ヒット箇所)を返すWeb検索システム 組織間連携 Sagace (医薬基盤・健康・栄養研) MEDALS.jp (産総研 molprof) JCGGDB横断検索 (産総研、糖鎖創薬技術研究センター) 生命科学DB横断検索 NBDC/DBCLSAgrID: 農畜産物ゲノム 情報データベース (農研機構) リンク関係 http://sagace.nibiohn.go.jp/ http://medals.jp/ http://jcggdb.jp/search/search.cgi?lang=jp http://agrid.dna.affrc.go.jp/ 横断検索データベースのうち、 研究所が選定するものを 検索対象としている。 搭載されている横断検索データベース の全てを検索対象としている。 搭載されている横断検索 データベースの全てを 検索対象としている。(NBDCと同じ) 検索インデックスの作成と提供 NBDC横断検索へのリンク http://biosciencedbc.jp/dbsearch/ 4省庁の別組織にサーバを分散配置し、 相互に参照しながら検索可能。 597件の生命科学系データベース 6400万件以上のエントリを対象に 検索可能 201610月時点 まとめ・今後の方針 ・生命科学データベース横断検索では品質向上のため以下の施策を実施している。 ・データのRDF化 ・検索クエリの分析と検索結果表示改善 →よりSemanticで品質の高いデータベース検索のために、改善を継続していく。 検索利用者の意図抽出アルゴリズムの構築 要旨 バイオサイエンスデータベースセンター(NBDC)では、生命科学分野のデータベースエントリを 文字列一致で検索する基盤として「生命科学データベース横断検索」を公開している。本サービ スでは592件のデータベースサイト、64,000,000件以上のエントリを検索対象としており、該当 分野の研究者や学生に広く利用されている。検索インデックスは医薬基盤・健康・栄養研究所、 農業・食品産業技術総合研究機構、産業技術総合研究所の創薬分子プロファイリング研究セン ター、産業技術総合研究所の創薬基盤研究部門と協調し、追加と更新を行っている。20165 月に検索エンジンの刷新とインデックス構成の変更を行い、パフォーマンス向上施策とした。さら にセマンティックな検索結果の需要に対応するため、検索利用者の検索意図を汲み取るクエリ 分析を新たに取り入れることと、搭載インデックスのRDF化について検討した。また15の大学附 属図書館から新しくリンクを設置いただき、利用拡大に努めている。 検索データのRDF化と公開 メタ情報を利用した詳細検索 2015年より、生物種や更新時期等のメタ情報や 対象のデータベースをカスタマイズして 検索条件を設定可能な「詳細検索」機能を追加 request response 生命科学データベース横断検索の情報検索高度化に向けた取り組み ・近年Webサービスの品質向上のため、アクセス解析を元にした利用者の意図抽出が盛んに行われている ・利用者のホスト情報を元にした利用層解析 ・利用時期(朝か夜か、平日か休日か、どの月がアクセスが多いか)の傾向 ・ページごとのアクセス数比較による興味診断 ・ページごとの滞在時間のモニタリング ・クリックするリンクからの興味診断 ・アクセス元ページの分析 等・・・ 一方、横断検索のようなサービスにおいては、利用者ごとに異なる検索キーワードでの検索が 行われることから、利用者の固有情報を排した上で、十分に多い件数の検索リクエストの情報があれば、 そのサービスを利用する利用者の検索意図を推定することが可能と予想される。 複数検索クエリを利用した意図抽出の例 NTCIRプロジェクト IMine-2タスクチームで実証された複数語検索情報の有用性 検索キーワードを利用した検索利用者の意思抽出を行い、 横断検索で表示する結果の品質向上に繋げる しかし、利用者の属性や研究分野の特定に繋がる解析は、様々な意味で困難 iPhone7 検索 iPhone7 画像 検索 iPhone7 ニュース 検索 現状の一般的な検索エンジンでは、日本語の文章による検索ではまだ十分な検索結果の精度が得られ ておらず、利用者は名詞をスペース区切りで検索し、必要とする情報を入手している場合が多い。 1つの単語での検索ではどのような意図でその語句を検索しているか推定し辛いが、2単語以上複数語検索では、 GoogleのVertical search(画像検索・ニュース検索等)に対応するような、特徴的な 「サブクエリ」("画像"や"ニュース")が含まれていれば、意図の推定が行い易い。この検証がNTCIR (NII Testbeds and Community for Information access Research)プロジェクトから2016年に報告された。 iPhone7の画像を探したい iPhone7のニュースを探したい iPhone7の何かの情報を探したい? (参考)Yamamoto et. al., "Overview of the NTCIR-12 IMine-2 Task", NTCIR 2016 複数語検索のパターニング 複数語検索のパターニングを、より一般的なクエリに対して効果的に行うために 機械学習を元にしたパターニングモデルとして、Query Template (Pandey and Punera, WWW 2012)や トピックモデル (Blei et. al., JMLR2003, Yan et. al ., WWW2013)が提唱されている。 2016年にはより高速・的確なモデルとしてPCTM (Pairwise Coupled topic Model)が 小西ら (WSDM 2016)によって提唱されている。 NCBI Pubmedで実施された複数語検索のパターニング Chemical–chemical context pattern #C and #C #C versus #C #C and #C interaction #C and #C combination #C plus #C #C with #C comparison of #C and #C interaction between #C and #C #C oxidase #C #C dehydrogenase #C combine #C and #C #C transporter #C NCBIでは、2015年にPubmedの検索クエリを解析し特に、Chemical(#C)とDisease(#D)を含む複数語検索 のペアを抽出した。このペアをLSA(Latest Semantic Analysis, Rehurek and Sojka, 2010)で分類し、 上に示すような頻出パターンに分類した。この情報を元にPubmedの検索結果表示方式への反映を行った (Huang and Lu, Database, 2016, 1–15, doi: 10.1093/database/baw025)。 Chemical–disease context pattern #D and #C #C induce #D #D treatment #C treatment of #D with #C #C #D review #D with #C #D child #C #D induce by #C #D due to #C #D treatment with #C role of #C in #D #C metabolism and #D 横断検索における複数検索クエリの利用 ・上記の例を検討した上で、横断検索が生命科学分野の多様なデータベースや文書を検索できる基盤であるこ とを踏まえ、以下の対応を開始した。 (1)予め特殊検索結果に反応する、クエリ用単語の一覧を選定 (例: 遺伝子、発現、配列、画像、特許、”人名”、”生物種名”、”日付” などをこれまでの 検索ログ情報等を利用して判別 (2)反応クエリで表示されるべき検索結果の表示方法を検討 (例: 遺伝子名がクエリに含まれる 遺伝子カテゴリのデータベースを上位に 人名単体で質問 Researchmap を上位に 「特許」がクエリに入っている 特許DBを上位に 日付(2012年)がクエリに入っている 更新日が2012年の情報を上位に ハンチントン舞踏病 遺伝子 検索 ハンチントン舞踏病 原因遺伝子 HTT huntingtin (Huntington disease) short (p) arm of chromosome 4 Genewikiより 遺伝子関連のデータが 上位に表示されるよう スコアリング調整 横断検索の検索結果の例(仮案) 複数語の検索クエリが投入された場合、 パターンとして指定された語句が 含まれているかどうかを判別する 検索意図から予測される結果が 明らかにデータベースの1件を指定可能 な場合、その情報を目立たせる 明らかに関連する情報については、 Google knowledgebaseのような フィールドの推薦を行う 20171月公開予定 横断検索では新検索エンジンElasticsearchへの刷新を20165月に実施した。 データベースの分類情報は、w3cで提案されているBiologicalDatabaseEntryのスキーマと、 Integbioデータベースカタログのタグ情報を取り入れている。Elasticsearchの検索データの RDF化プラグインとして"Elasticsearch-RDF-Jena-plugin"が知られている。 2017年にElasticsearchのプラグインを利用して 横断検索データのRDF化・Endpoint公開するため検証中 横断検索のクエリからの検索意図抽出の方針

生命科学データベース横断検索の情報検索高度化に …...(参考)Yamamoto et. al.,"Overview of the NTCIR-12 IMine-2 Task", NTCIR 2016 複数語検索のパターニング

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 生命科学データベース横断検索の情報検索高度化に …...(参考)Yamamoto et. al.,"Overview of the NTCIR-12 IMine-2 Task", NTCIR 2016 複数語検索のパターニング

Licensed under a Creative Commons 表⽰ 4.0 国際© 2016 ⼤波純⼀(バイオサイエンスデータベースセンター)

トーゴーの⽇シンポジウム2016 〜統合データベース、実りの時へ〜会期︓2016年10⽉5⽇(⽔)-6⽇(⽊) 於︓東京⼤学弥⽣講堂

○大波純一1、杉崎太一朗2、坂本麗2、平井信一2、牧口大旭2、川本祥子3、畠中秀樹1

1.国立研究開発法人科学技術振興機構バイオサイエンスデータベースセンター(NBDC)、2.三井情報株式会社、3.大学共同利用法人情報・システム研究機構ライフサイエンス統合データベースセンター(DBCLS)

生命科学データベース横断検索とは

利用者

ウェブ上の生命科学系DBの中で、

“オートファジー”という単語を

含むエントリは?

全部で6865件ヒットしました。

タンパク質関連DBでは774件、

エントリへのリンクはこちらです・・・

横断検索システム

インデックス

インデックス

インデックス

インデックス

インデックス

インデックス

数十台のサーバに検索対象となるデータベース

インデックスを配置インデックス

■システム概要

キーワードに対し、データベースの一括検索を行い、ヒット件数と、検索結果(対象へのリンク、ヒット箇所)を返すWeb検索システム

■組織間連携

Sagace(医薬基盤・健康・栄養研)

MEDALS.jp(産総研 molprof)

JCGGDB横断検索(産総研、糖鎖創薬技術研究センター)

生命科学DB横断検索(NBDC/DBCLS)

AgrID:  農畜産物ゲノム情報データベース

(農研機構)

リンク関係

http://sagace.nibiohn.go.jp/

http://medals.jp/

http://jcggdb.jp/search/search.cgi?lang=jp

http://agrid.dna.affrc.go.jp/

横断検索データベースのうち、研究所が選定するものを

検索対象としている。

搭載されている横断検索データベースの全てを検索対象としている。

搭載されている横断検索データベースの全てを

検索対象としている。(NBDCと同じ)

検索インデックスの作成と提供NBDC横断検索へのリンク

http://biosciencedbc.jp/dbsearch/

4省庁の別組織にサーバを分散配置し、相互に参照しながら検索可能。

597件の生命科学系データベース6400万件以上のエントリを対象に

検索可能 ※2016年10月時点

まとめ・今後の方針・生命科学データベース横断検索では品質向上のため以下の施策を実施している。

・データのRDF化・検索クエリの分析と検索結果表示改善→よりSemanticで品質の高いデータベース検索のために、改善を継続していく。

検索利用者の意図抽出アルゴリズムの構築

要旨バイオサイエンスデータベースセンター(NBDC)では、生命科学分野のデータベースエントリを

文字列一致で検索する基盤として「生命科学データベース横断検索」を公開している。本サービスでは592件のデータベースサイト、64,000,000件以上のエントリを検索対象としており、該当

分野の研究者や学生に広く利用されている。検索インデックスは医薬基盤・健康・栄養研究所、農業・食品産業技術総合研究機構、産業技術総合研究所の創薬分子プロファイリング研究センター、産業技術総合研究所の創薬基盤研究部門と協調し、追加と更新を行っている。2016年5月に検索エンジンの刷新とインデックス構成の変更を行い、パフォーマンス向上施策とした。さらにセマンティックな検索結果の需要に対応するため、検索利用者の検索意図を汲み取るクエリ分析を新たに取り入れることと、搭載インデックスのRDF化について検討した。また15の大学附属図書館から新しくリンクを設置いただき、利用拡大に努めている。

検索データのRDF化と公開

メタ情報を利用した詳細検索

2015年より、生物種や更新時期等のメタ情報や対象のデータベースをカスタマイズして

検索条件を設定可能な「詳細検索」機能を追加

request

response

生命科学データベース横断検索の情報検索高度化に向けた取り組み

・近年Webサービスの品質向上のため、アクセス解析を元にした利用者の意図抽出が盛んに行われている

・利用者のホスト情報を元にした利用層解析・利用時期(朝か夜か、平日か休日か、どの月がアクセスが多いか)の傾向・ページごとのアクセス数比較による興味診断・ページごとの滞在時間のモニタリング・クリックするリンクからの興味診断・アクセス元ページの分析 等・・・

一方、横断検索のようなサービスにおいては、利用者ごとに異なる検索キーワードでの検索が行われることから、利用者の固有情報を排した上で、十分に多い件数の検索リクエストの情報があれば、そのサービスを利用する利用者の検索意図を推定することが可能と予想される。

複数検索クエリを利用した意図抽出の例

■NTCIRプロジェクト IMine-2タスクチームで実証された複数語検索情報の有用性

検索キーワードを利用した検索利用者の意思抽出を行い、横断検索で表示する結果の品質向上に繋げる

しかし、利用者の属性や研究分野の特定に繋がる解析は、様々な意味で困難

iPhone7 検索

iPhone7 画像 検索

iPhone7 ニュース 検索

現状の一般的な検索エンジンでは、日本語の文章による検索ではまだ十分な検索結果の精度が得られておらず、利用者は名詞をスペース区切りで検索し、必要とする情報を入手している場合が多い。1つの単語での検索ではどのような意図でその語句を検索しているか推定し辛いが、2単語以上の複数語検索では、 GoogleのVertical search(画像検索・ニュース検索等)に対応するような、特徴的な「サブクエリ」("画像"や"ニュース")が含まれていれば、意図の推定が行い易い。この検証がNTCIR(NII Testbeds and Community for Information access Research)プロジェクトから2016年に報告された。

iPhone7の画像を探したい

iPhone7のニュースを探したい

iPhone7の何かの情報を探したい?

(参考)Yamamoto et. al., "Overview of the NTCIR-12 IMine-2 Task", NTCIR 2016

■複数語検索のパターニング

複数語検索のパターニングを、より一般的なクエリに対して効果的に行うために機械学習を元にしたパターニングモデルとして、Query Template (Pandey and Punera, WWW 2012)やトピックモデル (Blei et. al., JMLR2003, Yan et. al ., WWW2013)が提唱されている。2016年にはより高速・的確なモデルとしてPCTM (Pairwise Coupled topic Model)が小西ら (WSDM 2016)によって提唱されている。

■NCBI Pubmedで実施された複数語検索のパターニング

Chemical–chemical context pattern#C and #C#C versus #C#C and #C interaction#C and #C combination#C plus #C#C with #Ccomparison of #C and #Cinteraction between #C and #C#C oxidase #C#C dehydrogenase #Ccombine #C and #C#C transporter #C

NCBIでは、2015年にPubmedの検索クエリを解析し特に、Chemical(#C)とDisease(#D)を含む複数語検索のペアを抽出した。このペアをLSA(Latest Semantic Analysis, Rehurek and Sojka, 2010)で分類し、上に示すような頻出パターンに分類した。この情報を元にPubmedの検索結果表示方式への反映を行った(Huang and Lu, Database, 2016, 1–15, doi: 10.1093/database/baw025)。

Chemical–disease context pattern#D and #C#C induce #D#D treatment #Ctreatment of #D with #C#C #D review#D with #C#D child #C#D induce by #C#D due to #C#D treatment with #Crole of #C in #D#C metabolism and #D

横断検索における複数検索クエリの利用

・上記の例を検討した上で、横断検索が生命科学分野の多様なデータベースや文書を検索できる基盤であることを踏まえ、以下の対応を開始した。(1)予め特殊検索結果に反応する、クエリ用単語の一覧を選定

(例: 遺伝子、発現、配列、画像、特許、”人名”、”生物種名”、”日付” などをこれまでの検索ログ情報等を利用して判別 )

(2)反応クエリで表示されるべき検索結果の表示方法を検討(例: 遺伝子名がクエリに含まれる → 遺伝子カテゴリのデータベースを上位に

人名単体で質問 → Researchmap を上位に「特許」がクエリに入っている → 特許DBを上位に日付(2012年)がクエリに入っている → 更新日が2012年の情報を上位に )

ハンチントン舞踏病 遺伝子 検索

ハンチントン舞踏病 の 原因遺伝子

HTT huntingtin (Huntington disease)short (p) arm of chromosome 4

Genewikiより

遺伝子関連のデータが上位に表示されるようスコアリング調整

■横断検索の検索結果の例(仮案)

複数語の検索クエリが投入された場合、パターンとして指定された語句が含まれているかどうかを判別する

検索意図から予測される結果が明らかにデータベースの1件を指定可能な場合、その情報を目立たせる

明らかに関連する情報については、Google knowledgebaseのようなフィールドの推薦を行う

2017年1月公開予定

横断検索では新検索エンジンElasticsearchへの刷新を2016年5月に実施した。データベースの分類情報は、w3cで提案されているBiologicalDatabaseEntryのスキーマと、Integbioデータベースカタログのタグ情報を取り入れている。Elasticsearchの検索データのRDF化プラグインとして"Elasticsearch-RDF-Jena-plugin"が知られている。

2017年にElasticsearchのプラグインを利用して横断検索データのRDF化・Endpoint公開するため検証中

■横断検索のクエリからの検索意図抽出の方針