30
リリリリ リリリリリリリリリリリ リリリリリリリリリリリリ リリリリリリリリ リリ リリ リリ

リサーチ・ナビ検索システムの技術

Embed Size (px)

DESCRIPTION

リサーチ・ナビ検索システムの技術. 東京大学情報基盤センター 学術情報研究部門 助教 清田 陽司. リサーチ・ナビ検索システムの ポイント. 「テーマグラフ」の表示 件名標目表 (NDLSH) と Wikipedia のマッシュアップ タブデザインの採用 用途に応じて表示内容を自由に切り替え さまざまな情報資源を統合して検索 PORTA をはじめとする多くの情報資源にアクセス レスポンスの向上 検索結果が 得られたコンテンツから順次表示. 情報探しのニーズ. Web サーチエンジン で探せる質問=事実を問う質問 関東大震災はいつ発生しましたか? - PowerPoint PPT Presentation

Citation preview

Page 1: リサーチ・ナビ検索システムの技術

リサーチ・ナビ検索システムの技術

東京大学情報基盤センター学術情報研究部門 助教

清田 陽司

Page 2: リサーチ・ナビ検索システムの技術

リサーチ・ナビ検索システムのポイント

• 「テーマグラフ」の表示– 件名標目表 (NDLSH) と Wikipedia のマッシュ

アップ• タブデザインの採用

– 用途に応じて表示内容を自由に切り替え• さまざまな情報資源を統合して検索

– PORTA をはじめとする多くの情報資源にアクセス

• レスポンスの向上– 検索結果が得られたコンテンツから順次表示

Page 3: リサーチ・ナビ検索システムの技術

3

情報探しのニーズ• Web サーチエンジンで探せる質問=事実を問

う質問– 関東大震災はいつ発生しましたか?– ○○ ってどんな病気?

• 本当に探し手が知りたいこと– 大学の学生「関東大震災についてのレポートを書

かなきゃいけなんだけど、いったいどんな資料から調べたらいいの?」

– 難病の患者「この病気について最先端の治療を行っている病院を探す方法は?」

情報の調べ方が曖昧な場合が多い→ 調べ方の推薦 ( レコメンデーション ) が必要!

Page 4: リサーチ・ナビ検索システムの技術

Agenda• なぜ Wikipedia を使うのか?

– Wikipedia はどうやって作られているのか?– Wikipedia は信頼できるのか?– Wikipedia とどう向き合うべきか?

• テーマグラフのしくみ– 検索したキーワードと件名をどう結びつけている

のか?• システム開発上の工夫

– タブデザインの採用– Web API の活用– レスポンスの向上

• 図書館がもつ知識の価値の今後は?

Page 5: リサーチ・ナビ検索システムの技術

Wikipedia とは?• オンライン百科事典

– 専門家によるオンライン百科事典プロジェクト「 Nupedia 」を前身として 2001 年に発足

– 個人や団体の寄付により運営• Wikipedia の特徴

– 誰もが編集に参加できる ( 資格制限なし )– ボランティアによる執筆・編集・運営– Wiki システム ( ブラウザで Web 上のテキスト

を書き換えることができる )– 内容は自由に複製・配布・改変できる

Page 6: リサーチ・ナビ検索システムの技術

Wikipedia の信頼性をめぐる議論• Wikipedia と Encyclopædia Britannica の比較

– 2005 年 Nature 「科学用語について比較したところ、 Wikipedia の方が誤りが少なかった」

– Britannica は反論• 査読制度なし

– 「間違いがあれば迅速に訂正できる仕組みを提供する」という考え方

• 引用文献として使えるか?– Wikipedia の創始者 Jimmy Wales 「 Wikipedia を原

典として利用すべきではなく、あくまで出発点にすべき」

Page 7: リサーチ・ナビ検索システムの技術

Wikipedia の秩序維持誰でも編集できるが自由放任ではない• ガイドライン (5 つの原則 )

– Wikipedia は百科事典–中立的な観点 : 出典の明記–利用はフリー : どの個人も特定の項目を支配で

きない、著作権侵害の禁止– 行動規範 : 敬意、礼儀正しさ、冷静の維持–確固としたルールはない : ルールの精神の尊重

• ページ毎のノート ( 議論、合意形成の場 )• 管理者によるコントロール

–保護、削除、投稿ブロック、管理者の選任・解任

Page 8: リサーチ・ナビ検索システムの技術

調べ方推薦の要件

8

 図書館 情報資源

Wikipedia

Wikipedia を橋渡しとして、信頼できる情報資源をお薦めできないか?

Web情報資源

• カバレッジ– どんなキーワードに対しても何かをお薦めして欲

しい– これができないと結局使ってもらえない

• 組織化– 「これを見た人はこんな情報も見ています」では不十分!

– 分類ごとにお薦めすべき情報資源には定番が存在• 信頼性

– 「ネットでググる」だけでは不十分!– 信頼できる情報資源が必要

Page 9: リサーチ・ナビ検索システムの技術

Wikipedia の構造各記事にはカテゴリが

付与されている• いわゆるフォーク

ソノミーの特徴を有する

• カテゴリにもカテゴリを付与できる( ゆるやかな階層構造 )

• 複数の上位概念を与えることができる( 多重継承 )

価格価格(かかく)とは、有形・無形の各種の商品(サービスを含む)の取引に際して提示される金額を言う。基本的には需要と供給のバランスによって決定される。一般には、値段(ねだん)とも呼ばれる。 …カテゴリ : [ マーケティング ][ 経済学 ][ 市場 ]

価格

マーケティング 経済学 市場

経営学

経済

流通

商業

産業

社会科学社会

ビジネススキル

労働

9

Page 10: リサーチ・ナビ検索システムの技術

タクソノミーとフォークソノミー

フォークソノミー• ボトムアップ的な分

類• 複数の上位概念

Web 的な分類体系

タクソノミー• トップダウン的な分

類• ひとつの上位概念

図書館的な分類体系 10

電気化学

電離層 電池 磁気化学

燃料電池 太陽電池 蓄電池 太陽電池

電池 再生可能エネルギー

半導体素子

燃料電池 トランジスタ

Page 11: リサーチ・ナビ検索システムの技術

価格

マーケティング 経済学 市場

経営学

経済

流通

商業

産業

社会科学

社会

ビジネススキル

労働

フォークソノミー型構造

タクソノミー型構造

11

Page 12: リサーチ・ナビ検索システムの技術

リサーチ・ナビと Wikipedia

• Web と図書館をつなぐ中間的な情報資源としいて扱う

• 調べものの出発点として位置づけ– Wikipedia の記事を最終的なゴールとはしな

い– Wikipedia へのリンクは「百科事典」タブ内

に集約• 表記揺れ辞書として利用

– 「線形代数学」と「線型代数学」12

Page 13: リサーチ・ナビ検索システムの技術

13

提案 : Wikipedia と図書館分類体系の対応づけ

図書館の分類体系を Wikipedia で拡張してみよう!• Wikipedia

– Web の汎用的な情報資源としては最も組織化されている (Wikipedia カテゴリ )

– Web 上の他の情報資源との親和性をもつ• 図書館分類体系 ( 件名標目表、書架分類法 )

– 人類が営々と積み重ねてきた知識体系– 価値判断に必要な情報資源への有力なポインタ

両者を組み合わせて利用することによって、キーワードから探索テーマ(=件名)を自動導出する→ 導出された件名に関連する情報資源を提示

Page 14: リサーチ・ナビ検索システムの技術

阪神・淡路大震災

経済史

地震災害と防災の歴史

災害

日本の経済史

地震の歴史平成時代

地震

経済 (330)

社会福祉 (369)

社会 (360)

社会科学 (300)

地震学 (453)

耐震建築地震災害 地震予知

建築構造 (524)

建築学 (520)

技術 (500)

地球科学 (450)

自然科学 (400)

災害 地震誌 (453.2)

経済史 (332)

経済史 -日本(332.1)

経済史 -日本-平成時代(332.107) 図書館オントロジー

(NDC, NDLSH)

Wikipedia

震災を引き起こした地震 (1995年兵

庫県南部地震 )

震災が日本経済に与えた影響

震災がその後の防災対策に与えた影響

「経済学事典」 (日本経済新聞社 , 1996

年 )

「地震防災の事典」(岡田恒男ほか , 2000

年 )

「日本被害地震総覧」(宇佐美龍夫 , 2003年 )

14

Page 15: リサーチ・ナビ検索システムの技術

Web 情報資源 ( サーチエンジン )

情報探索のスタート地点

情報の専門性・信頼性

フォークソノミー

Wikipedia

多様な情報資源•入門 書•レファレンスブック•各種データベース•学術雑誌論文•過去の文献・資料

図書館分類体系•NDC•BSH

対応づけ→深い情報探索へ

15

Page 16: リサーチ・ナビ検索システムの技術

テーマグラフの導出

• 入力したキーワードにマッチするWikipedia の記事を出発点として、カテゴリネットワークを芋づる式にたどる

• 探索を発散させないための工夫– NDLSH にたどりつかない経路はカットする– カテゴリ間の意味の類似度を考慮し、関連性

の低い経路はカットする

16

Page 17: リサーチ・ナビ検索システムの技術

17

項目「燃料電池」

スコア 1.0

カテゴリ「節予定」?

スコア 0.4

カテゴリ「電池」

スコア 0.7

カテゴリ「電子部品」

スコア 0.3

カテゴリ「電気化学」

スコア 0.3

カテゴリ「自動車工学」

スコア 0.4

カテゴリ「自動車」スコア 0.35

カテゴリ「予定」?スコア 0.3 ?

Page 18: リサーチ・ナビ検索システムの技術

性能向上には電子工学、材料工学、化学などの分野にまたがった知見が必

要?

環境問題解決の切り札として注目されてい

る?

燃料電池の普及が CO2

の削減にもたらす効果は?

エネルギー政策の立案においてどのような位置づけがなされている

か?

将来の企業経営に与えるインパクトは?

燃料電池が一般家庭に普及した場合、電力網の安定性にどのような影響があるか?

膨大な研究開発費は自動車メーカーから投入

されている?

燃料電池の普及が生態系にもたらす影響は?

Page 19: リサーチ・ナビ検索システムの技術

検索システムの画面デザイン• リサーチ・ナビ CMS (Movable Type) と共通

のデザイン–利用者は両者の違いを意識せず使える

• タブデザインの採用–画面領域の制約の緩和–利用者の目的に応じて振り分け

• 「すべて」タブ内でのサマリ表示– コンテンツの俯瞰が可能

• 「検索履歴」リストボックス– いつでも立ち戻って調べることができる

Page 20: リサーチ・ナビ検索システムの技術

(1) 検索キーワードの入力ボックス

(3) 検索結果表示エリア

(2) 表示内容切り替えタブ

(4) 検索履歴  リストボックス

各々のタブ内のコンテンツのサマリー

Page 21: リサーチ・ナビ検索システムの技術

調べ方案内

レファレンス共同DB

Page 22: リサーチ・ナビ検索システムの技術

NDL OPAC雑誌記事索引

近代デジタルライブラリー

参考図書紹介目次データベースなど

Page 23: リサーチ・ナビ検索システムの技術

テーマグラフに含まれる件名標目

日本十進分類法 (NDC)関連標目

Page 24: リサーチ・ナビ検索システムの技術

テーマグラフ本体

Page 25: リサーチ・ナビ検索システムの技術

関連キーワードのタグクラウド

Page 26: リサーチ・ナビ検索システムの技術

様々な情報資源への統合アクセス

• NDL PORTA API– 「調べ方ガイド」「国立国会図書館にある本」

• リサーチ・ナビ内部の検索インデックス– リサーチ・ナビ CMS に搭載されたコンテンツ– Wikipedia全文データ

• 関連キーワード抽出– Wikipedia から生成した文書=単語マトリック

ス• テーマグラフ導出エンジンcf. 書籍販売Web サイトの API

クリアすべき課題はあるが意義は大きい

Page 27: リサーチ・ナビ検索システムの技術

検索キーワード入力ボック

「すべて」タブ

PORTA API

「調べ方」タブ

「本・サイト」タブ

「キーワード」タブ

「百科事典」タブ

ハイパーリンク

検索履歴リスト

ボックス

検索コントローラ

テーマグラフ RPC

百科事典RPC

分類導出RPC

関連 KWRPC

調べ方ガイド RPC

レファレンス事例 RPC

NDL 書籍検索 RPC

NDL 目次検索 RPC

書籍販売サイト

RPC

書籍販売サイト

API

インデックス

リサーチ・ナビ CMS

インデックス

インデックス

Lucene インデクサ

分類自動導出エンジン

KWマトリック

マトリックス生成

分類体系 DB 生成

NDLSH

分類体系DB

関連 KW抽出

エンジン

Lucene検索エンジン バックエンドサーバ

ユーザインタ

フェース(Web

ブラウザ )

Wikipedia

Page 28: リサーチ・ナビ検索システムの技術

レスポンスの向上情報資源の中には検索時間がかかるものもあ

る→ システム全体への影響を最小限に抑える必

AJAX 技術による実装• システムロジックの大部分をブラウザ側で実

行– サーバ側の処理負担軽減

• 非同期呼び出し– 結果が得られたコンテンツから順次表示

Page 29: リサーチ・ナビ検索システムの技術

まとめ• Wikipedia と図書館分類体系の統合利用によっ

て、パスファインダーに近い「情報探索のヒント提示」を可能とした– 情報探索の多様な「切り口」の提示– 信頼性のある情報資源への誘導

• 「図書館か Web か」という二項対立ではなく、両者の役割を踏まえた見方が大事– 図書館 : 信頼性、組織化– Web: どんなキーワードからでも探せる

29

Page 30: リサーチ・ナビ検索システムの技術

図書館の知識の価値• Web サーチエンジンの普及に大きな影響

を受けている• 図書館の最大の価値=情報資源の多様性

–利用者へのプレゼンテーションが非常に重要– ランキングではない見せ方– 探すプロセスを楽しんでもらう工夫

• 個人の知識欲と図書館の体系をどうつなぐ?– 「自分なりの本棚を作る」お手伝いができれば幸いです