Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
2回目 情報検索の適用と評価
4月22日
情報検索の適用例と関連技術
サーチエンジン
情報フィルタリング
文書の自動分類
言語横断情報検索
マルチメディア情報検索
情報抽出
マーケティングツール
サーチエンジン
GoogleGooYahoo!LYCOSなど
メタ・サーチャー
サーチエンジンの構成
World WideWebユーザ
検索システムインデックス・データベース
ロボット(スパイダー,クローラー)
照合
インデキシング
Webページ収集
検索質問 検索結果
情報フィルタリング
検索質問が長期的(静的)
情報ストリームよりユーザの興味や関心のある記事を抜き出す.不要な情報を削除する.
具体例
電子メールからユーザに興味のある記事を推定する
インターネット上の未成年者にとって不適切なサイトへのアクセス制御
文書の自動分類
WWWのインデックスサイト(Yahoo!など)Webページを内容やトピックに応じて階層的に分類
一般的なトピック検索ではきわめて有用
ページの分類や索引付けを人手で行うためサーチエンジンに比べると小規模
文書の自動分類の必要性
文書の自動分類の分類
与えられた文書の内容があらかじめ設定されているカテゴリ(たとえば,政治,経済,科学など)のいずれに属するかを決定するもの
類似した文書をグループ化(クラスタリング)することにより文書集合全体をいくつかのグループに分割するもの
言語横断情報検索
検索対象となる文書とは異なる言語で検索質問を与えることができる
マルチメディア情報検索
内容型検索:マルチメディア情報そのものから得られる特徴量に基づき類似検索を行う.
画像の検索
映像の検索
音声の検索
情報抽出
TipsterのMUCIREX
マーケティングツール
顧客ニーズの解析
Amazon.comなどで利用されている.
情報検索システムの評価尺度
情報検索システムの有効性
再現率と適合率
再現率・適合率曲線
平均適合率
その他の評価尺度
情報検索システムの有効性
評価指標
適合性(relevance):検索質問に対して,客観的に見て適合する文書を検索したか?
適切性(pertinence):検索質問に対して,ユーザが目的とする文書を検索したか?
有用性(usefullness):ユーザにとって役立つ文書を検索したか
再現率と適合率
適合性に基づく評価
完全性:検索質問に適合する文書をもれなく検索しているか?...再現率正確性:検索質問に適合する文書だけを検索しているか?...適合率
再現率と適合率2
再現率(recall):完全性を評価するための尺度であり,検索対象となる文書集合の中の検索質問に適合する文書のうち,実際に検索された文書の割合を示す.検索漏れの少なさを示す尺度である.
適合率(precision):正確性を評価するための尺度であり,検索された文書集合の中で,検索質問に適合する文書の割合を示す.検索ノイズの少なさを示す尺度である.
再現率と適合率3
全文書集合
適合文書 検索された文書
A BC
BC
AC
==
==
検索された文書の数
合文書の数検索された文書中の適適合率
数全文書中の適合文書の
合文書の数検索された文書中の適再現率
再現率・適合率曲線
適合率
での適合率再現率レベル iR
iR 再現率
再現率・適合率曲線2
iR
適合率
ABC
再現率
平均適合率
平均適合率:各再現率レベルでの適合率の平均値(適合文書が検索された時点での適合率の平均)
n点平均適合率:あらかじめ決められたn個の再現率レベルでの適合率の平均値
その他の評価尺度
R適合率:上位からR番目までの検索結果を出力した時点での適合率
F尺度
E尺度
PR
F 112
+=
PRb
bE1
11 2
2
+
+−=
問題
検索システムが右のような検索結果を出したとします.
右の表を見て平均適合率,R適合率(R=2),F尺度,E尺度(b=0.5)を計算しなさい.ただし文書数100,適合文書10
○5×4○3×2○1適合性順位
情報検索用テスト・コレクション
テストコレクション
情報検索コンテスト
テスト・コレクション
文書集合
検索質問集合
適合情報
情報検索コンテスト
TRECIREXNTCIR
NTCIR4言語横断検索タスク
特許検索タスク
質問応答タスク
テキスト要約タスク
Webタスク情報指向検索,ナビゲーション指向検索,地理情報,トピック分類