19
Activity Based Metadata for Semantic Desktop Search Paul-Alexandru Chirita, Rita Gavriloaie, Stefania Ghita, Wolfgang Nejdl, and Raluca Paiu ESWC 2005, Heraklion, Greece 山山NII

Activity Based Metadata for Semantic Desktop Search

  • Upload
    neila

  • View
    33

  • Download
    1

Embed Size (px)

DESCRIPTION

Activity Based Metadata for Semantic Desktop Search. Paul-Alexandru Chirita, Rita Gavriloaie, Stefania Ghita, Wolfgang Nejdl, and Raluca Paiu ESWC 2005, Heraklion, Greece. 山田@ NII. Activity Based Metadata for Semantic Desktop Search. contributions. コンテキスト情報を用いたデスクトップ検索を提案 - PowerPoint PPT Presentation

Citation preview

Page 1: Activity Based Metadata for Semantic Desktop Search

Activity Based Metadata for Semantic Desktop Search

Paul-Alexandru Chirita, Rita Gavriloaie, Stefania Ghita, Wolfgang Nejdl, and Raluca Paiu

ESWC 2005, Heraklion, Greece

山田@ NII

Page 2: Activity Based Metadata for Semantic Desktop Search

Activity Based Metadata for Semantic Desktop Search

•コンテキスト情報を用いたデスクトップ検索を提案•コンテキスト情報はデスクトップでの特定的な特徴•コンテキスト情報と既存の情報の統合 ->メタデータ生成•重要な事項:メタデータの生成のタイミングとメタデータの構造

•提案したものに基づくアーキテクチャとプロトタイプを提示

• コンテキスト情報:ある状況下であらゆる角度でみたときに重要であると思われる要素– アイデア,なんらかの要素,人物,発行者(物)等々– レレバントな関連するもの全部.

contributions

Page 3: Activity Based Metadata for Semantic Desktop Search

背景

• ハードディスクの容量の増加 デスクトップ上で何か探すことが困難に• 何か探すとき web 上の方が探しやすくなってしまった.PageRanking アルゴリズムの影響

デスクトップ上での検索がなぜ困難なのかweb 上で利用できたものが利用できない( e.g. リンク情報) デスクトップ上では代わりに何を用いるのか

デスクトップ上での,固有のコンテキスト情報を用いることを選択( e-mail での情報,ディレクトリ階層構造,ブラウジング時の振る舞い等)

Page 4: Activity Based Metadata for Semantic Desktop Search

•ユーザはあるコンテキストに物事を結びつける傾向がある デスクトップ検索の結果をリッチにするためにコンテキスト情報を使用すべき.

コンテキストメタデータと検索 , コンテキスト情報の表示

•Web サーチのユーザの振る舞い•Navigational : URL がわからなくなった,特定の web サイトの検索.•Informational : 興味があるトピックに関する情報を探す.•Resource seeking : 特定のリソース(流行歌,地図サービス等)を探したい

•デスクトップ検索の対象は Navigational .•現在のデスクトップ検索ではデスクトップ特有の情報(コンテキスト情報)を用いていない.•それらの例 (シナリオ):

•Email context•明らかに有用である情報であるが現在の検索では用いられていない.•例: ある物事に関する質問が含まれたメール.同じスレッド内の他のメールにはその答えが添付のドキュメント内にあるかもしれない.•メールに添付してあるドキュメントを PC 上に格納するとき,メールにあった情報が欠落してしまう.

•File hierarchy context•まれに用いられる.

•Web cache context•ユーザのブラウジングのビヘイビア.•レレバントな結果を探すときや結果の追加となるコンテキストを提供するときにこれを使用.

Page 5: Activity Based Metadata for Semantic Desktop Search

現在あるデスクトップ検索アプリケーションGoogle desktop search : ( 使ってますか? )• URL : http://desktop.google.com• 対象:

– Email (Outlook, Outlook Express, Netscape, Thunderbird)– ファイル (Text, Word, Excel, PowerPoint, PDF, Music, Video,

Images)– Web History (IE, Netscape, Mozilla, Firefox, Opera)– Chats (AOL Instant Messaging)

MSN desktop search application• URL : http://beta.toolbar.msn.comSpotlight Search • URL : http://www.apple.com/macosx/tiger/spotlight.html• For Mac OS XBeagle desktop search この論文の成果でこれを拡張 (Beagle++)• URL : http://gnome.org/projects/beagle• Open source project for Linux

Page 6: Activity Based Metadata for Semantic Desktop Search

Integrating Context Metadata Within Desktop Search

Page 7: Activity Based Metadata for Semantic Desktop Search

シナリオ :• distributed page ranking に興味がある人が仲間とこ

のトピックについて議論したことを覚えている.• この仲間はメールで何らかの記事を送っていた.• この記事は distributed PageRank には触れていない

が, distributed trust networks (同じようなトピック)には触れている.

• enhanced desktop search で,この記事を検索する.

Exploiting Email Context

Page 8: Activity Based Metadata for Semantic Desktop Search

Date Date

String

StringString

String

Person MailAddress Mail

File Attachment

name

belongs_to

stored_as

to

from

sent accessed

body

status subjecthas_attachment

reply_to

Email Prototype

Association Rules : 自動的にメタデータ生成するために必要

Page 9: Activity Based Metadata for Semantic Desktop Search

Exploiting File Hierarchy Context

シナリオ:• Hanover ( in ドイツ)で撮った写真を探す.• いつも訪れた都市名や地域名をディレクトリ名にした

ところへ写真を格納• ディレクトリ名を忘れた場合,通常の検索では写真を

探すことが困難.• このシナリオではドイツで撮ったことは覚えている.• しかし“ドイツ”はファイル名やディレクトリ構造には現

れない.

Page 10: Activity Based Metadata for Semantic Desktop Search

String

Date

Date

Date

String

StringDirectory

File

VisitedWebPage Attachment

Person

WordNetTerm

name

name

stored_from stored_from type

last_accessed

last_modified

created

owned_by

in_directoryin_directory

subClassOf

hypernym_to hyponym_to

holonym_to meronym_to

synonym_to

File Prototype

Association Rules : 以下の関連は WordNet を利用することで派生

WordNet 語彙参照可能なシステム:類義語等をサポート

最も重要なプロパティ.現在のファイルシステムで欠落している,情報の起源示すことが可能

Page 11: Activity Based Metadata for Semantic Desktop Search

Exploiting the Web Cache  1つめ

シナリオ:•とある企業のインターシップの web ページを検索.•以前そのページを訪れたことがある.•そのページにはその企業のトップページからキーワードサーチで直接ジャンプしたが,キーワードを忘れてしまった.•デスクトップ検索で最後に訪れたときのその web ページのリンクのリストを提示することが目的になる.可視化する.

Date

VisitedWebPage

File

stored_asaccessed_at

departed_to arrived_from

WebPage Prototype

可視化するときに利用

Page 12: Activity Based Metadata for Semantic Desktop Search

Exploiting the Web Cache  2つめシナリオ:•CiteSeer での特定のトピックの論文をブラウズ.•参照先ともっともレレバントな論文をダウンロード.•それらの論文をデスクトップ上にすぐさま格納.論文間の関係がわからなくなってしまった.•デスクトップ検索ではこの情報を保存し,これらを利用可能な形でメタデータを作成することが求められる.

Publication

File

VisitedWebPage

PDF_file PS_file

subClassOf subClassOf

subClassOf subClassOf

stored_as_pdf stored_as_ps

references referenced_by

Publication Prototype : WebPage を拡張したもの

Association Rule

subClassOf

Page 13: Activity Based Metadata for Semantic Desktop Search

Desktop Search Architecture and Prototype

Page 14: Activity Based Metadata for Semantic Desktop Search

Beagle++: ドキュメントを探すInterface: Google と同様にシンプルにIndexing : full-text index と additional metadata index の 2 つ

Page 15: Activity Based Metadata for Semantic Desktop Search

Beagle++: Additional Context の表示

Page 16: Activity Based Metadata for Semantic Desktop Search

メタデータの生成, Indexing

event triggered metadata generation メタデータの生成, indexing は on-the-fly (ファイルの修正のイベントが引き金になる) イベントを監視する機能が必要 (ファイルの新規作成,メールの受信等を監視) Linux 上で実現 (イベントを監視するために inotify-enabled linux kernel を用いる)metadata generation applications イベントのタイプやコンテキストに依存. メタデータ生成:適切な metadata generator application で実行•metadata generator application:

•Email Metadata Generator•Web Cache Metadata Generator•File Metadata Generator

Page 17: Activity Based Metadata for Semantic Desktop Search

metadata generation applications

Email Metadata Generator•JavaMail API を利用

•受信したメールは Message クラス( JavaMail で定義)から派生した個々のクラスへ振り分け

•受信したメールから生成されたメタデータの情報 ( Fig.1 を参考に)

Sender and Recipient, Subject, Body and Status, Date when the email was sent or accessed, Attachments, etc.

•Metadata : RDF として格納, Jena toolkit (Semantic Web application 構築用 Java フレームワーク ) を利用

Web Cache Metadata Generator

•Indexing  : キャッシュしていないページのブラウジングが引き金•アノテーション :  Access date , Connections between web pages (hyperlinks of the current page are traversed)•生成されたメタデータ  :   RDF ファイルとして格納

File Metadata Generator

•実装 :  Java と JWNL API•生成したメタデータ: Type of the file, Name, Date of creation, Date of last change, Location of file on the disk, WordNet additional metadata for the file name and the path to the file•アノテーション  :   RDF ファイルとして格納

Page 18: Activity Based Metadata for Semantic Desktop Search

Conclusions & Future Work

contextual information

ほしいものを見つける,探したいものの利用頻度が増える

Future Work:• 一般的なコンテキストの表示• コンテキスト情報を用いたデスクトップでのランキング• 同じことに興味があるグループメンバ間でのリソースやコンテキスト情報の交換

social semantic desktop

備考:検索では大きく 2 つの問題がある.• 検索結果がないので見つける• 結果が多すぎるので困るこの論文では前者が対象, future work では後者も考慮 +α

Page 19: Activity Based Metadata for Semantic Desktop Search

WordNet• English lexical reference system• POS – nouns, adjectives, adverbs, verbs organized in synonym sets• Relationships:

– Meronym - The name of a constituent part of, the substance of, or a member of something. X is a meronym of Y if X is a part of Y.

– Holonym - The name of the whole of which the meronym names a part. Y is a holonym of X if X is a part of Y.

– Hyponym - The specific term used to designate a member of a class. X is a hyponym of Y if X is a (kind of) Y.

– Hypernym - The generic term used to designate a whole class of specific instances. Y is a hypernym of X if X is a (kind of) Y.

– Synonym - a set of words that are interchangeable in some context. X is a synonym of Y if Y can substitute X in a certain context without altering the meaning.

付録

<rdf:Description rdf:about="file:\\C:\beautiful\home\plant\cat.txt"> <j.0:sense>computerized_tomography</j.0:sense><j.0:hyponym>jaguar</j.0:hyponym>

<j.0:hypernym>feline</j.0:hypernym> <j.0:location_info> <rdf:Description rdf:about="file:\\C:\beautiful\">

<j.0:synonym>ravishing</j.0:synonym><j.0:sense>beautiful</j.0:sense>

</rdf:Description> </j.0:location_info></rdf:Description>

WordNet - Example