52
Towards Effective Browsing of Large Scale Social Annotations Rui Li, Shenghua Bao, Ben Fei, Zhong Su, and Yong Yu Proceedings of the 16th international conference on World Wide Web (WWW2007) 伊東研 修士2百田信 論文紹介

Towards Effective Browsing of Large Scale Social Annotations

  • Upload
    momota

  • View
    2.612

  • Download
    1

Embed Size (px)

Citation preview

Towards Effective Browsing of

Large Scale Social

AnnotationsRui Li, Shenghua Bao, Ben Fei, Zhong Su,

and Yong Yu

Proceedings of the 16th international conference on World Wide Web

(WWW2007)

伊東研 修士2年百田信

論文紹介

1. はじめに

Social Annotationの普及

• Annotation: 注釈

• Social Annotation

– Webコンテンツに対しAnnotation(注釈)を付ける

– Annotationを公開し共有する

– Tag, コメント, 日付, …

– Social Annotationサービスの例• YouTube 動画

• Flickr 画像

• Del.icio.us ブックマーク

• はてなブックマーク ブックマーク

3

1. はじめに

4

Annotationの例:YouTube

Social Bookmark

• Social Bookmarkとは

– Social Annotation Serviceのひとつ

– Tag (Annotation)付けしたBookmark

例:Del.icio.us, はてなブックマーク

5

User

マリオ

Wiitag

URL

Bookmark

1. はじめに

Social Bookmarkの例:はてなブックマーク

6

1. はじめに

7

Annotation (Tag) を利用した情報探索

• Tagは…– コンテンツを組織化するための手法– おもしろい情報資源を発見させるナビゲーション機構

• Tagによる情報探索法– Keyword検索

• Tagに関連するコンテンツをすべて表示

– Tag Cloud View

• アルファベット順• フォントサイズ• フォント色

入力 : Annotationの選択

1. はじめに

問題点

• 小規模なTag集合– Tag Cloudによる人気Tagの閲覧

• 大規模なTag集合– コンテンツとTagは単純な文字表現の結びつき

• 同義語 : 似た意味の単語– 単純なマッチングでは関連する情報資源を見つけられない

• あいまいさ : 複数の意味を持つ単語– ゴミページを紹介してしまう

– 返ってくる結果がカテゴライズされていない• たくさんの結果からおもしろい情報資源を閲覧するのは困難

8

1. はじめに

本論文の目的

• Annotationの急増による閲覧性の低下

– Tag Cloudでは見れない

– Keyword検索では関連するTagが見れない

9

大規模なAnnotationを効率的に閲覧する手法 “ELSABer”の提案

1. はじめに

2. 提案手法

11

準備• 対象

– Social BookmarkサイトDel.icio.us

• Annotationの定義

(User, URL, Tag, Time)

• AnnotationをTagging Spaceの点とみなす

• (最初の解析ではUser・Timeは使わない)

User

マリオ

Wiitag

URL

Bookmark

2. 提案手法

行列表現

12

t1

U1

t2t5

Uj

t28

Un

t2t2t5ti

t28t28

ti

U1 U2 … Uj Un

t1 c11 c12 c1j c1n

t2 c12 c22 3

: :

ti c1i … … cij … cin

: :

:

tm cm1 cm2 … cmj cmn

行列 C

URL n個

Tag

m個

cij : URLjに対してタグ tiをつけた利用者数=タグ tiのTF値

2. 提案手法

関連行列

13

mnm

ij

n

mm

mm

mmm

M

1

21

11211

mij : URLj とタグ tiの関連度

関連行列

i

ijijtURL

ncm log

本研究では mijに TFIDFを用いる

)(log)(

i

itDF

ntTF

文書Dj ページ Uj におけるタグ(単語)tiの重要度

2. 提案手法

ELSABerの提案

• ELSABer

– Effective Large Scale Annotation Browser

– 大規模Annotationの効果的閲覧手法

– 3つの特徴

14

2. 提案手法

Semantic

Browsing

意味概念を形成類似単語„tag‟

の集合

Hierarchical

Browsing

単語„tag‟間に階層付け

Effective

Browsing

Tag分布の分析

15

試作システムのUI

人気のあるTag

サブカテゴリ 選択されたTagに関連するページ集合

最初の画面

2. 提案手法

16

User

Enhanced Model

Time

実験

大規模なAnnotation

ELSABerの全体像

Semantic

Browsing意味概念を形成類似単語の集合

Hierarchical

Browsing単語„tag‟間に

階層付け

Effective

BrowsingTag分布の分析重要タグの抽出

2. 提案手法

3. Semantic Browsing

類似するTagとは

Social Annotation環境において、類似したTagは類似したURLに付与され、また、類似したURLは類似したTagを付与される

類似している

18

3. Semantic Browsing

意味概念(類似したTagの集合)を求めたい

19

Tag間の類似度

• コサイン尺度で計算

類似度= ji TT ,cos

URLx

URLy

o

iT

jT

||||cos

ji

ji

TT

TT

θ

3. Semantic Browsing

mnm

ij

n

mm

mm

mmm

M

1

21

11211関連行列

YouTubeの意味概念

3.2 意味概念の生成

20

YouTube

youtube

You tube

you tube

ようつべ

youtube動画Video

ネタ

これはすごい

• すべてのTagについて類似度を求める

1. あるTagについて類似する上位N個のTagを選ぶ

2. 類似度が閾値θ以上なら意味概念

ハロプロ あとで見る

ねこ

ぬこ

映像

θ

3. Semantic Browsing

4. Hierarchical Browsing

22

User

Enhanced Model

Time

実験

大規模なAnnotation

ELSABerの全体像

Semantic

Browsing意味概念を形成類似単語の集合

Hierarchical

Browsing単語„tag‟間に

階層付け

Effective

BrowsingTag分布の分析重要タグの抽出

4. Hierarchical Browsing

4. Hierarchical Browsing

• Hierarchical Browsing

– Tag間の上下関係

• Sub-Tagの抽出

23

Social Annotationとして使われるTagは異なる意味レベルを示す

4. Hierarchical Browsing

24

4.1 Hierarchical Annotationの要件

2. カテゴリ構成が柔軟であるべき• Programming, Designという違う興味からJSPへ辿りつく

3. 動的に階層構造が変化すべき• 増え続けるAnnotationに対応する

1. 目的情報へのパスが複数存在すべき• 一つのURLは複数のカテゴリに関係する

4. Hierarchical Browsing

4.2 Tagの上下関係 (1)

• Tagのタイプ

– 親Tag

• 意味レベルが高い、より一般的なTag

– Sub-Tag

• 意味レベルが低いTag

• 関係あるURLの内容を表しているTag

• サブカテゴリに属するTag

– その他のTag

• 関連のある別の情報資源を表すが、

– 一般的ではないTag

– 明確ではないTag

25

ti:sub-tag候補tj:current tag

tj

ti

Current Tag

親Tag

Sub-Tag

4. Hierarchical Browsing

4.2 Tagの上下関係 (2)

• Sub-Tagの生成法

– 親TagとSub-Tagを決める決定木による生成

a. Coverage of Tags

b. Intersection Rate

c. IRR

26

true false

4. Hierarchical Browsing

a. Coverage of Tags

• 類似するTag間に上下関係をつける

– WebのほうがGoogleよりも関係するURLが多い

– GoogleのほうがGoogletipsよりも関係するURLが多い

27

Googletips

Web

Google

High

Low

)(

)(

j

iij

tU

tUCoverage

tiでTag付けされたURL数

100

50

30

4. Hierarchical Browsing

b. Intersection Rate

)(

)()(

i

ji

ijtU

tUtUIR

U(ti)gmaps

Google High

Low

Google

gmaps

• gmaps が付けられたURLのほとんどにGoogleが付いている

• Googleが付けられたURLにgmapsがあまり付いてない

U(tj)

4. Hierarchical Browsing

28

c. IRR

• Intersection Rate Ranking:IRR

– IRによるランクから1, 2, 3の離散値を付与

29

rank value

Top 30 1

30th ~ 60th 2

61st ~ 3

4. Hierarchical Browsing

Sub-Tagを判定する決定木

• 手動でラベル付けした学習データを用意

– Coverage

– IR

– IRR

• 決定木を生成

30

true false

親TagとSub-Tagを決める決定木

4. Hierarchical Browsing

5. Effective Browsing

32

User

Enhanced Model

Time

実験

大規模なAnnotation

ELSABerの全体像

Semantic

Browsing意味概念を形成類似単語の集合

Hierarchical

Browsing単語„tag‟間に

階層付け

Effective

BrowsingTag分布の分析重要タグの抽出

5. Effective Browsing

5. Effective Browsing

• Tagの分布を分析する– 問題

• Tagging Spaceが大きい– 数百万のTag

• 転置インデックスが有効でなくなる

– 小規模なTagging Spaceへ落とし込む• SamplingによってSub-Tagging Spaceへ縮小化

33

人は人気のあるTagをURLに付け、また、人気のあるURLは大多数のTagを付けられる

5. Effective Browsing

Tagの分布

• Tagの分布– 人気のあるTagはURLに付

与されやすい• 人気のないTagはほとんど付与されない

– 人気のあるTagは頻繁かつ広範囲にわたって使用される

• Sampling

– 小規模なTagging Spaceへ

– 上位K個のTagと上位K個のURLで十分

34

5. Effective Browsing

ELSABerのまとめ

• Semantic Browsing

– 類似するTagを見つける

• Hierarchical Browsing

– 類似するTag間の上下関係を見つける• Sub-Tag

– 意味レベルが下位のTag

• Effective Browsing

– Tagの分布

– SamplingによるTagging Spaceの縮小化

35

6. Enhanced Model

37

User

Enhanced Model

Time

実験

大規模なAnnotation

ELSABerの全体像

Semantic

Browsing意味概念を形成類似単語の集合

Hierarchical

Browsing単語„tag‟間に

階層付け

Effective

BrowsingTag分布の分析重要タグの抽出

6. Enhanced Model

• Personalized

Browsing

– 人によって興味は違う

– 利用者情報の利用

• 個人化„Personalization‟

• 利用者の興味により近いマッチング

• Time-related

Browsing

– 人は最新の話題に興味がある

– 時間情報の利用• 最近人気のあるTagを

発見

38

User Time

6. Enhanced Model

7. 実験

7. 実験

• 実験データ– 2006年3月に集めたDel.icio.usのデータ

• 各実験7.1 類似度計測7.2 階層化の結果7.3 実行時間7.4 Personalized Browsingの結果7.5 Time-related Browsingの結果

40

Webページ数 1,736,268ページ

一意なAnnotation 269,566個

7. 実験

7.1 類似度計測の結果

CVS Versioncontrol, SVN, subversion, control

Movie Movies, Film, Films

Computer/Gallery Album, photogallery, fotos

Programming/Meta Metaprogramming

Programming/Movie screenshot, screencapture

Programming/Brainstorming mindmap, freemind

41

高い関係性を持つTag (同義語、省略形、複数形)

Current Tagの意味は、それまでの利用者の選択に影響を受ける例)日常生活での”movie” :”films”, “moving picture”

“programming”を選択して”movie” : “screenshot”, “screencapture”

7. 実験

7.1 類似度計測の結果

CVS Versioncontrol, SVN, subversion, control

Movie Movies, Film, Films

Computer/Gallery Album, photogallery, fotos

Programming/Meta Metaprogramming

Programming/Movie screenshot, screencapture

Programming/Brainstorming mindmap, freemind

42

高い関係性を持つTag (同義語、省略形、複数形)

Current Tagの意味は、それまでの利用者の選択に影響を受ける例)日常生活での”movie” :”films”, “moving picture”

“programming”を選択して”movie” : “screenshot”, “screencapture”

Social Annotation環境におけるTag間の関係を正確に反映している

7. 実験

7.2 階層化の結果(1)

• 研究室内の学生にDel.icio.us人気Topic100個の中からランダムに選んでもらった概念

• 概念は異なる分野に分布– Del.icio.usのTagはITに関係す

るものが多い

– 選択されたTopicもITに関係するものが多い

43

7. 実験

7.2 階層化の結果(2)

• Science

– math, physics, psychologyなどのサブカテゴリーを表示

概念のラベル

下位概念

44

7. 実験

7.2 階層化の結果(2)

• Science

– math, physics, psychologyなどのサブカテゴリーを表示

概念のラベル

下位概念

45

7. 実験

人々が日常生活の中で思うようなTagの階層構造が形成された

7.3 実行時間• Spec

– Intel Pentium Ⅳ: 3.0 GHz

– Memory : 1GB

– 2 Processors

• システム– 言語:Java

– 全文検索エンジン「Lucene」のAPI• URLとTagのインデックス

– DB• 上位2000のURL-Tag行列を格納

46

20概念の平均処理時間 :1.3秒

7. 実験

7.4 Personalized Browsingの結果

• 利用者のProfileを考慮するTag Cloud試作

• 実験における利用者profile– 25tags, 45URLs

– 上位5個のtag• “Linux”, “media”, “video”, “JavaScript”, “Java”

• Web開発者かメディアに関心がある人

– 利用者が興味のある情報資源を効果的に発見する支援をしている

47

すでにTag付けしているもの

システムが推薦するTag

7. 実験

その他のTag

7.5 Time-related Browsingの結果

• 3URLに関連するTag Countの分布– 時間とともに人気は変化する– 新たに出現してくるURLの発見– 周期的なHot Topicの発見

48

7. 実験

7.5 Time-related Browsingの結果

• 3URLに関連するTag Countの分布– 時間とともに人気は変化する– 新たに出現してくるURLの発見– 周期的なHot Topicの発見

時間情報を含むSocial Annotationを閲覧することによって人気のTopicを取得できる

49

7. 実験

8. おわりに

まとめ

• Social Annotationの閲覧– 大規模なAnnotationのための効率的な閲覧手法が必要– ELSABerを提案

• ELSABer– Semantic Browsing

– Hierarchical Browsing

– Effective Browsing

• Enhanced Model– Personalized Browsing

– Time-related Browsing

• 実験– Del.icio.usのデータを利用– 有効性を実証

51

ご静聴ありがとうございました

指建礼 折手礼 拓手礼 双手礼 合手礼