8
Page: 1 研研研研 研研研研 • リリリリリリリリリリリリリ – リリリリPageRank リリリリリリ / HITS リリリリリリ• リリリリリリリリリリリリリリリリリリリPageRank / HITS • リリリリリリ リリリリ Web リリリリリリ リリリPageRank •リ リリリリリリリ リ リ ()+( 1 リリリリリリリリ リリリリリリリリリ )( HITS – リリリリリリリ • PageRank: リリリリリリ リリリリ Web リリリリリリ– リリリリリリリリリリリリリリ • HITS: リリリリリリリリリリ リリリリリリリリリリリ =? – 1 リリリリリリリリリリリリリリリリリリリリリリリリリ • リリリリ – リリリリリリリリリリリリリリリリリリリリリリリ 研研研研 研研研研 研研研 研研研研研 研研研研研研研研研研研

研究概要

Embed Size (px)

DESCRIPTION

研究概要. リンク構造解析スコアリング 既存手法( PageRank アルゴリズム / HITS アルゴリズム) リンク構造上隣接関係を基にスコアリング( PageRank / HITS ) 「リンク行為=リンク先 Web ページの推薦」と定義( PageRank ) 「(検索結果集合)+( 1 クリック距離集合)」にスコアリング( HITS ) 既存手法問題点 PageRank: 「リンク行為=リンク先 Web ページの推薦」? 直接リンク不可能な場合が存在 HITS: アルゴリズム適用範囲=検索語句との関連性大? - PowerPoint PPT Presentation

Citation preview

Page 1: 研究概要

Page: 1

研究概要研究概要• リンク構造解析スコアリング

– 既存手法( PageRank アルゴリズム / HITS アルゴリズム)• リンク構造上隣接関係を基にスコアリング( PageRank / HITS )• 「リンク行為=リンク先 Web ページの推薦」と定義( PageRank )• 「(検索結果集合)+( 1 クリック距離集合)」にスコアリング

( HITS )

– 既存手法問題点• PageRank: 「リンク行為=リンク先 Web ページの推薦」?

– 直接リンク不可能な場合が存在

• HITS: アルゴリズム適用範囲=検索語句との関連性大?– 1 クリック距離集合は検索語句に無関係である場合が存在

• 提案手法– リンク構造上隣接関係を拡張したスコアリング手法

リンク元 リンク先

中継点

リンク不能

リンク元の影響度が減衰

Page 2: 研究概要

Page: 2

提案 提案 1: 1: グループ化グループ化• 概要

– 類似情報を持つ Web ページ集合をグループ化(意味付与)

• 類似情報 : 「同一作成者 / 同一コンテンツ内」

– 同一グループ内のリンク構造を削除

• 処理– ディレクトリ構造による木構造– 葉( Web ページ)を枝(ディレクトリ)と併合– リンク構造の更新

リンク構造上隣接関係を拡張

Directory Web Page Group

Root

Page 3: 研究概要

Page: 3

提案 提案 2: 2: スコアリングスコアリング• 静的スコアリング

– 全文書集合に含まれるリンク構造を対象– グループ化と併用

• 動的スコアリング– 全文検索結果集合に含まれるリンク構造を対象– グループ化適用前後 2 種類のスコアを算出– グループ化と併用

• ランキング(併合スコアリング)– 上記各スコア,全文検索スコアを併合– 重み付け加算を採用

隣接関係拡張 / リンク数減少を図る

隣接関係拡張 / リンク数増加を図る

スコア特性を活かす併合式を検討

Page 4: 研究概要

Page: 4

実験 実験 1: 1: グループ化グループ化• グループ化処理結果比較

• リンク構造解析スコア分布

Web ページ数

最小 1

平均 5

最大 30,466

中央 1

静的スコアリング 動的スコアリング

グループ化 前 後 前 後

ノード数 23,670k 4,500k 193k 124k

リンク数 79,700k 18,140k 96k 120k

全文検索 静的スコア 動的スコア

グループ化 - 前 後 前 後

最小 2.3 7.3E-9 3.3E-8 6.8E-5 7.7E-5

平均 10.4 4.2E-8 2.2E-7 4.0E-4 6.4E-4

最大 30.3 2.6E-4 4.2E-7 4.9E-1 5.7E-2

中央 9.5 8.4E-9 2.3E-7 7.0E-5 5.1E-4

グループあたり Web ページ数 グループ化前後による ノード数 / リンク数 比較

手法別スコアリング結果比較

Page 5: 研究概要

Page: 5

実験 実験 2: 2: スコアリングスコアリング• 各スコアリング手法単体評価

• 適合文書抽出割合比較

Weighted Reciprocal Rank

0

0.01

0.02

0.03

0.04

0.05

0 20 40 60 80 100Ranks

Val

ues

Recall - Precision

0

0.01

0.02

0.03

0.04

0.05

0.06

0.0 0.2 0.4 0.6 0.8 1.0Recall

Pre

cisi

on 全文検索静的(前)静的(後)動的(前)動的(後)

静的スコアリング

49%

12%

12% 1%

26%

13%

動的スコアリング

19%

13%17%

14%

37%

27%

グループ化後グループ化前

双方未抽出

Page 6: 研究概要

Page: 6

• スコア併合式 / 重み係数調査

• 検索精度評価比較

Weighted Reciprocal Rank (Wr, Wsn, Wsg, Wdn, Wdg)

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

(2,1,*

,0,0) [

1]

(2,2,1

,0,0) [

4]

(2,2,2

,0,0) [

5]

(1,1,*

,0,0) [

6]

(2,2,2

,0,1) [

10]

(2,2,2

,0,2) [

20]

(2,2,2

,1,0) [

22]

(2,2,0

,2,0) [

58]

(1,0,1

,2,1) [1

60]

(1,0,0

,2,2) [1

61]

(1,0,0

,2,1) [1

62]

Val

ues

Rank 10Rank 100

Score (p) = Wr ・ Retrieval (p)+ Wsn ・ StaticN (p)+ Wsg ・ StaticG (p)+ Wdn ・ DynamicN (p)+ Wdg ・ DynamicG (p)

Weighted Reciprocal Rank

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0 20 40 60 80 100Ranks

Val

ues

Recall - Precision

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.0 0.2 0.4 0.6 0.8 1.0Recall

Pre

cisi

on

全文検索全文検索+ PageRank提案手法 (2,1,2,0,0)

Page 7: 研究概要

Page: 7

考察考察• グループ化

– グループ間粒度に格差が発生

• 静的スコアリング– 検索可能課題の割合:グループ化前 =61% / 後 =13%

– グループ化前後の併合により検索精度向上

• 動的スコアリング– 検索可能課題の割合:グループ化前 =32% / 後 =31%

リンク構造解析スコアに影響

グループ化適用時のみ抽出可能な検索課題が存在

検索不可能課題が非常に多い

Page 8: 研究概要

Page: 8

まとめ まとめ / / 今後の課題今後の課題• まとめ

– 提案手法それぞれの有効性を確認– 併合スコアによる検索精度向上を確認

• 今後の課題– グループ化

• グループの粒度差解消に関する調査検討• 各グループに付与された意味情報に関する調査検討• 他グループ化手法の検討

– スコアリング• 各手法が有効に働く Web ページ構成に関する調査検討• スコア併合式に関する調査検討• スコア算出コストの軽減案検討