Upload
sawyer-avery
View
23
Download
0
Embed Size (px)
DESCRIPTION
研究概要. リンク構造解析スコアリング 既存手法( PageRank アルゴリズム / HITS アルゴリズム) リンク構造上隣接関係を基にスコアリング( PageRank / HITS ) 「リンク行為=リンク先 Web ページの推薦」と定義( PageRank ) 「(検索結果集合)+( 1 クリック距離集合)」にスコアリング( HITS ) 既存手法問題点 PageRank: 「リンク行為=リンク先 Web ページの推薦」? 直接リンク不可能な場合が存在 HITS: アルゴリズム適用範囲=検索語句との関連性大? - PowerPoint PPT Presentation
Citation preview
Page: 1
研究概要研究概要• リンク構造解析スコアリング
– 既存手法( PageRank アルゴリズム / HITS アルゴリズム)• リンク構造上隣接関係を基にスコアリング( PageRank / HITS )• 「リンク行為=リンク先 Web ページの推薦」と定義( PageRank )• 「(検索結果集合)+( 1 クリック距離集合)」にスコアリング
( HITS )
– 既存手法問題点• PageRank: 「リンク行為=リンク先 Web ページの推薦」?
– 直接リンク不可能な場合が存在
• HITS: アルゴリズム適用範囲=検索語句との関連性大?– 1 クリック距離集合は検索語句に無関係である場合が存在
• 提案手法– リンク構造上隣接関係を拡張したスコアリング手法
リンク元 リンク先
中継点
リンク不能
リンク元の影響度が減衰
Page: 2
提案 提案 1: 1: グループ化グループ化• 概要
– 類似情報を持つ Web ページ集合をグループ化(意味付与)
• 類似情報 : 「同一作成者 / 同一コンテンツ内」
– 同一グループ内のリンク構造を削除
• 処理– ディレクトリ構造による木構造– 葉( Web ページ)を枝(ディレクトリ)と併合– リンク構造の更新
リンク構造上隣接関係を拡張
Directory Web Page Group
Root
Page: 3
提案 提案 2: 2: スコアリングスコアリング• 静的スコアリング
– 全文書集合に含まれるリンク構造を対象– グループ化と併用
• 動的スコアリング– 全文検索結果集合に含まれるリンク構造を対象– グループ化適用前後 2 種類のスコアを算出– グループ化と併用
• ランキング(併合スコアリング)– 上記各スコア,全文検索スコアを併合– 重み付け加算を採用
隣接関係拡張 / リンク数減少を図る
隣接関係拡張 / リンク数増加を図る
スコア特性を活かす併合式を検討
Page: 4
実験 実験 1: 1: グループ化グループ化• グループ化処理結果比較
• リンク構造解析スコア分布
Web ページ数
最小 1
平均 5
最大 30,466
中央 1
静的スコアリング 動的スコアリング
グループ化 前 後 前 後
ノード数 23,670k 4,500k 193k 124k
リンク数 79,700k 18,140k 96k 120k
全文検索 静的スコア 動的スコア
グループ化 - 前 後 前 後
最小 2.3 7.3E-9 3.3E-8 6.8E-5 7.7E-5
平均 10.4 4.2E-8 2.2E-7 4.0E-4 6.4E-4
最大 30.3 2.6E-4 4.2E-7 4.9E-1 5.7E-2
中央 9.5 8.4E-9 2.3E-7 7.0E-5 5.1E-4
グループあたり Web ページ数 グループ化前後による ノード数 / リンク数 比較
手法別スコアリング結果比較
Page: 5
実験 実験 2: 2: スコアリングスコアリング• 各スコアリング手法単体評価
• 適合文書抽出割合比較
Weighted Reciprocal Rank
0
0.01
0.02
0.03
0.04
0.05
0 20 40 60 80 100Ranks
Val
ues
Recall - Precision
0
0.01
0.02
0.03
0.04
0.05
0.06
0.0 0.2 0.4 0.6 0.8 1.0Recall
Pre
cisi
on 全文検索静的(前)静的(後)動的(前)動的(後)
静的スコアリング
49%
12%
12% 1%
26%
13%
動的スコアリング
19%
13%17%
14%
37%
27%
グループ化後グループ化前
双方未抽出
Page: 6
• スコア併合式 / 重み係数調査
• 検索精度評価比較
Weighted Reciprocal Rank (Wr, Wsn, Wsg, Wdn, Wdg)
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
(2,1,*
,0,0) [
1]
(2,2,1
,0,0) [
4]
(2,2,2
,0,0) [
5]
(1,1,*
,0,0) [
6]
(2,2,2
,0,1) [
10]
(2,2,2
,0,2) [
20]
(2,2,2
,1,0) [
22]
(2,2,0
,2,0) [
58]
(1,0,1
,2,1) [1
60]
(1,0,0
,2,2) [1
61]
(1,0,0
,2,1) [1
62]
Val
ues
Rank 10Rank 100
Score (p) = Wr ・ Retrieval (p)+ Wsn ・ StaticN (p)+ Wsg ・ StaticG (p)+ Wdn ・ DynamicN (p)+ Wdg ・ DynamicG (p)
Weighted Reciprocal Rank
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0 20 40 60 80 100Ranks
Val
ues
Recall - Precision
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.0 0.2 0.4 0.6 0.8 1.0Recall
Pre
cisi
on
全文検索全文検索+ PageRank提案手法 (2,1,2,0,0)
Page: 7
考察考察• グループ化
– グループ間粒度に格差が発生
• 静的スコアリング– 検索可能課題の割合:グループ化前 =61% / 後 =13%
– グループ化前後の併合により検索精度向上
• 動的スコアリング– 検索可能課題の割合:グループ化前 =32% / 後 =31%
リンク構造解析スコアに影響
グループ化適用時のみ抽出可能な検索課題が存在
検索不可能課題が非常に多い
Page: 8
まとめ まとめ / / 今後の課題今後の課題• まとめ
– 提案手法それぞれの有効性を確認– 併合スコアによる検索精度向上を確認
• 今後の課題– グループ化
• グループの粒度差解消に関する調査検討• 各グループに付与された意味情報に関する調査検討• 他グループ化手法の検討
– スコアリング• 各手法が有効に働く Web ページ構成に関する調査検討• スコア併合式に関する調査検討• スコア算出コストの軽減案検討