29

Click here to load reader

Ranking SVM

  • Upload
    hitalex

  • View
    1.379

  • Download
    10

Embed Size (px)

DESCRIPTION

这是本人SVM课程中的文献阅读部分做的演讲。

Citation preview

Page 1: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

.

.. ..

.

.

Optimizing Search Engines using ClickthroughData

Presented by: 孔庆超 1

Paper by: Thorsten Joachims2

1 中国科学院自动化所

2Department of Computer ScienceCornell University

2011 年 11 月 1 日

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 2: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

.. 目录

.. .1 问题是什么?

.. .2 问题抽象

.. .3 Ranking SVM

.. .4 实验结果

.. .5 {Most amazing part}

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 3: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

搜索结果排序优化排序算法

.. .1 问题是什么?搜索结果排序优化排序算法

.. .2 问题抽象

.. .3 Ranking SVM

.. .4 实验结果

.. .5 {Most amazing part}

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 4: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

搜索结果排序优化排序算法

.. 搜索结果排序是个大问题

搜索引擎的核心竞争力InktomiGoogle百度

构建更好的搜索引擎收录网页数量:增加服务器速度:增加带宽搜索准确度:排序算法构成搜索引擎的主要差距

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 5: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

搜索结果排序优化排序算法

.. 搜索结果排序是个大问题

搜索引擎的核心竞争力InktomiGoogle百度

构建更好的搜索引擎收录网页数量:增加服务器速度:增加带宽搜索准确度:排序算法构成搜索引擎的主要差距

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 6: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

搜索结果排序优化排序算法

.. 如何优化排序算法?

依靠用户反馈是否可行?

潜在的“用户反馈“:用户行为

Clickthrough data(点击行为数据) 特点:易获取、数据量大

如何获取数据:代理

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 7: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

搜索结果排序优化排序算法

.. 如何优化排序算法?

依靠用户反馈是否可行?

潜在的“用户反馈“:用户行为

Clickthrough data(点击行为数据) 特点:易获取、数据量大

如何获取数据:代理

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 8: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

搜索结果排序优化排序算法

.. 如何优化排序算法?

依靠用户反馈是否可行?

潜在的“用户反馈“:用户行为

Clickthrough data(点击行为数据) 特点:易获取、数据量大

如何获取数据:代理

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 9: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

搜索结果排序优化排序算法

.. 如何优化排序算法?

依靠用户反馈是否可行?

潜在的“用户反馈“:用户行为

Clickthrough data(点击行为数据) 特点:易获取、数据量大

如何获取数据:代理

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 10: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. .1 问题是什么?

.. .2 问题抽象为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. .3 Ranking SVM

.. .4 实验结果

.. .5 {Most amazing part}孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 11: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 为 Clickthrough data 建模

使用三元组 (q, r, c) 建模q 表示搜索关键词r 表示排序函数c 表示用户点击的链接的集合(不包含顺序信息)

搜索举例

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 12: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 为 Clickthrough data 建模

使用三元组 (q, r, c) 建模q 表示搜索关键词r 表示排序函数c 表示用户点击的链接的集合(不包含顺序信息)

搜索举例

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 13: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 搜索”support vector machine”

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 14: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 排序的相对性

对于排序函数相差很大的搜索引擎,用户点击产生的“平均排序“值大致相同

排序结果的相对性

最优的排序结果 <r∗

link3 <r∗ link2link7 <r∗ link2, link7 <r∗ link4, link7 <r∗ link5,link7 <r∗ link6

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 15: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 排序的相对性

对于排序函数相差很大的搜索引擎,用户点击产生的“平均排序“值大致相同

排序结果的相对性

最优的排序结果 <r∗

link3 <r∗ link2link7 <r∗ link2, link7 <r∗ link4, link7 <r∗ link5,link7 <r∗ link6

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 16: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 排序的相对性

对于排序函数相差很大的搜索引擎,用户点击产生的“平均排序“值大致相同

排序结果的相对性

最优的排序结果 <r∗

link3 <r∗ link2link7 <r∗ link2, link7 <r∗ link4, link7 <r∗ link5,link7 <r∗ link6

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 17: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 从点击数据中抽取偏好反馈

.Algorithm 1. Extracting preference feedback from clickthroughdata..

.. ..

.

.

For a ranking(link1, link2, link3, ...) and a set C containing theranks of the clicked-on links, extract a preference example

linki <r∗ linkj

for all pairs 1 ≤ j < i, with i ∈ C and j /∈ C.

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 18: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 差距描述:Kendall’s τ

返回的网页集合 D = {d1, d2, ..., dm}

排序结果 r, 定义 r ⊂ D × D

如果 di <r dj,那么有序对 (di, dj) ∈ r,否则 (di, dj) /∈ r

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 19: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 差距描述:Kendall’s τ

对于两个不同的排序结果 ra 和 rb,定义 P 为两个排序结果中排序一致的网页对数, Q 为两个排序结果中不一致的网页对数。

举例ra: d1 < d2 < d3 < d4 < d5

rb: d3 < d2 < d1 < d4 < d5

其中,不一致的排序对数 Q 为 3 {(d2, d3), (d1, d2), (d1, d3)},P 为 7.

τ(ra, rb) =P−QP+Q

τ 越大, ra 和 rb 两者之间的差距排序差距越小

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 20: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 差距描述:Kendall’s τ

对于两个不同的排序结果 ra 和 rb,定义 P 为两个排序结果中排序一致的网页对数, Q 为两个排序结果中不一致的网页对数。

举例ra: d1 < d2 < d3 < d4 < d5

rb: d3 < d2 < d1 < d4 < d5

其中,不一致的排序对数 Q 为 3 {(d2, d3), (d1, d2), (d1, d3)},P 为 7.

τ(ra, rb) =P−QP+Q

τ 越大, ra 和 rb 两者之间的差距排序差距越小

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 21: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 差距描述:Kendall’s τ

对于两个不同的排序结果 ra 和 rb,定义 P 为两个排序结果中排序一致的网页对数, Q 为两个排序结果中不一致的网页对数。

举例ra: d1 < d2 < d3 < d4 < d5

rb: d3 < d2 < d1 < d4 < d5

其中,不一致的排序对数 Q 为 3 {(d2, d3), (d1, d2), (d1, d3)},P 为 7.

τ(ra, rb) =P−QP+Q

τ 越大, ra 和 rb 两者之间的差距排序差距越小

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 22: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

为 Clickthrough data 建模搜索结果排序没有看起来那么简单我们离最好的结果还差多远?问题还没有解决

.. 问题还没有解决

给定关键词 qi 和与之相对应的最优排序结果 r∗i;另外记对于排序函数 f(qi) 所产生的排序结果为 rf(qi)

我们只需要最大化

τS(f) =1

n

n∑i=1

τ(rf(qi), r∗i )

其中, S 为样品集合 {(q1, r∗1), (q2, r∗2), ..., (qn, r∗n)}, n 为样品中的样品数(也就是搜索关键词的数目),f 为排序函数。

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 23: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

问题转化又见 SVM最优结果的模拟

.. .1 问题是什么?

.. .2 问题抽象

.. .3 Ranking SVM问题转化又见 SVM最优结果的模拟

.. .4 实验结果

.. .5 {Most amazing part}孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 24: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

问题转化又见 SVM最优结果的模拟

.. 问题转化

(di, dj) ∈ fw⃗(q) ⇔ w⃗ · Φ(q, di) > w⃗ · Φ(q, dj)

其中, w⃗ 为权向量, Φ(q, d) 将 (q, d) 映射成为一个属性(feature) 向量。

属性向量描述搜索关键词 q 和返回结果 d 之间的关联属性。例如,关键词和返回结果之间具有的相同的单词的个数等。

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 25: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

问题转化又见 SVM最优结果的模拟

.. 又见 SVM

min V(w⃗, ξ⃗) = 1

2w⃗ · w⃗ + C

∑ξi,j,k

s.t.

∀(di, dj) ∈ r∗1 : w⃗ · Φ(q1, di) ≥ w⃗ · Φ(q1, dj) + 1− ξi,j,1

· · ·

∀(di, dj) ∈ r∗n : w⃗ · Φ(qn, di) ≥ w⃗ · Φ(qn, dj) + 1− ξi,j,n

∀i, ∀j, ∀k : ξi,j,k ≥ 0

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 26: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

问题转化又见 SVM最优结果的模拟

.. 最优结果的模拟

min V(w⃗, ξ⃗) = 1

2w⃗ · w⃗ + C

∑ξi,j,k

s.t.

∀(di, dj) ∈ r′1 : w⃗ · Φ(q1, di) ≥ w⃗ · Φ(q1, dj) + 1− ξi,j,1

· · ·

∀(di, dj) ∈ r′n : w⃗ · Φ(qn, di) ≥ w⃗ · Φ(qn, dj) + 1− ξi,j,n

∀i, ∀j, ∀k : ξi,j,k ≥ 0

其中, r′ 为从系统日志中得到的“训练数据“。孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 27: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

.. .1 问题是什么?

.. .2 问题抽象

.. .3 Ranking SVM

.. .4 实验结果离线实验在线交互实验

.. .5 {Most amazing part}

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 28: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

.. 最优化问题的求解哲学

假设存在最优解 s∗

设置求解变量 s

描述最优化目标:最小化 s 和 s∗ 之间的差距

采用可以获得的 s′ 模拟 s∗

构建最优化模型,使用最优化方法求解 s∗

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data

Page 29: Ranking SVM

. . . . . .

问题是什么?问题抽象

Ranking SVM实验结果

{Most amazing part}

.. Q & A

Thank youand any questions?

孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data