SEWM2006 中文 Web 检索评测

SEWM2006 中文Web检索评测

李静静北京大学网络实验室

主要内容

Web 检索评测介绍CWT200g & CWT20g

评测结果总结及讨论

三个问题

为什么要评测？– 社会问题：用户是否需要某个系统？– 经济问题：某个系统值得用么？

评测什么？– 查询处理时间 , 检索结果输出 , 查全率 , 查准

率等如何评测？

– 规范的测试集– 评估方法 , 如 P@n, R-P 等

TREC的四个目标

大规模测试集为基础，推动信息检索的研究经由开放式的论坛，使与会者能交流研究的成果

与心得，以增进学术界、产业界与政府的交流互通

经由对真实检索环境的模拟与重要改进，加速将实验室研究技术转化为商业产品

发展适当且具应用性的评估技术，供各界遵循采用，包括开发更适用于现有系统的新的评估技术

SEWM2006中文Web检索评测目标

– 研究有效的主题提取方法针对用户给定的广泛查询，找到一组最佳的主页

– 研究有效的导航搜索方法找到用户需要的特定页面

– 研究评估系统的稳定性– 研究不同的方法在不同的数据集中的优劣及其原因

构建了 CWT200g 和 CWT20g 参加者对自己采用的每一种检索方法都尽可能提交针对这

大小两个数据集的运行结果

主题提取（ Topic Distillation）

对于一个特定主题发现一组关键资源– 注重以站点作为资源的查询– 要求是在前十个结果中寻找尽可能多的不同站点（用

它们的网站的入口页面表示）判断是否一个好的首页面 , 应该考查结果是否符

合下面三个条件 :– 是否大部分切合主题；– 提供主题的可靠的信息；– 不是一个更大的切合主题站点的一部分

导航搜索方法 (Navigation search)

主页查询 (Home Page finding ， HP)– 通常是一个网站的主页

指定页面查询 (Named Page finding ， NP ）– 满足用户需求的特定页面

评测准则– 第一个正确答案出现位置的倒数平均值（ MRR ）

主要内容



测试集使用框架

CWT200g/CWT20g文档集

CWT200g– 根据天网搜索引擎在 2005 年 11 月份数据中的 62

7,036 个站点为数据基础– 容量 :197GB– 覆盖 29,100 个网站， 37,482,913 个网页– 网页本身是压缩保存 , 以天网格式保存

CWT20g文档集– 是 CWT200g文档集的一部分– 与 CWT200g 采用相同主题集，答案集不一样

CWT200g文档集的构建 -前期处理

原始列表

有效列表

无重列表基本列表

无错列表天网数据

种子列表

有效性过滤

MD5重复过滤非正式站点过滤(non-80, IP)

错误站点过滤站点统计

自动/手动垃圾站点过滤

CWT200g文档集的构建 -网页抓取 (中期 )

多线程抓取

广度优先抓取，限制抓取 3层

单个网站抓取容量不限，抓完停止

抓取了部分动态网页

CWT200g文件集的构建 -后期处理

全局MD5消重 ( 网页级消重 )– 充分消除冗余

先抓取后采样– 提高采样准确性

采用压缩的天网格式保存– 进一步提高信息量

TD主题示例

<top>

<num>Number:TD182

<title> 法律援助 </title>

<desc>Description:

中国法律援助的现状，需求等报道，及寻求法律援助的论坛等

</top>

导航搜索主题示例 (HP/NP)

<top><num>Number:NP878<title> 都江堰在线 </title></top>

<top><num>Number:NP815<title> 法学视野中的高校学生申诉制度 </title></top>

相关答案集构建流程

各参赛队提交结果

pooling 得到待判断的文档集

招募人员进行相关判断

对相关判断进行检查，得到相关答案集

主要内容



2006年提交结果的参赛队

TEAM NAMETD-RUNS (200g/20g)

NPHP-RUNS (200g/20g)

华南理工大学木棉队 KSE 5/5 5/5

大连理工大学 DLUT 3/3 3/3

山东大学计算机科学与技术学院 IRSDU 0/1 0/2

各主题的相关答案数

各个主题的答案数

0

20

40

60

80

100

120

140

160

180

146

149

152

155

158

161

164

167

171

174

177

181

184

188

191

195

198

202

205

208

211

214

200G20G

评测方法

TD 主题提取– P@10, R-P, bpref

导航搜索– MRR

TD评测结果

20G TD评测结果

0

0. 05

0. 1

0. 15

0. 2

0. 25

DLUT

_TD_

RUN1

_20G

DLUT

_TD_

RUN2

_20G

DLUT

_TD_

RUN3

_20G

I RSD

U_TD

20g_

RUN_

1

KSE_

20G_

TD_R

UN_1

KSE_

20G_

TD_R

UN_2

KSE_

20G_

TD_R

UN_3

KSE_

20G_

TD_R

UN_4

KSE_

20G_

TD_R

UN_5

P@10R- Pbpref

TD评测结果

200G TD评测结果

0

0. 05

0. 1

0. 15

0. 2

0. 25

0. 3

0. 35

0. 4

DLUT

_TD_

RUN1

_200

G

DLUT

_TD_

RUN2

_200

G

DLUT

_TD_

RUN3

_200

G

KSE_

200G

_TD_

RUN_

1

KSE_

200G

_TD_

RUN_

2

KSE_

200G

_TD_

RUN_

3

KSE_

200G

_TD_

RUN_

4

KSE_

200G

_TD_

RUN_

5

P@10R- Pbpref

NPHP评测结果

NPHP评测结果

0

0. 1

0. 2

0. 3

0. 4

0. 5

0. 6

0. 7

0. 8

0. 9

1

MRR of 200GMRR of 20G

主要内容



关键是“可比性”

系统的得分高低是没有多大意义的当相关判断结果不同时，得分不同

相同测试集上的结果才有可比性200G 和 20G 是两个不同的测试集在不同的测试集上比较结果得分是无效的

评测的可信度

在多个测试集上评测可以提高评测可信度主题集大小对评估稳定性有影响

– 主题数目越多，评估结果越稳定参赛队少，相关答案集不全

– 传统的方法如 MAP 可能不够好– 解决方案：

采用新的评估方法，如 bpref

谢谢大家！

NPHP评测结果

HP&NP 200G在上评测结果

0

0. 10. 2

0. 30. 4

0. 50. 6

0. 70. 8

0. 9

DLUT

_NPH

P_RU

N1_2

00G

DLUT

_NPH

P_RU

N2_2

00G

DLUT

_NPH

P_RU

N3_2

00G

KSE_

200G

_NPH

P_RU

N_1

KSE_

200G

_NPH

P_RU

N_2

KSE_

200G

_NPH

P_RU

N_3

KSE_

200G

_NPH

P_RU

N_4

KSE_

200G

_NPH

P_RU

N_5

MRR of HPMRR of NP

评测方法

P@10 、 R-P 、 MRR

Documents

SEWM2006 中文 Web 检索评测