29
SEWM2006 中中 Web 中中中中 李李李 李李李李李李李李李

SEWM2006 中文 Web 检索评测

  • Upload
    shelly

  • View
    170

  • Download
    8

Embed Size (px)

DESCRIPTION

SEWM2006 中文 Web 检索评测. 李静静 北京大学网络实验室. 主要内容. Web 检索评测介绍 CWT200g & CWT20g 评测结果 总结及讨论. 三个问题. 为什么要评测? 社会问题:用户是否需要某个系统? 经济问题:某个系统值得用么? 评测什么? 查询处理时间 , 检索结果输出 , 查全率 , 查准率等 如何评测? 规范的测试集 评估方法 , 如 P@n, R-P 等. TREC 的四个目标. 大规模测试集 为基础,推动信息检索的研究 经由 开放式的论坛 ,使与会者能交流研究的成果与心得,以增进学术界、产业界与政府的交流互通 - PowerPoint PPT Presentation

Citation preview

Page 1: SEWM2006 中文 Web 检索评测

SEWM2006 中文Web检索评测

李静静北京大学网络实验室

Page 2: SEWM2006 中文 Web 检索评测

主要内容

Web 检索评测介绍CWT200g & CWT20g

评测结果总结及讨论

Page 3: SEWM2006 中文 Web 检索评测

三个问题

为什么要评测?– 社会问题:用户是否需要某个系统?– 经济问题:某个系统值得用么?

评测什么?– 查询处理时间 , 检索结果输出 , 查全率 , 查准

率等 如何评测?

– 规范的测试集– 评估方法 , 如 P@n, R-P 等

Page 4: SEWM2006 中文 Web 检索评测

TREC的四个目标

大规模测试集为基础,推动信息检索的研究 经由开放式的论坛,使与会者能交流研究的成果

与心得,以增进学术界、产业界与政府的交流互通

经由对真实检索环境的模拟与重要改进,加速将实验室研究技术转化为商业产品

发展适当且具应用性的评估技术,供各界遵循采用,包括开发更适用于现有系统的新的评估技术

Page 5: SEWM2006 中文 Web 检索评测

SEWM2006中文Web检索评测 目标

– 研究有效的主题提取方法 针对用户给定的广泛查询,找到一组最佳的主页

– 研究有效的导航搜索方法 找到用户需要的特定页面

– 研究评估系统的稳定性– 研究不同的方法在不同的数据集中的优劣及其原因

构建了 CWT200g 和 CWT20g 参加者对自己采用的每一种检索方法都尽可能提交针对这

大小两个数据集的运行结果

Page 6: SEWM2006 中文 Web 检索评测

主题提取( Topic Distillation)

对于一个特定主题发现一组关键资源– 注重以站点作为资源的查询– 要求是在前十个结果中寻找尽可能多的不同站点(用

它们的网站的入口页面表示) 判断是否一个好的首页面 , 应该考查结果是否符

合下面三个条件 :– 是否大部分切合主题;– 提供主题的可靠的信息;– 不是一个更大的切合主题站点的一部分

Page 7: SEWM2006 中文 Web 检索评测

导航搜索方法 (Navigation search)

主页查询 (Home Page finding , HP)– 通常是一个网站的主页

指定页面查询 (Named Page finding , NP )– 满足用户需求的特定页面

评测准则– 第一个正确答案出现位置的倒数平均值( MRR )

Page 8: SEWM2006 中文 Web 检索评测

主要内容

Web 检索评测介绍CWT200g & CWT20g

评测结果总结及讨论

Page 9: SEWM2006 中文 Web 检索评测

测试集使用框架

Page 10: SEWM2006 中文 Web 检索评测

CWT200g/CWT20g文档集

CWT200g– 根据天网搜索引擎在 2005 年 11 月份数据中的 62

7,036 个站点为数据基础– 容量 :197GB– 覆盖 29,100 个网站, 37,482,913 个网页– 网页本身是压缩保存 , 以天网格式保存

CWT20g文档集– 是 CWT200g文档集的一部分– 与 CWT200g 采用相同主题集,答案集不一样

Page 11: SEWM2006 中文 Web 检索评测

CWT200g文档集的构建 -前期处理

原始列表

有效列表

无重列表基本列表

无错列表天网数据

种子列表

有效性过滤

MD5重复过滤非正式站点过滤(non-80, IP)

错误站点过滤站点统计

自动/手动垃圾站点过滤

Page 12: SEWM2006 中文 Web 检索评测

CWT200g文档集的构建 -网页抓取 (中期 )

多线程抓取

广度优先抓取,限制抓取 3层

单个网站抓取容量不限,抓完停止

抓取了部分动态网页

Page 13: SEWM2006 中文 Web 检索评测

CWT200g文件集的构建 -后期处理

全局MD5消重 ( 网页级消重 )– 充分消除冗余

先抓取 后采样– 提高采样准确性

采用压缩的天网格式保存– 进一步提高信息量

Page 14: SEWM2006 中文 Web 检索评测

TD主题示例

<top>

<num>Number:TD182

<title> 法律援助 </title>

<desc>Description:

中国法律援助的现状,需求等报道,及寻求法律援助的论坛等

</top>

Page 15: SEWM2006 中文 Web 检索评测

导航搜索主题示例 (HP/NP)

<top><num>Number:NP878<title> 都江堰在线 </title></top>

<top><num>Number:NP815<title> 法学视野中的高校学生申诉制度 </title></top>

Page 16: SEWM2006 中文 Web 检索评测

相关答案集构建流程

各参赛队提交结果

pooling 得到待判断的文档集

招募人员进行相关判断

对相关判断进行检查,得到相关答案集

Page 17: SEWM2006 中文 Web 检索评测

主要内容

Web 检索评测介绍CWT200g & CWT20g

评测结果总结及讨论

Page 18: SEWM2006 中文 Web 检索评测

2006年提交结果的参赛队

TEAM NAMETD-RUNS (200g/20g)

NPHP-RUNS (200g/20g)

华南理工大学木棉队 KSE 5/5 5/5

大连理工大学 DLUT 3/3 3/3

山东大学计算机科学与技术学院 IRSDU 0/1 0/2

Page 19: SEWM2006 中文 Web 检索评测

各主题的相关答案数

各个主题的答案数

0

20

40

60

80

100

120

140

160

180

146

149

152

155

158

161

164

167

171

174

177

181

184

188

191

195

198

202

205

208

211

214

200G20G

Page 20: SEWM2006 中文 Web 检索评测

评测方法

TD 主题提取– P@10, R-P, bpref

导航搜索– MRR

Page 21: SEWM2006 中文 Web 检索评测

TD评测结果

20G TD评测结果

0

0. 05

0. 1

0. 15

0. 2

0. 25

DLUT

_TD_

RUN1

_20G

DLUT

_TD_

RUN2

_20G

DLUT

_TD_

RUN3

_20G

I RSD

U_TD

20g_

RUN_

1

KSE_

20G_

TD_R

UN_1

KSE_

20G_

TD_R

UN_2

KSE_

20G_

TD_R

UN_3

KSE_

20G_

TD_R

UN_4

KSE_

20G_

TD_R

UN_5

P@10R- Pbpref

Page 22: SEWM2006 中文 Web 检索评测

TD评测结果

200G TD评测结果

0

0. 05

0. 1

0. 15

0. 2

0. 25

0. 3

0. 35

0. 4

DLUT

_TD_

RUN1

_200

G

DLUT

_TD_

RUN2

_200

G

DLUT

_TD_

RUN3

_200

G

KSE_

200G

_TD_

RUN_

1

KSE_

200G

_TD_

RUN_

2

KSE_

200G

_TD_

RUN_

3

KSE_

200G

_TD_

RUN_

4

KSE_

200G

_TD_

RUN_

5

P@10R- Pbpref

Page 23: SEWM2006 中文 Web 检索评测

NPHP评测结果

NPHP评测结果

0

0. 1

0. 2

0. 3

0. 4

0. 5

0. 6

0. 7

0. 8

0. 9

1

MRR of 200GMRR of 20G

Page 24: SEWM2006 中文 Web 检索评测

主要内容

Web 检索评测介绍CWT200g & CWT20g

评测结果总结及讨论

Page 25: SEWM2006 中文 Web 检索评测

关键是“可比性”

系统的得分高低是没有多大意义的当相关判断结果不同时,得分不同

相同测试集上的结果才有可比性200G 和 20G 是两个不同的测试集在不同的测试集上比较结果得分是无效的

Page 26: SEWM2006 中文 Web 检索评测

评测的可信度

在多个测试集上评测可以提高评测可信度 主题集大小对评估稳定性有影响

– 主题数目越多,评估结果越稳定 参赛队少,相关答案集不全

– 传统的方法如 MAP 可能不够好– 解决方案:

采用新的评估方法,如 bpref

Page 27: SEWM2006 中文 Web 检索评测

谢谢大家!

Page 28: SEWM2006 中文 Web 检索评测

NPHP评测结果

HP&NP 200G在 上评测结果

0

0. 10. 2

0. 30. 4

0. 50. 6

0. 70. 8

0. 9

DLUT

_NPH

P_RU

N1_2

00G

DLUT

_NPH

P_RU

N2_2

00G

DLUT

_NPH

P_RU

N3_2

00G

KSE_

200G

_NPH

P_RU

N_1

KSE_

200G

_NPH

P_RU

N_2

KSE_

200G

_NPH

P_RU

N_3

KSE_

200G

_NPH

P_RU

N_4

KSE_

200G

_NPH

P_RU

N_5

MRR of HPMRR of NP

Page 29: SEWM2006 中文 Web 检索评测

评测方法

P@10 、 R-P 、 MRR