Upload
shelly
View
170
Download
8
Embed Size (px)
DESCRIPTION
SEWM2006 中文 Web 检索评测. 李静静 北京大学网络实验室. 主要内容. Web 检索评测介绍 CWT200g & CWT20g 评测结果 总结及讨论. 三个问题. 为什么要评测? 社会问题:用户是否需要某个系统? 经济问题:某个系统值得用么? 评测什么? 查询处理时间 , 检索结果输出 , 查全率 , 查准率等 如何评测? 规范的测试集 评估方法 , 如 P@n, R-P 等. TREC 的四个目标. 大规模测试集 为基础,推动信息检索的研究 经由 开放式的论坛 ,使与会者能交流研究的成果与心得,以增进学术界、产业界与政府的交流互通 - PowerPoint PPT Presentation
Citation preview
SEWM2006 中文Web检索评测
李静静北京大学网络实验室
主要内容
Web 检索评测介绍CWT200g & CWT20g
评测结果总结及讨论
三个问题
为什么要评测?– 社会问题:用户是否需要某个系统?– 经济问题:某个系统值得用么?
评测什么?– 查询处理时间 , 检索结果输出 , 查全率 , 查准
率等 如何评测?
– 规范的测试集– 评估方法 , 如 P@n, R-P 等
TREC的四个目标
大规模测试集为基础,推动信息检索的研究 经由开放式的论坛,使与会者能交流研究的成果
与心得,以增进学术界、产业界与政府的交流互通
经由对真实检索环境的模拟与重要改进,加速将实验室研究技术转化为商业产品
发展适当且具应用性的评估技术,供各界遵循采用,包括开发更适用于现有系统的新的评估技术
SEWM2006中文Web检索评测 目标
– 研究有效的主题提取方法 针对用户给定的广泛查询,找到一组最佳的主页
– 研究有效的导航搜索方法 找到用户需要的特定页面
– 研究评估系统的稳定性– 研究不同的方法在不同的数据集中的优劣及其原因
构建了 CWT200g 和 CWT20g 参加者对自己采用的每一种检索方法都尽可能提交针对这
大小两个数据集的运行结果
主题提取( Topic Distillation)
对于一个特定主题发现一组关键资源– 注重以站点作为资源的查询– 要求是在前十个结果中寻找尽可能多的不同站点(用
它们的网站的入口页面表示) 判断是否一个好的首页面 , 应该考查结果是否符
合下面三个条件 :– 是否大部分切合主题;– 提供主题的可靠的信息;– 不是一个更大的切合主题站点的一部分
导航搜索方法 (Navigation search)
主页查询 (Home Page finding , HP)– 通常是一个网站的主页
指定页面查询 (Named Page finding , NP )– 满足用户需求的特定页面
评测准则– 第一个正确答案出现位置的倒数平均值( MRR )
主要内容
Web 检索评测介绍CWT200g & CWT20g
评测结果总结及讨论
测试集使用框架
CWT200g/CWT20g文档集
CWT200g– 根据天网搜索引擎在 2005 年 11 月份数据中的 62
7,036 个站点为数据基础– 容量 :197GB– 覆盖 29,100 个网站, 37,482,913 个网页– 网页本身是压缩保存 , 以天网格式保存
CWT20g文档集– 是 CWT200g文档集的一部分– 与 CWT200g 采用相同主题集,答案集不一样
CWT200g文档集的构建 -前期处理
原始列表
有效列表
无重列表基本列表
无错列表天网数据
种子列表
有效性过滤
MD5重复过滤非正式站点过滤(non-80, IP)
错误站点过滤站点统计
自动/手动垃圾站点过滤
CWT200g文档集的构建 -网页抓取 (中期 )
多线程抓取
广度优先抓取,限制抓取 3层
单个网站抓取容量不限,抓完停止
抓取了部分动态网页
CWT200g文件集的构建 -后期处理
全局MD5消重 ( 网页级消重 )– 充分消除冗余
先抓取 后采样– 提高采样准确性
采用压缩的天网格式保存– 进一步提高信息量
TD主题示例
<top>
<num>Number:TD182
<title> 法律援助 </title>
<desc>Description:
中国法律援助的现状,需求等报道,及寻求法律援助的论坛等
</top>
导航搜索主题示例 (HP/NP)
<top><num>Number:NP878<title> 都江堰在线 </title></top>
<top><num>Number:NP815<title> 法学视野中的高校学生申诉制度 </title></top>
相关答案集构建流程
各参赛队提交结果
pooling 得到待判断的文档集
招募人员进行相关判断
对相关判断进行检查,得到相关答案集
主要内容
Web 检索评测介绍CWT200g & CWT20g
评测结果总结及讨论
2006年提交结果的参赛队
TEAM NAMETD-RUNS (200g/20g)
NPHP-RUNS (200g/20g)
华南理工大学木棉队 KSE 5/5 5/5
大连理工大学 DLUT 3/3 3/3
山东大学计算机科学与技术学院 IRSDU 0/1 0/2
各主题的相关答案数
各个主题的答案数
0
20
40
60
80
100
120
140
160
180
146
149
152
155
158
161
164
167
171
174
177
181
184
188
191
195
198
202
205
208
211
214
200G20G
评测方法
TD 主题提取– P@10, R-P, bpref
导航搜索– MRR
TD评测结果
20G TD评测结果
0
0. 05
0. 1
0. 15
0. 2
0. 25
DLUT
_TD_
RUN1
_20G
DLUT
_TD_
RUN2
_20G
DLUT
_TD_
RUN3
_20G
I RSD
U_TD
20g_
RUN_
1
KSE_
20G_
TD_R
UN_1
KSE_
20G_
TD_R
UN_2
KSE_
20G_
TD_R
UN_3
KSE_
20G_
TD_R
UN_4
KSE_
20G_
TD_R
UN_5
P@10R- Pbpref
TD评测结果
200G TD评测结果
0
0. 05
0. 1
0. 15
0. 2
0. 25
0. 3
0. 35
0. 4
DLUT
_TD_
RUN1
_200
G
DLUT
_TD_
RUN2
_200
G
DLUT
_TD_
RUN3
_200
G
KSE_
200G
_TD_
RUN_
1
KSE_
200G
_TD_
RUN_
2
KSE_
200G
_TD_
RUN_
3
KSE_
200G
_TD_
RUN_
4
KSE_
200G
_TD_
RUN_
5
P@10R- Pbpref
NPHP评测结果
NPHP评测结果
0
0. 1
0. 2
0. 3
0. 4
0. 5
0. 6
0. 7
0. 8
0. 9
1
MRR of 200GMRR of 20G
主要内容
Web 检索评测介绍CWT200g & CWT20g
评测结果总结及讨论
关键是“可比性”
系统的得分高低是没有多大意义的当相关判断结果不同时,得分不同
相同测试集上的结果才有可比性200G 和 20G 是两个不同的测试集在不同的测试集上比较结果得分是无效的
评测的可信度
在多个测试集上评测可以提高评测可信度 主题集大小对评估稳定性有影响
– 主题数目越多,评估结果越稳定 参赛队少,相关答案集不全
– 传统的方法如 MAP 可能不够好– 解决方案:
采用新的评估方法,如 bpref
谢谢大家!
NPHP评测结果
HP&NP 200G在 上评测结果
0
0. 10. 2
0. 30. 4
0. 50. 6
0. 70. 8
0. 9
DLUT
_NPH
P_RU
N1_2
00G
DLUT
_NPH
P_RU
N2_2
00G
DLUT
_NPH
P_RU
N3_2
00G
KSE_
200G
_NPH
P_RU
N_1
KSE_
200G
_NPH
P_RU
N_2
KSE_
200G
_NPH
P_RU
N_3
KSE_
200G
_NPH
P_RU
N_4
KSE_
200G
_NPH
P_RU
N_5
MRR of HPMRR of NP
评测方法
P@10 、 R-P 、 MRR