SEWM2010 信息检索评测 —— 文献检索

SEWM2010 信息检索评测—— 文献检索

闫宏飞2010/5/16

内容提纲• 介绍时间安排和评测任务• 测试集构造• 参评队伍和人员• 评测结果

评测安排• 评测通知： 2009.11~2010.5– http://www.cwirf.org/call2010.html– 说明评测任务，说明并准备文档集

• 评测指南： 2010.4– http://www.cwirf.org/Evaluation/CWT.html– 给出问题集，说明提交运行结果的格式– 2010.5 提交结果、开会讨论

http://www.cwirf.org/call2010.html

http://www.cwirf.org/Evaluation/CWT.html

我们构建的测试集

• CWT100g– Chinese Web Test collection with 100 GB web pages

• CWT200g– Chinese Web Test collection with 200 GB web pages

• CWT70th– Chinese Web Test Collection with 70 thousand web pages

• ComPaper10th– Computer Paper test collection with about 10 thousand

full-text papers

Motivation (1/2)

• Social media– Web 1.0 => Web 2.0

• e.g., twitter, blog.

• Multiple source data mining– Multiple sources provides complementary information

• E.g., paper and conference, co-authorship, individual home page, metadata (download counts, citation numbers, …), slides, video.

• Favored users– Researchers and students– We ourselves are users and expert assessors

Motivation (2/2)

• http://www.cwirf.org/Evaluation/CWT.html• Web 信息检索包容的文本信息越来越多，文献在其

中占很大比重，且对科研工作和教学有很大的帮助。本任务希望在两个发展方向有所贡献– 相关论文查询任务（ task1 ）

• 提高检索的质量，与 Web Search 追求精度不同，此处更注重于召回率 .

– 领域重要文献和专家查询任务• 找到相关领域的最主要论文（ task2 ）• 以及一些较权威的作者，帮助读者了解相关知识 . （ task3 ）

http://www.cwirf.org/Evaluation/CWT.html

Related works

• scholar.google.com– Also include patents and books

• academic.research.microsoft.com– Over 5 million papers

• CiteSeer– About 1.5 million papers

• ArtnetMiner– Has a user management module

• DBLP– metadata

测试集 ComPaper10th

• http://www.cwirf.org/2010WebTrack/lt/ • 文档集– 超过 1 万篇的论文原文 PDF ，存储在天网格式文件中– 提供 DBLP 和 Citeseer 的论文元数据

• 查询集– 相关论文查询 104 个问题– 领域主要文献和专家查询 8 个问题

• 答案集– Will appear after the meeting

http://www.cwirf.org/2010WebTrack/lt/

ComPaper10th 文档集• total papers: 10840 // updated on Apr. 17, 2010

– WWW 2009~2001: 1613 papers– SIGIR 2009~1978: 2186 papers– CIKM 2009~2000: 1468 papers– KDD 2009~2000: 1086 papers – VLDB 2006~2005: 274 papers – TOIS Nov. 2009~Jan. 2000: 179 papers – IPDPS 2004: 141 papers– ACL 2009~1979: 2352 papers – WSDM 2010~2008: 101 papers – EACL 2009~1983: 623 papers – NAACL 2009~2000: 817 papers

查询集构建指南（ 1/2 ）： 2010 年 4 月 11 日出，要求 4 天内完成• 构建的查询集要求全是英文 . 要求：

– 每人构建 10 个 query 及其答案• 尽量按照自己目前研究重点来构建，这样可以最大程度的避免重复。

– 查询词要模拟信息检索领域的学术用户给出• 站在用户研究该领域的角度，给出贴近于他们所关心问题的查询词，而不是泛

泛的词汇。– 查询词要对应一定规模的相关结果。

• 就是要有一定数目的论文包含这个查询词、并的确是围绕该词表达的问题开展的学术研究。

• 针对任务 2 和 3, 由这两个学期做文献阅读中做主题报告的同学给出，每人构建 1 个– 这次构建查询集，对大家的背景知识有一定要求，

• 否则一时之间去浏览 1 万篇文章的摘要也是困难的。在构建的过程中，大家也可以访问各会议的网址，因为会议都是分 session 的，可以缩小查找目标。

– 目前还没有提供这些文章的全文检索。

查询集构建指南（ 2/2 ）• 贡献的查询 + 结果的数据格式 , 每个 query– 第一行是 title （也即 query)– 第二行是 desc– 第三行起是答案集，• 也就是文献原文的 url ，或文章的 doi.

– 每个文献一行 , query 之间用 1 个空行分割• 提供查看文章原文和元数据的工具

存在问题• 现在进行结果集构建可能还有些困难

– 不同的写作者可能对一个 topic 的说法不一样（尽管表达同样的意思），• 因此答案集构建很有可能会不全。• 当参加评测的队伍提交结果的时候，就可能会由于它们提交的正确答案不

在我们提供的答案集里面而被误判。• 觉得可能还是用传统的 pooling-judge 的方法得到的某些指标结果会更加准

确一些。– 不全没关系，作为参考，也是 pooling 的一个输入。

• 现在 PARADISE只支持网页类型和文本类型的天网格式的文件，所以处理 PDF 内容的天网格式文件还需要增加相应的代码– 大概明天可以写完相应的代码，全文检索的系统后天可以使用。– 文章全文检索晚点也成，查询集构建是主要的

• 此时就得依靠大家以往知识，和快速浏览 1 万篇文章摘要等信息。

Expert assessors

• PhD student–邸楠，何靖，毛先领，单栋栋，严睿，赵鑫

• Master–陈日闪，刘晓兵，树柏涵，寿司聪，赵东升

• Bachelor –李铄，梁一中，袁文清，张旭东，杨文涛

其中杨文涛来自北京师范大学，其他是北京大学天网组学生。

查询构建策略• 绝大部分的 query 是从 IIR 这本书中的最后的 Index部分提取的• query 的颜色用来表示对于答案的确定程度• 评测文献的检索已经可以用了，只包含元数据 ( 标题，摘要，

关键词 ) ，共 6302 个文档• 看的 paper 不多，从下午到现在也就想出来了 4 个 query• 随机选取一篇信息检索相关论文，阅读摘要和关键词，将论

文讨论的话题视为几个领域的交集，将这几个领域作为主题的备选，带入数据库查询。– 如果结果数量合适，就可以初步确定为主题，进行描述后就可以完

成主题的构建。– 如果结果过少，则舍弃这个主题。如果结果过多，可以将两个领域

的交集作为主题。

颜色表示对于答案的确定程度• 红色的表示非常确定的 query；黄色的表示应该基本正确

的；粉色的表示不能确定的。

查询集合• 相关论文查询集（ task1 ）– 2010.ComPaper_query.1-104

• 领域重要文献和专家查询集（ task2 ）– 2010.ComPaper_topic.1-9

• 专家查询集（ task3 ）– 2010.ComPaper_topic.1-9

2010.ComPaper_query.1-104<top><num> Number: CQ2<title>evaluation of snippet<desc> Description:The snippet is a brief summary describing the contents of the search

result. We want to investigate the methods of evaluating the quality of snippet. If a paper shows a approach of snippet generation, and then evaluate the snippets produced by it's approach, it should be retrieved

</top>

2010.ComPaper_topic.1-9<top><num> Number: CT1<title>Pooling Method<desc> Description:In the formation of a IR test collection, pooling

method is widely used. Papers discuss about the pooling method and its alternatives is wanted.

</top>

答案集合构建• Pooling and reassess

提交结果的参赛队TEAM Tag Task1 Runs Task2 Runs Task2 Runs

江西师范大学网络应用研究所

JXNU 11,12,13 21,22,23 31,32,33

西南财经大学信息学院

SWUFE 21,22,23 31,32,33

北京大学数据库组

PKUDB 21,22 31,32

北京大学天网组

PKUTW 11,12,13 21,22,23江西师范大学网络应用研究所：何世柱，柯丽，黎佳，周军军，石松，陈秀平，蔡桂秀，潘敏，文辉，黄奕平，余伟西南财经大学信息学院：邱江涛，张盼北京大学数据库组：唐建 , 章彦星 ,刘国俊 ,封盛 ,燕飞北京大学天网组：单栋栋等

评估准则• P@k: 基于前 k 个检索结果进行计算• Rprec:

• MAP:平均正确率均值 (mean average precision)

• nDCG: – 累积增益 (cumulative gain) ，一个具体的指标为归一化折损累积增益 (normalized discounted cumulative gain)

这是描述在一个查询集合 Q上面的 NDCG 分值的平均的结果。 j 是查询的下标， k截断位置，m 是结果文档位置下标。

相关论文查询任务（ task1 ）结果

MAP RPrec P5 P10 P20 P50 nDCGjxnu11.run 0.0040 0.0799 0.1077 0.0971 0.0904 0.0758 0.1170jxnu12.run 0.0039 0.0805 0.1058 0.0942 0.0851 0.0717 0.1147jxnu13.run 0.0040 0.0831 0.1019 0.1010 0.0966 0.0733 0.1185pkutw11.run 0.0416 0.4908 0.6442 0.5308 0.4216 0.2979 0.6951pkutw12.run 0.0401 0.4427 0.5827 0.5067 0.3966 0.2656 0.6321pkutw13.run 0.0348 0.3861 0.4885 0.4173 0.3495 0.2483 0.5723

相关领域的最主要论文（ task2 ）结果

MAP RPrec P5 P10 P20 P50 nDCGjxnu21.run 0.0129 0.4221 0.7111 0.6222 0.5222 0.3311 0.5489jxnu22.run 0.0008 0.0109 0.0000 0.0111 0.0111 0.0156 0.0154jxnu23.run 0.0122 0.4344 0.6889 0.6000 0.5278 0.3556 0.5624pkudb21.run 0.0053 0.1199 0.2000 0.1778 0.1444 0.1044 0.1520pkudb22.run 0.0053 0.1128 0.1778 0.1333 0.1222 0.0956 0.1455pkutw21.run 0.0157 0.4533 0.8000 0.6556 0.5056 0.3956 0.6655pkutw22.run 0.0148 0.4985 0.5778 0.5667 0.5667 0.3689 0.6054pkutw23.run 0.0125 0.3987 0.6000 0.4778 0.4778 0.3467 0.5505swufe21.run 0.0178 0.2538 0.4000 0.3889 0.3167 0.1978 0.3278swufe22.run 0.0174 0.2719 0.4000 0.3667 0.3389 0.2022 0.3315

领域专家（ task3 ）结果

MAP RPrec P5 P10 P20 P50 nDCGjxnu31.run 0.0177 0.3917 0.6000 0.4444 0.3944 0.3400 0.6766jxnu32.run 0.0031 0.0377 0.0667 0.0444 0.0556 0.0622 0.0706jxnu33.run 0.0184 0.4251 0.6222 0.4333 0.3889 0.3422 0.6716pkudb31.run 0.0065 0.1361 0.2000 0.1889 0.1667 0.1111 0.2055pkudb32.run 0.0077 0.1378 0.2222 0.1889 0.1500 0.1200 0.2113swufe31.run 0.0171 0.2303 0.3333 0.2667 0.2222 0.1289 0.3248swufe32.run 0.0178 0.2463 0.3778 0.2667 0.2500 0.1600 0.3704swufe33.run 0.0171 0.2916 0.4667 0.2889 0.2778 0.1756 0.4204

Documents

SEWM2010 信息检索评测 —— 文献检索