27
Web 新新新新新新新 新新新新新新 姓姓姓 00448160 姓姓姓姓姓姓姓姓 姓姓姓姓姓姓姓姓 姓姓姓姓姓姓姓

Web 新闻人物追踪系统的设计与实现

Embed Size (px)

DESCRIPTION

Web 新闻人物追踪系统的设计与实现. 姓 名: 寿思聪 学 号: 00448160 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 闫宏飞. 提纲. 引言 动机 难点 相关研究 指代消解 实体关系抽取 具体工作 文本中关键词的提取 人物指代消解 时间指代消解 简历型网页 / 段落的判定 人物踪迹追踪系统的实现 总结. 引言. 引言 - 动机. 广泛的需求 还没有搜索引擎正式提供关于人物的搜索服务 - PowerPoint PPT Presentation

Citation preview

Page 1: Web 新闻人物追踪系统的设计与实现

Web 新闻人物追踪系统的设计与实现

姓 名: 寿思聪 学 号: 00448160 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 闫宏飞

Page 2: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

提纲 引言

动机 难点

相关研究 指代消解 实体关系抽取

具体工作 文本中关键词的提取 人物指代消解 时间指代消解 简历型网页 / 段落的判定 人物踪迹追踪系统的实现

总结

Page 3: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

引言

Page 4: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

引言 - 动机 广泛的需求 还没有搜索引擎正式提供关于人物的搜索

服务 展示 Webdigest 小组长期工作成果的展示

平台 作为天网的一部分

Page 5: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

引言 - 难点 胡锦涛主席将于 5 月 6 日至 10 日对日本进行 5 天的国事访问。除

东京外,他还将访问横滨和奈良,并从大阪启程回国 时间指代消解,人物指代消解

吴仪中共中央政治局委员,国务院副总理。女,汉族, 1938 年 11 月生,湖北武汉人, 1962 年 4 月加入中国共产党, 1962 年 8 月参加工作,北京石油学院石油炼制系炼油工程专业毕业,大学学历,高级工程师。1956 年至 1962 年西北工学院国防系、北京石油学院石油炼制系炼油工程专业学习。 1962 年至 1965 年兰州炼油厂车间技术员、政治部办公室干事。 1965 年至 1967 年石油工业部生产技术司生产处技术员。 简历型网页的判断

Page 6: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

相关研究

Page 7: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

相关研究 - 指代消解 - 人物指代消解 Borrow 的 STUDENT 系统:利用有限的启发式

规则 Winograd 的 SHRDLU 系统:基于语法位置 Wilks 的 Preference semantics 系统:利用简单的

语义知识的四级指代消解系统 Hobbs 算法:基于句法分析,通过搜索句法树,

寻找先行词 Ido Dagan 和 Alon Itai :利用共现模式从大规模

语料库中自动获取约束 Mitkov :有限知识方法,应用一系列规则 Soon :利用机器学习,构造一个分类器判断是

否是指代关系

Page 8: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

相关研究 - 指代消解 - 时间指代消解 Inderjeet Mani, George :一个时间消解的

框架。处理中文需要解决更多问题借鉴:判断一些不需要消解的情况使用分类器解决,选择基准时间时的思想

Page 9: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

相关研究 - 实体关系抽取 Brin 1998 , Agichtein 2000 :先确定关系类别,然后基于关系对与描述模式在自然语言文本中的出现规律,自动学习语义化关系模式来找到关系对。

Etzioni 2004 :根据关系的种子实例对自动生成关系抓取模板,并且能给每个新发现关系对一个属于该类型的置信度。

Takaaki Hasegawa 2004 :基于实体对在文本中的共现定义关系,并利用共现文本对关系进行聚类、标注。

Yutaka Matsuo 2006 :以一组科技论文网站和论文作者的主页等半结构化数据为研究对象,以此来发现作者之间的关系

Page 10: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作

Page 11: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 文本中关键词的提取 Jianguo Xiao 2007 :

一个词 W 的重要程度由两部分因素组成,一个是其他词 Ai( Ai!=W)的重要程度以及W 和Ai 的关系紧密程度,另外一个是 W所在句子的重要程度以及W 和这个句子的关系紧密程度。同样,一句话 S 的重要程度也有两部分组成,一个是其他句子 Bi( Bi!=S)的重要程度以及它和 S 的相似程度,另外一个是 S所包含的词的重要程度以及他们同这句话的关系。

Page 12: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 文本中关键词的提取 词语与词语之间的关系互信息( 472978篇

网页, 1308327 个词语 , 64312933 对无序词对 )

句子与句子之间的关系 cosin值 词语与句子之间的关系

一个迭代的过程计算每个句子和每个词语的关键程度

j j

i

t t

t tt s

tf isf

tf isf

Page 13: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 人名指代消解 - 人名性别判定 人名性别判定

获得一个人名性别列表,总共包含 5901 个不同的姓名,通过统计每个名字对应的所有人的性别,简单地对这些名字的人的性别作出判断,得到了一个判断拥有名字 N 的人的性别的一个表。问题:所获得的名字的数量远远不能涵盖新闻网页中出现的人名,以至于在指代消解的时候,无法确定人物的性别,使得消解出错。这一块有待在今后工作中的改进。

Page 14: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 人名指代消解 - 姓名缩写消解 3月 22日凌晨,巴勒斯坦哈马斯 (伊斯

兰抵抗运动)精神领袖艾哈迈德 ·亚辛的汽车遭以色列直升机导弹袭击,亚辛及其两名保镖身亡。

解决方法:简单的替换

Page 15: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 人名指代消解 - 流程

Page 16: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 人名指代消解 - 评测 随机选取了 20篇网页,其中包含“他”和“她”共 36 个,是共消解 36 个,正确消解 29 个,精度是 81% ,召回度是 100% 。

错误分析 3 个,人名识别接识别问题,如果接口能够正确识别,精度应该是 89%

2 个,寻找先行人名错误 2 个,先行词并没有以人物姓名的形式出现在

网页中,而是以一些名词或者“姓 +名词”的形式出现,比如“司机”,“张医生”,

Page 17: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 时间指代消解 - 难点 哪些需要消解?

对海量网页中词频排名前 1000 的词进行了统计和分析,得到了一些模式,并且整理了里面的能够明确消解的时间词语

“ 今天” ,“今日” ,“当天” ,“当日” ,“当晚” ,“今天上午” ,“今晚” ,“今天下午” ,“当天下午” ,“当天晚上” ,“同一天” ,“今夜” ,“今年” ,“下半年” ,“上半年” ,“今年上半年” ,“今年下半年” ,“今夏” ,“今秋” ,“今冬” ,“今年夏天” ,“同年” ,“今年秋季” ,“上周” ,“本周” ,“本月” ,“下周” ,“月底” ,“周末” ,“上周末” ,“当月” ,“本月底” ,“去年” ,“上一年” ,“上年” ,“昨日” ,“昨天” ,“昨晚” ,“昨天下午” ,“昨天上午” ,“昨日下午” ,“昨日上午” ,“前一天” ,“昨天晚上” ,“昨夜” ,“明日” ,“次日” ,“明天” ,“前天” ,“明年” ,“次年” ,“前年” ,“下月” ,“上月” ,“上个月” ,“年底” ,“今年年底” ,“年终” ,“年末” ,“今年底” ,“年初” ,“今年年初” ,“今年初” ,“去年底” ,“去年年底” , xxxx-xx-xx, xxxx.xx.xx, xx年, xx月, xx日,( x代表一个阿拉伯数字)

Page 18: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 时间指代消解 - 难点 “九八年”,“2000年”中文数字以及全角阿拉伯数字转换成半角阿拉伯数字

“1946年 1月到 8月 ” ,“ 4月 1日、 7日、 8日 ”时间段、并列时间的处理

引用中的时间不处理 基准时间的确定一套规则 是否是未来时间考虑时间间隔 “今天的中国”是否需要消解

Page 19: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 时间指代消解 - 流程

Page 20: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 时间指代消解 - 评测 随机选取了 50篇网页,包含在消解范围内的时间词 24

8 个,消解了 242 个,正确消解了 223 个,精度是 92% ,漏掉了 6 个,召回度是 97% 。

错误的原因 消解了不应该消解的时间,有 4 个 基准时间判断错误,有 6 个 其余错误包括时间间隔处理的问题、接口识别的问题等 还有一些词不在本模块规定的可消解范围内,由于它的一部分属于可消解词,以至于被消解,如“农历三月等”。

漏掉的原因 4 个因为接口没有将这个时间识别出来, 2 个被简单的认为不应该消解。

Page 21: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 简历型网页 / 段落的判定 判断简历型网页 判断简历型段落均根据调研情况制定一些规则,按照对人名、时间以及其他的统计数据作出判断

Page 22: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 简历型网页 / 段落的判定 - 评测 使用了 409篇网页 ,共有 67 个简历网页 判断简历型网页

精度:得到 58篇简历的网页,正确 56篇,精度为 97% 。 错误分析:一篇是讲的宪法的历史,期间提到了很多时间,而且除了开始出现了一个人名外,之后都没有提到人,这些都符合了判断简历型网页的条件。另外一篇中本没有提到人,但人名识别接口错误的识别出了一个人名,同时符合判定的其他标准

召回度: 83% 错误分析: 2篇,人名识别接口没有识别出人名; 2篇,简历

中人名出现过多; 5篇是在处理特殊网页(每句一段),没有正确找打句子开始的时间; 1篇是将非特殊网页判断成了特殊网页; 1篇是因为简历过长,没有考虑。

Page 23: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 简历型网页 / 段落的判定 - 评测 判断简历型段落,数据集同上

精度:识别出 26 个简历型段落, 20 个正确,精度是 77%

错误分析:有些段落比较短,一些阈值不适合导致的,同时召回度也不理想,最后在构建系统的时候,暂时没有用到简历型段落

Page 24: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 人物踪迹系统的实现 - 数据集 网页来源: 2007 年 Webdigest 小组所抓取的网

页。选取 http://www.alexa.com上排名前 100 的新闻网页作为种子,并且按 4层抓取。从 10 月1 日开始持续了 30 天,总计 20 , 000 , 000篇网页。

处理过程: 使用 Parasize项目的工具进行消重、去噪 使用本文的模块对网页处理。 句子为单位,进行提取踪迹

现在得到的数据:总共得到 403456条人物踪迹, 23415条同时包含地点信息,作为现在系统可以查询的数据。

Page 25: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 人物踪迹系统的实现 - 模块和功能 模块:查询模块,和地图展示模块 功能:

输入:一个人名 输出:他 /她的所有踪迹,包含人物、时间、地点和时间,踪迹,并且按照日期排序。

地图展示:屏幕右侧,地点被标识,线条连接相邻踪迹的地点,动态展示

Page 26: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

具体工作 - 人物踪迹系统

Page 27: Web 新闻人物追踪系统的设计与实现

http://ncis.pku.edu.cn

总结 意义

研究价值 创新

收获 新的知识 科研经验

今后工作 各模块的改进 奥运会信息处理系统