Upload
hitalex
View
891
Download
0
Embed Size (px)
Citation preview
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
.
.. ..
.
.
Open Information Extraction:The Second Generation
Presented by: 孔庆超 1
Paper by: Oren Etzioni, Anthony Fader, Janara Christensen,Stephen Soderland and Mausam2
1 中国科学院自动化所
2Turing CenterDepartment of Computer Science and Engineering, University of Washington
2011 年 12 月 13 日孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
.. 目录
.. .1 问题是什么?
.. .2 什么是 Open Information Extraction?
.. .3 Open IE: The Second Generation
.. .4 试验结果及分析
.. .5 Open IE 的应用
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. .1 问题是什么?信息获取是永恒难题语义搜索:下一代搜索引擎?
.. .2 什么是 Open Information Extraction?
.. .3 Open IE: The Second Generation
.. .4 试验结果及分析
.. .5 Open IE 的应用
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 互联网时代的信息获取
在不同领域中,获取信息的方式多种多样
互联网逐渐成为主要信息来源:新闻、视频、购物、网上图书馆等
互联网信息的特点:半结构化 (Semi-structured):HTML/XHTML数据量大索引困难
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 互联网时代的信息获取
在不同领域中,获取信息的方式多种多样
互联网逐渐成为主要信息来源:新闻、视频、购物、网上图书馆等
互联网信息的特点:半结构化 (Semi-structured):HTML/XHTML数据量大索引困难
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 互联网时代的信息获取
在不同领域中,获取信息的方式多种多样
互联网逐渐成为主要信息来源:新闻、视频、购物、网上图书馆等
互联网信息的特点:半结构化 (Semi-structured):HTML/XHTML数据量大索引困难
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 互联网时代的信息获取
Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜狐等
Web 2.0:用户自身产生信息内容,代表有:Facebook、Twitter、人人网等
搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、百度等
推荐系统:根据用户兴趣、行为信息“主动“提供信息,代表有:Amazon、Netflix、豆瓣 FM 等
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 互联网时代的信息获取
Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜狐等
Web 2.0:用户自身产生信息内容,代表有:Facebook、Twitter、人人网等
搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、百度等
推荐系统:根据用户兴趣、行为信息“主动“提供信息,代表有:Amazon、Netflix、豆瓣 FM 等
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 互联网时代的信息获取
Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜狐等
Web 2.0:用户自身产生信息内容,代表有:Facebook、Twitter、人人网等
搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、百度等
推荐系统:根据用户兴趣、行为信息“主动“提供信息,代表有:Amazon、Netflix、豆瓣 FM 等
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 互联网时代的信息获取
Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜狐等
Web 2.0:用户自身产生信息内容,代表有:Facebook、Twitter、人人网等
搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、百度等
推荐系统:根据用户兴趣、行为信息“主动“提供信息,代表有:Amazon、Netflix、豆瓣 FM 等
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 从文本获取到问答系统
一个有趣的现象:通常你如何确定向关键字输入框中写什么?
从文本获取 (Informatin Retrieval) 到问答系统 (QuestionAnswering System)优秀的项目
Cleverbot(www.cleverbot.com)Siri in iPhone 4S,技术支持 Wolfram AlphaIBM Watson
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 从文本获取到问答系统
一个有趣的现象:通常你如何确定向关键字输入框中写什么?
从文本获取 (Informatin Retrieval) 到问答系统 (QuestionAnswering System)优秀的项目
Cleverbot(www.cleverbot.com)Siri in iPhone 4S,技术支持 Wolfram AlphaIBM Watson
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 从文本获取到问答系统
一个有趣的现象:通常你如何确定向关键字输入框中写什么?
从文本获取 (Informatin Retrieval) 到问答系统 (QuestionAnswering System)优秀的项目
Cleverbot(www.cleverbot.com)Siri in iPhone 4S,技术支持 Wolfram AlphaIBM Watson
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 智能问答系统
不同信息获取系统之间的比较:demo当前的问答系统的不足
只适用于特定领域无法处理大量文本,因为需要人工标注算法可扩展性差
如何从网络开源文本中获取信息?
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 智能问答系统
不同信息获取系统之间的比较:demo当前的问答系统的不足
只适用于特定领域无法处理大量文本,因为需要人工标注算法可扩展性差
如何从网络开源文本中获取信息?
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
信息获取是永恒难题语义搜索:下一代搜索引擎?
.. 智能问答系统
不同信息获取系统之间的比较:demo当前的问答系统的不足
只适用于特定领域无法处理大量文本,因为需要人工标注算法可扩展性差
如何从网络开源文本中获取信息?
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. .1 问题是什么?
.. .2 什么是 Open Information Extraction?Information ExtractionOpen IE
.. .3 Open IE: The Second Generation
.. .4 试验结果及分析
.. .5 Open IE 的应用
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. IE 基础
Information Extraction,信息抽取,简写为 IE
目标:从自然语言文本 (Natural language text) 抽取信息,形成结构化数据 (Structured data)
信息抽取 vs. 基于关键字的搜索
二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)
举例:Premature optimization is the root of all evil. – DonaldKnuth抽取结果:(Premature optimization, is, the root of all evil)
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. IE 基础
Information Extraction,信息抽取,简写为 IE
目标:从自然语言文本 (Natural language text) 抽取信息,形成结构化数据 (Structured data)
信息抽取 vs. 基于关键字的搜索
二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)
举例:Premature optimization is the root of all evil. – DonaldKnuth抽取结果:(Premature optimization, is, the root of all evil)
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. IE 基础
Information Extraction,信息抽取,简写为 IE
目标:从自然语言文本 (Natural language text) 抽取信息,形成结构化数据 (Structured data)
信息抽取 vs. 基于关键字的搜索
二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)
举例:Premature optimization is the root of all evil. – DonaldKnuth抽取结果:(Premature optimization, is, the root of all evil)
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. IE 方法
基于知识的方法 (Knowledge-Based methods)特定领域 (domain specific)模式匹配规则 (pattern matching rules)
有监督的方法 (Supervised methods)特定领域 (domain specific)通过机器学习得到抽取器
自监督的方法 (Self-supervised methods)给定特定的关系很小的训练集
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. IE 方法
基于知识的方法 (Knowledge-Based methods)特定领域 (domain specific)模式匹配规则 (pattern matching rules)
有监督的方法 (Supervised methods)特定领域 (domain specific)通过机器学习得到抽取器
自监督的方法 (Self-supervised methods)给定特定的关系很小的训练集
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. IE 方法
基于知识的方法 (Knowledge-Based methods)特定领域 (domain specific)模式匹配规则 (pattern matching rules)
有监督的方法 (Supervised methods)特定领域 (domain specific)通过机器学习得到抽取器
自监督的方法 (Self-supervised methods)给定特定的关系很小的训练集
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. Open IE 的特点
对所抽取的关系不作限制适用所有领域 (领域不相关)算法可扩展性良好
Figure: 传统 IE 和 Open IE 的比较孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. Open IE 框架
Open IE 框架模型学习采用学习到的模型抽取关系
文本 (英语文本) 中否存在一般性的模板?
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. Open IE 框架
Open IE 框架模型学习采用学习到的模型抽取关系
文本 (英语文本) 中否存在一般性的模板?
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. 文本中的语言模型
在随机选取的 500 个句子中,95% 的二元关系满足以下规则:
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
Information ExtractionOpen IE
.. Q & A
Any questions?
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
ReVerb 句法和词法约束ReVerb 架构
.. .1 问题是什么?
.. .2 什么是 Open Information Extraction?
.. .3 Open IE: The Second GenerationReVerb 句法和词法约束ReVerb 架构
.. .4 试验结果及分析
.. .5 Open IE 的应用
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
ReVerb 句法和词法约束ReVerb 架构
.. ReVerb 句法约束模板
基于词性 (Part of speech, POS) 的模板模板: V | VP | VW*PV = verb particle? adv? ~ V = 动词助词? 副词?W = (noun | adv | pron | det) ~ W = (名词 | 副词 | 代名词| 限定词)P = (prep | particle | inf. marker) ~ P = (介词 | 助词 | inf.marker)
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
ReVerb 句法和词法约束ReVerb 架构
.. POS 模板匹配原则
如果在一句话中发现多个匹配,选择最长的那个
如果多个匹配相交,则合并成一个
举例:wants to extend
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
ReVerb 句法和词法约束ReVerb 架构
.. POS 模板匹配原则
如果在一句话中发现多个匹配,选择最长的那个
如果多个匹配相交,则合并成一个
举例:wants to extend
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
ReVerb 句法和词法约束ReVerb 架构
.. ReVerb 词法约束
句法约束存在的问题,举例:原句:The Obama administration is offering only modestgreenhouse gas reduction targets at the conference.POS 抽取的关系子句 (relationg phrase) 为:is offering onlymodest greenhouse gas reduction targets at
直觉告诉我们:一个关系子句应该有很多 Arg1 或者 Arg2
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
ReVerb 句法和词法约束ReVerb 架构
.. ReVerb 词法约束
句法约束存在的问题,举例:原句:The Obama administration is offering only modestgreenhouse gas reduction targets at the conference.POS 抽取的关系子句 (relationg phrase) 为:is offering onlymodest greenhouse gas reduction targets at
直觉告诉我们:一个关系子句应该有很多 Arg1 或者 Arg2
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
ReVerb 句法和词法约束ReVerb 架构
.. ReVerb 架构
ReVerb 接受输入为:POS-tagged 和 NP-chunked sentences;输出为:关系三元组 (x, r, y)ReVerb 算法
关系抽取 (Relation Extraction)关系参数抽取 (Argument Extraction)
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
ReVerb 句法和词法约束ReVerb 架构
.. ReVerb 架构
ReVerb 接受输入为:POS-tagged 和 NP-chunked sentences;输出为:关系三元组 (x, r, y)ReVerb 算法
关系抽取 (Relation Extraction)关系参数抽取 (Argument Extraction)
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
试验结果错误分析
.. 试验结果
随机在网页中抽取 500 个句子,使用不同的 Open IE 系统进行抽取,调查其 precision/recall只考虑关系 (relation) 的结果:
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
试验结果错误分析
.. 错误分析
65% 的错误来自 Arg 的错误抽取,而 relation 抽取正确
将 n 元关系当作 2 元关系抽取,例如从”I gave him 15photos” 抽取出 (I, gave, him)
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
试验结果错误分析
.. 错误分析
65% 的错误来自 Arg 的错误抽取,而 relation 抽取正确
将 n 元关系当作 2 元关系抽取,例如从”I gave him 15photos” 抽取出 (I, gave, him)
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
.. Open IE 的应用
问答系统 (Question Answering System)
观点挖掘 (Opinion Mining)
事实检查 (Fact Checking)
孔庆超 - Open IE Open Information Extraction: The Second Generation
. . . . . .
问题是什么?什么是 Open Information Extraction?
Open IE: The Second Generation试验结果及分析Open IE 的应用
.. Q & A
Thank youAny questions?
孔庆超 - Open IE Open Information Extraction: The Second Generation