41
. . . . . . 问题是什么? 什么是 Open Information ExtractionOpen IE: The Second Generation 试验结果及分析 Open IE 的应用 . . . Open Information Extraction: The Second Generation Presented by: 孔庆超 1 Paper by: Oren Etzioni, Anthony Fader, Janara Christensen, Stephen Soderland and Mausam 2 1 中国科学院自动化所 2 Turing Center Department of Computer Science and Engineering, University of Washington 2011 12 13 孔庆超 - Open IE Open Information Extraction: The Second Generation

Open Information Extraction 2nd

  • Upload
    hitalex

  • View
    891

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

.

.. ..

.

.

Open Information Extraction:The Second Generation

Presented by: 孔庆超 1

Paper by: Oren Etzioni, Anthony Fader, Janara Christensen,Stephen Soderland and Mausam2

1 中国科学院自动化所

2Turing CenterDepartment of Computer Science and Engineering, University of Washington

2011 年 12 月 13 日孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 2: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

.. 目录

.. .1 问题是什么?

.. .2 什么是 Open Information Extraction?

.. .3 Open IE: The Second Generation

.. .4 试验结果及分析

.. .5 Open IE 的应用

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 3: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. .1 问题是什么?信息获取是永恒难题语义搜索:下一代搜索引擎?

.. .2 什么是 Open Information Extraction?

.. .3 Open IE: The Second Generation

.. .4 试验结果及分析

.. .5 Open IE 的应用

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 4: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 互联网时代的信息获取

在不同领域中,获取信息的方式多种多样

互联网逐渐成为主要信息来源:新闻、视频、购物、网上图书馆等

互联网信息的特点:半结构化 (Semi-structured):HTML/XHTML数据量大索引困难

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 5: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 互联网时代的信息获取

在不同领域中,获取信息的方式多种多样

互联网逐渐成为主要信息来源:新闻、视频、购物、网上图书馆等

互联网信息的特点:半结构化 (Semi-structured):HTML/XHTML数据量大索引困难

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 6: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 互联网时代的信息获取

在不同领域中,获取信息的方式多种多样

互联网逐渐成为主要信息来源:新闻、视频、购物、网上图书馆等

互联网信息的特点:半结构化 (Semi-structured):HTML/XHTML数据量大索引困难

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 7: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 互联网时代的信息获取

Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜狐等

Web 2.0:用户自身产生信息内容,代表有:Facebook、Twitter、人人网等

搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、百度等

推荐系统:根据用户兴趣、行为信息“主动“提供信息,代表有:Amazon、Netflix、豆瓣 FM 等

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 8: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 互联网时代的信息获取

Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜狐等

Web 2.0:用户自身产生信息内容,代表有:Facebook、Twitter、人人网等

搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、百度等

推荐系统:根据用户兴趣、行为信息“主动“提供信息,代表有:Amazon、Netflix、豆瓣 FM 等

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 9: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 互联网时代的信息获取

Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜狐等

Web 2.0:用户自身产生信息内容,代表有:Facebook、Twitter、人人网等

搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、百度等

推荐系统:根据用户兴趣、行为信息“主动“提供信息,代表有:Amazon、Netflix、豆瓣 FM 等

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 10: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 互联网时代的信息获取

Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜狐等

Web 2.0:用户自身产生信息内容,代表有:Facebook、Twitter、人人网等

搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、百度等

推荐系统:根据用户兴趣、行为信息“主动“提供信息,代表有:Amazon、Netflix、豆瓣 FM 等

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 11: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 从文本获取到问答系统

一个有趣的现象:通常你如何确定向关键字输入框中写什么?

从文本获取 (Informatin Retrieval) 到问答系统 (QuestionAnswering System)优秀的项目

Cleverbot(www.cleverbot.com)Siri in iPhone 4S,技术支持 Wolfram AlphaIBM Watson

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 12: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 从文本获取到问答系统

一个有趣的现象:通常你如何确定向关键字输入框中写什么?

从文本获取 (Informatin Retrieval) 到问答系统 (QuestionAnswering System)优秀的项目

Cleverbot(www.cleverbot.com)Siri in iPhone 4S,技术支持 Wolfram AlphaIBM Watson

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 13: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 从文本获取到问答系统

一个有趣的现象:通常你如何确定向关键字输入框中写什么?

从文本获取 (Informatin Retrieval) 到问答系统 (QuestionAnswering System)优秀的项目

Cleverbot(www.cleverbot.com)Siri in iPhone 4S,技术支持 Wolfram AlphaIBM Watson

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 14: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 智能问答系统

不同信息获取系统之间的比较:demo当前的问答系统的不足

只适用于特定领域无法处理大量文本,因为需要人工标注算法可扩展性差

如何从网络开源文本中获取信息?

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 15: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 智能问答系统

不同信息获取系统之间的比较:demo当前的问答系统的不足

只适用于特定领域无法处理大量文本,因为需要人工标注算法可扩展性差

如何从网络开源文本中获取信息?

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 16: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

信息获取是永恒难题语义搜索:下一代搜索引擎?

.. 智能问答系统

不同信息获取系统之间的比较:demo当前的问答系统的不足

只适用于特定领域无法处理大量文本,因为需要人工标注算法可扩展性差

如何从网络开源文本中获取信息?

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 17: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. .1 问题是什么?

.. .2 什么是 Open Information Extraction?Information ExtractionOpen IE

.. .3 Open IE: The Second Generation

.. .4 试验结果及分析

.. .5 Open IE 的应用

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 18: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. IE 基础

Information Extraction,信息抽取,简写为 IE

目标:从自然语言文本 (Natural language text) 抽取信息,形成结构化数据 (Structured data)

信息抽取 vs. 基于关键字的搜索

二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)

举例:Premature optimization is the root of all evil. – DonaldKnuth抽取结果:(Premature optimization, is, the root of all evil)

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 19: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. IE 基础

Information Extraction,信息抽取,简写为 IE

目标:从自然语言文本 (Natural language text) 抽取信息,形成结构化数据 (Structured data)

信息抽取 vs. 基于关键字的搜索

二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)

举例:Premature optimization is the root of all evil. – DonaldKnuth抽取结果:(Premature optimization, is, the root of all evil)

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 20: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. IE 基础

Information Extraction,信息抽取,简写为 IE

目标:从自然语言文本 (Natural language text) 抽取信息,形成结构化数据 (Structured data)

信息抽取 vs. 基于关键字的搜索

二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)

举例:Premature optimization is the root of all evil. – DonaldKnuth抽取结果:(Premature optimization, is, the root of all evil)

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 21: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. IE 方法

基于知识的方法 (Knowledge-Based methods)特定领域 (domain specific)模式匹配规则 (pattern matching rules)

有监督的方法 (Supervised methods)特定领域 (domain specific)通过机器学习得到抽取器

自监督的方法 (Self-supervised methods)给定特定的关系很小的训练集

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 22: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. IE 方法

基于知识的方法 (Knowledge-Based methods)特定领域 (domain specific)模式匹配规则 (pattern matching rules)

有监督的方法 (Supervised methods)特定领域 (domain specific)通过机器学习得到抽取器

自监督的方法 (Self-supervised methods)给定特定的关系很小的训练集

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 23: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. IE 方法

基于知识的方法 (Knowledge-Based methods)特定领域 (domain specific)模式匹配规则 (pattern matching rules)

有监督的方法 (Supervised methods)特定领域 (domain specific)通过机器学习得到抽取器

自监督的方法 (Self-supervised methods)给定特定的关系很小的训练集

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 24: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. Open IE 的特点

对所抽取的关系不作限制适用所有领域 (领域不相关)算法可扩展性良好

Figure: 传统 IE 和 Open IE 的比较孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 25: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. Open IE 框架

Open IE 框架模型学习采用学习到的模型抽取关系

文本 (英语文本) 中否存在一般性的模板?

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 26: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. Open IE 框架

Open IE 框架模型学习采用学习到的模型抽取关系

文本 (英语文本) 中否存在一般性的模板?

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 27: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. 文本中的语言模型

在随机选取的 500 个句子中,95% 的二元关系满足以下规则:

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 28: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

Information ExtractionOpen IE

.. Q & A

Any questions?

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 29: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

ReVerb 句法和词法约束ReVerb 架构

.. .1 问题是什么?

.. .2 什么是 Open Information Extraction?

.. .3 Open IE: The Second GenerationReVerb 句法和词法约束ReVerb 架构

.. .4 试验结果及分析

.. .5 Open IE 的应用

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 30: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

ReVerb 句法和词法约束ReVerb 架构

.. ReVerb 句法约束模板

基于词性 (Part of speech, POS) 的模板模板: V | VP | VW*PV = verb particle? adv? ~ V = 动词助词? 副词?W = (noun | adv | pron | det) ~ W = (名词 | 副词 | 代名词| 限定词)P = (prep | particle | inf. marker) ~ P = (介词 | 助词 | inf.marker)

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 31: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

ReVerb 句法和词法约束ReVerb 架构

.. POS 模板匹配原则

如果在一句话中发现多个匹配,选择最长的那个

如果多个匹配相交,则合并成一个

举例:wants to extend

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 32: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

ReVerb 句法和词法约束ReVerb 架构

.. POS 模板匹配原则

如果在一句话中发现多个匹配,选择最长的那个

如果多个匹配相交,则合并成一个

举例:wants to extend

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 33: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

ReVerb 句法和词法约束ReVerb 架构

.. ReVerb 词法约束

句法约束存在的问题,举例:原句:The Obama administration is offering only modestgreenhouse gas reduction targets at the conference.POS 抽取的关系子句 (relationg phrase) 为:is offering onlymodest greenhouse gas reduction targets at

直觉告诉我们:一个关系子句应该有很多 Arg1 或者 Arg2

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 34: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

ReVerb 句法和词法约束ReVerb 架构

.. ReVerb 词法约束

句法约束存在的问题,举例:原句:The Obama administration is offering only modestgreenhouse gas reduction targets at the conference.POS 抽取的关系子句 (relationg phrase) 为:is offering onlymodest greenhouse gas reduction targets at

直觉告诉我们:一个关系子句应该有很多 Arg1 或者 Arg2

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 35: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

ReVerb 句法和词法约束ReVerb 架构

.. ReVerb 架构

ReVerb 接受输入为:POS-tagged 和 NP-chunked sentences;输出为:关系三元组 (x, r, y)ReVerb 算法

关系抽取 (Relation Extraction)关系参数抽取 (Argument Extraction)

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 36: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

ReVerb 句法和词法约束ReVerb 架构

.. ReVerb 架构

ReVerb 接受输入为:POS-tagged 和 NP-chunked sentences;输出为:关系三元组 (x, r, y)ReVerb 算法

关系抽取 (Relation Extraction)关系参数抽取 (Argument Extraction)

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 37: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

试验结果错误分析

.. 试验结果

随机在网页中抽取 500 个句子,使用不同的 Open IE 系统进行抽取,调查其 precision/recall只考虑关系 (relation) 的结果:

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 38: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

试验结果错误分析

.. 错误分析

65% 的错误来自 Arg 的错误抽取,而 relation 抽取正确

将 n 元关系当作 2 元关系抽取,例如从”I gave him 15photos” 抽取出 (I, gave, him)

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 39: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

试验结果错误分析

.. 错误分析

65% 的错误来自 Arg 的错误抽取,而 relation 抽取正确

将 n 元关系当作 2 元关系抽取,例如从”I gave him 15photos” 抽取出 (I, gave, him)

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 40: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

.. Open IE 的应用

问答系统 (Question Answering System)

观点挖掘 (Opinion Mining)

事实检查 (Fact Checking)

孔庆超 - Open IE Open Information Extraction: The Second Generation

Page 41: Open Information Extraction 2nd

. . . . . .

问题是什么?什么是 Open Information Extraction?

Open IE: The Second Generation试验结果及分析Open IE 的应用

.. Q & A

Thank youAny questions?

孔庆超 - Open IE Open Information Extraction: The Second Generation