27
知识工程发展的机遇与挑战 李涓子 清华大学

知识工程发展的机遇与挑战Ÿ¥识图谱:数据、知识与智能...• 语义Web:互联网内容的结构化表示,实现计算机理解和智能 化服务 • 互联网知识表示语言:RDF,OWL

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

知识工程发展的机遇与挑战

李涓子清华大学

主要内容

● 数据、知识与智能● 知识工程发展历程● 大数据环境下知识工程思考● 融合文本和知识库的词和实体的表示学习● 总结

2

1950-1970时代

符号逻辑 神经网络 LISP 产生式规则、语义

网络

1970-1990时代

专家系统 限定领域 知识库+推理=智能 脚本、框架等

1990-2000时代

万维网人工大规模知识库本体概念智能主体、机器人

2000-2006时代

互联网发展高峰语义Web群体智能:维基

2006年时代

维基结构化通用和领域知识大规模知识获取大规模工业应用

知识工程发展历程

4

1950-1970年代 图灵测试

1970-1990年代p 专家系统p 限定领域p 知识库+推理=

智能p 脚本、框架等

1990-2000年代p 万维网p 人工大规模知

识库p 本体概念p 智能主体、机

器人

2000-2006年代p 互联网发展高

峰p 语义Webp 群体智能:维

2006年至今p 维基结构化p 通用和领域知

识p 大规模知识获

取p 大规模工业应

1950-1970年代 图灵测试符号主义:物理符号系统是智能行为的充要条件连结主义:大脑(大脑神经元以及连接机制)是一切智能活动的基础通用问题求解程序(GPS):问题形式化表示+搜索知识表示:数理逻辑、基于逻辑的知识表示、产生式规则、语义网络

Minsky (1969图灵奖)感知机,框架知识表示

Mccarthy (1971图灵奖)LISP语言

Newell & Simon (1975图灵奖) 通用问题求解,形式化语言

1950-1970年代

符号逻辑 神经网络 LISP 产生式规则、语义

网络

5

1950-1970年代p 符号逻辑p 神经网络p LISPp 产生式规则、语义

网络

1990-2000年代p 万维网p 人工大规模知

识库p 本体概念p 智能主体、机

器人

2000-2006年代p 互联网发展高

峰p 语义Webp 群体智能:维

2006年至今p 维基结构化p 通用和领域知

识p 大规模知识获

取p 大规模工业应

1970-1990年代 专家系统• 确立了知识工程在人工智能中的核心地位• 专家系统=知识库+推理

• MYCIN,PROSPECTOR, PROLOG等• 日本第五代机计划,CYC项目启动等

• 知识表示:框架、脚本、概念依存、面向对象• 连结主义:神经网络复苏,BP算法

Feigenbaum (1994年图灵奖): 专家系统与知识工程

1970-1990年代 专家系统

1970-1990年代

专家系统 限定领域 知识库+推理=智能 脚本、框架等

6

1950-1970年代p 符号逻辑p 神经网络p LISPp 产生式规则、语义

网络

1970-1990年代p 专家系统p 限定领域p 知识库+推理=

智能p 脚本、框架等

2000-2006年代p 互联网发展高

峰p 语义Webp 群体智能:维

2006年至今p 维基结构化p 通用和领域知

识p 大规模知识获

取p 大规模工业应

1990-2000年代 Web1.0 万维网• 人工大规模知识库:CYC,WordNet,

HowNet等• 知识表示:本体(Gruber@93)• 万维网Web 1.0

• W3C:互联网内容标记语言:HTML、XML等

• 行为主义:人工智能是表现出一定智能行为的主体

• Agent,多agent系统

Tim Berners Lee (2016年图灵奖)万维网发明人

1990-2000年代 Web1.0 万维网1990-2000年代

万维网人工大规模知识库本体概念智能主体、机器人

7

1950-1970年代p 符号逻辑p 神经网络p LISPp 产生式规则、语义

网络

1970-1990年代p 专家系统p 限定领域p 知识库+推理=

智能p 脚本、框架等

1990-2000年代p 万维网p 人工大规模知

识库p 本体概念p 智能主体、机

器人

2006年至今p 维基结构化p 通用和领域知

识p 大规模知识获

取p 大规模工业应

2000-2006年代 Web2.0 群体智能• 互联网知识表示方法:封闭 开放,集中 分布• 语义Web:互联网内容的结构化表示,实现计算机理解和智能

化服务• 互联网知识表示语言:RDF,OWL• 群体智能知识工程:Wikipedia (embrace the power of the

web to harness collective intelligence)• 工业界:google,facebook,yahoo,microsoft

2000-2006年代 Web2.0 群体智能

2000-2006年代

互联网发展高峰语义Web群体智能:维基

8

1950-1970年代p 符号逻辑p 神经网络p LISPp 产生式规则、语义

网络

1970-1990年代p 专家系统p 限定领域p 知识库+推理=

智能p 脚本、框架等

1990-2000年代p 万维网p 人工大规模知

识库p 本体概念p 智能主体、机

器人

2000-2006年代p 互联网发展高

峰p 语义Webp 群体智能:维

2006年至今 Web 3.0 知识图谱• 维基类知识的结构化及知识获取途径的丰富

• linked data(2006),Dbpedia(2007),YAGO,Freebase, Knowitall,NELL, Probase,

• 知识图谱从通用领域扩展到限定领域• 知识图谱在工业界大规模应用

• 语义搜索(Google knowledge graph 2012)• 问答系统与聊天机器人(Watson深度问答系统)• 大数据语义分析• 智能知识服务

2006年至今 Web 3.0 知识图谱

2006年至今

维基结构化通用和领域知识大规模知识获取大规模工业应用

9

ConceptNet 1999 多语言 手工,常识知识 千万级

国际著名知识图谱

图谱名称 语言 类型 规模CYC 英语 手工,常识知识 百万级

WordNet 英语 手工,语言知识 十万级HowNet 中英文 手工,常识知识 千万级

ConceptNet 多语言 众包,常识知识 千万级DBPedia 多语言 自动,世界知识 十亿级

YAGO 多语言 自动,世界知识 十亿级BabelNet 多语言 自动,语言+世界知识 十亿级WikiData 多语言 自动,世界知识 千万级BabelNet 多语言 自动,语言+世界知识 十亿级

大数据机器学习

● 表示学习:基于分布语义思想,把符号表示为连续空间中的对象,以支撑数值计算

● 深度神经网络:集成多个相互关联的神经网络,利用模型的深层结构对数据中存在的复杂关系进行建模,可支持大规模有监督学习

Word Embedding Recurrent NN Recursive NN CNN

语音识别 计算机视觉 机器翻译

11

大数据驱动的深度学习优点与局限性

优点:● 感知计算● 记忆与学习● 便于机器大规模计算● 便于数据关联局限性:● 低质特征● 端对端,黑盒操作,不可解释● 不能很好融入先验知识● 给定数据和具体任务,可以有很好的预测性能,不能学习有效可共享的知识

原始数据

黑盒学习

输出

12

让智能系统具备合理决策能力的重要性

训练数据

机器学习

习得函数 用户

决策或推荐

为什么这么做?

为什么不是其他?

什么时候成功?

什么时候失败?

什么时候可信?

如何修改错误?

训练数据

机器学习

可解释模型

解释接口

用户

我理解原因

我知道为什么不

我知道什么时候成功

我知道什么时候失败

我知道什么时候可信

我知道如何修改错误

大数据机器学习

可解释人工智能

13

https://www.darpa.mil/program/explainable-artificial-intelligence

对智能的、自治的符号系统需求

https://www.darpa.mil/program/explainable-artificial-intelligence14

语义鸿沟

语义鸿沟

语义空间

底层特征空间

知识图谱

知识图谱以结构化的形式描述客观世界的概念、实体及其之间的关系,将互联网信息表达成更接近人类认知世界的形式,以更好地组织、管理和互联网海量信息

15

知识驱动模型(符号方法)

● 专家系统

用户

推理引擎 知识库

知识工程师 领域专家

• 专家知识稀有且昂贵• 计算能力有限

16

■ 举一反三■ 学习与理解■ 符号推理与计算■ 可解释的信息处理

大数据时代的智能系统

用户

推理引擎 知识库

知识获取 大数据知识工程师

17

大数据环境下的知识工程

互联网/行业大数据

通用/领域知识

知识获取 智能服务

知识的作用:互联网内容从符号到意义的映射(实体、关系和事件),实现从信息服务到智能知识服务跃迁

18

知识工程新定义

Knowledge Engineering is an engineering discipline that involves integrating

knowledge into computer systems in order to solve complex problems normally

requiring a high level of human expertise.

图灵奖获得者Feigenbaum给出的定义

Knowledge Engineering is an engineering discipline that involves integrating knowledge which

can automatically or semi-automatically acquired from big data into knowledge based systems in

order to provide intelligent internet services (e.g. semantic search, question answering)

新定义

19

大数据环境下知识计算的方法论

1960 1970 1990 2000 现在

确立知识工程在AI地位专家系统=知识库+推理

本体知识表示和万维网的语义标识语言

大规模知识图谱的应用带动了知识服务的发展

物理符号系统是智能行为的充要条件

大脑神经元以及连接机制是一切智能活动的基础

知识明确 学习与理解 因果推理 知识稀疏,难以应对开放域

的计算需求

知识驱动

学习与记忆 关联计算 可计算、自学习 语义不明确、难推理解释、

准确度无保障

数据驱动

概率统计机器学习神经网络BP算法

大数据的机器学习深度学习

知识驱动 数据驱动

20

知识表示的时空特性建模

融合表示学习与符号逻辑的知识表示方法

基于符号逻辑和表示学习的知识框架

融合与扩展

表示学习与符号逻辑相结合的知识表示

■ 基于符号逻辑的方法产生式规则、框架、脚本和语义网等;开放式知识描述XML、RDF和OWL;大规模知识图谱;

■ 基于表示学习的方法张量重构方法;势能函数方法;Trans模型

研究现状

■ 符号逻辑使知识具备显式语义表达能力,但计算能力较差

■ 表示学习赋予知识快速计算和模糊匹配的能力,但可解释性低

现状分析

■ 大数据知识表示理论与方法使知识既具有显式的语义定义,又便于大数据环境下的知识计算与推理

大数据环境下知识获取与融合

■ 信息抽取监督、弱监督和无监督的机器学习;深度学习方

法;■ 知识融合

大规模本体映射; 数据链接;

研究现状■ 符号表示知识更适合数据源稀疏、领

域定义明确的环境■ 深度学习方法则更适合数据源数量庞

大、领域边界不明确、数据类型复杂的环境

现状分析

■ 大数据知识获取和融合关键技术研究适合大数据特点的知识在线学习和语义关联技术

知识动态融合知识在线获取

在线学习

大数据环境下的知识计算与推理

■ 基于逻辑的知识推理方法基于谓词逻辑的推理基于语义网和本体的推理;提高推理效率的方法

■ 基于表示学习的知识推理方法张量分解或深度神经网络的方法

研究现状■ 逻辑推理方法效率较低,对实时推

理支持不足,稀疏数据下准确性不高

■ 表示学习推理模型简单且易计算,但不能利用逻辑带来的额外信息得到隐式知识,推理过程缺乏可解释性

现状分析

融合逻辑推理与深度学习的大规模知识推理

基于深度学习的大规模知识推理

富含(A,B)^预防(B,C)➔预防(A,C)

规则库

基于符号逻辑的大规模知识推理

■ 研究深度学习和逻辑规则相互引导的知识推理和演化,提升大数据环境下新知识发现能力

情景感知的个性化知识服务

■ 知识导航和语义搜索RDF和OWL的语义搜索引擎;基于链接数据的搜索;

■ 基于知识库的问答系统基于符号的方法;基于深度学习的方法;

研究现状■ 已有工作对用户行为分析相对较

少■ 如何结合用户行为和上下文情景

以实现逻辑流畅的多轮对话

现状分析

用户行为分析与情景感知模型

基于情景感知的知识寻径与导航

基于情景感知的语义搜索

基于情景感知的交互式知识问答

知识驱动的大数据语义分析■ 新型知识智能服务模式

基于关联知识的用户行为分析、需求感知和情景驱动的知识服务

1950-1970年代p 符号逻辑p 神经网络p LISPp 产生式规则、语义

网络

1970-1990年代p 专家系统p 限定领域p 知识库+推理=

智能p 脚本、框架等

1990-2000年代p 万维网p 人工大规模知

识库p 本体概念p 智能主体、机

器人

2000-2006年代p 互联网发展高

峰p 语义Webp 群体智能:维

2006年至今p 维基结构化p 通用和领域知

识p 大规模知识获

取p 大规模工业应

知识工程发展趋势• 知识引导和数据驱动相结合的知识表示和计算• 高质量大规模知识获取算法(机器阅读理解,增强学习,多模态多

语言知识获取,常识知识获取,长尾知识获取等)• 知识图谱技术平台化,构建把数据转化为知识的智能信息处理平台• 知识图谱应用的多样化,建立智能知识服务的创新应用• 集群体智能的、开放的、融合的结构化知识资源

知识工程发展趋势

25

总结

数据—信息—知识—智能

知识图谱将互联网信息表达成更接近人类认知世界的形式,将互联网内容从符号转化为计算机可理解和计算的语义

知识工程从大数据中挖掘知识,可以弥合大数据机器学习底层特征与人类认知的鸿沟,是实现机器智能的基石

大数据环境下知识引擎实现从信息服务到知识服务新业态

谢谢大家!

XLORE: xlore.org