17
中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁

中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

  • Upload
    others

  • View
    26

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

中文信息处理的机遇与挑战

语音及语言信息处理国家工程实验室 胡郁

Page 2: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

中文信息处理新的定义和理解

• “中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。”

• 从大的IT产业发展趋势来看,我们经历了大型机到个人电脑到网络化的过程,人机之间以及人人之间的信息沟通进一步融合对中文信息处理提出了新的需求

• 将来中文信息处理将从原来的“让计算机可以处理中文”演变为“让计算机可以理解中文”,从而最终实现人机之间,人人之间的信息沟通无障碍

2

Page 3: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

• 全球已进入高速发展的移动互联网时代

移动互联网时代到来

3

Page 4: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

移动互联时代的软硬件环境变迁

摩尔定律,对计算机本身性能的一种预测,表示每12个月计算速度就会提升一倍

安迪·比尔定律:计算机芯片(硬件)一旦更新升级软件就会随之升级,消耗掉硬件增长的计算能力贝尔定律,大约每过10年,通信等技术进步会促使形成一个全新而且通常是价格更低廉的计算机平台

吉尔德定律:主干网的带宽将每6个月增加一倍,上网的代价将成倍数逐步会下降

移动互联时代软硬件发展遵循以下4种定律

Page 5: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

下个三十年中文信息处理的重点

• 下一个三十年IT技术发展的趋势可能是信息存储海量化、信息传播网络化、信息处理智能化。特别是随着云计算、移动互联网、智能终端的高速发展,对信息处理提出全新的需求

– 1、能够从核心算法就开始考虑如何从海量数据中提取

信息,例如现在语音识别需要考虑的是从几千乃是几万小时语音中学习有用的信息,这可能导致很多研究算法的改变

– 2、信息的传输通过新媒体(如微博、即时短信)和原

来的传输方式相比,有社会关系网络化的趋势,在这种情况下信息传播的安全、跟踪、分析都需要全新的视角和方法 5

Page 6: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

下个三十年中文信息处理的重点

• 下一个三十年IT技术发展的趋势可能是信息存储海量化、信息传播网络化、信息处理智能化。特别是随着云计算、移动互联网、智能终端的高速发展,对信息处理提出全新的需求

– 3、信息处理的目标从原来的主要为人们处理信息为主

(人机协同的方式),逐步拓展到人与人工智能之间交互的新领域。这一点可能预示着着信息处理智能化的普遍应用,给我们的研究和引用都带来巨大的变化

– 4、在将来的5到10年的时间里,语音交互技术将作为

最自然便捷的人机交互手段有着广泛的需求。而在这个过程中,语音交互技术将借助于移动互联网以及与云计算技术最终满足实用化的需求 6

Page 7: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

国内外科学界力争该领域制高点

Page 8: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

智能语音技术国际发展态势

20世纪50年代 20世纪80年代 20世纪90年代 21世纪

50年代AT&T Audry

首个可以识别十个英文数字的语音识别系统

1988年CMU Sphinx

首个非特定人大词汇量连续语音识别系统

90年代Bell Lab

1989年Cambridge剑桥大学

HTK Toolkit2003年SRI CALO

2003、2005年DARPA

EARS、GALE项目

2010年Google

Cloud Speech

1984年Apple

Macintosh第一次让计算机开口说话

2011年AppleSiri

语音助理&人工智能

1997年IBM Viavoice首个语音听写

产品

2010年Google

Voice Action支持语音操作

与搜索

2009年Microsoft 在Win7中集

成语音功能

90年代微软研究院成立

Page 9: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

人机交互方式的变革

9

中国

键盘和字符显示构成第一代人机交互

鼠标和图形显示构成第二代人机交互

语音交互

触摸交互

视频交互

Page 10: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

微软称:新版Tellme将实现人机交互,可以和Siri媲美会用到WIndows 8及下一代WIndows Phone系统中谷歌计划2012年上半年发布平板电脑Google Nexus,

并将搭载Majel网络语音识别技术2011年1月9日,CES 2012,三星发布智能语音控制电视

2011年10月4日,iPhone4s发布,语音功能成为最大卖点

国际语音交互应用风起云涌

Page 11: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

中文信息处理的原始创新

• 在中文所独有的知识体系与智能信息处理的角度来看,存在产生中文独特创新的广阔空间

– 和语言产生和处理的核心机理有关的大脑皮层处理的差异性,有可能带来原始创新。这方面最近DBN神经

网络有崛起的趋势,这从机器学习的机理上提供了一种探索中文信息处理与其他语言处理差异化并将这种差异化反映到机器学习中的可能性

– 在相同的机器学习方法的理论框架指导下,中文所特有的语法、语义结构的独特效果如果能够在大规模实用环境下得到验证,特别有了海量数据处理和移动互联网环境广泛引用的支撑,也可以开辟在工程化领域的原始创新 11

Page 12: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

中文信息处理产业重要方向

• 我们认为在以下两个方面会出现大的机会:

– 解决人机之间的信息通讯无障碍

• 语音识别、合成、文字识别技术实用化

• 语音语言的理解技术

– 解决人人之间的信息通讯无障碍

• 语音翻译

• 社会化信息网络语言处理

12

Page 13: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

技术突破引领产业变革

1970S大型主机及小型机

个人计算机

桌面端互联网

移动互联网

1980S

1990S

2000S

IBMNCRHPHoneywell

MicrosoftCiscoIntelAppleEMCDELL

GoogleAOLeBayYahoo!

Amazon……

?Facebook

1970S

1980S

1990S

2000S

Page 14: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

推动中文信息处理进入国家重大项目

• 首先需要瞄准国家的重大战略需求,需要考虑中文信息处理能够为国家在哪些关键领域提供有效支撑,解决国家继续解决的核心技术及产业问题(如中文信息安全、民族双语教学、民族文化传播)

• 其次采用以企业为主体,市场为导向的产学研一体化科技创新模式

14

Page 15: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

产学研合作的有效模式

• 中文信息处理领域“产学研”的战略合作需要考虑的主要问题:

– 应研究与应用之间的高度融合需求,以及现阶段技术提高需要应用不断反馈用户数据及信息的迫切需求,考虑“以企业为主体,市场为导向”的产学研一体化科技创新模式

– 在“产学研”链条中能够建立从社会荣誉到物质激励的利益成果分配机制

– 建立鼓励“产学研”链条中的人才流动机制,并建立对合作过程中产生成果的奖励机制

15

Page 16: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

16

致 谢!

感谢聆听 欢迎提问

Page 17: 中文信息处理的机遇与挑战bj.bcebos.com/cips-upload/23_HuYu.pdf中文信息处理的机遇与挑战 语音及语言信息处理国家工程实验室 胡郁 中文信息处理新的定义和理解

中文信息处理的原始创新

• 中文信息处理本来就是多学科交叉融合的领域,未来三十年中,随着与中文信息处理的语音语言学、认知科学、脑科学、计算机技术、信号处理技术等方向的前沿技术融合将带来最重要的原始创新

17