40
中文为核心的多语言处理技术 机遇与挑战 徐波 研究员 中国科学院自动化研究所 20061121

中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

Embed Size (px)

Citation preview

Page 1: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

中文为核心的多语言处理技术机遇与挑战

徐波 研究员

中国科学院自动化研究所

2006年11月21日

Page 2: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

报告内容

一、中文为核心的多语言处理技术

二、几个重要发展方向及推动

三、领域的拓宽—知识管理与社会计算

Page 3: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

中文信息处理技术是战略性技术

• 许嘉璐副委员长在为《中文信息处理若干重要问题》撰写的序言中,把中文信息处理提升到事关我国在网络时代优秀中华文化能否传播和发扬广大的高度

• 中文作为战略性技术的提升是凝聚需求、应用和专家集体智慧的漫长探索的过程。

Page 4: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

值得自豪的中国中文信息处理技术

• 过去二十五年,我们中国人自己解决了电脑的汉字编码、输入、输出等问题,为我国进入信息化时代奠定了基础(联想、方正)。

• 90年代以后,中文信息处理重点从文字处理转向以语言为中心的智能处理技术– 孵化了汉王、科大讯飞及TRS等具有鲜明自主知识产权的企业

– 是我国863自主创新较为活跃、成果转化率较高的方向之一

Page 5: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

具有比较优势的中文信息处理技术

• 科技部技术预测与国家关键技术选择研究组研究报告认为中文信息处理技术中国居世界领先水平,研发基础好,进一步突破的可能性较大

• 在十一五863中除了专题支持外,专门设立了“中文为核心的多语言处理技术”重点项目,并首批启动,中文信息处理的重要性已经逐渐得到认识。

Page 6: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

中文信息处理领域的两大特征

• 中文信息处理竞争已经国际化– 中文已经成为各国竞相研究的除本国语言以外的最重要的语种,中文信息处理正面临空前的竞争。

• 单一的中文信息处理已经不能满足国家需求– 国际化市场对产品多语言的需求;– 国家内容安全、情报分析方面的需求;– 中国重大国际活动对多语言处理的需求;

Page 7: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

中文为核心的多语言处理技术

• 中文信息处理是一面旗帜,同时需要反映出应用对多语言处理的需求以及建立多语言处理技术框架的重要性

Page 8: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

报告内容

一、中文为核心的多语言处理技术

二、几个重要发展方向及推动

三、领域的拓宽—知识管理与社会计算

Page 9: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

寻求最有发展前景的方向

• 综合考虑中文信息处理各个领域的应用需求、技术现状、发展趋势、研究积累以及人才队伍状况

• 语音识别、机器翻译以及新一代搜索引擎具有新的技术和产业发展机会

Page 10: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

语音识别技术(ASR)由于其潜在巨大应用前景,一直是西方发达国家持续投入的一个方向。下图是美国DARPA计划近15年的发展历程

Page 11: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

ASR是863评测每次必有的项目

1st 2nd 3rd 4th 5th 6th 7th 8th

1991 1992 1994 1995 1998 2003 2004 2005ASR ● ● ● ● ● ● ● ●

TTS ● ● ● ● ●

MT ● ● ● ● ● ●

CWS ● ● ● ●

IR ● ● ●

TC ● ●

TS ● ● ● ●

CR ● ● ● ● ● ●

FR ●

Page 12: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

近二年需求的增长提高了应用研究水平

• 语音识别应用在近两年呈现比较大需求增长, 国内技术在这些领域发挥了举足轻重的作用

– 在安全领域,相关部门结合业务提出了相应的需求;– 在教育领域,大人群的普通话水平测试和口语评估迫切需要自动、客观的评估技术;

– 在电信领域, 国外语音识别技术和部门进入中国市场;我国自有技术与之形成竞争局面。

– 在手机、汽车导航等嵌入式市场,对语音识别需求也日益增长,我国技术与美国、韩国等公司进行竞争。……

Page 13: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

如:语音识别在人机交互领域的应用

----从“语音标签”技术到“语音伴侣”技术特定人(语音标签) 非特定人

应用时间 80年代中期至90年代 90年代末至今

需要训练使用前需要对每个需要识别的条目进行训练并建立对应的语音标签模板

不需要

词汇量 一般不超过100个语音标签模板 目前可达上千个

噪声问题 要求使用环境和训练环境比较接近具备噪声处理能力,可以满足使用者在不同环境下使用要求

使用者要求

需要使用与训练时接近的语音在使用同种语言情况下,不同使用者均可使用

识别效果 一般 很高

综合评价 应用数量大、性能受限、已被淘汰 性能稳定、成为主流

Page 14: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

语音识别在人机交互领域的应用----电话终端与垂直搜索的结合

• 电话终端与垂直搜索结合的语音搜索是电信增值运行的一个亮点– 电信运营商将市场开发重点从增量市场转移到存量市场,提高用户忠诚度,提高ARPU值越发重要

– 除提升“声动炫铃”等已有形式的收益外,语音号码百事通、语音博客的业务特征,也将是电信业务新的增长点

– 智能化Call Center中的应用• 基于电信级应用的语音识别交互平台,支持基于

FSN的查询、交互等,平台稳定性、可靠性、并发数和响应效率达到电信级应用的要求

Page 15: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

如:中英文口语评测和教学

中国每年参加普通话测试的人数将达到上百万人,目前海外通过各种方式学习汉语人数已超过3000万;英语高校、中、小学校等教育机构的目标客户数量

约为5万所,个人用户目标客户为2100万,国家机关、国企、外企等继续教育目标客户为350万;

Page 16: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

MT:古老而年青

• 过去十年是机器翻译默默发展、积蓄力量的十年。除了商用化机器翻译系统不断拓展市场外,技术探索活跃。

• 最大的亮点莫过于统计机器翻译(SMT)研究的重大进展。SMT最早始于IBM’s Candide System(1989-1994)– French English– 人工评判(可懂度+流利度)– 比SYSTRAN稍差

Page 17: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

过去十年的统计机器翻译

• 更多的研究机构的参与(ATR,CMU,HUST,ISI,IRST,RWTH等)

• 更多语种之间的互译(Chinese, Japanese,Arabic--〉English等

• 文本翻译+口语翻译• 自动翻译结果评估标准并被广泛接受如

WER/PER,BLEU/NIST指标• 更多的计算资源/储存资源/平行语料资源等等

Page 18: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

过去十年机器翻译主要项目

项目名称 时间 领域/词汇量 语言 主要结果

Verbmobil,Eutrans, PF-Star

1993-2000 10K,约会/旅游/日程安排

德语-英语 29% vs.51%

IWSLT,C-Star

2004,2005 旅行领域,10K

口语,汉语,日语,韩语-英语

在所有语言对中统计方法优

USTides 2001-2004 20K,新闻 文本,汉语、阿拉伯语到英语

比商用系统好

TC-Star 2004-2006 议会发言 西班牙语-英语,汉语—英语

BLEU:0.45和0.51

Page 19: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

SMT的发展

• SMT这几年的技术尤其是统计与结构信息的融合方面日新月异,为SMT技术的可持续发展奠定了良好的理论基础;

• SMT继续不断从ASR中吸取营养,如最大熵、最小错误率等区分度训练算法;

• SMT与语音识别等结合,将会衍生出不同形态的终端式应用和服务式应用。

• SMT发展的里程碑是BLEU得分达到或超过0.5,这还需要多长时间?

Page 20: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

新一代搜索引擎

• 搜索引擎正在演变为国家战略资源的趋势,是我国信息技术和产业发展的必争之地。– 搜索引擎是信息内容产业的门户和入口,目前各国都在研究建立跨媒体、智能化、个性化的基于内容的新一代搜索引擎

– 欧盟和日本投入数亿欧元和美元,分别启动了“超级搜索引擎”和“信息大导航”计划

Page 21: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

垂直跨媒体搜索技术

• 以深度发掘为主要特点的垂直搜索技术我国与国际处于同一起跑线上,是我国实现在搜索领域实现跨越式发展的契机– 我国在垂直搜索引擎市场占有率超过50%– 我国在机器翻译以及跨媒体搜索方面已有很好的基础,技术与国际处于同一起跑线上

– 垂直和跨媒体搜索引擎具有良好的商业盈利模式

Page 22: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

海量资源库建设和共享

• 数据资源规模、获取方式以及相应的处理算法日新月异– 训练数据量数量级增加;如EARS项目广播语音达到

3500h、电话自然对话语音达到2000h;数据增加一个数量级,系统相对误识率下降15%;统计机器翻译双语语料库在百万级,目标语言语料增加10倍,提高1%。

– 数据获取方式从人工精标注发展到不需要100%准确的速记以及字幕信息利用;机器翻译训练语料从段落对其到关联语料的应用

– 训练算法从有监督训练发展到轻监督和无监督训练;

Page 23: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

如:863重点项目资源建设和共享概况

• 建立1000人的口语语音库,包括电话语音和会议语音各500人。

• 千万级句对齐双语/多语语料库,百万级的短语对齐双语/多语语料库,十万级的双语/多语多层次结构对齐语料库,一万级的双语/多语语义标注对齐语料库。

• 建立藏、维、蒙等主要少数民族语言的词典、发音词典、口语语音库、中/藏/维/蒙多语平行语料库、基本文本库等。

• 建立至少按照5级分类的汉语/多语口语质量评估库,内含发音人500以上,对发音错误等有准确标记。

• 建立20TB以上的网络数据资源库,包含文本、图片、视频、音频等信息。对10%资源库进行分类和标记。

• 在种类、加工深度、用户数量上形成规模和国际影响力

Page 24: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

技术评测的推动

• 以目标+资源+评测模式,推动技术进步– 以需求设定评测大纲、技术性能和目标– 评测与资源建设的关联性:资源为技术评测以及应用服务

• 保持评测的可持续性以及提升评测的国际化水平是我们需要重点解决的问题。

Page 25: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

重大应用集成带动

• 以国家重大需求为切入点, 进一步加强对国家需求的调研,加强系统总体和集成技术的研究

– 多语言综合信息服务系统的需求研究;– 多语言综合信息服务的标准、规范和概要设计;

– 研究建立围绕应用的多语言处理专用资源库;– 多语言综合信息服务的集成、测试和运营。

Page 26: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

多语言综合服务示范

• 利用重大国际活动展示本国的先进技术是展示一个国家科技实力,尤其是发展相关产业的重要契机。我国又恰逢奥运会和世博会等重大国际活动;

• 研究开发综合性的多语言服务,在这个领域树立标杆和示范,可以推动以中文为核心的技术和产业的发展。

Page 27: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

报告内容

一、中文为核心的多语言处理技术

二、几个重要发展方向及推动

三、领域的拓宽—知识管理与社会计算

Page 28: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

98年“973”项目立项报告

• 知识经济与可持续发展是当今世界经济发展的主要特点,可持续发展要求有效地利用知识与信息资源。 “堆积如山”的信息已形成了巨大的信息矿床,挖掘,开发与综合利用信息矿床,…. …. 把信息变成知识,变得日益重要。

• “除非增长开发编码化和隐含经验类知识技能的投资,否则,信息会是使市场经济分配效率下降的重要因素”(引自“知识经济”“Knowledge-based Economy”)。

Page 29: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

科学院以“网络内容有效利用”为题进行战略研究

• 2003年下半年开始院“十一五” “网络内容有效利用”战略研讨,并在2004年夏天进行了论证和讨论;– 目前,对“信息有效利用”的迫切需求主要集中在政治、军事、经济、科学技术等关系国家安全、经济发展、社会安定等问题上;

Page 30: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

“网上内容有效利用”需求的共同特点

• 数据处理规模大、处理速度要求高(以T\P级计)– 涉及静态海量内容仓库快速处理– 动态大规模数据流的实时计算

• 数据类型多样化(多源),涉及结构化和非结构化信息– 结构化:商业数据库的数据挖掘和整合– 非结构化:文字、语音、图像等,需要向结构化转化

• 需要从大量的信息中提取个性化的关注点和知识点,都涉及到对海量数据的背景知识和建模

Page 31: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

“信息转化为知识”是这些问题科学意义上的概括

• 不同用户对信息内容和信息长度,具有不同的需求,众口难调,需要语义;

• “基于内容”的检索与处理的关键依赖语义问题的解决。

• 现状是:信息有效利用处于“头痛医头,脚痛医脚”的阶段。

• 最大的科学意义在于把计算机科学30多年研究方法论逐渐从基于语法计算向语义计算转换

Page 32: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

进入积累阶段

• 面临的问题类似于30年前计算机科学与技术所面

临的情景。

• 当时,即使语法的计算也不知如何进行,积累了近30年,终于完善了这类计算,由此,迎来过去

十年的高潮。

• 现状:这些积累已不足以解决面临的语义问题

• 计算机科学和技术需要重新积累

Page 33: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

新的IT高潮期望语义的突破

• 高潮的本质是一种技术的大众普遍使用。

目前,大众的需求远不迫切。因此,期望

近几年出现IT高潮,没有社会基础。• 只有通用信息语义的突破才会带来IT新的高潮,才会对IT产生革命性的影响

Page 34: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

同期美国DHS(国土安全部)也在做类似的战略研究

• 美国DHS(国土安全部)ASC (Advanced Scientific Computing)召开的Data Science Technology Workshop,该研讨会主要为DHS2006-2010年立项准备。

• 尤其是DHS-ASC核心---架构性项目ADVISE(Analysis, Dissemination, Visualization, Insight, and Semantic Enhancement)。

Page 35: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

Semantic Graph

TemplateSubgraphs

Ontology

Knowledge Interface

Information Interface

中央监控情报分析 内容监管

Semantic Graph

TemplateSubgraphs

Ontology

Knowledge Interface

Information Interface

Semantic Graph

TemplateSubgraphs

Ontology

Knowledge Interface

Information Interface

可伸缩的知识可伸缩的知识管理平台管理平台

Scalable Knowledge Management and Integration

共享数据

Knowledge Discovery and Distribution

应用场景应用场景

受控数据

………….. 网络监管部门网络监管部门 ………… 应用部门部门

平台:知识管理架构

Page 36: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

人机综合决策支持体系

ReportsReports

Louisiana

Automatic event extraction

Organizations Networks Borders Sensors

Threatlist

Threatlist

SPUD

Manual event extraction

Content

高性能文档内容管理系统

ILI DMS

KLI DMSSemantic Graph

TemplateSubgraphs

Ontology

NebraskaKnowledge Interface

Information Interface)

Security Infrastructure

信息和知识检索 可视化工具2可视化工具1

Interface Control & Execution (ICEland)

数据特征层处理(Canonicalizing Loader)

以Semantic Graph为核心数据模型层计算

Page 37: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

以Semantic Graph为核心的计算

• 大规模语义网络的存储和管理架构• 可伸缩的语义网络的查询和分析的算法和接口

• 在语义网络上的检测和预计模型• 语义网络上的过程发现和检测模型• 语义网络的隐私和安全控制算法和策略

Page 38: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

知识管理在社会计算中的应用

• 网络信息采集和管理方法• 信息的智能处理和分析算法• 网络的安全分析与安全保障• 社会动态网络系统和分析• 人工社会和计算实验方法的应用• 决策支持与分析等

Page 39: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

加强中文信息处理各个层面的战略研讨

• 开放环境下的中文处理单元• 规模语义知识建立的技术路线• 分析与统计的结合之道(目前SMT的进展是统计与分析方法结合的榜样)

• ……

Page 40: 中文为核心的多语言处理技术 机遇与挑战bj.bcebos.com/cips-upload/xubo.pdf · 词汇量 一般不超过100个语音标签模板 目前 ... 1993-2000 10K ,约会/旅

谢谢!