GPU助力搜狗知音 - NVIDIA › gtc-cn › 2019 › pdf › ... · GPU算力的持续优化有效支撑海量识别请求 GPU推理服务优化Roadmap 时间 GPU 优化项 1 2017.06

GPU助力搜狗知音

打造人机交互新体验

搜狗AI交互事业部陈伟

搜狗的使命：让表达与获取信息更简单

以语言为核心的AI战略布局

搜狗AI战略：自然交互+知识计算

搜狗知音：以语音为核心入口的多模态人机交互系统

搜狗知音核心AI架构

搜狗深度学习平台Eva

应用语音图像/图形机器翻译/对话

算法DNN

CNN

RNN/LSTM/GRU

Seq2Seq

分布式系统并行训练自动伸缩容错容灾资源隔离环形通信

基础设施CPU

GPU

RDMA

基于GPU的Eva平台架构

中国最大的语音输入法

语音识别深度学习规模演进

4.8

43.440.6

0

5000

10000

15000

20000

25000

30000

35000

0

10

20

30

40

50

2012H1 20121127 2013H1 2013H2 2014H1 2014H2 2015H1 2015H2 2016H1

语料规模（小时数）

字错误率（

%）

搜狗字错误率谷歌字错误率语料规模

✓千级GPU集群

✓基于搜狗AMoChA*的深度学习端到端建模技术

✓十万级小时规模数据

* AMoChA：Adaptive Monotonic Chunk-wise Attention

语音识别准确率 = 计算力 + 深度学习 + 产品大数据

GPU算力的持续优化有效支撑海量识别请求

GPU推理服务优化Roadmap

时间 GPU 优化项

1 2017.06

Tesla P4

GPU并行计算推理速度，效率提升50%

2 2018.06 GPU Cuda-8.0升级为Cuda-9.1，效率提升10%

3 2018.08 GPU多流优化推理速度，效率提升10%

4 2018.10 模型结构优化，效率提升15%

5 2018.12 GPU显存复用+拼Batch等优化方法，效率提升20%

6 2019.05 模型定点运算加速+CuDNN优化，效率提升30%

7 2019.11 Tesla T4 GPU升级Tesla P4->Tesla T4，效率提升20%

3.2

5.4

8.3

2017年 2018年 2019年Q3

搜狗语音识别峰值日均调用量(亿次)

近场低噪的语音听写远场高噪环境的语音识别

■此外，语音识别准确率还受话者自身的口音、讲话方式等多个方面的影响

复杂场景下的语音输入问题仍未解决

•区别于传统录音笔，发布后在多个电商平台取得了单品销量第一的成绩

•远场拾音，自研Smart Voice降噪算法，人声高保真还原

•免费转文字，远场识别准确率最高可达95%

•智能辅助编辑：自动区分说话人、文本修饰、自动分段

•同声传译，多人实时共享

•快速成稿，一键分享

搜狗智能录音笔C1

• 开放核心技术能力 “搜狗听写”服务，与爱国者、纽曼、索尼录音笔、万城四家录音笔行业头部企业成立AI创新联盟；

• 开放一站式转写解决方案，包括个性语音识别、实时录音转写、同声传译、文本智能编辑、多端只能同步、文件云端安

全存储、便捷人性化分享等完整能力；

• 与搜狗输入法进行了打通联合，为市场上90％以上的录音笔产品提供接入服务， “录音1小时，出稿5分钟”；

开放听写服务成立AI创新联盟

业内首个公开演示的唇语识别系统

唇语识别

基于搜狗Modality Attention的多模态识别

多模态识别

单模态识别

花了这么多买什么好东西

关了这么货什么都不用

龙花儿这么多买的什么好东西

多模态识别技术-语音+唇语

搜狗在AI翻译上的行业首创

翻译：让华语连接全世界

同传系统需要关键技术间的协同学习

搜狗输入法字幕直播

搜狗同传已在多个刚需场景下广泛实用

大会演讲

语音翻译硬件助推能力进一步提升

国际领先的基于 WaveNet / WaveRNN 的语音合成技术

语音合成

基于深度学习的语音合成

基于NVIDIA T4的WaveRNN优化

WaveRNN 结构图

Base ：基于CuDNN初步优化EvaLite：基于搜狗自有推理引擎优化

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

32 64 96

实时解码率

BATCH SIZE

语音合成

Base EvaLite

WaveRNN优化策略

语音合成解码器（WaveRNN）的优化方法：- kernel融合- half2优化- warp-level reduction优化- 动态适配的任务调度- 定制开发实现的gemm算子

0

0.5

1

1.5

2

2.5

SPEEDUP

EvaLite相对于CuBLAS的加速比定制gemm算子优化：

⚫ PTX-level的代码实现

⚫访存优化

⚫ Shared memory

⚫寄存器预取

⚫ Bank冲突优化

⚫向量化读写数据

⚫指令流水

⚫任务调度优化

✓ 上传10句话，共5-7分钟的音频；

✓ 音色接近真人，定制专有声音档案；

✓ 主打声音陪伴，可以讲故事、读新闻等。

原声语音合成

糖猫儿童手表搜狗故事大王

个性化语音合成

业内首创，表征学习+迁移学习的双重突破

语音变声

语音变声

多语种

口音

英语

俄语

东北口音

广普

领先的语音变声能力

✓搜狗输入法业内首发变声功能，首个且唯一真人变声类产品

✓已支持明星、动漫、游戏、口音、语种等共23种变声音色；

✓落地内容类产品，音色与风格自由组合，更加高效且个性

化的进行内容表达；

语音变声技术已广泛应用

转述师 -> 梁宁

语音变声+内容生产

王小川语料库

源端：凯叔《西游记》片段

目标端：王小川《西游记》片段

搜狗分身

全球首个合成新闻主播

AI合成主播

从多模态表达走向基于虚拟人的多模态交互

搜狗分身

实现刚需场景下多个首次落地

全球首个AI俄语主播全球首个AI客服

感谢您的聆听

让表达与获取信息更简单

Documents

GPU助力搜狗知音 - NVIDIA › gtc-cn › 2019 › pdf › ... · GPU算力的持续优化有效支撑海量识别请求 GPU推理服务优化Roadmap 时间 GPU 优化项 1 2017.06