基于TACOTRON2和WAVEGLOW的端到端语音合成加速方案 ...R. Prenger, R. Valle and B....

黄瓒深度学习解决方案架构师@Nvidia

基于TACOTRON2和WAVEGLOW的端到端语音合成加速方案

背景

基于 Tacotron2 和 WaveGlow 的端到端语音合成概述

声码器

介绍 WaveGlow 一种基于深度神经网络的声码器

加速方案

结合 Tacotron2 使用 TensorRT 在 Nvidia GPU 上加速模型推理

AGENDA

背景

语音合成Text-to-Speech

语音合成语音识别

• 智能家居• 会议记录• 内容检索• 指令识别• 实时翻译• ...

• 车载导航• 电话客服• 虚拟偶像• 有声小说• 睡前故事• ...

技术驱动的，更自然、高效的人机交互方式

端到端?

文本: 苏州是个美丽的城市!

复杂的处理过程由单个模型完成,降低语音合成准入门槛=>数据+算力≈?

通过深度神经网络做到更好的语音合成效果=>音质提升，触达更多场景

一分为二

特征预测(Tacotron2)

• 字符/音素->梅尔频谱

声码器(WaveGlow)

• 梅尔频谱->声波

字符/音素序列

声波

中间表示(梅尔频谱)

声码器

较好的音质+更快的速度?

采样率高: 16KHz=OK, 22KHz=GOOD, 24KHz=BETTER

时序依赖性强: 部分自回归神经网络方法需要若干小时生成十几秒语音

在算法设计上减少自回归结构，增强可并行性->用卷积层完成更多任务

充分发挥硬件性能，针对特定平台做定向优化降低延迟，提高吞吐

WAVEGLOW

生成模型？• 对抗生成网络(GAN)• 变分自编码器(VAE)• 基于流的方法(Flow-Based)

声码器？• 传统信号处理方法• 基于神经网络构建

https://deepmind.com/blog/wavenet-generative-model-raw-audio/

https://openai.com/blog/glow/

基于流的生成模型

https://lilianweng.github.io/lil-log/2018/10/13/flow-based-deep-generative-models.html

最大似然

雅可比矩阵

https://en.wikipedia.org/wiki/Jacobian_matrix_and_determinant

变换变量定理

Flow-based Generative Model by 李宏毅

求逆变换的雅可比矩阵行列式

Flow-based Generative Model by 李宏毅

https://arxiv.org/abs/1807.03039

WAVENET

https://arxiv.org/abs/1609.03499

WAVEGLOW

https://arxiv.org/pdf/1811.00002.pdf

训练

混合精度训练微调预训练模型

声音数据

推理

https://docs.nvidia.com/deeplearning/sdk/tensorrt-api/python_api/

• 提取权重• 构建网络• 生成Plan• FP32->FP16

• 在线推理

加速方案

TACOTRON2

https://arxiv.org/pdf/1712.05884.pdf

TACOTRON2

Decoder 部分 GPU 函数过于细碎，成为性能瓶颈

加速 TACOTRON2

TensorRT支持的层直接转到对应实现

加速 TACOTRON2

模型中的其它层通过插件形式接入并实现

在 C++/CUDA 代码的层级做层融合和特定优化工作

Credits to Nvidia DevTech Team for optimizing Tacotron2 on GPU

目前取得的加速效果

Tacotron2+WaveGlow on V100

•原始实现:低于十倍实时

•加速后:高于五十倍实时

Accelerate for Deployment

引用

J. Shen et al., "Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, 2018, pp. 4779-4783.

R. Prenger, R. Valle and B. Catanzaro, "Waveglow: A Flow-based Generative Network for Speech Synthesis," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 3617-3621.

Oord A, Dieleman S, Zen H, et al. Wavenet: A generative model for raw audio[J]. arXiv preprint arXiv:1609.03499, 2016.

Kingma D P, Dhariwal P. Glow: Generative flow with invertible 1x1 convolutions[C]//Advances in Neural Information Processing Systems. 2018: 10215-10224.

https://lilianweng.github.io/lil-log/2018/10/13/flow-based-deep-generative-models.html

https://docs.nvidia.com/deeplearning/sdk/tensorrt-api/python_api/index.html

https://www.youtube.com/watch?v=uXY18nzdSsM

谢谢！

基于TACOTRON2和WAVEGLOW的端到端语音合成加速方案 ...R. Prenger, R. Valle and B....

Documents

PIMT･･･金属外囲器端子 P ･･･ポンプモータ（50/60Hz 100V） C1･･･温度スイッチ共通低圧端子台低電圧端子 ET･･･保護接地端子

Approximating The Kullback- Leibler Divergence Between Gaussian Mixture Models ICASSP 2007 John R. Hershey and Peder A. Olsen IBM T. J. Watson Research

NJW4140-Z2NJW4140-Z2 Ver.1.0 - 2 - 端子配置図端子番号端子名機能 1 V+ 電源端子 2 EN ヷちゐなみ端子 3 IN− 出力電圧検出端子 4 FB どヴゐそつしう設定端子

PRIJSVRAAG nummer 2.pdf · 2021. 2. 15. · De heer J.E.H. Janssen De heer H.J. Prenger BEDANKJE De heer van Moerkerk, Gerard Nijman, Truus en Gerard Lukkas-sen, Truus Leenders en

Sapido 雲端服務

20091229 林桂端

MILソケットコネクタ端子台2011 端子台コネクタ端子台 (圧着端子タイプ）コネクタ端子台 (圧着端子タイプ）コネクタ端子台（欧州タイプ）

DIN - Phoenix Contact...DINレール用端子台 DINレール用端子台 BT シリーズ（丸形/Y形端子用端子台 / ハイブリット端子台 / プッシュイン式端子台）PT

MUSES72320 - NJRMUSES72320 – 2 – 端子配列 No. 端子名機能 No. 端子名機能 1 Z/C REFL Lch ゼロクロス検波基準電位端子 17 D_VDD デジタル部供給電圧入力端子

I/A ハンドピース & I/A チップ...全長110mm、シャフト長8mm 全長135mm、先端長18mm、先端幅0.4mm 全長149mm、先端長4.5mm、先端幅1.55mm 全長149mm、先端長4.5mm、先端幅1.55mm

Google- 雲端硬碟

Prezi 雲端簡報

テスト端子圧着端子専用圧着工具 - MISUMI-VONAテスト端子圧着端子 2733 圧着端子圧着端子 2010.7 2011.6 テスト端子圧着端子専用圧着工具

RX62T マイクロコントローラによるモータ制御永久 …«¯子 W端子 V端子 U端子 * HW端子 * HV端子 GND端子 * * V cc 端子 * VR1 VR2* SW1 SW2 スイッチ入力

MILソケットコネクタ端子台 - MISUMI-VONA2014 端子台コネクタ端子台 (圧着端子タイプ） PLC コネクタ端子台 FCN コネクタ端子台 MILソケット

クライマックス...発端展開クライマックス発端

CONSTRUYENDO EL FUTURO DEL TRABAJO · - Sarah Prenger, Presidente de la Juventud Obrera Cristiana Internacional - Claude Rolin, Miembro del Parlamento Europeo (PPE), Vicepresidente

圧着端子裸圧着端子 - MISUMI-VONAテスト端子圧着端子 3603 圧着端子圧着端子テスト端子 2011.9 2012.8 旧2703 仮3203 RoHS 出荷日価格表参照当日出荷は、17時までに都度お申し

DLP(R)プロジェクターRICOH PJ …...Computer1 In端子 2. Computer2 In/Monitor Out端子 3. Video In端子 4. HDMI端子 5. コントロール端子 6. Audio In端子 7. Audio

スプリングロック式端子台 - 東洋技研株式会社スプリングロック式端子台ボタン付プッシュインタイプ端子台 IEC/DIN35 レール用端子台

基于TACOTRON2和WAVEGLOW的 端到端语音合成加速方案 ...R. Prenger, R. Valle and B....

基于TACOTRON2和WAVEGLOW的端到端语音合成加速方案 ...R. Prenger, R. Valle and B....