DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム

©Yuki Saito, 2016/09/16

DNN音声合成のためのAnti-spoofing を考慮した学習アルゴリズム

☆ 齋藤佑樹, 高道慎之介, 猿渡洋 (東大院・情報理工)

日本音響学会 2016年秋季発表会

講演番号 3-5-1

/14

問題点: 統計的パラメトリック音声合成の音質劣化

• 生成される音声パラメータ系列の過剰な平滑化が一因

改善策: 自然 / 合成音声を識別できる解析的特徴量の分布を補償

• 例: 変調スペクトルの正規分布 [Takamichi et al., 2016.]

• 例: Mel-LSP のヒストグラム [Ohtani et al., 2012.]

本発表: Anti-spoofing を考慮したDNN音声合成の学習法

• 自然 / 合成音声パラメータの分布の違いを補償

• 従来の補償手法の拡張

1

本発表の概要

DNN音声合成における従来の学習法よりも高音質を達成

/14

従来の音響モデル学習:Minimum Generation Error (MGE) 学習

2

Generationerror𝐿G 𝒄, ො𝒄

Linguisticfeats.

𝒄

[Wu et al., 2016.]Static-deltamean vectors

⋯⋯⋯⋯

ො𝒄

time𝑡 = 1

⋯⋯⋯⋯

⋯

time𝑡 = 𝑇

⋯

Generated speech

params.

Naturalspeech params.

Parameter generation

𝐿G 𝒄, ො𝒄 =1

𝑇ො𝒄 − 𝒄 T ො𝒄 − 𝒄 → Minimize

⋯

/143

MGE学習の問題点: 自然音声と異なるパラメータ分布

分布の違いを補償する音響モデル学習法を提案

分布が縮小

Natural MGE

20th mel-cepstral coefficient

23

rd m

el-

ce

pst

ral

co

eff

icie

nt

/144

提案手法:Anti-spoofing と敵対する

音響モデル学習

/14

Anti-spoofing:合成音声による声のなりすましを防ぐ識別器

5

ො𝒄 Cross entropy

𝐿D 𝒄, ො𝒄

0: generated1: natural

[Wu et al., 2016.] [Chen et al., 2015.]

𝐷 𝝓 ⋅

Generatedspeech

params.𝒄

Naturalspeech params.

Featurefunction

𝝓 ⋅

本発表では𝝓 𝒄𝑡 = 𝒄𝑡

𝐿D,1 𝒄 𝐿D,0 ො𝒄

𝐿D 𝒄, ො𝒄 = → Minimize−1

𝑇

𝑡=1

𝑇

log𝐷 𝒄𝑡 −1

𝑇

𝑡=1

𝑇

log 1 − 𝐷 ො𝒄𝑡

合成音声を合成音声と識別させる

自然音声を自然音声と識別させる

/14

Anti-spoofing と敵対する音響モデル学習

6

⋯⋯⋯⋯

⋯⋯⋯⋯

⋯ ⋯Linguisticfeats.

Parameter generation

𝐿G 𝒄, ො𝒄

𝐿D,1 ො𝒄Feature function 1: natural

𝜔D: 重み, 𝐸𝐿G , 𝐸𝐿D : 𝐿G 𝒄, ො𝒄 , 𝐿D,1 ො𝒄 の期待値

合成音声を自然音声と識別させる

𝐿 𝒄, ො𝒄 = 𝐿G 𝒄, ො𝒄 + 𝜔D

𝐸𝐿G𝐸𝐿D

𝐿D,1 ො𝒄 → Minimize

⋯

ො𝒄 𝒄

Generatedspeech params.

Naturalspeech

params.

/147

自然音声パラメータの分布に近づくような合成音声パラメータの生成

合成音声パラメータの分布が拡大→ 過剰な平滑化の緩和！

20th mel-cepstral coefficient

23

rd m

el-

ce

pst

ral

co

eff

icie

nt

Natural MGE Proposed

/14

素性関数 𝝓 ⋅ の設計を通じた特徴量の補償

• 音声合成や Anti-spoofing において既知の解析的特徴量

• DNNにより自動設計された特徴量

提案手法における学習手順

• 敵対的学習 [Goodfellow et al., 2014.] と,

• 識別器を含むマルチタスク学習 [Huang et al., 2015.] の組合せ

• DNNに基づく敵対的学習 → 複雑な分布を利用可能

学習は全て backpropagation で完結

• LSTMなどの任意のDNNアーキテクチャを利用可能

8

提案手法の特徴

/149

実験的評価

/14

実験条件

データセット ATR 音素バランス503文 (16 kHz サンプリング)

学習 / 評価データ A－I セット 450文 / Jセット 53文

音声パラメータ 25次元のメルケプストラム, 𝐹0, 5帯域の非周期成分

コンテキストラベル 274次元 (音素, モーラ位置, アクセント型など)

前処理 Trajectory smoothing [Takamichi et al., 2015.]

予測パラメータメルケプストラム(𝐹0, 非周期成分, 継続長は自然音声の特徴量を利用)

最適化アルゴリズム AdaGrad [Duchi et al., 2011.] (学習率 0.01)

音響モデル Feed-Forward 274 – 3x400 (ReLU) – 75 (linear)

Anti-spoofing Feed-Forward 25 – 2x200 (ReLU) – 1 (sigmoid)

10

/14

提案手法の初期化・学習および客観評価

11

初期化

• 音響モデル: MGE学習

• Anti-spoofing: 自然音声とMGE学習後の合成音声を識別

学習 (𝜔D = 0.5 とする)

• 音響モデル: Anti-spoofing に敵対する学習

• Anti-spoofing: 自然音声と当該学習時点での合成音声を識別

客観評価指標

• パラメータの生成誤差

• Anti-spoofing における詐称率

• 詐称率: 合成音声を自然音声と誤識別した割合

• この際に用いる Anti-spoofing はMGE学習後の合成音声を用いて構築

/14

客観評価結果

12

生成誤差は悪化したが, 詐称率は大幅に改善

悪化MGE

Proposed

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

生成誤差

改善MGE

Proposed

0.0 0.2 0.4 0.6 1.00.8

< 0.001

詐称率

/14

音質に関する主観評価結果

プリファレンススコア (評価者数8名)

13

提案手法による音質の改善を確認

*エラーバーは 95% 信頼区間

MGE

Proposed

0.0 0.2 0.4 0.6 1.00.8

改善

エラーバーは95%信頼区間

/14

まとめ

目的: 統計的パラメトリック音声合成の音質改善

提案手法: Anti-spoofing を考慮したDNN音声合成

• 自然 / 合成音声パラメータの分布の違いを補償

• 従来のMGE学習と比較して音質改善を確認

今後の検討事項

• ハイパーパラメータ 𝜔D の設定

• Anti-spoofing において有効な特徴量の利用

14

Technology

DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム