ベイズ基準による隠れセミマルコフモデルに基づく音声合成

ベイズ基準による隠れセミマルコフモデルに基づく音声合

成

◎橋本佳，南角吉彦，徳田恵一（名工大）

2

はじめに（ 1/2 ） ML 基準による HMM 音声合成

モデルパラメータを点推定⇒ 学習データが不十分な場合に過学習

MDL 基準によるモデル構造選択⇒ 学習データ少量時に推定精度低下

ベイズ基準による HMM 音声合成（南角ら ; ’03 ）

モデルパラメータの事後分布を推定事前情報をモデル学習に利用データ量を考慮したモデル構造選択

3

はじめに（ 2/2 ） HMM 音声合成における状態継続長

学習部 : 継続長を考慮しない合成部 : 継続長を考慮

⇒ 学習・合成間のモデルの不一致

HSMM に基づく音声合成（ Zen et al.; ’04 ）継続長分布を持つモデル学習・合成間のモデルの不一致を解決 ML 基準によるモデル学習・音声合成

ベイズ基準による HSMM に基づく音声合成

4

隠れマルコフモデル（ HMM ）

1 1 1 1 2 2 3 3

:

:

観測系列

状態系列

1 2 3

5

隠れセミマルコフモデル（ HSMM ）

状態継続長を考慮したモデル

1 1 1 1 2 2 3 3

:観測系列

1 2 3

継続長分布

状態系列 :

尤度関数

尤度関数の比較

6

HSMM

: 状態系列: 観測系列

HSMM では状態遷移確率が継続長分布によって算出

HMM

: モデルパラメータ

HMM 音声合成

7

学習データ

コンテキスト依存 HMM 継続長モデル

テキスト

励振源生成合成フィルタ

音声パラメータ生成

合成音声

メルケプストラム分析基本周波数抽出

HMM の学習

学習部

合成部

ラベル

ラベル

HSMM 音声合成

8

学習データ

コンテキスト依存 HSMM

テキスト

励振源生成合成フィルタ

音声パラメータ生成

合成音声

メルケプストラム分析基本周波数抽出

HSMM の学習

学習部

合成部

ラベル

ラベル

モデル学習基準・音声合成基準

ベイズ基準による音声合成（ 1/2）

9

ML 基準

ベイズ基準

: モデルパラメータ

: 合成文のラベル列: 学習文のラベル列: 学習データ

: 合成音声パラメータ系列

ベイズ基準による音声合成（ 2/2）ベイズ基準における予測分布（周辺尤度関数）

10

: 合成データの状態遷移を表す隠れ変数

変分ベイズ法による近似（ Attias; ’99 ）

: 学習データの状態遷移を表す隠れ変数: 合成データの尤度関数: 学習データの尤度関数

: モデルパラメータの事前分布

対数周辺尤度の下限を定義

変分ベイズ法（ 1/2 ）

11

　

：に関する期待値

下限の最大化による対数周辺尤度の近似⇒ を最大化する近似事後分布を推定

（ Jensen の不等式）

: 近似事後分布

近似事後分布の独立性を仮定

変分法による事後分布推定

　

変分ベイズ法（ 2/2 ）

12

　

: 正規化項

交互に更新することでを最大化

Generalized Forward-Backward Algorithm

HSMM の尤度計算

13

Backward

ベイズ基準ではモデルパラメータの期待値を使用

Forward

音声パラメータ生成音声パラメータ

静的特徴量と動的特徴量によって表現

⇒ 合成部では静的特徴量のみ推定ベイズ基準による合成音声パラメータ生成

下限は対数周辺尤度を近似 ⇒ を最大化する音声パラメータを推定

14

　

　

15

実験条件（ 1/2 ）

データベース ATR 日本語音声データベース b-set

話者 MHT学習データ 450 文テストデータ 53 文サンプリング周波数 16 kHz窓関数 Blackman 窓フレームサイズ / シフト 25 ms / 5 ms

特徴量

24 次メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ(78 次元 )

16

実験条件（ 2/2 ）比較手法

HSMM と HMM の比較ベイズ基準によるモデル学習・音声合成クロスバリデーションを用いたベイズ基準によ

るモデル構造選択（橋本ら ; ’08 ）

主観評価実験被験者 10 人被験者ごとにランダムに 20 文選択

対比較実験

主観評価実験

17

合成音声の品質を改善

18

むすびベイズ基準による HSMM に基づく音声合成

ベイズ基準による HSMM の学習学習・合成間のモデルの不一致を解決合成音声の品質改善

今後の課題 ML 基準による HSMM 音声合成との比較

Documents

ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

ベイズ基準による隠れセミマルコフモデルに基づく音声合成