ベイズ基準による隠れセミマルコフモデルに基づく音声合
成
◎橋本 佳,南角吉彦,徳田恵一 (名工大)
2
はじめに( 1/2 ) ML 基準による HMM 音声合成
モデルパラメータを点推定⇒ 学習データが不十分な場合に過学習
MDL 基準によるモデル構造選択⇒ 学習データ少量時に推定精度低下
ベイズ基準による HMM 音声合成(南角ら ; ’03 )
モデルパラメータの事後分布を推定 事前情報をモデル学習に利用 データ量を考慮したモデル構造選択
3
はじめに( 2/2 ) HMM 音声合成における状態継続長
学習部 : 継続長を考慮しない 合成部 : 継続長を考慮
⇒ 学習・合成間のモデルの不一致
HSMM に基づく音声合成( Zen et al.; ’04 ) 継続長分布を持つモデル 学習・合成間のモデルの不一致を解決 ML 基準によるモデル学習・音声合成
ベイズ基準による HSMM に基づく音声合成
4
隠れマルコフモデル( HMM )
1 1 1 1 2 2 3 3
:
:
観測系列
状態系列
1 2 3
5
隠れセミマルコフモデル( HSMM )
状態継続長を考慮したモデル
1 1 1 1 2 2 3 3
:観測系列
1 2 3
継続長分布
状態系列 :
尤度関数
尤度関数の比較
6
HSMM
: 状態系列: 観測系列
HSMM では状態遷移確率が継続長分布によって算出
HMM
: モデルパラメータ
HMM 音声合成
7
学習データ
コンテキスト依存 HMM 継続長モデル
テキスト
励振源生成 合成フィルタ
音声パラメータ生成
合成音声
メルケプストラム分析基本周波数抽出
HMM の学習
学習部
合成部
ラベル
ラベル
HSMM 音声合成
8
学習データ
コンテキスト依存 HSMM
テキスト
励振源生成 合成フィルタ
音声パラメータ生成
合成音声
メルケプストラム分析基本周波数抽出
HSMM の学習
学習部
合成部
ラベル
ラベル
モデル学習基準・音声合成基準
ベイズ基準による音声合成( 1/2)
9
ML 基準
ベイズ基準
: モデルパラメータ
: 合成文のラベル列: 学習文のラベル列: 学習データ
: 合成音声パラメータ系列
ベイズ基準による音声合成( 2/2)ベイズ基準における予測分布(周辺尤度関数)
10
: 合成データの状態遷移を表す隠れ変数
変分ベイズ法による近似( Attias; ’99 )
: 学習データの状態遷移を表す隠れ変数: 合成データの尤度関数: 学習データの尤度関数
: モデルパラメータの事前分布
対数周辺尤度の下限 を定義
変分ベイズ法( 1/2 )
11
: に関する期待値
下限の最大化による対数周辺尤度の近似⇒ を最大化する近似事後分布を推定
( Jensen の不等式)
: 近似事後分布
近似事後分布の独立性を仮定
変分法による事後分布推定
変分ベイズ法( 2/2 )
12
: 正規化項
交互に更新することで を最大化
Generalized Forward-Backward Algorithm
HSMM の尤度計算
13
Backward
ベイズ基準ではモデルパラメータの期待値を使用
Forward
音声パラメータ生成 音声パラメータ
静的特徴量と動的特徴量によって表現
⇒ 合成部では静的特徴量のみ推定 ベイズ基準による合成音声パラメータ生成
下限 は対数周辺尤度を近似 ⇒ を最大化する音声パラメータを推定
14
15
実験条件( 1/2 )
データベース ATR 日本語音声データベース b-set
話者 MHT学習データ 450 文テストデータ 53 文サンプリング周波数 16 kHz窓関数 Blackman 窓フレームサイズ / シフト 25 ms / 5 ms
特徴量
24 次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ(78 次元 )
16
実験条件( 2/2 ) 比較手法
HSMM と HMM の比較 ベイズ基準によるモデル学習・音声合成 クロスバリデーションを用いたベイズ基準によ
るモデル構造選択(橋本ら ; ’08 )
主観評価実験 被験者 10 人 被験者ごとにランダムに 20 文選択
対比較実験
主観評価実験
17
合成音声の品質を改善
18
むすび ベイズ基準による HSMM に基づく音声合成
ベイズ基準による HSMM の学習 学習・合成間のモデルの不一致を解決 合成音声の品質改善
今後の課題 ML 基準による HSMM 音声合成との比較