18
ベベベベベベベベ ベベベベベベベベベベベベベベベベベベベ ◎ ベベ ベ ベベベベ ベベベ ベ ベベベベ ,,一 (

ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

  • Upload
    saddam

  • View
    213

  • Download
    7

Embed Size (px)

DESCRIPTION

ベイズ基準による 隠れセミマルコフモデルに基づく音声合成. ◎ 橋本 佳,南角吉彦,徳田恵一 (名工大). はじめに( 1/2 ). ML 基準による HMM 音声合成 モデルパラメータを点推定 ⇒ 学習データが不十分な場合に過学習 MDL 基準によるモデル構造選択 ⇒ 学習データ少量時に推定精度低下 ベイズ基準による HMM 音声合成 (南角ら ; ’03 ) モデルパラメータの事後分布を推定 事前情報をモデル学習に利用 データ量を考慮したモデル構造選択. はじめに( 2/2 ). HMM 音声合成における状態継続長 学習部 : 継続長を考慮しない - PowerPoint PPT Presentation

Citation preview

Page 1: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

ベイズ基準による隠れセミマルコフモデルに基づく音声合

◎橋本 佳,南角吉彦,徳田恵一 (名工大)

Page 2: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

2

はじめに( 1/2 ) ML 基準による HMM 音声合成

モデルパラメータを点推定⇒ 学習データが不十分な場合に過学習

MDL 基準によるモデル構造選択⇒ 学習データ少量時に推定精度低下

ベイズ基準による HMM 音声合成(南角ら ; ’03 )

モデルパラメータの事後分布を推定 事前情報をモデル学習に利用 データ量を考慮したモデル構造選択

Page 3: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

3

はじめに( 2/2 ) HMM 音声合成における状態継続長

学習部 : 継続長を考慮しない 合成部 : 継続長を考慮

⇒ 学習・合成間のモデルの不一致

HSMM に基づく音声合成( Zen et al.; ’04 ) 継続長分布を持つモデル 学習・合成間のモデルの不一致を解決 ML 基準によるモデル学習・音声合成

ベイズ基準による HSMM に基づく音声合成

Page 4: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

4

隠れマルコフモデル( HMM )

1 1 1 1 2 2 3 3

:

:

観測系列

状態系列

1 2 3

Page 5: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

5

隠れセミマルコフモデル( HSMM )

状態継続長を考慮したモデル

1 1 1 1 2 2 3 3

:観測系列

1 2 3

継続長分布

状態系列 :

Page 6: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

尤度関数

尤度関数の比較

6

HSMM

: 状態系列: 観測系列

HSMM では状態遷移確率が継続長分布によって算出

HMM

: モデルパラメータ

Page 7: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

HMM 音声合成

7

学習データ

コンテキスト依存 HMM 継続長モデル

テキスト

励振源生成 合成フィルタ

音声パラメータ生成

合成音声

メルケプストラム分析基本周波数抽出

HMM の学習

学習部

合成部

ラベル

ラベル

Page 8: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

HSMM 音声合成

8

学習データ

コンテキスト依存 HSMM

テキスト

励振源生成 合成フィルタ

音声パラメータ生成

合成音声

メルケプストラム分析基本周波数抽出

HSMM の学習

学習部

合成部

ラベル

ラベル

Page 9: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

モデル学習基準・音声合成基準

ベイズ基準による音声合成( 1/2)

9

ML 基準

ベイズ基準

: モデルパラメータ

: 合成文のラベル列: 学習文のラベル列: 学習データ

: 合成音声パラメータ系列

Page 10: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

ベイズ基準による音声合成( 2/2)ベイズ基準における予測分布(周辺尤度関数)

10

: 合成データの状態遷移を表す隠れ変数

変分ベイズ法による近似( Attias; ’99 )

: 学習データの状態遷移を表す隠れ変数: 合成データの尤度関数: 学習データの尤度関数

: モデルパラメータの事前分布

Page 11: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

対数周辺尤度の下限 を定義

変分ベイズ法( 1/2 )

11

 

: に関する期待値

下限の最大化による対数周辺尤度の近似⇒ を最大化する近似事後分布を推定

( Jensen の不等式)

: 近似事後分布

Page 12: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

近似事後分布の独立性を仮定

変分法による事後分布推定

 

変分ベイズ法( 2/2 )

12

 

: 正規化項

交互に更新することで を最大化

Page 13: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

Generalized Forward-Backward Algorithm

HSMM の尤度計算

13

Backward

ベイズ基準ではモデルパラメータの期待値を使用

Forward

Page 14: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

音声パラメータ生成 音声パラメータ

静的特徴量と動的特徴量によって表現

⇒ 合成部では静的特徴量のみ推定 ベイズ基準による合成音声パラメータ生成

下限 は対数周辺尤度を近似 ⇒ を最大化する音声パラメータを推定

14

 

 

Page 15: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

15

実験条件( 1/2 )

データベース ATR 日本語音声データベース b-set

話者 MHT学習データ 450 文テストデータ 53 文サンプリング周波数 16 kHz窓関数 Blackman 窓フレームサイズ / シフト 25 ms / 5 ms

特徴量

24 次 メルケプストラム + Δ + ΔΔ 対数基本周波数 + Δ + ΔΔ(78 次元 )

Page 16: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

16

実験条件( 2/2 ) 比較手法

HSMM と HMM の比較 ベイズ基準によるモデル学習・音声合成 クロスバリデーションを用いたベイズ基準によ

るモデル構造選択(橋本ら ; ’08 )

主観評価実験 被験者 10 人 被験者ごとにランダムに 20 文選択

Page 17: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

対比較実験

主観評価実験

17

合成音声の品質を改善

Page 18: ベイズ基準による 隠れセミマルコフモデルに基づく音声合成

18

むすび ベイズ基準による HSMM に基づく音声合成

ベイズ基準による HSMM の学習 学習・合成間のモデルの不一致を解決 合成音声の品質改善

今後の課題 ML 基準による HSMM 音声合成との比較