69
Average-Voice-Based Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻 小林隆夫研究室 2006年1月 論文発表会

Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

Embed Size (px)

Citation preview

Page 1: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

Average-Voice-Based Speech Synthesis 平均声に基づく音声合成

山岸 順一 

東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻 小林隆夫研究室

  2006年1月論文発表会

Page 2: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

本論文の構成

第1章 イントロダクション第2章 隠れマルコフモデル(HMM)第3章 HMMに基づく音声合成第4章 共有決定木コンテキストクラスタリング第5章 話者適応学習第6章 隠れセミマルコフモデルに基づく    最尤線形回帰と話者適応学習第7章 隠れセミマルコフモデルに基づく    話者適応アルゴリズムとMAP Modification第8章 スタイルモデリング第9章 まとめ

Page 3: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

本日の発表内容

研究の背景と目的

HMMに基づく音声合成

共有決定木コンテキストクラスタリング

話者適応学習

隠れセミマルコフモデルに基づく最尤線形回帰と話者適応学習

まとめと今後の展望

Page 4: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

研究背景

録音編集方式 … 特定の発話内容の目的地や数字だけを入れ替える 例:駅の案内、高速道路の渋滞情報、カーナビ

現在のテキスト音声合成システム (コーパスベース方式)

 ⇒ 品質は良いが、特定の文章のみ

テキスト音声合成方式 … 任意のテキストを読み上げるシステム 例:メール読み上げソフト、対話エージェントシステム、カーナビ

現在の音声合成システム

波形接続方式 … 音声を波形のレベルで処理し、単純に接続し合成HMMに基づく音声合成方式 … 音声の特徴量を統計的に処理し、               フィルタで合成

Page 5: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

研究背景2

波形接続合成方式・音声素片を接続し、音声を合成・大量の音声コーパスが必要 (数時間~数十時間) ・高音質、自然性が高い

問題点・話者が限定。通常は1~数話者程度。・発話スタイル(感情)が限定。通常はニュース風の読み上げ。 (話者や発話スタイルを増やすためにはそのコーパスが更に必要。 音声コーパスの作成は高コストを要する。)

Page 6: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

研究背景3

HMMに基づく音声合成方式・音声の特徴量をHMMにより統計的にモデル化&合成 特徴量:メルケプストラム(声質、音韻、声の大きさ)     基本周波数  (声の高さ、アクセント、抑揚)     音韻継続長   (声のリズム・テンポ)・MLSA(Mel Log Spectral Approximation)フィルタで波形生成

メリット・コンパクトかつ非常に高速・安定感・モデルパラメータを適切に変換すれば、 合成音声の声質・韻律特徴を変換可能

デメリット・ボコーダ音 (buzzy)

Page 7: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

研究目的

平均声に基づく音声合成話者を所望の話者に容易に変換できる音声合成システム

HMM音声合成 + 平均声モデル作成のための話者正規化技術 + 平均声モデルを目標話者のごく少量の音声データをもとに   目標話者へ変換する話者適応技術

Page 8: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

従来手法従来の平均声に基づく音声合成 [田村ら ‘02]

・音韻継続長が極めて不自然  → 音韻継続長の厳密な変換が必要・基本周波数やスペクトルに不自然な箇所が存在  → 初期モデルの話者正規化が必要・品質が良くない   → 適応アルゴリズムの改善が必要

Page 9: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

研究対象と研究成果

パラメータ共有 共有決定木コンテキスト クラスタリング(STC)

話者正規化技術スペクトル・F0・継続長の同時話者適応 隠れセミマルコフモデル(HSMM)に 基づく話者適応

話者適応の高精度化 構造的事後確立最大線形回帰 (SMAPLR) MAP Modification

話者適応技術

パラメータ推定 話者適応学習(SAT)

Page 10: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

共有決定木コンテキストクラスタリング

(STCアルゴリズム)

話者適応に適した平均声モデルを作成するための話者正規化クラスタリング手法

Page 11: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

HMM

隠れマルコフモデル(HMM)

1 2 3

11 22 33

12 23

:遷移確率

1 U , 1 2 U , 2 3 U , 3

b1(ot) b2(ot) b3(ot)

b (ot):出力確率

モデルパラメータ:遷移確率         出力確率密度関数(出力分布)

Page 12: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

HMM音声合成システムの学習部

メルケプストラム部 : 正規分布対数基本周波数/logF0部: 多空間上の正規分布 [益子ら ‘00]

当該および前後の音韻環境(コンテキスト)を考慮したコンテキスト依存HMMを学習

. . .

Speech Analysis

MULTI-SPEAKER SPEECH DATABASE

Context Dependent HMMs(Average Voice Model)

Mel-Cepstrum, logF0

Training

/context1/ /context2/

Page 13: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

学習時におけるコンテキストの利用

(a-i+u)-(3_2)-([3_x_x]-[5_1_1]+[6_x_x])-([5_3_0]-[3_1_10]+[8_1_1])-(20-[10_21]+15)-(50)

音素 モーラ 形態素 アクセント句 呼気段落 文長先行 当該

先行   当該   後続  先行    当該    後続

アクセント型とモ|ラ位置の差

アクセント句内でのモ|ラ位置

品詞活用型

活用形

品詞活用型

活用形

品詞活用型

活用形

長さアクセント型

ポ|ズの有無

長さアクセント型

ポ|ズの有無

長さアクセント型

アクセント句の位置

先行 当該  後続

長さ

長さ

長さ

呼気段落のモ|ラ位置

長さ

後続

コンテキスト依存ラベルの例

当該および前後の様々な音韻環境を考慮したHMMの説明変数

各コンテキスト毎にHMMを学習 (コンテキスト依存HMM)

コンテキスト:

Page 14: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

HMM音声合成システムの適応部

スペクトル・基本周波数の同時話者適応

Adapted Model

/a/ /i/Speaker Adaptation ADAPTATION DATA

Average Voice Model

HMMの出力分布のパラメータを目標話者の適応データをもとに変換

Page 15: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

HMM音声合成システムの合成部

最尤基準に基づくパラメータ生成 [益子ら ‘96]

PARAMETER GENERATION

c1c2

SYNTHESIZED SPEECH

Sentence HMM

Mel-Cepstrum

TEXT

MLSA Filter

Adapted Model

p1p2

F0

Excitation

Page 16: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

合成時におけるコンテキストの利用

(a-i+u)-(3_2)-([3_x_x]-[5_1_1]+[6_x_x])-([5_3_0]-[3_1_10]+[8_1_1])-(20-[10_21]+15)-(50)

音素 モーラ 形態素 アクセント句 呼気段落 文長先行 当該

先行   当該   後続  先行    当該    後続

アクセント型とモ|ラ位置の差

アクセント句内でのモ|ラ位置

品詞活用型

活用形

品詞活用型

活用形

品詞活用型

活用形

長さアクセント型

ポ|ズの有無

長さアクセント型

ポ|ズの有無

長さアクセント型

アクセント句の位置

先行 当該  後続

長さ

長さ

長さ

呼気段落のモ|ラ位置

長さ

後続

コンテキスト依存ラベルの例

入力テキストをコンテキスト依存ラベルに変換し、対応するHMMをもとにパラメータ生成

コンテキストの種類は膨大 (指数的組み合わせ) ・学習データに含まれていないコンテキストも存在 ・データ量が十分ではないコンテキストも存在

Page 17: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

決定木によるクラスタリング

コンテキストの種類は膨大  →決定木を用いた階層的クラスタリングにより   音韻・韻律的に似ているHMMの分布パラメータを共有

F0の決定木

no yes

無声化母音

no yes

no yes

母音

有声音

no yes

後ろからのモーラ位置 =1

no yesno yesno yes

鼻音後続音素が有声音声門音

Page 18: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

決定木の構築法1

記述長 (Description Length)

Clustering

Context Dependent HMMs

Yes No

NoYes

当該音素が有声?

0型アクセント?

・全話者のコンテキストを 決定木によりクラスタリング

・リーフノードの集合 モデル の記述長

ノード に対するデータ量の期待値

ノード における共分散行列ベクトル次元数

・ノードの分割基準 :  MDL (最小記述長) 基準

Page 19: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

決定木の構築法2

y n

y n

・モデル のノード を質問 により 分割したモデル:

リーフノード数

記述長

第1項

第2項

分割停止点

・     ならばノード分割終了

・     ならばノード  を質問 で分割

・分割前後の記述長の差

・ を最小にするノード  と質問 の組を選ぶ

MDL基準に基づいた構築法 [K. Shinoda et al. ‘00]

Page 20: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

決定木によるクラスタリングの問題点

ny

a-b-a

a-a-b

b-a-a

b-b-a

b-a-a話者1

先行がa?先行が a?先行が b?後続が a?

質問リスト話者2

b-a-a

b-a-b

話者1

a-b-a

a-a-b

b-b-a

決定木

学習話者のデータに含まれるコンテキストが話者により大きく異なる場合、一部の話者のデータが欠けたノードが構成されてしまう

Page 21: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

共有決定木コンテキストクラスタリング(STC)

各学習話者のモデルに共通の決定木を構築し、クラスタリングを行う

共有決定木コンテキストクラスタリング

 →全ノードが必ず全学習話者のデータを保持

・記述長を話者毎に計算・全ての話者で分割できる質問のみ採用

質問「先行がa?」は採用しない

分割できないny先行がa?

a-b-a

a-a-b

b-b-a

話者2

b-a-a

b-a-b

ny先行がa?

b-a-a

b-a-b

話者1

a-b-a

a-a-b

b-b-a

(例)

[J. Yamagishi et al. ‘03]

Page 22: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

共有決定木の構築法

Page 23: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

平均声モデルの作成

決定木のノード分割終了後、平均声モデルを作成

ノード  における平均声モデルの平均

       〃        共分散

話者 のノード  データ量の期待値

ノード  における話者依存モデル  の平均

       〃          共分散

y n

y n

Average Voice Model

平均声モデルのガウス分布の平均、共分散を各話者依存モデルから計算

Page 24: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

実験条件

学習データ

サンプリング周波数フレーム周期分析窓

特徴ベクトル

HMM

音素数

ATR日本語音声データベース セットB

16kHz

5ms

25msブラックマン窓

0~24次のメルケプストラム対数基本周波数およびそれぞれのΔ、Δ パラメータ

5状態 left-to-right モデル42音素(無音を含む)

男性話者3名 女声話者3名話者

0.4記述長係数

Page 25: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

学習データ

*各文章セット(A~I)は50文章

学習に用いた文章セット

FKN FKS FYM MHO MHT MYI

A B C D E F

A,B B,C C,D D,E E,F F,G

A~C B~D C~E D~F E~G F~H

女性話者 男性話者文章数50

100

150

200

250

300

A~D B~E C~F D~G E~H F~I

A~E B~F C~G D~H E~I A,F~I

A~F B~G C~H D~I A,E~I A,B,F~I

Page 26: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

クラスタリングの改善結果

一部の話者のデータが欠けているリーフノード数(50文章)

(A):一部の話者のデータが欠けているリーフノード数と割合(B):一人の話者のデータしかないリーフノード数と割合

スペクトルF0

419

1011

37 ( 8%)

505 (50%)

14 ( 3%)

197 (19%)

(A) (B)状態数 状態数 (A) (B)

0 (0%)

0 (0%)

0 (0%)

0 (0%)

548

818

従来法 提案法

Page 27: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

具体例 -生成F0パターン-

「部屋一杯に煙草の濃霧が立ちこめ、ゆるやかに動いている」

提案法従来法

従来法の基本周波数が不自然に高い

Time [s]

Fre

qu

ency [

Hz]

0 1 2 3 4

100

150

200

300

Page 28: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

STCアルゴリズムの主観評価試験

被験者評価音声提示方法評価方法

成人男性13名53文章からランダムに8文章を選択防音室内での両耳受聴(ヘッドホン)

対比較法

従来法との対比較による評価

Page 29: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

主観評価結果

提案法従来法

sente

nce

s per

spea

ker

score[%]

50

100

150

200

250

300

0 20 40 60 80 100

27.2 72.8

17.5 82.5

30.0 70.0

18.3 81.7

17.1 82.9

15.9 84.1

全ての文章数において大きな改善従来法:決定木に基づくコンテキストクラスタリング

Page 30: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

デモンストレーション(平均声)

平均倍率を下げた形跡がある平均倍率を下げた形跡がある発声内容発声内容

部屋一杯に煙草の濃霧が立ちこめ部屋一杯に煙草の濃霧が立ちこめゆるやかに動いているゆるやかに動いている

発声内容発声内容

従来法(各50文章)

提案法(各50文章)

従来法(各50文章)

提案法(各50文章)

Page 31: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

話者適応学習(SATアルゴリズム)

話者適応に適した平均声モデルを作成するための話者正規化学習アルゴリズム

Page 32: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

平均声モデル

平均声モデル

問題点

平均声モデルは標準的な音韻性をモデル化すべき複数の話者の音声データを用いて学習を行った音響モデル

話者間には音響的な差異が存在 (e.g 男性のF0と女性のF0) ✓通常の学習アルゴリズムでは音韻性ではなく、  話者や性別の違いに大きく影響されたモデルが作成

/a/

logF0Speaker 1 Speaker 2

Average Voice

Page 33: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

話者正規化学習

話者間の音響的な差異を正規化しつつ、HMMのモデルパラメータも同時に学習するアルゴリズム

話者正規化学習

話者適応学習 (Speaker Adaptive Training : SAT)最尤線形回帰(MLLR)を利用した話者正規化学習アルゴリズム

/a/

logF0Speaker 1 Speaker 2

Average Voice

出力分布(スペクトル,F0をモデル化)に存在する話者間の音響的差異を正規化するため SATをHMM音声合成システムに導入

[T. Anastasakos et al., ‘96]

[J. Yamagishi et al. ‘03]

Page 34: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

最尤線形回帰(MLLR)アルゴリズム

Average Voice

Speaker AAco

ustic S

pa

ce

Dim

en

sio

n 2

Acoustic Space Dimension 1

2

1

W

平均ベクトルの適応

m : 分布 の平均ベクトルm

: 回帰行列

HMMに基づくMLLRアルゴリズム [C.J. Leggetter et al., ‘96]

平均声モデルの出力分布の平均ベクトルをアフィン変換し、目標話者のモデルを実現

Page 35: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

話者適応学習(SAT)アルゴリズム

平均声モデルから各学習話者への変換行列をMLLRにより求める

HMMに基づくMLLRを利用 出力分布の変換行列   を推定W i

MLLRの変換行列が正規化すべき話者間の音響的差異を表すと仮定しHMMのモデルパラメータ      を学習

このステップの繰り返し

HMMに基づくSAT:フロー

Speaker 1 Speaker 2

Speaker 3

Average Voice Model

学習話者の標準的な特徴を持つ平均声モデルを想定

Page 36: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

話者適応学習の考察

話者に起因する特徴はすべて正規化されるのか?

→ No!  線形回帰で表せる特徴のみが正規化される。  話者性(話者に起因する特徴)が非線形ならば残る

→ 他の正規化手法と併用が望ましい。  STCと併用

話者性のみが正規化されるのか?

→ No!  線形回帰で表せる特徴はすべて正規化される。   × 音韻性も含まれた状態で正規化が行われる可能性。   ○ 録音環境の違いが線形ならば、それの正規化にも利用可

Page 37: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

SATとSTCによる平均声モデル学習

決定木に基づくコンテキストクラスタリング

Average Voice Model

パラメータ再推定

Tied Context Dependent Model (SI)

Context Dependent Model (SI)

Average Voice Model

話者適応学習

Tied Context Dependent Model (SI)

Context Dependent Models (SD)

共有決定木コンテキストクラスタリング

従来法 提案法

SD : 特定話者モデル (学習話者毎)SI : 不特定話者モデル

Page 38: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

SATとSTCの評価実験

話者適応後の音声の自然性の評価

Speaker Dependent Model

Speaker Adapted Model

男女各3名各話者異なる150 文章で学習

目標話者 男性 MMY 女性 FTK

450 文章で学習

目標話者 男性 MMY

女性 FTK

10 文章で適応

* 目標話者は学習話者に含まれていない

Average Voice Model

(NONE、SAT、STC、STC+SAT)

Page 39: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

SATとSTCの評価実験2

5段階の評価目標話者の分析合成音を基準に各音声の話者性を以下のように判定

5 : 非常によく似ている 4 : 3 : 2 :  1 :  似ていない

成人男性7名

5段階の評価

被験者評価音声提示方法評価方法

53文章からランダムに8文章を選択防音室内での両耳受聴(ヘッドホン)

Page 40: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

SATとSTCの評価結果2

SD : 目標話者モデル

男性 MMY

1 2 3 4 5

NONE

SAT

STC

STC+SAT

SD

Score

2.33

2.66

2.95

3.43

3.84

女性 FTK1 2 3 4 5

NONE

SAT

STC

STC+SAT

SD 4.02

3.52

3.01

2.79

2.65

Page 41: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

デモンストレーション (男性MMY)

目標話者モデル (SD)

「切符を買うのは自動販売機からである」

従来法によるモデル (NONE)

STCのみを適用したモデル (STC)

STCとSATを併用したモデル (STC+SAT)

SATのみを適用したモデル (SAT)

分析合成音

Page 42: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

HSMMに基づく 話者適応アルゴリズム

隠れセミマルコフモデルに基づくスペクトル・F0・音韻継続長の

同時適応アルゴリズム

Page 43: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

HMM

隠れマルコフモデル(HMM)

1 2 3

11 22 33

12 23

:遷移確率

1 U , 1 2 U , 2 3 U , 3

b1(ot) b2(ot) b3(ot)

b (ot):出力確率

モデルパラメータ:遷移確率         出力確率密度関数(出力分布)

Page 44: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

Hidden Semi-Markov Model

・状態継続長分布を明示的に含んでいない隠れマルコフモデル(HMM)

 →遷移確率やトレリスから計算可能。しかし近似精度は悪い

隠れセミマルコフモデル(HSMM) [J.D. Ferguson ‘80, S.E. Levinson ‘86]

・状態継続長分布を明示的に含んだHMM →状態継続長分布をより厳密にモデル化可能

モデルパラメータ:出力確率密度関数(出力分布)         状態継続長確率密度関数(継続長分布)

1 2 3

p (d1

) p (d2

) p (d3

)

b1(ot) b2(ot) b3(ot)

p (di ):状態継続長確率b (ot)i :出力確率

・通常のHMMと同様にモデル化可能

Page 45: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

HSMMによるモデル化

… 観測系列       が与えられたもとで 時刻     から に状態 に滞在する確率

出力分布   :状態継続長分布:

HSMMの状態

emit継続長分布

HSMM 状態

d

12

3

12

3

12

3

出力分布

Page 46: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

EMアルゴリズムによる再推定

出力分布の再推定式

状態継続長分布の再推定式

尤度関数

:状態数

Page 47: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

HSMMに基づく最尤線形回帰 [J. Yamagishi et. al. ‘04]

出力分布の線形回帰

状態継続長分布の線形回帰

例:出力分布の線形回帰

Average Voice Model

Speaker AAco

ustic S

pace D

imensio

n 2

Acoustic Space Dimension 1

HSMMの状態出力分布   :状態継続長分布:

:出力分布の回帰行列W

:継続長分布の回帰行列X

Page 48: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

EMアルゴリズムによる再推定

回帰行列の再推定式

HSMMに基づいたMLLR [J. Yamagishi et. al. ‘04]

(共有する分布の数:R)

Page 49: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

決定木を利用した区分線形回帰

Target Speaker’s Model

Average Voice Model

Threshold

平均声モデルの分布を決定木をもとにいくつかのクラスタにわけ、区分線形回帰により適応

Page 50: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

隠れセミマルコフモデルに基づく適応学習

出力分布および状態継続長分布(音韻継続長をモデル化)を同時に正規化するように適応学習アルゴリズムを拡張

音韻継続長にも話者間の差異は存在

HSMMの出力分布・継続長分布を同時にアフィン変換するHSMMの最尤線形回帰(MLLR)アルゴリズムを利用

1 2 3

p (d1

) p (d2

) p (d3

)

b1(ot) b2(ot) b3(ot)

p (di ):状態継続長確率b (ot)i :出力確率

HSMMの適応学習

HMMの出力分布(スペクトル,F0をモデル化)に対してのみ適用可能

従来の話者適応学習 (SAT)

[J. Yamagishi et. al. ‘05]

Page 51: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

HSMMに基づく適応学習 [J. Yamagishi et. al. ‘05]

Speaker 1 Speaker 2

Speaker 3

Average Voice Model

W W

W

X1 X2

X3

学習話者の標準的な特徴を持つ平均声モデルを想定

平均声モデルから各学習話者への変換行列をMLLRにより求める

HSMMに基づくMLLRを利用 出力・継続長分布の変換行列   ・  を推定W i X i

MLLRの変換行列が正規化すべき話者間の音響的差異を表すと仮定しHSMMのモデルパラメータ         を学習

このステップの繰り返し

出力分布(スペクトル,F0をモデル化)かつ状態継続長分布(音韻継続長をモデル化)の話者間の音響的差異を同時正規化

Page 52: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

実験条件

話者適応

平均声モデル  性別依存モデル  男性:5 名 女性:4名 各話者450文章目標話者  男性話者 MTK & 女性話者FTK

特徴ベクトル0~24次メルケプストラム対数基本周波数Δ, Δ2パラメータ

HSMM

コンテキスト依存モデル5状態,left-to-rightモデル, SAT+STC単一ガウス分布,対角共分散行列最大継続長値 :各状態の平均+3(標準偏差)

Page 53: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

話者の分布

男性話者MTKと女性話者FTKを目標話者と設定それ以外の話者を平均声モデル学習用の話者と設定

4.0 4.5 5.0 5.5 6.07.0

7.5

8.0

8.5

9.0

Average logarithm of F0

Avera

ge m

ora

/sec

MHO

MHT

MMYMSH

MTK

MYI

FKN

FKS

FTK

FTY

FYM

Page 54: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

HSMMに基づくSATの効果

全特徴を同時正規化した場合が尤度がもっとも高い→ 正規化が適切に行われている

69

70

71

72

73A

ve

rag

e lo

g-L

ike

liho

od

pe

r fr

am

e

50 100 150 200 250 300 350 400 450

Number of Sentences

0

Both

Output

Duration

None

目標話者の適応データの尤度

Page 55: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

平均声と話者適応後の音声の分布

目標話者と似た平均値(対数基本周波数&mora/sec)になっていることが確認できる

4.0 4.5 5.0 5.5 6.07.0

7.5

8.0

8.5

9.0

Average Voice (Male Speakers)

MTK

MTK(MLLR) FTK

Average logarithm of F0

Ave

rag

e m

ora

/se

c

Average Voice (Female Speakers)

FTK(MLLR)

Page 56: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

客観評価 特定話者方式との比較

対数基本周波数のRMSER

MS

E o

f lo

gF

0 [cent]

200

250

300

350

400

0 50 100 150 200 250 300 350 400 450Number of Sentences

SD

MLLR

Average Voice

Page 57: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

客観評価 特定話者方式との比較

メルケプストラム距離

Average Voice

Me

l-ce

pstr

um

Dis

tan

ce

[d

B]

0 50 100 150 200 250 300 350 400 450Number of Sentences

4

5

6

7

SD

MLLR

8

Page 58: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

客観評価 特定話者方式との比較

音素継続長のRMSER

MS

E o

f V

ow

el D

ura

tion [fr

am

e]

4

5

6

7

8

9

10

11

0 50 100 150 200 250 300 350 400 450Number of Sentences

SD

MLLR

Average Voice

Page 59: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

主観評価試験1 各特徴量の変換の効果

被験者 成人男性8名

評価音声 53文章からランダムに5文章を選択

提示方法 防音室内での両耳受聴

評価方法

CCRテスト目標話者の分析合成音声と比較し、合成音声の話者性を以下の5段階で判定

      「5:非常に良く似ている」      「4:似ている」      「3:違いはあるが似ている」      「2:似ていない」      「1:全く似ていない」

Page 60: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

主観評価結果1 各特徴量の変換の効果

Spectrum

F0

Duration

Adaptation

1

2

3

4

5

1.6

2.5

1.5 1.6

3.3

2.6

1.5

3.6

2.9

SD

Average Voice

SD

SD

よく似ている

全く似ていない

Page 61: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

主観評価試験2

話者適応後の音声の類似度の評価

被験者 8名

評価音声 53文章からランダムに4文章を選択

提示方法 防音室内での両耳受聴

評価方法 ABX法(自然性が高い方を選択)

Page 62: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

主観評価試験2 各特徴量の変換の効果

0 10 20 30 40 50 60 70 80 90 100

Spectrum

Spectrum+F0

Spectrum+F0

+Duration

Score (%)

スペクトル・F0・音韻継続長の同時変換が重要であることが確認できる

Page 63: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

デモンスレーション(男性話者MTK)

Spectrum

F0

Duration

Adaptation

1

2

3

4

5

1.6

2.5

1.5 1.6

3.3

2.6

1.5

3.6

2.9

SD

Average Voice

SD

SD

分析合成音声

Page 64: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

デモンストレーション:様々な話者の音声

男性話者MHT

男性話者MYI

デモンストレーション:様々な話者の合成音声                 (適応データ:50文章)

① ②

① ②

男性話者MMI

女性話者FTK

Page 65: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

まとめ

まとめ話者を所望の話者に容易に変換できる音声合成システムの実現を目指し、 平均声を用いた音声合成方式を検討

平均声に用いた音声合成: HMM音声合成  + 平均声モデル作成のための話者正規化技術  + 平均声モデルを目標話者のごく少量の音声データをもとに    目標話者へ変換する話者適応技術

パラメータ共有 共有決定木コンテキストクラスタリング(STC)

話者正規化技術

パラメータ推定 話者適応学習(SAT)

Page 66: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

まとめ(続き)

まとめ(つづき)

合成音声の品質は特定話者方式とほぼ同等

スペクトル・F0・継続長の同時話者適応 隠れセミマルコフモデル(HSMM)に基づく話者適応

話者適応の高精度化 構造的事後確立最大線形回帰 (SMAPLR) MAP Modification

話者適応技術

スペクトル・F0・音韻継続長の同時適応は重要話者正規化技術は音声合成の品質を大きく改善

Page 67: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

今後の課題

今後の課題

合成音声の品質の向上

音声合成のパーソナライゼーション話し言葉や方言への対応

オンライン学習

Page 68: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

本発表に関する論文リスト

ジャーナル論文1. J. Yamagishi and T. Kobayashi, “Simultaneous Speaker Adaptation Algorithm of Spectrum, Fundamental Frequency and Duration for HMM-based Speech Synthesis,” IEICE Trans. Information and Systems. (in preparation)

2. J. Yamagishi, Y. Nakano, K. Ogata, J. Isogai, and T. Kobayashi, “A Unified Speech Synthesis Method Using HSMM-Based Speaker Adaptation and MAP Modification”, IEICE Trans. Information and Systems. (in preparation)

3. J. Yamagishi, K. Onishi, T. Masuko, and T. Kobayashi, “Acoustic Modeling of Speaking Styles and Emotional Expressions in HMM-based Speech Synthesis,” IEICE Trans. Information and Systems, E88-D, vol.3, pp.503–509, March 2005.

4. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Training Method of Average Voice Model for HMM-based Speech Synthesis”, IEICE Trans. Fundamentals, E86-A, no.8, pp.1956–1963, Aug. 2003.

5. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Context Clustering Technique for Average Voice Models”, IEICE Trans. Information and Systems, E86-D, no.3, pp.534–542, March 2003

Page 69: Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

本発表に関する論文リスト (つづき)

査読付き国際会議1. J. Yamagishi, K. Ogata, Y. Nakano, J. Isogai, and T. Kobayashi, “HSMM-based Model Adaptation Algorithms for Average-Voice-based Speech Synthesis”, Proc. ICASSP 2006, May 2006 (submit).2. J. Yamagishi, and T. Kobayashi, “Adaptive Training for Hidden Semi-Markov Model”, Proc. ICASSP 2005, vol.I, pp.365–368, March 2005.3. J. Yamagishi, T. Masuko, and T. Kobayashi, “MLLR Adaptation for Hidden Semi-Markov Model Based Speech Synthesis”, Proc. ICSLP 2004, vo.II, pp.1213–1216, October 2004.4. J. Yamagishi, M. Tachibana, T. Masuko, and T. Kobayashi, “Speaking Style Adaptation Using Context Clustering Decision Tree for HMM-based Speech Synthesis”, Proc. ICASSP 2004 , vol.I, pp.5–8, May 2004.5. J. Yamagishi, T. Masuko, and T. Kobayashi, “HMM-based Expressive Speech Synthesis – Towards TTS with Arbitrary Speaking Styles and Emotions,” Special Workshop in Maui (SWIM) , January 2004.6. J. Yamagishi, K. Onishi, T. Masuko, and T. Kobayashi, “Modeling of Various Speaking Styles and Emotions for HMM-based Speech Synthesis”, Proc. EUROSPEECH 2003, vol.III, pp.2461–2464, September 2003.7. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Training Method for Average Voice Model Based on Shared Decision Tree Context Clustering and Speaker Adaptive Training”, Proc. ICASSP 2003, vol.I, pp.716–719, April 2003.8. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Context Clustering Technique for Average Voice Model in HMM-based Speech Synthesis”, Proc. ICSLP 2002, vol.1, pp.133–136, September 2002.