Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成山岸順一東京工業大学大学院総合理工学研究科物理情報システム創造専攻

Average-Voice-Based Speech Synthesis 平均声に基づく音声合成

山岸順一　

東京工業大学大学院総合理工学研究科物理情報システム創造専攻小林隆夫研究室

　　2006年1月論文発表会

本論文の構成

第１章　イントロダクション第２章　隠れマルコフモデル(HMM)第３章　HMMに基づく音声合成第４章　共有決定木コンテキストクラスタリング第５章　話者適応学習第６章　隠れセミマルコフモデルに基づく　　　　最尤線形回帰と話者適応学習第７章　隠れセミマルコフモデルに基づく　　　　話者適応アルゴリズムとMAP Modification第８章　スタイルモデリング第９章　まとめ

本日の発表内容

研究の背景と目的

HMMに基づく音声合成

共有決定木コンテキストクラスタリング

話者適応学習

隠れセミマルコフモデルに基づく最尤線形回帰と話者適応学習

まとめと今後の展望

研究背景

録音編集方式 … 特定の発話内容の目的地や数字だけを入れ替える　例：駅の案内、高速道路の渋滞情報、カーナビ

現在のテキスト音声合成システム (コーパスベース方式)

　⇒ 品質は良いが、特定の文章のみ

テキスト音声合成方式 … 任意のテキストを読み上げるシステム　例：メール読み上げソフト、対話エージェントシステム、カーナビ

現在の音声合成システム

波形接続方式 … 音声を波形のレベルで処理し、単純に接続し合成HMMに基づく音声合成方式 … 音声の特徴量を統計的に処理し、　　　　　　　　　　　　　　フィルタで合成

研究背景２

波形接続合成方式・音声素片を接続し、音声を合成・大量の音声コーパスが必要 (数時間～数十時間) ・高音質、自然性が高い

問題点・話者が限定。通常は１～数話者程度。・発話スタイル(感情)が限定。通常はニュース風の読み上げ。　(話者や発話スタイルを増やすためにはそのコーパスが更に必要。　音声コーパスの作成は高コストを要する。）

研究背景３

HMMに基づく音声合成方式・音声の特徴量をHMMにより統計的にモデル化＆合成　特徴量：メルケプストラム（声質、音韻、声の大きさ）　　　　　基本周波数　（声の高さ、アクセント、抑揚）　　　　　音韻継続長　　　（声のリズム・テンポ）・MLSA(Mel Log Spectral Approximation)フィルタで波形生成

メリット・コンパクトかつ非常に高速・安定感・モデルパラメータを適切に変換すれば、　合成音声の声質・韻律特徴を変換可能

デメリット・ボコーダ音 (buzzy)

研究目的

平均声に基づく音声合成話者を所望の話者に容易に変換できる音声合成システム

HMM音声合成　＋平均声モデル作成のための話者正規化技術　＋平均声モデルを目標話者のごく少量の音声データをもとに　　目標話者へ変換する話者適応技術

従来手法従来の平均声に基づく音声合成 [田村ら ‘02]

・音韻継続長が極めて不自然　　→ 音韻継続長の厳密な変換が必要・基本周波数やスペクトルに不自然な箇所が存在　　→ 初期モデルの話者正規化が必要・品質が良くない　　→ 適応アルゴリズムの改善が必要

研究対象と研究成果

パラメータ共有　共有決定木コンテキスト　クラスタリング(STC)

話者正規化技術スペクトル・F0・継続長の同時話者適応　隠れセミマルコフモデル(HSMM)に　基づく話者適応

話者適応の高精度化　構造的事後確立最大線形回帰 (SMAPLR)　MAP Modification

話者適応技術

パラメータ推定　話者適応学習(SAT)


(STCアルゴリズム)

話者適応に適した平均声モデルを作成するための話者正規化クラスタリング手法

HMM

隠れマルコフモデル(HMM)

1 2 3

11 22 33

12 23

：遷移確率

1 U , 1 2 U , 2 3 U , 3

b1(ot) b2(ot) b3(ot)

b (ot)：出力確率

モデルパラメータ：遷移確率　　　　　　　　　出力確率密度関数(出力分布)

HMM音声合成システムの学習部

メルケプストラム部：正規分布対数基本周波数/logF0部：多空間上の正規分布　[益子ら ‘00]

当該および前後の音韻環境(コンテキスト)を考慮したコンテキスト依存HMMを学習

. . .

Speech Analysis

MULTI-SPEAKER SPEECH DATABASE

Context Dependent HMMs(Average Voice Model)

Mel-Cepstrum, logF0

Training

/context1/ /context2/

学習時におけるコンテキストの利用

(a-i+u)-(3_2)-([3_x_x]-[5_1_1]+[6_x_x])-([5_3_0]-[3_1_10]+[8_1_1])-(20-[10_21]+15)-(50)

音素モーラ形態素アクセント句呼気段落文長先行当該

先行　　　当該　　　後続　先行　　　当該　　　後続

アクセント型とモ｜ラ位置の差

アクセント句内でのモ｜ラ位置

品詞活用型

活用形

品詞活用型

活用形

品詞活用型

活用形

長さアクセント型

ポ｜ズの有無


ポ｜ズの有無


アクセント句の位置

先行　当該　後続

長さ

長さ

長さ

呼気段落のモ｜ラ位置

長さ

後続

コンテキスト依存ラベルの例

当該および前後の様々な音韻環境を考慮したHMMの説明変数

各コンテキスト毎にHMMを学習 (コンテキスト依存HMM)

コンテキスト：

HMM音声合成システムの適応部

スペクトル・基本周波数の同時話者適応

Adapted Model

/a/ /i/Speaker Adaptation ADAPTATION DATA

Average Voice Model

HMMの出力分布のパラメータを目標話者の適応データをもとに変換

HMM音声合成システムの合成部

最尤基準に基づくパラメータ生成 [益子ら ‘96]

PARAMETER GENERATION

c1c2

SYNTHESIZED SPEECH

Sentence HMM

Mel-Cepstrum

TEXT

MLSA Filter

Adapted Model

p1p2

F0

Excitation

合成時におけるコンテキストの利用

(a-i+u)-(3_2)-([3_x_x]-[5_1_1]+[6_x_x])-([5_3_0]-[3_1_10]+[8_1_1])-(20-[10_21]+15)-(50)

音素モーラ形態素アクセント句呼気段落文長先行当該

先行　　　当該　　　後続　先行　　　当該　　　後続

アクセント型とモ｜ラ位置の差

アクセント句内でのモ｜ラ位置

品詞活用型

活用形

品詞活用型

活用形

品詞活用型

活用形


ポ｜ズの有無


ポ｜ズの有無


アクセント句の位置

先行　当該　後続

長さ

長さ

長さ

呼気段落のモ｜ラ位置

長さ

後続

コンテキスト依存ラベルの例

入力テキストをコンテキスト依存ラベルに変換し、対応するHMMをもとにパラメータ生成

コンテキストの種類は膨大 (指数的組み合わせ)　・学習データに含まれていないコンテキストも存在　・データ量が十分ではないコンテキストも存在

決定木によるクラスタリング

コンテキストの種類は膨大　　→決定木を用いた階層的クラスタリングにより　　　音韻・韻律的に似ているHMMの分布パラメータを共有

F0の決定木

no yes

無声化母音

no yes

no yes

母音

有声音

no yes

後ろからのモーラ位置 =１

no yesno yesno yes

鼻音後続音素が有声音声門音

決定木の構築法１

記述長 (Description Length)

Clustering

Context Dependent HMMs

Yes No

NoYes

当該音素が有声？

０型アクセント？

・全話者のコンテキストを　決定木によりクラスタリング

・リーフノードの集合モデルの記述長

ノードに対するデータ量の期待値

ノードにおける共分散行列ベクトル次元数

・ノードの分割基準 : 　MDL (最小記述長) 基準

決定木の構築法２

y n

y n

・モデルのノードを質問により　分割したモデル：

リーフノード数

記述長

第１項

第２項

分割停止点

・　　　　ならばノード分割終了

・　　　　ならばノード　を質問　で分割

・分割前後の記述長の差

・を最小にするノード　と質問　の組を選ぶ

MDL基準に基づいた構築法 [K. Shinoda et al. ‘00]

決定木によるクラスタリングの問題点

ny

a-b-a

a-a-b

b-a-a

b-b-a

b-a-a話者1

先行がa？先行が a？先行が b？後続が a？

質問リスト話者2

b-a-a

b-a-b

話者1

a-b-a

a-a-b

b-b-a

決定木

学習話者のデータに含まれるコンテキストが話者により大きく異なる場合、一部の話者のデータが欠けたノードが構成されてしまう

共有決定木コンテキストクラスタリング(STC)

各学習話者のモデルに共通の決定木を構築し、クラスタリングを行う


　→全ノードが必ず全学習話者のデータを保持

・記述長を話者毎に計算・全ての話者で分割できる質問のみ採用

質問「先行がa？」は採用しない

分割できないny先行がa？

a-b-a

a-a-b

b-b-a

話者2

b-a-a

b-a-b

ny先行がa？

b-a-a

b-a-b

話者1

a-b-a

a-a-b

b-b-a

(例)

[J. Yamagishi et al. ‘03]

共有決定木の構築法

平均声モデルの作成

決定木のノード分割終了後、平均声モデルを作成

ノード　における平均声モデルの平均

　　　　　　　〃　　　　　　　共分散

話者　のノード　データ量の期待値

ノード　における話者依存モデル　の平均

　　　　　　　〃　　　　　　　　　共分散

y n

y n

Average Voice Model

平均声モデルのガウス分布の平均、共分散を各話者依存モデルから計算

実験条件

学習データ

サンプリング周波数フレーム周期分析窓

特徴ベクトル

HMM

音素数

ATR日本語音声データベースセットB

16kHz

5ms

25msブラックマン窓

0～24次のメルケプストラム対数基本周波数およびそれぞれのΔ、Δ パラメータ

５状態 left-to-right モデル42音素（無音を含む)

２

男性話者３名女声話者３名話者

0.4記述長係数

学習データ

＊各文章セット(A～I)は50文章

学習に用いた文章セット

FKN FKS FYM MHO MHT MYI

A B C D E F

A,B B,C C,D D,E E,F F,G

A~C B~D C~E D~F E~G F~H

女性話者男性話者文章数50

100

150

200

250

300

A~D B~E C~F D~G E~H F~I

A~E B~F C~G D~H E~I A,F~I

A~F B~G C~H D~I A,E~I A,B,F~I

クラスタリングの改善結果

一部の話者のデータが欠けているリーフノード数(50文章)

(A)：一部の話者のデータが欠けているリーフノード数と割合(B)：一人の話者のデータしかないリーフノード数と割合

スペクトルF0

419

1011

37 ( 8%)

505 (50%)

14 ( 3%)

197 (19%)

(A) (B)状態数状態数 (A) (B)

0 (0%)

0 (0%)

0 (0%)

0 (0%)

548

818

従来法提案法

具体例 -生成F0パターン-

「部屋一杯に煙草の濃霧が立ちこめ、ゆるやかに動いている」

提案法従来法

従来法の基本周波数が不自然に高い

Time [s]

Fre

qu

ency [

Hz]

0 1 2 3 4

100

150

200

300

STCアルゴリズムの主観評価試験

被験者評価音声提示方法評価方法

成人男性13名53文章からランダムに8文章を選択防音室内での両耳受聴(ヘッドホン)

対比較法

従来法との対比較による評価

主観評価結果

提案法従来法

sente

nce

s per

spea

ker

score[%]

50

100

150

200

250

300

0 20 40 60 80 100

27.2 72.8

17.5 82.5

30.0 70.0

18.3 81.7

17.1 82.9

15.9 84.1

全ての文章数において大きな改善従来法：決定木に基づくコンテキストクラスタリング

デモンストレーション(平均声)

平均倍率を下げた形跡がある平均倍率を下げた形跡がある発声内容発声内容

部屋一杯に煙草の濃霧が立ちこめ部屋一杯に煙草の濃霧が立ちこめゆるやかに動いているゆるやかに動いている

発声内容発声内容

従来法(各50文章)

提案法(各50文章)

従来法(各50文章)

提案法(各50文章)

話者適応学習(SATアルゴリズム)

話者適応に適した平均声モデルを作成するための話者正規化学習アルゴリズム

平均声モデル

平均声モデル

問題点

平均声モデルは標準的な音韻性をモデル化すべき複数の話者の音声データを用いて学習を行った音響モデル

話者間には音響的な差異が存在 (e.g 男性のF0と女性のF0)　✓通常の学習アルゴリズムでは音韻性ではなく、　　話者や性別の違いに大きく影響されたモデルが作成

/a/

logF0Speaker 1 Speaker 2

Average Voice

話者正規化学習

話者間の音響的な差異を正規化しつつ、HMMのモデルパラメータも同時に学習するアルゴリズム

話者正規化学習

話者適応学習 (Speaker Adaptive Training : SAT)最尤線形回帰(MLLR)を利用した話者正規化学習アルゴリズム

/a/

logF0Speaker 1 Speaker 2

Average Voice

出力分布(スペクトル，F0をモデル化)に存在する話者間の音響的差異を正規化するため SATをHMM音声合成システムに導入

[T. Anastasakos et al., ‘96]

[J. Yamagishi et al. ‘03]

最尤線形回帰(MLLR)アルゴリズム

Average Voice

Speaker AAco

ustic S

pa

ce

Dim

en

sio

n 2

Acoustic Space Dimension 1

1ˆ

2ˆ

2

1

W

平均ベクトルの適応

m : 分布の平均ベクトルm

: 回帰行列

HMMに基づくMLLRアルゴリズム　[C.J. Leggetter et al., ‘96]

平均声モデルの出力分布の平均ベクトルをアフィン変換し、目標話者のモデルを実現

話者適応学習(SAT)アルゴリズム

平均声モデルから各学習話者への変換行列をMLLRにより求める

HMMに基づくMLLRを利用　出力分布の変換行列　　を推定W i

MLLRの変換行列が正規化すべき話者間の音響的差異を表すと仮定しHMMのモデルパラメータ　　　　　　を学習

このステップの繰り返し

HMMに基づくSAT：フロー

Speaker 1 Speaker 2

Speaker 3

Average Voice Model

学習話者の標準的な特徴を持つ平均声モデルを想定

話者適応学習の考察

話者に起因する特徴はすべて正規化されるのか？

→ No！　線形回帰で表せる特徴のみが正規化される。　話者性(話者に起因する特徴)が非線形ならば残る

→ 他の正規化手法と併用が望ましい。　 STCと併用

話者性のみが正規化されるのか？

→ No！　線形回帰で表せる特徴はすべて正規化される。　　× 音韻性も含まれた状態で正規化が行われる可能性。　　○ 録音環境の違いが線形ならば、それの正規化にも利用可

SATとSTCによる平均声モデル学習

決定木に基づくコンテキストクラスタリング

Average Voice Model

パラメータ再推定

Tied Context Dependent Model (SI)

Context Dependent Model (SI)

Average Voice Model

話者適応学習

Tied Context Dependent Model (SI)

Context Dependent Models (SD)


従来法提案法

SD : 特定話者モデル (学習話者毎)SI : 不特定話者モデル

SATとSTCの評価実験

話者適応後の音声の自然性の評価

Speaker Dependent Model

Speaker Adapted Model

男女各３名各話者異なる150 文章で学習

目標話者男性 MMY 女性 FTK

450 文章で学習

目標話者男性 MMY

女性 FTK

10 文章で適応

* 目標話者は学習話者に含まれていない

Average Voice Model

(NONE、SAT、STC、STC+SAT)

SATとSTCの評価実験２

５段階の評価目標話者の分析合成音を基準に各音声の話者性を以下のように判定

5 ：　非常によく似ている 4 ： 3 ： 2 ：　 1 ：　似ていない

成人男性7名

５段階の評価

被験者評価音声提示方法評価方法

53文章からランダムに８文章を選択防音室内での両耳受聴(ヘッドホン)

SATとSTCの評価結果２

SD : 目標話者モデル

男性 MMY

1 2 3 4 5

NONE

SAT

STC

STC+SAT

SD

Score

2.33

2.66

2.95

3.43

3.84

女性 FTK1 2 3 4 5

NONE

SAT

STC

STC+SAT

SD 4.02

3.52

3.01

2.79

2.65

デモンストレーション (男性MMY)

目標話者モデル (SD)

「切符を買うのは自動販売機からである」

従来法によるモデル (NONE)

STCのみを適用したモデル (STC)

STCとSATを併用したモデル (STC+SAT)

SATのみを適用したモデル (SAT)

分析合成音

HSMMに基づく話者適応アルゴリズム

隠れセミマルコフモデルに基づくスペクトル・F０・音韻継続長の

同時適応アルゴリズム

HMM

隠れマルコフモデル(HMM)

1 2 3

11 22 33

12 23

：遷移確率

1 U , 1 2 U , 2 3 U , 3


b (ot)：出力確率

モデルパラメータ：遷移確率　　　　　　　　　出力確率密度関数(出力分布)

Hidden Semi-Markov Model

・状態継続長分布を明示的に含んでいない隠れマルコフモデル(HMM)

　→遷移確率やトレリスから計算可能。しかし近似精度は悪い

隠れセミマルコフモデル(HSMM) [J.D. Ferguson ‘80, S.E. Levinson ‘86]

・状態継続長分布を明示的に含んだHMM　→状態継続長分布をより厳密にモデル化可能

モデルパラメータ：出力確率密度関数(出力分布)　　　　　　　　　状態継続長確率密度関数(継続長分布)

1 2 3

p (d1

) p (d2

) p (d3

)


p (di )：状態継続長確率b (ot)i ：出力確率

・通常のHMMと同様にモデル化可能

HSMMによるモデル化

… 観測系列　　　　　　が与えられたもとで時刻　　　　　から　に状態　に滞在する確率

出力分布　　　：状態継続長分布：

HSMMの状態

emit継続長分布

HSMM 状態

d

12

3

12

3

12

3

出力分布

EMアルゴリズムによる再推定

出力分布の再推定式

状態継続長分布の再推定式

尤度関数

：状態数

HSMMに基づく最尤線形回帰 [J. Yamagishi et. al. ‘04]

出力分布の線形回帰

状態継続長分布の線形回帰

例：出力分布の線形回帰

Average Voice Model

Speaker AAco

ustic S

pace D

imensio

n 2

Acoustic Space Dimension 1

HSMMの状態出力分布　　　：状態継続長分布：

：出力分布の回帰行列W

：継続長分布の回帰行列X

EMアルゴリズムによる再推定

回帰行列の再推定式

HSMMに基づいたMLLR [J. Yamagishi et. al. ‘04]

(共有する分布の数：R)

決定木を利用した区分線形回帰

Target Speaker’s Model

Average Voice Model

Threshold

平均声モデルの分布を決定木をもとにいくつかのクラスタにわけ、区分線形回帰により適応

隠れセミマルコフモデルに基づく適応学習

出力分布および状態継続長分布(音韻継続長をモデル化)を同時に正規化するように適応学習アルゴリズムを拡張

音韻継続長にも話者間の差異は存在

HSMMの出力分布・継続長分布を同時にアフィン変換するHSMMの最尤線形回帰(MLLR)アルゴリズムを利用

1 2 3

p (d1

) p (d2

) p (d3

)


p (di )：状態継続長確率b (ot)i ：出力確率

HSMMの適応学習

HMMの出力分布(スペクトル，F0をモデル化)に対してのみ適用可能

従来の話者適応学習 (SAT)

[J. Yamagishi et. al. ‘05]

HSMMに基づく適応学習 [J. Yamagishi et. al. ‘05]

Speaker 1 Speaker 2

Speaker 3

Average Voice Model

W W

W

X1 X2

X3

学習話者の標準的な特徴を持つ平均声モデルを想定

平均声モデルから各学習話者への変換行列をMLLRにより求める

HSMMに基づくMLLRを利用　出力・継続長分布の変換行列　　・　を推定W i X i

MLLRの変換行列が正規化すべき話者間の音響的差異を表すと仮定しHSMMのモデルパラメータ　　　　　　　　　を学習

このステップの繰り返し

出力分布(スペクトル，F0をモデル化)かつ状態継続長分布(音韻継続長をモデル化)の話者間の音響的差異を同時正規化

実験条件

話者適応

平均声モデル　　性別依存モデル　　男性：５名　女性：４名　各話者４５０文章目標話者　男性話者 MTK & 女性話者FTK

特徴ベクトル0～24次メルケプストラム対数基本周波数Δ, Δ2パラメータ

HSMM

コンテキスト依存モデル5状態，left-to-rightモデル, SAT+STC単一ガウス分布，対角共分散行列最大継続長値　：各状態の平均+3(標準偏差)

話者の分布

男性話者MTKと女性話者FTKを目標話者と設定それ以外の話者を平均声モデル学習用の話者と設定

4.0 4.5 5.0 5.5 6.07.0

7.5

8.0

8.5

9.0

Average logarithm of F0

Avera

ge m

ora

/sec

MHO

MHT

MMYMSH

MTK

MYI

FKN

FKS

FTK

FTY

FYM

HSMMに基づくSATの効果

全特徴を同時正規化した場合が尤度がもっとも高い→ 正規化が適切に行われている

69

70

71

72

73A

ve

rag

e lo

g-L

ike

liho

od

pe

r fr

am

e

50 100 150 200 250 300 350 400 450

Number of Sentences

0

Both

Output

Duration

None

目標話者の適応データの尤度

平均声と話者適応後の音声の分布

目標話者と似た平均値(対数基本周波数＆mora/sec)になっていることが確認できる

4.0 4.5 5.0 5.5 6.07.0

7.5

8.0

8.5

9.0

Average Voice (Male Speakers)

MTK

MTK(MLLR) FTK

Average logarithm of F0

Ave

rag

e m

ora

/se

c

Average Voice (Female Speakers)

FTK(MLLR)

客観評価　特定話者方式との比較

対数基本周波数のRMSER

MS

E o

f lo

gF

0 [cent]

200

250

300

350

400

0 50 100 150 200 250 300 350 400 450Number of Sentences

SD

MLLR

Average Voice


メルケプストラム距離

Average Voice

Me

l-ce

pstr

um

Dis

tan

ce

[d

B]


4

5

6

7

SD

MLLR

8


音素継続長のRMSER

MS

E o

f V

ow

el D

ura

tion [fr

am

e]

4

5

6

7

8

9

10

11


SD

MLLR

Average Voice

主観評価試験１　各特徴量の変換の効果

被験者成人男性８名

評価音声 53文章からランダムに５文章を選択

提示方法防音室内での両耳受聴

評価方法

CCRテスト目標話者の分析合成音声と比較し、合成音声の話者性を以下の５段階で判定

　　　　　　「５：非常に良く似ている」　　　　　　「４：似ている」　　　　　　「３：違いはあるが似ている」　　　　　　「２：似ていない」　　　　　　「１：全く似ていない」

主観評価結果１　各特徴量の変換の効果

Spectrum

F0

Duration

Adaptation

1

2

3

4

5

1.6

2.5

1.5 1.6

3.3

2.6

1.5

3.6

2.9

SD

Average Voice

SD

SD

よく似ている

全く似ていない

主観評価試験２

話者適応後の音声の類似度の評価

被験者 8名

評価音声 53文章からランダムに4文章を選択

提示方法防音室内での両耳受聴

評価方法 ABX法(自然性が高い方を選択)

主観評価試験２　各特徴量の変換の効果

0 10 20 30 40 50 60 70 80 90 100

Spectrum

Spectrum+F0

Spectrum+F0

+Duration

Score (%)

スペクトル・F０・音韻継続長の同時変換が重要であることが確認できる

デモンスレーション(男性話者MTK)

Spectrum

F0

Duration

Adaptation

1

2

3

4

5

1.6

2.5

1.5 1.6

3.3

2.6

1.5

3.6

2.9

SD

Average Voice

SD

SD

分析合成音声

デモンストレーション：様々な話者の音声

男性話者MHT

男性話者MYI

デモンストレーション：様々な話者の合成音声　　　　　　　　　　　　　　　　（適応データ：５０文章）

① ②

① ②

男性話者MMI

女性話者FTK

①

①

②

②

まとめ

まとめ話者を所望の話者に容易に変換できる音声合成システムの実現を目指し、平均声を用いた音声合成方式を検討

平均声に用いた音声合成：　HMM音声合成　　＋平均声モデル作成のための話者正規化技術　　＋平均声モデルを目標話者のごく少量の音声データをもとに　　　目標話者へ変換する話者適応技術

パラメータ共有　共有決定木コンテキストクラスタリング(STC)

話者正規化技術

パラメータ推定　話者適応学習(SAT)

まとめ（続き）

まとめ(つづき）

合成音声の品質は特定話者方式とほぼ同等

スペクトル・F0・継続長の同時話者適応　隠れセミマルコフモデル(HSMM)に基づく話者適応

話者適応の高精度化　構造的事後確立最大線形回帰 (SMAPLR)　MAP Modification

話者適応技術

スペクトル・F０・音韻継続長の同時適応は重要話者正規化技術は音声合成の品質を大きく改善

今後の課題

今後の課題

合成音声の品質の向上

音声合成のパーソナライゼーション話し言葉や方言への対応

オンライン学習

本発表に関する論文リスト

ジャーナル論文1. J. Yamagishi and T. Kobayashi, “Simultaneous Speaker Adaptation Algorithm of Spectrum, Fundamental Frequency and Duration for HMM-based Speech Synthesis,” IEICE Trans. Information and Systems. (in preparation)

2. J. Yamagishi, Y. Nakano, K. Ogata, J. Isogai, and T. Kobayashi, “A Unified Speech Synthesis Method Using HSMM-Based Speaker Adaptation and MAP Modification”, IEICE Trans. Information and Systems. (in preparation)

3. J. Yamagishi, K. Onishi, T. Masuko, and T. Kobayashi, “Acoustic Modeling of Speaking Styles and Emotional Expressions in HMM-based Speech Synthesis,” IEICE Trans. Information and Systems, E88-D, vol.3, pp.503–509, March 2005.

4. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Training Method of Average Voice Model for HMM-based Speech Synthesis”, IEICE Trans. Fundamentals, E86-A, no.8, pp.1956–1963, Aug. 2003.

5. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Context Clustering Technique for Average Voice Models”, IEICE Trans. Information and Systems, E86-D, no.3, pp.534–542, March 2003

本発表に関する論文リスト (つづき)

査読付き国際会議1. J. Yamagishi, K. Ogata, Y. Nakano, J. Isogai, and T. Kobayashi, “HSMM-based Model Adaptation Algorithms for Average-Voice-based Speech Synthesis”, Proc. ICASSP 2006, May 2006 (submit).2. J. Yamagishi, and T. Kobayashi, “Adaptive Training for Hidden Semi-Markov Model”, Proc. ICASSP 2005, vol.I, pp.365–368, March 2005.3. J. Yamagishi, T. Masuko, and T. Kobayashi, “MLLR Adaptation for Hidden Semi-Markov Model Based Speech Synthesis”, Proc. ICSLP 2004, vo.II, pp.1213–1216, October 2004.4. J. Yamagishi, M. Tachibana, T. Masuko, and T. Kobayashi, “Speaking Style Adaptation Using Context Clustering Decision Tree for HMM-based Speech Synthesis”, Proc. ICASSP 2004 , vol.I, pp.5–8, May 2004.5. J. Yamagishi, T. Masuko, and T. Kobayashi, “HMM-based Expressive Speech Synthesis – Towards TTS with Arbitrary Speaking Styles and Emotions,” Special Workshop in Maui (SWIM) , January 2004.6. J. Yamagishi, K. Onishi, T. Masuko, and T. Kobayashi, “Modeling of Various Speaking Styles and Emotions for HMM-based Speech Synthesis”, Proc. EUROSPEECH 2003, vol.III, pp.2461–2464, September 2003.7. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Training Method for Average Voice Model Based on Shared Decision Tree Context Clustering and Speaker Adaptive Training”, Proc. ICASSP 2003, vol.I, pp.716–719, April 2003.8. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Context Clustering Technique for Average Voice Model in HMM-based Speech Synthesis”, Proc. ICSLP 2002, vol.1, pp.133–136, September 2002.

Documents

Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成 山岸 順一 東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻

Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis 平均声に基づく音声合成山岸順一東京工業大学大学院総合理工学研究科物理情報システム創造専攻