Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく歌声音量軌跡の生成過程モデル大石康智†,

•深い青を基にメタル調の雰囲気をだしてみました。

•基調の青と真逆のオレンジ文字は強調したい部分に使用できます。

•タイトルフォントはりょうゴシック PlusN H、本文はDFP華康ゴシック体W5, Bold

• Presentation title: 32pt りょうゴシック PlusN H

• Presentation title: 28pt orange DFP華康ゴシック体W5

混合ガウス過程に基づく歌声音量軌跡の生成過程モデル

大石康智†, 持橋大地‡, 亀岡弘和†, 柏野邦夫†

† NTT コミュニケーション科学基礎研究所 ‡ 情報システム研究機構統計数理研究所

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

NTT Communication Science Laboratories

歌声の声の大きさ（音量） 2






歌声の声の大きさ（音量）

音符の音高に連動した上昇下降，ビブラートと同期した振動

3

波形ハニング窓

2 4 6 8 10 [秒]

歌声の音量軌跡（注：必ずしも知覚量（ラウドネス）に比例しない）

0








音量の動特性を取り除く（正規化する）と?

4


2 4 6 8 10 [秒]


0








音量の動特性を取り除く（正規化する）と?

5


2 4 6 8 10 [秒]


0

⇒ 声の高さや声色とともに，音量の動きも重要な特徴






歌唱者ごとに音量軌跡はどう違う?

歌唱者3名による同一メロディを歌った歌声の音量軌跡

6

歌唱者A

（発声訓練有）

歌唱者B

（発声訓練有）

0 2 4 6 8 10 12 [秒]

歌唱者C

（発声訓練無）

⇒ 訓練有の歌唱者ほど，その動き（強弱）を巧妙に制御する






歌唱者が色々な曲を歌ったら?

歌唱者（訓練有）が4つのメロディを歌った歌声の音量軌跡

7

楽曲(1) パターン1

0 2 4 6 8 10 12 [秒]

楽曲(2)

楽曲(3)

楽曲(4)

パターン3

パターン2

動きのモデル化によって，認識・合成の発展に貢献したい！

⇒ いくつかの動的（強弱）パターンを使い分ける






音量の動きを楽譜と結びつける生成過程モデルの構築

新規の楽譜に対して，

その音量軌跡を予測する

音量軌跡の動きを楽譜と

結びつけて学習する

研究の目的 8

学習結果

新規の楽譜

歌唱者A“らしい”，音量軌跡

楽譜

音量

歌唱者Aの歌声学習結果











研究の目的 9

学習結果

新規の楽譜


音高や音色に適用可能かも?

楽譜

音量


応用1：歌声合成

歌唱者A

歌唱者Z

・・・

DYN調整 ○○風に!











研究の目的 10

学習結果

新規の楽譜


音高や音色に適用可能かも?

応用2：歌声認識・マイニング「歌ってみた」コンテンツ

楽譜

音量


応用1：歌声合成

歌唱者A

歌唱者Z

・・・

DYN調整 ○○風に!






ガウス過程による名演奏の学習 [寺村+, 2008]

− 音符のコンテキストと，実演の音量・発音区間の関係を学習

先行研究と課題 11

C G E G

480 480 480 480

音高

音長

音量

時間

打鍵楽器を対象

複雑な動きを

表現しない

ガウス過程回帰楽譜






ガウス過程による名演奏の学習 [寺村+, 2008]

− 音符のコンテキストと，実演の音量・発音区間の関係を学習

隠れマルコフモデル(HMM)に基づく歌声合成 [間瀬+, 2010]

先行研究と課題 12

C G E G

480 480 480 480

音高

音長

音量

時間

打鍵楽器を対象

複雑な動きを

表現しない

ガウス過程回帰

・固定された状態数と局所的な動的特徴量で表現することは難しい

・ HMMの状態クラスタリングにより，動きが過剰に平滑化される

ラベルごとにHMMを学習

楽譜

歌詞 a sa ya ke

HMM

時間

C G E G

480 480 480 480

音高

音長

音量楽譜






アプローチ

音量の動きのモデル化⇒ ガウス過程 [Rasmussen+, 1996]

13

線形回帰ガウス過程回帰

入力（時間）

出力（音量）

入力（時間）

Point:

回帰関数は明示的に

定義されず，データから自動的に学習される






アプローチ


14


入力（時間）

出力（音量）

入力（時間）

Point:



HMM

入力（時間）

出力（音量）






アプローチ


楽譜に伴う動的パターンの使い分け⇒ 混合ガウス過程

15


入力（時間）

出力（音量）

入力（時間）

Point:



楽譜空間

音符の音長

音符の音高

[Meeds+, 2006]

Point:

状態遷移によって，

動的パターンを切り替えながら音量を生成する

にクラスタ（状態）を形成

HMM

入力（時間）

出力（音量）






問題設定

伴奏をヘッドフォンで聴きながら歌った歌声を利用する

16

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜音量軌跡

時間






問題設定


17

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜

・・・入力変数

（10ms毎）

音量軌跡

時間






問題設定


18

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜


（10ms毎）

音量軌跡

時間

前後の音符の音高や音長，強弱記号や演奏記号の有無を加えることも可

音符内位置（発音開始からの時刻）

音符の高さ（MIDIノートナンバ）音符の長さ（Inter-onset interval）

音符コンテキスト

音符内位置

長さ高さ






問題設定


19

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜


（10ms毎）

音量軌跡

時間


出力変数

（10ms毎）

・・・




音符内位置

長さ高さ






問題設定


20

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜


（10ms毎）

音量軌跡

時間


混合ガウス過程

出力変数

（10ms毎）

・・・




音符内位置

長さ高さ






問題設定


21

76 (E)

MID

Iノートナンバ

78 (F#)

80 (G#)

82 (A#) 楽譜


（10ms毎）

音量軌跡

時間


① 混合ガウス過程を利用して，生成過程（入出力関係）を記述する

③ 学習結果を利用して，新たな入力に対する出力を予測する

混合ガウス過程

② 混合ガウス過程のパラメータを学習する

出力変数

（10ms毎）

・・・




音符内位置

長さ高さ






入力

（コンテキスト）

① 混合ガウス過程による生成過程の記述

歌唱者が動的パターンを使い分ける動作を表現する

22

メロディの

音符列

時間






入力




23

メロディの

音符列

入力変数空間（楽譜空間）

時間






入力




24

メロディの

音符列


時間






入力




25

メロディの

音符列



入力

出力

・・・

時間






入力




26

メロディの

音符列


状態系列ガウス過程回帰

入力

出力

・・・

時間






入力




27

メロディの

音符列


状態系列

出力

（音量軌跡）


入力

出力

・・・

時間






ガウス過程回帰 [Rasmussen+, 1996]

軌跡の確率分布（ガウス分布）

28

入力

出力

・・・








29

入力

出力

・・・平均

…

0

0

0

出力（軌跡）

10

3

グラム行列

20

20

20

10

3

5

5

10

10

…

…

0 1

1

1

単位行列

ノイズ

0 0

0

0

0

0 0 …

…








30

入力

出力

グラム行列：出力（軌跡）のダイナミクスを制御する

・・・平均

…

0

0

0

出力（軌跡）

10

3

グラム行列

20

20

20

10

3

5

5

10

10

…

…

0 1

1

1

単位行列

ノイズ

0 0

0

0

0

0 0 …

…

カーネル関数二つの入力変数間の近さ








31

入力

出力


・・・平均

…

0

0

0

出力（軌跡）

近傍重視広範囲重視

10

3

グラム行列

20

20

20

10

3

5

5

10

10

…

…

0 1

1

1

単位行列

ノイズ

0 0

0

0

0

0 0 …

…

カーネル関数








32

入力

出力


・・・平均

…

0

0

0

出力（軌跡）


10

3

グラム行列

20

20

20

10

3

5

5

10

10

…

…

0 1

1

1

単位行列

ノイズ

0 0

0

0

0

0 0 …

…

：大⇒急激に変動する軌跡，：大⇒滑らかに変動する軌跡を“生成しやすい”

カーネル関数








33

入力

出力


・・・平均

…

0

0

0

出力（軌跡）


回帰関数は，データから自動的に学習される

10

3

グラム行列

20

20

20

10

3

5

5

10

10

…

…

0 1

1

1

単位行列

ノイズ

0 0

0

0

0

0 0 …

…

：大⇒急激に変動する軌跡，：大⇒滑らかに変動する軌跡を“生成しやすい”

カーネル関数






入力


② 混合ガウス過程のパラメータ学習

MCMC-EMアルゴリズムを利用する

34

メロディの

音符列

入力変数空間

状態系列

出力

（音量軌跡）


入力

出力

・・・






入力




35

メロディの

音符列

入力変数空間

状態系列

出力

（音量軌跡）


入力

出力

・・・






入力




36

メロディの

音符列

入力変数空間

状態系列

出力

（音量軌跡）


入力

出力

・・・






③ 学習結果を利用した出力の予測

予測分布の導出

37

学習データ新しい入力変数

（音符コンテキスト）

パラメータ








38



状態r の事後確率

入力変数空間

状態r

パラメータ








39



状態r の予測分布状態r の事後確率

入力変数空間

状態r のガウス過程回帰

学習データ

状態r

パラメータ








40



状態r の予測分布状態r の事後確率

入力変数空間

状態r のガウス過程回帰

学習データ

ガウス分布に従う！

状態r

パラメータ






基本動作の評価実験

新規の楽譜に対する音量軌跡の予測性能

− 音大声楽科出身の歌唱者1名が，J-popに分類される合計

10曲のサビを伴奏を聴きながら歌った歌声

− 入力変数：10msごとに，音符内位置（秒），音符の音高（MIDIノートナンバ），音符の音長（秒）からなる3次元ベクトル

− 出力変数：10msごとに音量を計算

− 評価方法：音量軌跡と予測分布の平均値系列との二乗平均平方根誤差

41

平均値系列

0

1000

2000

音量

学習区間（全体の7/10）評価区間（全体の3/10）

0 2 4 6 8 10 12 [秒]

・・・・・・

予測






状態数R に対する予測性能 42

0 2 4 6 8 10 12 [秒]

音量

学習区間評価区間

音量

音量

音量

• 状態数を増やすにつれて，予測性能は向上する

• ガウス過程の混合モデルを利用することの有効性を示せた

単一の







状態数R に対する予測性能の定量評価

評価区間における，音量軌跡と予測分布の平均値系列との二乗平均平方根誤差 (RMSE)

43

1 10 20 30 40 50 0

200

400

300

100 二乗平均平方根誤差

状態数

500

• 状態数を増やすにつれて，RMSEは減少する

• この歌唱者は20種類の動的パターンを使いまわす






入力変数に含める音符コンテキストの考察

状態数の場合

44

音符内位置音符内位置

＋音高

300

380

360

二乗平均平方根誤差

音符内位置

＋音長

音符内位置

＋音高

＋音長

320

340

音符内位置＋音高

＋音長＋前音符との

音高差＋音長＋後音符との音高差＋音長差

400

420

• 音符の音長より，音符の音高の方が有用

• 音符コンテキストを増やすにつれて，RMSEは減少する






まとめと今後の課題 45

音量の動きを楽譜と結びつける生成過程モデルの提案

− 音量軌跡の動きを楽譜と結びつけて学習する

− 新規の楽譜に対して，音量軌跡を予測する

⇒ 混合ガウス過程を利用したモデリング

HMMから生成される軌跡との比較

演奏記号や強弱記号のコンテキスト導入

カーネル関数の改良

− 2次系を表現するカーネル関数の導入

歌声知覚との対応付け

歌声認識・合成への応用

・・・

減衰振動

定常振動

楽譜

音量






予備スライド

46






入力変数空間における“状態”の学習結果

状態数に固定

47

音符の音高 (MIDIノートナンバ)

0

1

1.5

2

0.5

音符の音長

2.5

70 72 74 76 78 80 82 84 86

• 各音符に対応するように状態の分布が学習される

• 予測の際，学習データに無い音符はこの空間で補間される

Documents

Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル 大石康智†,

Presentation Title タイトル...•Presentation title: 28pt orange DFP華康ゴシック体W5 混合ガウス過程に基づく歌声音量軌跡の生成過程モデル大石康智†,