Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
•深い青を基にメタル調の雰囲気をだしてみました。
•基調の青と真逆のオレンジ文字は強調したい部分に使用できます。
•タイトルフォントはりょうゴシック PlusN H、本文はDFP華康ゴシック体W5, Bold
• Presentation title: 32pt りょうゴシック PlusN H
• Presentation title: 28pt orange DFP華康ゴシック体W5
混合ガウス過程に基づく 歌声音量軌跡の生成過程モデル
大石康智†, 持橋大地‡, 亀岡弘和†, 柏野邦夫†
† NTT コミュニケーション科学基礎研究所 ‡ 情報システム研究機構 統計数理研究所
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌声の声の大きさ(音量) 2
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌声の声の大きさ(音量)
音符の音高に連動した上昇下降,ビブラートと同期した振動
3
波形 ハニング窓
2 4 6 8 10 [秒]
歌声の音量軌跡(注:必ずしも知覚量(ラウドネス)に比例しない)
0
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌声の声の大きさ(音量)
音符の音高に連動した上昇下降,ビブラートと同期した振動
音量の動特性を取り除く(正規化する)と?
4
波形 ハニング窓
2 4 6 8 10 [秒]
歌声の音量軌跡(注:必ずしも知覚量(ラウドネス)に比例しない)
0
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌声の声の大きさ(音量)
音符の音高に連動した上昇下降,ビブラートと同期した振動
音量の動特性を取り除く(正規化する)と?
5
波形 ハニング窓
2 4 6 8 10 [秒]
歌声の音量軌跡(注:必ずしも知覚量(ラウドネス)に比例しない)
0
⇒ 声の高さや声色とともに,音量の動きも重要な特徴
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌唱者ごとに音量軌跡はどう違う?
歌唱者3名による同一メロディを歌った歌声の音量軌跡
6
歌唱者A
(発声訓練有)
歌唱者B
(発声訓練有)
0 2 4 6 8 10 12 [秒]
歌唱者C
(発声訓練無)
⇒ 訓練有の歌唱者ほど,その動き(強弱)を巧妙に制御する
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
歌唱者が色々な曲を歌ったら?
歌唱者(訓練有)が4つのメロディを歌った歌声の音量軌跡
7
楽曲(1) パターン1
0 2 4 6 8 10 12 [秒]
楽曲(2)
楽曲(3)
楽曲(4)
パターン3
パターン2
動きのモデル化によって,認識・合成の発展に貢献したい!
⇒ いくつかの動的(強弱)パターンを使い分ける
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
音量の動きを楽譜と結びつける生成過程モデルの構築
新規の楽譜に対して,
その音量軌跡を予測する
音量軌跡の動きを楽譜と
結びつけて学習する
研究の目的 8
学習結果
新規の楽譜
歌唱者A“らしい”,音量軌跡
楽譜
音量
歌唱者Aの歌声 学習結果
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
音量の動きを楽譜と結びつける生成過程モデルの構築
新規の楽譜に対して,
その音量軌跡を予測する
音量軌跡の動きを楽譜と
結びつけて学習する
研究の目的 9
学習結果
新規の楽譜
歌唱者A“らしい”,音量軌跡
音高や音色に適用可能かも?
楽譜
音量
歌唱者Aの歌声 学習結果
応用1:歌声合成
歌唱者A
歌唱者Z
・・・
DYN調整 ○○風に!
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
音量の動きを楽譜と結びつける生成過程モデルの構築
新規の楽譜に対して,
その音量軌跡を予測する
音量軌跡の動きを楽譜と
結びつけて学習する
研究の目的 10
学習結果
新規の楽譜
歌唱者A“らしい”,音量軌跡
音高や音色に適用可能かも?
応用2:歌声認識・マイニング 「歌ってみた」コンテンツ
楽譜
音量
歌唱者Aの歌声 学習結果
応用1:歌声合成
歌唱者A
歌唱者Z
・・・
DYN調整 ○○風に!
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程による名演奏の学習 [寺村+, 2008]
− 音符のコンテキストと,実演の音量・発音区間の関係を学習
先行研究と課題 11
C G E G
480 480 480 480
音高
音長
音量
時間
打鍵楽器を対象
複雑な動きを
表現しない
ガウス過程回帰 楽譜
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程による名演奏の学習 [寺村+, 2008]
− 音符のコンテキストと,実演の音量・発音区間の関係を学習
隠れマルコフモデル(HMM)に基づく歌声合成 [間瀬+, 2010]
先行研究と課題 12
C G E G
480 480 480 480
音高
音長
音量
時間
打鍵楽器を対象
複雑な動きを
表現しない
ガウス過程回帰
・ 固定された状態数と局所的な動的特徴量で表現することは難しい
・ HMMの状態クラスタリングにより,動きが過剰に平滑化される
ラベルごとにHMMを学習
楽譜
歌詞 a sa ya ke
HMM
時間
C G E G
480 480 480 480
音高
音長
音量 楽譜
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
アプローチ
音量の動きのモデル化⇒ ガウス過程 [Rasmussen+, 1996]
13
線形回帰 ガウス過程回帰
入力(時間)
出力(音量)
入力(時間)
Point:
回帰関数は明示的に
定義されず,データから自動的に学習される
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
アプローチ
音量の動きのモデル化⇒ ガウス過程 [Rasmussen+, 1996]
14
線形回帰 ガウス過程回帰
入力(時間)
出力(音量)
入力(時間)
Point:
回帰関数は明示的に
定義されず,データから自動的に学習される
HMM
入力(時間)
出力(音量)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
アプローチ
音量の動きのモデル化⇒ ガウス過程 [Rasmussen+, 1996]
楽譜に伴う動的パターンの使い分け⇒ 混合ガウス過程
15
線形回帰 ガウス過程回帰
入力(時間)
出力(音量)
入力(時間)
Point:
回帰関数は明示的に
定義されず,データから自動的に学習される
楽譜空間
音符の音長
音符の音高
[Meeds+, 2006]
Point:
状態遷移によって,
動的パターンを切り替えながら音量を生成する
にクラスタ(状態)を形成
HMM
入力(時間)
出力(音量)
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
16
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜 音量軌跡
時間
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
17
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜
・・・ 入力変数
(10ms毎)
音量軌跡
時間
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
18
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜
・・・ 入力変数
(10ms毎)
音量軌跡
時間
前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可
音符内位置(発音開始からの時刻)
音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)
音符コンテキスト
音符内位置
長さ 高さ
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
19
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜
・・・ 入力変数
(10ms毎)
音量軌跡
時間
前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可
出力変数
(10ms毎)
・・・
音符内位置(発音開始からの時刻)
音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)
音符コンテキスト
音符内位置
長さ 高さ
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
20
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜
・・・ 入力変数
(10ms毎)
音量軌跡
時間
前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可
混合ガウス過程
出力変数
(10ms毎)
・・・
音符内位置(発音開始からの時刻)
音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)
音符コンテキスト
音符内位置
長さ 高さ
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
問題設定
伴奏をヘッドフォンで聴きながら歌った歌声を利用する
21
76 (E)
MID
Iノートナンバ
78 (F#)
80 (G#)
82 (A#) 楽譜
・・・ 入力変数
(10ms毎)
音量軌跡
時間
前後の音符の音高や音長,強弱記号や演奏記号の有無を加えることも可
① 混合ガウス過程を利用して,生成過程(入出力関係)を記述する
③ 学習結果を利用して,新たな入力に対する出力を予測する
混合ガウス過程
② 混合ガウス過程のパラメータを学習する
出力変数
(10ms毎)
・・・
音符内位置(発音開始からの時刻)
音符の高さ(MIDIノートナンバ) 音符の長さ(Inter-onset interval)
音符コンテキスト
音符内位置
長さ 高さ
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
22
メロディの
音符列
時間
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
23
メロディの
音符列
入力変数空間(楽譜空間)
時間
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
24
メロディの
音符列
入力変数空間(楽譜空間)
時間
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
25
メロディの
音符列
入力変数空間(楽譜空間)
ガウス過程回帰
入力
出力
・・・
時間
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
26
メロディの
音符列
入力変数空間(楽譜空間)
状態系列 ガウス過程回帰
入力
出力
・・・
時間
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
① 混合ガウス過程による生成過程の記述
歌唱者が動的パターンを使い分ける動作を表現する
27
メロディの
音符列
入力変数空間(楽譜空間)
状態系列
出力
(音量軌跡)
ガウス過程回帰
入力
出力
・・・
時間
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
28
入力
出力
・・・
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
29
入力
出力
・・・ 平均
…
0
0
0
出力(軌跡)
10
3
グラム行列
20
20
20
10
3
5
5
10
10
…
…
0 1
1
1
単位行列
ノイズ
0 0
0
0
0
0 0 …
…
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
30
入力
出力
グラム行列: 出力(軌跡)のダイナミクスを制御する
・・・ 平均
…
0
0
0
出力(軌跡)
10
3
グラム行列
20
20
20
10
3
5
5
10
10
…
…
0 1
1
1
単位行列
ノイズ
0 0
0
0
0
0 0 …
…
カーネル関数 二つの入力変数間の近さ
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
31
入力
出力
グラム行列: 出力(軌跡)のダイナミクスを制御する
・・・ 平均
…
0
0
0
出力(軌跡)
近傍重視 広範囲重視
10
3
グラム行列
20
20
20
10
3
5
5
10
10
…
…
0 1
1
1
単位行列
ノイズ
0 0
0
0
0
0 0 …
…
カーネル関数
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
32
入力
出力
グラム行列: 出力(軌跡)のダイナミクスを制御する
・・・ 平均
…
0
0
0
出力(軌跡)
近傍重視 広範囲重視
10
3
グラム行列
20
20
20
10
3
5
5
10
10
…
…
0 1
1
1
単位行列
ノイズ
0 0
0
0
0
0 0 …
…
:大⇒急激に変動する軌跡, :大⇒滑らかに変動する軌跡を“生成しやすい”
カーネル関数
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
ガウス過程回帰 [Rasmussen+, 1996]
軌跡の確率分布(ガウス分布)
33
入力
出力
グラム行列: 出力(軌跡)のダイナミクスを制御する
・・・ 平均
…
0
0
0
出力(軌跡)
近傍重視 広範囲重視
回帰関数は,データから自動的に学習される
10
3
グラム行列
20
20
20
10
3
5
5
10
10
…
…
0 1
1
1
単位行列
ノイズ
0 0
0
0
0
0 0 …
…
:大⇒急激に変動する軌跡, :大⇒滑らかに変動する軌跡を“生成しやすい”
カーネル関数
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
② 混合ガウス過程のパラメータ学習
MCMC-EMアルゴリズムを利用する
34
メロディの
音符列
入力変数空間
状態系列
出力
(音量軌跡)
ガウス過程回帰
入力
出力
・・・
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
② 混合ガウス過程のパラメータ学習
MCMC-EMアルゴリズムを利用する
35
メロディの
音符列
入力変数空間
状態系列
出力
(音量軌跡)
ガウス過程回帰
入力
出力
・・・
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力
(コンテキスト)
② 混合ガウス過程のパラメータ学習
MCMC-EMアルゴリズムを利用する
36
メロディの
音符列
入力変数空間
状態系列
出力
(音量軌跡)
ガウス過程回帰
入力
出力
・・・
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
③ 学習結果を利用した出力の予測
予測分布の導出
37
学習データ 新しい入力変数
(音符コンテキスト)
パラメータ
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
③ 学習結果を利用した出力の予測
予測分布の導出
38
学習データ 新しい入力変数
(音符コンテキスト)
状態r の事後確率
入力変数空間
状態r
パラメータ
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
③ 学習結果を利用した出力の予測
予測分布の導出
39
学習データ 新しい入力変数
(音符コンテキスト)
状態r の予測分布 状態r の事後確率
入力変数空間
状態r のガウス過程回帰
学習データ
状態r
パラメータ
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
③ 学習結果を利用した出力の予測
予測分布の導出
40
学習データ 新しい入力変数
(音符コンテキスト)
状態r の予測分布 状態r の事後確率
入力変数空間
状態r のガウス過程回帰
学習データ
ガウス分布に従う!
状態r
パラメータ
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
基本動作の評価実験
新規の楽譜に対する音量軌跡の予測性能
− 音大声楽科出身の歌唱者1名が,J-popに分類される合計
10曲のサビを伴奏を聴きながら歌った歌声
− 入力変数:10msごとに,音符内位置(秒),音符の音高(MIDIノートナンバ),音符の音長(秒)からなる3次元ベクトル
− 出力変数:10msごとに音量を計算
− 評価方法:音量軌跡と予測分布の平均値系列との二乗平均平方根誤差
41
平均値系列
0
1000
2000
音量
学習区間(全体の7/10) 評価区間(全体の3/10)
0 2 4 6 8 10 12 [秒]
・・・ ・・・
予測
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
状態数R に対する予測性能 42
0 2 4 6 8 10 12 [秒]
音量
学習区間 評価区間
音量
音量
音量
• 状態数を増やすにつれて,予測性能は向上する
• ガウス過程の混合モデルを利用することの有効性を示せた
単一の
ガウス過程回帰
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
状態数R に対する予測性能の定量評価
評価区間における,音量軌跡と予測分布の平均値系列との二乗平均平方根誤差 (RMSE)
43
1 10 20 30 40 50 0
200
400
300
100 二乗平均平方根誤差
状態数
500
• 状態数を増やすにつれて,RMSEは減少する
• この歌唱者は20種類の動的パターンを使いまわす
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力変数に含める音符コンテキストの考察
状態数 の場合
44
音符内位置 音符内位置
+音高
300
380
360
二乗平均平方根誤差
音符内位置
+音長
音符内位置
+音高
+音長
320
340
音符内位置+音高
+音長+前音符との
音高差+音長+後音符との音高差+音長差
400
420
• 音符の音長より,音符の音高の方が有用
• 音符コンテキストを増やすにつれて,RMSEは減少する
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
まとめと今後の課題 45
音量の動きを楽譜と結びつける生成過程モデルの提案
− 音量軌跡の動きを楽譜と結びつけて学習する
− 新規の楽譜に対して,音量軌跡を予測する
⇒ 混合ガウス過程を利用したモデリング
HMMから生成される軌跡との比較
演奏記号や強弱記号のコンテキスト導入
カーネル関数の改良
− 2次系を表現するカーネル関数の導入
歌声知覚との対応付け
歌声認識・合成への応用
・・・
減衰振動
定常振動
楽譜
音量
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
予備スライド
46
• Slide heading: 32pt, orange りょうゴシック PlusN H Bold
• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5
Optional slide number:
10pt Arial Bold, white
NTT Communication Science Laboratories
入力変数空間における“状態”の学習結果
状態数 に固定
47
音符の音高 (MIDIノートナンバ)
0
1
1.5
2
0.5
音符の音長
2.5
70 72 74 76 78 80 82 84 86
• 各音符に対応するように状態の分布が学習される
• 予測の際,学習データに無い音符はこの空間で補間される