20
歌声F0系列からの楽譜逸脱成分の抽出 動特性モデルに基づく楽譜との時間的対応付け 大石康智(NTT, 亀岡弘和(東大/NTT), 持橋大地(統数研),永野秀尚,柏野邦夫(NTT

Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

•深い青を基にメタル調の雰囲気をだしてみました。

•基調の青と真逆のオレンジ文字は強調したい部分に使用できます。

•タイトルフォントはりょうゴシック PlusN H、本文はDFP華康ゴシック体W5, Bold

• Presentation title: 32pt りょうゴシック PlusN H

• Presentation title: 28pt orange DFP華康ゴシック体W5

歌声F0系列からの楽譜逸脱成分の抽出

- 動特性モデルに基づく楽譜との時間的対応付け -

大石康智(NTT), 亀岡弘和(東大/NTT),

持橋大地(統数研),永野秀尚,柏野邦夫(NTT)

Page 2: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

2人の歌声を聴いてください

楽譜

2

歌唱者A 歌唱者B

4 #

4 れ た る あ お ぞ ら た だ よ う く も よ

基本周波数(F0)

時間

周波数

基本周波数(F0)

時間

発声器官の物理的制約による成分

(オーバーシュートやプレパレーション,微細変動成分)

意図的表現に起因する成分

(特定の音符における,ビブラートやポルタメント)

⇒ 人間らしさ・自然性

⇒ 巧拙感・習熟度

喜びの歌(第九)

Page 3: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

本研究の目的

3

F0系列からの楽譜逸脱成分の特徴抽出による

歌い方,個性の学習フレームワークの構築

関連研究:VocaListener[Nakano2009],HMM歌声合成[大浦2010]

歌唱者A

F0系列

提案法

・・・

音符並び

音符①

逸脱成分

音符②

逸脱成分

歌唱者Aの歌い方・個性表

音高 音長 物理制約 意図表現

A4

A4

A#4

100ms

500ms

パターンA パターン3

パターン1 パターンC

パターン2 パターンB 50ms

・・・

・・・

・・・

・・・

ポイント:F0生成のための物理モデルの利用

− 藤崎モデル[Fujisaki1988],歌声のF0制御モデル[Saitou2005]

− 歌声のF0動特性のモデル化とそのパラメータ推定[Ohishi2010]

Page 4: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

3つの成分で歌声のF0を記述する

逸脱成分抽出のためのF0生成モデル

4

ノート指令

対数周波数

表現指令

対数周波数

F0系列

2次系

臨界制動系

微細変動成分

ノート成分

表現成分

楽譜の音符の並び

矩形な指令信号

オーバーシュートなどの

物理的制約による逸脱成分

ビブラートなど意図的

表現による逸脱成分

Page 5: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

3つの成分で歌声のF0を記述する

逸脱成分抽出のためのF0生成モデル

5

ノート指令

対数周波数

表現指令

対数周波数

F0系列

2次系

臨界制動系

微細変動成分

ノート成分

表現成分

楽譜の音符の並び

矩形な指令信号

オーバーシュートなどの

物理的制約による逸脱成分

ビブラートなど意図的

表現による逸脱成分

Page 6: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

本発表のアウトライン

提案モデルに基づいて,楽譜逸脱成分を特徴抽出するための,統計的手法を駆使したパラメータ推定法

① 後退差分による連続時間F0生成モデルの離散時間表現

② 楽譜既知の下でノート指令信号の確率モデル化

③ F0の確率密度関数とパラメータ推定アルゴリズムの導出

6

ノート指令

F0系列

微細変動成分 表現指令

Page 7: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

本発表のアウトライン

提案モデルに基づいて,楽譜逸脱成分を特徴抽出するための,統計的手法を駆使したパラメータ推定法

① 後退差分による連続時間F0生成モデルの離散時間表現

② 楽譜既知の下でノート指令信号の確率モデル化

③ F0の確率密度関数とパラメータ推定アルゴリズムの導出

7

ノート指令

F0系列

微細変動成分 表現指令

Page 8: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

連続時間系から離散時間系への変換

− ノート制御系の伝達関数

−後退差分近似

− z領域の伝達関数

① 歌声のF0の離散時間表現

8

ノート指令

対数周波数

2次系

ノート成分

離散時間表現のサンプリング周期

減衰率

固有周波数

ノート制御系

全極モデル

ノート制御パラメータ

Page 9: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

連続時間系から離散時間系への変換

− ノート制御系の伝達関数

−後退差分近似

− z領域の伝達関数

① 歌声のF0の離散時間表現

9

ノート指令

対数周波数

2次系

ノート成分

離散時間表現のサンプリング周期

減衰率

固有周波数

ノート制御系

オーバーシュートなどの

物理的制約による逸脱成分

全極モデル

ノート制御パラメータ

Page 10: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

本発表のアウトライン

提案モデルに基づいて,楽譜逸脱成分を特徴抽出するための,統計的手法を駆使したパラメータ推定法

① 後退差分による連続時間F0生成モデルの離散時間表現

② 楽譜既知の下でノート指令信号の確率モデル化

③ F0の確率密度関数とパラメータ推定アルゴリズムの導出

10

ノート指令

F0系列

微細変動成分 表現指令

Page 11: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

② ノート指令の確率モデル化(楽譜既知)

11

1番目の音符

S1,1

S1,3

S1,2

S1,J

i 番目の音符 I 番目の音符

・・・

簡単のため,

遷移確率は定数とする

音符の音高からの ズレ(キーシフト)

楽譜の音符の音高

(固定)

ノート指令のパラメータ

状態系列 分散パラメータ

・・・

状態遷移に伴う平均 の時間軌跡

対数周波数

状態出力分布

Page 12: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

本発表のアウトライン

提案モデルに基づいて,楽譜逸脱成分を特徴抽出するための,統計的手法を駆使したパラメータ推定法

① 後退差分による連続時間F0生成モデルの離散時間表現

② 楽譜既知の下でノート指令信号の確率モデル化

③ F0の確率密度関数とパラメータ推定アルゴリズムの導出

12

ノート指令

F0系列

微細変動成分 表現指令

Page 13: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

③ F0の確率密度関数の導出 ノート成分

− 全極モデル

− ノート指令の確率モデル

表現成分+微細変動成分

歌声のF0

13

i 番目のノートを制御する

パラメータ

で構成される部分行列

Page 14: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

③ パラメータ推定アルゴリズムの導出 ノート成分

− 全極モデル

− ノート指令の確率モデル

表現成分+微細変動成分

歌声のF0

14

i 番目のノートを制御する

パラメータ

で構成される部分行列

パラメータの最大事後確率推定

パラメータ:

• 状態系列

• キーシフト(音高ズレ)パラメータ

• ノート制御パラメータ

• 分散パラメータ

⇒ EM法の利用 (藤崎モデルの統計的パラメータ推定法 [Kameoka2010])

Page 15: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

人工データからのノート指令と成分の推定

歌声F0制御モデルから生成されるF0 [Saitou2005]

15

メロディ(ノート指令)

4400

4800

5200

5600

6000

[cen

t] (

Log F

req.)

+ビブラート,プレパレーション

4400

4800

5200

5600

6000

[cent]

(Log F

req.)

0 1 2 3 4 5 [sec.]

+オーバーシュート(ノート成分)

+微細変動成分(F0)

0 1 2 3 4 5 [sec.]

サザンオールスターズ

「TSUNAMI」より

Page 16: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

人工データからのノート指令と成分の推定

人工データを利用した推定の様子

− 予稿には定量的な実験結果の記載

16

Page 17: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

観測データからのノート指令と成分の推定

実際の観測データを利用した推定の様子

− 無声音のためF0が推定されない区間 ⇒ 欠損データ

17

Page 18: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

その他の成分について

ガウス性白色雑音(表現成分と微細変動成分に相当)

18

歌唱者A 歌唱者B 歌唱者C

音符1

0.5

[cent] 200

0

-200

音符2

音符3

200

0

-200 200

0

-200 1.0 [sec.] 0.5 1.0 0.5 1.0

表現指令

臨界制動系

表現成分

Page 19: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

まとめと今後の展開

F0系列からの楽譜逸脱成分の特徴抽出による

歌い方,個性の学習フレームワークの構築

− 歌声のF0生成モデルとそのパラメータ推定法の提案

F0系列 ⇒ ノート成分,表現成分,微細変動成分

− 人工データ,観測データを利用した推定実験

表現指令,表現成分の推定

聴取実験によるモデルの妥当性の評価

大規模データに適用し,歌唱者の“個性表”の学習

ボーカル抽出,抑圧のための事前分布への利用

19

Page 20: Presentation Title タイトル - NTT CS研 公式ホーム …...•Presentation title: 32pt りょうゴシック PlusN H •Presentation title: 28pt orange DFP華康ゴシック体W5

• Slide heading: 32pt, orange りょうゴシック PlusN H Bold

• Slide body: 24pt, Bold 20pt, 18pt, Regular DFP華康ゴシック体W5

Optional slide number:

10pt Arial Bold, white

ありがとうございました

20