2
○ 中中中 中中中中 中中中中 中中中中 ,, 34 [1] P. Smaragdis, 2003 中中中中中中中 中中中中 中中中中中中中中中 中中中中中中中中中中中 中中中中中中中中中中中中 X W H 楽楽楽楽 中中中中 中中中中 (wav) 中中中中中中 (midi) 中中中中 中中中中中中中中中中中中中中 中中中中中中中中中中中中 楽楽楽楽楽楽楽楽楽 (NMF) 楽楽楽楽楽楽楽 [1] 中中中中中中中中中中中中中中中中中中 中中中中中中中中中中中中中中中中 NMF 中中中中中中 楽楽楽楽 中中中中中中中中中中中 中中中中中中中中中 中中 中中中中中中中中中中中中中中中中中中 中中中中中中中中中中中中 中中中中中中中中中中中中中中中中 1. 楽楽楽楽 NMF 楽楽楽楽楽楽楽楽楽楽楽 楽楽楽楽楽楽楽 中中中中中中中中中中中中中中中中中中 NMF… 中中中中 X 中 中中中中中中 ,2 W H 中中中中中中中中中中中中中 中中中中中中中中中中中中中中中中中中 中中中 (wav 中中中 ) 中中中中 (midi 中中中 ) 中 中中中中中中中中 2010 Toru Nakashika, Ariki Laboratory, Kobe University. 第 12 第第第第第第第第第第第 楽楽楽楽 楽楽楽楽 楽楽楽楽楽楽楽楽楽楽楽楽楽楽 中中中中 NMF 中中 中中中中中中中中中中中中 中中中中中中中中中中中中 中中中中中中 中中中中中中中中中中中中 中中中中中中中中 楽楽楽楽楽楽楽楽 楽楽楽楽楽楽楽楽 2. 楽楽楽楽 NMF 楽楽楽楽楽楽楽楽楽楽楽 楽楽楽楽楽楽楽楽 中中中中中 中中中中中中中中中中中中中中中中中 中中中中中中中 中中中中 中中中中中中中 中中 中中 中中中中中 楽楽 楽楽楽楽 NMF 中中中中中 楽楽 楽楽楽楽 NMF 中中中中中中中中中中中中中中中中中中中中中 中中中中中中中 中中中中中中中中中中 楽楽楽楽 楽楽楽楽 楽楽楽楽楽 中中中中 NMF 中中中中 中中中中中中中中中中中中中中 中中中中 NMF 中中中中 中中中中中中中中中中中中中中中中 ⇒ 中中中中中中中中中中中 中中中中中中中中中中中中中中中中中中中 ,? 楽楽楽楽中中中中中中中中中中中中 ⇒ 中中中中中楽楽楽楽楽楽楽楽楽 PSE) 中中中 c f y E , 中中中中中 中中中中中中中中中中中中 中中中中中中中 中中中中中 PSE STFT unsupervised NMF STFT supervised NMF Learning signals Test signals Separated sources Gaussian Process Basis vectors generation PSEs Distance Calculation Iteration 中中中中中中中中中中中 中中中中中中中中中中中 中中中中中中 中中中中中中中中中中中中中 中中中中中中中中中中中 中中中中 NMF 中中中中 中中中中 中中中中中中中中中 中中中中中中中中 中中中中中 楽楽楽楽 中中中中中中中中中 中中中中中中中中 楽楽楽楽楽楽 楽楽楽楽楽楽 中中中中中中中中中中中中中中中中中中 NMF 中中中 楽楽楽楽 1. NMF 楽楽楽楽楽楽楽楽楽楽 中中中中中中中中中中中中中 中中中中中中中中中中中中中中中中中中 n j i f f k K j i j i , 2 , 1 , , ) , ( n i f f k K i i , 2 , 1 , ) , ( 1 * * 中中中中中中 中中中中中中中 中 中中中中中中中中中中中 D 中中中中中中中中中 * f * y 中中中中中 中中中中中中中中中中中中中中中 中中中中中中中中中中中中中中 SPGP (sparse pseudo-input Gaussian process) +HS [2] 中中中中 [2] E. Snelson and Z. Ghahramani, 2006 K(x,x’) 中 RBF 中中中中 楽楽楽楽楽楽楽楽楽楽楽楽 3. 楽楽楽楽楽楽楽楽楽 (GP) 中中中中中中中中中中中中中中 第第第第第第 第第第第第第 0 500 1000 1500 2000 2500 3000 3500 4000 4500 -2 0 2 4 6 8 10 Frequency [Hz] Amplitude 0 5 10 15 20 25 30 35 40 45 50 -2 0 2 4 6 8 10 Frequency [Hz] Amplitude 楽楽楽 GP 楽 SPGP+HS 楽楽楽 T f f f f K K K f f k y K K N D y f y p * 1 * * * 1 * * * ) , ( ) , ( ) , , | ( 楽楽楽楽楽楽 GP SPGP +HS 楽楽楽楽楽楽楽楽楽楽楽楽楽楽楽楽楽 2. f y } ,.., 1 | ) , {( n i y f D i i 中中中中中中中中中中 中中中中 中中中中 f f 中中中中中中 ) , ( 1 1 f c f c ) , ( 2 2 f c f c ) , ( 3 3 f c f c 中中中中中中中中中中 (f,y) 中中中中中 中中中中中中中中中中中中中中中中 中中中中中中中中 us-NMF 楽楽楽楽楽 GP 中中中中中中中 楽楽楽楽 c

基底の反復生成と教師あり NMF を用いた信号解析

  • Upload
    tia

  • View
    156

  • Download
    5

Embed Size (px)

DESCRIPTION

基底の反復生成と教師あり NMF を用いた信号解析. 第 12 回音声言語シンポジウム. 34. X. W. H. アクティビティ 行列. アクティビティ行列. ○中鹿亘,滝口哲也,有木康雄 (神戸大). 観測スペクトル. 観測スペクトル. 基底行列. 基底行列. はじめに. [ 1 ] P. Smaragdis, 2003. 非負値行列因子分解 (NMF) による楽音解析 [1] 現在最も主流になっている楽音解析手法 音楽音響信号のスペクトログラムを NMF によって分解. 研究背景 音楽信号処理の高い関心 自動採譜技術の期待. - PowerPoint PPT Presentation

Citation preview

Page 1: 基底の反復生成と教師あり NMF を用いた信号解析

○ 中鹿亘,滝口哲也,有木康雄 (神戸大)

34

[1] P. Smaragdis, 2003

観測スペクトル基底行列

アクティビティ行列

基本周波数の情報を含む

発音時刻などの情報を含む

X WH楽音解析

≒ 自動採譜音響信号 (wav) から楽譜信号 (midi) への変換複数の音が混ざり合う信号から,個別の音を推定する逆問題

非負値行列因子分解 (NMF) による楽音解析 [1]現在最も主流になっている楽音解析手法音楽音響信号のスペクトログラムを NMF によって分解

研究背景音楽信号処理の高い関心

自動採譜技術の期待

近年,音楽コンテンツが爆発的に増加している

音楽アプリケーションなど,様々なアプリケーションへ応用可能

1. 教師なし NMF による楽音解析の問題点

提案手法の流れ学習ステージと解析ステージに分かれる

NMF… 非負行列 X を,2つの非負行列 W , H の積に分解するアルゴリズム

この分解アルゴリズムを音楽信号に適用

録音物 (wav データ ) から楽譜 (midi データ ) へ,自動的に変換する

2010 Toru Nakashika, Ariki Laboratory, Kobe University.

第 12回音声言語シンポジウム

はじめにはじめに

意図しない基底が現れてしまう

教師なし NMF では、機械的に分解しているので

スペクトルが倍音成分のみ⇒ 音高が求まる

スペクトルが混在している⇒ 音高が求まらない

従来手法の問題点従来手法の問題点

2. 教師あり NMF による楽音解析の問題点

データの数が膨大全ての楽器,全ての音高について基底を用意すると

観測スペクトル

基底行列

アクティビティ行列既知

・この行列が未知 ⇒教師なしNMF

・この行列が既知 ⇒教師ありNMF

比較的精度は高いが,全ての基底を用意するのは現実的ではない

予め基底を学習させる

提案手法提案手法

研究の動機教師なし NMF の問題点:意図しない基底が現れてしまう教師あり NMF の問題点:全ての基底を用意するのは非現実的

⇒  確率的な生成モデルから,カテゴリ内の基底を全て生成できないか?

分散と平均で表されるスペクトル包絡⇒  本研究では確率スペクトル包絡 ( PSE) と呼ぶ

cfyE ,

ある音高の微小に変動するスペクトル

あらゆる音高のスペクトル

PSE

STFT

unsupervised NMF

STFT

supervised NMF

Learning signals Test signals

Separated sources

Gaussian Process

Basis vectors generation

PSEs

Distance Calculation

Iteration

確率スペクトル包絡の学習

楽器ごとの学習用スペクトルを求める

確率スペクトル包絡からランダムにスペクトルを生成

教師あり NMFによって曲を解析

観測スペクトログラムとの距離を計算

学習データ

基底行列

アクティビティ行列

スペクトログラム

学習ステー学習ステージジ

学習信号のスペクトログラムを教師なし NMF で分解1.教師なし NMF により基底行列を計算 ガウス分布に従った確率過程

任意の関数曲線を分散込みで近似できる

njiffkKjiji ,2,1,,),(

niffkK ii ,2,1,),( 1**

任意の周波数  における予測値  はスペクトルピークの集合 D を用いて計算される

*f *y

本研究では,分散曲線を精度よく近似するためガウシアンプロセスを拡張した SPGP (sparse pseudo-input Gaussian process) +HS [2] を用いる

[2] E. Snelson and Z. Ghahramani, 2006

K(x,x’) はRBF カーネル

3.確率スペクトル包絡の学習ガウシアンプロセス (GP) で

 確率的なスペクトル包絡を近似

学習ステージ 解析ステージ

0 500 1000 1500 2000 2500 3000 3500 4000 4500-2

0

2

4

6

8

10

Frequency [Hz]

Ampli

tude

0 5 10 15 20 25 30 35 40 45 50-2

0

2

4

6

8

10

Frequency [Hz]

Ampli

tude

通常の GP と SPGP+HS の違い

Tf

f

ff

KKKffk

yKK

NDyfyp

*1

***

1*

**

),(

),(),,|(

求めたいもの

GP

SPGP+HS

2.基底行列からスペクトルピークを抽出

f

y

},..,1|),{( niyfD ii スペクトルピーク集合

平均曲線分散曲線

f

f

データベース

),( 11 fc

fc

),( 22 fc

fc

),( 33 fc

fc

倍音とその強度のペア (f,y) を全て抽出

カテゴリごとに学習信号を用意する学習信号は単旋律

us-NMF

ピーク抽出

GP

楽器や音素など

カテゴリ c

Page 2: 基底の反復生成と教師あり NMF を用いた信号解析

実験1:未学習データへの予測精度をみる実験提案手法により, 12秒程度の曲を解析学習,テスト共に MIDI データを演奏し,録音単一楽器 (piano1) のみを用いて PSE を学習様々な環境下で録音された曲を解析し,提案手法の頑健性をみる

比較手法

2010 Toru Nakashika, Ariki Laboratory, Kobe University.

解析ステージ解析ステージ

評価実験評価実験

①piano1 で演奏 ④残響レベル 40 で演奏②piano2 で演奏 ⑤残響レベル 100 で演奏③piano3 で演奏

   ①教師あり NMF1(piano1 のみ学習)   ②教師なし NMF (参考 ) 教師あり NMF2(それぞれの環境で録音した基底を学習)

実験結果各手法による自動採譜の正解率

0 2 4 6 8 10 12

40

45

50

55

60

65

70

75

80

提案手法

教師あり NMF

Time

0 2 4 6 8 10 12

40

45

50

55

60

65

70

75

80

0 2 4 6 8 10 12

40

50

60

70

80

90

100

0 2 4 6 8 10 12

40

50

60

70

80

90

100

提案手法 教師あり NMF

バイオリン

ピアノ

Time

教師あり NMF と近い結果が得られた

実験2:複数の楽器を含む音楽信号を解析する実験ピアノとヴァイオリンの2種類の楽器を用いて曲を解析比較手法

…教師あり NMF( ピアノとヴァイオリンを予め学習)

解析結果

確率スペクトル包絡の学習結果

確率スペクトル包絡 1,cfyE 生成されたスペクトル包絡 1

,cfye

ランダム生成

0 500 1000 1500 2000 2500 3000 35000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

調波フィルタ 0, ffH

生成された基底スペクトル1

0,cffq

lff

lffH0

20

0, 2)(exp

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 100000

0.2

0.4

0.6

0.8

1

1.2

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 100000

0.2

0.4

0.6

0.8

1

1.2

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 100000

0.2

0.4

0.6

0.8

1

1.2

1.確率スペクトル包絡から  ランダムにスペクトル包絡を生成ガウシアンプロセスの予測値     を用いるカテゴリごとに確率スペクトル包絡が存在非負擬似正規分布に基づいてランダム生成

),( ff

)0(0)0(),;(),;(

),;(yyyNyN

yM

),;( 111,

cf

cf

cfy yME

正規分布を基準軸で折り返した確率密度関数

11,, ~cfy

cfy Ee

2.調波フィルタを掛けてスペクトルを生成調波フィルタはスペクトルの基本周波数を決める音高の異なる複数の調波フィルタを掛ける

非負擬似正規分布は,非負値をとるスペクトルの生成に相応しい

データベース

),( 11 fc

fc

),( 22 fc

fc

),( 33 fc

fc

0 1000 2000 3000 4000 50000

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

0 1000 2000 3000 4000 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 1000 2000 3000 4000 50000

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

0 1000 2000 3000 4000 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

生成されたスペクトル

オリジナル

ピアノ( C4 ) ヴァイオリン( E4 )

0 1000 2000 3000 4000 5000 6000 7000 8000-2

0

2

4

6

8

10

Frequency [Hz]

Ampli

tude

0 1000 2000 3000 4000 5000 6000 7000 8000-2

0

2

4

6

8

10

Frequency [Hz]

Ampli

tude

ピアノ ヴァイオリン

カテゴリによって確率スペクトルが異なっている

⇒ 楽器カテゴリの特徴を確率スペクトル包絡によって捉えることが可能

0 2 4 6 8 10 12

40

45

50

55

60

65

70

75

80

教師なし NMF

正解データ

使用したデータ: RWC データベースよりRWC-MDB-C-2001No. 43: Sicilienne op.78 / Faure, Gabriel

確率スペクトル包絡から生成されたスペクトルの例

0f調波フィルタは,任意の音高  について,混合ガウシアンコンポーネントで計算される

確率スペクトル包絡 2,cfyE 生成されたスペクトル包絡 2

,cfye

ピッチ付与

0 500 1000 1500 2000 2500 3000 35000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

生成された基底スペクトル 2

0,cffq

カテゴリ C1

カテゴリ C2

0 500 1000 1500 2000 2500 3000 3500 4000 4500 50000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 1000 2000 3000 4000 5000 60000

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0 2000 4000 6000 8000 10000 120000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 1000 2000 3000 4000 5000 60000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

ランダム基底行列

3.テストデータに対し教師あり NMF を実行テストデータのスペクトログラムを NMF の入力とする擬似逆行列より,アクティビティ行列を直接求める確率スペクトル包絡から生成された基底行列を使用

スペクトログラムX

pW

H(p)

4.選択的アルゴリズムによる最適解探索観測スペクトログラムと, WH の距離を計算1.~3.を繰り返し,距離が最も最小となる (W,H) を解析結果とする

TT WWWW

XWH1)(

1. 擬似逆行列を計算

2. 非負空間へ射影

)},0[,{

xxRRHH

3. 正規化

kjkj H

HH

,2,

||||

擬似逆行列を用いた教師あり NMF によるアクティビティ行列を算出するまでの流れ

アクティビティ行列

),(minarg)ˆ,ˆ( )()( pp

pHWXDHW

H

1.~3.へ

解析結果

テストデータ

100)([%]

N

NNNacc delins

N :全音符数 insN :挿入誤り数 delN :削除誤り数

正解データのピアノロール

オリジナルと似たスペクトルを生成できている

⇒ 教師ありNMF と同程度以上の性能を持つ

提案手法では,教師あり NMF とほぼ同じ結果が得られた

提案手法では,他の手法に比べて頑健性があることが分かる

解析結果①piano1 で演奏した解析結果の例

s-NMF