Ch8 Instruments Recognition - 樹德科技大學PWS伺服主機 Instruments Recognition.pdf · Microsoft PowerPoint - Ch8 Instruments Recognition.ppt Author Shi-Huang Chen Created

Chapter8 樂器辨識Chapter8 樂器辨識

目錄

實驗目的與簡介1

原理說明2

實驗步驟3

結果與討論4

5 參考文獻

實驗目的

設計一樂器單音分類系統

分類各種不同的樂器單音

對 8 種樂器來進行辨識梅爾倒頻譜

高斯混合模型

HTK (Hidden Markov Models ToolKits)

原理說明-梅爾頻率倒頻譜係數

( )ns

原理說明-高斯混合模型 (1/7)

高斯混合模型

單一高斯機率密度函數的延伸

能平滑地近似任意形狀的密度分佈

一維的高斯分佈可以表示成下列的式子

其中為標準差，

為期望值σ

μ πσ 21


二維高斯分佈定義如下

其中，

設定

為一個近似橢圓的分佈

0 0, 1.5, ,75.0 yx ==== μμσσ yx) ( 0 為相關係數ρρ =

( )yx

yxyxσσ

ρ ),(Cov, =


-5

0

5

-5

0

50

0.05

0.1

0.15

0.2

Data

Pro

bilit

y

00, 0, 1.5, ,75.0 yx ===== ρμμσσ yx

高斯混合模型(hide page)

二維高斯分佈定義如下

)1( 2222222222

ρσσσσρσσσσρσσρσσ

−=−=⎟⎟⎠

⎞⎜⎜⎝

⎛=Σ yxyxyx

yyx

yxx

Σ2)2( π

其中,

( ) ( ) yxyx

yxyxyxyx σσρσσ

ρ ,),(Cov),(Cov, =→=

[ ]⎥⎥⎦

⎤

⎢⎢⎣

⎡

−−

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡−−−

−

)()(

)()(21

1

2

2

y

x

yyx

yxxyx y

xyx

μμ

σσρσσρσσ

μμ

x和 y的covariance matrix

原理說明-高斯混合模型 (4/7)假設我們有若干組 d 維空間的點在這若干組特徵向量中，一個多維高斯分佈定義如下

特徵向量中各分量皆為獨立事件(即 )

其中及為第 n 個高斯分佈的期望值及共變異矩陣，這些參數決定了此密度函數的特性，如函數形狀的中心，寬窄及走向等。

( ) ( )nnT

n xx

ndnn

exGμμ

πμ

−Σ−− −

Σ=Σ

1)(21

)2(1,,

nμ nΣ

0=ρ


高斯混合模型是由數個高斯分佈所組成，其中為各高斯分佈的權重，我們可以利用一個高斯混合模型所訓練過後的分佈來代表一個樂器的聲音

,and

訓練時如何決定權重及各分佈的參數??

( )11,, ΣμxG

( )22 ,, ΣμxG

( )nnxG Σ,,μ

x Σ )(xb

1α

2α

nα

( ) ( )∑=

Σ=M

nnnn xGxb

1,,μα

nα

11

=∑=

M

nnα

nα ( )nnxG Σ,,μ

原理說明-高斯混合模型 (6/7)最大似然率預測MLE(Maximum Likelihood Estimation)GMM中log-likelihood function定義如下：

定義事後機率為 (表示資料x屬於哪一分佈的機率)

定義初始參數

( )( )∑ Σ

Σ=

i iii

jjjj xG

xGx

,,,,

)(μα

μαβ

( )xbJ ln)( =θJ值越大表示相似度越高(接近0)

],...,,,...,,,...,,[ 222212121 nnn σσσμμμαααθ =

使用計算事後機率θ )(xjβ

計算新的、及，其中d為特徵維度jμ 2jσ jα

( )

( )∑

∑

=

== n

iij

n

iiij

newj

x

xxu

1

1

β

β ( )( ) ( )

( )∑

∑

=

=

−−= n

iij

newji

Tnewji

n

iij

newj

x

xxx

d1

12 1

β

μμβσ ( )∑

=

=n

iij

newj xn 1

1 βα

令，

若，則停止訓練

否則令，跳回步驟1

],...,,,...,,,...,,[ 2222

12121newn

newnewnewn

newnewnewn

newnewnew σσσμμμαααθ =

ThresholdJJ new


Data from http://neural.cs.nthu.edu.tw/jang/

0 5 10 15 20 25 30-1100

-1000

-900

-800

-700

-600

-500

No. of iterations of GMM training

Log

prob

abili

ty

-0.5 0 0.5 1 1.5

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

-0.50

0.51

1.5

-0.5

00.5

11.5

-10

-8

-6

-4

-2

0

-0.5 0 0.5 1 1.5

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

實驗步驟 –Training/Recognition

thJ new

實驗步驟

辨識樂器種類

結果與討論

樂器種類總樣本數正確數目正確率(%)

Alto Saxophone 30 29 96.66

Bassoon 29 29 100

Clarinet 21 20 95.23

Flute 23 23 100

French Horn 18 18 100

Oboe 19 19 100

Trumpet 23 23 100

Violin 34 33 97.06

內部測試結果

結果與討論

DEMO

參考文獻

[1] 王小川, “語音訊號處理”, 全華圖書股份有限公司, 2009年2月[2]HTK Website “http://htk.eng.cam.ac.uk/”[3] 張智星老師教學網站 ”http://neural.cs.nthu.edu.tw/jang/”[4] Wikipedia, “http://www.wikipedia.org/”[5] Electronic Music Studios: University of Iowa

http://theremin.music.uiowa.edu/index.html[6] Harya Wicaksana, Septian Hartono, Foo Say Wei, “Recognition of

Musical Instruments”,IEEE APCCAS,2006[7] Hung-Tze Cheng, Yi-Hsuan Yang, Yu-Ching Lin, Homer H. Chen,

Multimodel Structure Segmentation and Analysis of Music Using Audio and Textural Information, ISCAS 2009

[8] http://www.cse.ttu.edu.tw/~jmchen/midi/docs/form.htm

Documents

Ch8 Instruments Recognition - 樹德科技大學PWS伺服主機 Instruments Recognition.pdf · Microsoft PowerPoint - Ch8 Instruments Recognition.ppt Author Shi-Huang Chen Created