Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Chapter8 樂器辨識Chapter8 樂器辨識
目錄
實驗目的與簡介1
原理說明2
實驗步驟3
結果與討論4
5 參考文獻
實驗目的
設計一樂器單音分類系統
分類各種不同的樂器單音
對 8 種樂器來進行辨識梅爾倒頻譜
高斯混合模型
HTK (Hidden Markov Models ToolKits)
原理說明-梅爾頻率倒頻譜係數
( )ns
原理說明-高斯混合模型 (1/7)
高斯混合模型
單一高斯機率密度函數的延伸
能平滑地近似任意形狀的密度分佈
一維的高斯分佈可以表示成下列的式子
其中 為標準差,
為期望值σ
μ πσ 21
原理說明-高斯混合模型 (2/7)
二維高斯分佈定義如下
其中,
設定
為一個近似橢圓的分佈
0 0, 1.5, ,75.0 yx ==== μμσσ yx) ( 0 為相關係數ρρ =
( )yx
yxyxσσ
ρ ),(Cov, =
原理說明-高斯混合模型 (3/7)
-5
0
5
-5
0
50
0.05
0.1
0.15
0.2
Data
Pro
bilit
y
00, 0, 1.5, ,75.0 yx ===== ρμμσσ yx
高斯混合模型(hide page)
二維高斯分佈定義如下
)1( 2222222222
ρσσσσρσσσσρσσρσσ
−=−=⎟⎟⎠
⎞⎜⎜⎝
⎛=Σ yxyxyx
yyx
yxx
Σ2)2( π
其中,
( ) ( ) yxyx
yxyxyxyx σσρσσ
ρ ,),(Cov),(Cov, =→=
[ ]⎥⎥⎦
⎤
⎢⎢⎣
⎡
−−
⎥⎥
⎦
⎤
⎢⎢
⎣
⎡−−−
−
)()(
)()(21
1
2
2
y
x
yyx
yxxyx y
xyx
μμ
σσρσσρσσ
μμ
x和 y的covariance matrix
原理說明-高斯混合模型 (4/7)假設我們有若干組 d 維空間的點在這若干組特徵向量中,一個多維高斯分佈定義如下
特徵向量中各分量皆為獨立事件(即 )
其中 及 為第 n 個高斯分佈的期望值及共變異矩陣,這些參數決定了此密度函數的特性,如函數形狀的中心,寬窄及走向等。
( ) ( )nnT
n xx
ndnn
exGμμ
πμ
−Σ−− −
Σ=Σ
1)(21
)2(1,,
nμ nΣ
0=ρ
原理說明-高斯混合模型 (5/7)
高斯混合模型是由數個高斯分佈所組成,其中 為各高斯分佈的權重,我們可以利用一個高斯混合模型所訓練過後的分佈來代表一個樂器的聲音
,and
訓練時如何決定權重 及各分佈 的參數??
( )11,, ΣμxG
( )22 ,, ΣμxG
( )nnxG Σ,,μ
x Σ )(xb
1α
2α
nα
( ) ( )∑=
Σ=M
nnnn xGxb
1,,μα
nα
11
=∑=
M
nnα
nα ( )nnxG Σ,,μ
原理說明-高斯混合模型 (6/7)最大似然率預測MLE(Maximum Likelihood Estimation)GMM中log-likelihood function定義如下:
定義事後機率為 (表示資料x屬於哪一分佈的機率)
定義初始參數
( )( )∑ Σ
Σ=
i iii
jjjj xG
xGx
,,,,
)(μα
μαβ
( )xbJ ln)( =θJ值越大表示相似度越高(接近0)
],...,,,...,,,...,,[ 222212121 nnn σσσμμμαααθ =
使用 計算事後機率θ )(xjβ
計算新的 、 及 ,其中d為特徵維度jμ 2jσ jα
( )
( )∑
∑
=
== n
iij
n
iiij
newj
x
xxu
1
1
β
β ( )( ) ( )
( )∑
∑
=
=
−−= n
iij
newji
Tnewji
n
iij
newj
x
xxx
d1
12 1
β
μμβσ ( )∑
=
=n
iij
newj xn 1
1 βα
令 ,
若 ,則停止訓練
否則令 ,跳回步驟1
],...,,,...,,,...,,[ 2222
12121newn
newnewnewn
newnewnewn
newnewnew σσσμμμαααθ =
ThresholdJJ new
原理說明-高斯混合模型 (7/7)
Data from http://neural.cs.nthu.edu.tw/jang/
0 5 10 15 20 25 30-1100
-1000
-900
-800
-700
-600
-500
No. of iterations of GMM training
Log
prob
abili
ty
-0.5 0 0.5 1 1.5
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
-0.50
0.51
1.5
-0.5
00.5
11.5
-10
-8
-6
-4
-2
0
-0.5 0 0.5 1 1.5
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
實驗步驟 –Training/Recognition
thJ new
實驗步驟
辨識樂器種類
結果與討論
樂器種類 總樣本數 正確數目 正確率(%)
Alto Saxophone 30 29 96.66
Bassoon 29 29 100
Clarinet 21 20 95.23
Flute 23 23 100
French Horn 18 18 100
Oboe 19 19 100
Trumpet 23 23 100
Violin 34 33 97.06
內部測試結果
結果與討論
DEMO
參考文獻
[1] 王小川, “語音訊號處理”, 全華圖書股份有限公司, 2009年2月[2]HTK Website “http://htk.eng.cam.ac.uk/”[3] 張智星老師教學網站 ”http://neural.cs.nthu.edu.tw/jang/”[4] Wikipedia, “http://www.wikipedia.org/”[5] Electronic Music Studios: University of Iowa
http://theremin.music.uiowa.edu/index.html[6] Harya Wicaksana, Septian Hartono, Foo Say Wei, “Recognition of
Musical Instruments”,IEEE APCCAS,2006[7] Hung-Tze Cheng, Yi-Hsuan Yang, Yu-Ching Lin, Homer H. Chen,
Multimodel Structure Segmentation and Analysis of Music Using Audio and Textural Information, ISCAS 2009
[8] http://www.cse.ttu.edu.tw/~jmchen/midi/docs/form.htm