17
Chapter8 樂器辨識 Chapter8 樂器辨識

Ch8 Instruments Recognition - 樹德科技大學PWS伺服主機 Instruments Recognition.pdf · Microsoft PowerPoint - Ch8 Instruments Recognition.ppt Author Shi-Huang Chen Created

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

  • Chapter8 樂器辨識Chapter8 樂器辨識

  • 目錄

    實驗目的與簡介1

    原理說明2

    實驗步驟3

    結果與討論4

    5 參考文獻

  • 實驗目的

    設計一樂器單音分類系統

    分類各種不同的樂器單音

    對 8 種樂器來進行辨識梅爾倒頻譜

    高斯混合模型

    HTK (Hidden Markov Models ToolKits)

  • 原理說明-梅爾頻率倒頻譜係數

    ( )ns

  • 原理說明-高斯混合模型 (1/7)

    高斯混合模型

    單一高斯機率密度函數的延伸

    能平滑地近似任意形狀的密度分佈

    一維的高斯分佈可以表示成下列的式子

    其中 為標準差,

    為期望值σ

    μ πσ 21

  • 原理說明-高斯混合模型 (2/7)

    二維高斯分佈定義如下

    其中,

    設定

    為一個近似橢圓的分佈

    0 0, 1.5, ,75.0 yx ==== μμσσ yx) ( 0 為相關係數ρρ =

    ( )yx

    yxyxσσ

    ρ ),(Cov, =

  • 原理說明-高斯混合模型 (3/7)

    -5

    0

    5

    -5

    0

    50

    0.05

    0.1

    0.15

    0.2

    Data

    Pro

    bilit

    y

    00, 0, 1.5, ,75.0 yx ===== ρμμσσ yx

  • 高斯混合模型(hide page)

    二維高斯分佈定義如下

    )1( 2222222222

    ρσσσσρσσσσρσσρσσ

    −=−=⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛=Σ yxyxyx

    yyx

    yxx

    Σ2)2( π

    其中,

    ( ) ( ) yxyx

    yxyxyxyx σσρσσ

    ρ ,),(Cov),(Cov, =→=

    [ ]⎥⎥⎦

    ⎢⎢⎣

    −−

    ⎥⎥

    ⎢⎢

    ⎡−−−

    )()(

    )()(21

    1

    2

    2

    y

    x

    yyx

    yxxyx y

    xyx

    μμ

    σσρσσρσσ

    μμ

    x和 y的covariance matrix

  • 原理說明-高斯混合模型 (4/7)假設我們有若干組 d 維空間的點在這若干組特徵向量中,一個多維高斯分佈定義如下

    特徵向量中各分量皆為獨立事件(即 )

    其中 及 為第 n 個高斯分佈的期望值及共變異矩陣,這些參數決定了此密度函數的特性,如函數形狀的中心,寬窄及走向等。

    ( ) ( )nnT

    n xx

    ndnn

    exGμμ

    πμ

    −Σ−− −

    Σ=Σ

    1)(21

    )2(1,,

    nμ nΣ

    0=ρ

  • 原理說明-高斯混合模型 (5/7)

    高斯混合模型是由數個高斯分佈所組成,其中 為各高斯分佈的權重,我們可以利用一個高斯混合模型所訓練過後的分佈來代表一個樂器的聲音

    ,and

    訓練時如何決定權重 及各分佈 的參數??

    ( )11,, ΣμxG

    ( )22 ,, ΣμxG

    ( )nnxG Σ,,μ

    x Σ )(xb

    ( ) ( )∑=

    Σ=M

    nnnn xGxb

    1,,μα

    11

    =∑=

    M

    nnα

    nα ( )nnxG Σ,,μ

  • 原理說明-高斯混合模型 (6/7)最大似然率預測MLE(Maximum Likelihood Estimation)GMM中log-likelihood function定義如下:

    定義事後機率為 (表示資料x屬於哪一分佈的機率)

    定義初始參數

    ( )( )∑ Σ

    Σ=

    i iii

    jjjj xG

    xGx

    ,,,,

    )(μα

    μαβ

    ( )xbJ ln)( =θJ值越大表示相似度越高(接近0)

    ],...,,,...,,,...,,[ 222212121 nnn σσσμμμαααθ =

    使用 計算事後機率θ )(xjβ

    計算新的 、 及 ,其中d為特徵維度jμ 2jσ jα

    ( )

    ( )∑

    =

    == n

    iij

    n

    iiij

    newj

    x

    xxu

    1

    1

    β

    β ( )( ) ( )

    ( )∑

    =

    =

    −−= n

    iij

    newji

    Tnewji

    n

    iij

    newj

    x

    xxx

    d1

    12 1

    β

    μμβσ ( )∑

    =

    =n

    iij

    newj xn 1

    1 βα

    令 ,

    若 ,則停止訓練

    否則令 ,跳回步驟1

    ],...,,,...,,,...,,[ 2222

    12121newn

    newnewnewn

    newnewnewn

    newnewnew σσσμμμαααθ =

    ThresholdJJ new

  • 原理說明-高斯混合模型 (7/7)

    Data from http://neural.cs.nthu.edu.tw/jang/

    0 5 10 15 20 25 30-1100

    -1000

    -900

    -800

    -700

    -600

    -500

    No. of iterations of GMM training

    Log

    prob

    abili

    ty

    -0.5 0 0.5 1 1.5

    -0.4

    -0.2

    0

    0.2

    0.4

    0.6

    0.8

    1

    1.2

    1.4

    1.6

    -0.50

    0.51

    1.5

    -0.5

    00.5

    11.5

    -10

    -8

    -6

    -4

    -2

    0

    -0.5 0 0.5 1 1.5

    -0.4

    -0.2

    0

    0.2

    0.4

    0.6

    0.8

    1

    1.2

    1.4

    1.6

  • 實驗步驟 –Training/Recognition

    thJ new

  • 實驗步驟

    辨識樂器種類

  • 結果與討論

    樂器種類 總樣本數 正確數目 正確率(%)

    Alto Saxophone 30 29 96.66

    Bassoon 29 29 100

    Clarinet 21 20 95.23

    Flute 23 23 100

    French Horn 18 18 100

    Oboe 19 19 100

    Trumpet 23 23 100

    Violin 34 33 97.06

    內部測試結果

  • 結果與討論

    DEMO

  • 參考文獻

    [1] 王小川, “語音訊號處理”, 全華圖書股份有限公司, 2009年2月[2]HTK Website “http://htk.eng.cam.ac.uk/”[3] 張智星老師教學網站 ”http://neural.cs.nthu.edu.tw/jang/”[4] Wikipedia, “http://www.wikipedia.org/”[5] Electronic Music Studios: University of Iowa

    http://theremin.music.uiowa.edu/index.html[6] Harya Wicaksana, Septian Hartono, Foo Say Wei, “Recognition of

    Musical Instruments”,IEEE APCCAS,2006[7] Hung-Tze Cheng, Yi-Hsuan Yang, Yu-Ching Lin, Homer H. Chen,

    Multimodel Structure Segmentation and Analysis of Music Using Audio and Textural Information, ISCAS 2009

    [8] http://www.cse.ttu.edu.tw/~jmchen/midi/docs/form.htm