36
1 イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出 ◎林 知樹†, 渡部晋治††, 戸田智基†, 堀貴明††, Jonathan Le Roux††, 武田一哉名古屋大学 †† Mitsubishi Electric Research Laboratory (MERL) 日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

Embed Size (px)

Citation preview

Page 1: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

1

イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる

多重音響イベント検出◎林 知樹†, 渡部晋治††, 戸田智基†,

堀貴明††, Jonathan Le Roux††, 武田一哉†† 名古屋大学

†† Mitsubishi Electric Research Laboratory (MERL)

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 2: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

2

環境音理解への関心の高まりp 従来の音声・音楽以外のあらゆる音を理解する試みp 非常に幅広い応用の可能性

n 監視 / ライフログ / 環境理解 / 騒音分析 etc.p 多数のチャレンジの開催 / データセットの公開

n DCASE2013 / 2016 / 2017:環境音分類/検出チャレンジn AudioSet:Google謹製大規模環境音データセット

AudioSethttp://g.co/audioset

DCASE2017http://www.cs.tut.fi/sgn/arg/dcase2017/

今後ますますの発展が望まれる研究分野

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 3: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

3

多重音響イベント検出 (SED)p イベントの開始/終了時刻+ラベルを特定するタスクp 同時刻に複数のイベントがオーバーラップ

Event 1Event 2

TimeEvent 3

SED System

Time

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 4: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

4

本研究の貢献p 新たな多重音響イベント検出手法を提案

p 多重音響イベント検出タスクDCASE2016 Task2で評価

提案1: BLSTM-HMMハイブリッドモデルü BLSTMで入力特徴量の時系列情報を最大限利用ü HMMで出力系列に制約+系列単位の処理を実現

提案2: SADネットワークによるバイナリマスキングü イベント区間を検出するネットワークの併用ü 雑音環境下における挿入誤りを効率的に抑制

チャレンジのベスト結果を上回る性能を実現

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 5: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

5

関連研究 GMM-HMMベースp イベント毎にGMM-HMMを学習p ビタビアルゴリズムで最尤系列を決定

J 系列単位の処理が可能L 入力特徴量空間をGMMでうまく表現できない

Event 1 GMM-HMM

Event C GMM-HMM

Viterbi DecodingTime

State

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 6: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

6

関連研究 NMFベースp 各イベントの基底を学習し基底辞書を作成p 辞書を利用し各イベントのアクティベーションを推定

J 入力特徴量の次元間相関を活用可能L フレーム間相関を非活用 / フレーム単位の処理

Event 1 basis

Event 2 basis

Event 3 basis

Pre-learned event basis dictionary

Event 3 activationEvent 2 activationEvent 1 activation

Thresholding

Classifier

Fixed

PredictionPrediction

Data

NM

F

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 7: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

7

関連研究 ニューラルネットベースp マルチラベル分類のネットワークを学習p 閾値処理で各イベントのアクティベーションを推定

J BLSTMなどの利用で入力特徴量をフル活用L フレーム単位の処理

Thresholding

Sigmoid

Feature Vector

Event 1 Prediction

Event 2PredictionEvent 3

Prediction

Neural Network

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 8: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

8

本研究の提案提案①: BLSTM-HMMハイブリッドモデルü BLSTMで入力特徴量の時系列情報を最大限利用ü HMMで出力系列に制約+系列単位の処理を実現

提案②: SADネットワークバイナリマスキングü イベント区間を検出するネットワークの併用ü 雑音環境下における挿入誤りを効率的に抑制

上記2つの提案手法を統合したイベント区間検出統合型BLSTM-HMMハイブリッドモデル

を提案

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 9: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

9

提案法の位置づけ

手法 入力次元間の相関の利用

入力フレーム間の相関の利用 系列単位の処理

GMM-HMM ✕ ✕ ◯

NMF ◯ ✕ ✕

NN ◯ ◯ ✕

提案法 ◯ ◯ ◯

入力特徴量をフル活用しつつ系列単位の処置を実現

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 10: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

10

提案手法

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 11: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

11

提案システムフロー

Audio

Feature extraction

Feature vector

State posterior

Em

ission prob.

ML Path

Binary m

ask PredictionPrior normalization

Viterbi decoding

Post-processing

SAD

network

Thresholding

SED

network

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 12: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

12

事後処理

特徴量抽出

提案システムフロー

Audio

Feature extraction

Feature vector

State posterior

Em

ission prob.

ML Path

Binary m

ask PredictionPrior normalization

Viterbi decoding

Post-processing

SAD

network

Thresholding

SED

network

提案②: SADネットワークバイナリマスキング

提案①: BLSTM-HMMハイブリッドモデル

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 13: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

13

特徴量抽出

提案システムフロー

Audio

Feature extraction

Feature vector

State posterior

Em

ission prob.

ML Path

Binary m

ask PredictionPrior normalization

Viterbi decoding

Post-processing

SAD

network

Thresholding

SED

network

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 14: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

14

特徴量抽出p 窓幅25 msec / シフト幅10 msec でSTFTp 対数フィルタバンク100 bin抽出 + 発話単位CMN

n 音響イベント検出では高域がより重要視されるため

入力音響信号 抽出された特徴量

Am

plitu

de

Time [sec] Time [sec]

Freq

uenc

y bi

n

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 15: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

15

提案システムフロー

Audio

Feature extraction

Feature vector

State posterior

Em

ission prob.

ML Path

Binary m

ask PredictionPrior normalization

Viterbi decoding

Post-processing

SAD

network

Thresholding

SED

network提案①:

BLSTM-HMMハイブリッドモデル

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 16: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

16

提案①: BLSTM-HMM (1)p 各イベントごとに下記のHMMを構築

0 2 5𝑎&' 𝑎'(

𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)

31

4

𝑏1(𝐱,)

Initial state Final state

Non-active state

𝑎1& 𝑎(1

𝑎&& 𝑎'' 𝑎((

𝑎11

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 17: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

17

提案①: BLSTM-HMM (1)p 各イベントごとに下記のHMMを構築

0 2 5𝑎&' 𝑎'(

𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)

31

4

𝑏1(𝐱,)

Initial state Final state

Non-active state

𝑎1& 𝑎(1

𝑎&& 𝑎'' 𝑎((

𝑎11イベントがアクティブな部分を表現

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 18: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

18

提案①: BLSTM-HMM (1)p 各イベントごとに下記のHMMを構築

無音もしくは他のイベントがアクティブな部分を表現

0 2 5𝑎&' 𝑎'(

𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)

31

4

𝑏1(𝐱,)

Initial state Final state

Non-active state

𝑎1& 𝑎(1

𝑎&& 𝑎'' 𝑎((

𝑎11

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 19: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

19

提案①: BLSTM-HMM (1)p 各イベントごとに下記のHMMを構築

n 遷移確率𝐀は学習データからビタビ学習で決定

出力確率𝑩をBLSTMでモデル化

0 2 5𝑎&' 𝑎'(

𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)

31

4

𝑏1(𝐱,)

Initial state Final state

Non-active state

𝑎1& 𝑎(1

𝑎&& 𝑎'' 𝑎((

𝑎11

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 20: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

20

提案①: BLSTM-HMM (2)p HMMの事後確率を推定するSEDネットワークを構築

Inputs 100

Forward LSTM 512Backward LSTM 512

Projection 256Projection 256

Backward LSTM 512

Projection 256Projection 256

Backward LSTM 512Projection 256

Outputs 4 Outputs 4 Outputs 4⋯Projection 256

Forward LSTM 512

Forward LSTM 512

𝑃 𝐬&,, 𝐱,) 𝑃 𝐬',, 𝐱,) 𝑃 𝐬9,, 𝐱,)

: Forward Propagation: Backward Propagation

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 21: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

21

提案①: BLSTM-HMM (2)p HMMの事後確率を推定するSEDネットワークを構築

n クラス分類問題のマルチタスク学習で最適化

Inputs 100

Forward LSTM 512Backward LSTM 512

Projection 256Projection 256

Backward LSTM 512

Projection 256Projection 256

Backward LSTM 512Projection 256

Outputs 4 Outputs 4 Outputs 4⋯Projection 256

Forward LSTM 512

Forward LSTM 512

𝑃 𝐬&,, 𝐱,) 𝑃 𝐬',, 𝐱,) 𝑃 𝐬9,, 𝐱,)

: Forward Propagation: Backward Propagation

Event 1のHMMの状態事後確率

Event 2のHMMの状態事後確率

Event CのHMMの状態事後確率

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 22: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

22

提案①: BLSTM-HMM (3)p SEDネットワークの事後確率を出力確率へ変換

n 予め計算した事前確率とベイズの定理を利用

p 出力確率を用いて各HMM独立にビタビデコード

)()|()|()(

nsPnsPnsPb

t

tttttn =

=@==

xxx出力確率

事後確率

事前確率

# events

Time

State

Time

State

Time

State

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 23: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

23

提案システムフロー

Audio

Feature extraction

Feature vector

State posterior

Em

ission prob.

ML Path

Binary m

ask PredictionPrior normalization

Viterbi decoding

Post-processing

SAD

network

Thresholding

SED

network

提案②: SADネットワークバイナリマスキング

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 24: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

24

提案②: SADネットワーク (1)p イベントの有無を判定するSADネットワークを構築

n 2値分類の交差エントロピー最小化で最適化

Inputs 100

Forward LSTM 512Backward LSTM 512

Projection 256Projection 256

Backward LSTM 512

Projection 256Projection 256

Backward LSTM 512Projection 256

Output 1

Projection 256

Forward LSTM 512

Forward LSTM 512

0 ≤ y ≤ 1

: Forward Propagation: Backward Propagation

イベントが存在しない イベントが存在する

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 25: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

25

提案②: SADネットワーク (2)p SADネットワークの事後確率を閾値処理で2値化

n 閾値は0.5に設定p 2値化により得られたバイナリマスクをBLSTM-HMMで

推定された各イベントの予測結果に適用

Time予測結果

Timeマスク

⨀ 要素積=

Timeマスク適用後

予測結果

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 26: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

26

事後処理

提案システムフロー

Audio

Feature extraction

Feature vector

State posterior

Em

ission prob.

ML Path

Binary m

ask PredictionPrior normalization

Viterbi decoding

Post-processing

SAD

network

Thresholding

SED

network

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 27: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

27

事後処理1. 150 msec (15 frames) スパンのメディアンフィルタ

2. 100 msec (10 frames) 以下の穴埋め

3. 各イベントの学習データ中の最小長の3/4以下を削除

Time Time

Time Time

Time

¾ minimum length Time

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 28: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

28

評価実験

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 29: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

29

評価実験実験設定p 多重音響イベント検出タスクDCASE2016 task2で評価p 11 種類の音響イベントが対象

評価尺度p Segment-based (SB): 1秒のセグメント単位の評価p Event-based (EB): イベント単位での評価p それぞれでF1-score (F1)とError rate (ER)を計算

比較手法p NMF (DCASE2016 task2 ベースライン)p BLSTM

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 30: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

30

実験条件Sampling rate 44,100 HzBit rate 16 bit# sound events 11# training data 4 sec * 100,000 samples# development data 120 sec * 18 samples # evaluation data 120 sec * 54 samples # hidden layer 3# LSTM unit Forward : 512 Backward: 512# projection unit Forward : 256 Backward: 256Initial Scale 0.001Learning rate 0.0005Max gradient norm 5# step 400# batch 128Optimization method Adam

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 31: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

31

実験結果Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]

NMF (Baseline) 24.0 168.5 37.0 89.3

BLSTM w/o SAD mask 65.2 66.9 76.1 45.2

BLSTM w/ SAD mask 70.1 54.2 77.9 39.6

BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7

BLSTM-HMM w/ SAD mask 74.9 44.7 80.5 33.8

低いほど高性能高いほど高性能

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 32: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

32

手法間の比較Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]

NMF (Baseline) 24.0 168.5 37.0 89.3

BLSTM w/o SAD mask 65.2 66.9 76.1 45.2

BLSTM w/ SAD mask 70.1 54.2 77.9 39.6

BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7

BLSTM-HMM w/ SAD mask 74.9 44.7 80.5 33.8

提案法が全ての評価尺度において最も高い性能

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 33: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

33

SADマスク有無の比較Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]

NMF (Baseline) 24.0 168.5 37.0 89.3

BLSTM w/o SAD mask 65.2 66.9 76.1 45.2

BLSTM w/ SAD mask 70.1 (+4.8) 54.2 (-12.7) 77.9 (+1.8) 39.6 (-5.6)

BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7

BLSTM-HMM w/ SAD mask 74.9 (+3.2) 44.7 (-7.6) 80.5 (+1.0) 33.8 (-2.9)

SADマスクはモデルによらず性能の改善を実現

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 34: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

34

DCASEチャレンジ結果との比較Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]

Our best result 74.9 44.7 80.5 33.8

DCASE 1st T. Komatsu+NMF based method 73.8 46.2 80.2 33.1

DCASE 2nd I. Choi+DNN based method 67.1 61.8 78.7 36.7

1つの評価尺度を除き最高性能を達成

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 35: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

35

まとめと今後の課題

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」

Page 36: イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出

36

まとめと今後の課題まとめp 区間検出統合型BLSTM-HMMハイブリッドモデルの提案p 多重音響イベント検出タスクDCASE2016 task2で評価p 提案モデルがチャレンジベストを上回る最高性能を達成

今後の課題p 大規模データセットへの適応p HSMMへの拡張p 系列識別学習の導入

日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」