47
統計的バイノーラル信号表現と その音源分離への応用 東京大学・大学院情報理工学系研究科 猿渡 洋 20157月) 電気音響研究会・招待講演

Ea2015 7for ss

Embed Size (px)

Citation preview

Page 1: Ea2015 7for ss

統計的バイノーラル信号表現と

その音源分離への応用

東京大学・大学院情報理工学系研究科

猿渡 洋

(2015年7月)

電気音響研究会・招待講演

Page 2: Ea2015 7for ss

発表の流れ

研究背景と目的

従来手法

非負値行列因子分解を用いた音源分離手法

一般化MMSE-STSA推定器を用いた音源分離手法

提案手法

時系列事前分布モデルとスペクトル基底の同時適応を行う音源分離

評価実験

まとめと今後の課題

2

Page 3: Ea2015 7for ss

発表の流れ

研究背景と目的

従来手法

非負値行列因子分解を用いた音源分離手法

一般化MMSE-STSA推定器を用いた音源分離手法

提案手法

時系列事前分布モデルとスペクトル基底の同時適応を行う音源分離

評価実験

まとめと今後の課題

3

Page 4: Ea2015 7for ss

研究背景:バイノーラル音楽音源分離

マルチチャネル信号は多くの信号処理技術に応用される

マイクロフォンアレイによる録音信号 (アレイ信号処理)

一般的なステレオ音楽信号 (音楽信号処理)

ダミーヘッドによる両耳録音信号

バイノーラル信号の音源分離では以下の問題が生じる

抽出対象音の定位を保持しつつ音源分離を行わねばならない

未知の頭部伝達関数 (HRTF)による変形に対しても高精度に分離を行わねばならない

4

本研究の対象 (バイノーラル信号)

しかし…

定位を保持し,未知のHRTFに対応し頑健かつ高精度に動作するバイノーラル音源分離手法は未だ確立されていない

Page 5: Ea2015 7for ss

発表の流れ

研究背景と目的

従来手法

非負値行列因子分解を用いた音源分離手法

一般化MMSE-STSA推定器を用いた音源分離手法

提案手法

時系列事前分布モデルとスペクトル基底の同時適応を行う音源分離

評価実験

まとめと今後の課題

5

Page 6: Ea2015 7for ss

混合信号のモデル

信号の定義

:観測信号

:伝達関数

: 妨害音信号

:目的音信号

これ以降,各信号における下付き文字 は

それぞれ左耳と右耳での信号を表すとする

: 周波数インデックス : 時間フレームインデックス

8

Page 7: Ea2015 7for ss

従来手法: NMFを用いた音源分離

Nonnegative Matrix Factorization (NMF) [Lee, et al., 2001]

スパース分解表現による特徴量抽出手法

非負値行列を2つの非負値行列の積で近似表現する

所望の基底を用いてスペクトログラムを再構成することで音源分離を行うことができる 7

Amplitude

Am

plit

ud

e

観測行列 (スペクトログラム)

基底行列 (頻出スペクトルパターン)

アクティベーション行列 (時間的なゲイン変化)

Time

𝑓 : 周波数ビン数

τ : 時間フレーム数

k: 基底数

Time

Freq

uen

cy

Freq

uen

cy

Page 8: Ea2015 7for ss

従来手法: 基底変形型教師ありNMF

基底変形型教師ありNMF (Deformation SNMF) [Kitamura, et al., 2013]

分離したい目的音源のサンプル音を事前学習する

事前学習した教師基底を観測音信号に適応させ分離を行う

学習プロセス

教師音から作成した教師スペクトル基底

分離目的音の教師音 (音階等)

わずかに異なる

分離プロセス 最適化 分離プロセス 最適化

教師基底に対する変形項

Page 9: Ea2015 7for ss

従来手法: 一般化MMSE-STSA推定器 [Breithaupt, et al., 2008]

目的音事前分布がカイ分布だと仮定するminimum

mean-square error short-time spectral amplitude

(MMSE-STSA) ベイズ推定

9

r = 1は目的音波形がガウス分布、r <1は優ガウス分布に従う

: 信号 xのp.d.f. : 形状母数 : ガンマ関数

観測音中の目的音 カイ分布

Page 10: Ea2015 7for ss

目的音振幅スペクトルの誤差が最小となるように推定

10

推定目的音

: 推定目的音 : ゲイン関数

: 合流型超幾何関数

: 事前SNR

: 事後SNR

: 形状母数 : ガンマ関数

: 忘却係数 : 妨害音のパワースペクトル

従来手法: 一般化MMSE-STSA推定器 [Breithaupt, et al., 2008]

: 振幅圧縮パラメータ

Page 11: Ea2015 7for ss

• 観測音中の目的音を最もよく表す形状母数の値は未知

• 非定常な妨害音に対応できない

• カイ分布を用いた時系列データモデリングによって,時間方向の影響(残響など)に適応して分離可能.

• 加法型の変形方法では,適切な変形を行うことが難しい

• 基底の変形と音源分離を同時に行うため,最適化が困難

従来手法の利点と欠点

11

Deformation SNMF

• 教師基底の変形によって,周波数特性の変化に適応して

分離可能.

一般化MMSE-STSA推定法

Page 12: Ea2015 7for ss

発表の流れ

研究背景と目的

従来手法

非負値行列因子分解を用いた音源分離手法

一般化MMSE-STSA推定器を用いた音源分離手法

提案手法

時系列事前分布モデルとスペクトル基底の同時適応を行う音源分離

まとめと今後の課題

12

Page 13: Ea2015 7for ss

Freq

uen

cy

Amplitude Amplitude

Freq

uen

cy

時変な変形 (フレーム外変動)

Amplitude

Freq

uen

cy

時不変な変形 (周波数変形) 13

未知のHRTFによる信号の変形 A

mp

litu

de

Time

Am

plit

ud

e

Time

Am

plit

ud

e

Time

波形信号

時間周波数

信号

: Time window

Page 14: Ea2015 7for ss

Freq

uen

cy

Amplitude Amplitude

Freq

uen

cy

時変な変形 (フレーム外変動)

Amplitude

Freq

uen

cy

時不変な変形 (周波数変形) 14

未知のHRTFによる信号の変形 A

mp

litu

de

Time

Am

plit

ud

e

Time

Am

plit

ud

e

Time

波形信号

時間周波数

信号

: Time window

Deformation

SNMFにより対応

一般化MMSE-

STSA推定器により対応

Page 15: Ea2015 7for ss

カイ分布における時系列モデリングの問題点

観測音中の目的音を最もよく表す形状母数の値は未知.

Deformation SNMFの基底変形における問題点

目的音に対応した精度のよい基底変形を行うことが困難.

提案手法における各問題点の解決方法

15

提案手法における問題点と解決方法

より良い基底変形の枠組みを導入する

時系列モデリング

基底変形

観測データからブラインドに形状母数を推定する

Page 16: Ea2015 7for ss

16

STFT

Non-target signal

estimation by SNMF

Generalized MMSE-STSA

estimator

Equi binaural

spectral gain calculation

Target prior

estimation

ISTFT

Supervised basis training

Supervised basis update

Spectral weight training,

true false

提案手法の概要

Target prior estimation

Basis deformation

提案手法のブロック図

一般化MMSE-STSA推定器により目的音を抽出.

時変,時不変変形への適応を反復して行う.

Page 17: Ea2015 7for ss

統計的バイノーラルモデルの自動適応に基づく両耳音楽信号分離

Page 18: Ea2015 7for ss

目的音振幅スペクトルの誤差が最小となるように推定

18

推定目的音

: 推定目的音 : ゲイン関数

: 合流型超幾何関数

: 事前SNR

: 事後SNR

: 形状母数 : ガンマ関数

: 忘却係数 : 妨害音のパワースペクトル

一般化MMSE-STSA推定器

: 振幅圧縮パラメータ

Page 19: Ea2015 7for ss

目的音振幅スペクトルの誤差が最小となるように推定

19

推定目的音

: 推定目的音 : ゲイン関数

: 合流型超幾何関数

: 事前SNR

: 事後SNR

: 形状母数 : ガンマ関数

: 忘却係数 : 妨害音のパワースペクトル

一般化MMSE-STSA推定器

: 振幅圧縮パラメータ

未知

未知

Page 20: Ea2015 7for ss

目的音振幅スペクトルの誤差が最小となるように推定

20

推定目的音

: 推定目的音 : ゲイン関数

: 合流型超幾何関数

: 事前SNR

: 事後SNR

: 形状母数 : ガンマ関数

: 忘却係数 : 妨害音のパワースペクトル

一般化MMSE-STSA推定器

: 振幅圧縮パラメータ

SNMFにより推定

Page 21: Ea2015 7for ss

形状母数とカートシス

21

目的音振幅スペクトルの4次統計量(カートシス)を求めることで形状母数が推定可能→でも目的音は未知!?

カイ分布 の形状母数rとカートシスの関係

: m次モーメント

: カイ分布の確率密度

関数(p.d.f.)

: カートシス

Page 22: Ea2015 7for ss

加法信号のm次モーメント算出における問題

22

観測音 目的音 妨害音 未知 既知 既知

波形

逆畳み込みは困難→何か別の方法は無いか?

畳み込み

未知 既知 既知

p.d.f.

Page 23: Ea2015 7for ss

• キュムラント km(x):対数特性関数の級数展開

特徴

• 特性関数

モーメント・キュムラント変換 [1/4]

(m次モーメント)

(m次キュムラント)

キュムラントの加法性

モーメントの乗法性

キュムラント・モーメント変換を駆使すれば様々な混合確率過程の統計量分解も可能

Page 24: Ea2015 7for ss

モーメント・キュムラント変換 [2/4]

• キュムラントからのモーメントの導出

: を分割するパターン

:分割された各ブロック :ブロックのサイズ

: の分割数(ブロック数)

– Faà di Bruno’s formula

Page 25: Ea2015 7for ss

モーメント・キュムラント変換 [3/4]

m = 3 の場合

1 2 3 1 2 3 1 3 2

2 3 1 1 2 3

+ +

+ +

Page 26: Ea2015 7for ss

• モーメントからのキュムラントの導出

モーメント・キュムラント変換 [4/4]

Page 27: Ea2015 7for ss

目的音振幅スペクトルのカートシス推定

目的音振幅スペクトルカートシス(複素数ドメイン)

Page 28: Ea2015 7for ss

実部と虚部でi.i.d.を仮定すると次の式が成り立つ

振幅スペクトルドメインへの変換

28

: 観測音の振幅スペクトル

: SNMFによって得られる

妨害音の振幅スペクトル

Page 29: Ea2015 7for ss

目的音のカートシス推定 [Murota, et al., ICASSP2014]

29

目的音振幅スペクトルカートシス

• 観測音とSNMFの推定値のみから解析的に目的音のカートシスが計算可能

• 観測音中に埋もれている目的音を表す形状母数は、可観測なデータのみから閉形式にて推定可能

• これを両耳個別に適用すれば、左右における時系列の統計的な違いを表現できるのではないか?

: 観測音の振幅スペクトル

: SNMFによって得られる妨害音

の振幅スペクトル

Page 30: Ea2015 7for ss

事前分布に着目したバイノーラル信号モデル

30

左耳

右耳 NR(f,t)

NL (f,t)

SL (f,t)

SR(f,t)

s(f,t) hL(f)

hR(f)

(a) 従来のバイノーラル決定論的信号モデル

hR (f)

hL (f) HRTF

(b) 事前分布に着目した統計的信号モデル

未知

SL (f,t)=hL(f)s(f,t)

SR (f,t)=hR(f)s(f,t)

左耳:

右耳:

SL (f,t)+NL(f,t)

SR(f,t)+NR(f,t)

左右形状母数

のみを決める

問題に帰着

Page 31: Ea2015 7for ss

音像定位に関する問題

個別の統計モデルを用いた一般化MMSE-STSA推定器

両耳のゲインは個別に計算されたものを用いて良いのか?

統計的な手法に基づいているので,推定値(ゲイン関数)に揺らぎが生じる.

両耳信号推定における音像定位改善

左右の耳で共通のゲインを用いることで定位問題を改善する.

31

両耳間のゲインが同期していないグリッドがあるので,

定位感に劣化が生じる(音像のふらつき等).

Page 32: Ea2015 7for ss

エラー関数

両耳共通ゲインの導出方針

32

: 共通化ゲイン

上記のエラー関数を最小化する を求める(事前分布の元で)

: 振幅圧縮パラメータ

直接 を求めるのは困難なため2段階の最適化に分ける

1. 各チャネル毎に最適化(事前分布を意識した最適化)

2. 上記の結果を用いて を近似最適化(事前分布は無視)

Page 33: Ea2015 7for ss

1. 各チャネルごとの最適化

• 各チャネル個別のスペクトルゲインを補助変数として導入すると,エラー関数は次のように書くことができる。

33

エラー関数の展開

Page 34: Ea2015 7for ss

1. 各チャネルごとの最適化

• 各チャネル個別のスペクトルゲインを補助変数として導入すると,エラー関数は次のように書くことができる。

34

エラー関数の展開

Page 35: Ea2015 7for ss

1. 各チャネルごとの最適化

• 各チャネル個別のスペクトルゲインを補助変数として導入すると,エラー関数は次のように書くことができる。

35

エラー関数の展開

≒0

≒0

Page 36: Ea2015 7for ss

近似エラー関数の定式化

2. 共通ゲインの導出

36

上式メインコスト部は

単純な最小二乗問題

なので、右式の根で

最小値をとる

両耳それぞれに

おける事前分布

に基づいて最適化

Page 37: Ea2015 7for ss

両耳共通ゲイン

LチャネルにおけるMMSE最適スペクトルゲイン

RチャネルにおけるMMSE最適スペクトルゲイン

(これら2個のゲインは,一般化MMSE-STSA推定器によって計算されたもの)

2.共通ゲインの導出(続き)

Page 38: Ea2015 7for ss

スペクトル基底の反復変形に基づく教師信号ミスマッチ問題解決

Page 39: Ea2015 7for ss

問題点

加法型の変形では,時不変の変形を表すことが難しい.

基底の変形と音源分離を同時に行うため,最適化が困難.

提案手法における基底変形の方針

変形を時不変なスペクトル重み(積)の形で表す

基底変形と音源分離を別のステップに分けて行う

一般化MMSE-STSA推定により得られた推定目的音に近づくよう変形を行う → 本処理とSNMF+MMSE-STSAの繰り返し

Deformation SNMFにおける問題点

26

教師スペクトル基底 変形項(正負値)

及び を最適化

Deformation SNMFの分解モデル

Page 40: Ea2015 7for ss

発表の流れ

研究背景と目的

従来手法

非負値行列因子分解を用いた音源分離手法

一般化MMSE-STSA推定器を用いた音源分離手法

提案手法

時系列事前分布モデルとスペクトル基底の同時適応を行う音源分離

評価実験

まとめと今後の課題

40

Page 41: Ea2015 7for ss

実験条件(教師と観測音がミスマッチ)

41

楽器音 (MIDI) Ob., Cl., Vc., Pf.

観測音(MIDI) Obとその他1種類を選び等パワーで混合したもの

目的音 Ob.

教師音 (MIDI) 2 オクターブ上昇する目的楽器 24 音(伝達特性は異なる)

基底数 k 目的音: 100 妨害音 50

反復回数 学習時: 500 分離時: 400

サンプリング周波数 44100

忘却係数 α 0.97

サブバンド分割数 M 128

評価値 SDR: 分離度合いと人工歪みの少なさを含む総合的な分

離音源の品質

90° −90° 15°

観測音の音源配置:

前方15度刻み.目的音と妨害音は

同じ方向に配置

Page 42: Ea2015 7for ss

評価実験: 既存手法との比較

実験目的

目的音の事前分布を推定することによる効果を確認する

反復して基底を変形させることによる効果を確認する

比較手法

42

手法名 ポストフィルタ 妨害音推定 事前分布推定 NMFの反復

Equi-gain WF ウィーナフィルタ Deformatin

SNMF しない しない

Equi-gain MMSE-

STSA

MMSE-STSA

estimator

Deformatin

SNMF しない しない

Gain-min MMSE-

STSA

MMSE-STSA

estimator

Deformatin

SNMF しない しない

Equi-gain GMMSE-

STSA

一般化MMSE-

STSA estimator

Deformatin

SNMF する しない

Proposed

method

一般化MMSE-

STSA estimator

反復型

Deformation

SNMF

する する

Page 43: Ea2015 7for ss

実験結果(目的音: Ob.)

スレッショルドパラメータ: 0.8, 反復数: 4

43

Page 44: Ea2015 7for ss

実験結果(目的音: Ob.)

スレッショルドパラメータ: 0.8, 反復数: 4

44

事前分布を推定する

事前分布を推定しない

Page 45: Ea2015 7for ss

実験結果(目的音: Ob.)

スレッショルドパラメータ: 0.8, 反復数: 4

45

反復あり

反復なし

Page 46: Ea2015 7for ss

主観評価結果

ゲイン共通化を行う場合と行わない場合の差をXAB試験により比較

46

Page 47: Ea2015 7for ss

まとめと今後の課題

バイノーラル信号を対象として定位を保持し,未知のHRTFに対して頑健かつ高精度に目的音源を分離する新しい手法を提案した

観測音中の目的音に適応し分離を行う手法を提案した

従来手法より高い分離精度を実現した

解析フレーム長を超える伝達関数を扱うことが可能となった

新たな基底変形手法を,様々な問題に応用することが出来る

伝達関数による変形以外も吸収できるような枠組みを導入する.

47

まとめ

今後の課題

[2015年・日本音響学会秋季研究発表会にて報告予定]