/52
音の到来方向をどうやって知覚する?
ある位置から音が到来した。どうやってその方向を知覚する?
– 当然ながら、両耳の情報だけで判断している
両耳に到来する音はどう違う?
– 両耳間時間差 と 両耳間音圧差
– 両者とも到来経路の差により生じる
4
/52
頭部における音波の伝達経路
頭部を球に近似すると、その到来を明示的に記述できる
5
[高道 他, 2011.]
点音源
直接波
第一散乱波
直接波 表耳に直接到来 散乱波 まず頭部に音波が到来し、その後、 頭部表面を伝播して影耳に到来 直接波と散乱波の経路差 頭部を球に近似すると、音源距離と 方位角から解析的に計算可能
/52
実際に計測した両耳間時間差
6
角度[°] 0 180 270 360 90
0.4
0.8
0
-0.2
時間
差 [
mse
c]
-0.4
4
時間 [msec]
0 2 3 1
右 左
両耳間時間差
到来の時間差は1msec以下
– 我々はその時間差を知覚できる
/52
実際に計測した両耳間音圧差
7
Gain
[dB]
-30
10
-10
-50
0.5 1 5 10
周波数 [kHz]
20 0
0
角度[°]
180 270 360 90
音圧
差 [
dB]
20
-20
到達経路の違いにより、音圧が変わる
右 左
/52
時間差・音圧差以外に 聴こえを変える要素
ピーク・ノッチの影響
先行音効果
– 最初に到来する音源の方向が音像の定位に支配的に影響する
視覚情報との相互作用
– カクテルパーティ効果
– 腹話術効果
– マガーク効果
9
/52
ピーク・ノッチ
10
Gai
n [
dB
]
-30
10
-10
-50
0.5 1 5 10 周波数 [kHz]
20
耳介形状等の影響により、伝達特性は大きく変化する
– ピーク (P1, P2…) … 信号が増幅される帯域
– ノッチ (N1, N2…) … 信号が減衰される帯域
P1 N1
/52
ピーク・ノッチは何故発生する?
z変換を思い出すと…
– ピーク: 音波の共振による増幅
– ノッチ: 音波の遅延による減衰
ピーク … 耳介で生じる共振
ノッチ … 直接波と耳介による反射波の影響
11
[竹本 他, 2010.]
/52
人間の感覚器の比較
14
種類 受容器 (数) 中枢神経への数
視覚 網膜の視細胞 (108) 106
聴覚 蝸牛殻の有毛細胞 (104) 104
嗅覚 嗅粒膜の嗅細胞 (107) 103
触覚 皮膚の触覚細胞 (105) 104
[“Communication”,P.13,No.61,vol.11,1996.]
人間の感覚器と受容器の数
中枢神経の数で比較すれば、視覚は聴覚の100倍の情報量
– 視覚情報との相互作用が生じる
– 次ページ以降のような、相互作用による効果が起こる
/52
カクテルパーティ効果
人間は、聴取した音を処理して必要な情報だけを再構築する
– 音声の選択的聴取
15
両耳受聴(聴覚)+
+口の動き(視覚)
+思考(脳)⇒一致判断
~~~
~~~
~~~
~~~ ~~~
A君、結婚したん だって!
/52
腹話術効果
音像位置が映像位置に引っ張られる
– 両耳情報の曖昧さに起因
16
時間的に同期した映像と音像。ただし、 空間位置は違う
しかし、受聴者は、映像と同じ位置から 音がなっているように知覚する → 音像が映像に引っ張られる (腹話術効果)
/52
マガーク効果(動画)
18
https://www.youtube.com/watch?v=G-lN8vWm3m0
(BBC channel on YouTube)
音は ’ba’ のままなのに、映像を変えると ‘va’ に聴こえる!
/52
音場再現技術
音場再現技術
– 所望の音場 (音波の存在する空間) を人工的に再現する技術
– → 時空間の制約を超えた高臨場感 立体音響システム
再生系による区分
– 拡声型 (開放型とも) … スピーカによる再現
– 両耳型 (没入型とも) … ヘッドホンによる再現
評価要素
– 受聴領域の大きさ
– 空間解像度
20
/52
音場再現技術とは
21
5.1ch サラウンド
バイノーラル
トランスオーラル
空間解像度
22.2ch サラウンド
Higher Order Ambisonics
受聴領域の大きさ
Wave Field Synthesis
広い受聴領域と高い空間解像度を 目指した物理的な音場再現へ
/52
従来の音響再生技術 (ステレオ、サラウンド5.1ch)
欠点
聴くことができる位置がスピーカの中心 (スィートスポット) に限定
音をデザインする人が必要(あくまで人工的な音の表現)
人間の音の方向知覚を利用した、心理音響モデルに基づく方法
22
エンジニア
/52
音場再現による高臨場音響再生
対象領域 𝑽 内の音場を,境界面 𝑺 上に配置した二次音源 (=スピーカ)を用いて,所望の音場と一致させる
23
音場そのものを物理的に再現 (物理音響モデルベース)
Secondary source distribution
Virtual
primary sources
広い受聴領域を 実現できる可能性
/52
音場再現手法の比較
24
アレイ配置 概要 収録音場の再現
Wave Field Synthesis (WFS)
平面/直線 Kirchhoff-Helmholtz積分/Rayleigh積分に基づく スピーカ駆動信号
×
Higher Order Ambisonics (HOA)
球 球面調和関数展開に基づくエンコーディング/ デコーディング
○
逆フィルタに基づく手法 (e.g. 境界音場制御)
任意 最小二乗法などに基づく 多点音圧制御
○
波面再構成 (WFR) フィルタ法
平面/直線/円筒/球/円
空間スペクトル上での 直接的な信号変換
○
/52
Wave Field Synthesis (WFS)
26
[Berkhout+ JASA 1993] [Spors+ AES Conv 2008]
Secondary source plane
空間位置𝒓s、周波数𝜔の駆動信号
境界面上の音圧勾配を二次音源の駆動信号として、音場を再現
スピーカパネルin長岡技大(2009)
スピーカパネルの図は [板倉, 長岡技大卒業論文, 2009.]より引用
/52
Higher Order Ambisonics (HOA)
27
球面調和関数
所望音場の球面調和スペクトル
スピーカ中心を原点とする球面調和スペクトル領域で合成音場が所望音場と一致するように制御
合成音場の球面調和スペクトル
球面調和関数を要素にもつ行列の(一般化)逆行列を用いて駆動信号を得る
[Daniel AES Conf 2003] [Poletti JAES 2005]
球状アレイを用いることで全方位の音場を再現可能
/52
逆フィルタに基づく手法
28
Control points ( 個)
所望の音圧
Loudspeakers ( 個)
の 逆システム
制御点上で所望の音圧と一致するような逆システムを用いる
最小二乗法による の逆フィルタの設計
正則化パラメータ
[Gautheir+ JASA 2005]
逆フィルタの設計さえできれば任意のアレイ形状に適用可能
/52
ヘッドホンの影響
耳覆い型~イントラコンカ型は、耳介の影響を強く受ける
– 耳介形状や装着具合に影響
– 個人依存性が強い
挿入型は伝達経路に耳介を含まない
– 個人依存性が低い
– 外耳道は一次元音響管であると仮定すれば、 イヤホンの振動面から鼓膜まで平面波が伝播する。
31
/52
バイノーラル
32
Inverse
System
Head And Torso Simulator (HATS)
原音場 聴取者
ヘッドホン&外耳道特性のキャンセル
・ダミーヘッド(もしくはHATS)を用いて収音,ヘッドフォンで再生
・システムが簡易
・聴取者の頭部回転や移動に弱く,音像が頭内定位する
→ ヘッドトラッキングにより緩和可能
/52
頭部伝達関数 (HRTF: Head Related Transfer Function)
33 図は [平原 他, 2011.]より引用
実際に現音場を構築しなくとも、HRTFとの畳み込みで実現可能
– HRTF: 自由音場における音源と受聴者鼓膜近傍の間の音響伝達関数
/52
研究背景 (1)
複数の楽器音が混合された音楽信号から,楽器音を分離・抽出
→ 音楽信号分解
応用例
– ユーザが好み応じて各楽器音を編集
– 音楽信号の自動採譜
– 音の拡張現実 (AR) 等
35
/52
研究背景 (2)
非負値行列因子分解 (NMF) [Lee, et al., 1999]
データのスパース性,重ね合わせ表現を考慮。効率的な 乗法型更新式
画像処理,信号処理等様々な分野への応用
36
/52
Time [sec]
Fre
quency [
Hz]
Nonnegative Matrix Factorization (NMF)
37
…
…
…
…
頻出スペクトル
各スペクトルのタイミングと音量
/52
Time [sec]
Fre
quency [
Hz]
Nonnegative Matrix Factorization (NMF)
38
…
…
…
…
アクティベーション行列
スペクトル基底行列
/52
NMF では,分解行列因子の 𝑭 と 𝑮 を最適化するための目的関数が距離関数として与えられる
この距離関数はデータや分解する目的に応じて使い分けられる
– 音源分離: 一般化KLダイバージェンス
– 自動採譜: 板倉-斉藤擬距離
NMF の目的関数
39
𝐷 ⋅ | ⋅ : 任意の距離関数
/52
一般化距離関数 𝛽-divergence [Eguchi, et al., 2001]
40
: ユークリッド距離
: 一般化KLダイバージェンス
: 板倉-斉藤擬距離
スパース性が重視された距離尺度に
𝛽-divergence について
/52 41
5x102
4
3
2
1
0
IS-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=0) 25
20
15
10
5
0
KL-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=1) 12
10
8
6
4
2
0
EU
C-d
ista
nce
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=2)
𝑦 − 𝑥が負 → 入力変数 𝑥 がデータ 𝑦 より大きい
板倉-斉藤擬距離やKL-divergenceでは大きな距離値に
板倉-斉藤擬距離やKL-divergenceでは小さな距離値に
𝐷𝛽 𝑦|𝑥 におけるy − 𝑥のグラフ
𝑥
𝑥
𝑦 − 𝑥が正 → 入力変数 𝑥 がデータ 𝑦 より小さい
𝛽-divergence について
/52 42
5x102
4
3
2
1
0
IS-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=0) 25
20
15
10
5
0
KL-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=1) 12
10
8
6
4
2
0
EU
C-d
ista
nce
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=2)
-10
-8
-6
-4
-2
0
Am
plit
ude [dB
]
543210Frequency [kHz]
-10
-8
-6
-4
-2
0
Am
plit
ude [dB
]
543210Frequency [kHz]
スパース性: 強 スパース性: 弱
𝐷𝛽 𝑦|𝑥 におけるy − 𝑥のグラフ
𝛽-divergence について
/52 43
100
80
60
40
20
0
-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=3)9x10
2
8
7
6
5
4
3
2
1
0
-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=4)5x10
97
0
-d
ive
rgence
-5 -4 -3 -2 -1 0 1 2 3 4 5
y-x
=100)
さらに を大きくすると,入力変数 とデータ を 入れ替えたような性質になる
𝐷𝛽 𝑦|𝑥 におけるy − 𝑥のグラフ
𝛽-divergence について
/52
𝛽-divergence の全ての 𝛽 において収束性が保障された更新式の導出
𝛽-divergence規範NMF
44
𝑓𝜔,𝑘 , 𝑔𝑘,𝑡はそれぞれ 𝑭,𝑮の要素
[Nakano, et al., 2010]
/52
分離する楽器の教師音を用いる手法
学習プロセス
45
目的の楽器の教師音を用いて学習した基底
分離プロセス 教師基底 を固定して を構成
は となるべく無相関となるように求める
[Kitamura, et al., 2013]
Penalized Supervised NMF (PSNMF)
/52
分離する楽器の教師音を用いる手法
学習プロセス
目的の楽器の教師音を用いて学習した基底
分離プロセス 教師基底 を固定して を構成
は となるべく無相関となるように求める 46
𝑭𝑮から再構成した スペクトログラムが分離結果
[Kitamura, et al., 2013]
Penalized Supervised NMF (PSNMF)
/52
音源分離デモ3
49
原曲(プロ演奏) Saxのみを抜いた 伴奏部分
Copyright © 2014 Yamaha Corp. All rights reserved.
サックス奏者が 消えた!?
プロレコーディングに対応できる品質を目指して。