機械学習を用いた屋外拡声器の品質予測 · 2019-02-15 · c ( c ( c ( c ( c ( " b! # ' a これまでに取り組んで来たこと • 下図のような屋外での実地計測を目指して計測機に組

機械学習を用いた屋外拡声器の品質予測

室蘭工業大学小林洋介

2019年3月1日第25回人工知能研究成果発表会

目次

1.これまでに取り組んだこと 2.今回取り組んだこと 3.屋外でのインパルス応答計測 4.聴き取りにくさの主観評価

5. STOIを用いたモデル化

6.屋外録音音声による評価 7.まとめ

目次




C

C

C CC

B

A

これまでに取り組んで来たこと

• 下図のような屋外での実地計測を目指して計測機に組み込む了解度推定モデルの研究に取り組んできた

• モデル開発のヒントを得る為に，実際に作ってみた※観測値からのモデル作成を推定，推定モデルの使用を予測とする

C

C

C CC

B

A



• モデル開発のヒントを得る為に，実際に作ってみた

0 0.05 0.1 0.15 0.2 0.25SIMI

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Mea

sure

d In

tellig

ibilit

y

cond.01cond.02cond.03cond.04cond.05cond.06cond.07cond.08fitting

小林信学技報(EA) 2018.07小林信学技報(EA) 2015.11 など

※観測値からのモデル作成を推定，推定モデルの使用を予測とする

C

C

C CC

B

A




C

C

C CC

B

A




野口他音講論 2018春野口他情処学会研報(SIG-MUS), 2018

聴き取りにくさ計の開発• 了解度ではなく聴き取りにくさ(LDR)の予測機(聴き取りにくさ計)とした

• 入力される信号から逐次MFCC, パワー, およびそれらのデルタを計算

• 1 sec.ごとに機械学習による推定LDRモデルと音声区間検出VAD(Voice

Activity Detection)モデルに入力，音声時のみ予測LDR表示を更新

• 両モデルともRandom Forests (RF)アルゴリズムを利用

• 学習音源は室工大中庭で収録したインパルス応答を利用

野口他音講論 2018春，野口他情処学会研報(SIG-MUS), 2018

聴き取りにくさ計の開発

野口他音講論 2018春，野口他情処学会研報(SIG-MUS), 2018

聴き取りにくさ(LDR: Listening Difficulty Rating )を利用した理由

前提：本当に動くモノができるか不明 • 単語了解度試験は実験規模が大きい(条件毎に20単語/人)ので消極的

• 目的がモデルを使った予測であるため，実利用に近い文章の実験データが欲しい

• 文章了解度試験は定番評価法がない • 了解度が0になるような極端に悪い放送はそれほどない(LEを除く)

• 実際の屋外拡声音声とそのLDR評価値との

比較ができる(栗栖, 建音資, 2015)

佐藤他音響誌 Vol.63 no.5 2007

C

C

C CC

B

A

見えてきた課題• 1度の放送で複数地点の結果を同時に知りたい (ネットワーク化)

• 設計開発だけでなく，放送へ直接フィードバックしたい • ワンボードコンピュータの計算力不足を補い,より高度で複雑な機械学習モデルの利用

LDR

0.8

LDR

0.4

LDR

0.1

目次




C

C

C CC

B

A

��

今回取り組んだこと• 1度の放送で複数地点の結果を同時に知りたい (ネットワーク化)


C

C

C CC

B

A

��



C

C

C CC

B

A

��



機器作成及び組み込むモデル学習の方針

1. 屋外環境を再現するために室蘭工大の中庭でインパルス応答と暗騒音

2. 対象装置：(自分たちで実験しやすい)肩掛

け式のメガホンを利用(TOA, ER-2830W)

3. 収集したインパルス応答を畳み込み暗騒音を加算した音声を主観評価

4. 主観評価音源よりもさらに多くの音源でLDR予測のためのモデルを学習

5. 開発した実機で，ATR音素バランス文を収録し，予測が行えるか検証 ※実験時はWSあり

クライアントの実機

※実験時はWSあり

• 入力音(声)の12次元のMFCC，パワー及びそれらのdeltaパラメータを100 msec.毎に

計算 (26次元, SPTK利用)

• 1 sec.分(260次元)まとまるとサーバへ転送

• マイクロホン(BEHRINGER,ECM8000 ),

オーディオインタフェース(BLUE, ICICLE ),

Raspberry Pi 3 model B, モバイルバッテリ

• 5機利用（10機分部品用意）Outdoor PA speech Mic. Audio I/F STOI

PredictionLDR

PredictionClient

DisplayMFCC

PredictedSTOI

wifiCalc. MFCC

MFCC toSTOI model

STOI to LDRmodel

server

目次




屋外でのインパルス応答の録音

• IRは北からM系列信号を放送して録音(2017/11/13,14)

• 最終評価の音素バランス文は南から放送して録音(2018/6/23)

• メッシュの交差でIR録音，三角に設置，三角と丸を主観評価

• 風が吹いていないタイミングで録音（風力計が回ったら録り直し）

室蘭工業大学 V/R棟前広場 MFCC計測時のメガホンの向きIR録音時のメガホンの向き

N

2.82 m

Client 1

Client 2Client 4

Client 5

Client 3IR録音地点とMFCC計測地点

IR録音地点

IR録音地点,STI: 0.63IR録音時の拡声器設置点MFCC計測時の拡声器設置点

(0.683 sec., 拡声器前2.0 mで 92 dB)

屋外でのインパルス応答の録音

• IRは北からM系列信号を放送して録音(2017/11/13,14)

• 最終評価の音素バランス文は南から放送して録音(2018/6/23)

• メッシュの交差でIR録音，三角に設置，三角と丸を主観評価

• 風が吹いていないタイミングで録音（風力計が回ったら録り直し）


N

2.82 m

Client 1

Client 2Client 4

Client 5


IR録音地点


中心で暗騒音収録平均で 42 dB

(0.683 sec., 拡声器前2.0 mで 92 dB)

取得したインパルス応答の例(DSSF3利用)室蘭工業大学 V/R棟前広場 MFCC計測時の

メガホンの向きIR録音時のメガホンの向き

N

2.82 m

Client 1

Client 2Client 4

Client 5


IR録音地点


取得したインパルス応答の例(DSSF3利用)室蘭工業大学 V/R棟前広場 MFCC計測時の

メガホンの向きIR録音時のメガホンの向き

N

2.82 m

Client 1

Client 2Client 4

Client 5


IR録音地点


目次




聴き取りにくさの主観評価条件と評価方法

• 防音ブース内でラップトップマシンに接続したオーディオインタフェースからヘッドホンを用いてダイオティックで，20代25人に提示

• 基準音に対し，ダミーヘッド(サザン音響, SAMURA HATS Type3700E)とイヤーシミュレータ(アコー, Type2128E)を利用して提示音校正

• 評価音声の再生・結果の入力はGUIアプリを開発して利用

• 本評価実験は室蘭工業大学ヒトを対象とした研究倫理審査委員会の承認のもと行われた

LDR = T − Co u n t(L1)T

主観評価条件聴き取りにくさの指標と定義

10地点*2名*4レベル*2文章

主観評価の結果

• 主音声と騒音のSNR(signal to noise ratio)ごとに評価

• SNRが小さい(音声レベルが小さい)ほど聴き取りにくい（音声のラウドネスの評価になっていないか懸念される？）

• 1地点のみ全SNRで聴き取りにくい（中心から外れる，ガレージの反射）

聴き取りにくい

聴き取りにくくはない

誤差棒：95%片側信頼区間

目次




客観音声了解度指標を用いたモデル化

• 機械学習モデルは学習した条件の予測性能が高い（＝学習していない条件での性能はいつまでも課題）

• 多数音源の主観評価は難しい（本研究のスタートライン） • 計算だけで求められる了解度指標を機械学習で予測し，推定LDR

に変換する (ITU-T Rec. 862.1 PESQ Mapping func.と同じ原理)

• 雑音抑圧音声の品質評価に使われるSTOI(Short-Time Objective

Intelligibility)を利用した

Outdoor PA speech Mic. Audio I/F STOI

PredictionLDR

PredictionClient

DisplayMFCC

PredictedSTOI

wifiCalc. MFCC

MFCC toSTOI model

STOI to LDRmodel

server

STOI(Short-Time Objective Intelligibility)

• C. H. Taal et al.が 2011年に提案した時間-周波数モデルに基づく知覚的歪みをモデル化した了解度指標

• クリーン音声と雑音加算音声を約50 msec.に分割し，1/3オクターブバンド分析に基づくスペクトル崩落を計算

• 両信号のスペクトル崩落を時間-周波数(TF)フレーム384 msec.ごとに作成し，雑音加算音声は正規化し，同一バンドの相関係数を計算する

• 最終的に全TFフレームの全相関係数の平均し，了解度指標とするd

STOIを用いたLDR推定モデル

• 条件毎のSTOIの平均値と主観評価によるLDRをマップ

• 一般化線形モデルによる最尤推定で係数決定 • 相関係数: -0.94, モデルと実測のRMSE: 0.061 と非常に良

いモデル(使えそう)

f(d) = 11 + exp(16.42 + 22.68d)

RFによるSTOI予測モデル

• STOIの問題：原音が必要どうやって放送前の音声を入手するか？

• 先行研究：MFCCを特徴量としたLSTMを用いた雑音残響環境でのSTOI予測(D.Yun et al. IEICE, 2018)

• LDR計でMFCCからLDRの予測に利用した多数の決定木をアンサンブルするRFアルゴリズムを採用

• 後述する条件の音声を学習 • 説明変数:1 sec.分のMFCC & delta(260次元)

• 目的変数: 1 sec.に切り出された音声のSTOI

値(言語的ではない切出を許容)








Clean speech

Degraded speech








Clean speech

Degraded speech

これだけで処理したい








学習に用いた音源一覧

• モデルの学習音源，ハイパーパラメータの最適化に利用するモデル評価音源，主観評価音源を分けて利用

• モデル評価音源で決定木数を決定 (100本，最深115ノード)

• 主観評価音源でテスト

STOIの予測モデル作成に利用した音源の設定

主観評価音源の予測結果

• 複数の騒音を学習したため，実測IRとノイズの条件にズレが起きた

• 主観評価音源の傾きのズレを線形回帰式を求めて補正 • 補正前後でRMSEは0.156から0.060に改善

• 主観評価値より高めで安全側 • この補正処理に関しては，学習条件の見直し，バリデーションデータの利用法変更などで利用しなくて良いようにして行く

MFCCからSTOIを予測予測STOIを用いたLDRの予測

主観評価音源の予測結果

• 複数の騒音を学習したため，実測IRとノイズの条件にズレが起きた

• 主観評価音源の傾きのズレを線形回帰式を求めて補正 • 補正前後でRMSEは0.156から0.060に改善

• 主観評価値より高めで安全側 • この補正処理に関しては，学習条件の見直し，バリデーションデータの利用法変更などで利用しなくて良いようにして行く

MFCCからSTOIを予測

安全側の予測傾向

予測STOIを用いたLDRの予測

目次




最終的なシステム全体の評価

• 実際に屋外にクライアントを設置し，ATR音素バランス文Aセット50文連結して放送し，MFCCとdeltaを収録 (拡声器前2.0 mで 85 dB)

• クライアント毎にサーバまでの通信に平均4.73 sec.遅延

• メガホンの直線上にあるクライアントとそれ以外で分析


N

2.82 m

Client 1

Client 2Client 4

Client 5


IR録音地点


最終的なシステム全体の評価聴き取りにくい


直線上にないクライアント

直線上にあるクライアント

最終的なシステム全体の評価聴き取りにくい


直線上にないクライアント

直線上にあるクライアント

メガホンから直線上にある場合は聴き取りにくくはない(≒聴き取れる)

考察：ちゃんと動いているのか

• 暗騒音だけを入力すると「最も聴き取りにくい」となる（VADの実装必要）

• IRを畳み込んだ音声を入力すると聴き取りにくく無い

• 音声のレベルは考慮されている

暗騒音だけ(40 dB相当)

聴き取りにくい

ATR音素バランス文A01聴き取りにくくはない

考察：RFモデルにおける特徴量の寄与度

• STOIを予測するRFモデルの寄与度を見ると，パワーのデルタとMFCCの1次元目の貢献度が高い

• パワーの(大きな)変動(≒定常騒音ではない成分)をモデル化している

• MFCC の高次成分はあまり貢献していない

目次




まとめ：とりあえず動くものはできたが・・・• • • • • • •

• 録音した音(声)のMFCCをフィードバックするシステムを開発

• サーバでは機械学習によりSTOIを予測するモデルとSTOI

からLDRを予測するモデルを組み合わせた

• メガホンの直線上とそれ以外で異なる聴き取りにくさであることが実機で録音した音源から示された

• 今後は一つ一つのモデルの作り込み，データの追加収集，さらなる主観評価，部品の見直しなどより作り込む

• フィードバックした予測LDRを利用した拡声システム

Documents

機械学習を用いた 屋外拡声器の品質予測 · 2019-02-15 · c ( c ( c ( c ( c ( " b! # ' a これまでに取り組んで来たこと • 下図のような屋外での実地計測を目指して計測機に組

機械学習を用いた屋外拡声器の品質予測 · 2019-02-15 · c ( c ( c ( c ( c ( " b! # ' a これまでに取り組んで来たこと • 下図のような屋外での実地計測を目指して計測機に組