Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
機械学習を用いた 屋外拡声器の品質予測
室蘭工業大学 小林洋介
2019年3月1日 第25回人工知能研究成果発表会
目次
1.これまでに取り組んだこと 2.今回取り組んだこと 3.屋外でのインパルス応答計測 4.聴き取りにくさの主観評価
5. STOIを用いたモデル化
6.屋外録音音声による評価 7.まとめ
目次
1.これまでに取り組んだこと 2.今回取り組んだこと 3.屋外でのインパルス応答計測 4.聴き取りにくさの主観評価
5. STOIを用いたモデル化
6.屋外録音音声による評価 7.まとめ
C
C
C CC
B
A
これまでに取り組んで来たこと
• 下図のような屋外での実地計測を目指して計測機に組み込む了解度推定モデルの研究に取り組んできた
• モデル開発のヒントを得る為に,実際に作ってみた※観測値からのモデル作成を推定,推定モデルの使用を予測とする
C
C
C CC
B
A
これまでに取り組んで来たこと
• 下図のような屋外での実地計測を目指して計測機に組み込む了解度推定モデルの研究に取り組んできた
• モデル開発のヒントを得る為に,実際に作ってみた
0 0.05 0.1 0.15 0.2 0.25SIMI
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Mea
sure
d In
tellig
ibilit
y
cond.01cond.02cond.03cond.04cond.05cond.06cond.07cond.08fitting
小林 信学技報(EA) 2018.07小林 信学技報(EA) 2015.11 など
※観測値からのモデル作成を推定,推定モデルの使用を予測とする
C
C
C CC
B
A
これまでに取り組んで来たこと
• 下図のような屋外での実地計測を目指して計測機に組み込む了解度推定モデルの研究に取り組んできた
• モデル開発のヒントを得る為に,実際に作ってみた
C
C
C CC
B
A
これまでに取り組んで来たこと
• 下図のような屋外での実地計測を目指して計測機に組み込む了解度推定モデルの研究に取り組んできた
• モデル開発のヒントを得る為に,実際に作ってみた
野口他 音講論 2018春野口他 情処学会研報(SIG-MUS), 2018
聴き取りにくさ計の開発• 了解度ではなく聴き取りにくさ(LDR)の予測機(聴き取りにくさ計)とした
• 入力される信号から逐次MFCC, パワー, およびそれらのデルタを計算
• 1 sec.ごとに機械学習による推定LDRモデルと音声区間検出VAD(Voice
Activity Detection)モデルに入力,音声時のみ予測LDR表示を更新
• 両モデルともRandom Forests (RF)アルゴリズムを利用
• 学習音源は室工大中庭で収録したインパルス応答を利用
野口他 音講論 2018春,野口他 情処学会研報(SIG-MUS), 2018
聴き取りにくさ計の開発
野口他 音講論 2018春,野口他 情処学会研報(SIG-MUS), 2018
聴き取りにくさ(LDR: Listening Difficulty Rating )を利用した理由
前提:本当に動くモノができるか不明 • 単語了解度試験は実験規模が大きい(条件毎に20単語/人)ので消極的
• 目的がモデルを使った予測であるため,実利用に近い文章の実験データが欲しい
• 文章了解度試験は定番評価法がない • 了解度が0になるような極端に悪い放送はそれほどない(LEを除く)
• 実際の屋外拡声音声とそのLDR評価値との
比較ができる(栗栖, 建音資, 2015)
佐藤他 音響誌 Vol.63 no.5 2007
C
C
C CC
B
A
見えてきた課題• 1度の放送で複数地点の結果を同時に知りたい (ネットワーク化)
• 設計開発だけでなく,放送へ直接フィードバックしたい • ワンボードコンピュータの計算力不足を補い,より高度で複雑な機械学習モデルの利用
LDR
0.8
LDR
0.4
LDR
0.1
目次
1.これまでに取り組んだこと 2.今回取り組んだこと 3.屋外でのインパルス応答計測 4.聴き取りにくさの主観評価
5. STOIを用いたモデル化
6.屋外録音音声による評価 7.まとめ
C
C
C CC
B
A
���������
今回取り組んだこと• 1度の放送で複数地点の結果を同時に知りたい (ネットワーク化)
• 設計開発だけでなく,放送へ直接フィードバックしたい • ワンボードコンピュータの計算力不足を補い,より高度で複雑な機械学習モデルの利用
C
C
C CC
B
A
���������
今回取り組んだこと• 1度の放送で複数地点の結果を同時に知りたい (ネットワーク化)
• 設計開発だけでなく,放送へ直接フィードバックしたい • ワンボードコンピュータの計算力不足を補い,より高度で複雑な機械学習モデルの利用
C
C
C CC
B
A
���������
今回取り組んだこと• 1度の放送で複数地点の結果を同時に知りたい (ネットワーク化)
• 設計開発だけでなく,放送へ直接フィードバックしたい • ワンボードコンピュータの計算力不足を補い,より高度で複雑な機械学習モデルの利用
機器作成及び組み込むモデル学習の方針
1. 屋外環境を再現するために室蘭工大の中庭でインパルス応答と暗騒音
2. 対象装置:(自分たちで実験しやすい)肩掛
け式のメガホンを利用(TOA, ER-2830W)
3. 収集したインパルス応答を畳み込み暗騒音を加算した音声を主観評価
4. 主観評価音源よりもさらに多くの音源でLDR予測のためのモデルを学習
5. 開発した実機で,ATR音素バランス文を収録し,予測が行えるか検証 ※実験時はWSあり
クライアントの実機
※実験時はWSあり
• 入力音(声)の12次元のMFCC,パワー及びそれらのdeltaパラメータを100 msec.毎に
計算 (26次元, SPTK利用)
• 1 sec.分(260次元)まとまるとサーバへ転送
• マイクロホン(BEHRINGER,ECM8000 ),
オーディオインタフェース(BLUE, ICICLE ),
Raspberry Pi 3 model B, モバイルバッテリ
• 5機利用(10機分部品用意)Outdoor PA speech Mic. Audio I/F STOI
PredictionLDR
PredictionClient
DisplayMFCC
PredictedSTOI
wifiCalc. MFCC
MFCC toSTOI model
STOI to LDRmodel
server
目次
1.これまでに取り組んだこと 2.今回取り組んだこと 3.屋外でのインパルス応答計測 4.聴き取りにくさの主観評価
5. STOIを用いたモデル化
6.屋外録音音声による評価 7.まとめ
屋外でのインパルス応答の録音
• IRは北からM系列信号を放送して録音(2017/11/13,14)
• 最終評価の音素バランス文は南から放送して録音(2018/6/23)
• メッシュの交差でIR録音,三角に設置,三角と丸を主観評価
• 風が吹いていないタイミングで録音(風力計が回ったら録り直し)
室蘭工業大学 V/R棟前広場 MFCC計測時のメガホンの向きIR録音時のメガホンの向き
N
2.82 m
Client 1
Client 2Client 4
Client 5
Client 3IR録音地点とMFCC計測地点
IR録音地点
IR録音地点,STI: 0.63IR録音時の拡声器設置点MFCC計測時の拡声器設置点
(0.683 sec., 拡声器前2.0 mで 92 dB)
屋外でのインパルス応答の録音
• IRは北からM系列信号を放送して録音(2017/11/13,14)
• 最終評価の音素バランス文は南から放送して録音(2018/6/23)
• メッシュの交差でIR録音,三角に設置,三角と丸を主観評価
• 風が吹いていないタイミングで録音(風力計が回ったら録り直し)
室蘭工業大学 V/R棟前広場 MFCC計測時のメガホンの向きIR録音時のメガホンの向き
N
2.82 m
Client 1
Client 2Client 4
Client 5
Client 3IR録音地点とMFCC計測地点
IR録音地点
IR録音地点,STI: 0.63IR録音時の拡声器設置点MFCC計測時の拡声器設置点
中心で暗騒音収録平均で 42 dB
(0.683 sec., 拡声器前2.0 mで 92 dB)
取得したインパルス応答の例(DSSF3利用)室蘭工業大学 V/R棟前広場 MFCC計測時の
メガホンの向きIR録音時のメガホンの向き
N
2.82 m
Client 1
Client 2Client 4
Client 5
Client 3IR録音地点とMFCC計測地点
IR録音地点
IR録音地点,STI: 0.63IR録音時の拡声器設置点MFCC計測時の拡声器設置点
取得したインパルス応答の例(DSSF3利用)室蘭工業大学 V/R棟前広場 MFCC計測時の
メガホンの向きIR録音時のメガホンの向き
N
2.82 m
Client 1
Client 2Client 4
Client 5
Client 3IR録音地点とMFCC計測地点
IR録音地点
IR録音地点,STI: 0.63IR録音時の拡声器設置点MFCC計測時の拡声器設置点
目次
1.これまでに取り組んだこと 2.今回取り組んだこと 3.屋外でのインパルス応答計測 4.聴き取りにくさの主観評価
5. STOIを用いたモデル化
6.屋外録音音声による評価 7.まとめ
聴き取りにくさの主観評価条件と評価方法
• 防音ブース内でラップトップマシンに接続したオーディオインタフェースからヘッドホンを用いてダイオティックで,20代25人に提示
• 基準音に対し,ダミーヘッド(サザン音響, SAMURA HATS Type3700E)とイヤーシミュレータ(アコー, Type2128E)を利用して提示音校正
• 評価音声の再生・結果の入力はGUIアプリを開発して利用
• 本評価実験は室蘭工業大学ヒトを対象とした研究倫理審査委員会の承認のもと行われた
LDR = T − Co u n t(L1)T
主観評価条件 聴き取りにくさの指標と定義
10地点*2名*4レベル*2文章
主観評価の結果
• 主音声と騒音のSNR(signal to noise ratio)ごとに評価
• SNRが小さい(音声レベルが小さい)ほど聴き取りにくい(音声のラウドネスの評価になっていないか懸念される?)
• 1地点のみ全SNRで聴き取りにくい(中心から外れる,ガレージの反射)
聴き取りにくい
聴き取りにくくはない
誤差棒:95%片側信頼区間
目次
1.これまでに取り組んだこと 2.今回取り組んだこと 3.屋外でのインパルス応答計測 4.聴き取りにくさの主観評価
5. STOIを用いたモデル化
6.屋外録音音声による評価 7.まとめ
客観音声了解度指標を用いたモデル化
• 機械学習モデルは学習した条件の予測性能が高い(=学習していない条件での性能はいつまでも課題)
• 多数音源の主観評価は難しい(本研究のスタートライン) • 計算だけで求められる了解度指標を機械学習で予測し,推定LDR
に変換する (ITU-T Rec. 862.1 PESQ Mapping func.と同じ原理)
• 雑音抑圧音声の品質評価に使われるSTOI(Short-Time Objective
Intelligibility)を利用した
Outdoor PA speech Mic. Audio I/F STOI
PredictionLDR
PredictionClient
DisplayMFCC
PredictedSTOI
wifiCalc. MFCC
MFCC toSTOI model
STOI to LDRmodel
server
STOI(Short-Time Objective Intelligibility)
• C. H. Taal et al.が 2011年に提案した時間-周波数モデルに基づく知覚的歪みをモデル化した了解度指標
• クリーン音声と雑音加算音声を約50 msec.に分割し,1/3オクターブバンド分析に基づくスペクトル崩落を計算
• 両信号のスペクトル崩落を時間-周波数(TF)フレーム384 msec.ごとに作成し,雑音加算音声は正規化し,同一バンドの相関係数を計算する
• 最終的に全TFフレームの全相関係数の平均し,了解度指標 とするd
STOIを用いたLDR推定モデル
• 条件毎のSTOIの平均値と主観評価によるLDRをマップ
• 一般化線形モデルによる最尤推定で係数決定 • 相関係数: -0.94, モデルと実測のRMSE: 0.061 と非常に良
いモデル(使えそう)
f(d) = 11 + exp(16.42 + 22.68d)
RFによるSTOI予測モデル
• STOIの問題:原音が必要 どうやって放送前の音声を入手するか?
• 先行研究:MFCCを特徴量としたLSTMを用いた雑音残響環境でのSTOI予測(D.Yun et al. IEICE, 2018)
• LDR計でMFCCからLDRの予測に利用した多数の決定木をアンサンブルするRFアルゴリズムを採用
• 後述する条件の音声を学習 • 説明変数:1 sec.分のMFCC & delta(260次元)
• 目的変数: 1 sec.に切り出された音声のSTOI
値(言語的ではない切出を許容)
RFによるSTOI予測モデル
• STOIの問題:原音が必要 どうやって放送前の音声を入手するか?
• 先行研究:MFCCを特徴量としたLSTMを用いた雑音残響環境でのSTOI予測(D.Yun et al. IEICE, 2018)
• LDR計でMFCCからLDRの予測に利用した多数の決定木をアンサンブルするRFアルゴリズムを採用
• 後述する条件の音声を学習 • 説明変数:1 sec.分のMFCC & delta(260次元)
• 目的変数: 1 sec.に切り出された音声のSTOI
値(言語的ではない切出を許容)
Clean speech
Degraded speech
RFによるSTOI予測モデル
• STOIの問題:原音が必要 どうやって放送前の音声を入手するか?
• 先行研究:MFCCを特徴量としたLSTMを用いた雑音残響環境でのSTOI予測(D.Yun et al. IEICE, 2018)
• LDR計でMFCCからLDRの予測に利用した多数の決定木をアンサンブルするRFアルゴリズムを採用
• 後述する条件の音声を学習 • 説明変数:1 sec.分のMFCC & delta(260次元)
• 目的変数: 1 sec.に切り出された音声のSTOI
値(言語的ではない切出を許容)
Clean speech
Degraded speech
これだけで処理したい
RFによるSTOI予測モデル
• STOIの問題:原音が必要 どうやって放送前の音声を入手するか?
• 先行研究:MFCCを特徴量としたLSTMを用いた雑音残響環境でのSTOI予測(D.Yun et al. IEICE, 2018)
• LDR計でMFCCからLDRの予測に利用した多数の決定木をアンサンブルするRFアルゴリズムを採用
• 後述する条件の音声を学習 • 説明変数:1 sec.分のMFCC & delta(260次元)
• 目的変数: 1 sec.に切り出された音声のSTOI
値(言語的ではない切出を許容)
学習に用いた音源一覧
• モデルの学習音源,ハイパーパラメータの最適化に利用するモデル評価音源,主観評価音源を分けて利用
• モデル評価音源で決定木数を決定 (100本,最深115ノード)
• 主観評価音源でテスト
STOIの予測モデル作成に利用した音源の設定
主観評価音源の予測結果
• 複数の騒音を学習したため,実測IRとノイズの条件にズレが起きた
• 主観評価音源の傾きのズレを線形回帰式を求めて補正 • 補正前後でRMSEは0.156から0.060に改善
• 主観評価値より高めで安全側 • この補正処理に関しては,学習条件の見直し,バリデーションデータの利用法変更などで利用しなくて良いようにして行く
MFCCからSTOIを予測 予測STOIを用いたLDRの予測
主観評価音源の予測結果
• 複数の騒音を学習したため,実測IRとノイズの条件にズレが起きた
• 主観評価音源の傾きのズレを線形回帰式を求めて補正 • 補正前後でRMSEは0.156から0.060に改善
• 主観評価値より高めで安全側 • この補正処理に関しては,学習条件の見直し,バリデーションデータの利用法変更などで利用しなくて良いようにして行く
MFCCからSTOIを予測
安全側の 予測傾向
予測STOIを用いたLDRの予測
目次
1.これまでに取り組んだこと 2.今回取り組んだこと 3.屋外でのインパルス応答計測 4.聴き取りにくさの主観評価
5. STOIを用いたモデル化
6.屋外録音音声による評価 7.まとめ
最終的なシステム全体の評価
• 実際に屋外にクライアントを設置し,ATR音素バランス文Aセット50文連結して放送し,MFCCとdeltaを収録 (拡声器前2.0 mで 85 dB)
• クライアント毎にサーバまでの通信に平均4.73 sec.遅延
• メガホンの直線上にあるクライアントとそれ以外で分析
室蘭工業大学 V/R棟前広場 MFCC計測時のメガホンの向きIR録音時のメガホンの向き
N
2.82 m
Client 1
Client 2Client 4
Client 5
Client 3IR録音地点とMFCC計測地点
IR録音地点
IR録音地点,STI: 0.63IR録音時の拡声器設置点MFCC計測時の拡声器設置点
最終的なシステム全体の評価聴き取りにくい
聴き取りにくくはない
直線上にないクライアント
直線上にあるクライアント
最終的なシステム全体の評価聴き取りにくい
聴き取りにくくはない
直線上にないクライアント
直線上にあるクライアント
メガホンから直線上にある場合は聴き取りにくくはない(≒聴き取れる)
考察:ちゃんと動いているのか
• 暗騒音だけを入力すると「最も聴き取りにくい」となる(VADの実装必要)
• IRを畳み込んだ音声を入力すると聴き取りにくく無い
• 音声のレベルは考慮されている
暗騒音だけ(40 dB相当)
聴き取りにくい
ATR音素バランス文A01聴き取りにくくはない
考察:RFモデルにおける特徴量の寄与度
• STOIを予測するRFモデルの寄与度を見ると,パワーのデルタとMFCCの1次元目の貢献度が高い
• パワーの(大きな)変動(≒定常騒音ではない成分)をモデル化している
• MFCC の高次成分はあまり貢献していない
目次
1.これまでに取り組んだこと 2.今回取り組んだこと 3.屋外でのインパルス応答計測 4.聴き取りにくさの主観評価
5. STOIを用いたモデル化
6.屋外録音音声による評価 7.まとめ
まとめ:とりあえず動くものはできたが・・・• • • • • • •
• 録音した音(声)のMFCCをフィードバックするシステムを開発
• サーバでは機械学習によりSTOIを予測するモデルとSTOI
からLDRを予測するモデルを組み合わせた
• メガホンの直線上とそれ以外で異なる聴き取りにくさであることが実機で録音した音源から示された
• 今後は一つ一つのモデルの作り込み,データの追加収集,さらなる主観評価,部品の見直しなどより作り込む
• フィードバックした予測LDRを利用した拡声システム