Download doc - マイクロフォンアレイとカルマンフィルタによる - Kobe … · Web viewM.Fujimoto et al:”Speech Recognition under Musical Environments Using Kalman Filter and

マイクロフォンアレイとカルマンフィルタによる実環境下でのハンズフリー音声認識

― 対話型テレビのフロントエンドシステムの構築 ―

藤本雅清　有木康雄（龍谷大学大学院理工学研究科）

1. はじめに現在のテレビ放送は，放送局から各家庭に

一方向で情報が送られてくるため，番組中に興味のある情報等があった場合，放送の内容のみでは十分な情報を得られないという不便さがある．このような不便さを解消するためには，興味のある内容を，テレビに対して直接問い合わせて情報を得ることが可能な，対話型テレビの出現が望まれる[1]．

この対話型テレビでは，ユーザーがニュース番組等を閲覧中に，興味のある内容が出現した際に，テレビに向かって「○○について教えて．」などと音声で問い合わせることにより，情報検索，提示を行うシステムになっている．情報検索は，ユーザー発話を認識し，クエリーを抽出することによって行う．ここで音声入力時にユーザーにマイクロフォンを持たせて，音声の入力を行っていたのでは，ユーザーは常にマイクロフォンを意識してしまい，機械との自然な対話を妨げる．このためユーザーにマイクロフォンを意識させないハンズフリー音声認識が必要となる．しかし，ハンズフリー音声認識では，受音信号が背景雑音や残響などの外乱の影響を受けるという問題がある．

以上の問題において近年，マイクロフォンアレイを用いて指向性を形成することにより発話音声を高品質で受音する研究が盛んに行われている．ここで，マイクロフォンアレイを用いた指向性の形成は，その用途により大きく 2 種類に分類される．一つは，話者方向に対して指向性を形成する遅延和アレイ[2]であり，もう一つは，指向性をもった雑音に対して，死角を形成する適応形アレイである．本研究では，雑音は指向性を持たず，実験室内で拡散しているという仮定をし，遅延和アレイを用いた発話音声の受音を行っている．

遅延和アレイにより，発話音声を強調し，雑音を抑圧することができるが，受音された音声信号には，依然として雑音が重畳しており

音声認識精度に影響を与えてしまう．また，遅延和アレイは，残響等への対処が十分で無いといった問題がある．これらの問題を解決するために，本研究では，我々が以前提案した雑音除去と雑音適応を併用した雑音な頑健な音声認識法[3]を用いて，ビームフォーミング後の音声信号を認識している．

以上のようなハンズフリー音声認識法を用いて，本研究では，対話型テレビを想定した背景にニュース音声が存在する環境における評価を行った．

2. ハンズフリー音声認識本研究におけるハンズフリー音声認識は，図

1 の様な手順になっている．

図 1: ハンズフリー音声認識の流れ

まず話者方向を推定し，遅延和アレイによるビームフォーミングを行う．次に，話者方向の時間的安定性に基づいてユーザー発話区間を検出し，検出された区間の音声に対して雑音除去を行う．最後に雑音適応により，音声認識に用いる音響モデルを残響等の雑音環境に適応させ，音声認識を行っている．以下，各部の詳細について述べる．

2.1. ビームフォーミングマイクロフォンアレイを用いて，高音質に

音声を受音するためには，話者方向に対して指向性を形成（ビームフォーミング）することにより，目的音以外の音を抑圧する必要がある．本研究では，図 2 に示す遅延和アレイ[2]

に基づいてビームフォーミングを行い，目的

音を高品質に受音している．図中，は受音信号，はマイクロフ

ォンの数，は目的音の到来方向，はの到来遅延時間，はマイクロフォン間

隔である．遅延和アレイでは図 2 に示すように，方向

から到来する信号を各マイクロフォン素子で受音し，それぞれを同相化して加算することにより，方向から到来する信号を倍に強調して出力する．一方，方向以外から到来する信号は，同相化されないため，強調されない．このことにより，方向に感度が高く，それ以外の方向に感度が低いという指向性を形成することができる．

図 2: 遅延和アレイの概念図

2.2. 話者方向推定　遅延和アレイ処理を行う際に必要となる到来遅延時間は，CSP (Cross-power Spectrum Phase analysis)法[4]を用いて推定した．

マイクロフォン，で受音した信号をそれぞれ， , とすると， CSP 係数

は次式により得られ，

(1)到来遅延時間は，

　(2)

として推定される．また，話者方向は次式により得られる（は音速，は標本化周波数）．

　(3)

2.3. 発話区間検出本研究におけるシステムでは，TV 番組の放映中に，ユーザーがテレビに向かって発話するという状況を想定しているため，TV の音声が存在する環境において音声認識を行う必要

がある．この場合，ハンズフリー音声認識を行うためには，TV 音声に割り込んでユーザー発話を入力する必要がある．

一般にこのような割り込み処理は，連続して観測される信号から発話区間を検出することにより行われる．本研究では，音源到来方向（Direction OfArrival: DOA）の時間的安定性に基づいて，発話区間検出を行っている．今回の実験では，図 3 に示すように，TV 音

声がマイクロフォンアレイの後方に位置するラウドスピーカーから到来する環境で実験を行っている．この場合，マイクロフォンアレイの後方から TV 音声が到来するため，マイクロフォンアレイ正面には，様々な反射を経てTV 音声が到来し，到来方向が時間的にばらつき，安定しないと考えられる．一方，ユーザー発話は，マイクロフォンアレイ正面に向かって行われるため，受音信号の到来方向は時間的に安定するものと考えられる．この仮定をもとに，図 4 に示すように，推定到来方向が一秒以上安定している区間を，ユーザー発話区間として切り出すことを検討した．

図 3: 実験室の環境

図 4 の上段は DOA の時間推移を表し，下段は対応する観測信号を表している．また，左段と右段は TV 音声のみを観測した場合，中央は TV 音声に加えてユーザー発話が観測された場合を表している．図より，ユーザー発話が観測された場合，DOA の時間推移が安定していることがわかる．

図 4: 発話区間検出の例

2.4. カルマンフィルタによる雑音除去2.1.のビームフォーミングにより，目的音

を強調することが可能となるが，ビームフォーミング後の音声には，依然として雑音成分が残留している．この雑音成分に対しては，以下に示すカルマンフィルタに基づく雑音除去法[3]により対処を行った．図 5 に本研究で用いた雑音除去手法の概念図を示す．

図 5: 雑音除去手法の概念図

図 5 において，カルマンフィルタのフィルタ方程式は，音声の時間変化モデル（雑音

重畳音声に含まれる音声成分の時間変化をモデル化したもの）に基づいて定義される[3]．

ここで，番目の短時間フレームにおいて，雑音重畳音声のパワースペクトルを，クリーン音声のパワースペクトルを，雑音のパワースペクトルベクトルをとすると，本研究で用いたカルマンフィルタのフィルタ方程式は，以下の式により与えられる．

(4)

　(5)

(6)

　(7)

　(8)

　(9)

式(4)～ (9)において， ( は最終フレーム)であり，はの推定値，は誤差の共分散行列である．また，添字は対数パワースペクトル領域を示す．

，の初期値はそれぞれ以下のように設定した．

　(10)

　(11)

式(6)のは式(12)で与えられるシステム雑音の対角共分散行列であり，

は平均零のガウス過程であると仮定することにより，式(14)のようにして求められる．

　(12)　(13)

　(14)

また，式(5)のは観測雑音の対角共分散行列であり，同様，平均零のガウス過程を仮定して，以下のようにして求めた．

　(15)

式(12)，(15)において，，の計算に必要となるベクトルは，14 次の線形予測法により推定している．

2.5. MLLR 適応による雑音，環境適応2.4.の方法により，ビームフォーミング後

の音声に対して雑音除去を行うが，2.4.の方法では，残響や，音場の空間伝達特性について考慮していない．このため，雑音除去が精度よく行われても，残響等の影響により音声認識精度が劣化してしまう．この問題を解決するために，教師無しMLLR(Maximum Likelihood Linear Regression)適応[5]を行うことにより，音響モデルを残響等の雑音環境に適応させた．適応を行う際の適応データは，入力された 1 発話のみであり，MLLR 適応における音響モデルの音素クラスタ数は 1 である．

3. ハンズフリー音声認識実験3.1. 実験環境及び条件

実験室の環境は図 3 のようになっている．雑音源としては，ニュース音声と計算機及び液晶プロジェクターのファンの回転音であり，騒音レベルは平均 55dB である．使用したマイクロフォンアレイは 16素子の直線型アレイであり，素子間隔は 2cm である．

実験は，男性被験者 5名に，ニュース中に登場する 20個のキーワードを用いて，ニュース映像に対して質問させることにより行った(合計 100 発話)．質問の形式は，「完全失業率とはなんですか」というような形式であり，キーワード以外の言い回しはユーザーの裁量にまかせている．被験者とマイクロフォンアレイの距離は 2m であり，正面方向（0 度）のみの発話である．音声認識は，サブワードモデルに基づくキーワードスポッティングにより行い，キーワード抽出率で評価を行った．

音声認識における音響モデルには，話者独立な monophone HMM(5状態 3 ループ，各状態 12混合分布，41 音素)を用いた．音声認識の音響分析の条件を表 1 に示す．

表 1: 話者方向推定の音響分析条件

標本化周波数 16kHz, 16Bit高域強調特徴パラメータ(雑音除去)

512点FFT スペクトル

特徴パラメータ MFCC(0～12 次)

(音声認識） +Δ+ΔΔ(39 次元)分析区間長 20ms分析周期 10ms時間窓 Hamming Window

3.2. 実験結果表 2，3 に実験結果を示す．表 2 において，

話者区間検出精度は，話者区間検出により切り出された音声信号に，発話音声が途切れる事なく含まれていれば正解とした．また，湧き出し区間数は，ユーザー発話と無関係であるにも関わらず，ユーザー発話として切り出された区間の数である．話者方向推定精度は，正しく切り出された 89個の区間に対する評価であり，推定された話者方向が±5度以内であれば正解として評価した．表 3 は，正しく切り出された区間におけるキーワードスポッティングの結果である．また，'BF 無し'は，ビームフォーミングを行わず，一本のマイクロフォンで受音した音声を認識した結果であり，'BF'はビームフォーミングを行った場合の結果である．

表 2: 発話区間検出及び話者方向検出精度

発話区間検出精度(%)

湧き出し区関数

話者方向推定精度(%)

89.0(89/100) 5 95.5

表 3: キーワードスポッティング結果

キーワード抽出率(%)

湧き出し単語数

BF 無し 22.4(20/89) 16BF 48.3(43/89) 7提案手法 69.7(62/89) 6表 2 の結果より，5個の湧き出し区間があるが，ニュース音声が存在していても，89.0%の精度で発話区間検出が行うことができ，話者方向推定精度も 95.5%の精度が得られた．

また，表 3 の結果より，提案手法を用いることにより，69.7%の単語抽出率が得られ，湧き出し単語数も 6個に押さえる事ができた．しかし，機械との自然な対話を行うには，89.0%の発話区間検出精度，69.7%の単語抽出率では十分であるとは言いがたい．特に，今回用いた雑音除去法では，加算性の雑音のみを考慮しており，残響や，音場の空間伝達特性などの乗法性歪みを考慮していない．今後，音声認識精度を改善するためにも，これらの乗法性歪みを考慮した雑音除去法について検討を行う必要がある．

4. おわりに本研究では，マイクロフォンアレイとカ

ルマンフィルタによる雑音除去法を用いた，ハンズフリー音声認識法について検討を行った．

提案手法の評価の結果，対話型テレビを想定した，ニュース音声が存在する環境において，発話区間検出率 89.0%，話者方向推定精度 95.5%，キーワード抽出率 69.7%が得られた．今後，乗法性歪みを考慮した雑音除去法に

ついて検討する予定である．また，対話型テレビ実現のために，音声認識後の情報検索情報提示などの部分についても検討を行う予定である．

参考文献[1] 有木康雄:“物知りテレビについて”, 第 9

回情報処理学会関西支部サイバーメディア研究会(2000).

[2] J.L. Flanagan et al:“Computer-Steered Micro phone Arrays for Sound Transduction in Large Rooms”, J.Acoust. Soc. Am., Vol.78, No.5, pp.1508-1518 (1985).

[3] M.Fujimoto et al:”Speech Recognition under Musical Environments Using Kalman Filter and Iterative MLLR Adaptation”, Euro- speech'01, Vol.III, pp.1879-1882 (2001).

[4] 西浦他:“マイクロホンアレーを用いたCSP 法による複数音源位置推定”, 信学論, Vol.83-D-II, No.8, pp.1713-1721 (2000).

[5] C.L.Leggetter et al:“Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models”, Computer Speech and Language, Vol.9, pp.171-185 (1995).