Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
音情報処理 第6回
音声認識理論と音声認識システム
2015/11/12
環境知能学研究室 川波弘道
1
第1回 音情報基礎
第2回 音声の特徴抽出
第3回 音声符号化基礎
第4回 音響信号処理基礎
第5回 音声合成理論と音声合成システム
第6回 11/12 音声認識理論と音声認識システム:川波Speech recognition theory and system
第7回 11/19 音声対話システム理論と音声対話システム
第8回 11/26 試験
2
第6回 内容
音声認識概要
テンプレートマッチングによる認識*
DTWマッチング
統計モデルによる認識
HMM音響モデル、N-グラム
頑健な実環境システム
必要となる技術
演習:Level Building法による2語彙2単語認識
3
音声認識の意義発話をテキストに変換するメリット
特別な訓練が不要なテキスト入力手段
ユーザの姿勢を拘束しない
ユーザは安価な機材で利用できる
(将来的には高次言語情報、非言語情報の利用)
ただし、本質的に認識誤りはゼロにはならない• 辞書にない未知語
• 確率的アプローチの限界
• 背景にある文脈や知識が与える影響
※音声だけで「BS」「ENTER」のような確実なメタ入力は不可能
それを踏まえたうえで利点を活かしたアプリケーションを設計する
4
分類
音声認識 単語音声認識
ワードスポッティング
大語彙連続音声認識(ディクテーション=口述筆記)
連続音声認識
話者認識話者識別
話者照合・認証
(誰かを判断)
(申告者本人かどうか判断)
孤立単語音声認識
(長時間発話から特定の単語を抽出)
言語認識
Speech
recognition
(ASR; Automatic
Speech recognition)
Large vocabulary continuous
speech recognition (LVCSR)
5
アプリケーション
ディクテーション(口述筆記)電子秘書,議事録自動作成,テレビ字幕自動生成
負担の少ないインタフェイス対話ロボット,音声情報検索、音声リモコン、自動翻訳
バイオメトリクス話者認証
CALL (Computer Aided Language Learning)発音評価
超低ビットレートデータ通信テキストにして送信、受信側で音声合成
6*下線は特にリアルタイム性が要求されるもの
音声認識
音響特徴量の時系列を音響的類似性と想定される発話内容に基づき、単語列に変換
音響モデル、言語モデル、デコーダ
音響特徴量
振幅スペクトル包絡を表すもの(音韻性)
分析区間(フレーム)が重なるようシフトさせて抽出
デファクトスタンダードは、MFCC(メル周波数にもとづくフィルタバンクによる係数)、そのΔ(中心+前後2フレーム)、ΔΔ、パワーのΔ、ΔΔなど
韻律は基本的に使用されていない
F0パターン(音のあがりさがり)、発話速度 7
8
mky
今日
o y ho u o w
読む
a
は
N本
「今日読む本は」
波形
スぺクトログラム(振幅スペクトル包絡を利用)
音素列単語列
構成
9
入力音声
特徴量抽出 デコーダ
認識結果
音響モデル 言語モデル単語辞書(音素列)
音素の物理的特徴モデル入力の物理的特徴を評価する
認識結果の言語的制約探索空間を絞り込み評価する
振幅スペクトル包絡時系列データ
言語的制約と音響的マッチングを用いて単語列を推測
パラダイムの変遷
1960s
音素認識
1970s
テンプレートマッチングによる単語認識
1980s
HMM(隠れマルコフモデル)の普及
1990s
HMMとN-グラムによる連続音声認識
2010s
RNNによるモデルパラメータ推定
WFSTによる統一的フレームワーク
10
テンプレートマッチングと確率モデル
11
特徴量抽出 テンプレートとのスペクトル距離の
累積距離が最小となる単語列を選択
記述文法
認識結果
単語テンプレート 単語辞書
特徴量抽出
音素HMM 単語3-gram
認識結果
単語辞書
音響尤度,単語列生起確率の積が最大となる単語列を探索する.
【小語彙定型発声の認識に向くパターンマッチング】
【大語彙連続音声の認識に向く確率モデル】
テンプレートマッチングによる音声認識
基本方針
入力とテンプレートの特徴量間距離を対応するフレーム毎に求め、総和をフレーム数で正規化
一般に音響スコアのみでの評価可能な用途で用いる。(言語スコアは均一)
DTW(Dynamic Time Warping)マッチング
対応づけるべきフレーム同士を動的に探索しながら特徴量の比較を行うパターンマッチング
12
DTWマッチングの意義持続長が異なる同一発話内容の音声
線形伸縮で持続長を揃えたもの
13
発話長の局所的ゆらぎを抑圧し、対応する音素同士(音響特徴量の類似した箇所同志)を比較することが必要
時系列データの“対応する区間”同士を比較しながら発話全体の距離(相違)のスコアを求める.
DTWマッチング(Dynamic Time Warping, 時間軸伸縮マッチング)
時系列データの“対応する区間”同士を比較しながら全体の類似度のスコアを求める.
音声認識では
入力音声の分析フレームのスペクトルデータ時系列と単語テンプレートのデータの時系列距離の比較
距離が小さい(似たスペクトルを持っている)フレーム同士を対応付けながら距離の総和を求める.
スペクトル距離の総和の最小値をそのテンプレートの距離とする.
14
マッチングパス
入力音声と単語テンプレートの分析フレーム系列を軸とした平面上で、対応づけて分析フレームの座標(=格子点)を結んだもの.
15
・
フレーム間隔
入力音声A
・・・・・
単語テンプレート
B
16
a1 a2 ai aI
bJ
bj
b2
b1 C1
C2
C3
C4
C5
Cn
マッチングパスは, k番(番目の格子点)に対して格子点の座標を返す時間伸縮関数(Warping function)として記述できる.
1 2 i I
J
j
2
1
単語テンプレート
B (フレーム数:J)
入力音声A (フレーム数I)
Ck
Ck-1
マッチングパス
系列 テンプレートフレーム
入力フレーム系列
),(,},,,,{
,,,
,,,
,21
21
21
kkknk
J
I
jiCCCCCWarp
bbbB
aaaA
• フレーム時系列を逆行しない• フレームをスキップしない.
ただし,入力音声かテンプレートか少なくとも一方のフレームは進行させる.
17
}1,,{},1{}1,1{},{ 11 kkkkkkkk joriorjiorjiji
格子点間に与える制約
テンプレートマッチング単語認識のながれ音声分析
(スペクトル系列抽出)
入力音声と単語テンプレートの
フレーム間距離マトリックスを準備
非線形伸縮
マッチング
正規化累積距離の比較
入力音声
認識結果
単語テンプレート
時間
1.こんにちは
2.いたい
3.いやし
4.ああ
10 9 5 4 2 0 0
8 7 6 3 3 2 2
9 8 4 4 0 1 1
4 3 0 1 2 4 4
2 0 3 5 8 9 9
0 2 4 6 9 10 10
入力音声
単語テンプレート
19
パターン間距離の算出
基本方針
格子点スペクトル距離の総和(累積距離)が小さい単語テンプレートを認識結果とする
パス、テンプレートフレーム数の違いによる加算回数の差の正規化を行う必要がある
パス重み wk を導入.パス重み和で累積距離を正規化.
市街地距離(city block distance)を用いたパス重み
パス重み wk を次式で与えるどのパスを通っても,最終格子点での重みの総和は同じ
n
k k
n
k kkk
w
wjidBAD
1
1),(
):(正規化累積距離 スペクトル距離
での格子点 kkk Cjid :),(
11 kkkkk jjiiw
累積距離の最小値の求め方
動的計画法(dynamic programming)
格子点 Ck までの累積距離の最小値は(候補が複数ある)直前の格子点Ck-1での累積距離から求めることができる.
漸化式:
最後の格子点まで g(Ck) を順次求める.
20
値までの累積距離の最小:格子点 ),()( kkkk jiCCg
)}({min),()( 1}{ 1
kC
kkkk CgwjidCgk
格子点のスペクトル距離 マトリックス作成
21
),( jid
5 6 4 5 6 5 4
2 5 5 8 1 1 2
5 4 3 4 5 3 5
8 5 1 6 5 7 5
5 2 2 5 6 5 6
3 1 5 2 2 5 8
1 2 i I=7
J=6
j
2
1
単語テンプレート
B (フレーム数:
J =
6)
入力音声A (フレーム数 I =7)
累積距離の算出
入力とテンプレートのフレームのいずれかまたは両方を1つ進めるパス.パス重みに市街地距離
22
)}}1,(),,1(min{),(1
),1,1(),(2min{),(
kkkkkk
kkkkkk
jigjigjid
jigjidjig
初期条件:
g(1,1) = 2d(1,1)
ikik-1
jk
jk-1
g(ik,jk)
g(ik-1,jk)
g(ik,jk-1)
d(ik,jk)
g(ik-1,jk-1)
1
12
処理の流れ
23
格子点のスペクトル距離マトリックスを作成する.
漸化式にもとづいて、格子点までの最小の累積距離(次図右肩の数字)を求める.
終端の累積距離に対しパス重み和で正規化し,単語テンプレートの正規化累積距離 D(A:B)を求める.
終端からパスをバックトレースするとマッチングパスが得られる.
24
5 6 4 5 6 5 4
2 5 5 8 1 1 2
5 4 3 4 5 3 5
8 5 1 6 5 7 5
5 2 2 5 6 5 6
3 1 5 2 2 5 8
31
26
24
19
11
6
29
23
18
14
9
7
23
19
14
11
11
12
26
20
23
22
22
16
26
21
26
29
26
21
27
23
31
34
32
29
28
26
18
17
16
14
12
1
問題点このパスではまだ,右のような極端な対応付けを回避できない.
お お お か や ま
おや
ま
)}2,1()1,(2
),1,2(),1(2min{),(1
),1,1(),(2min{),(
kkkk
kkkkkk
kkkkkk
jigjid
jigjidjid
jigjidjig
傾斜制限つきパス
局所的な制限により極端な対応を避ける
パス傾斜が 0.5から 2 の間に制限できる.
25ikik-1
jk
jk-1
g(ik,jk)g(ik-1,jk)
g(ik,jk-1)
d(ik,jk)
ik-2
jk-2
g(ik-1,jk-1)g(ik-2,jk-1)
g(ik-1,jk-2)
d(ik-1,jk)
d(ik,jk-1)
初期条件:
g(1,1) = 2d(1,1)1
2
1
1
2
26
5 6 4 5 6 5 4
2 5 5 8 1 1 2
5 4 3 4 5 3 5
8 5 1 6 5 7 5
5 2 2 5 6 5 6
3 1 5 2 2 5 8
-
-
-
-
-
6
-
-
-
15
10
-
-
26
15
12
12
-
28
22
25
29
-
-
31
23
31
-
-
-
31
29
40
-
-
-
36
28
20
18
-
-×
×
2
12
2
1
傾斜制限の範囲外なので格子点になり得ない
27
テンプレートマッチングの改良
整合窓極端なパスになる領域を大局的に除外する.計算量も削減できる.
端点フリー入力音声の認識対象区間を自由にする.発話前後の雑音を無視することができる.
非対称パス入力音声のフレーム数のみで決まるパス重みフレーム同期音声認識
テンプレートのフレーム数のみで決まるパス重み端点フリーと併用してワードスポッティング
28
i
a1 a2 ai aI
bJ
bj
b2
b1 C1= (1,1)
C2
C3
C4
C5
Cn
時間伸縮関数(Warp)
d(i,j):スペクトル距離
1 2 i I
J
j
2
1
累積距離の漸化式を計算する領域を制限する.極端な対応付けを大局的に防ぎ,計算量も削減できる.
j=i-r
j=i+r
整合窓
整合窓
計算不要領域
計算不要領域
入力音声A (フレーム数I)
単語テンプレート
B (フレーム数:J)
29
C1
C2
C3
C4
Cn
時間伸縮関数(Warp)
d(i,j):スペクトル距離
1 2 i I
J
j
2
1
終端フリー領域
N
I-M
始端フリー領域
端点フリー
g(i, 1)= d(i, 1)
この領域で累積距離の
最小値を探す。つまり、入力音声の途中で終わってもよい。
入力音声A (フレーム数I)
単語テンプレート
B (フレーム数:J)
入力の開始フレームや終端フレームを自由にする入力音声の発話前後の不要箇所を無視できる.
※テンプレートの端点フリーを導入すると,発話の文頭落ちや語末落ちに対応できる.
非対称パス
一方のデータに同期した距離計算に有効
パス重み和は注目する側のフレーム数だけで決まるパス重みを設定
累積距離の正規化が不要となる
使用例
ワードスポッティング長時間データの中からキーワード音声を探索する
フレーム同期認識ある時間までの認識結果が逐次得られる
30
31
g(i, 1)= d(i, 1)
J
I
① 入力音声は始端,終端とも端点フリー.(入力音声の任意の区間でテンプレートと似た区間を探す.)
探索対象となる音声コーパスA (フレーム数I)
探索したいキーワード音声
B
② 途中で閾値を超えたら探索は中止
④この区間にテンプレートの単語があると推定
ワードスポッティング
③ テンプレートの最終フレームまでの距離加算加算回数は同じ.閾値以下の累積距離が検出されたらパスをバックトレース.
1 1 1
×
32
6 5 1 3 5 4 5 0 2 4 2 1 3
5 4 4 5 3 2 1 4 4 4 2 3 1
4 4 4 3 1 3 1 3 4 1 4 4 3
2 5 4 2 1 4 5 0 2 4 5 6 3
8 8 3 5 5 4 6
5 4 3 6 6 5 3 4
6 6 6 5 2 4 2 3 4 1 6 8 6
2 5 4 2 1 4 5 0 2 4 5 6 3
1 1 1
単語テンプレート
音声データ(検索対象のデータベース)
g(ik,jk)=d(ik,jk)+min{g(ik-2,jk-1),
g(ik-1,jk-1),
g(ik,jk-1) }
jk
jk-1
ik-2 ik-1 ik
d(ik, jk)
g(ik, jk-1)
この例では2箇所で単語が検出されたこととなる.
閾値を4(=正規化累積距離1)と設定
入力データのあるフレームまでの認識結果の比較が容易
33
1
始点からここまでの距離重みは評価した単語テンプレートに依存
せず同一(k).単語テンプレート
入力音声 ik
)}2,1(),1,1(),,1(min{),(1),( kkkkkkkkkk jigjigjigjidjig
初期条件: g(1,1) = d(1,1)
フレーム同期音声認識
テンプレートマッチングによる連続単語認識
34
解くべき問題
入力パターンともっともよくマッチする単語列を見つけ出す.ただし,入力フレームの単語境界は与えられない.
x 単語認識の素朴なアプローチ
語彙数 N のとき N x 個の単語列テンプレートに対して順にすべてに対してDPマッチング → 非効率的
入力音声
単語テンプレートを連結
単語3
単語2
単語1
基本方針
1. 入力フレーム基準の非対称パスDTW
• 単語テンプレートの長さの影響を受けず,入力の任意のフレームまでの累積距離を比較できる.
2. 単語境界での処理
• 入力フレームまでの累積距離の最小値とその単語を記録し,それを初期値とし次単語のマッチングを開始
アルゴリズム
(a) 2段DP法
(b) Level Building法
単語数既知の場合に効果的
(c) One Pass DP法
単語数未知の場合に効果的 35
36
(a) 2段DP法
DPを2段階で行う第1段階
入力音声の始点 m から単語テンプレート n について非対象パスによる終端フリーマッチング.
1≦ m < i ≦ I (I:入力フレーム数,i はマッチング終端フレーム)
あらゆる (n, m, i) の組み合わせに対して累積距離 D (n) (m:i) を計算.D (m:i) の最小値とその単語 n を記録.
第2段階入力フレームの累積距離が最小になる単語の系列を探索する。
入力フレーム
単語3
単語2
単語1
入力フレーム
単語
m i I I
n
第1段階 第2段階
37
単語数が分かっている音声の認識で効果的.
記憶容量小
何単語目を認識しているか明示的にしたマッチングを行う(電話番号等)
処理のながれ
1段目各テンプレートと入力終端フリーDPマッチングを行う
テンプレート終端で,その入力フレームまでの累積距離と単語を記録.
2段目(second level)以降前段の最小の累積距離をその入力フレームの累積距離とする.
各テンプレートと端点フリーDPマッチング
同様に,その段での累積距離と単語を記録.
最終段の終端でパスをバックトレース,認識単語列を得る.
(b) Level Building 法
38
語彙数2(A,B),3単語音声を認識する場合
2段目
3段目
1段目
入力フレーム
単語テンプレートA
DTW A単語テンプレートB
DTW B
フレームごとに,テンプレート終端までの累積距離最小値とそれを与えた単語を記録する.それを初期値として2段目のパスを開始
最終段での累積距離最小値
単語テンプレートA
DTW A単語テンプレートB
DTW B
単語テンプレートA
単語テンプレートB
DTW B
DTW A
39
Level Building法の入力フレームのループを一番外側にしたもの.入力フレームごとにすべての単語テンプレートについてパス計算を進める.
終端に到達したテンプレートがあれば,そのフレームまでの累積距離最小の単語とその値を記録し,次の語のDPマッチングを始める.
単語数を決めておく必要がない単語数制御機構がない.
(3) One Pass DP 法
入力フレーム
単語C
単語B
単語A
I
単語D
単語E
1
テンプレートマッチングを用いた実用システム
口座照会システム (NTTdata)(ANSER: Automatic answer Network System for Electrical Request)
1981年~
電話音声で利用可
16単語認識(数字+コマンド)
その他の要素技術SPLIT (Strings of phoneme-like templates)
物理的観点で分類した,音素に準ずるテンプレート
Staggered Array DPマッチング
マルチテンプレート (KNN)
http://www.nttdata.com/jp/ja/lineup/anser/
40
統計モデルによる音声認識
基本方針
スペクトル系列 Xが得られたとき,P(W|X) を最大にする単語列 Wを求める問題
生成モデル、識別モデル
音響モデル、言語モデルともに確率的モデルを用いることで確率モデルによる統一的な処理
生成モデルのアプローチ
ベイズ則で解きやすい形に変形
41
)(
)()|()|(
XP
WPWXPXWP
)()|(maxarg)(
)()|(maxarg
)|(maxargˆ
WPWXPXP
WPWXP
XWPW
WW
W
42
音響スコア
)|( WXP
入力音声 音響モデル 単語辞書 言語モデル
言語スコア
(事前確率)
)(WP
)|( XWP)|( WXP
デコーダ
W
認識結果
X
を直接モデル化するは容易ではないが,や のモデル化は比較的容易.
を解く
)(WP
)()|(maxarg WPWXPW
総合スコア
対数尤度で処理
和演算にして桁落ちを回避
スコア重み,単語挿入ペナルティの利用
43
))(log)|(log(minargˆ NWPWXPWW
βα
言語重み
単語数
単語の過剰な挿入を抑制( β < 0 )
言語スコア音響スコア
認識結果
HMM音響モデル
統計的音声認識の標準的な音響モデル
音素HMM(Hidden Markov Model,隠れマルコフモデル)を接続して単語HMMとする
音素HMM
単純マルコフ過程
Left-to-Right HMM
3状態HMMが主流
前音素からのわたり,定常部,後音素へのわたり
出力確率はGMM(Gaussian Mixture Models)で表現することが一般的
8~16混合程度 (言語識別などでは64混合以上)44
音素モデルセット
日本語音声認識の標準的な音素セット
40音素, 無音区間3種
(sp: short pause, silB: 始端, silE: 終端)
モノフォン(mono-phone)モデルコンテキスト非依存モデル(音素環境を考慮しないモデル)
トライフォン(tri-phone)モデルコンテキスト依存モデル(音素環境ごとに異なるモデル)
音素モデルだが実質的に単音(物理的区別)モデルを実現
40音素の場合単純に64000種類.グループ化して運用45
a i u e o a: i: u: e: o: N w y j p t k h f r q b d g z m n s
dy ts ch my ky by gy ny hy ry py sh sp silB silE
例 3状態HMM
46
a11 a22 a33
a12 a23 a34
初期状態
b1(A)
b1(B)
b1(C)実際の出力信号 Xは任意の値で定義
q1
状態遷移確率 aij: 状態 iから j に遷移する確率
出力確率 bi (X) : 状態 iが X を出力する確率
最終状態
q4
b2(A)
b2(B)
b2(C)
b3(A)
b3(B)
b3(C)
q2 q3
j
ija 1
X
i Xb 1)(
ここでは以下、時刻 tから t+1に進むときに出力すると定義する
モデル尤度の算出
取りうるすべての状態遷移系列の出力確率を個別に算出して総和を取るのは非効率
Forward アルゴリズム観測信号系列を出力しうる状態遷移系列すべての確率の総和を用いてモデルの尤度とする
Viterbi(ビタビ,ビテルビ)アルゴリズム観測信号系列を出力する状態遷移系列のうち,最も高い確率で出力する遷移系列のみを用いる.
「音素境界」「単語境界」の推定にも利用できる.
47
))1(()(max)( 1 tXbaji jjitt
j
jjitt tXbaji ))1(()()( 1
例 2状態HMMの尤度計算
a11=0.3
0.80.2
a22= 0.2
0.30.7
a12= 0.7 a23= 0.8初期状態
q3
(最終状態)q1 q2
48
2状態音素HMM /ア/, /イ/ がある.出力信号A,Bの出力確率 , 遷移確率は下の通り.スペクトル系列「ABB」が観測されたとき Forwardアルゴリズム,Viterbiアルゴリズムそれぞれで音素認識をせよ.
a11=0.5
0.30.7
a22= 0.4
0.60.4
a12= 0.5 a23= 0.6初期状態 q1 q2
/ア/
/イ/q3
(最終状態)
b1(A)b1(B)
b2(A)b2(B)
b1(A)b1(B)
b2(A)b2(B)
1q
2q
3q
A B B
Forwardアルゴリズムによる尤度計算
Aba 112 0.7×0.8
0.3×0.8
0.7×0.2
0.2×0.7
0.8×0.7
1.0
0.56 0.112
0.24
観測系列
初期状態
0.0627
状態
=0.0784
=0.0336
同様に /イ/ について計算すると尤度は 0.0184 → 認識結果: /ア/
/ア/
□内は「時刻 t で状態 qiに存在している確率」:
j
jjitt tXbaji ))1(()()( 1
0.0784
1q
2q
3q
Vitertbiアルゴリズムによる尤度計算
0.7×0.8
0.8×0.7
1.0
0.56
0.24
初期状態
0.0439
状態
=0.0784
同様に /イ/ について計算すると尤度は 0.0126 → 認識結果: /ア/
A B B 観測系列
/ア/
0.3×0.8
0.7×0.2
0.2×0.7 =0.0336
□内は「そこまでの最大確率を出すパスの確率:))1(()(max)( 1 tXbaji jjitt
言語モデル
ネットワーク文法 N-グラム
作成 認識対象を設定し,文法と辞書を作成
テキストコーパスの単語ヒストグラムに基づいて統計的に作成
長所
定型文や単語認識むき
文法修正や単語追加が容易
大語彙連続音声認識むき
任意の発話を認識対象
短所
文法外発話は正確に認識できない
(人手で複雑な文法の作成は困難)
Nが小さすぎると無意味な発話も許容
テキストコーパス収集コスト
51
認識候補への言語的制約を与え,探索空間をしぼる.
N-グラム
単語出現確率は直前N-1単語に依存すると仮定した,単語系列生起確率に基づいた言語モデル
N=1:ユニグラム: 単語コンテキストを考慮しない
N=2:バイグラム: 直前1単語を考慮
N=3:トライグラム: 直前2単語を考慮
学習コーパスに存在しない N-グラム
バックオフスムージングで出現確率を設定52
n
i
iNiin wwwPwwP1
111 )...|()...(
P(<s>/学校/に/行/く/</s>)=
P(学校|<s>) ・ P(に|<s>,学校) ・ P(行|学校,に) ・ P(く|に,行) ・ P(</s>|行,く)
ネットワーク文法例
S : SNT1 SNT2
SNT1 : FRUIT
SNT1 : FRUIT NUM KO
SNT2 : WO KUDASAI
SNT2 : NISHITE KUDASAI
SNT2 : DESU
% FRUIT
みかん m i k a N
りんご r i N g o
ぶどう b u d o
% NUM
1 i ch i
2 n i
% NISHITE
にして n i sh i t e
・・・
文法
変換規則カテゴリ関係を記述
単語辞書
カテゴリーの単語と音素を記述
53
「みかんをください」
「ぶどう7個です」
「りんご3個にしてください」
生成される文例
FRUIT
FRUIT
DESU
NUM KO
WO KUDASAI
NISHITE KUDASAI
みかんりんごぶどう
12
・・・
・・・
個みかんりんごぶどう
を ください
にして ください
です
54
頑健な実環運用のために
クリーン(静音)&接話マイクではない環境
定常雑音 →スペクトル減算、雑音重畳音響モデル
非定常雑音 →音源分離
ハンズフリー →残響抑圧、残響重畳モデル
話者の多様性
特定話者 →UD(User Dependent)モデル、話者適応
不特定話者 →UI(User Independent)モデル、リアルタイム話者適応、Gender Dependent モデル、年齢層別モデル
55
必要となる認識精度、忠実性の設定
議事録、自動字幕付与 →フィラーや文法誤りを言語モデルで修正?
対話システム →認識精度そのものよりタスク達成度、エンタテインメント性で評価?
実時間性と認識精度のバランス
PTM(GMMのグループ化)
ビームサーチ(探索範囲の削減)
マルチパス探索
56