音声認識理論と音声認識システム - NAIST · 音情報処理第6回音声認識理論と音声認識システム 2015/11/12 環境知能学研究室川波弘道 1

音情報処理第６回

音声認識理論と音声認識システム

2015/11/12

環境知能学研究室川波弘道

1

第１回音情報基礎

第２回音声の特徴抽出

第３回音声符号化基礎

第４回音響信号処理基礎

第５回音声合成理論と音声合成システム

第６回 11/12 音声認識理論と音声認識システム：川波Speech recognition theory and system

第７回 11/19 音声対話システム理論と音声対話システム

第８回 11/26 試験

2

第６回内容

音声認識概要

テンプレートマッチングによる認識*

DTWマッチング

統計モデルによる認識

HMM音響モデル、N-グラム

頑健な実環境システム

必要となる技術

演習：Level Building法による２語彙２単語認識

3

音声認識の意義発話をテキストに変換するメリット

特別な訓練が不要なテキスト入力手段

ユーザの姿勢を拘束しない

ユーザは安価な機材で利用できる

（将来的には高次言語情報、非言語情報の利用）

ただし、本質的に認識誤りはゼロにはならない• 辞書にない未知語

• 確率的アプローチの限界

• 背景にある文脈や知識が与える影響

※音声だけで「BS」「ENTER」のような確実なメタ入力は不可能

それを踏まえたうえで利点を活かしたアプリケーションを設計する

4

分類

音声認識単語音声認識

ワードスポッティング

大語彙連続音声認識（ディクテーション＝口述筆記）

連続音声認識

話者認識話者識別

話者照合・認証

（誰かを判断）

（申告者本人かどうか判断）

孤立単語音声認識

（長時間発話から特定の単語を抽出）

言語認識

Speech

recognition

(ASR; Automatic

Speech recognition)

Large vocabulary continuous

speech recognition (LVCSR)

5

アプリケーション

ディクテーション（口述筆記）電子秘書，議事録自動作成，テレビ字幕自動生成

負担の少ないインタフェイス対話ロボット，音声情報検索、音声リモコン、自動翻訳

バイオメトリクス話者認証

CALL （Computer Aided Language Learning）発音評価

超低ビットレートデータ通信テキストにして送信、受信側で音声合成

6*下線は特にリアルタイム性が要求されるもの

音声認識

音響特徴量の時系列を音響的類似性と想定される発話内容に基づき、単語列に変換

音響モデル、言語モデル、デコーダ

音響特徴量

振幅スペクトル包絡を表すもの（音韻性）

分析区間（フレーム）が重なるようシフトさせて抽出

デファクトスタンダードは、MFCC（メル周波数にもとづくフィルタバンクによる係数）、そのΔ（中心＋前後2フレーム）、ΔΔ、パワーのΔ、ΔΔなど

韻律は基本的に使用されていない

F0パターン（音のあがりさがり）、発話速度 7

8

mky

今日

o y ho u o w

読む

a

は

N本

「今日読む本は」

波形

スぺクトログラム（振幅スペクトル包絡を利用）

音素列単語列

構成

9

入力音声

特徴量抽出デコーダ

認識結果

音響モデル言語モデル単語辞書（音素列）

音素の物理的特徴モデル入力の物理的特徴を評価する

認識結果の言語的制約探索空間を絞り込み評価する

振幅スペクトル包絡時系列データ

言語的制約と音響的マッチングを用いて単語列を推測

パラダイムの変遷

1960s

音素認識

1970s

テンプレートマッチングによる単語認識

1980s

HMM（隠れマルコフモデル）の普及

1990s

HMMとN-グラムによる連続音声認識

2010s

RNNによるモデルパラメータ推定

WFSTによる統一的フレームワーク

10

テンプレートマッチングと確率モデル

11

特徴量抽出テンプレートとのスペクトル距離の

累積距離が最小となる単語列を選択

記述文法

認識結果

単語テンプレート単語辞書

特徴量抽出

音素HMM 単語3-gram

認識結果

単語辞書

音響尤度，単語列生起確率の積が最大となる単語列を探索する．

【小語彙定型発声の認識に向くパターンマッチング】

【大語彙連続音声の認識に向く確率モデル】

テンプレートマッチングによる音声認識

基本方針

入力とテンプレートの特徴量間距離を対応するフレーム毎に求め、総和をフレーム数で正規化

一般に音響スコアのみでの評価可能な用途で用いる。（言語スコアは均一）

DTW（Dynamic Time Warping）マッチング

対応づけるべきフレーム同士を動的に探索しながら特徴量の比較を行うパターンマッチング

12

DTWマッチングの意義持続長が異なる同一発話内容の音声

線形伸縮で持続長を揃えたもの

13

発話長の局所的ゆらぎを抑圧し、対応する音素同士（音響特徴量の類似した箇所同志）を比較することが必要

時系列データの“対応する区間”同士を比較しながら発話全体の距離（相違）のスコアを求める．

DTWマッチング（Dynamic Time Warping, 時間軸伸縮マッチング）

時系列データの“対応する区間”同士を比較しながら全体の類似度のスコアを求める．

音声認識では

入力音声の分析フレームのスペクトルデータ時系列と単語テンプレートのデータの時系列距離の比較

距離が小さい（似たスペクトルを持っている）フレーム同士を対応付けながら距離の総和を求める．

スペクトル距離の総和の最小値をそのテンプレートの距離とする．

14

マッチングパス

入力音声と単語テンプレートの分析フレーム系列を軸とした平面上で、対応づけて分析フレームの座標（＝格子点）を結んだもの．

15

・

フレーム間隔

入力音声A

・・・・・

単語テンプレート

B

16

a1 a2 ai aI

bJ

bj

b2

b1 C1

C2

C3

C4

C5

Cn

マッチングパスは， k番（番目の格子点）に対して格子点の座標を返す時間伸縮関数（Warping function）として記述できる．

1 2 i I

J

j

2

1


B （フレーム数：Ｊ）

入力音声A （フレーム数Ｉ）

Ck

Ck-1

　　マッチングパス　

系列　テンプレートフレーム

　　入力フレーム系列　　

),(,},,,,{

,,,

,,,

,21

21

21

kkknk

J

I

jiCCCCCWarp

bbbB

aaaA

• フレーム時系列を逆行しない• フレームをスキップしない．

ただし，入力音声かテンプレートか少なくとも一方のフレームは進行させる．

17

}1,,{},1{}1,1{},{ 11 kkkkkkkk joriorjiorjiji

格子点間に与える制約

テンプレートマッチング単語認識のながれ音声分析

（スペクトル系列抽出）

入力音声と単語テンプレートの

フレーム間距離マトリックスを準備

非線形伸縮

マッチング

正規化累積距離の比較

入力音声

認識結果


時間

１．こんにちは

２．いたい

３．いやし

４．ああ

10 9 5 4 2 0 0

8 7 6 3 3 2 2

9 8 4 4 0 1 1

4 3 0 1 2 4 4

2 0 3 5 8 9 9

0 2 4 6 9 10 10

入力音声


19

パターン間距離の算出

基本方針

格子点スペクトル距離の総和（累積距離）が小さい単語テンプレートを認識結果とする

パス、テンプレートフレーム数の違いによる加算回数の差の正規化を行う必要がある

パス重み wk を導入．パス重み和で累積距離を正規化．

市街地距離（city block distance）を用いたパス重み

パス重み wk を次式で与えるどのパスを通っても，最終格子点での重みの総和は同じ

n

k k

n

k kkk

w

wjidBAD

1

1),(

):(正規化累積距離　スペクトル距離

での格子点 kkk Cjid :),(

11 kkkkk jjiiw

累積距離の最小値の求め方

動的計画法（dynamic programming）

格子点 Ck までの累積距離の最小値は（候補が複数ある）直前の格子点Ck-1での累積距離から求めることができる．

漸化式：

最後の格子点まで g(Ck) を順次求める．

20

値までの累積距離の最小：格子点 ),()( kkkk jiCCg

)}({min),()( 1}{ 1

kC

kkkk CgwjidCgk

格子点のスペクトル距離マトリックス作成

21

),( jid

5 6 4 5 6 5 4

2 5 5 8 1 1 2

5 4 3 4 5 3 5

8 5 1 6 5 7 5

5 2 2 5 6 5 6

3 1 5 2 2 5 8

1 2 i I=7

J=6

j

2

1


B （フレーム数：

J =

6）

入力音声A （フレーム数 I =7）

累積距離の算出

入力とテンプレートのフレームのいずれかまたは両方を１つ進めるパス．パス重みに市街地距離

22

)}}1,(),,1(min{),(1

),1,1(),(2min{),(

kkkkkk

kkkkkk

jigjigjid

jigjidjig

　　　　　　　

初期条件:

g(1,1) = 2d(1,1)

ikik-1

jk

jk-1

g(ik,jk)

g(ik-1,jk)

g(ik,jk-1)

d(ik,jk)

g(ik-1,jk-1)

1

12

処理の流れ

23

格子点のスペクトル距離マトリックスを作成する．

漸化式にもとづいて、格子点までの最小の累積距離（次図右肩の数字）を求める．

終端の累積距離に対しパス重み和で正規化し，単語テンプレートの正規化累積距離 D(A:B)を求める．

終端からパスをバックトレースするとマッチングパスが得られる．

24

5 6 4 5 6 5 4

2 5 5 8 1 1 2

5 4 3 4 5 3 5

8 5 1 6 5 7 5

5 2 2 5 6 5 6

3 1 5 2 2 5 8

31

26

24

19

11

6

29

23

18

14

9

7

23

19

14

11

11

12

26

20

23

22

22

16

26

21

26

29

26

21

27

23

31

34

32

29

28

26

18

17

16

14

12

1

問題点このパスではまだ，右のような極端な対応付けを回避できない．

おおおかやま

おや

ま

)}2,1()1,(2

),1,2(),1(2min{),(1

),1,1(),(2min{),(

kkkk

kkkkkk

kkkkkk

jigjid

jigjidjid

jigjidjig

　　　　　　　　　　　　　　

　　　　　　　

傾斜制限つきパス

局所的な制限により極端な対応を避ける

パス傾斜が 0.5から 2 の間に制限できる．

25ikik-1

jk

jk-1

g(ik,jk)g(ik-1,jk)

g(ik,jk-1)

d(ik,jk)

ik-2

jk-2

g(ik-1,jk-1)g(ik-2,jk-1)

g(ik-1,jk-2)

d(ik-1,jk)

d(ik,jk-1)

初期条件:

g(1,1) = 2d(1,1)1

2

1

1

2

26

5 6 4 5 6 5 4

2 5 5 8 1 1 2

5 4 3 4 5 3 5

8 5 1 6 5 7 5

5 2 2 5 6 5 6

3 1 5 2 2 5 8

－

－

－

－

－

6

－

－

－

15

10

－

－

26

15

12

12

－

28

22

25

29

－

－

31

23

31

－

－

－

31

29

40

－

－

－

36

28

20

18

－

－×

×

2

12

2

1

傾斜制限の範囲外なので格子点になり得ない

27

テンプレートマッチングの改良

整合窓極端なパスになる領域を大局的に除外する．計算量も削減できる．

端点フリー入力音声の認識対象区間を自由にする．発話前後の雑音を無視することができる．

非対称パス入力音声のフレーム数のみで決まるパス重みフレーム同期音声認識

テンプレートのフレーム数のみで決まるパス重み端点フリーと併用してワードスポッティング

28

i

a1 a2 ai aI

bJ

bj

b2

b1 C1= (1,1)

C2

C3

C4

C5

Cn

時間伸縮関数（Warp）

d(i,j)：スペクトル距離

1 2 i I

J

j

2

1

累積距離の漸化式を計算する領域を制限する．極端な対応付けを大局的に防ぎ，計算量も削減できる．

j=i-r

j=i+r

整合窓

整合窓

計算不要領域

計算不要領域




29

C1

C2

C3

C4

Cn

時間伸縮関数（Warp）

d(i,j)：スペクトル距離

1 2 i I

J

j

2

1

終端フリー領域

N

I-M

始端フリー領域

端点フリー

g(i, 1)= d(i, 1)

この領域で累積距離の

最小値を探す。つまり、入力音声の途中で終わってもよい。




入力の開始フレームや終端フレームを自由にする入力音声の発話前後の不要箇所を無視できる．

※テンプレートの端点フリーを導入すると，発話の文頭落ちや語末落ちに対応できる．

非対称パス

一方のデータに同期した距離計算に有効

パス重み和は注目する側のフレーム数だけで決まるパス重みを設定

累積距離の正規化が不要となる

使用例

ワードスポッティング長時間データの中からキーワード音声を探索する

フレーム同期認識ある時間までの認識結果が逐次得られる

30

31

g(i, 1)= d(i, 1)

J

I

① 入力音声は始端，終端とも端点フリー．（入力音声の任意の区間でテンプレートと似た区間を探す．）

探索対象となる音声コーパスA （フレーム数Ｉ）

探索したいキーワード音声

B

② 途中で閾値を超えたら探索は中止

④この区間にテンプレートの単語があると推定

ワードスポッティング

③ テンプレートの最終フレームまでの距離加算加算回数は同じ．閾値以下の累積距離が検出されたらパスをバックトレース．

１１１

×

32

6 5 1 3 5 4 5 0 2 4 2 1 3

5 4 4 5 3 2 1 4 4 4 2 3 1

4 4 4 3 1 3 1 3 4 1 4 4 3

2 5 4 2 1 4 5 0 2 4 5 6 3

8 8 3 5 5 4 6

5 4 3 6 6 5 3 4

6 6 6 5 2 4 2 3 4 1 6 8 6

2 5 4 2 1 4 5 0 2 4 5 6 3

１１１


音声データ（検索対象のデータベース）

g(ik,jk)=d(ik,jk)+min{g(ik-2,jk-1),

g(ik-1,jk-1),

g(ik,jk-1) }

jk

jk-1

ik-2 ik-1 ik

d(ik, jk)

g(ik, jk-1)

この例では2箇所で単語が検出されたこととなる．

閾値を4（=正規化累積距離1）と設定

入力データのあるフレームまでの認識結果の比較が容易

33

１

始点からここまでの距離重みは評価した単語テンプレートに依存

せず同一（k）．単語テンプレート

入力音声 ik

)}2,1(),1,1(),,1(min{),(1),( kkkkkkkkkk jigjigjigjidjig

初期条件: g(1,1) = d(1,1)

フレーム同期音声認識

テンプレートマッチングによる連続単語認識

34

解くべき問題

入力パターンともっともよくマッチする単語列を見つけ出す．ただし，入力フレームの単語境界は与えられない．

x 単語認識の素朴なアプローチ

語彙数 N のとき N x 個の単語列テンプレートに対して順にすべてに対してDPマッチング → 非効率的

入力音声

単語テンプレートを連結

単語3

単語2

単語1

基本方針

1. 入力フレーム基準の非対称パスDTW

• 単語テンプレートの長さの影響を受けず，入力の任意のフレームまでの累積距離を比較できる．

2. 単語境界での処理

• 入力フレームまでの累積距離の最小値とその単語を記録し，それを初期値とし次単語のマッチングを開始

アルゴリズム

(a) 2段DP法

(b) Level Building法

単語数既知の場合に効果的

(c) One Pass DP法

単語数未知の場合に効果的 35

36

(a) ２段DP法

DPを2段階で行う第１段階

入力音声の始点 m から単語テンプレート n について非対象パスによる終端フリーマッチング．

1≦ m ＜ i ≦ I （I:入力フレーム数，i はマッチング終端フレーム）

あらゆる (n, m, i) の組み合わせに対して累積距離 D (n) (m：i) を計算．D (m:i) の最小値とその単語 n を記録．

第２段階入力フレームの累積距離が最小になる単語の系列を探索する。

入力フレーム

単語3

単語2

単語1

入力フレーム

単語

m i I I

n

第１段階第２段階

37

単語数が分かっている音声の認識で効果的．

記憶容量小

何単語目を認識しているか明示的にしたマッチングを行う（電話番号等）

処理のながれ

１段目各テンプレートと入力終端フリーDPマッチングを行う

テンプレート終端で，その入力フレームまでの累積距離と単語を記録．

２段目（second level）以降前段の最小の累積距離をその入力フレームの累積距離とする．

各テンプレートと端点フリーDPマッチング

同様に，その段での累積距離と単語を記録．

最終段の終端でパスをバックトレース，認識単語列を得る．

(b) Level Building 法

38

語彙数２（A,B），３単語音声を認識する場合

２段目

３段目

１段目

入力フレーム

単語テンプレートＡ

DTW A単語テンプレートＢ

DTW B

フレームごとに，テンプレート終端までの累積距離最小値とそれを与えた単語を記録する．それを初期値として２段目のパスを開始

最終段での累積距離最小値


DTW A単語テンプレートＢ

DTW B


単語テンプレートＢ

DTW B

DTW A

39

Level Building法の入力フレームのループを一番外側にしたもの．入力フレームごとにすべての単語テンプレートについてパス計算を進める．

終端に到達したテンプレートがあれば，そのフレームまでの累積距離最小の単語とその値を記録し，次の語のＤＰマッチングを始める．

単語数を決めておく必要がない単語数制御機構がない．

(3) One Pass DP 法

入力フレーム

単語C

単語B

単語A

I

単語D

単語E

1

テンプレートマッチングを用いた実用システム

口座照会システム (NTTdata)（ANSER: Automatic answer Network System for Electrical Request）

1981年～

電話音声で利用可

１６単語認識（数字＋コマンド）

その他の要素技術SPLIT (Strings of phoneme-like templates)

物理的観点で分類した，音素に準ずるテンプレート

Staggered Array DPマッチング

マルチテンプレート (KNN）

http://www.nttdata.com/jp/ja/lineup/anser/

40

http://www.nttdata.com/jp/ja/lineup/anser/

統計モデルによる音声認識

基本方針

スペクトル系列 Xが得られたとき，P(W|X) を最大にする単語列 Wを求める問題

生成モデル、識別モデル

音響モデル、言語モデルともに確率的モデルを用いることで確率モデルによる統一的な処理

生成モデルのアプローチ

ベイズ則で解きやすい形に変形

41

)(

)()|()|(

XP

WPWXPXWP

)()|(maxarg)(

)()|(maxarg

)|(maxargˆ

WPWXPXP

WPWXP

XWPW

WW

W

42

音響スコア

)|( WXP

入力音声音響モデル単語辞書言語モデル

言語スコア

（事前確率）

)(WP

)|( XWP)|( WXP

デコーダ

W

認識結果

X

を直接モデル化するは容易ではないが，やのモデル化は比較的容易．

を解く

)(WP

)()|(maxarg WPWXPW

総合スコア

対数尤度で処理

和演算にして桁落ちを回避

スコア重み，単語挿入ペナルティの利用

43

))(log)|(log(minargˆ NWPWXPWW

βα

言語重み

単語数

単語の過剰な挿入を抑制（ β < 0 ）

言語スコア音響スコア

認識結果

HMM音響モデル

統計的音声認識の標準的な音響モデル

音素HMM（Hidden Markov Model，隠れマルコフモデル）を接続して単語HMMとする

音素HMM

単純マルコフ過程

Left-to-Right HMM

3状態HMMが主流

前音素からのわたり，定常部，後音素へのわたり

出力確率はGMM（Gaussian Mixture Models）で表現することが一般的

8～16混合程度（言語識別などでは64混合以上）44

音素モデルセット

日本語音声認識の標準的な音素セット

40音素, 無音区間3種

（sp: short pause, silB: 始端, silE: 終端）

モノフォン（mono-phone）モデルコンテキスト非依存モデル（音素環境を考慮しないモデル）

トライフォン（tri-phone）モデルコンテキスト依存モデル（音素環境ごとに異なるモデル）

音素モデルだが実質的に単音（物理的区別）モデルを実現

40音素の場合単純に64000種類．グループ化して運用45

a i u e o a: i: u: e: o: N w y j p t k h f r q b d g z m n s

dy ts ch my ky by gy ny hy ry py sh sp silB silE

例 3状態HMM

46

a11 a22 a33

a12 a23 a34

初期状態

b1(A)

b1(B)

b1(C)実際の出力信号 Xは任意の値で定義

q1

状態遷移確率 aij: 状態 iから j に遷移する確率

出力確率 bi (X) ：状態 iが X を出力する確率

最終状態

q4

b2(A)

b2(B)

b2(C)

b3(A)

b3(B)

b3(C)

q2 q3

j

ija 1

X

i Xb 1)(

ここでは以下、時刻 tから t+1に進むときに出力すると定義する

モデル尤度の算出

取りうるすべての状態遷移系列の出力確率を個別に算出して総和を取るのは非効率

Forward アルゴリズム観測信号系列を出力しうる状態遷移系列すべての確率の総和を用いてモデルの尤度とする

Viterbi（ビタビ，ビテルビ）アルゴリズム観測信号系列を出力する状態遷移系列のうち，最も高い確率で出力する遷移系列のみを用いる．

「音素境界」「単語境界」の推定にも利用できる．

47

))1(()(max)( 1 tXbaji jjitt

j

jjitt tXbaji ))1(()()( 1

例 2状態HMMの尤度計算

a11=0.3

0.80.2

a22= 0.2

0.30.7

a12= 0.7 a23= 0.8初期状態

q3

（最終状態）q1 q2

48

2状態音素ＨＭＭ /ア/, /イ/ がある．出力信号A,Bの出力確率 , 遷移確率は下の通り．スペクトル系列「ABB」が観測されたとき Forwardアルゴリズム，Viterbiアルゴリズムそれぞれで音素認識をせよ．

a11=0.5

0.30.7

a22= 0.4

0.60.4

a12= 0.5 a23= 0.6初期状態 q1 q2

/ア/

/イ/q3

（最終状態）

b1(A)b1(B)

b2(A)b2(B)

b1(A)b1(B)

b2(A)b2(B)

1q

2q

3q

A B B

Forwardアルゴリズムによる尤度計算

Aba 112 0.7×0.8

0.3×0.8

0.7×0.2

0.2×0.7

0.8×0.7

1.0

0.56 0.112

0.24

観測系列

初期状態

0.0627

状態

=0.0784

=0.0336

同様に /イ/ について計算すると尤度は 0.0184 → 認識結果： /ア/

/ア/

□内は「時刻 t で状態 qiに存在している確率」：

j

jjitt tXbaji ))1(()()( 1

0.0784

1q

2q

3q

Vitertbiアルゴリズムによる尤度計算

0.7×0.8

0.8×0.7

1.0

0.56

0.24

初期状態

0.0439

状態

=0.0784

同様に /イ/ について計算すると尤度は 0.0126 → 認識結果： /ア/

A B B 観測系列

/ア/

0.3×0.8

0.7×0.2

0.2×0.7 =0.0336

□内は「そこまでの最大確率を出すパスの確率：))1(()(max)( 1 tXbaji jjitt

言語モデル

ネットワーク文法 N-グラム

作成認識対象を設定し，文法と辞書を作成

テキストコーパスの単語ヒストグラムに基づいて統計的に作成

長所

定型文や単語認識むき

文法修正や単語追加が容易

大語彙連続音声認識むき

任意の発話を認識対象

短所

文法外発話は正確に認識できない

（人手で複雑な文法の作成は困難）

Nが小さすぎると無意味な発話も許容

テキストコーパス収集コスト

51

認識候補への言語的制約を与え，探索空間をしぼる．

N-グラム

単語出現確率は直前N-1単語に依存すると仮定した，単語系列生起確率に基づいた言語モデル

N=1:ユニグラム：単語コンテキストを考慮しない

N=2:バイグラム：直前1単語を考慮

N=3:トライグラム：直前2単語を考慮

学習コーパスに存在しない N-グラム

バックオフスムージングで出現確率を設定52

n

i

iNiin wwwPwwP1

111 )...|()...(

P（<s>/学校/に/行/く/</s>）=

P（学校｜<s>）・ P（に｜<s>,学校）・ P（行｜学校,に）・ P(く|に，行) ・ P（</s>｜行,く）

ネットワーク文法例

S : SNT1 SNT2

SNT1 : FRUIT

SNT1 : FRUIT NUM KO

SNT2 : WO KUDASAI

SNT2 : NISHITE KUDASAI

SNT2 : DESU

% FRUIT

みかん m i k a N

りんご r i N g o

ぶどう b u d o

% NUM

1 i ch i

2 n i

% NISHITE

にして n i sh i t e

・・・

文法

変換規則カテゴリ関係を記述

単語辞書

カテゴリーの単語と音素を記述

53

「みかんをください」

「ぶどう７個です」

「りんご３個にしてください」

生成される文例

FRUIT

FRUIT

DESU

NUM KO

WO KUDASAI

NISHITE KUDASAI

みかんりんごぶどう

１２

・・・

・・・

個みかんりんごぶどう

をください

にしてください

です

54

頑健な実環運用のために

クリーン（静音）＆接話マイクではない環境

定常雑音 →スペクトル減算、雑音重畳音響モデル

非定常雑音 →音源分離

ハンズフリー →残響抑圧、残響重畳モデル

話者の多様性

特定話者 →UD（User Dependent）モデル、話者適応

不特定話者 →UI（User Independent）モデル、リアルタイム話者適応、Gender Dependent モデル、年齢層別モデル

55

必要となる認識精度、忠実性の設定

議事録、自動字幕付与 →フィラーや文法誤りを言語モデルで修正？

対話システム →認識精度そのものよりタスク達成度、エンタテインメント性で評価？

実時間性と認識精度のバランス

PTM（GMMのグループ化）

ビームサーチ（探索範囲の削減）

マルチパス探索

56

Documents

音声認識理論と音声認識システム - NAIST · 音情報処理第6回 音声認識理論と音声認識システム 2015/11/12 環境知能学研究室川波弘道 1

音声認識理論と音声認識システム - NAIST · 音情報処理第6回音声認識理論と音声認識システム 2015/11/12 環境知能学研究室川波弘道 1