1 國立臺灣師範大學資訊工程系 2 中央研究院資訊科學所

實證探究多種鑑別式語言模型於語音辨識之研究Empirical Comparisons of Various Discriminative

Language Models for Speech Recognition

1 國立臺灣師範大學資訊工程系2 中央研究院資訊科學所

賴敏軒 1, 黃邦烜 1, 陳冠宇 2, 陳柏琳 1

2

大綱• 研究動機• 各種鑑別式語言模型 (Discriminative Language Models) 之介紹• 基於邊際資訊 (Margin-based) 之鑑別式語言模型• 實驗結果與分析• 結論及未來展望

3

研究動機 (1/2)

• 自動語音辨識 (Automatic Speech Recognition, ASR)

• 最大事後機率 (Maximum a Posteriori, MAP) 語言解碼法則使用統計式聲學模型 (Acoustic Model) 及語言學模型 (Language Model)

WPWxpxpWPWxp

xWPW

W

W

W

|maxarg

|maxarg

|maxarg*

語言模型聲學模型 N-gramHMM

4

研究動機 (2/2)

• 藉由鑑別式語言模型來重新排序 (Reranking)

Top1 S=-423.6 WER=12.12%Top2 S=-430.7 WER=6.06%Top3 S=-433.6 WER=9.09%…Top28 S=-459.3 WER=3.03%…TopN S=-477.5 WER=12.12%

基礎語音辨識器

Top28 S=-459.3 WER=3.03% ...Top2 S=-430.7 WER=6.06%…Top3 S=-433.6 WER=9.09%…Top1 S=-423.6 WER=12.12%TopN S=-477.5 WER=12.12%…

鑑別式語言模型重新排序

5

鑑別式語言模型的參數定義• 鑑別式語言模型訓練的參數定義

– – 為訓練語料的集合，其中為中最低錯誤詞序列– 對每條候選詞序列定義 D+1 維的語言特徵向量– 定義一組 D+1 維的特徵權重參數向量

D

djiddji

xGENWi WfWScoreW

iji 0,,

* ,maxarg,

jii WxGEN ,

Rii Wx , RiW ixGEN

jiW , jid Wf ,

D ,,0

-2602.62 1 3 0 2 1 0語言特徵向量1 0.01 0.12 -0.25 -0.03 0.78 0.52特徵權重參數向量

wp wq wt wpwk wjwm wlwm......log[P(W)P(W|x)]

單連詞雙連詞

…

…

…

…

6

各種鑑別式語言模型介紹 (1/2)

• 各種鑑別式語言模型方法目標函數

感知器演算法(Perceptron)[Collins, 2002]

最小化錯誤率訓練(MERT)[Kobayashi et al., 2008]

全域條件式對數線性模型(GCLM)[Roark et al., 2007]

權重式全域條件式對數線性模型(WGCLM)[Oba et al., 2010]

輪轉雙重鑑別式模型(R2D2)[Oba et al., 2010]

L

ii

Ri WScoreWScoreF

1

2*Perc ,,

21

L

i

M

jM

j

Riji

RijiW

WScoreWScore

WScoreWScoreF ji

1 1

1'',

,MERT

,exp

,,exp,

L

iM

jji

Ri

WScore

WScoreF

1

1,

GCLM

,exp

,explog

L

iM

jjiW

Ri

WScore

WScoreF

ji

1

1,

WGCLM

,exp

,explog

,

L

i

M

j

M

j jiW

jiW

wScore

wScoreF

ji

ji

1 1 1 ,2

,1R2D2 ,expexp

,expexplog

',

,

7

各種鑑別式語言模型介紹 (2/2)

• 各種鑑別式語言模型在不同面向之比較

有無考慮樣本權重

有無考慮參考詞序列一般化能力訓練速度

Perceptron 無有差快MERT 有無佳慢GCLM 無有略佳慢

WGCLM 有有略佳慢R2D2 有有略佳很慢

L

ii

Ri WScoreWScoreF

1

2*Perc ,,

21

L

i

M

jM

j

Riji

RijiW

WScoreWScore

WScoreWScoreF ji

1 1

1'',

,MERT

,exp

,,exp,

L

iM

jji

Ri

WScore

WScoreF

1

1,

GCLM

,exp

,explog

L

iM

jjiW

Ri

WScore

WScoreF

ji

1

1,

WGCLM

,exp

,explog

,

L

i

M

j

M

j jiW

jiW

wScore

wScoreF

ji

ji

1 1 1 ,2

,1R2D2 ,expexp

,expexplog

',

,

1,iWScore

2,iWScore

', jiWScore

1,iWScore

2,iWScore

jiWScore ,

RiWScore

1,iWScore

2,iWScore

jiWScore ,

1,iWScore

2,iWScore

', jiWScore

1,iWScore

2,iWScore

jiWScore ,

RiWScore *

iWScore

8

基於邊際資訊的資料選取 (1/2)

• 基於邊際資訊的資料選取– 選取較具重要性的訓練資料，降低訓練的時間與提升辨識的正確性– Ex: 最大邊際估測法則 (Large-Margin Estimation, LME) 、柔性邊際估測法

(Soft-Margin Estimation, SME)

• 最大化邊際估測法則– 分離邊際– 支援集– 目標函數

jiWW

Rii WScoreWScorex

Riji

,,

max

ii xxS 0|LME

iSxxF

i

LME

minLME

0分離邊際

+ε

SLME

9

基於邊際資訊的資料選取 (2/2)

• 柔性最大化邊際估測法則– 支援集– 錯誤集– 目標函數

• 柔性邊際估測法則– 支援集– 目標函數

0| ii xx

'

'LMES1min

ii x

iiSxxxF

,,max ,,

Riji

WWi WScoreWScorex

Riji

ii xxS |SME

iSxxF

i

SME

minSME

ii xxS 0|LME

0 +ε-ξ

分離邊際

SSME0分離邊際 +ε

SLMEφ

10

基於邊際資訊之鑑別式語言模型• 基於邊際資訊之鑑別式語言模型 (Margin-based Discriminative

Language Model, MDLM)– 分離邊際– 支援集

– 目標函數

,, ,,MDLM jiRiji WScoreWScoreW

ijiji WWS ,,MDLM |

R

iji WWji ,

maxexp

L

iSWxGENW

i,j

ji

iji

WF1

&&

2MDLMMDLM

MDLM,

,21

Score

0 +γ1

SMDLE

0+γ3

SMDLE

0 +γ2

SMDLE考慮到所有候選詞序列 (Candidate Hypotheses)與參考詞序列 (Reference Word Hypothesis)之間的關係

11

實驗設定• 語音辨識實驗之語料

– 本論文實驗語料皆來自公視新聞，從 2001 年至 2003 年間由中研院資訊所口語小組 (SLG) 與公共電視 (PTS) 合作錄製

• 聲學模型訓練語料– 公視新聞 2001 年至 2002 年外場採訪記者語料，共 30,632 句 ( 約 23 小時 )

• 語言模型訓練語料– 訓練語料來自 2001 年至 2002 年中央通訊社的文字新聞語料，包含了約一億五千萬個中文字，經斷詞之後約有八千萬詞

語料句數長度 (小時 ) 字錯誤率 (%)

訓練集語料 30,600 約 23 11.26

發展集語料 1,998 約 1.5 15.27

測式集語料 1,997 約 1.5 16.39

12

實驗結果與討論：各種鑑別式語言模型之相關實驗 (1/3)

• 各種鑑別式語言模型基礎實驗結果 (CER(%))– 使用單連詞與雙連詞為語言特徵

鑑別式方法訓練集語料發展集語料測試集語料增進率Perceptron 8.20 14.14 14.99 8.54

MERT 10.48 14.27 15.33 6.47

GCLM 10.61 14.62 15.88 3.11

WGCLM 10.38 14.39 15.39 6.10

R2D2 8.76 13.39 14.23 13.18

Oracle 4.36 6.78 7.34

13


• 各種鑑別式語言模型訓練走勢圖

14

實驗結果與討論：基於邊際資訊之鑑別式語言模型 (1/3)

• 基於邊際資訊之鑑別式語言模型– 四種不同定義的支援集

訓練集語料發展集語料測試集語料 MDLM-D 6.09 13.37 14.10

MDLM-

CD6.69 13.38 14.20

MDLM-F 5.18 13.25 13.91

MDLM-

CF5.49 13.17 13.98

是一個正實數，其中正確分類固定型

是一個正實數，其中固定型

正確分類動態型

動態型

0|:CF)-(MDLM .4

|:F)-(MDLM .3

0|:CD)-(MDLM .2

|:D)-(MDLM .1

,MDLM,CFMDLM

,MDLM,FMDLM

,MDLM,CDMDLM

,MDLM,DMDLM

jiji

jiji

ijiji

ijiji

WWS

WWS

WWS

WWS

Score0 +γ1

SMDLE

0+γ3

SMDLE

0 +γ2

SMDLE

15

實驗結果與討論：基於邊際資訊之鑑別式語言模型 (2/3)

• 基於邊際資訊之鑑別式語言模型– 四種不同定義的支援集

– 擁有最低辨識錯誤率的候選詞序列皆當作參考候選詞序列

是一個正實數，其中正確分類固定型

是一個正實數，其中固定型

正確分類動態型

動態型

0|:CF)-(MDLM .4

|:F)-(MDLM .3

0|:CD)-(MDLM .2

|:D)-(MDLM .1

,MDLM,CFMDLM

,MDLM,FMDLM

,MDLM,CDMDLM

,MDLM,DMDLM

jiji

jiji

ijiji

ijiji

WWS

WWS

WWS

WWS

訓練集語料

發展集語料

測試集語料

MDLM-D 5.97 13.34 13.96

MDLM-

CD7.01 13.38 14.00

MDLM-F 5.56 13.35 13.78

MDLM-

CF5.86 13.30 13.87


• 與其它現有鑑別式語言模型之比較

16

17

結論及未來展望• 各式鑑別式語言模型的確可以更進一步地輔助 N連語言模型，有效地降低辨識錯誤率• 我們所提出的基於邊際資訊之鑑別式語言模型相較於其他各式語言模型，不論是在訓練集、發展集以及測試集皆有最低的辨識錯誤率• 未來，我們的研究將著重於探討各式語言特徵加入於鑑別式語言模型使用• 除此之外，我們也有興趣於特徵選取對於鑑別式語言模型的影響，期望發展出一套特徵選取的方式，以降低鑑別式語言模型訓練過程的時間需求；更希望進一步地改善鑑別式語言模型而獲得更好的辨識結果

18

謝謝大家

Documents

1 國立臺灣師範大學資訊工程系 2 中央研究院資訊科學所