清华大学综合论文训练 - Carnegie Mellon School of ...yangboz/senior-thesis-zyb.pdf · 清华大学综合论文训练 lda 视觉特征在音-视频语音识别系统中的应用

清华大学综合论文训练 LDA 视觉特征在音-视频语音识别系统中的应用

摘要

本文介绍了说话人唇部图像的 LDA 特征在音-视频汉语大词表连续语音识别系统

中的应用。首先，论文介绍了我们的系统框架；然后重点论述视觉特征的提取；

接着简单介绍了视频状态聚类的一些尝试；后详细讨论基于多种流指数的信息

融合方法。论文中给出了使用多种视觉特征，多种信息融合方法的实验结果。在

干净语音条件下（信噪比为 30~40db），视觉特征的引入使声学层首选错误率从

22%下降到 14%。在嘈杂环境下，这一改善尤为显著：以信噪比为 15db 的情况为

例，视觉特征使错误率从 60%下降到 30%。可见，视觉特征扩展了信息来源，提

高了语音识别系统的稳健性。

关键词语音识别；音-视频语音识别；唇的定位；主分量分析；线性判决分析；

双模型；信息融合；流指数；


Abstract

In this paper, LDA based feature extracted from the images of the speaker’s lip region

is proposed for a large vocabulary continuous audio-visual speech recognition (AVSR)

system. First, the framework of the AVSR system is illustrated. Second, the PCA and

LDA based visual feature extraction is introduced in detail. Then, a method of visual

states clustering is described. Finally, a number of audio-visual fusion schemes on state

level are discussed. The paper presents AVSR results using different visual features and

different audio-visual fusion schemes. It is showed by experiment that in clean audio

case, the acoustic layer’s first candidate error rate of ASR is 22%, while that of AVSR

is 14%. In Gauss white noise case, the recognizer’s performance is enhanced more

eminently. For example, when ths audio SNR is 15db, the error rate of ASR is 60%,

while that of AVSR is 30%. It is indicated by the results that the visual modal not only

provides more useful information for speech recognition, but also enhances the

recognizer’s robustness in noised environment.

Keywords speech recognition, audio-visual speech recognition(AVSR), lip locating,

principal component analysis (PCA), linear discriminant analysis

(LDA), bimodal, audio-visual fusion, stream exponents


目录

1、课题背景与简介 ........................................................................................................ 1

2、实验数据 .................................................................................................................... 2

3、视觉特征提取 ............................................................................................................ 3

3.1 ROI（Region of Interest 感兴趣区）提取 ....................................................... 4

3.2 PCA（principal component analysis）特征提取............................................... 5

3.3 LDA（linear discriminant analysis）特征提取 ................................................. 7

3.4 ASM（Active Shape Models）特征简介 ........................................................ 10

3.5 视觉特征性能比较 ...........................................................................................11

3.6 视觉特征插值问题 .......................................................................................... 13

3.7 小结 .................................................................................................................. 14

4、视觉状态聚类 .......................................................................................................... 15

5、音视频信息融合 ...................................................................................................... 17

5.1 全局流指数训练 .............................................................................................. 18

5.2 半音节相关流指数训练 .................................................................................. 21

5.3 状态相关流指数训练 ...................................................................................... 24

5.4 帧相关流指数训练 .......................................................................................... 25

5.5 小结 .................................................................................................................. 28

6、总结与讨论 .............................................................................................................. 29

致谢 ............................................................................................................................ 30

参考文献 ........................................................................................................................ 31

清华大学综合论文训练

LDA 视觉特征在音-视频语音识别系统中的应用

第 1 页

1、课题背景与简介唇读源于听力弱者理解正常人说话的技巧。正常人在面对面的交谈中，也会

观察口型、表情等的变化，以求更准确地理解对方所讲的内容。特别是在嘈杂的

环境中，人们更依赖于唇读来进行交流。可见唇读是一项广泛使用的技术，它能

利用视觉信息有效地提高语音感知的能力。

视觉信息与听觉信息有较好的互补性。例如，用视觉去分辨一个人是在说/ba/

还是在说/ga/要比从听觉上分辨容易得多，而从听觉上分辨/ka/和/ga/要比视觉上容

易。

唇读领域要解决的两大问题是：

如何用少量的特征恰当地表示说话人的视觉信息。

如何将听觉和视觉信息有效地融合起来。

辅助语音识别是唇读技术重要的应用。由于口型和语音是一个一对多的映

射关系，所以单从口型来识别语音是非常困难的，这需要联系上下文、还需要语

言学和各相关领域的专业知识。所以在很长一段时间里，唇读都只能作为语音识

别的一种辅助手段，利用听觉信息进行语音识别仍是主要的。

该论文采用的音-视频联合语音识别系统框图如图所示：

音频特征提取音频数据流

视频数据流

Viterbi搜索

信息融合

视频特征提取

大似然状态序列

图 1.1：音-视频联合语音识别系统框图



第 2 页

2、实验数据用数码摄像机录制了总长度约 10 个小时的同步音视频数据，存为 avi 文件。

文件内容是同一男声朗读的 863 测试文本，视频数据是说话人脸的彩色图像。同

一文本朗读 5 遍，每一遍包含约 1600 个句子，20000 个词，符合大词表连续语音

数据的要求。其中前 4 遍的数据用于训练，第 5 遍的数据用于识别测试。音-视频

数据的具体指标如下：

数据格式原始采样率(Hz) 用于识别的帧率(Hz)

音频 16 位单声道 16000 100

视频 NTSC 制式 29.97 100

表 2.1：音-视频数据的技术指标

我们的实验中采用 14 维 MFCC 特征和 1维能量特征，及其一阶差分、二阶差分，

共 45 维音频特征。为了测试联合识别在不同信噪比下的性能，我们按照不同的信

噪比在原始语音中加入高斯白噪声。原始语音的信噪比约在 30~40db 之间，我们

另外生成了信噪比为 0db、5db、10db、15db、20db、25db 的六组 pcm 数据，每

组数据都包含上述的 5 遍共 8000 个句子。

用计算机模拟高斯白噪声的过程是这样的：

（1）首先计算原始语音的信噪比，根据标注计算静音段的平均功率，作为噪声的

功率 NoiseP ，计算发音段的功率 SignalP

信噪比 )/(log10 10 NoiseSignal PPSNR = (db) (2.1)

（2）计算还需加入的噪声功率（方差），假设要生成信噪比为 SNR’的语音



第 3 页

Noise

SNRSNR

Noise PP )110( 10'

'2 −==−

σ (2.2)

（3）产生高斯白噪声：

首先得到两个在（0，1）上均匀分布的随机变量 A、B，则

)]1/(1ln[2 2 AR −= σ (2.3)

Bπ2=Θ (2.4)

则 R 服从瑞利分布，其概率分布函数为

0),2

exp(1

0,02

2

{)(≥−−

<=RR

RRF σ (2.5)

Θ服从（0，2π）上的均匀分布。将 R和Θ代入以下两式

C=Rcos(Θ) (2.6)

D=Rsin(Θ) (2.7)

这样得到的 C和 D服从均值为 0，方差为 2σ 的正态分布。

3、视觉特征提取视觉特征的提取方法可以分为三类：

基于“低层”像素的方法：这类方法直接利用包含唇的整个灰度图像，提取

出一些特征向量。这类方法的优点是利用了所有的数据，缺点是对大小、角

度、光照、说话人等的变化比较敏感，要处理的数据量比较大。

基于“高层”模型的方法：对唇形建立一个模型，用模型参数作为特征。其



第 4 页

优缺点正好与基于像素的方法相反。

像素与模型的混合方法：例如主动外观模型（AAM—active appearance model）。

3.1 ROI（Region of Interest 感兴趣区）提取

24位彩色位图

AVI音视频数据流

8位灰度图

ROI搜索采样为32*32的位图

图 3.1： ROI 提取流程图

将彩色位图转化为灰度图采用公式(3.1)：

3/)(Re BlueGreendIntensity ++= (3.1)

要自动搜索 ROI，首先需要手动标注足够多的 ROI 用于码本训练，采样后

32*32 的 ROI 可以看作一个 1024 维的向量，统计这些 ROI 的均值向量和协方差

矩阵，用单高斯模型来描述其分布，搜索 ROI 的目的就是在原图像中找到这样一

个区域，它在上述单高斯分布下的条件概率大。

具体的搜索算法采用了下降单纯形法（Downhill Simplex Method），因为该算

法收敛速度快，且自成体系，不需要其他一维优化算法的支持。在实际应用中

取唇中心点的坐标和嘴角连线的方向作为参数，进行三维空间的搜索。

ROI 采用 70*95 像素的长方形模板，具体如图 3.2 所示：



第 5 页

嘴角以上部分高度28像素

嘴角以下部分高度42像素

宽度 95像素

嘴角连线

图 3.2：ROI 模板示意图

3.2 PCA（principal component analysis）特征提取

ROI特征1024维30Hz

PCA特征20维30Hz

PCA特征20维100Hz

PCA特征40维100Hz

投影插值差分

图 3.3：PCA 特征提取流程图

搜索得到所有实验数据的 ROI 特征，统计得到更为完善的均值和协方差。协

方差矩阵的右特征向量就是 PCA 空间的正交基，选取特征值大的 N个正交基构

成一个子空间，ROI 特征在该子空间上的投影就是 PCA 特征。这是一种正交线性

变换，也称为 K-L 变换。

在子空间维数相等的情况下，用 PCA 特征重建的 ROI 与原 ROI 的均方误差

小，即 PCA 正交基是用来表示 ROI 特征的优的一组基。下面是用 PCA 特征重建

ROI 的实例：



第 6 页

图 3.4：采样得到的 32*32 像素的 ROI

图 3.5：用 20 维 PCA 特征重建的 ROI

得到所有实验数据的 PCA 特征以后，按照视素分类统计各状态的均值和协方

差，就得到了用于识别的码本。图 3.6 画出了 12 维 PCA 视觉特征与 45 维音频特

征联合识别的正确率曲线：

图 3.6：12 维 PCA 特征联合识别在不同信噪比、不同流指数下的识别结果



第 7 页

可以看到，信噪比越大，优的音频流指数越大，这与直观的判断相符。

3.3 LDA（linear discriminant analysis）特征提取

ROI特征1024维30Hz

LDA特征20维30Hz

LDA特征20维100Hz

LDA特征40维100Hz

投影插值差分

图 3.7：LDA 特征提取流程图

PCA 特征虽然能优地表示 ROI，但却不一定能优地区分各个不同的状态

类。为了找到有利于区分类的基，首先要定义一个区分能力的度量。

定义类内离散度矩阵（within-class scatter matrices）：

∑∑∈

=)()( c

CcrW

cPS (3.2)

其中 )(cPr 是该类的先验概率，∑ )(c是类 C 的协方差矩阵， wS 实际上就是各类

协方差矩阵的概率加权和。

定义类间离散度矩阵（between-class scatter matrices）

)( )())(( )( mmmPS cmcTc

CcrB −∑ −=

∈

(3.3)

其中 )(cPr 定义同上， )(cm 是类 C 的均值向量，m 是总均值向量。

假设变换矩阵为 P

则采用式(3.4)作为区分能力的度量：

)det()det(

)(PPPP

PQSS

WT

BT

= (3.4)



第 8 页

其中 det(••)为矩阵的行列式。

为了使 Q（P）达到大，应计算矩阵对（SW ，S B ）的广义特征值和右特征向

量，即计算变换矩阵 F和对角阵 D，使得式(3.5)成立：

FDSFS WB= (3.5)

则 F 的列就是特征向量，D 的对角元素就是特征值。

S B 也是实对称阵，它的秩小于 C （类的数目），当 ROI 的维数大于等于 C 时，

它是不可逆的。

SW 是实对称阵，它的秩小于等于 CL − ，其中 L 是用于训练的总样本数。当训

练数据足够的情况下它是可逆的，此时式(3.5)也可以转化为式(3.6)求解：

FDFSSW B=−1 (3.6)

这就成为求解普通特征向量的问题。但需要注意的是， SSW B

1− 不是对称阵，且

它的秩大等于 1−C ，所以只有前 1−C 个特征值和特征向量是有意义的，而且

这些特征向量只是线性无关的，并不正交。

求得 F 以后，用特征值大的 N个特征向量作为列组成的矩阵 P就是使 Q(P)

达到大的 P。

得到所有实验数据的 LDA 特征以后，按照视素分类统计各状态的均值和协方

差，就得到了用于识别的码本。图 3.8 画出了 12 维 LDA 视觉特征与 45 维音频特




第 9 页

图 3.8：12 维 LDA 特征联合识别在不同信噪比，不同流指数下的识别结果

图 3.9：40 维 LDA 特征联合识别在不同信噪比，不同流指数下的识别结果



第 10 页

计算 12 维 LDA 的结果是为了用于 PCA、LDA、ASM 三种视频特征的性能比较，

为了分析LDA特征的极限性能，我们还计算了40维LDA特征用于联合识别的结果。

比较图 3.8 和 3.9 可以看到，在不同信噪比下，40 维 LDA 特征比 12 维 LDA 特征

有更好的稳定性。

3.4 ASM（Active Shape Models）特征简介

实验室原有的视频特征是基于动态形状模型（Active Shape Models）的，ASM

是用一组折线组成的封闭图形来近似描述内外唇的轮廓，用折线上特征点的坐标

值作为模型参数。要获得 ASM 特征，首先要搜索出一组优的特征点位置，这一

过程比基于像素的方法中搜索 ROI 要复杂一些，此处不作介绍。图 3.10 是特征点

搜索结果的一些例子：

图 3.10： ASM 搜索结果示例

将所有点的横、纵坐标依次排成一列，就成为原始的 ASM 向量。由于唇的形

状只能在一定限制条件下变化，所以内外唇轮廓的自由度要小于坐标的数量，也

就是说各个特征点的坐标之间有较强的相关性。为了降低特征维数，减少信息冗

余度，可以对 ASM 向量进行 PCA 或 LDA 变换，得到终的 ASM 特征。

得到所有实验数据的 ASM 特征以后，按照视素分类统计各状态的均值和协方

差，就得到了用于识别的码本。图 3.11 画出了 12 维 ASM 视觉特征与 45 维音频特



第 11 页


图 3.11：12 维 ASM 特征联合识别在不同信噪比，不同流指数下的识别结果

3.5 视觉特征性能比较

在 3.2~3.4 节中，我们分别介绍了 PCA、LDA 和 ASM 三种视觉特征，在这一

节里，我们要对这三种特征用于音-视频语音识别的性能进行比较。为了保证比较

的公平性，我们取每种特征的前 6 维，及其一阶差分，组成 12 维特征，进行识别。

图 3.12 画出了识别正确率比较结果：



第 12 页

图 3.12：不同视频特征的性能比较

（下方的曲线为纯音频识别结果，作为比较的基准）

由图 3.12 可以看到，视频特征用于联合语音识别的性能从高到低依次是：40

维 LDA，12 维 LDA，12 维 PCA，12 维 ASM。而且这一顺序不随信噪比的改变而改

变。信噪比越小，性能的差别越大，因为在低信噪比条件下，联合识别对视频特

征的依赖性会更强。

这里我们比较的是相同维数下不同特征的性能，在一定范围内增加维数会提

高识别性能，但每种特征的性能都有一个极限，我们没有对极限性能进行比较。



第 13 页

在实际应用中，训练的样本数有限，特征维数过高会导致码本训练不充分，可能

会导致性能的下降。从工程的角度考虑，特征维数越高，所需的存储量和计算量

越大。在我们的算法中，识别计算量与特征维数的平方成正比。

3.6 视觉特征插值问题

由于数据采集设备的限制，原始视频特征的帧率一般要低于音频特征的帧率，

所以在基于同步数据流的识别系统中需要对视频特征作插值。这一做法对基于“高

层”形状的特征是非常合理的，比如 ASM 特征是轮廓点的坐标，通过插值能比较

准确地估计中间的帧，如下图所示：

图 3.13：ASM 特征插值效果示意图

内层实线：时刻 1t 的唇轮廓，外层实线：时刻 2t 的唇轮廓

中间的虚线：插值得到的时刻2

21 tt +的唇轮廓

唇运动的过程是轮廓点的坐标连续变化的过程，而不是各个像素的灰度值连

续变化的过程。所以对基于“低层”像素的特征来说，线性插值的结果与实际情

况不符，如下图所示：



第 14 页

t1 (t1+t2)/2 t2

图 3.14：像素特征插值效果示意图

当然，在实际图像序列中，相邻两帧的唇型变化不会如图中这样剧烈，但无

论如何，应该承认对像素特征的线性插值是一种比较粗略的近似方法。

3.7 小结

本章详细论述了视觉特征的提取方法，并对 ASM、PCA、LDA 特征的辅助识别

性能进行了比较。提取视觉特征的第一步是提取 ROI，有些系统把整个人脸作为

ROI，而我们选取语言信息集中的唇部图像作为 ROI，在信息损失不大的条件下

大大减少了数据量。从 ROI 中可以获得形状特征或像素特征，我们用 PCA 和 LDA

两种方法提取像素特征。实验表明，PCA 特征可以好得重建原图像，在性能上

略好于 ASM 特征；LDA 特征可以好得区分不同的类，但它不能用于图像重建。

3.6 小节讨论了我们在实验中遇到的插值问题，我们认为，取自坐标的特征的插

值是非常合理的，而取自像素灰度值的特征的插值结果只能是一种粗略的近似。



第 15 页

4、视觉状态聚类从音素(phoneme)到视素（viseme）是一个多到一的映射，举一个简单的例子，

仅从唇形无法区分同一元音的四个声调。相对于音频信息来说，视频信息的分辨

力要小得多，如果将音素类作为视频特征的分类标准，会带来大量的混淆。所以

我们需要对音素进行合理的聚类，把唇形相近的音素映射到同一个视素。

直观地理解，视素的数目越少，那么视素层的识别正确率会越高，同时视素

识别结果对联合识别的贡献会越小。考虑极限的情况，把所有音素映射到一个视

素，那么视素层的识别率为 100%，然而它对语音识别的贡献为零。所以，视素的

数目必须适中。

我们首先将唇形明显非常接近的元音和辅音聚在一起，这应该是视素数目

多的一种聚类方案，进一步的聚类都可以在此基础上进行。

辅音数目元音数目静音状态数目状态数目

音频 100 164 1 100*2 + 164*4 + 1 = 857

视频 37 41 1 37*2 + 41*4 + 1 = 239

表 4.1：音频、视频状态分类

视频辅音音频辅音视频辅音音频辅音

0 sh*, zh*, r#, ch* 19 du, tu, lu, nu

1 he, ge, ke 20 zhu, shu, chu, ru

2 bu, mu, pu 21 to, do, no, lo

3 me, be, pe 22 ba, pa, ma

4 za, sa, ca 23 Fe

5 c!, z!, s! 24 Fa



第 16 页

6 I 25 zha, sha, cha, ra

7 de, le, te, ne 26 qv, jv, xv

8 di, ni, li, ti 27 ka, ga, ha

9 gu, hu, ku 28 V

10 go, ko, ho 29 Fu

11 zu, cu, su 30 nv, lv

12 re, she, zhe, che 31 zo, so, co

13 mi, pi, bi 32 ze, se, ce

14 ji, qi, xi 33 A

15 da, la, na, ta 34 mo, bo, po

16 E 35 O

17 zho, sho, ro, cho 36 Fo

18 U

表 4.2: 音频辅音到视频辅音的映射

元音的聚类基本上是把拼音相同的声调不同的音频元音映射为同一个视频元

音，此处不再列表说明。

任何一种聚类方法首先都要定义一个原始类之间相似程度的度量，也可以理

解为高维空间上的某种距离。我们的原始视频类是用单高斯模型来描述的，所以

我们采用了“高斯分布相似度”作为聚类的依据。

假设有两个高斯分布，均值向量分别为 1m ， 2m ，协方差矩阵为 1∑ ， 2∑ ，

则它们的相似度可以由下式来度量：



第 17 页

)2(tan 12121221 ΣΣΣ−Σ+Σ+−= tracemmceDis (4.1)

其中 • 表示取模， )(•trace 表示矩阵的迹（主对角线上的元素之和），具体的推导

过程参见文献[10]。

我们用几种简单的聚类方法进行了聚类，但是发现终的识别性能没有明显

的改善，所以在后续的实验中，我们仍然采用原始的分类方法。

5、音视频信息融合得到音频和视频特征以后，如何将这些信息融合起来用于语音识别还是一个

很值得研究的问题。目前主要有两种方法：

一、特征融合（前期融合）。将两种特征和并，组成联合特征，然后进行单数

据流的识别。简单的合并方式就是简单得将两者拼接起来。

二、判决融合（后期融合）。用两种特征各自进行判决，将两个数据流的判决

结果综合起来产生终的判决。我们采用的方法就属于此类。

我们的实验采用单高斯模型，即假设属于每个状态的特征满足多元正态分布。

特征 X在状态 s假设下的条件概率由式(5.1)计算：

)}()()(21exp{

)det()2(1)|( )(1)()(

2/1)(2/ssTs

sn mXmXsXP −Σ−−Σ

= −

π(5.1)

其中 n为 X的维数。

对数似然值（loglikelihood）



第 18 页

)]()()())[ln(det(21)2ln(

2

))|(ln()|(

)(1)()()( ssTss mXmXnsXPsXL

−Σ−+Σ−−=

=

−π (5.2)

可以看到，其中的 )()()( )(1)()( ssTs mXmX −Σ− − 就是 X到 )(sm 的

马氏距离。

在识别过程中，我们采用的判断依据是

)()()())ln(det()|( )(1)()()( ssTss mXmXsXD −Σ−+Σ= − (5.3)

这样，由音频特征和音频码本得到 )|( AA sXD ，由视频特征和视频码本得到

)|( VV sXD ，多数据流（Multi-Stream）联合识别采用的判据是

)|()|()|( VVVAAA sXDsXDsXD λλ += (5.4)

其中 Aλ 为音频流指数， Vλ 为视频流指数。它们满足约束条件(5.5)：

1=+ VA λλ (5.5)

流指数代表了一个数据流在判决中占的权重，原有的纯音频识别就是当 1=Aλ

时的特例。

5.1 全局流指数训练

为了得到优的流指数，我们采用广义概率下降法（GPD - generalized

probabilistic descent）进行训练，它的优化准则是小错误率准则（MCE -

minimum classification error）。

首先训练全局流指数，所谓全局流指数就是指对所有的状态， Aλ 是常数。在



第 19 页

全局流指数训练中，我们把句子作为一个识别单位。

给定一个句子，对它进行音视频联合识别，得到若干候选识别结果，其中不

一定有正确的结果。一个识别结果就是一个状态序列，记为 }{ tRs ，t表示时间。

为了便于书写，将对数似然值简单记为

)|( AAA sXLL = (5.6)

)|( VVV sXLL = (5.7)

VVAA LLL λλ += (5.8)

分别计算各候选序列的似然值均值：

∑−

=

=1

0

1 T

t

tLT

L (5.9)

选取 L 大的一个错误的候选序列，记为 R。

我们通过标注文件得到一个正确的状态序列，记为 F，同样计算它的似然均值。

定义一个错误率的度量：

FR LLd −= (5.10)

整个识别过程就是一个在隐马尔可夫模型（HMM--hidden Markov model）假

设下 Viterbi 搜索似然值大的可能序列。由于 R是似然值大的错误序列，所

以 d<0 表示将得到正确的结果，若 d>0 则将得到错误的结果。d 越小，则识别错

误率会越小。

定义错识函数（loss function）：

}exp{11)(

addE

−+= (5.11)



第 20 页

图 5.1: E-d 关系示意图

E(d)是一个处处可导的函数，可以用梯度下降法小化。其中的参数 a越大，

E(d)越接近阶跃函数，应该根据 d的量级取一个合适的值。

GPD 训练的目的是小化 E的均值。为了便于计算，引入一个中间变量

)ln( AAr λ= (5.12)

因为 10 ≤≤ Aλ ，所以 0≤Ar 。

求解Ar

E∂∂

：

)( VAAA

LLrL

−=∂∂ λ (5.13)

A

F

A

R

A rL

rL

rd

∂∂

−∂∂

=∂∂

(5.14)

AA rdEaE

rE

∂∂

−=∂∂ )1( (5.15)

从而得到迭代公式：

)()()()1(

kAkkAkA r

Err∂∂

−=+ ε (5.16)



第 21 页

)exp( )1()1( ++ = kAkA rλ (5.17)

其中 )(kε 是用于控制变化步长的量，它必须满足三个条件：

0)( >kε ， ∞=∑=

∞→

K

kkK 0

)(lim ε ， ∞<∑=∞→

K

kk

K 0

2)(sup ε

一种简单的形式就是Kkk /1

0)( +=

εε 。 )(kε 过大会导致震荡，迭代不收敛， )(kε 较

小则收敛速度较慢，但可以保证达到优化的目的。

5.2 半音节相关流指数训练

正如前文中所说的，对于不同的发音，音频特征和视频特征的分辨能力是不

同的，根据分辨力合理地分配权重有利于识别，所以不同的发音应该采用不同的

流指数。这里，我们以一个半音节（辅音或元音）作为识别单位，半音节 j的流

指数记作 jAλ 和 jVλ 。训练公式与全局训练类似，只不过这里要同时训练多个流指

数。在视频特征中，我们采用了 37 个辅音，41 个元音，1 个静音，共需训练 79

个参数。

一个元音或一个辅音都称作一个“半音节”，以元音为例，元音分为四个

状态。首先由标注得到该元音的起始和终止时间，取出这段帧序列，分别在每一

种元音假设下对这一段帧进行 Viterbi 搜索，划分出四个状态。然后按照各自的

搜索结果，分别计算每种元音假设下的帧平均联合似然值：

∑−

=

=1

0

1 T

t

tLT

L (5.18)



第 22 页

其中 T为元音的帧数，与持续时间成正比。

把正确的元音记为 Fj ， L 大的错误元音记为 Rj ，训练公式与全局流指数

训练类似。 jFF LL = ， jjFjR LL≠

= max 。

定义错误率的度量：

FR LLd −= (5.19)

定义错识函数：

}exp{11)(

addE

−+= (5.20)

迭代中间变量：

)ln( jAjAr λ= (5.21)

偏导数计算公式：

)( jMVjMAjMAjMA

M LLrL

−=∂∂

λ ， M 代表 F或 R (5.22)

jFA

F

jFA

F

jFA

R

jFA rL

rL

rL

rd

∂∂

−=∂∂

−∂∂

=∂∂

(5.23)

jRA

R

jRA

F

jRA

R

jRA rL

rL

rL

rd

∂∂

=∂∂

−∂∂

=∂∂

(5.24)

jMAjMA rdEaE

rE

∂∂

−=∂∂ )1( , M 代表 F或 R (5.25)

对 E 关于每个流指数的偏导数求均值，假设共统计了 N个元音：



第 23 页

)()(

1,

1,

1,,

Aj

njj

N

n Aj

njjN

njjjj

jA nR

nR

nF

nF

nR

nF

rE

rE

rE

∂∂

+∂∂

+=

∂∂ ∑

∑ =

=

δδδδ

(5.26)

其中

jjjjjj

nMnM

nM

=≠

= ,1,0, {δ

， M 可以是 F或 R。

nFj 表示第 n 个被统计的正确的元音编号，

nRj 表示第 n 个被统计的大似然

的错误元音编号。

迭代公式：

)()()()1(

kjAkkjAkjA r

Err∂∂

−=+ ε (5.27)

)exp( )1()1( ++ = kjAkjA rλ (5.28)

训练全局流指数是在一条曲线上搜索低点，收敛性质比较好，一般终的

迭代结果受初值影响不大。而训练半音节相关流指数是在一个几十维的超曲面上

搜索，该曲面可能并不非常规则，所以搜索步长应取得小一些，所需的训练数据

也多一些。由于 GPD 算法只能得到一个局部的极值点，而不能保证得到低点，

所以初始值对迭代结果的影响比较大，我们在实验中把优的全局流指数作为所

有半音节流指数的初值，实验证明这种方法是合理的。

图 5.2 画出了半音节相关流指数的识别结果，可以看出其性能在不同信噪比

下均优于全局流指数。



第 24 页

图 5.2：全局流指数与半音节相关流指数的性能比较

5.3 状态相关流指数训练

同理，我们也可以让不同的状态采用不同的流指数，在我们的实验中，每个

辅音分为 2个状态，元音分为 4个状态，静音只有 1个状态，所以视频状态共有

37*2+41*4+1=239 个，也就是说有 239 个参数同时参加训练。

在具体实现的过程中，可以采用不同的训练单元，我们尝试分别用帧、半音

节和整句作为训练单元。下面分别介绍这三种方法：

方法一：以帧为单元的流指数训练



第 25 页

对于每一帧，由标注文件得到它对应的正确状态 Fj ，计算该帧在所有状态假

设下的音-视频联合似然值，其中似然值大的错误状态记为 Rj 。这里的“错误”

指的是视觉层面上的，即不考虑属于相同视觉状态的音频状态间的混淆。因为属

于同一视觉状态的状态 j ，其视频似然值 jVL 相等，音频似然值 jAL 不等，而联合

似然值 jVVjAAj LLL λλ += ，所以无论 Aλ 为何值， jL 的大小顺序都与 jAL 的顺序相

同。

状态相关流指数的训练公式与半音节相关流指数的训练公式非常类似，只需

把帧作为统计单位，把每一帧的正确状态记为 Fj ，似然值记为 FL ，大似然错

误状态记为 Rj ，似然值记为 RL ，然后可以完全套用式(5.19)- (5.28)。状态相

关流指数的初值也可以采用优的全局流指数。

方法二：以半音节为单元的流指数训练

一个元音或一个辅音都称作一个“半音节” ，这里以元音为例说明。每个元

音分为四个状态。首先由标注得到每个半音节的起始和终止时间，取出这段帧序

列，分别在每一种元音假设下对这一段帧进行 Viterbi 搜索，划分出四个状态。

然后按照各自的搜索结果，分别计算每种元音假设下的联合似然值，把正确的元

音记为 FFinal ，似然值大的错误元音记为 RFinal ，则 FFinal 对应的四个状态都

是 Fj ，而 RFinal 对应的四个状态都是 Rj 。接下来的计算可以参照方法一进行，此

处不再列出公式。

方法三：以整句为单元的流指数训练



第 26 页

因为实际的识别过程就是以整句为单位进行的，所以这种训练方法接近于

识别过程，收到的效果好。首先由标注得到句子的起止时间，进行 Viterbi 搜

索，得到三个音节数不同的候选结果，那么其中至少有两个结果是错误的。把正

确的句子记为 FSentence ，计算每个句子的联合似然值，选取似然值大的错误句

子记为 RSentence 。则 FSentence 对应的状态序列记为 tFj ，而 RSentence 对应的状态

序列记为 tRj 。接下来的计算可以参照方法一进行。

实验证明，状态相关流指数的辅助识别性能是好的，下面仅列出在干净语

音条件下，三种信息融合方法的性能比较表。

流指数正确率(%) 删除率(%) 插入率(%) 替换率(%) 错误率(%)

全局 85.02 0.35 1.60 14.63 16.58

半音节相关 86.49 0.47 2.02 13.04 15.53

状态相关 87.06 0.36 1.49 12.58 14.43

表 5.1：融合方法性能比较（干净语音）

对表 5.1 的说明：

正确率：正确识别音节的比例

插入：在两个音节之间错误地插入了一个音节

删除：识别结果中缺少一个音节

替换：将一个音节错识为另一个音节

错误率 = 插入率 + 删除率 + 替换率

正确率 + 删除率 + 替换率 = 1

正确率 + 错误率 = 1 + 插入率

由表 5.1 可以看出，这三种流指数按整体性能从高到低排序应该是：状态相



第 27 页

关，半音节相关，全局。但是与不同视觉特征之间的性能差别相比，不同融合方

法性能的差别就要小一些。

5.4 帧相关流指数训练

前三节讨论的流指数训练都是针对特定信噪比的，在不同信噪比条件下训练

出的优流指数是不同的。本节讨论的帧相关流指数应该是对各种信噪比自适应

的，流指数由每一帧的性质决定，所以流指数是连续分布的随机变量。

帧相关流指数一般的思想是这样的：找到几个能反映各数据流可信度的指标 d

（比如语音信噪比可以反映音频数据流的可信度），在这些指标和音频流指数之间

建立一个函数关系 )(dfA =λ ，然后对这个函数的若干参数进行训练。直观地看，

好的指标 d应该随可信度单调地变化，比较稳定。好的函数 f应该满足这样的条

件：（1）音频数据可信度越高， )(df 越大；（2） 1)(0 ≤≤ df 。

在实验中我们尝试了两种可信度指标。对于每一帧，计算它在每一状态假设

下的音频条件似然值 jL ，j是状态编号。取前 N个 jL 大的状态作为候选状态，

并按 jL 从大到小排列： 0jL 表示大的似然值， 1jL 为第二大的似然值，以此类推。

第一个指标是 0jL 到其它 N-1 个候选 jL 的平均距离：

∑−

=

−−

=1

101 )(

11 N

njnj LL

Nd (5.29)

第二个指标是 N个候选 jL 两两之间的平均距离

∑∑−

+=

−

=

−−

=1

1

2

02 )(

)1(2 N

mnjnjm

N

m

LLNN

d (5.30)



第 28 页

对于视频似然值也可以计算类似的指标，由于我们的实验中没有给视频数据

加入噪声，所以这里暂不考虑视频数据流的可信度。

实验表明， 1d 和 2d 的均值随信噪比的增大而增大，这也符合我们的直观判断。

因为这两个指标从一定程度上反映了音频特征的分辨能力，而信噪比越大时，不

同的状态类之间被区分得越开。

我们选用从指标到流指数的映射函数如下：

)exp(11),(

221121 dwdw

ddfA ++==λ ， 0,0 21 ≤≤ ww (5.31)

这个函数符合单调递增和在[0，1]上取值的要求，而且是处处可导的，所以我

们仍然可以用梯度下降法来训练优的 1w 和 2w 。

然而，我们采用帧相关流指数进行识别，并没有得到满意的结果。实验表明，

帧相关流指数的均值确实随着音频信噪比的增大而增大，但是在同一信噪比下，

流指数的方差过大，不够稳定。原因是这两个指标不仅与信噪比有关，而且与当

前帧所属的状态有关。

5.5 小结

本章详细叙述了在用流指数进行判决融合的系统框架下，采用多种流指数的

训练方法和识别性能。针对特定的信噪比，可以使用全局流指数、半音节相关流

指数、状态相关流指数，使识别性能达到优。5.3 节详细介绍了状态相关流指

数的三种不同的训练方法，它们分别以帧、半音节和整句为训练单位，单位的不

同也带来了一些训练细节上的差别。如果要求流指数对信噪比自适应，则应该采

用帧相关流指数。虽然我们关于帧相关流指数的尝试没有成功，但这种思想是合



第 29 页

理的。IBM 的研究机构曾经用原始的语音波形估计音频信噪比，从而确定帧相关

流指数，并取得了自适应性能的改善。

6、总结与讨论本文介绍了我们的音-视频语音识别系统的整体框架和各大模块，重点讨论了

“视觉特征提取”（第 3章）和“音-视频信息融合”（第 5章）的有关方法，详细

列出了采用多种视觉特征、多种信息融合方法的实验结果，并对它们进行了比较。

总的来说，不同的视觉特征在维数相等的条件下，按照辅助语音识别性能从

高到低排列是：LDA、PCA、ASM。在训练充分的条件下，增加特征维数能够提高性

能。

在相同信噪比下，信息融合方法按性能从高到低排列是：状态相关流指数，

半音节相关流指数，全局流指数。事实上，全局流指数是半音节相关流指数的一

个特例，而半音节相关流指数是状态相关流指数的一个特例。所以，从理论上也

很容易推导出上述性能的顺序。性能越好的方法待定的参数越多，需要的训练数

据量就越大。

我们没有解决流指数对信噪比自适应的问题，原因在于没有找到合适的指标

来表示数据流可信度。



第 30 页

致谢

我很庆幸在毕业设计中能够遇到这样一个有趣的课题，使我能够专心一致地

投入工作。

在这里我首先要感谢我的辅导老师刘鹏，从课题入门到该领域重要概念的解

释，从文献的阅读到编程中遇到的各种小问题，他都耐心地给予指导。我的工作

完全建立在他的研究框架之上，如果没有他原有的研究成果，我是无法取得任何

进展的。他严谨的治学态度更是值得我学习。

半年来，语音识别实验室的王作英教授、吴及老师、王侠老师、肖熙老师、

孙甲松老师一直关心着刚刚进入实验室的我，在科研上给予指导，在生活上给予

帮助，在此我要向他们表示衷心的感谢！

后我还要感谢实验室的所有师兄师姐从方方面面给予的关怀和支持，帮助

我在 SARS 蔓延的日子里顺利地完成了毕设。



第 31 页

参考文献音-视频语音识别系统：

[1] Chalapathy Neti, Gerasimos Potamianos, Juergen Luettin, Iain Matthews,

“Audio-Visual Speech Recognition”, Workshop 2000 Final Report of IBM, 2000.

[2] Tsuban Chen, “Audiovisual Speech processing--Lip Reading and Lip

Synchronization”, IEEE Signal Processing Magazine,January 2001,pages 9-21

[3] Rabiner, L.R., “A tutorial on hidden Markov models and selected applications in

speech recognition”, Proceedings of the IEEE , Vol: 77 Issue: 2 , Feb 1989 Page(s):

257 -286

[4] 刘鹏，王作英，“汉语音-视频语音识别研究”

视觉特征提取：

[5] Juergen Luettin, Neil A. Thacker, Steve W. Beet, “Active Shape Models for Visual

Speech Feature Extraction”, University of Sheffield,Electronic Systems Group Report

No.95/44

[6] “Downhill Simplex Method in Multidimensions”, Numerical Recipes in C:The Art

of Scientific Computing(ISBN 0-521-43108-5), Cambridge University Press

[7] G.Potamianos and H.P.Graf., “Linear discriminant analysis for speechreading”Proc.

IEEE 2nd Workshop on Multimedia Signal Processing, pages 221-226, Redondo Beach,

1998

[8] Aleix M. Martinez and Avinash C.Kak, “PCA versus LDA”, IEEE Transaction on

pattern analysis and machine intelligence, vol. 23, no. 2, February 2001

[9] S. Balakrishnama, A. Ganapathiraju, “Linear Discriminant Analysis-A brief

Tutorial”, Institute for Signal and Information Processing, Department of Electrical and



第 32 页

Computer Engineering, Mississippi State University

视频状态聚类

[10] 吴及，《汉语连续语音识别技术及实用化系统的研究》，

清华大学博士学位论文，2001 年 2 月

音-视频信息融合

[11] G. Potamianos and H. P. Graf., “Discriminative training of HMM stream

exponents for audio-visual speech recognition”, In Proc. International Conference on

Acoustics, Speech and Signal Processing, vol 6, pages 3733-3736, Seattle, 1998.

[12] Ashutosh Garg, Gerasimos Potamianos, Chalapathy Neti, Thomas S. Huang,

“Frame-dependent multi-stream reliability indicators for audio-visual speech

recognition”, In Proc. IEEE International Conference on Acoustics, Speech, and

Signal Processing. vol. 1 , Page(s): I_24 -I_27, April 6-10, 2003

Documents

清华大学综合论文训练 - Carnegie Mellon School of ...yangboz/senior-thesis-zyb.pdf · 清华大学综合论文训练 lda 视觉特征在音-视频语音识别系统中的应用