Key words recognition applied to speech monitoring system

- 13 -

http://www.sjie.org

Scientific Journal of Information Engineering February 2014, Volume 4, Issue 1, PP.13-18

Key Words Recognition Applied to Speech

Monitoring System Min Wang#, Huiting Ni, Lizhi Li, Xiaoqun Zhao

Electronic and Information Engineering College, Tongji University, Shanghai 201804, China

#Email: [email protected]

Abstract

Along with our government’s paying attention to national defense and security, monitoring on telephone is more and more

important. Obviously, traditional way cannot meet the requirements now, so developing automated speech monitoring technology

is very urgent. This paper introduced a speech monitoring system based on key words recognition (KWR), on the basis of previous

research, the system achieved the following functions---online real-time monitoring and offline non real-time detection. Through

the theoretical analysis, this system can save human resources and improve the working efficiency.

Keywords: CSR; Speech Monitoring System; KWR

关键词识别在语音监听系统中的应用

王民，倪慧婷，李立志，赵晓群

同济大学电子与信息工程学院，上海 201804

摘要：随着我国对国家安全事业的重视，电话内容的监听越来越重要。传统的人工方式的监听已不能适应新时期的要

求，迫切要求引入自动化的语音监听技术。本文介绍了一个基于语音关键词识别的电话语音监听系统，在现阶段已经成

熟的语音关键词识别技术的基础上，实现对语音电话的在线实时监听和离线非实时的检测功能，可以大大节省人力资源，

提高整个监听系统的工作效率。

关键词：连续语音识别；语音监听系统；关键词识别

引言

自 9.11 事件以后，如何对国家重要安全部门和敏感的公共场合进行全天候、自动、实时的监控，已成为

世界各国高度重视的一个全球性问题。在这样的背景下，视频监控技术得到了广泛的应用，即通过分散设置

的摄像机记录监控场景，并集中显示，使得监控人员可以实时了解发生的事件，以及时做出反应。但是，有

关研究已经表明，仅依靠视频监控中的人眼检测，即使是专业操作人员也难以构成真正有效的安全系统。因

为只要连续专注于监控屏幕超过 20 分钟，监控人员的注意力都会降低至不能满足监控要求的水平。并且视

频监控的前提是建立在要监控的嫌疑人到场的情况下的。在这种情况下，语音监听显示出了视频监听所不具

有的优点：1）电话监听不需要嫌疑人到场；2）电话作为公共通讯设备现在几乎人人都会使用。因此，语音

电话监听比视频监控更加有效，也就成为了近年来国家安全等领域的重要研究课题，但是纯人工监听需要 24

小时不间断的实时监听，大大耗费了人力和时间，而且由于人的注意力不可能长时间高度集中，有时也会把

极其重要的内容忽略掉[1]。

相比于目前通常采用的人工监听方式，计算机自动处理有着速度快、效率高、漏检率低等特点，尤其是

针对需要同时对多路电话进行实时监听的场合，电话内容自动检测和处理技术更是具有不可替代的作用。基

于连续语音的关键词识别作为语音识别的重要分支，近年来发展迅速，并广泛应用于国防、生活等各个领域。

用于监听的关键词识别系统不同于其他服务类的系统，在服务类系统中，被识别的对象往往是合作状态的，

- 14 -

http://www.sjie.org

如果识别未完成可以要求重复输入语音；而在监听系统中，被识别的对象可能是多个人的对话，并且是连续

的语音，而且往往是不合作的，但如果一个关键词出现了，一般会多次出现，系统有多次识别的机会，并且

发现关键词后需要人来验证。根据监听系统的这些特点，本文所设计的关键词识别系统（KWS）可以对连续

语音中出现的敏感关键词及时的预警、并跟踪敏感目标，可以实现实时监听，不但可以节省人力，而且高性

能的语音关键词识别系统可以做到对电话网络的实时监控。

本文在分析关键词识别技术发展现状的基础上，针对监听的特点，结合实际工作的需求和实践，探讨语

音关键词识别技术在语音监听方面的优点和发展趋势，设计了一个基于语音关键词识别系统的监听系统框架，

通过分析本系统使用后监听工作效率的提高说明系统的有效性和先进性。

1 语音识别的分类和特点

语音识别的任务是利用计算机从语音信号中提取有用信息，并确定语音的语言含义。针对发音人的不同，

可以把语音识别技术分为特定人语音识别和非特定人语音识别。前者只能识别一个或几个人的语音，而后者

则可以识别任意人的语音。显然，非特定人语音识别系统更符合电话语音监听的实际需要，但它要比针对特

定人的识别困难得多。针对识别内容的不同，语音识别技术主要分为三类：孤立词识别、连续语音识别和语

音关键词识别[2]。

孤立词识别是识别事先已知的孤立的词，如“开机”、“关机”等，说话人说话时，每个词组之间都有

明显的停顿。孤立词识别主要应用于自动控制，如机器人操纵、设备仪器操纵、智能玩具、家电的操纵等。

连续语音识别（CSR, Continuous Speech Recognition）的任务是识别日常生活、工作中自然交流的连续语

音，如一个句子或一段话，话音的词、句字之间可能没有明显的停顿。连续语音识别主要应用于听写机、语

音输入系统、语音监听等。

关键词识别（KWR）与连续语音识别有着密切的关系。它是从连续的语音中检测若干关键词出现在何处，

因此可以说关键词识别是连续语音识别的一种。但它又不要求把整个的语音流全部识别出来，只需要提取用

户关心的关键信息，并不需要系统识别出整个句子。从这点上来讲，关键词识别降低了对识别系统的要求。

由于用户对关键部分的发音通常都是完整的和吐字清楚的，对非关键词部分和语法不需要过多的要求，因此

从语音流中识别关键词比识别整个句子的发音要容易得多。同时也降低了对环境噪声的要求。因此，关键词

识别技术用于语音监听具有比较明显的优势[2,3]。

2 连续语音中的语音关键词识别及其关键技术

建立一个语音关键词识别系统（KWS）主要有两个部分：关键词检出和关键词确认。关键词检出从无限

制语音流中检测出尽可能多的候选关键词，再由关键词确认部分对这些候选关键词进行置信度评估。关键词

检出主要包括以下几个模块：特征提取，建立声学模型并进行训练，搜索和识别等。语音关键词识别的原理

框图如图 1 所示。

训练语音语言模型

待识别语音

搜索、识别确认

预处理提取特征

声学模型

输出

离线训练

关键词

在线识别

图 1 语音关键词识别的原理框图

- 15 -

http://www.sjie.org

2.1 特征提取

语音信号的特征参数有很多种，常见的有基音周期、线性预测参数（LPC）、线谱对参数（LSP）、线性

预测倒谱系数（LPCC）、Mel 倒谱系数（MFCC）、口音敏感参数（ASCC）、感觉加权的线性预测（PLP）参

数、动态差分参数、高阶信号谱类特征等。这些特征反映了语音信号的不同特性，在语音识别的不同领域有

着不同重要性的使用。大部分 KWS 系统使用的特征是能量、倒谱系数以及它们的一阶、二阶差分。倒谱系

数有基于 LPC 的 LPCC 参数和 MFCC 参数两种。对于 LPCC 参数，给各维乘以一个权重系数，加强高维的

权重，效果更好。MFCC 参数考虑了人耳的听觉特性，将频谱转化为基于 Mel 频标的非线性频谱，然后转换

到倒谱域上，由于充分考虑了人的听觉特性，而且没有任何前提假设，MFCC 有良好的识别性能和抗噪性能，

但是其计算量和计算精度要求搞。特征提取的技术已经比较成熟，但是更高效的特征参数人们仍然在研究[2]。

2.2 声学模型的建立

确定所使用的特征后，先要选取适当的识别单元。然后为每个单元建立一个模型，再从训练语音中提取

特征，供模型进行训练。多数关键词识别系统将语音看作是关键词和非关键词的组合。非关键词由 M 个垃

圾（Garbage）模型（也称为“Filler”，即“填充”模型）来表示。这种系统的关键词和非关键词模型可能对

应不同的识别单元。这类系统中，有些将每个关键词作为识别单元，有的以“子词”（即关键词的一部分）

作为识别单元。

识别单元确定后，就要为每个单元建立一个模型。通常用隐马尔可夫模型（Hidden Markov Mode1，HMM）。

在过去的十年中，HMM 已经被认为是用于连续语音非特定人关键词识别的最好方法。HMM 依据其输出，

可以分为连续、离散两种。对于离散 HMM 需要先进行聚类、矢量量化，计算量小，但是精度受限制；连续

HMM 则可以直接将特征矢量作为训练样本，需要估计更多的参数，运算量大。两种 HMM 各有所长，应根

据具体情况选取[4,5]。

对于汉语语音而言，词是由字构成的，而每个字对应一个音节，音节由 HMM 模型表示，即由状态转移

系列构成的，所以很自然地可以由字的连接系列来表示词，也就是同样可以用状态转移系列来表示每个词，

从而得到新的关键词的 HMM 模型，然后把每个关键词的 HMM 模型联接起来组成一个全局 HMM。

2.3 关键词的搜索和检出

关键词检出是关键词识别系统中最重要的一个组成部分，它通过最佳路径搜索算法来得到每个候选关键

词同输入语音的匹配分数。普通的语音关键词识别系统一般都假设在每个连续语音段中最多只存在一个关键

词，因此检出的目的就是：从候选的关键词中取出一个或多个关键词，使得它们同连续语音中某一段语音的

后验概率达到最大。在本文中主要说明关键词加垃圾模型的搜索策略。关键词和垃圾模型是对语音分别建立

N 个关键词模型和 M 个垃圾模型。垃圾模型包括非关键词语音和非语音，每个关键词对应一个关键词模型。

对训练语音提取特征后，分别对关键词模型和垃圾模型进行训练，然后将它们组成一个全局 HMM。

最基本的识别方法如下：对输入语音提取特征，将特征送全局 HMM，用 Viterbi 算法找出最佳状态路径，

如果最佳路径中含有一个子序列使得子序列中的每个状态都是某个关键词模型中的状态，则认为该子序列对

应的语音序列是要识别的关键词。

2.4 后处理

为了进一步提高识别率，很多系统在以上搜索之后，还对假想命中的关键词进行了后处理（或称“语音

验证”，Utterance Verification）。常用的方法有：1）利用神经网络分类进行确认；2）先区分关键词和填充，

然后利用模糊动态聚类判断是哪个关键词；3）利用置信度对识别结果进行检验，常用的置信度有两种，一

是利用反词模型得到该候选的似然比来完成对识别结果的确认，二是利用识别模型自身的信息构造置信函数。

2.5 系统评价指标

- 16 -

http://www.sjie.org

在系统的性能指标方面，对语音关键词识别系统来说，理论上存在两类错误[6]：

类型 I 错误：错误拒绝(False Reject，FR)：系统没有检测到语音中应该出现的关键词；

类型Ⅱ错误：错误接受(False Alarm，FA)：系统检测到的关键词在语音中没有出现，是假冒的关键词。

在关键词系统中，定义衡量类型 I 错误的指标为拒识率，类型Ⅱ错误的指标为虚警率。

= 100%未被正确识别的关键词数

拒识率参考关键词总数（1）

= 100%C

识别错误的结果关键词数虚警率

语音的小时数待检关键词总数（2）

其中，待检关键词总数是指给定的关键词表中的关键词总数。C 是一个常数，其作用是使误警率和拒识率处

于同一尺度。

可以使用检出率来评价关键词的检测性能：

100% 1 正确识别的关键词数

检出率拒识率参考关键词总数（3）

系统在识别阶段为了保证最终结果有比较高的检出率，常常给出尽可能多的候选关键词，以便把正确的

候选关键词包含进来。在确认阶段必须使用有效的方法，拒识那些错误的候选，以降低系统的虚警概率，同

时也要保证检出率不受影响。

3 基于语音关键词识别的电话监听系统

3.1 系统搭建依据

用于监听的关键词识别系统不同于其他服务类的系统。在监听系统中，对象可能是多个人的对话，往往

是不合作的，但如果一个关键词出现了，一般会多次出现。因此系统会有多次识别的机会，并且发现关键词

后需要人来验证，所以对识别率要求也就没那么高。

提高语音识别系统性能的一般思路是提高每个词单次的检出率，目前多是通过增加样本库的规模、提高

MFCC 等特征参数的维数，以及增加语言模型等方法来实现，这样就大大增加了系统的计算量，使系统速度

降低，实时性跟不上要求。而在电话监听中，实时性是非常重要的，所以本文构建的语音关键词识别系统，

根据电话监听的特殊场景，即某个关键词在监听过程中必会出现多次，在不增加计算量的基础上增强了系统

的实时性。

图 2 不同容忍次数下单次识别率与系统识别率的关系

假定所有关键词的单次检出率均为，可容忍次数为n 次，根据计算，系统的总体检出率 1 (1 )n ，

对于确定的，随着n的增加，系统性能将提升。在单次检出率不高的情况下，本系统对关键词的有效性理

- 17 -

http://www.sjie.org

论上可达到 95%甚至以上。图 2 假定系统对所有关键词识别率相同的情况下，描绘了某词单次检出率分别为

0.4，0.45，…，1.0 时系统的性能。

可以看到，在可容忍次数最多为 3 次的情况下，即便单次检出率低至仅有 65%，系统依然能以高于 95%

的概率检出该词。因此，若某个关键词在语段中多次出现，随着次数增加，可降低对单次检出率的要求而不

影响系统对该词的检出率。

3.2 系统架构

根据语音关键词识别系统应用在监听方面的特点，对于多个关键词的组合，设计了一个基于 KWS 的监

听系统架构，具体如图 3 所示。其中，k 表示关键词的个数，Ni代表 KWS 系统中一定时间内识别出关键词的

次数， i 代表此关键词的权重。

输入

KWS-1

KWS-2

KWS-k

判定是否大于设定

门限值

关键词

确认输出�𝑁𝑖𝛼𝑖

𝑘

𝑖=1

.

.

.

Y

N

图 3 基于 KWS 的监听系统架构

本系统架构的工作流程是这样的：

1) 设定好待识别的关键词 k 个，KWS-1、KWS-2、...、KWS-k 是分别针对不同关键字的识别系统；

2) 根据实际要求设定所需的关键词组合，设定不同关键词的权重，以此更准确锁定所要监听的语音；

3) 根据实际需要事先设定好门限值，1

k

i iiN

的数值若超过此门限值，则此语音电话为敏感电话，输

入到关键词确认模块进行确认；

4) 由工作人员对出现关键词的电话线路进行跟踪、监听；最后由工作人员对出现关键字的语音段进行

监听并记录。

另外，为了提高系统的效率和正确率，监听系统可以由在线实时监控部分和离线非实时检测部分组成，

具体如图 4 所示。

输入

在线实时监听KWS-A

离线非实时检测KWS-B

确认指标合格？Y

N

输出

图 4 由在线实时监控和离线非实时检测组成的监听系统

具体实施方案如下：

1) 设定好识别的关键字，采用 KWS-A 系统对大量电话线路进行实时监控，使用该 KWS 系统的目的是

对海量电话语音进行在线检索，过滤掉大量非关键语音，该系统的特点是算法复杂度低、执行效率高，关键

字识别率高，正确率低；

2) 采用关键字确认模块，对识别出的关键字与正确的关键字进行比对，得出该 KWS 系统的识别结果，

与我们所期望的识别指标进行比较判断；

3) 若步骤 2 未达标，则采用 KWS-B 系统对语音进行离线二次检索识别，该系统的目的是对电话语音信

号进行细搜索识别，提出报警，相较于 KWS-A 系统，该系统的特点是算法复杂度较高，执行效率较低，正

- 18 -

http://www.sjie.org

确率较高；

4) 若识别结果仍未达标，则重复步骤 3，以此类推若达标则输出结果；

5) 对出现关键字的语音段进行监听并记录。

针对上面提出的两种系统架构，可以结合起来，即图 4 中的 KWS-A 和 KWS-B 部分均采用图 3 中的结

构，这样就可以大大提高监听的工作效率和识别的正确率。

4 结论

本文介绍了一种基于语音关键词识别的电话监听系统，该系统采用了先进的关键词识别算法，并通过多

机并行处理机制和在线实时监测、离线二次监测相并行的方法解决了海量数据处理和多频道同时监听的问题，

提高了整个系统的监听效率。

从理论分析来看，该系统可以大大减轻了人工监听的工作量，提高监听系统的工作效率。通过新技术的

使用，改变了传统的监听工作方式，可以有效地解决内容监听对语音电话监听带来的挑战。

致谢

在此对博士后基金的资助者、提供指导和帮助的各位老师、给予转载和引用权的资料、文献以及研究思

想的所有者表示感谢！

REFERENCES

[1] Haritaoglu I, Harwood D, Davis L W. Real-time surveillance of people and their activities [J]. IEEE Trans Pattern Analysis and

Machine Intelligence. 2000, 22(8): 809-830

[2] Bingxi Wang, Dan Qu, Xuan Peng. Practical Speech Recognition Technology [M]. National Defence Industry Press, Beijng, 2005.

[3] Weintraub, M. LVCSR log-likelihood ratio scoring for keyword spotting. ICASSP 1995, vol.1, pp.297-300

[4] L.R Rabiner. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proc. of the IEEE, 1989.2,

77(2): 257-285

[5] Lee C-H, Rabiner L, Pieraccini R, et al. Acoustic modeling for large vocabulary speech recognition [J]. Computer Speech and

Language, 1990, 4(2): 127-165

[6] Dong Wang. Out-of-Vocabulary Spoken Term Detection [D]. Ph.D. Thesis, University of Edinburgh, 2010

[7] D. Reynolds and R. Rose. Robust text-independent speaker identification using Gaussian mixture speaker models. IEEE Trans.

ASSP, 3(1): 72-83, 1995

[8] S.Young et al. The HTK Book (for HTK version 3.4), Speech Vision and Robotics Group, Cambridge University Engineering

Department. Jul. 2000. http://htk.eng.cam.ac.uk/docs/docs.shtml

[9] Aubcrt, X.L. An Overview of Decoding Techniques for Large Vocabulary Continuous Speech Recognition [J]. Computer Speech

and Language, 2002, 16(1): 89-114

【作者简介】

1 王民（1987-），女，汉族，研究生，主

要研究领域为语音关键词识别，现攻读

同济大学硕士学位。

Email: [email protected]

2 倪慧婷（1990-），女，汉族，研究生，主要研究领域为语音

识别，现攻读同济大学硕士学位。Email: [email protected]

3 李立志（1973-），男，汉族，博士后，高级工程师，研究领

域为语音信号处理，水声通信等，国防科技大学计算机通信

专业硕士，同济大学信息与通信专业博士。


4 赵晓群（1962-），男，汉族，博士，同济大学教授，博士生

导师。主要从事信息论、纠错编码理论、信源编码理论、数

字语音处理和数字信号处理等方面的工作。


Documents

Key words recognition applied to speech monitoring system