127
第第第 第第第第第第第第 第第第 第第第第第第第第

第三章 音频信息处理技术

  • Upload
    ruana

  • View
    90

  • Download
    0

Embed Size (px)

DESCRIPTION

第三章 音频信息处理技术. 3.1 基本概念. 由于人们在接收外界信息以及与他人进行交流的过程中,大约有 20% 是通过听觉实现的,所以音频(声音)是多媒体计算机技术中一种不可缺少的媒体。也正是由于多媒体计算机具有处理音频媒体的能力,才使得计算机走出无声的世界,向人性化迈进了一步。. 声音是由物体振动引发的一种物理现象。例如,讲话时声带的振动、小提琴弦的振动、扬声器纸盆的振动都会造成空气的振动,这种振动会不断地向四周传播,当被人耳接收时,我们就听到了声音。. 声音媒体分为三类. - PowerPoint PPT Presentation

Citation preview

Page 1: 第三章 音频信息处理技术

第三章 音频信息处理技术第三章 音频信息处理技术

Page 2: 第三章 音频信息处理技术

3.1 3.1 基本概念基本概念

由于人们在接收外界信息以及与由于人们在接收外界信息以及与他人进行交流的过程中,大约有他人进行交流的过程中,大约有 2020%% 是 通 过 听 觉 实 现 的 , 所 以 音 频是 通 过 听 觉 实 现 的 , 所 以 音 频(声音)是多媒体计算机技术中一(声音)是多媒体计算机技术中一种不可缺少的媒体。也正是由于多种不可缺少的媒体。也正是由于多媒体计算机具有处理音频媒体的能媒体计算机具有处理音频媒体的能力,才使得计算机走出无声的世界,力,才使得计算机走出无声的世界,向人性化迈进了一步。向人性化迈进了一步。

Page 3: 第三章 音频信息处理技术

声音是由物体振动引发的一种物声音是由物体振动引发的一种物理现象。例如,讲话时声带的振动、理现象。例如,讲话时声带的振动、小提琴弦的振动、扬声器纸盆的振小提琴弦的振动、扬声器纸盆的振动都会造成空气的振动,这种振动动都会造成空气的振动,这种振动会不断地向四周传播,当被人耳接会不断地向四周传播,当被人耳接收时,我们就听到了声音。收时,我们就听到了声音。

Page 4: 第三章 音频信息处理技术

声音媒体分为三类 声音媒体分为三类 语音语音:人的说话声不仅是一种波形, 而:人的说话声不仅是一种波形, 而

且还通过语气、语速、语调携带着比文且还通过语气、语速、语调携带着比文本更加丰富的信息。这些信息往往可以本更加丰富的信息。这些信息往往可以通过特殊的软件进行抽取。通过特殊的软件进行抽取。

波形声音波形声音 :实际上已经包含了所有声音:实际上已经包含了所有声音形式,这是因为计算机可以将任何声音形式,这是因为计算机可以将任何声音信号通过采样、量化数字化,在必要的信号通过采样、量化数字化,在必要的时候,还可以准确地将其恢复。时候,还可以准确地将其恢复。

音乐音乐 :音乐是一种符号化了的声音,这:音乐是一种符号化了的声音,这种符号就是乐谱,乐谱则是转变为符号种符号就是乐谱,乐谱则是转变为符号媒体形式的声音。媒体形式的声音。

Page 5: 第三章 音频信息处理技术

声音的量纲声音的量纲

声音的振动是一种正弦波,声音的变声音的振动是一种正弦波,声音的变化必须确定三件事:频率(变化的速度)化必须确定三件事:频率(变化的速度)、幅度(产生的压力)、相位(何时开始、幅度(产生的压力)、相位(何时开始)。)。

另外一方面,人们可以感觉到声音的另外一方面,人们可以感觉到声音的强弱,可以感觉到歌唱家音调的高低。强弱,可以感觉到歌唱家音调的高低。

因此,声音的量纲分为声音的物理量因此,声音的量纲分为声音的物理量纲和心理量纲纲和心理量纲。。

Page 6: 第三章 音频信息处理技术

声音的物理特性声音的物理特性 频率频率 声压声压 声强声强 动态范围动态范围 频谱频谱

Page 7: 第三章 音频信息处理技术

声音的心理学特征声音的心理学特征 音调音调 响度响度 音色音色 掩蔽效应掩蔽效应 方位感方位感 立体感立体感

Page 8: 第三章 音频信息处理技术

声音媒体具有三个要素 声音媒体具有三个要素

音调音调:与声音的频率有关,频率越:与声音的频率有关,频率越快,音调就越高。快,音调就越高。

20Hz 20kHz

声音(音频) 超音频亚音频

300~3000Hz 人说话的频率范围

Page 9: 第三章 音频信息处理技术

音强音强 :又称为响度,它取决于声音的振:又称为响度,它取决于声音的振幅。振幅越大,声音就越响亮。幅。振幅越大,声音就越响亮。

音色音色 :音色是由于波形和泛音的不同所:音色是由于波形和泛音的不同所带来的一个声音属性。 带来的一个声音属性。 《《纯音纯音》一般的声音由几种振动频率的波组》一般的声音由几种振动频率的波组

成,若该声音只有一种振动频率就叫做纯音;成,若该声音只有一种振动频率就叫做纯音; 《《复音复音》由许多纯音组成,复音的频率用组》由许多纯音组成,复音的频率用组

成这个复音的基音频率表示,一般的乐音都成这个复音的基音频率表示,一般的乐音都是复音;是复音;

《《基音基音》是复音中频率最低部分的声音;》是复音中频率最低部分的声音; 《《泛音泛音》在一个复音中,除去基音外,所有》在一个复音中,除去基音外,所有

其余的纯音都是泛音。其余的纯音都是泛音。

Page 10: 第三章 音频信息处理技术

物理量纲可以用精确的值来描述,但对某物理量纲可以用精确的值来描述,但对某一具体声音得来的心理印象却不容易说明白,因一具体声音得来的心理印象却不容易说明白,因为心理印象要由被测者的经验而定。为心理印象要由被测者的经验而定。

声音的心理属性和物理属性不可等同,首先,声音的心理属性和物理属性不可等同,首先,这些关系不是线性的;其次这些关系不是孤立的;这些关系不是线性的;其次这些关系不是孤立的;第三,这些关系不是不变的。第三,这些关系不是不变的。

Page 11: 第三章 音频信息处理技术

两者之间确有关系:例如声音的响度取决于两者之间确有关系:例如声音的响度取决于强度和频率两个因素,如果频率不变,强声显得强度和频率两个因素,如果频率不变,强声显得比弱声要响些。但如果强度不变,过高频率的声比弱声要响些。但如果强度不变,过高频率的声音和过低频率的声音似乎比中频的声音听起来都音和过低频率的声音似乎比中频的声音听起来都要弱一些。由此可见,响度依赖于频率,原因是要弱一些。由此可见,响度依赖于频率,原因是人耳能反应的频率范围是有上限和下限的。 人耳能反应的频率范围是有上限和下限的。

Page 12: 第三章 音频信息处理技术

声音的量纲声音的量纲 心理变量 首要的物理变量 次要的物理变量

响度 声强 声波频率

音调 声波频率 声强

音色 声波复合 -

音量 频率和强度 -

密度 频率和强度 -谐和(流畅或粗

糙) 谐波结构 音乐技巧

噪声 强度 频率组合,各种时间参量

骚扰声 强度 频率组合,无意义

Page 13: 第三章 音频信息处理技术

听觉特性听觉特性

等响曲线 等响曲线 由于响度与频率和强度有关,所以在不同频率上的强由于响度与频率和强度有关,所以在不同频率上的强

度是不同的。先设一个音为标准音,给予固定的频率、强度是不同的。先设一个音为标准音,给予固定的频率、强度和持续时间,例如度和持续时间,例如 1000Hz1000Hz 、、 4040 分贝、持续分贝、持续 0.50.5秒;再秒;再给一个音也持续给一个音也持续 0.50.5秒,但频率不同,通过调整使其响度秒,但频率不同,通过调整使其响度听起来一样,得到的这样一组曲线称之为等响曲线。等响听起来一样,得到的这样一组曲线称之为等响曲线。等响曲线描述的是响度与频率和强度的关系。从声音心理学考曲线描述的是响度与频率和强度的关系。从声音心理学考虑,对同一响度的声音在频率上和强度上可以有很大的差虑,对同一响度的声音在频率上和强度上可以有很大的差别,这对声音表现有重要意义。别,这对声音表现有重要意义。

Page 14: 第三章 音频信息处理技术

掩蔽(掩蔽( maskingmasking ))

声音的响度不仅取决于自身的强度和频率,而且也依声音的响度不仅取决于自身的强度和频率,而且也依赖于同时出现的其它声音。各种声音可以互相掩蔽,也就赖于同时出现的其它声音。各种声音可以互相掩蔽,也就是说一种声音的出现可能使得另一种声音难于听清。由于是说一种声音的出现可能使得另一种声音难于听清。由于声音的掩蔽效果,可以欺骗人的听觉。例如,本来是多种声音的掩蔽效果,可以欺骗人的听觉。例如,本来是多种频率的声音的复合,但听众以为是另一种声音。所以,声频率的声音的复合,但听众以为是另一种声音。所以,声音的掩蔽特性常常用于声音的压缩。音的掩蔽特性常常用于声音的压缩。

Page 15: 第三章 音频信息处理技术

临界频带临界频带 在频率的某一临界区里,各种声音是相互作用的,在频率的某一临界区里,各种声音是相互作用的,合成声音的响度由这些频率共同决定。如果超出临界区,合成声音的响度由这些频率共同决定。如果超出临界区,声音的响度不再相互作用,声音的响度随频率的改变而声音的响度不再相互作用,声音的响度随频率的改变而改变。这个临界区就是临界频带,其宽度视其中心频率改变。这个临界区就是临界频带,其宽度视其中心频率而定。对于临界频带的确定,使得对声音响度的处理能而定。对于临界频带的确定,使得对声音响度的处理能够有的放矢。够有的放矢。

Page 16: 第三章 音频信息处理技术

相位 相位 从声音的波形来看,声音的起点和方向也要反映声从声音的波形来看,声音的起点和方向也要反映声

音的特性,这就是声音的相位。当两个声音相同相位完音的特性,这就是声音的相位。当两个声音相同相位完全相反时,它们将相互抵消;当两个声音相同而且相位全相反时,它们将相互抵消;当两个声音相同而且相位也相同时,声音就会得到加强。也相同时,声音就会得到加强。

相位的确定对于多声道声音系统的设计非常重要,相位的确定对于多声道声音系统的设计非常重要,其可以应用在回声的消除、会议系统的声音设计上。 其可以应用在回声的消除、会议系统的声音设计上。

Page 17: 第三章 音频信息处理技术

自然声音的时变现象自然声音的时变现象 声音的音调分成三个区域:起始区、稳定状态区、延声音的音调分成三个区域:起始区、稳定状态区、延迟区。迟区。

研究表明,音调的频谱分量随时间改变。在稳定状态研究表明,音调的频谱分量随时间改变。在稳定状态区,频谱保持固定。在起始区,振幅频谱随时间变化。因区,频谱保持固定。在起始区,振幅频谱随时间变化。因此自然声音的起始部分是非常难识别的。例如刚听了一小此自然声音的起始部分是非常难识别的。例如刚听了一小节音调后要识别乐器,专家也会觉得较难。时变现象用于节音调后要识别乐器,专家也会觉得较难。时变现象用于数字系统中,说明声音中的某些错误是不太容易发现的,数字系统中,说明声音中的某些错误是不太容易发现的,但如果出现停顿就很容易引起人的注意。 但如果出现停顿就很容易引起人的注意。

Page 18: 第三章 音频信息处理技术

听觉空间听觉空间

人耳可听到来自各个方向的声音,并用不同的因素来判人耳可听到来自各个方向的声音,并用不同的因素来判定声源的位置。声源的位置不论对于增进人们的感受还是定声源的位置。声源的位置不论对于增进人们的感受还是增进对声音的理解,都是非常重要的。通过声音的精确再增进对声音的理解,都是非常重要的。通过声音的精确再现,就可以构造出听觉空间。现,就可以构造出听觉空间。

方位的线索是各种声音到达两耳的精确时间和强度。方位的线索是各种声音到达两耳的精确时间和强度。

Page 19: 第三章 音频信息处理技术

听觉的频谱特性听觉的频谱特性

声音是时间函数,通过傅里叶变换可做出其频谱图。声音是时间函数,通过傅里叶变换可做出其频谱图。人耳对频谱成分的波峰和波谷是非常敏感的。在语言中,人耳对频谱成分的波峰和波谷是非常敏感的。在语言中,元音很少有频谱变速变化的区域。基频改变,人耳是很敏元音很少有频谱变速变化的区域。基频改变,人耳是很敏感的。例如:快进的录像,音调会发生变化。感的。例如:快进的录像,音调会发生变化。

音色非常复杂,目前尚在研究中。音色的处理将使我音色非常复杂,目前尚在研究中。音色的处理将使我们能识别音源,音色也代表和声音有关的主观质量。 们能识别音源,音色也代表和声音有关的主观质量。

Page 20: 第三章 音频信息处理技术

声音的心理模拟声音的心理模拟

通过人工真实的方法,可以对视觉空间的景物进行再通过人工真实的方法,可以对视觉空间的景物进行再造或虚构,同样也可以对听觉空间的声音进行心理的模拟,造或虚构,同样也可以对听觉空间的声音进行心理的模拟,这就是所谓的可听化(这就是所谓的可听化( audiolizationaudiolization )。用声音可以表达)。用声音可以表达出一些声音的效果。 出一些声音的效果。

Page 21: 第三章 音频信息处理技术

几种常见的声音频宽几种常见的声音频宽

声音类型声音类型 频宽频宽

电话语音电话语音 200Hz~3.4kH200Hz~3.4kHzz

调幅广播调幅广播 50Hz-7kHz50Hz-7kHz

调频广播调频广播 20Hz~15kHz20Hz~15kHz

宽带音响宽带音响 20Hz~20kHz20Hz~20kHz

Page 22: 第三章 音频信息处理技术

音频信号的质量指标音频信号的质量指标 频带宽度频带宽度

动态范围动态范围 信噪比信噪比

Page 23: 第三章 音频信息处理技术

3.2 3.2 音频信号数字化音频信号数字化 声音是由物体的振动产生的,这种振动声音是由物体的振动产生的,这种振动

引起了周围空气压力的震荡,我们称这引起了周围空气压力的震荡,我们称这种震荡的函数表现形式为种震荡的函数表现形式为波形波形。。

Page 24: 第三章 音频信息处理技术

从人与计算机交互的角度看,音频信号的处理包括下述从人与计算机交互的角度看,音频信号的处理包括下述 33点:点:

人与计算机通信,也就是计算机接收音频信号。包括音频获人与计算机通信,也就是计算机接收音频信号。包括音频获取、语音的识别和理解。取、语音的识别和理解。

计算机与人通信,也就是计算机输出音频。包括音乐合成、计算机与人通信,也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频视频的同步。语音合成、声音的定位以及音频视频的同步。

人人 -- 计算机计算机 -- 人通信。人通过网络与异地的人进行语音通信人通信。人通过网络与异地的人进行语音通信,相关的音频处理有语音采集、音频的编码和解码、音频的,相关的音频处理有语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检索等。存储、音频的传输、基于内容的检索等。

Page 25: 第三章 音频信息处理技术

11 .音频的数字化与再现.音频的数字化与再现 在计算机中,所有的信息都以数字来表示。声音信号在计算机中,所有的信息都以数字来表示。声音信号

也是由一系列的数字来表示的,称为数字音频。数字音频也是由一系列的数字来表示的,称为数字音频。数字音频的特点就是保真度好,动态范围大。 的特点就是保真度好,动态范围大。

数字声音是一个数据序列。它是由外界声音经过采样、数字声音是一个数据序列。它是由外界声音经过采样、量化和编码后得到的。 量化和编码后得到的。

Page 26: 第三章 音频信息处理技术

在时间轴上,每隔一个固定的时间间隔在时间轴上,每隔一个固定的时间间隔(虚线表示)对波形曲线的振幅进行一(虚线表示)对波形曲线的振幅进行一次取值,这被称为次取值,这被称为采样采样。由于曲线在振。由于曲线在振幅方向是连续的,所以必须将无限个可幅方向是连续的,所以必须将无限个可能的取值映射到计算机可表示的一个有能的取值映射到计算机可表示的一个有限取值范围内(通常是一个整型取值范限取值范围内(通常是一个整型取值范围),这被称为围),这被称为量化量化。。

时间

振幅

Page 27: 第三章 音频信息处理技术

采样量化的结果将用所得到的数采样量化的结果将用所得到的数值序列表示原始的模拟声音信号,值序列表示原始的模拟声音信号,这就是将模拟声音信号数字化的这就是将模拟声音信号数字化的基基本过程本过程。。

采样 量化声音的模拟信号 声音的数字信号

Page 28: 第三章 音频信息处理技术

对声音进行采样用奈奎斯特采样定理来决定采样的频对声音进行采样用奈奎斯特采样定理来决定采样的频率。根据该定理,只要采样频率高于信号中最高频率的两率。根据该定理,只要采样频率高于信号中最高频率的两倍,就可以从采样中完全恢复原始信号的波形。因为人耳倍,就可以从采样中完全恢复原始信号的波形。因为人耳所能听到的频率范围为所能听到的频率范围为 20Hz20Hz 到到 20KHz20KHz ,所以实际的采,所以实际的采样过程中,为了达到好的效果,就采用样过程中,为了达到好的效果,就采用 44.1KHz44.1KHz 作为高作为高质量声音的采样频率。如果达不到这么高的频率,声音恢质量声音的采样频率。如果达不到这么高的频率,声音恢复的效果就会差一些,例如电话声音的质量等。一般来说,复的效果就会差一些,例如电话声音的质量等。一般来说,声音恢复和采样频率、信道带宽都有关。声音恢复和采样频率、信道带宽都有关。

Page 29: 第三章 音频信息处理技术

声音的采样以及量化

Page 30: 第三章 音频信息处理技术
Page 31: 第三章 音频信息处理技术

与数字音频相关的重要特性:与数字音频相关的重要特性: 采样频率采样频率 采样频率与声音的质量关系最为紧密。采样频率越高,采样频率与声音的质量关系最为紧密。采样频率越高,

声音质量越接近原始声音,所需的存储量便越多。标准的声音质量越接近原始声音,所需的存储量便越多。标准的采样频率有三个:采样频率有三个: 44.1KHz44.1KHz ,, 22.05kHz22.05kHz ,和,和 11.025kHz11.025kHz 。。

采样位数采样位数 存放一个采样点所需的比特数。一般的采样位数为存放一个采样点所需的比特数。一般的采样位数为 88

位或位或 1616 位,即把声音采集为位,即把声音采集为 256256等份或等份或 6553665536等分。等分。

Page 32: 第三章 音频信息处理技术

声道数声道数 有单声道、双声道和多声道。如多种语言音频混存时,有单声道、双声道和多声道。如多种语言音频混存时,需要多声道需要多声道

数据量数据量

( 采样频率 ×每点采样位数 ×声道数)数据量= 8

( 字节 /秒)

Page 33: 第三章 音频信息处理技术

音频信号压缩编码音频信号压缩编码

Page 34: 第三章 音频信息处理技术

PCMPCM 编码原理编码原理 PCM 编码又称为脉冲代码调制,其工作原理如图。

首先对模拟信号采样,经过采样将在时间轴上连续的声音信号变为在时间轴上离散信号,如图 a采样可以等间距,也可以不等间距。离散信号应经过量化处理变为数字信号。量化的实质是将离散信号的幅值与量化步幅的幅值进行比较,并对比较的结果以四舍五入的方法变换为整数值。量化后的整数值应以二进制的数代码化,进而用二进制的编码脉冲表示,如图 b 。由此完成了 PCM编码的全过程。

Page 35: 第三章 音频信息处理技术
Page 36: 第三章 音频信息处理技术

音频信息压缩编码技术主要是向基于波形音频信息压缩编码技术主要是向基于波形和基于参数两个方向发展的。音频信息编和基于参数两个方向发展的。音频信息编码技术可以分为三类:码技术可以分为三类:

1.1. 波形编码 增量编码(波形编码 增量编码( DMDM ) 自适应插分脉冲编) 自适应插分脉冲编码(码( ADPCMADPCM ) 子带编码() 子带编码( SBCSBC ) 矢量量化) 矢量量化(( VQVQ ))

2.2. 参数编码 例:声码器参数编码 例:声码器3.3. 混合编码混合编码

Page 37: 第三章 音频信息处理技术

增量调制原理增量调制原理 增量调制又称为 DM(Delta Modulation)

调制,它是声音压缩的一种最简单的编码方式。

PCM 调制是以一定的码长直接对声音信号的采样值进行编码的。增量调制是以一位码长对相邻两个采样值间的差值进行调制的编码方式。

Page 38: 第三章 音频信息处理技术

设当前的信号为 Sn ,根据以往信号对前一时刻的预测信号为 Sn - 1, 实际信号与预测信号间的误差信号为:

en=Sn-Sn-1 ( 1 ) 增量调制中的预测信号为:

Sn = Sn-1+△ ( 2 ) 式中△为增量,增量的大小在调制过程中是不

变的,但符号的正负是变化的,这种变化应使预测信号更好地接近实际信号。

Page 39: 第三章 音频信息处理技术

这里为了说明增量调制的过程,设声音这里为了说明增量调制的过程,设声音信号的采样序列为信号的采样序列为 44 、、 55 、、 11 、、 00 、、 33 ,,增量的幅值△=增量的幅值△= 22 ,这种情况下增量调制,这种情况下增量调制的过程如表所示。整个调制过程按照的过程如表所示。整个调制过程按照 (1)(1) 、、(2)(2) 式给定的算法进行。 式给定的算法进行。

Page 40: 第三章 音频信息处理技术
Page 41: 第三章 音频信息处理技术

对应于信号的采样序列对应于信号的采样序列 44 、、 55 、、 11 、、 00 、、 33 、……经、……经增量调制后,相应的码字序列为增量调制后,相应的码字序列为 11 、、 11 、、 00 、、 00 、、 11 、…、……。增量调制的信号波形如图所示。…。增量调制的信号波形如图所示。

Page 42: 第三章 音频信息处理技术

粒状噪声和超载噪声 粒状噪声和超载噪声 粒状噪声和超载噪声的波形图

Page 43: 第三章 音频信息处理技术

增量噪声是以一种码字表示增量的正负而实现增量噪声是以一种码字表示增量的正负而实现压缩编码的。在声音信号的变化比增量的幅度小压缩编码的。在声音信号的变化比增量的幅度小时,虽然此时的声音几乎是不变的,但增量调制时,虽然此时的声音几乎是不变的,但增量调制的码字序列任为的码字序列任为 11 、、 00 相间的变化。当这种相间的变化。当这种 11 、、00 反复变化的脉冲序列经解码还原成原信号时,反复变化的脉冲序列经解码还原成原信号时,将产生粒状噪声。将产生粒状噪声。为了减少粒状噪声,应减小增为了减少粒状噪声,应减小增量的幅值量的幅值。。现在我们再来看看何为超载噪声。现在我们再来看看何为超载噪声。增增量调制时,增量△的幅值是固定的,当声音信号量调制时,增量△的幅值是固定的,当声音信号的变化较大时,预测信号将跟不上这样的变化,的变化较大时,预测信号将跟不上这样的变化,从而产生预测信号对声音信号的滞后,由此产生从而产生预测信号对声音信号的滞后,由此产生的噪声为超载噪声的噪声为超载噪声。。为了减少超载噪声为了减少超载噪声,使预测,使预测信号能跟上声音信号的变化,信号能跟上声音信号的变化,应增大增量的幅值应增大增量的幅值,,这与减少粒状噪声又是矛盾的。 这与减少粒状噪声又是矛盾的。

Page 44: 第三章 音频信息处理技术

一般而言,人们对超载噪声不甚敏感,一般而言,人们对超载噪声不甚敏感,而粒状噪声对音质的影响较大。为此,应而粒状噪声对音质的影响较大。为此,应减小增量的幅值。但增量的幅值过小必将减小增量的幅值。但增量的幅值过小必将使超载噪声增加。为了减小超载噪声,可使超载噪声增加。为了减小超载噪声,可适当提高采样频率;但采样频率的提高又适当提高采样频率;但采样频率的提高又会影响数据压缩的效果。所以增量调制应会影响数据压缩的效果。所以增量调制应慎重考虑选择采样频率和增量的幅值。慎重考虑选择采样频率和增量的幅值。

Page 45: 第三章 音频信息处理技术

增量调制中增量的幅值是固定的。若幅值增量调制中增量的幅值是固定的。若幅值选得过大,粒状噪声过大;若选得过小,选得过大,粒状噪声过大;若选得过小,超载噪声增加,这给增量的幅度选择带来超载噪声增加,这给增量的幅度选择带来了一定的困难。为了解决这一问题,可让了一定的困难。为了解决这一问题,可让增量的幅值在调制的过程中随着声音信号增量的幅值在调制的过程中随着声音信号的变化自动地进行调制、变化,这就是自的变化自动地进行调制、变化,这就是自适应调制适应调制 ADM(Adaptive Delta ModulatioADM(Adaptive Delta Modulation)n) 。。

Page 46: 第三章 音频信息处理技术

ADMADM 调制的基本原理是:在声音信号变化调制的基本原理是:在声音信号变化不大的情况下,取较小的增量幅值以抑制不大的情况下,取较小的增量幅值以抑制粒状噪声。在声音信号变化较大的情况下,粒状噪声。在声音信号变化较大的情况下,预测信号跟不上声音信号的变化,应采取预测信号跟不上声音信号的变化,应采取一定的算法增加增量的幅值,以此抑制超一定的算法增加增量的幅值,以此抑制超载噪声。调制过程中,增量的幅值随声音载噪声。调制过程中,增量的幅值随声音信号的变化自适应地变化。信号的变化自适应地变化。

Page 47: 第三章 音频信息处理技术

ADMADM 调制虽然能较好地克服超载噪声,解调制虽然能较好地克服超载噪声,解决粒状噪声和超载噪声的矛盾,但在声音决粒状噪声和超载噪声的矛盾,但在声音信号从高速变化转向平坦处时,容易出现信号从高速变化转向平坦处时,容易出现由于增量幅值过大而产生的噪声。由于增量幅值过大而产生的噪声。

Page 48: 第三章 音频信息处理技术

自适应差分脉冲编码调制自适应差分脉冲编码调制(( ADPCADPCMM ))

自适应脉冲编码调制 (adaptive pulse code modulation , APCM) 是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。

Page 49: 第三章 音频信息处理技术

改变量化阶大小的方法有两种:一种称为前向自改变量化阶大小的方法有两种:一种称为前向自适应适应 (forward adaptation)(forward adaptation) ,另一种称为后向自,另一种称为后向自适应适应 (backward adaptation)(backward adaptation) 。前者是根据未量。前者是根据未量化的样本值的均方根值来估算输入信号的电平,化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码以此来确定量化阶的大小,并对其电平进行编码作为边信息作为边信息 (side information)(side information)传送到接收端。传送到接收端。后者是从量化器刚输出的过去样本中来提取量化后者是从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成阶信息。由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。前向自适应量化阶,所以它不需要传送边信息。前向自适应和后向自适应和后向自适应 APCMAPCM 的基本概念,如图所示。 的基本概念,如图所示。

Page 50: 第三章 音频信息处理技术

前向自适应前向自适应

Page 51: 第三章 音频信息处理技术

后向自适应后向自适应

Page 52: 第三章 音频信息处理技术

差分脉冲编码调制差分脉冲编码调制 (DPCM)(DPCM) 的概念 的概念

差分脉冲编码调制 DPCM(differential pulse code modulation) 是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是,根据过去的样本去估算 (estimate) 下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。它与脉冲编码调制 (PCM) 不同的是, PCM 是直接对采样信号进行量化编码,而 DPCM是对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。此外,它还能适应大范围变化的输入信号。

Page 53: 第三章 音频信息处理技术

ADPCM(adaptive difference pulse code modulADPCM(adaptive difference pulse code modulation)ation)综合了综合了 APCMAPCM 的自适应特性和的自适应特性和 DPCMDPCM系统系统的差分特性,是一种性能比较好的波形编码。它的差分特性,是一种性能比较好的波形编码。它的核心想法是:①利用自适应的思想改变量化阶的核心想法是:①利用自适应的思想改变量化阶的大小,即使用小的量化阶的大小,即使用小的量化阶 (step-size)(step-size)去编码小去编码小的差值,使用大的量化阶去编码大的差值的差值,使用大的量化阶去编码大的差值 ,②,②使使用过去的样本值估算下一个输入样本的预测值,用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。它使实际样本值和预测值之间的差值总是最小。它的编码简化框图如图所示。接收端的译码器使用的编码简化框图如图所示。接收端的译码器使用与发送端相同的算法,利用传送来的信号来确定与发送端相同的算法,利用传送来的信号来确定量化器和逆量化器中的量化阶大小,并且用它来量化器和逆量化器中的量化阶大小,并且用它来预测下一个接收信号的预测值。 预测下一个接收信号的预测值。

Page 54: 第三章 音频信息处理技术

ADPCMADPCM 原理示意图原理示意图

Page 55: 第三章 音频信息处理技术

子带编码子带编码(( SBCSBC ,, Sunband CodingSunband Coding))

利用了人耳的听觉贡献与信号频率的利用了人耳的听觉贡献与信号频率的关系关系

人耳对人耳对 1kHz1kHz 附近的频率敏感附近的频率敏感 多数人的语音能量集中在频率多数人的语音能量集中在频率 500Hz500Hz到到 1kHz1kHz 内,并随频率的升高而很快衰内,并随频率的升高而很快衰减减

Page 56: 第三章 音频信息处理技术

子带编码(子带编码( SBCSBC ,, Sunband CodingSunband Coding))是一种在频率域中进行数据压缩的方法。是一种在频率域中进行数据压缩的方法。在子带编码中,首先用一组带通滤波器将在子带编码中,首先用一组带通滤波器将输入信号分成若干个在不同频段上的子带输入信号分成若干个在不同频段上的子带信号,然后将这些子带信号经过频率搬移信号,然后将这些子带信号经过频率搬移转变成基带信号,再对它们在奈奎斯特速转变成基带信号,再对它们在奈奎斯特速率上分别重新取样。取样后的信号经过量率上分别重新取样。取样后的信号经过量化编码,并合并成一个总的码流传送给接化编码,并合并成一个总的码流传送给接收端,如图所示 收端,如图所示

Page 57: 第三章 音频信息处理技术
Page 58: 第三章 音频信息处理技术

在接收端,首先把码流分成与原来的各子在接收端,首先把码流分成与原来的各子带信号相对应的子带码流,然后解码、将带信号相对应的子带码流,然后解码、将频谱搬移至原来的位置,最后经带通滤波、频谱搬移至原来的位置,最后经带通滤波、相加,得到重建的信号。 相加,得到重建的信号。

Page 59: 第三章 音频信息处理技术

对每个子带分别编码的好处是:对每个子带分别编码的好处是: (( 11 )可以利用人耳(或人眼)对不同)可以利用人耳(或人眼)对不同频率信号的感知灵敏度不同的特性,在人频率信号的感知灵敏度不同的特性,在人的听觉(或视觉)不敏感的频段采用较粗的听觉(或视觉)不敏感的频段采用较粗糙的量化,从而达到数据压缩的目的。例糙的量化,从而达到数据压缩的目的。例如,在声音低频子带中,为了保护音调和如,在声音低频子带中,为了保护音调和共振峰的结构,就要求用较小的量化阶、共振峰的结构,就要求用较小的量化阶、较多的量化级数,即分配较多的比特数来较多的量化级数,即分配较多的比特数来表示样本值。而话音中的摩擦音和类似噪表示样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,对它声的声音,通常出现在高频子带中,对它分配较少的比特数。分配较少的比特数。

Page 60: 第三章 音频信息处理技术

(( 22 )各个子带的量化噪声都束缚在本)各个子带的量化噪声都束缚在本子带内,这就可以避免能量较小的频带内子带内,这就可以避免能量较小的频带内的信号被其他频带中量化噪声所掩盖。 的信号被其他频带中量化噪声所掩盖。

(( 33 )通过频带分裂,各个子带的取样)通过频带分裂,各个子带的取样频率可以成倍下降。例如,若分成频谱面频率可以成倍下降。例如,若分成频谱面积相同的积相同的 NN 个子带,则每个子带的取样频个子带,则每个子带的取样频率可以降为原始信号取样频率的率可以降为原始信号取样频率的 1/N1/N ,因,因而可以减少硬件实现的难度,并便于并行而可以减少硬件实现的难度,并便于并行处理。处理。

Page 61: 第三章 音频信息处理技术

例:音频频带的分割可以用树型结构的式样例:音频频带的分割可以用树型结构的式样进行划分。首先把整个音频信号带宽分成两进行划分。首先把整个音频信号带宽分成两个相等带宽的子带:高频子带和低频子带。个相等带宽的子带:高频子带和低频子带。然后对这两个子带用同样的方法划分,形成然后对这两个子带用同样的方法划分,形成44 个子带。这个过程可按需要重复下去,以个子带。这个过程可按需要重复下去,以产生产生 2K2K个子带,个子带, KK为分割的次数。用这种为分割的次数。用这种办法可以产生等带宽的子带,也可以生成不办法可以产生等带宽的子带,也可以生成不等带宽的子带。例如,对带宽为等带宽的子带。例如,对带宽为 4000Hz4000Hz 的的音频信号,当音频信号,当 K=3K=3 时,可分为时,可分为 88个相等带个相等带宽的子带,每个子带的带宽为宽的子带,每个子带的带宽为 500Hz500Hz 。也。也可生成可生成 55 个不等带宽的子带,分别为[个不等带宽的子带,分别为[ 0,500,500),0),[[ 500,1000),500,1000),[[ 1000,2000),1000,2000),[[ 2000,32000,3000)000) 和[和[ 30003000 ,, 40004000]。 ]。

Page 62: 第三章 音频信息处理技术

把音频信号分割成相邻的子带分量之后,把音频信号分割成相邻的子带分量之后,用用 22倍于子带带宽的采样频率对子带信号倍于子带带宽的采样频率对子带信号进行采样,就可以用它的样本值重构出原进行采样,就可以用它的样本值重构出原来的子带信号。例如,把来的子带信号。例如,把 4000Hz4000Hz 带宽分成带宽分成44 个等带宽子带时,子带带宽为个等带宽子带时,子带带宽为 1000Hz1000Hz ,,采样频率可用采样频率可用 2000Hz2000Hz ,它的总采样率仍然,它的总采样率仍然是是 8000Hz8000Hz 。 。

Page 63: 第三章 音频信息处理技术

问题:问题: 由于分割频带所用的滤波器不是理由于分割频带所用的滤波器不是理想的滤波器,经过分带、编码、译码想的滤波器,经过分带、编码、译码后合成的输出音频信号会有混迭效应。后合成的输出音频信号会有混迭效应。

Page 64: 第三章 音频信息处理技术

解决方案:解决方案: 采用正交镜象滤波器(采用正交镜象滤波器( QMFQMF ,, qquauandrature ndrature mmirror irror ffilterilter )来划分频)来划分频带,在最后合成时可以抵消混迭效应带,在最后合成时可以抵消混迭效应

Page 65: 第三章 音频信息处理技术

表示用正交镜象滤波器分割频带的子带编表示用正交镜象滤波器分割频带的子带编译码简化框图如图。图中,用译码简化框图如图。图中,用 QMFQMF 把全带把全带音频信号分割成两个等带宽子带。音频信号分割成两个等带宽子带。 hHhH((nn))和和 hLhL((nn)) 分别表示高通滤波器和低通滤波器,分别表示高通滤波器和低通滤波器,它们组成一对正交镜象滤波器。这两个滤它们组成一对正交镜象滤波器。这两个滤波器也叫做分析滤波器。波器也叫做分析滤波器。

Page 66: 第三章 音频信息处理技术
Page 67: 第三章 音频信息处理技术

在中等速率的编码系统中,在中等速率的编码系统中, SBCSBC 的动态范的动态范围宽、音质高、成本低。使用子带编码技围宽、音质高、成本低。使用子带编码技术的编译码器已开始用于话音存储转发术的编译码器已开始用于话音存储转发 (vo(voice store-and-forward)ice store-and-forward) 和话音邮件,采用和话音邮件,采用22 个子带和个子带和 ADPCMADPCM 的编码系统也已由的编码系统也已由 CCICCITTTT 作为作为 G.722G.722标准向全世界推荐使用。 标准向全世界推荐使用。

Page 68: 第三章 音频信息处理技术

矢量量化编码矢量量化编码(( Vector QuantizationVector Quantization ))

矢量量化编码也是在图像、语音信号编码矢量量化编码也是在图像、语音信号编码技术中研究得较多的新型量化编码方法,技术中研究得较多的新型量化编码方法,它的出现并不仅仅是作为量化器设计而提它的出现并不仅仅是作为量化器设计而提出的,更多的是将它作为压缩编码方法来出的,更多的是将它作为压缩编码方法来研究的。在矢量量化编码中,把输入数据研究的。在矢量量化编码中,把输入数据几个一组地分成许多组,成组地量化编码,几个一组地分成许多组,成组地量化编码,即将这些数看成一个即将这些数看成一个 kk 维矢量,然后以矢维矢量,然后以矢量为单位逐个矢量进行量化。矢量量化是量为单位逐个矢量进行量化。矢量量化是一种限失真编码。 一种限失真编码。

Page 69: 第三章 音频信息处理技术

矢量量化编码及解码原理图矢量量化编码及解码原理图

Page 70: 第三章 音频信息处理技术

图中输入信号是一个图中输入信号是一个 kk 维矢量,该矢量原维矢量,该矢量原则上既可以是原始图像,也可以是图像的则上既可以是原始图像,也可以是图像的预测误差或变换矩阵系数的分块(或称分预测误差或变换矩阵系数的分块(或称分组)。码本组)。码本 CC 是一个是一个 kk 维矢量的集合,即维矢量的集合,即C = {Yi}, i=1,2,…,NC = {Yi}, i=1,2,…,N ,它实际上是一个长度,它实际上是一个长度为为 NN 的表,每个表的每个分量是一个的表,每个表的每个分量是一个 kk 维维矢量,称为码字。矢量,称为码字。矢量编码的过程就是在矢量编码的过程就是在码本码本 CC 中搜索一个与输入矢量最接近的码中搜索一个与输入矢量最接近的码字。字。

Page 71: 第三章 音频信息处理技术

衡量两个矢量之间接近程度的度量标准可衡量两个矢量之间接近程度的度量标准可以用均方误差准则:以用均方误差准则:

也可以用其他准则,如: 也可以用其他准则,如:

Page 72: 第三章 音频信息处理技术

传输时,只需传输码字传输时,只需传输码字 YiYi 的下标 的下标 i. i. 在接收在接收端解码器中,有一个与发送端相同的码本端解码器中,有一个与发送端相同的码本 CC ,,根据下标 根据下标 ii 可简单地用查表法找到可简单地用查表法找到 YiYi 作为作为对应对应 XX 的近似。 的近似。

当码本长度为当码本长度为 NN 时,为传输矢量下标所需时,为传输矢量下标所需的比特数为的比特数为 loglog22NN ,平均传输每个像素所,平均传输每个像素所需的比特数为(需的比特数为( 1/k1/k)) loglog22NN 。若。若 k=16k=16,,N=256N=256,则比特率为,则比特率为 0.5bit/pixel.0.5bit/pixel.

Page 73: 第三章 音频信息处理技术

关键技术:关键技术: 码本的建立和码字搜索算法码本的建立和码字搜索算法 码本的生成算法有两种类型,一种是已码本的生成算法有两种类型,一种是已知信源分布特性的设计算法;另一种是未知信源分布特性的设计算法;另一种是未知信源分布,但已知信源的一列具有代表知信源分布,但已知信源的一列具有代表性且足够长的样点集合(即训练序列)的性且足够长的样点集合(即训练序列)的设计算法。可以证明,当信源是矢量平衡设计算法。可以证明,当信源是矢量平衡且遍历时,若训练序列充分长则两种算法且遍历时,若训练序列充分长则两种算法是等价的。 是等价的。

Page 74: 第三章 音频信息处理技术

码字搜索是矢量量化中的一个最基本问题,码字搜索是矢量量化中的一个最基本问题,矢量量化过程本身实际上就是一个搜索过矢量量化过程本身实际上就是一个搜索过程,即搜索出与输入最为匹配的码矢。程,即搜索出与输入最为匹配的码矢。

矢量量化中最常用的搜索方法是全搜索算矢量量化中最常用的搜索方法是全搜索算法和树搜索算法。法和树搜索算法。

全搜索算法与码本生成算法是基本相同的,全搜索算法与码本生成算法是基本相同的,在给定速率下其复杂度随矢量维数在给定速率下其复杂度随矢量维数 KK以指以指数形式增长,全搜索矢量量化器性能好但数形式增长,全搜索矢量量化器性能好但设备较复杂。 设备较复杂。

Page 75: 第三章 音频信息处理技术

树搜索算法又有二叉树和多叉树之分,它树搜索算法又有二叉树和多叉树之分,它们的原理是相同的,但后者的计算量和存们的原理是相同的,但后者的计算量和存储量都比前者大,性能比前者好。树搜索储量都比前者大,性能比前者好。树搜索的过程是逐步求近似的过程,中间的码字的过程是逐步求近似的过程,中间的码字是起指引路线的作用,其复杂度比全搜索是起指引路线的作用,其复杂度比全搜索算法显著减少,搜索速度较快。由于树搜算法显著减少,搜索速度较快。由于树搜索并不是从整个码本中寻找最小失真的码索并不是从整个码本中寻找最小失真的码字,因此它的量化器并不是最佳的,其量字,因此它的量化器并不是最佳的,其量化信噪比低于全搜索。 化信噪比低于全搜索。

Page 76: 第三章 音频信息处理技术

语音压缩编码标准语音压缩编码标准

Page 77: 第三章 音频信息处理技术
Page 78: 第三章 音频信息处理技术

变换域编码变换域编码一.变换的基本原理一.变换的基本原理 变换编码是指先对信号进行某种函数变换,从变换编码是指先对信号进行某种函数变换,从

一种信号(空间)变换到另一种(空间),然后一种信号(空间)变换到另一种(空间),然后再对信号进行编码。如将时域信号变换到频域,再对信号进行编码。如将时域信号变换到频域,因为声音、图像大部分信号都是低频信号,在频因为声音、图像大部分信号都是低频信号,在频域中信号的能量较集中,再进行采样、编码,那域中信号的能量较集中,再进行采样、编码,那么可以肯定能够压缩数据。 么可以肯定能够压缩数据。

变换编码系统中压缩数据有变换、变换域采样变换编码系统中压缩数据有变换、变换域采样和量化三个步骤。变换本身并不进行数据压缩,和量化三个步骤。变换本身并不进行数据压缩,它只把信号映射到另一个域,使信号在变换域里它只把信号映射到另一个域,使信号在变换域里容易进行压缩,变换后的样值更独立和有序。这容易进行压缩,变换后的样值更独立和有序。这样,量化操作通过比特分配可以有效地压缩数据。样,量化操作通过比特分配可以有效地压缩数据。

Page 79: 第三章 音频信息处理技术

在变换编码系统中,用于量化一组变换样值的在变换编码系统中,用于量化一组变换样值的比特总数是固定的,它总是小于对所有变换样值比特总数是固定的,它总是小于对所有变换样值用固定长度均匀量化进行编码所需的总数,所以用固定长度均匀量化进行编码所需的总数,所以量化使数据得到压缩,是变换编码中不可缺少的量化使数据得到压缩,是变换编码中不可缺少的一步。在对量化后的变换样值进行比特分配时,一步。在对量化后的变换样值进行比特分配时,要考虑使整个量化失真最小。 要考虑使整个量化失真最小。

变换编码是一种间接编码方法。它是将原始信变换编码是一种间接编码方法。它是将原始信号经过数学上的正交变换后,得到一系列的变换号经过数学上的正交变换后,得到一系列的变换系数,再对这些系数进行量化、编码、传输。下系数,再对这些系数进行量化、编码、传输。下图是变换编码系统方框图。图是变换编码系统方框图。

Page 80: 第三章 音频信息处理技术

图中接收端输出信号与输入信号的误差图中接收端输出信号与输入信号的误差是因为输入端采用量化器的量化误差所致。是因为输入端采用量化器的量化误差所致。当经过正交变换后的协方差矩阵为一对角当经过正交变换后的协方差矩阵为一对角矩阵,且具有最小均方误差时,该变换称矩阵,且具有最小均方误差时,该变换称为最佳变换,也称为最佳变换,也称 Karhunen-LoeveKarhunen-Loeve 变换变换(( K-LK-L 变换)。变换)。如果变换后的协方差矩阵如果变换后的协方差矩阵接近对角矩阵,该类变换称为接近对角矩阵,该类变换称为准最佳变换,准最佳变换,典型的有典型的有 DCTDCT (离散余弦变换)、(离散余弦变换)、 DFTDFT(离散傅立叶变换)、(离散傅立叶变换)、 WHTWHT 等。等。

Page 81: 第三章 音频信息处理技术

二.二. K-LK-L 变换变换 K-LK-L 变换( 变换( Karhunen-Loeve TransformKarhunen-Loeve Transform ))

是建立在统计特性基础上的一种变换,有的文献是建立在统计特性基础上的一种变换,有的文献也称为霍特林(也称为霍特林( HotellingHotelling)变换,因他在)变换,因他在 19319333年最先给出将离散信号变换成一串不相关系数年最先给出将离散信号变换成一串不相关系数的方法。的方法。 K-LK-L 变换的突出优点是相关性好,是均变换的突出优点是相关性好,是均方误差(方误差( MSEMSE,, Mean Square ErrorMean Square Error )意义下)意义下的最佳变换,它在数据压缩技术中占有重要地位。的最佳变换,它在数据压缩技术中占有重要地位。

Page 82: 第三章 音频信息处理技术

假定一幅假定一幅 N x NN x N 的数字图像通过某一信的数字图像通过某一信号通道传输号通道传输 MM 次,由于受随机噪音干扰和次,由于受随机噪音干扰和环境条件影响,接收到的图像实际上是一环境条件影响,接收到的图像实际上是一个受干扰的数字图像集合 个受干扰的数字图像集合

对第对第 ii 次获得的图像 次获得的图像 ffii(x,y) (x,y) ,可用一个,可用一个含 含 N2 N2 个元素的向量 个元素的向量 XXii 表示,即 表示,即

Page 83: 第三章 音频信息处理技术

该向量的第一组分量(该向量的第一组分量( NN 个元素)由图个元素)由图像像 ffii(x,y) (x,y) 的第一行像素组成,向量的第二的第一行像素组成,向量的第二组分量由图像 组分量由图像 ff i i(x,y) (x,y) 的第二行像素组成,的第二行像素组成,依此类推。也可以按列的方式形成这种向依此类推。也可以按列的方式形成这种向量,方法类似。量,方法类似。 XX 向量的协方差矩阵定义向量的协方差矩阵定义为: 为:

mmff 定义为 定义为

C C f f 和 和 mmf f 的表达式中,“ 的表达式中,“ E ”E ” 是求期望。 是求期望。

Page 84: 第三章 音频信息处理技术

对于对于 MM 幅数字图像,平均值向量 幅数字图像,平均值向量 mm ff 和协方和协方差矩阵 差矩阵 CC f f可由下述方法近似求得:可由下述方法近似求得:

可以看出, 可以看出, m m ff 是 是 N2 N2 个元素的向量, 个元素的向量, CC f f 是 是 NN2 x N2 2 x N2 的方阵。 的方阵。

Page 85: 第三章 音频信息处理技术

根据线性代数理论,可以求出协方差矩根据线性代数理论,可以求出协方差矩阵的 阵的 N2 N2 个特征向量和对应的特征值。 个特征向量和对应的特征值。

则则 K-LK-L 变换矩阵变换矩阵 AA 定义为: 定义为:

Page 86: 第三章 音频信息处理技术

从而可得从而可得 K-LK-L 变换的变换表达式为: 变换的变换表达式为: 该变换式可理解为,由中心化图像向量 该变换式可理解为,由中心化图像向量 X X --mmx x 与变换矩阵与变换矩阵 AA 相乘即得到变换后相乘即得到变换后的图像向量的图像向量 YY 。。 YY 的组成方式与向量的组成方式与向量 XX 相相同。同。

Page 87: 第三章 音频信息处理技术

K-LK-L变换虽然变换虽然具有具有 MSEMSE意义下的最佳性能意义下的最佳性能,但,但需要先知道信源的协方差矩阵并求出特征值。求需要先知道信源的协方差矩阵并求出特征值。求特征值与特征向量并不是一件容易的事,维数较特征值与特征向量并不是一件容易的事,维数较高时甚至求不出来。即使能借助计算机求解,也高时甚至求不出来。即使能借助计算机求解,也很难满足实时处理的要求,而且从编码应用看还很难满足实时处理的要求,而且从编码应用看还需要将这些信息传输给接收端。这些因素造成了需要将这些信息传输给接收端。这些因素造成了K-LK-L变换在工程实践中不能广泛使用。人们一方变换在工程实践中不能广泛使用。人们一方面继续寻求解特征值与特征向量的快速算法,另面继续寻求解特征值与特征向量的快速算法,另一方面则寻找一些虽不是“最佳”、但也有较好一方面则寻找一些虽不是“最佳”、但也有较好的去相关与能量集中的性能且容易实现的一些变的去相关与能量集中的性能且容易实现的一些变换方法。而换方法。而 K-LK-L变换就常常作为对这些变换性能变换就常常作为对这些变换性能的评价标准的评价标准。 。

Page 88: 第三章 音频信息处理技术

三.离散傅立叶变换三.离散傅立叶变换 给定由给定由 NN 个信号样本(均匀间隔)个信号样本(均匀间隔) {x{x

(0),x(1),…,x(n-1)}(0),x(1),…,x(n-1)} 组成的信号序列,离散组成的信号序列,离散傅立叶变换(傅立叶变换( DFTDFT,, Discrete Fourier TraDiscrete Fourier Transformnsform)可用下式给出:)可用下式给出:

DFTDFT的反变换可表示为:的反变换可表示为:

Page 89: 第三章 音频信息处理技术

给定一个二维信号的样本序列给定一个二维信号的样本序列 {x(k,l), k={x(k,l), k=0,1,…, N-1, l=0,1,…,N-1}0,1,…, N-1, l=0,1,…,N-1},二维离散傅立,二维离散傅立叶变换(叶变换( 2D-DFT2D-DFT)可用下式给出: )可用下式给出:

2D-DFT2D-DFT的反变换可表示为: 的反变换可表示为:

Page 90: 第三章 音频信息处理技术

傅立叶变换有很多有用的性质。其中一傅立叶变换有很多有用的性质。其中一个,即时个,即时 -- 空域与频域的映射关系。已经发空域与频域的映射关系。已经发展了一套快速傅立叶变换(展了一套快速傅立叶变换( FFTFFT,, Fast FoFast Fourier Transformurier Transform )的计算机算法,促进了)的计算机算法,促进了它在信号处理中的应用,特别是在语音处它在信号处理中的应用,特别是在语音处理中的应用。在图像处理中,研究表明,理中的应用。在图像处理中,研究表明,离散余弦变换(离散余弦变换( DCTDCT ,, Discrete Cosine trDiscrete Cosine transformansform)效果比)效果比 DFTDFT好些,因此更多地好些,因此更多地应用应用 DCTDCT 。 。

Page 91: 第三章 音频信息处理技术
Page 92: 第三章 音频信息处理技术
Page 93: 第三章 音频信息处理技术
Page 94: 第三章 音频信息处理技术

长期以来,傅立叶分析一直被认为是最完美的长期以来,傅立叶分析一直被认为是最完美的数学理论和最实用的方法之一。但是数学理论和最实用的方法之一。但是用傅立叶分用傅立叶分析只能获得信号的整个频谱析只能获得信号的整个频谱,而难以获得信号的,而难以获得信号的局部特性,特别是对于突变信号和非平稳信号难局部特性,特别是对于突变信号和非平稳信号难以获得希望的结果。 以获得希望的结果。

为了克服经典傅立叶分析本身的弱点,人们发为了克服经典傅立叶分析本身的弱点,人们发展了信号的时频分析法,展了信号的时频分析法, 19461946年年 GaborGabor 提出的提出的加窗傅立叶变换就是其中的一种,但是加窗傅立加窗傅立叶变换就是其中的一种,但是加窗傅立叶变换还没有从根本上解决傅立叶分析的固有问叶变换还没有从根本上解决傅立叶分析的固有问题。小波变换的诞生,正是为了克服经典傅立叶题。小波变换的诞生,正是为了克服经典傅立叶分析本身的不足。分析本身的不足。

Page 95: 第三章 音频信息处理技术

图像数据经正交变换后,其变换系数具图像数据经正交变换后,其变换系数具有相互独立的性质。以二维傅立叶变换来有相互独立的性质。以二维傅立叶变换来说,频谱幅值大的变换系数均集中在低频说,频谱幅值大的变换系数均集中在低频部分,这几乎占了图像信息的部分,这几乎占了图像信息的 90%90% ,而高,而高频部分的幅值均很小或趋于零。因而,我频部分的幅值均很小或趋于零。因而,我们完全可以仅对低频的变换系数采用量化、们完全可以仅对低频的变换系数采用量化、编码、传输,而高频部分既不编码,也不编码、传输,而高频部分既不编码,也不传输,达到图像数据压缩的目的。早期的传输,达到图像数据压缩的目的。早期的图像变换编码就是采用傅立叶变换编码进图像变换编码就是采用傅立叶变换编码进行的,由于它有快速算法容易在硬件中实行的,由于它有快速算法容易在硬件中实现,所以获得在一定范围内应用。 现,所以获得在一定范围内应用。

Page 96: 第三章 音频信息处理技术

从数学角度看,可以提供许多正交变换方法来从数学角度看,可以提供许多正交变换方法来应用于图像的压缩编码。除傅立叶变换、应用于图像的压缩编码。除傅立叶变换、 Walsh-Walsh-HadmardHadmard 变换外,还有正弦变换、余弦变换、斜变换外,还有正弦变换、余弦变换、斜变换、哈尔变换、变换、哈尔变换、 K-LK-L变换等。不同的变换会有变换等。不同的变换会有不同的压缩效果(压缩比和重建的图像品质)。不同的压缩效果(压缩比和重建的图像品质)。以傅立叶编码为例,高频信息去除得越多,越有以傅立叶编码为例,高频信息去除得越多,越有可能获得大的压缩比,但同时却降低了重建图像可能获得大的压缩比,但同时却降低了重建图像的分辨率。数学证明,采用均方差最小准则,的分辨率。数学证明,采用均方差最小准则, K-K-LL变换(即离散信号的变换(即离散信号的 HotellingHotelling变换)具有最佳变换)具有最佳变换性质,而且随子像块分割大小不同,误差大变换性质,而且随子像块分割大小不同,误差大小不同。小不同。

对几种变换进行比较后可以发现,余弦变换的对几种变换进行比较后可以发现,余弦变换的均方差最接近均方差最接近 K-LK-L变换,除傅立叶变换外,其他变换,除傅立叶变换外,其他几种变换,当子像块超过几种变换,当子像块超过 16x1616x16时,误差下降很时,误差下降很慢。大方块尺寸时,傅立叶变换趋向于慢。大方块尺寸时,傅立叶变换趋向于 K-LK-L变换。变换。正是这个原因,在目前所采用的变换编码方法中,正是这个原因,在目前所采用的变换编码方法中,余弦变换是应用最为广泛的一种。 余弦变换是应用最为广泛的一种。

Page 97: 第三章 音频信息处理技术

图像数据通过变换操作图像数据通过变换操作本身并不能降低本身并不能降低码率码率。然而,根据变换系数集中在低频区。然而,根据变换系数集中在低频区域的特点可以采用编码技术来压缩数据。域的特点可以采用编码技术来压缩数据。由于低频区集中在变换域的左上角,可对由于低频区集中在变换域的左上角,可对该区域的变换进行量化、编码、传输,对该区域的变换进行量化、编码、传输,对右下角区域既不编码又不传输即可达到压右下角区域既不编码又不传输即可达到压缩目的。这种编码方法就称为变换区域编缩目的。这种编码方法就称为变换区域编码。区域编码压缩比可达到码。区域编码压缩比可达到 5:15:1 ,缺点是由,缺点是由于高频分量被丢弃,使图像分辨率下降。 于高频分量被丢弃,使图像分辨率下降。

Page 98: 第三章 音频信息处理技术
Page 99: 第三章 音频信息处理技术
Page 100: 第三章 音频信息处理技术

MPEGMPEG

MPEGMPEG 的全名为的全名为 [Moving Pictures Exp[Moving Pictures Experts Group]erts Group] ,中文译名是动态图像专家组。,中文译名是动态图像专家组。MPEGMPEG 标准主要有以下五个,标准主要有以下五个, MPEG-1MPEG-1 、、MPEG-2MPEG-2 、、 MPEG-4MPEG-4 、、 MPEG-7MPEG-7 及及 MPEG-MPEG-2121 等。该专家组建于等。该专家组建于 19881988年,专门负责年,专门负责为为 CDCD建立建立视频视频和和音频音频标准,而成员都是为标准,而成员都是为视频、音频及系统领域的技术专家。视频、音频及系统领域的技术专家。

Page 101: 第三章 音频信息处理技术

MPEGMPEG音频简述音频简述 目前推出的目前推出的 MPEGMPEG 系列格式有系列格式有 MPEG-1MPEG-1 、、 MPEG-2MPEG-2 、、

MPEG-4MPEG-4 等,而在音频中主要使用等,而在音频中主要使用 MPEG-1MPEG-1 ,一般,一般将这些格式统称为将这些格式统称为 MPEGMPEG格式。 格式。 MPEGMPEG格式的音频格式的音频部分由部分由 Layer-1, Layer-2, Layer-3Layer-1, Layer-2, Layer-3 三层压缩模式组三层压缩模式组成。 成。

-- Layer-1 Layer-1 压缩比为 压缩比为 11 :: 4 4 立体声信号相当于立体声信号相当于 384384kbpskbps ; ;

-- Layer-2 Layer-2 压缩比为 压缩比为 11 :: 6 6 ~~ 11 :: 8 8 立体声信号立体声信号相当于相当于 256 ? 192Kbps256 ? 192Kbps ; ;

-- Layer-3 Layer-3 压缩比为 压缩比为 11 :: 1010~~ 11 :: 12 12 立体声信立体声信号相当于号相当于 128 - 112 Kbps128 - 112 Kbps。 。

在飞利浦开发的数字卡式录音带在飞利浦开发的数字卡式录音带 DDC(Digital ComDDC(Digital Compact Cassette)pact Cassette) 技术中,使用到了技术中,使用到了 Layer-1Layer-1 , 而开, 而开发发 PASCPASC 的压缩技术是 的压缩技术是 Layer-2Layer-2 。 。

Page 102: 第三章 音频信息处理技术

Layer-3Layer-3有望发展成为更为优秀的音有望发展成为更为优秀的音频压缩格式频压缩格式

MPEG-1Audio Layer-3 MPEG-1Audio Layer-3 是德国是德国 Fraunhofer IIFraunhofer IISS 音频研究所为了研究数字音频广播而开发的音频研究所为了研究数字音频广播而开发的方式。 方式。

根据根据频率不同频率不同将音频进行分解,并使用压缩的将音频进行分解,并使用压缩的方法巧妙地衍生出来的计算机文件格式。 方法巧妙地衍生出来的计算机文件格式。

当高音与低音同时传入人的耳朵时,低音会被当高音与低音同时传入人的耳朵时,低音会被高音所掩盖而无法听清楚。这种听觉效应就称高音所掩盖而无法听清楚。这种听觉效应就称之为听觉的遮蔽效应之为听觉的遮蔽效应 (Masking Effect)(Masking Effect) 。。 MPEMPEG-1Audio Layer-3G-1Audio Layer-3 (即(即 MP3MP3 )方式首先实现)方式首先实现了可收听了可收听 576576个细部的音频信号(原始信号分个细部的音频信号(原始信号分为为 3232层,每个部分进一步细分为层,每个部分进一步细分为 1818部分总部分总 557676个细部部分)的功能。 个细部部分)的功能。

Page 103: 第三章 音频信息处理技术

压缩音频文件是将音频文件按一定的方式压缩而成的文件,它可降低原有文件的存储空间,更加便于存储和传递。

mp3

MP3 即MPEG1 Layer 3 (Moving Picture Experts Group, Audio Layer III),是 Fraunhofer-IIS 研究所的研究成果。

由于使用了 MPEG1 Audio Layer 3 技术,可将音频文件以 1:10至 1:12 的压缩率进行压缩。这种技术主要是利用了知觉音频编码技术,削减了音乐中人耳所听不到的成分,尽可能保持原有的音质。

Page 104: 第三章 音频信息处理技术

表 5-3 MPEG1 Audio 音频文件压缩比率和播放媒体最低位率

Layer 大约压缩比率 播放媒体最低位率

1 1:4 348Kbit/s

2 1:6~1:8 256Kbit/s~192Kbit/s

3 1:10~1:12 128Kbit/s~112Kbit/s

MP3( Layer 3)编码是MPEG1 Audio音频压缩标准之一。

Page 105: 第三章 音频信息处理技术

MP3文件的特点是文件存储空间和音质损坏都较小。每分钟MP3格式的音乐文件大约占有 1MB左右,便于存储和网上传播。

标准的MP3压缩比是 10 : 1,也可以不同的比率进行压缩。压缩得越多,声音质量下降也将越多。

Page 106: 第三章 音频信息处理技术

mp3PRO 随着网络上收听声音和收看视频的需求不断增加,网络流媒体 Real和Windows Media 格式传播的媒体质量不断提高,特别是Microsoft推出的WMA格式可使相同内容的MP3文件缩小至原来的一半大小,极大地冲击着MP3格式在流行应用中的地位。

图 5-12 Thomson mp3PRO播放器

Page 107: 第三章 音频信息处理技术

mp3PRO的特点是降低了压缩比,并可以在 64KB/s速率下最大限度地保持压缩前的音质。音乐文件大小只有原MP3文件的 1/ 2 。同时,MP3Pro实现了高低版本的完全兼容,所以它的文件类型也是mp3。高版本的MP3Pro播放器也可以播放低版本的MP3文件,低版本的播放器也可以播放高版本的MP3Pro文件,但只能播放出mp3的音质。

Page 108: 第三章 音频信息处理技术

5.4.4 Real Media 格式

Real Media是网络流媒体文件格式。其中包含 RA、 RMA这两个音频文件类型是由Real Networks公司推出的,特点是可以在低达 28.8kbps的带宽下提供足够好的音质。 较成功的 Real Media播放器是 Real One Player,其界面如图 5-13所示。可以获得许多服务,包括录制音频、播放 CD或音频文件、管理文件、刻录 CD,并具有在网上搜索和播放流媒体、收听电台、收看节目频道等功能。

Page 109: 第三章 音频信息处理技术

图 5-13 Real One Player播放器

在网络传输过程中,流媒体是被分割处理的。首先要将原来的音频分割成多个带有顺序标记的小数据包,经过网络的实时传递后,在接收处将重新按顺序组织这些数据包以提供播放。

Page 110: 第三章 音频信息处理技术

Windows Media

Microsoft推出的Windows Media,也是一种网络流媒体技术。

Windows Media包含了Windows Media Audio & Video 编码和解码器、可选集成数字权限管理系统和文件容器。

其特点是高质量、高安全性、最全面的数字媒体格式。可用于 PC、机顶盒和便携式设备上的流式处理和下载并播放等应用程序。

Page 111: 第三章 音频信息处理技术

Windows Media使用高级的系统格式文件容器,支持高达 1700万TB的文件大小。在一个文件中可存储音频、多比特率视频、元数据(如文件的标题和作者)以及索引和脚本命令。

为了确保内容与兼容的播放机相关联,提供了多种不同的文件扩展名,如表 5-4所示。

Page 112: 第三章 音频信息处理技术

表 5-4 Windows Media 支持的文件扩展名

扩展名 说明

.wmv 基于 Windows Media 的文件,同时包含视频和音频

.wma 基于 Windows Media 的文件,只包含音频

.wvx 元文件,指向 Windows Media Video (.WMV) 文件

.wax 元文件,指向 Windows Media Audio (.WMA) 文件

.asf ASF 结构的文件,包含利用其它编解码器压缩的音频和 /或视频内容

.asx 元文件,指向 ASF 结构的文件 (.ASF)

.wms Windows Media 外观文件,与Windows Media Player 7或高版本兼容

.wmz 压缩的 Windows Media 文件,与 Windows Media Player 7 或更高版本兼容

.wmd Windows Media下载软件包,与 Windows Media Player 7 或更高版本兼容

Page 113: 第三章 音频信息处理技术

WMA用于包括利用 Windows Media Audio 编解码器压缩的音频的文件,WMV用于同时包括利用 Windows Media Audio 和 Windows Media Video 编解码器压缩的音频和视频的文件。利用其他编解码器压缩的内容应该存储在文件中,应使用 ASF扩展名。

Page 114: 第三章 音频信息处理技术

IPIP 电话技术电话技术 IP IP 电话的概念及市场前景电话的概念及市场前景     IPIP电话是建立于电话是建立于 InternetInternet 基础上的新型数字基础上的新型数字

化传输技术,是化传输技术,是 IPIP网上通过网上通过 TCPTCP// IPIP协议实现协议实现的一种电话应用。这种应用包括的一种电话应用。这种应用包括 PCPC 对对 PCPC 连接、连接、PCPC 对话机连接、话机对话机连接对话机连接、话机对话机连接,其业务主要有,其业务主要有InternetInternet或或 IntarnetIntarnet 上的语音业务、传真业务上的语音业务、传真业务(实时和存储/转发)、(实时和存储/转发)、 webweb 上实现的上实现的 IVRIVR(交(交互式语音应答)业务等等,另外还包括互式语音应答)业务等等,另外还包括 E-mailE-mail 、、实时电话、实时传真等多种实时电话、实时传真等多种通信通信业务。业务。

Page 115: 第三章 音频信息处理技术

IPIP (( InternetProtocoiInternetProtocoi )电话始于)电话始于 19951995年,最初的年,最初的 IPIP 电话技术,只是计算机对计电话技术,只是计算机对计算机的语音传输技术。双方用户都必须与算机的语音传输技术。双方用户都必须与因特网联网,还要具备一套因特网联网,还要具备一套 IPIP 电话软件、电话软件、音频卡、麦克风和扬声器等设置,因此虽音频卡、麦克风和扬声器等设置,因此虽然能通话,但范围很有限,还算不上是真然能通话,但范围很有限,还算不上是真正的正的 IPIP 电话。 电话。

Page 116: 第三章 音频信息处理技术

有真正意义的有真正意义的 IPIP电话出现在电话出现在 19961996年年 33月,当时月,当时一家美国公司推出了用因特网传送国际长途电话一家美国公司推出了用因特网传送国际长途电话的业务,实现了从普通电话机到普通电话机的的业务,实现了从普通电话机到普通电话机的 IPIP电话。目前,电话。目前, IPIP电话已经通过网关把因特网与传电话已经通过网关把因特网与传统电话网联系起来,用户可以和普通电话用户一统电话网联系起来,用户可以和普通电话用户一样,只要有电话机就能打因特网的国际长途电话,样,只要有电话机就能打因特网的国际长途电话,而通话费用远远低于国际长途电话的费用。目前而通话费用远远低于国际长途电话的费用。目前 IIPP电话从形式上可分为四种:电话从形式上可分为四种: PCmpCPCmpC 、电话一、电话一 PPCC -电话、电话一电话。-电话、电话一电话。

Page 117: 第三章 音频信息处理技术

IPIP电话的工作过程电话的工作过程 IPIP电话系统有四个基本组件:终端设备(电话系统有四个基本组件:终端设备( TermiTermi

nalnal )、网关()、网关( GatewayGateway)、多点接入控制单元)、多点接入控制单元MCUMCU(( Multipoint Control UnitMultipoint Control Unit )和网闸()和网闸( GatGatekeeperekeeper)。)。

(( 11 ) 终端设备是一个) 终端设备是一个 IPIP电话客户终端,可以是电话客户终端,可以是软件(如软件(如 VocalTecVocalTec公司的公司的 IP PhoneIP Phone 、、 MicrosofMicrosoftt公司的公司的 NetmeetingNetmeeting)或是硬件(如专用的)或是硬件(如专用的 InteInternet Phonernet Phone ),可以直接连接在),可以直接连接在 IPIP网上进行实网上进行实时的语音或多媒体通信。 时的语音或多媒体通信。

Page 118: 第三章 音频信息处理技术

(( 22 ) 网关是通过) 网关是通过 IPIP 网络提供网络提供 PC-to-PPC-to-Phonehone 、、 Phone-to-PCPhone-to-PC 、、 Phone-to-PPhone-to-Phonehone 语音通信的关键设备,是语音通信的关键设备,是 IPIP 网网络和络和 PSTN/ISDN/PBXPSTN/ISDN/PBX 网络之间的接网络之间的接口设备,应具有下列功能:口设备,应具有下列功能:

a a 具有具有 IPIP 网络接口和与网络接口和与 PSTN/ISDN/PPSTN/ISDN/PBXBX 交换机互联的接口;交换机互联的接口;

b b 完成实时语音压缩,将完成实时语音压缩,将 64kbit/s64kbit/s 的语的语音信号压缩成低码率语音信号;音信号压缩成低码率语音信号;

c c 完成寻址和呼叫控制。 完成寻址和呼叫控制。

Page 119: 第三章 音频信息处理技术

(( 33 ) 网闸负责用户注册和管理,主要) 网闸负责用户注册和管理,主要完成以下功能: 完成以下功能:        a a 地址映射:将电话网的地址映射:将电话网的 E.165E.165

地址映射成相应网关的地址映射成相应网关的 IPIP 地址; 地址;        b b 呼叫认证和管理:对接入用户呼叫认证和管理:对接入用户

的身份进行认证,访止非法用户的接的身份进行认证,访止非法用户的接入;入;       c c 呼叫记录:使得运营商有详细呼叫记录:使得运营商有详细

的数据进行收费; 的数据进行收费;        d d 区域管理:多个网关可以由一区域管理:多个网关可以由一

个网闸来进行管理。 个网闸来进行管理。

Page 120: 第三章 音频信息处理技术

(( 44 ) 多点接入控制单元() 多点接入控制单元( MCUMCU )的功能)的功能在于利用在于利用 IPIP 的网络实现多点通信,使得的网络实现多点通信,使得 IPIP电话能够支持诸如网络会议这样一些多点电话能够支持诸如网络会议这样一些多点应用。 应用。 IPIP 电话采用网关技术,网关的一边电话采用网关技术,网关的一边连接到传统的电路交换网,如连接到传统的电路交换网,如 PSTNPSTN ,可,可与外部的任意一台电话机通信;网关的另与外部的任意一台电话机通信;网关的另一边连接到包交换网,如一边连接到包交换网,如 InternetInternet 、、 IntraIntranetnet 、、 ExtranetExtranet 等。 等。

Page 121: 第三章 音频信息处理技术

电话网和因特网传送的区别电话网和因特网传送的区别

处理信号: 模拟语言信号 数字数据信号 处理信号: 模拟语言信号 数字数据信号 传输方式: 电路交换 分组交换 传输方式: 电路交换 分组交换 计费方式: 按通话次数、时间、距离计费 计费方式: 按通话次数、时间、距离计费 按期付费(如按月付费)、按接入速率 按期付费(如按月付费)、按接入速率 组织管理: 有成套的组织和管理 目前尚无 组织管理: 有成套的组织和管理 目前尚无

Page 122: 第三章 音频信息处理技术

电话网是为电话网是为电话通信电话通信而建设的,为了通而建设的,为了通电话建设了大量电话线路和无线信道,需要电话建设了大量电话线路和无线信道,需要一系列交换设备、传输设备和中继设备,以一系列交换设备、传输设备和中继设备,以及相应的运营维护组织和设施,因此电话通及相应的运营维护组织和设施,因此电话通信的的成本费用高。计费的方式是按打电话信的的成本费用高。计费的方式是按打电话的次数、通话距离的远近和通话时间的长短的次数、通话距离的远近和通话时间的长短计算的。因特网是计算机的互联网络,原本计算的。因特网是计算机的互联网络,原本是由国家资助而建立的学术性网络,联网使是由国家资助而建立的学术性网络,联网使用是免费的。用是免费的。 19951995年才过渡成为商业性质年才过渡成为商业性质的因特网,联网需要收费,但仍含有一些公的因特网,联网需要收费,但仍含有一些公益的性质,收费比较低。计费的方式是按期益的性质,收费比较低。计费的方式是按期(例如按月)、按接入速率收取费用的。 (例如按月)、按接入速率收取费用的。

Page 123: 第三章 音频信息处理技术

从传输技术来说,电话网是采用电路交换方式,即电话通信的电路一旦接通后,电话用户就占用了一个信道,无论用户是否在讲话,只要用户不挂断,信道就一直被占用着。一般情况下,通话双方总是一方在讲话,另一方在听,听的一方没有讲话也占用着信道,而且讲话过程中也总会有停顿的时间。因此用电路交换方式时线路利用率很低,至少有 50%以上的时间彼浪费掉。而因特网的信息传送是采用分组交换方式,所谓分组交换,是把数字化的信息,按一定的长度“分组”、打“包”;每个“包”加上地址标识和控制信息,在网络中以“存储一转发“的方式传送,即遇到电路有穷就传送,并不占用固定的电路或信道,因此被称为是“无连接”的方式。这种方式可以在一个信道上提供多条信息通路;此外在因特网上传送信息通常还采用数据压缩技术,被压缩的语音信息分组在到达目的地后再复原、合成为原来的语音信号送到接收端用户。因此,利用因特网传送语音信息要比电话网传送语音的线路利用率提高许多倍,这也是电话费用大大降低的重要原因。

Page 124: 第三章 音频信息处理技术

IPIP 电话的关键技术电话的关键技术语音压缩技术   语音压缩技术      目前采用较多语音压缩算法的是   目前采用较多语音压缩算法的是 G.729G.729

和和 G.723/G.723.1G.723/G.723.1 。编码压缩的能力由。编码压缩的能力由 DSPDSP的处理能力决定,而且仅对实际传输的分组的处理能力决定,而且仅对实际传输的分组数据进行压缩,不对数据进行压缩,不对 IPIP 表头压缩。表头压缩。

IPIP包头压缩技术  包头压缩技术     因为   因为 Voice over IPVoice over IP 是将语音封装成是将语音封装成 IPIP

的包来进行传输的,为了保证传输的低时延,的包来进行传输的,为了保证传输的低时延,不可能将语音封装为大的数据包,因此传输不可能将语音封装为大的数据包,因此传输语音从包的数量上就会增加。将语音封装成语音从包的数量上就会增加。将语音封装成IPIP包,包, IPIP 要在每个包前增加要在每个包前增加 4040 字节包头,字节包头,这样一来将大大占用传输的带宽。在此进行这样一来将大大占用传输的带宽。在此进行配置,采用配置,采用 IPIP包头压缩技术将包头压缩技术将 IPIP 的包头压的包头压缩至缩至 2-32-3 个字节,从而可以大大节省带宽。 个字节,从而可以大大节省带宽。

Page 125: 第三章 音频信息处理技术

时延时延 “ “时延”是从发话人开始讲话到受话人时延”是从发话人开始讲话到受话人听到讲话所经过的时间。时延超过了限度会听到讲话所经过的时间。时延超过了限度会使人感到不自然,一般来说,时延超过了使人感到不自然,一般来说,时延超过了 2250ms50ms,就会感到难于忍受。传统的电话通,就会感到难于忍受。传统的电话通信通话人是觉察不出时延的。而信通话人是觉察不出时延的。而 IPIP电话要电话要把通话人说话的声音信号变换为数字的编码把通话人说话的声音信号变换为数字的编码信号,要把数字化的信号“分组”、打信号,要把数字化的信号“分组”、打“包”,还要用“存储—转发”的方式传送;“包”,还要用“存储—转发”的方式传送;在接收端还要解码、合成、复原等等,因此在接收端还要解码、合成、复原等等,因此增加了很多时延(例如编、解码的时延、缓增加了很多时延(例如编、解码的时延、缓存的时延等)。如果遇到电路拥挤的情况,存的时延等)。如果遇到电路拥挤的情况,等待转发可能导致很长的时延,甚至还会造等待转发可能导致很长的时延,甚至还会造成数据分组丢失,使收话人听不清或听不懂成数据分组丢失,使收话人听不清或听不懂发话人的说话。因此发话人的说话。因此 VoIPVoIP 技术要求尽量减技术要求尽量减少时延。 少时延。

Page 126: 第三章 音频信息处理技术

一般来说,延时在一般来说,延时在 200ms200ms以内被认为是以内被认为是优质语音,在优质语音,在 200ms200ms~~ 400ms400ms 之间被认为之间被认为是可以接受的,是可以接受的, 400ms400ms以上被认为是不可以上被认为是不可接受的语音质量。而从上述影响时延的因素接受的语音质量。而从上述影响时延的因素看,带宽是影响时延的一个重要因素。虽然看,带宽是影响时延的一个重要因素。虽然每路电话不管线路带宽大小所占带宽基本一每路电话不管线路带宽大小所占带宽基本一样,但带宽越大,语音包放到网络上的速度样,但带宽越大,语音包放到网络上的速度越快,时延会越小,所以在为其设计带宽时,越快,时延会越小,所以在为其设计带宽时,要作周密的考虑。为了获得较好的话音效果,要作周密的考虑。为了获得较好的话音效果,每路话音占每路话音占 14-16K 14-16K 左右的带宽是较好的选左右的带宽是较好的选择择 ,,因为有线网络的是一个宽带网络,因此因为有线网络的是一个宽带网络,因此在语音传输的带宽上相应是有很大保障的,在语音传输的带宽上相应是有很大保障的,同时在中心配置了同时在中心配置了语音控制中心语音控制中心,对每路话,对每路话音带宽进行申请控制,因此可以在网络负载音带宽进行申请控制,因此可以在网络负载较大的情况下也可以保证话音的传输带宽。较大的情况下也可以保证话音的传输带宽。

Page 127: 第三章 音频信息处理技术

静躁抑止技术静躁抑止技术 检测到通话或者传真过程中的安静时段,检测到通话或者传真过程中的安静时段,

并在这些安静的时段停止发送语音包,以节并在这些安静的时段停止发送语音包,以节约网络带宽。约网络带宽。

回声消除技术回声消除技术 当当 IPIP电话系统与电话系统与 PSTNPSTN互联时,涉及到互联时,涉及到电路转换,就会产生回声。当回声超过电路转换,就会产生回声。当回声超过 10m10mss,人耳就能听到明显的回声。,人耳就能听到明显的回声。 IPIP网络下,网络下,时延很容易达到时延很容易达到 50ms50ms,所以必须应用消除,所以必须应用消除回声的技术。一般参与的是回波抵消方法,回声的技术。一般参与的是回波抵消方法,也就是通过自适应方法估计回波的大小,然也就是通过自适应方法估计回波的大小,然后在接收信号中直接减去此估计值。这个功后在接收信号中直接减去此估计值。这个功能一般由网关完成。能一般由网关完成。