5.4 MPEG
2
主要内容
• 视频压缩标准发展历史
• H.26X 系列压缩标准简介
• MPEG 系列压缩标准简介
3
视频压缩标准发展历史
ITU:
ISO/IEC:
H.261 H.262H.263
H.263+H.264
MPEG1 MPEG2 MPEG4 (Part2)
MPEG7 MPEG21MPEG4(Part10)
4
视频压缩标准对比
H.261
p×64kb/s 视频编码标准
时间 1990 年 12 月
输入 176×144(QCIF) 352×288(CIF)帧速率可变 <=30
输出 p×64kb/s(p=1,2,…,32)
压缩率 20~30 小于 MPEG1
压缩算法 运动补偿帧间预测与分块 DCT 相结合的混合编码
应用 可视电话、视频会议等对称应用
5
视频压缩标准对比(续)MPEG1
数据传输速率为1.5Mb/s的数字存储媒体运动图像及其伴音编码标准
时间 1993 年 8 月
输入 视频: 352×240×30 , 352×288×25
音频: 32 、 44.1 、 48kHz 的线性PCM
输出 1.5Mb/s 、 32-384 Kb/s( 音频 )
压缩率 20~30
压缩算法 运动补偿帧间预测(单向预测+双向预测)+ DCT
应用 VCD 、 MP3 、局域网视频传输
6
视频压缩标准对比(续)MPEG2H.262
运动图像及其伴音通用编码标准
时间 1994 年 11 月
输入 352×288 ~ 1920×1152
采用频率为 16 、 22.05 、 24 、 32 、44.1 、 48kHz 的线性 PCM 、支持 5.1声道
输出 1.5 - 80Mb/s 、 8-640 Kb/s( 音频 )
压缩率 30 - 40
压缩算法 运动补偿帧间预测(单双向预测)+DCT 、可伸缩性、前向兼容
应用 DVD 、 DVB 、 HDTV
7
视频压缩标准对比(续)H.263
H.263+
甚低码率通信的视频编码标准
时间 1996 年 3 月、 1998 年 1 月
输入 QCIF 、 CIF 、 128×96(SubQCIF) 、 704×576(4CIF) 、 1408×1152(16CIF)
输出 30kb/s ~
压缩率 H.263+>H.263>MPEG2
压缩算法 运动补偿帧间预测(单双向预测)+DCT 局部算法改进 可伸缩性
应用 通用电话交换网、局域网的视频通信
8
视频压缩标准对比(续)MPEG4(Part 2)
MPEG4 Visual
甚低码率活动图像及其伴音编码标准
时间 1999 年
输入 ≧176×144 的多种分辨率格式
输出 4.6Kb/s ~ 64Kb/s
压缩率 ≧ 100
压缩算法 基于对象的新一代编码技术,注重交互性,即可包含自然对象,又可包含人工合成对象
应用 可应用范围很广、目前多用于因特网视频传输、流媒体应用
9
视频压缩标准对比(续)H.264
MPEG4(Part10)
MPEG4 AVC
时间 2003 年 5 月
输入 多种分辨率格式
输出压缩率 压缩率最高的视频压缩标准,比
MPEG4 Visual 节约 50 %的码率压缩算法 基于传统框架的混合编码系统,只是
做了局部优化。更注重编码效率和可靠性
应用 视频广播、视频通信和存储媒体( CD DVD )等多种应用
10
MPEG-1视频压缩标准 MPEG-1 标准号为 ISO/IEC 11172 ,它由五部分组成:• MPEG-1 系统( MPEG-1 Systems ):规定视频数据、声音数据及其他相关数据的同步合成技术
• MPEG-1 视频编码标准( MPEG-1 Video )• MPEG-1 音频编码标准( MPEG-1 Audio )• MPEG-1 一致性测试:详细说明如何测试比特数据流和解码器是否满足 MPEG-1 前 3 个部分 (Part1 , 2和 3) 中所规定的要求。
• MPEG-1 软件模拟:一个技术报告,给出了软件执行 MPEG1 前 3 个部分的运行结果。
11
MPEG-1 视频压缩标准
输入、输出指标:
MPEG 视频编码器
352×288×25×8×1.5
352×240×30×8×1.5
30Mb/s 1.15Mb/s
26 : 1
12
MPEG1 视频压缩算法
运动补偿帧间预测 (temporal) + DCT(spatial)
13
Frame 1
14
Frame 2
15
Residual Frame
16
象素运动轨迹
17
Block-based Motion Estimation and Compensation
18
Block-based Motion Estimation and Compensation
19
16×16 Block Size
20
8×8 Block Size
21
4×4 Block Size
22
Sub - pixel Motion Estimation and Compensation
子像素运动估值与补偿
23
Sub - pixel Motion Estimation and Compensation
24
MPEG1 视频编码器框架
25
MPEG1 视频编码器框架
分块
26
MPEG1 视频压缩算法
运动图像序列
图片组( GOP )
I B B P B B P …
图片条( Slice )
宏块Macro Block
16
16
块( Block )
8
8
分割:
27
MPEG1 视频压缩算法GOP 的组成:
一个内帧是一个随机访问点。 B 图像不能作为其它图像的参考帧。
I :内帧P :单向预测帧B :双向预测帧
28
MPEG1 视频压缩算法
视频类型 I P B 平均MPEG-1 CIF 150000b 50000b 20000b 38000b
MPEG-2 601 400000b 200000b 80000b 130000b
为了在图像质量和数据速率之间作出调整, MPEG 编码器允许( 1 )选择内帧 I 的频率和位置,( 2 )选择 I 和 P之间双向预测帧 B 的数目。
29
MPEG1 视频压缩算法运动补偿技术在宏块一级工作。宏块分为四类:• 帧内宏块,简称 I 块• 前向预测宏块,简称 F 块• 后向预测宏块,简称 B 块• 平均宏块,简称 A 块
I 图像只包含 I 块, P 图像只包含 I 块和 F块, B 图像可以包含 4 种类型的宏块。
30
MPEG1 视频压缩算法I 图像帧的压缩算法:
在空间方向上(内帧), MPEG -1 压缩采用JPEG 压缩算法来去掉冗余信息。
31
MPEG1 视频压缩算法P 图像帧的压缩算法:
对于 P 宏块, MPEG -1 采用运动补偿帧间预测算法来去掉时间轴上的冗余信息。
32
MPEG1 视频压缩算法运动矢量的概念
33
MPEG1 视频压缩算法基于块的运动矢量估值算法——块匹配法
34
MPEG1 视频编码算法
块匹配法( Block Matching Algorithm)需要解决两个关键问题:( 1)匹配准则( 2)搜索算法
35
MPEG1 视频编码算法BMA 中常用的匹配准则:
绝对值:
均方误差:
平均绝对帧差:
36
MPEG1 视频编码算法BMA常用搜索算法—二维对数搜索法:
37
MPEG1 视频编码算法BMA常用搜索算法—三步搜索法:
38
MPEG1 视频编码算法BMA常用搜索算法—对偶搜索法:
39
MPEG1 视频编码算法B 图像帧的压缩算法:
40
41
MPEG-1 音频压缩标准• 输入、输出指标:
MPEG 音频编码器
32kHz, 44.1kHz, 48kHz
16 位 PCM
32kb/s~384kb/s
层次 压缩率 数据速率 kb/s 延迟( ms )1 4 : 1 384 19/50
2 6:1 ~ 8:1 192 ~ 256 35/100
3 10:1 ~ 12:1 112 ~ 128 59/150
42
MPEG-1 音频压缩算法• 听觉系统的感知特性:
听阈-频率曲线
43
MPEG-1 音频压缩算法• 听觉系统的感知特性:
一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽
44
MPEG-1 音频压缩算法• 听觉系统的感知特性:
一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽
在时间上相邻的声音之间也有掩蔽现象,称为时域掩蔽。时域掩蔽又分为超前掩蔽和滞后掩蔽。
45
MPEG-1 音频压缩算法• 感知子带压缩算法
算法以心理声学模型为基础,主要利用了听觉阈值和听觉掩蔽特性
46
MPEG-1 音频压缩算法• 感知子带压缩算法1 、将音频信号用滤波器组分成 32 个子带;2 、用 FFT将子带变换到频率域3 、根据心理声学模型估计各个子带的感知阈值4 、根据对感知阈值的估计对各个子带进行比特分配和量化。
MP3 采用了与 MP1 、 MP2 不同的滤波器和心理声学模型。
47
MPEG-1 音频压缩算法MPEG-1 Audio层 1 和层 2 编码器和解码器的结构
48
MPEG-1 音频压缩算法MPEG-1 Audio层 3 编码器和解码器的结构
49
H.261 概述• H.261也称 P×64 ,这是 ITU-T (前身为
CCITT )最早制定的关于视频编码的国际标准。考虑到 ISDN 的传输码率以 64kbps为单位,因此以 p×64kbps ( p = 1 ~30 )作为为 H.261 的标准码率。 H.261 标准主要用于电视电话和电视会议。它支持QCIF ( p=1 、 2 )、 CIF ( p>2 )两种图像输入格式。
50
H.261 解决的问题• 第一是编码算法问题。确立了一种合理的、保证图像质量且为各国图像编码专家所公认的统一的算法。算法必须能够实时操作,解码延时要短。
• 第二是与 PCM 标准兼容的问题。编解码器以 64~ 1920kb / s 的工作速率去覆盖 N-ISDN 或PCM 一次群的通道。
• 第三,解决电视制式不同的问题。为了使同一标准既能用于 PAL ( 625 )和 NTSC ( 525 )两种电视制式系统,源编码基于中间格式 CIF 格式,所以输入输必须 经转换到 CIF 或 QCIF 格式再进行源编码。
51
视频编码图像格式一览表
采用标准 CCI R601 I SO/ MPEG-1 CCI TT H. 261 参 数 PAL NTSC SI F CI F QCI F 每秒帧数 25 30 25 30 29. 97 Y 每帧行数 Cr Cb
576 288 288
480 240 240
288 144 144
240 120 120
288 144 144
144 72 72
Y 每行象素 Cr Cb
720 360 360
360 180 180
352 176 176
176 88 88
52
H.261 的信源编码框架
53
H.261 的信源编码算法• 一、将预测误差或输入图像划分成为 8*8 的象素块。进一步,将 4 个亮度像块和两个在空间位置上与之重叠的色差像块符合成一个 16*16 的宏块( MB )。
• 二、对于帧序列中的第一副图像或景物变换后的第一副图像,采用帧内变换编码:利用 8*8 的DCT实现。各 DCT 系数经过线性量化、变长编码后进入缓冲器,根据缓冲器的上溢和下溢,来反馈调节量化器的量化步长,以控制视频编码位流使之与信倒速率相匹配。
54
H.261 的信源编码算法• 帧间预测采用混合方法:利用运动补偿预测,当预测误差超过某个门限后,对误差做DCT 、视觉加权量化及熵编码。运动矢量信息编码后也送到缓冲器中。 DCT 去除空间冗余度,而使用有运动补偿的帧间预测来去除时间上的冗余。这是一个典型的帧内/帧间自适应预测加 DCT 变换的混合算法。
55
H.261 的图像复用编码• H.261源编码后进行图像复用编码, 实际上是把比特流分成图像 (Picture) ,像块组 (GOB : Group of blocks) ,宏块 (MB :Macroblock) 和像块 (Block) ,并附加相应的信息。按照 CIF 格式,每帧 CIF 图像包含 12 个 GOB ,每个 GOB 包含 33 个MB ,每个 MB 包含 4 个亮度数据块和各 1个 Cb 、 Cr色度块,每个 B 包含 8*8 象素。
56
H.261 的图像复用编码
H.261 数据流结构
57
H.261 视频压缩算法• 利用二维 DCT减少图像的空间域的冗
余度;• 利用运动补偿预测减少图像的时间域
冗余度;• 利用视觉加权量化减少图像 " 灰度
域 "的冗余度;• 利用熵编码来减少图像的 " 频率
域 "的冗余度。
58
H.261 与 MPEG-1 的对比
59
MPEG-2 通用视频压缩标准 MPEG-2 的标准号为 ISO/IEC 13818 ,它主要由以下几部分组成:
• MPEG-2 系统( MPEG-1 Systems )• MPEG-2 视频编码标准( MPEG-2 Video )• MPEG-2 音频编码标准( MPEG-2 Audio )• MPEG-2 高级音频编码标准( MPEG-2 AAC )
与 MPEG-1 一样, MPEG-2 只规定了码流结构和解码器算法规则,而把实际编码器模型向设计者开放,以提供更多的选择性和自由度。
60
MPEG-2 Video MPEG-2 Video 与 MPEG-1 的基本编码算法相同,只是增加了如下功能:
( 1 )能够在很宽的范围内对不同分辨率和不同输出比特率的图像信号有效的进行压缩。
( 2 )处理隔行扫描的视频信号的能力。( 3 )多样化的取样模式: 4:2:0 , 4:2:2 , 4:4:4( 4 )可伸缩( Scalable )的视频编码模式: Ⅰ 编码时可以在图像质量和数据速率之间作出调整 Ⅱ 解码时只对码流的一部分进行解码和对码流的全部进行解码能够分别获得不同质量的重建图像。
61
可伸缩性编码模式( 1 )信噪比伸缩性( Signal-to-Noise Scalability )( 2 )空间分辨率伸缩性( Spatial Scalability )( 3 )时间分辨率伸缩性( Temporal Scalability )
62
MPEG-2 Video
• 为了适应不同应用的需要, MPEG-2引入了配置( profiles )和等级( levels )的概念,每种配置定义一套新的算法,而每一个等级指定一套参数范围 ( 如图像大小、帧速率和位速率 ) 。
63
MPEG-2 Video
• MPEG-2 的配置
配置( profile ) 特征简单 (Simple) 4:2:0取样,仅用 I 、 P 帧,支持随机存取,
不支持可伸缩性基本 (Main) 以上参数,加上支持 B 帧
信噪比可变 以上参数,加上信噪比可变性
空间分辨率可变 以上参数,加上空间分辨率可变性
高档 (High) 以上参数, 4:2:2 采样方式
64
MPEG-2 Video
• MPEG-2 的等级
等级( level ) 特征低级( Low ) 352×288 , 30 帧 /s , 1.2Mb/s
基本级( Main ) 720×576 , 30 帧 /s , 4~15Mb/s
高级( High ) 1440
1440×1152 , 60 帧 /s , 60Mb/s
高级( High ) 1920×1152 , 60 帧 /s , 80Mb/s
65
MPEG-2 Video
• MPEG-2 的配置与等级的组合
配置Profile
等级低 中 高 1440 高 1920
简单 ●
基本 ● ● ● ●
信噪比 ● ●
空间 ●
高 ● ● ●
66
MPEG-2 Audio MPEG-2 标准委员会定义了两种声音数据压缩格式:
( 1 ) MPEG-2 Audio ,或者称为 MPEG-2 多通道 (Multichannel) 声音,它与 MPEG-1 Audio 是兼容的,所以又称为 MPEG-2 BC (Backward Compatible) 。
( 2 )另一种称为 MPEG-2 AAC (Advanced Audio Coding) ,因为它与 MPEG-1 声音格式不兼容,因此通常称为非后向兼容 MPEG-2 NBC(Non-Backward-Compatible) 标准。
67
MPEG-2 BC Audio
(1)增加了 16 kHz, 22.05 kHz 和 24 kHz 采样频率(2)扩展了编码器的输出速率范围,由 32~ 384 kb/s扩展到 8~ 640 kb/s
(3)增加了声道数,支持 5.1 声道和 7.1 声道的环绕声。(4)MPEG-2还支持 Linear PCM( 线性 PCM) 和 Dolby AC-
3(Audio Code Number 3) 编码
MPEG-2 BC Audio和MPEG-1 Audio标准都使用相同种类的编译码器,层 -1, -2和 -3的结构也相同。MPEG-2声音标准与MPEG-1标准相比,MPEG-2做了如下扩充:
68
MPEG-2 AACAAC支持的采用频率可从 8 kHz到 96 kHz, AAC编码器的音源可以是单声道的、立体声的和多声道的声音。 AAC标准可支持 48个主声道、 16个低频音效加强通道 LFE (low frequency effects)、 16个配音声道(overdub channel)或者叫做多语言声道 (multilingual channel)和 16个数据流。MPEG-2 AAC在压缩比为 11:1,即每个声道的数据率为 (44.1×16 )/11=64 kb/s,而 5个声道的总数据率为 320 kb/s的情况下,很难区分还原后的声音与原始声音之间的差别。与MPEG的层 2相比,MPEG-2 AAC的压缩率可提高 1倍,而且质量更高,与MPEG的层 3相比,在质量相同的条件下数据率是它的 70%。
69
H.262 标准• ITU-T 于 1990 年成立了“ ATM 视频编码专家组”,负责制定适用于 B-ISDN 信道 ATM 编码传输标准。该专家组于 1993年 11 月与 ISO 的 MPEG专家组联合提出了 H.262建议草案( MPEG-2 ),用于数字存储介质和数字视频通信中图像信息的编码表示和解码规定。该标准向下兼容,能够在很宽的范围内对不同分辨率和不同输出比特的图像信号有效的进行压缩。
70
H.263/H.263+/H.264这些标准的编解码框架与 H.261 和 MPEG-1 类似,也是基于混合编码的方案,只是做了如下改进以大幅度降低码率:1 、先进的帧内编码技术2 、灵活的运动补偿技术:( 1 )匹配块尺寸可变( 16×16 、 16×8 、 8×16 、 8×8 、 8×4 、 4×8 、 4×4 )( 2 )运动矢量可精确到 1/2或者 1/4 象素( 3 )多参考帧预测( 4 )无约束运动矢量3 、先进的去块滤波技术4 、整数 DCT 变换。。。。。。。
71
MPEG-4 视频压缩标准MPEG-4从 1994 年开始工作,目标是为视听 (audio-visual)数据的编码和交互播放开发算法和工具,它是一个数据速率很低的多媒体通信标准。 MPEG-4 算法的核心是支持基于内容的 (content-based) 的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。
72
MPEG-4 视频压缩标准
73
( 1 ) MPEG-4 的编码是基于对象的,这样就便于操作和控制对象;可以实现许多基于内容的交互性功能,主要用于基于内容的多媒体数据存取、游戏或多媒体家庭编辑、网上购物和电子商店、远程监控、医疗和教学等。
MPEG-4 主要特点
74
( 2 ) MPEG-4 在扩展性上具有很好的灵活性,可进行时域和空域的扩展(兼容 MPEG-2 扩展功能);主要用于互联网和无线网等窄带的视频通讯、多质量视频服务和多媒体数据库预览等服务。
( 3 ) MPEG-4 的编码具有鲁棒性和纠错功能。主要用于在移动通信的易错通讯环境下实现安全的低码率编码和传输,采用再同步、数据恢复、错误隐藏等三种策略。
MPEG-4 主要特点
75多路复合码流
可交互的视听场景
基本码流
复合和提交
显示和用户交互
传输/存储 媒体
(RTP)UDPIP
H223PSTN
DABMux
传输层
多路分解 多路分解
集成多媒体构架(DMIF)接口
SL SLSL SL ...同步层(SL)
基本码流接口
视听对象数据
场景描述信息
对象描述符
... 压缩层
SL
同步层打包流
(PES)MPEG-2
TS
AAL2ATM
上载流信息
SL
SL
多路复合
...
MPEG-4 终端
体系结构模型
76
基于对象运动估计
轮廓编码
运动参数编码
纹理编码
图象分割
图象
对象编码
码流
码流
码流
基于对象的编码的原理图
分析过程
编码器
图象模型
合成过程
图象模型
解码器输入图象
分析数据
输出图象
基于模型的编码的原理图
77
对象分割
自然视频对象:
前景对象形状信息News视频序列
对象分割
Coastguard 视频序列
78
2D 网格对象 :
MPEG-4两类 2D网格模型 :
(a)是一个规则的网格模型 (b)是基于内容的网格模型
编码 :2D网格模型的编码是指编码网格的节点位置 ( 规则网格除外 ) 和运动矢
量,它们的编码是采用邻近节点预测和变长编码,网格的拓扑结构不需要编码由 Delaunay算法唯一确定。
79
3D 人脸对象:
3D人脸对象是用 3D网格模型来描述人脸的形状、表情和口形变化等各种面部特征,MPEG-4定义了两套参数来描述人脸的形状和运动,面部定义参数FDP(Facial Define Parameter)和面部动画参数 FAP(Facial Animation Parameter)。
在 3D人脸对象的编码过程中, FDP参数只需要编码传输一次 ( 特定人 ) 和不编码传输 ( 用默认的模型和纹理 ) ,关键帧的 FAP参数编码驱动面部运动,关键帧之间通过插值技术生成一些中间图象,使人脸的各种运动看起来更平滑。
3D人脸模型 上颜色后的人脸
80
Sprite 编码技术应用
Sprite对象是针对背景对象的特点提出的。通常情况下背景对象自身没有任何运动,由于摄象机的运动而造成图象序列中的背景变化,通过图象的镶嵌技术把整个序列的背景图象拼接成一个大的完全的背景图象,这个图象就叫 Sprite 图象。
Sprite编码技术是指首先对 Sprite图象编码并传输一次并存储在解码端,在随后的图象只需要传输摄象机的运动参数,就可以从 Sprite上恢复所有的背景。Sprite编码分为静态 Sprite编码和动态 Sprite编码,静态 Sprite图象在编码前生成,动态 Sprite图象在编码过程中生成。
特点:编码效率高应用:在视频会议和视频电话等场景固定的应用中(背景的全景图可以事先传输过去并保存在解码端)。
81
Sprite 编码示例:
背景 sprite 图 一个 VO
合成显示
82
Sprite 编码方法Sprite 编码方法分为三种:
• 静态 Sprite 编码 (Off-line)
Sprite 在编码之前生成,解码时使用指定的运动参数直接将 sprite 变形 (Warp)得到重构的 VOP ,原始 VOP和重构的 VOP 之间的残差并不编码。
• 动态 Sprite 编码 (On-line)在编码过程中动态生成 Sprite ,对于利用 Sprite 参考后的残差进行编码。
• 全局运动补偿( GMC )在编码过程中不生成 Sprite ,只是将前一帧当成 Sprite, 对于利用 Sprite 参考后的残差进行编码。
83
MPEG-4 视频压缩标准
84
习题:什么是 MPEG 标准?由哪几个部分组成?
MPEG(Moving Picture Experts Group)是 1988 年成立的一个专家组。现在把它作为运动图像以及相关的音频信息压缩的国际标准规格的带名词。这个专家组在 1991 年制定了一个MPEG- 1 国际标准,其标准名称为“动态图像和伴音的编码--用于速率小于每秒约 1.5 兆比特的数字存储媒体( Coding of moving picture and associated audio --for digital storage media at up to about 1.5Mbit / s)”。这里的数字存储媒体指一般的数字存储设备如 CD-ROM、硬盘和可擦写光盘等。MPEG的最大压缩可达约 1 :200,其目标是要把目前的广播视频信号压缩到能够记录在CD 光盘上并能够用单速的光盘驱动器来播放,并具有 VHS的显示质量和高保真立体伴音效果。MPEG采用的编码算法简称为MPEG算法,用该算法压缩的数据称为MPEG数据,由该数据产生的文件称MPEG 文件,它以MPG为文件后缀。
85
习题:什么是 MPEG 标准?由哪几个部分组成?
MPEG采用有损和不对称的压缩编码算法。MPEG标准详细地说明了视频图像的压缩和解压缩方法,以及播放 MPEG数据所需的图像与声音的同步。MPEG标准包括三个部分:MPEG视频( Video)、MPEG音频( Audio)和MPEG系统( System)视频和音频的同步 。
6.75÷15625=432
正半周为白,负半周为黑 ,共 864 像素