第13章MPEG电视 水水水水*水水水水冰水水水水水水水水水水水客水水水水水水冰水水水水冰水水水水水水水水水水水水水冰水水水冰水水水水水水水水*水水冰水水水冰水 13.1电视图像的数据率 13.1.1ITU-RBT.601标准数据率 13.1.2VCD电视图像数据率的估算 13.1.3DVD电视图像数据率的估算 13.2数据压缩算法 13.2.1简介 13.2.2帧内图像I的压缩编码算法 13.2.3预测图像P的压缩编码算法 13.2.4双向预测图像B的压缩编码算 13.2.5电视图像的结构 13.3MPEG2的配置和等级 13.4MPEG-4电视图像编码 13.4.1电视图像对象区的概念 13.4.2电视图像编码方案 13.4.3电视图像分辨率可变编码 3.5HDTV格式 练习与思考题 参考文献和站点 水水水冰冰水水水水水水水本水水冰水客客冰本水水水水客水水水水木水水水客水水本*水冰水水水冰冰水水水水水冰水水水水水水水半水水水水本水冰水 MPEG-1和-2ideo标准有许多共同之处,基本概念类似,数据压缩编码方法基本相同, 都采用以图像块作为基本单元进行变换、量化和移动补偿等技术来获得高压缩比。MPEG-4 Video部分采用内容基编码技术,它除与MPEG-1和-2 Video向后兼容外,还引入了电视图像 对象(WO)的概念,在某些应用场合下,对场景中的图像分别进行编码可以获得很高的压缩比 而服务质量也能满足要求。下面将简要介绍这些标准中压缩电视图像数据的基本方法。 13.1电视图像的数据率 13.1.1ITU-RBT.601标准数据率 按照奈奎斯特( Nyquist)采样理论,模拟电视信号经过采样(把连续的时间信号变成离散 的时间信号)和量化(把连续的幅度变成离散的幅度信号)之后,数字电视信号的数据量大得 惊人,当前的存储器和网络都还没有足够的能力支持这种数据传输率,因此就要对数字电视 信号进行压缩。 为了在PAL、NTSC和 SECAM彩色电视制之间确定一个共同的数字化参数,早在1982年国际 无线电咨询委员会(CCIR就制定了演播室质量的数字电视编码标准,这就是非常有名的 ITU-RBT.601标准。按照这个标准,使用4:2:2的采样格式,亮度信号Y的采样频率选择为13.5 MHz/s,而色差信号Cr和Cb的采样频率选择为6.75Mz/s,在传输数字电视信号通道上的数 据传输率就达到为270Mb/s(兆位/秒)!,即 亮度(Y) 58样本/行×525行/帧×30帧/秒×10位/样本≡135兆位/秒(NTSC) 864样本/行×625行/帧×25帧/秒×10位/样本三135兆位/秒(PAL) Cr(R-y) 429样本/行×525行/帧×30帧/秒×10位/样本三68兆位/秒(NTSC) 429样本/行×625行/帧×25帧/秒×10位/样本三68兆位/秒(PAL) Cb(B-Y) 429样本/行×525行/帧×30帧/秒×10位/样本≡68兆位/秒(NTSC)
第13章 MPEG电视 *************************************************************************** 13.1 电视图像的数据率 13.1.1 ITU-R BT.601标准数据率 13.1.2 VCD电视图像数据率的估算 13.1.3 DVD电视图像数据率的估算 13.2 数据压缩算法 13.2.1 简介 13.2.2 帧内图像I的压缩编码算法 13.2.3 预测图像P的压缩编码算法 13.2.4 双向预测图像B的压缩编码算 法 13.2.5 电视图像的结构 13.3 MPEG-2的配置和等级 13.4 MPEG-4电视图像编码 13.4.1 电视图像对象区的概念 13.4.2 电视图像编码方案 13.4.3 电视图像分辨率可变编码 13.5 HDTV格式 练习与思考题 参考文献和站点 *************************************************************************** MPEG-1和-2 Video标准有许多共同之处,基本概念类似,数据压缩编码方法基本相同, 都采用以图像块作为基本单元进行变换、量化和移动补偿等技术来获得高压缩比。MPEG-4 Video部分采用内容基编码技术,它除与MPEG-1和-2 Video向后兼容外,还引入了电视图像 对象(VO)的概念,在某些应用场合下,对场景中的图像分别进行编码可以获得很高的压缩比 而服务质量也能满足要求。下面将简要介绍这些标准中压缩电视图像数据的基本方法。 13.1 电视图像的数据率 13.1.1 ITU-R BT.601标准数据率 按照奈奎斯特(Nyquist)采样理论,模拟电视信号经过采样(把连续的时间信号变成离散 的时间信号)和量化(把连续的幅度变成离散的幅度信号)之后,数字电视信号的数据量大得 惊人,当前的存储器和网络都还没有足够的能力支持这种数据传输率,因此就要对数字电视 信号进行压缩。 为了在PAL、NTSC和SECAM彩色电视制之间确定一个共同的数字化参数,早在1982年国际 无线电咨询委员会(CCIR)就制定了演播室质量的数字电视编码标准,这就是非常有名的 ITU-R BT.601标准。按照这个标准,使用4:2:2的采样格式,亮度信号Y的采样频率选择为13.5 MHz/s,而色差信号Cr和Cb的采样频率选择为6.75 MHz/s,在传输数字电视信号通道上的数 据传输率就达到为270 Mb/s(兆位/秒)!,即 亮度(Y): 858样本/行×525行/帧×30帧/秒×10位/样本 135兆位/秒(NTSC) 864样本/行×625行/帧×25帧/秒×10位/样本 135兆位/秒(PAL) Cr (R-Y): 429样本/行×525行/帧×30帧/秒×10位/样本 68兆位/秒(NTSC) 429样本/行×625行/帧×25帧/秒×10位/样本 68兆位/秒(PAL) Cb (B-Y): 429样本/行×525行/帧×30帧/秒×10位/样本 68兆位/秒(NTSC)
第13章MPEG电视 429样本/行×625行/帧×25帧/秒×10位/样本≡68兆位/秒(PAL) 总计:27兆样本/秒×10位/样本=270兆位/秒 实际上,在荧光屏上显示出来的有效图像的数据传输率并没有那么高, 亮度(Y) 720×480×30×10≡104Mb/s(NTSC) 720×576×25×10=104Mb/s(PAL) 色差(Cr,Cb):2×360×480×30×10≡104Mb/s(NTSC) 2×360×576×25×10=104Mb/s(PAL) 总计 207 Mb/s 如果每个样本的采样精度由10位降为8位,彩色数字电视信号的数据传输率就降为166 Mb/s 13.1.2电视图像数据率的估算 如果考虑使用 Video-CD存储器来存储数字电视,由于它的数据传输率可达到1.4112 Mb/s,分配给电视信号的数据传输率为1.15Mb/s,这就意味MPEG电视编码器的输出数据率 要达到1.15M/s。显而易见,如果存储166Ⅷb/s的数字电视信号就需要对它进行高度压缩, 压缩比高达166/1.15=1441 MPEG-1电视图像压缩技术不能达到这样高的压缩比。为此首先把MTSC和PAL数字电视转 换成公用中分辨率格式 CIF(Common Intermediate Format)的数字电视,这种格式相当于 VHS( Video Home System)的质量,于是彩色数字电视的数据传输率就减小到 352×240×30×8×1.5≡30Mb/s(NTSC) 352×288×25×8×1.530Mb/s(PAL)。 把这种彩色电视信号存储到CD盘上所需要的压缩比为:30/1.1526:1。这就是MPEG-1技术 所能获得的压缩比 13.1.3电视图像数据率的估算 根据当前成熟的压缩技术,电视图像的数据率压缩成平均为3.5Mb/s~4.7Mb/s时非 专家难于区分电视图像在压缩前后的之间差别。如果使用DWD- Video存储器来存储数字电视, 它的数据传输率虽然可以达到10.08Mb/s,但一张4.7GB的单面单层DWD盘要存放133分钟的 电视节目,按照数字电视信号的平均数据传输率为4.1Mb/s来计算,压缩比要达到:166/4.10 40:1 如果电视图像的子采样使用4:2:0格式,每个样本的精度为8位,数字电视信号的数据传 输率就减小到124Mb/s,即 720×480×30×8×1.5≡124Mb/s(NTSC) 720×576×25×8×1.5124Mb/s(PAL) 使用 DVD-Video来存储720×480×30或者720×576×25的数字电视图像所需要的压缩比 为:124/4.130:1。 13.2数据压缩算法 13.2.1简介 电视图像数据压缩利用的各种特性和采用的方法归纳在表13-1中。从表中可以看到,电 视图像本身在时间上和空间上都含有许多冗余信息,图像自身的构造也有冗余性。此外,正 如前面所介绍的,利用人的视觉特性也可对图像进行压缩,这叫做视觉冗余 表13-1电视图像压缩利用的各种冗余信息 目前用的主要方法 统计空间冗余像素间的相关性 换编码,预测编码 寺性时间冗余时间方向上的相关性 帧间预测,移动补偿 图像构造冗余 图像本身的构造 轮廓编码,区域分割 和识冗余 收发两端对人物的共有认识基于知识的编码 视觉冗余 人的视觉特性 非线性量化,位分配
第13章 MPEG电视 2 429样本/行×625行/帧×25帧/秒×10位/样本 68兆位/秒(PAL) 总计: 27兆样本/秒×10位/样本 = 270兆位/秒 实际上,在荧光屏上显示出来的有效图像的数据传输率并没有那么高, 亮度(Y): 720×480×30×10 104 Mb/s (NTSC) 720×576×25×10 104 Mb/s (PAL) 色差(Cr,Cb): 2×360×480×30×10 104 Mb/s (NTSC) 2×360×576×25×10 104 Mb/s (PAL) 总计: ~ 207 Mb/s 如果每个样本的采样精度由10位降为8位,彩色数字电视信号的数据传输率就降为166 Mb/s。 13.1.2 电视图像数据率的估算 如果考虑使用Video-CD存储器来存储数字电视,由于它的数据传输率可达到1.4112 Mb/s,分配给电视信号的数据传输率为1.15 Mb/s,这就意味MPEG电视编码器的输出数据率 要达到1.15 Mb/s。显而易见,如果存储166 Mb/s的数字电视信号就需要对它进行高度压缩, 压缩比高达166/1.15 144:1。 MPEG-1电视图像压缩技术不能达到这样高的压缩比。为此首先把NTSC和PAL数字电视转 换成公用中分辨率格式CIF(Common Intermediate Format)的数字电视,这种格式相当于 VHS(Video Home System)的质量,于是彩色数字电视的数据传输率就减小到 352×240×30×8×1.5 30 Mb/s (NTSC) 352×288×25×8×1.5 30 Mb/s (PAL)。 把这种彩色电视信号存储到CD盘上所需要的压缩比为:30/1.15 26:1。这就是MPEG-1技术 所能获得的压缩比。 13.1.3 电视图像数据率的估算 根据当前成熟的压缩技术,电视图像的数据率压缩成平均为3.5 Mb/s ~ 4.7 Mb/s时非 专家难于区分电视图像在压缩前后的之间差别。如果使用DVD-Video存储器来存储数字电视, 它的数据传输率虽然可以达到10.08 Mb/s,但一张4.7 GB的单面单层DVD盘要存放133分钟的 电视节目,按照数字电视信号的平均数据传输率为4.1 Mb/s来计算,压缩比要达到:166/4.10 40:1。 如果电视图像的子采样使用4:2:0格式,每个样本的精度为8位,数字电视信号的数据传 输率就减小到124 Mb/s,即 720×480×30×8×1.5 124 Mb/s (NTSC) 720×576×25×8×1.5 124 Mb/s (PAL) 使用DVD-Video来存储720×480×30或者720×576×25的数字电视图像所需要的压缩比 为:124/4.1 30:1。 13.2 数据压缩算法 13.2.1 简介 电视图像数据压缩利用的各种特性和采用的方法归纳在表13-1中。从表中可以看到,电 视图像本身在时间上和空间上都含有许多冗余信息,图像自身的构造也有冗余性。此外,正 如前面所介绍的,利用人的视觉特性也可对图像进行压缩,这叫做视觉冗余。 表13-1 电视图像压缩利用的各种冗余信息 种类 内容 目前用的主要方法 统计 空间冗余 像素间的相关性 变换编码,预测编码 特性 时间冗余 时间方向上的相关性 帧间预测,移动补偿 图像构造冗余 图像本身的构造 轮廓编码,区域分割 知识冗余 收发两端对人物的共有认识 基于知识的编码 视觉冗余 人的视觉特性 非线性量化,位分配
第13章MPEG电视 其他 不确定性因素 MPEG-Video图像压缩技术基本方法和方法可以归纳成两个要点:①在空间方向上,图 像数据压缩采用JPG( Joint Photographic Experts group)压缩算法来去掉冗余信息。②在 时间方向上,图像数据压缩采用移动补偿( motion compensation)算法来去掉冗余信息 为了在保证图像质量基本不降低而又能够获得高的压缩比,MPEG专家组定义了三种图 像:帧内图像I( intra),预测图像P( predicted)和双向预测图像B( bidirectionally interpolated),典型的排列如图13-01所示。这三种图像将采用三种不同的算法进行压缩。 B PIBB 图13-01MPEG专家组定义的三种图像 13.2.2帧内图像工的压缩编码算法 帧内图像Ⅰ不参照任何过去的或者将来的其他图像帧,压缩编码采用类似JPEG压缩算法, 它的框图如图13-02所示。如果电视图像是用RGB空间表示的,则首先把它转换成 YCrCb空间 表示的图像。每个图像平面分成8×8的图块,对每个图块进行离散余弦变换DCT( discrete osine transform。DCT变换后经过量化的交流分量系数按照Zig-zag的形状排序,然后再 使用无损压缩技术进行编码。DCT变换后经过量化的直流分量系数用差分脉冲编码 DPoM( Differential Pulse Code Modulation),交流分量系数用行程长度编码 RLE(run- length encoding),然后再用赫夫曼( Huffman)编码或者用算术编码。它的编码框 图如图13-2所示 YCbCr/CMYK 每个图象平面 每个 DcT量化 富夫曼编码/口DM RLE 图13-02帧内图像I的压缩编码算法框图 (I ESimon Fraser University School of Computing Science, Dr. Ze-Nian Li http://fas.sfu.ca/cs/undergrad/coursematerials/cmpt365/material/notes/content html)
第13章 MPEG电视 3 其他 不确定性因素 MPEG-Video图像压缩技术基本方法和方法可以归纳成两个要点:① 在空间方向上,图 像数据压缩采用JPEG(Joint Photographic Experts Group)压缩算法来去掉冗余信息。② 在 时间方向上,图像数据压缩采用移动补偿(motion compensation)算法来去掉冗余信息。 为了在保证图像质量基本不降低而又能够获得高的压缩比,MPEG专家组定义了三种图 像:帧内图像I(intra),预测图像P(predicted )和双向预测图像B(bidirectionally interpolated ),典型的排列如图13-01所示。这三种图像将采用三种不同的算法进行压缩。 图13-01 MPEG专家组定义的三种图像 13.2.2 帧内图像I的压缩编码算法 帧内图像I不参照任何过去的或者将来的其他图像帧,压缩编码采用类似JPEG压缩算法, 它的框图如图13-02所示。如果电视图像是用RGB空间表示的,则首先把它转换成YCrCb空间 表示的图像。每个图像平面分成8×8的图块,对每个图块进行离散余弦变换DCT(discrete Cosine Transform)。DCT变换后经过量化的交流分量系数按照Zig-zag的形状排序,然后再 使用无损压缩技术进行编码。DCT变换后经过量化的直流分量系数用差分脉冲编码 DPCM(Differential Pulse Code Modulation) , 交 流 分 量 系 数 用 行 程 长 度 编 码 RLE(run-length encoding),然后再用赫夫曼(Huffman)编码或者用算术编码。它的编码框 图如图13-2所示。 图13-02 帧内图像I的压缩编码算法框图 (引自Simon Fraser University School of Computing Science, Dr. Ze-Nian Li, http://fas.sfu.ca/cs/undergrad/CourseMaterials/CMPT365/material/notes/contents. html)
第13章MPEG电视 13.2.3预测图像P的压缩编码算法 预测图像的编码也是以图像宏块( macroblock)为基本编码单元,一个宏块定义为I×J 像素的图像块,一般取16×16。预测图像P使用两种类型的参数来表示:一种参数是当前要 编码的图像宏块与参考图像的宏块之间的差值,另一种参数是宏块的移动矢量。移动矢量的 概念可用图13-03表示 坦尼克》电影上的镜头 移动矢量 图13-03移动矢量的概念 求解差值的方法如图13-04所示。假设编码图像宏块M是参考图像宏块M的最佳匹配块 它们的差值就是这两个宏块中相应像素值之差。对所求得的差值进行彩色空间转换,并作 4:1:1的子采样得到Y,Cr和Cb分量值,然后仿照JPEG压缩算法对差值进行编码,计算出的移 动矢量也要进行赫夫曼编码。 13参考图象 DCT+量化+RL 签夫曼编码 图13-04预测图像P的压缩编码算法框图[2] 求解移动矢量的方法定义在图13-05中。在求两个宏块差值之前,需要找出编码图像中 的预测图像编码宏块MP1相对于参考图像中的参考宏块MR所移动的距离和方向,这就是移动 矢量( motion vec tor)
第13章 MPEG电视 4 13.2.3 预测图像P的压缩编码算法 预测图像的编码也是以图像宏块(macroblock)为基本编码单元,一个宏块定义为I×J 像素的图像块,一般取16×16。预测图像P使用两种类型的参数来表示:一种参数是当前要 编码的图像宏块与参考图像的宏块之间的差值,另一种参数是宏块的移动矢量。移动矢量的 概念可用图13-03表示。 图13-03 移动矢量的概念 求解差值的方法如图13-04所示。假设编码图像宏块MPI是参考图像宏块MRJ的最佳匹配块, 它们的差值就是这两个宏块中相应像素值之差。对所求得的差值进行彩色空间转换,并作 4:1:1的子采样得到Y,Cr和Cb分量值,然后仿照JPEG压缩算法对差值进行编码,计算出的移 动矢量也要进行赫夫曼编码。 图13-04 预测图像P的压缩编码算法框图[2] 求解移动矢量的方法定义在图13-05中。在求两个宏块差值之前,需要找出编码图像中 的预测图像编码宏块MPI相对于参考图像中的参考宏块MRJ所移动的距离和方向,这就是移动 矢量(motion vector)
第13章MEG电视 预测絹码图象 搜索窗口 参考图象 最佳匹配 Macroblock Mh: Motion vector 被拽芽的志 (水平方向) Mv: Nodon Vector(垂直方向 图13-5移动矢量的算法框图 要使预测图像更精度,就要求找到与参考宏块M最佳匹配的预测图像编码宏块MP1。所 谓最佳匹配是指这两个宏块之间的差值最小。通常以绝对值AE( absolute difference)最小 作为匹配判据, AE= ∑D-g-,J-4),(=10 有些学者提出了以均方误差MSE(mean- square error)最小作为匹配判据, MSE=∑∑[(,n)-g(-d1,j-d,)2,(=j=16) 也有些学者提出以平均绝对帧差MAD( mean of the absolute frame difference)最小作 为匹配判据, MAD=∑∑|(n-g(-d1,j-d,),(=j=16) 其中,d和d分别是参考宏块M的移动矢量d(d,d)在X和Y方向上的矢量 从以上分析可知,对预测图像的编码实际上就是寻找最佳匹配图像宏块,找到最佳宏块 之后就找到了最佳移动矢量d(d,d)。 为减少搜索次数,现在已开发出许多简化算法用来寻找最佳宏块,下面介绍其中的三种。 1.二维对数搜索法(2 )-logarithmic search) 这种方法采用的匹配判据是MSE为最小。它的搜索策略是沿着最小失真方向搜索。二维 对数搜索方法如图13-06所示。在搜索时,每移动一次就检査5个搜索点。如果最小失真在中 央或在边界,就减少搜索点之间的距离。在这个例子中,步骤1,2,…,5得到的近似移动 矢量a(i,产2)、(i,产4)、(计+2,广4)、(计2,产5)和(计+2,产6),最后得到的移动矢 量为d(i+2,产6)
第13章 MPEG电视 5 图13-5 移动矢量的算法框图 要使预测图像更精度,就要求找到与参考宏块MRJ最佳匹配的预测图像编码宏块MPI。所 谓最佳匹配是指这两个宏块之间的差值最小。通常以绝对值AE(absolute difference)最小 作为匹配判据, − = = − − − 15 0 15 0 ( , ) ( , ) j x y i AE f i j g i d j d , (i = j = 16) 有些学者提出了以均方误差MSE(mean-square error)最小作为匹配判据, − − − 2 J 2 I 2 I J 1 = [ ( , ) ( , )] j x y i MSE f i j g i d j d , (i = j = 16) 也有些学者提出以平均绝对帧差MAD(mean of the absolute frame difference)最小作 为匹配判据, = ( , ) ( , ) 2 J 2 I I J 1 x y i j MAD f i j − g i − d j − d , (i = j = 16) 其中,dx和dy分别是参考宏块MRJ的移动矢量d(dx, dy)在X和Y方向上的矢量。 从以上分析可知,对预测图像的编码实际上就是寻找最佳匹配图像宏块,找到最佳宏块 之后就找到了最佳移动矢量d(dx,dy)。 为减少搜索次数,现在已开发出许多简化算法用来寻找最佳宏块,下面介绍其中的三种。 1. 二维对数搜索法(2D-logarithmic search) 这种方法采用的匹配判据是MSE为最小。它的搜索策略是沿着最小失真方向搜索。二维 对数搜索方法如图13-06所示。在搜索时,每移动一次就检查5个搜索点。如果最小失真在中 央或在边界,就减少搜索点之间的距离。在这个例子中,步骤1,2,…,5得到的近似移动 矢量d为(i,j-2)、(i,j-4)、(i+2,j-4)、(i+2,j-5)和(i+2,j-6),最后得到的移动矢 量为d(i+2,j-6)
第13章MEG电视 1-51-41-3i-21-1i计+1计2计3计+4计+5计6 321 J+23 图13-06二维对数搜索法 2.三步搜索法( three- step search) 这种搜索法与二维对数搜索法很接近。不过在开始搜索时,搜索点离(i,力这个中心点 很远,第一步就测试8个搜索点,如图13-07所示。在这个例子中,点(计3,产3)作为第一个 近似的移动矢量d;第二步,搜索点偏离(i+3,产3)较近,找到的点假定为(i+3,5):第 三步给出了最后的移动矢量为d(i+2,产6)。本例采用MAD作为匹配判据。 1-6i-5i-41-3i-21-11i+1i2t3i+4 1-3 图13-07三步搜索法 3.对偶搜索法( conjugate search) 这是一个很有效的搜索方法,该法使用MAD作为匹配判据,示于图13-08。在第一次搜索 时,通过计算点(-1,、(i,力和(计+1,力处的MAD值来决定i方向上的最小失真。如果计 算结果表明点(计+1,力处的MAD为最小,就计算点(计+2,力处的MAD,并从(i,力,(+1,j) 和(计+2,j)的MAD中找出最小值。按这种方法一直进行下去,直到在向上找到最小MAD值 及其对应的点 在这个例子中,假定在访方向上找到的点为(计+2,力。在方向上找到最小MAD值对应的 点之后,就沿方向去找最小MAD值对应的点,方法与方向的搜索方法相同。最后得到的移 动矢量为d(计+2,产6)
第13章 MPEG电视 6 图13-06 二维对数搜索法 2. 三步搜索法(three-step search) 这种搜索法与二维对数搜索法很接近。不过在开始搜索时,搜索点离(i,j)这个中心点 很远,第一步就测试8个搜索点,如图13-07所示。在这个例子中,点(i+3,j-3)作为第一个 近似的移动矢量d1;第二步,搜索点偏离(i+3,j-3)较近,找到的点假定为(i+3,j-5);第 三步给出了最后的移动矢量为d(i+2,j-6)。本例采用MAD作为匹配判据。 图13-07 三步搜索法 3. 对偶搜索法(conjugate search) 这是一个很有效的搜索方法,该法使用MAD作为匹配判据,示于图13-08。在第一次搜索 时,通过计算点(i-1,j)、(i,j)和(i+1,j)处的MAD值来决定i方向上的最小失真。如果计 算结果表明点(i+1,j)处的MAD为最小,就计算点(i+2,j)处的MAD,并从(i,j),(i+1,j) 和(i+2,j)的MAD中找出最小值。按这种方法一直进行下去,直到在i方向上找到最小MAD值 及其对应的点。 在这个例子中,假定在i方向上找到的点为(i+2,j)。在i方向上找到最小MAD值对应的 点之后,就沿j方向去找最小MAD值对应的点,方法与i方向的搜索方法相同。最后得到的移 动矢量为d(i+2,j-6)
第13章MEG电视 161514i3:2i1i计+1计2计3计+4计+5计 5432 什+什计什 123456 图13-08对偶搜索法 在整个ⅧPEG图像压缩过程中,寻找最佳匹配宏块要占据相当多的计算时间,匹配得越好 重构的图像质量越高。 13.2.4双向预测图像B的压缩编码算法 双向预测图像B的压缩编码框图如图13-09所示。具体计算方法与预测图像P的算法类似 这里不再重复。 过去的参考图象 将来的参考图象 囟-0x DCT+量化+RLE 移动矢量一 011010. 图13-09双向预测图像B的压缩编码算法框图[2] 13.2.5电视图像的结构 MPEG编码器算法允许选择I图像的频率和位置。I图像的频率是指每秒钟出现I图像的次 数,位置是指时间方向上帧所在的位置。一般情况下,I图像的频率为2。MPEG编码器也允许 在一对I图像或者P图像之间选择B图像的数目。I图像、P图像和B图像数目的选择依据主要是 根节目的内容。例如,对于快速运动的图像,I图像的频率可以选择高一些,B图像的数目可 以选择少一点;对于慢速运动的图像I图像的频率可以低一些,而B图像的数目可以选择多 点。此外,在实际应用中还要考虑媒体的速率 个典型的I、P和B图像的安排如图13-10所示。编码参数为:帧内图像I的距离为N=15, 预测图像(P)的距离为M=3 1秒钟 图象类型| BBPBBPBBPBBPBB| BBPBBPBBPBBPBB 显示顺序23456789廿惚1悔哲们惚怛2022282425862729230 图13-10MPEG电视帧编排
第13章 MPEG电视 7 图13-08 对偶搜索法 在整个MPEG图像压缩过程中,寻找最佳匹配宏块要占据相当多的计算时间,匹配得越好, 重构的图像质量越高。 13.2.4 双向预测图像B的压缩编码算法 双向预测图像B的压缩编码框图如图13-09所示。具体计算方法与预测图像P的算法类似, 这里不再重复。 图13-09 双向预测图像B的压缩编码算法框图[2] 13.2.5 电视图像的结构 MPEG编码器算法允许选择I图像的频率和位置。I图像的频率是指每秒钟出现I图像的次 数,位置是指时间方向上帧所在的位置。一般情况下,I图像的频率为2。MPEG编码器也允许 在一对I图像或者P图像之间选择B图像的数目。I图像、P图像和B图像数目的选择依据主要是 根节目的内容。例如,对于快速运动的图像,I图像的频率可以选择高一些,B图像的数目可 以选择少一点;对于慢速运动的图像I图像的频率可以低一些,而B图像的数目可以选择多一 点。此外,在实际应用中还要考虑媒体的速率。 一个典型的I、P和B图像的安排如图13-10所示。编码参数为:帧内图像I的距离为N=15, 预测图像(P)的距离为M=3。 图13-10 MPEG电视帧编排
第13章MEG电视 I、P和B图像压缩后的大小如表13-02所示,单位为位。从表中可以看到,I帧图像的数 据量最大,而B帧图像的数据量最小。 表13-2MPEG三种图像的压缩后的典型值(位) 图像类型 B平均数据/帧 MPEG1CIF格式(1.15Wb/s)1500005002000038000 MPEG-2601格式(4.00Mb/s)|40000020000080000130000 13.3MPEG2的配置和等级 在MPEG-2标准化阶段,考虑到要适应不同数据速率设备的应用,MPEG专家组定义了三种 质量不同的编码方式:信噪比可变性( Signal-to- Noise Scalability),空间分辨率可变性 ( Spatial Scalability)和时间分辨率可变性( Temporal Scalability) 信噪比可变性SNR( Signal-to- Noise scalability)是指图像质量的折中,对于数据率比 较低的解码器使用比较低的信噪比,而对数据率比较高的解码器则使用比较高的信噪比;空 间分辨率可变性( Spatial scalability)是指图像的空间分辨率的折中,对于低速率的接受 器使用比较低的图像分辨率,而对于数据率比较高的接受器使用比较高的图像分辨率;时间 分辨率可变性( Temporal Scalability)是指图像在时间方向上分辨率的折中,与空间分辨率 类似 MPEG-2为此引入了“配置( Profiles)”和参数“等级( Levels)”的概念。每种配置定义 一套新的算法,而每一个等级指定一套参数范围(如图像大小、帧速率和位速率)。MPEG2 规定的配置规格如表13-03所示,等级规格如表13-04所示 表13-03MPBG2的配置 配置( Profile 算法( Algorithms) 支持由空间分辨率可变配置( Spatial scalable Profile)提供的 (高档) 所有功能和其他规定功能 子采样各种:YUV4:2:2用于进一步提高图像质量 Spatial scalable 支持信噪比可变配置( SNR Scalable profile)提供的所有功能和 (空间分辨率可变)空间分辨率可变( Spatial scalable coding)算法(2层) 子采样格式:YUV:4:2:0 SNr scalable 支持基本配置( Main profile)提供的所有功能和信噪比可变编码 (信噪比可变) ( SNR scalable coding)算法②2层) 采样格式:YUV:4:2:0 非可变速率编码算法支持随机存取,B图像预测方式 (基本) 子采样格式:YUV:4:2:0 除不支持基本配置( (Main F" ofile)提供的B图像预测功能外,基本 (简化) 配置的其他所有功能都支持 采样格式:YUV:4:2:0 表13-04MPBG2的等级 等级参数( Parameters 说明 (Level) 1920 samples/line1920样本/行 HIGH 1152 lines/fr 1152行/帧 (高级)60 frames/s 60帧/秒 80 Mb/s 80兆位/秒 1440 samples/line1440样本/行
第13章 MPEG电视 8 I、P和B图像压缩后的大小如表13-02所示,单位为位。从表中可以看到,I帧图像的数 据量最大,而B帧图像的数据量最小。 表13-2 MPEG三种图像的压缩后的典型值(位) 图像类型 I P B 平均数据/帧 MPEG-1 CIF 格式(1.15 Mb/s) 150 000 50 000 20 000 38 000 MPEG-2 601 格式(4.00 Mb/s) 400 000 200 000 80 000 130 000 13.3 MPEG-2的配置和等级 在MPEG-2标准化阶段,考虑到要适应不同数据速率设备的应用,MPEG专家组定义了三种 质量不同的编码方式:信噪比可变性(Signal-to-Noise Scalability),空间分辨率可变性 (Spatial Scalability)和时间分辨率可变性(Temporal Scalability)。 信噪比可变性SNR(Signal-to-Noise scalability)是指图像质量的折中,对于数据率比 较低的解码器使用比较低的信噪比,而对数据率比较高的解码器则使用比较高的信噪比;空 间分辨率可变性(Spatial scalability)是指图像的空间分辨率的折中,对于低速率的接受 器使用比较低的图像分辨率,而对于数据率比较高的接受器使用比较高的图像分辨率;时间 分辨率可变性(Temporal Scalability)是指图像在时间方向上分辨率的折中,与空间分辨率 类似。 MPEG-2为此引入了“配置(Profiles)”和参数“等级(Levels)”的概念。每种配置定义 一套新的算法,而每一个等级指定一套参数范围(如图像大小、帧速率和位速率)。MPEG-2 规定的配置规格如表13-03所示,等级规格如表13-04所示。 表13-03 MPEG-2的配置 配置(Profile) 算法(Algorithms) High (高档) ⚫ 支持由空间分辨率可变配置(Spatial Scalable Profile)提供的 所有功能和其他规定功能 ⚫ 子采样各种:YUV 4:2:2 用于进一步提高图像质量 Spatial scalable (空间分辨率可变) ⚫ 支持信噪比可变配置(SNR Scalable Profile)提供的所有功能和 空间分辨率可变(Spatial scalable coding)算法(2层) ⚫ 子采样格式:YUV:4:2:0 SNR scalable (信噪比可变) ⚫ 支持基本配置(Main Profile)提供的所有功能和信噪比可变编码 (SNR scalable coding)算法(2层) ⚫ 子采样格式:YUV:4:2:0 Main (基本) ⚫ 非可变速率编码算法支持随机存取,B图像预测方式 ⚫ 子采样格式:YUV:4:2:0 Simple (简化) ⚫ 除不支持基本配置(Main Profile)提供的B图像预测功能外,基本 配置的其他所有功能都支持 ⚫ 子采样格式:YUV:4:2:0 表13-04 MPEG-2的等级 等级 (Level) 参数(Parameters) 说明 1920 samples/line 1920 样本/行 HIGH 1152 lines/frame 1152 行/帧 (高级) 60 frames/s 60 帧/秒 80 Mb/s 80 兆位/秒 1440 samples/line 1440 样本/行
第13章MPEG电视 HGH14401521ines/ frame■152行/帧 高级1440[60 frames/s 60帧/秒 60 Mb/s 60兆位/秒 720 samples/line720样本/行 MAIN5761ines/ frame576行/帧 (基本级)30 frames/s 15 Mb/s 15兆位/秒 352 samples/line352样本/行 LOW 2881ines/ frame288行/帧 (低级)30 frames/s 30帧/秒 4 Mb/s 4兆位/秒 由配置( profile)和参数等级( level)组合起来的MPEG2所支持的各种电视规格如表 13-05所示。前者定义质量的可变性( scalability)和彩色空间分辨率的句法子集,后者定义 图像分辨率和每种配置的最大位速率的参数集。例如,当前使用得最普遍的描述符是MPML ( Main profile, Main level),可译成“基本配置@基本级电视”或者“基本句法子集@基本 参数级”,它指的是具有这种特性的电视:帧速率为30帧/秒,分辨率为720×576×30,子 采样格式为4:2:0,位速率达15Mb/s。MPEG2标准期待大多数MPEG-2设备都能够支持这种电 视。又如,MPL( Main profile, High Level)描述符指的是帧速率为60帧/秒、分辨率为 1920×1152×60、子采样格式为4:2:0、位速率达80Mb/s的ⅢTV制电视 表13-05MPBG2配置等级和参数级 Level\ Simple Main patla High Profile(简化型)(基本型)| Scalability Scalability(高档型) (等级\配置) 信噪比(空间分辨率 可变型) 可变型) Hi 4:2:0 4:2:0,4:2:2 高级) 1920×1152× 1920×1152× 80 Mb/s 80Mb/ I. P, B High-1440 4:2:0 4:2:04:2:0,4:2:2 (高级1440) 1440×1152× 1440×1152×1440×1152 60 60 Mb/s 60 Mb/s Mb/s Main 4:2:0 4:2:0 4:2:0 4:2:0 (基本级)|720×576×30720×576×30720×576×30 720×576×30 15 Mb/s 15 Mb/s 15 Mb/s 0 Mb/s I, P, B Low 4:2:0 4:2:0 (低级) 352×288×30352×288×30 4 Mb/s 4 Mb/s L. P, B 13.4MPEG-4电视图像编码 MPEG Video专家组建立了一个用来开发图像和电视图像编码技术的模型,叫做“试验模 型( Test model)”或者叫做“验证模型(wM- -Verification model)”。这个模型描述了一个
第13章 MPEG电视 9 HIGH 1440 1152 lines/frame 1152 行/帧 (高级1440) 60 frames/s 60 帧/秒 60 Mb/s 60 兆位/秒 720 samples/line 720 样本/行 MAIN 576 lines/frame 576 行/帧 (基本级) 30 frames/s 30 帧/秒 15 Mb/s 15 兆位/秒 352 samples/line 352 样本/行 LOW 288 lines/frame 288 行/帧 (低级) 30 frames/s 30 帧/秒 4 Mb/s 4 兆位/秒 由配置(profile)和参数等级(level)组合起来的MPEG-2所支持的各种电视规格如表 13-05所示。前者定义质量的可变性(scalability)和彩色空间分辨率的句法子集,后者定义 图像分辨率和每种配置的最大位速率的参数集。例如,当前使用得最普遍的描述符是MP@ML (Main Profile, Main Level),可译成“基本配置@基本级电视”或者“基本句法子集@基本 参数级”,它指的是具有这种特性的电视:帧速率为30帧/秒,分辨率为720×576×30,子 采样格式为4:2:0,位速率达15 Mb/s。MPEG-2标准期待大多数MPEG-2设备都能够支持这种电 视。又如,MP@HL (Main Profile, High Level)描述符指的是帧速率为60帧/秒、分辨率为 1920×1152×60、子采样格式为4:2:0、位速率达80 Mb/s的HDTV制电视。 表13-05 MPEG-2配置等级和参数级 Level\ Profile (等级\配置) Simple (简化型) Main (基本型) SRN Scalability (信噪比 可变型) Spatial Scalability (空间分辨率 可变型) High (高档型) High (高级) 4:2:0 1920×1152× 60 80 Mb/s I, P, B 4:2:0, 4:2:2 1920×1152× 60 80 Mb/s I, P, B High-1440 (高级1440) 4:2:0 1440×1152× 60 60 Mb/s I, P, B 4:2:0 1440×1152× 60 60 Mb/s I, P, B 4:2:0, 4:2:2 1440×1152× 60 60 Mb/s I, P, B Main (基本级) 4:2:0 720×576×30 15 Mb/s I, P 4:2:0 720×576×30 15 Mb/s I, P, B 4:2:0 720×576×30 15 Mb/s I, P, B 4:2:0 720×576×30 20 Mb/s I, P, B Low (低级) 4:2:0 352×288×30 4 Mb/s I, P, B 4:2:0 352×288×30 4 Mb/s I, P, B 13.4 MPEG-4电视图像编码 MPEG Video专家组建立了一个用来开发图像和电视图像编码技术的模型,叫做“试验模 型(Test Model)”或者叫做“验证模型(VM—Verification Model)”。这个模型描述了一个
第13章MPEG电视 核心的编码算法平台,包括编码器、解码器以及位流( bitstream)的语法和语义。本节就电 视图像的编码和解码的基本方法作一个简单介绍,其他内容请看本章所附的参考文献和站 点 13.4.1电视图像对象区的概念 MPEG-4 Video编码算法支持由MPEG-1和MPEG-2提供的所有功能,包括对各种输入格式下 的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。MEG-4Ⅵideo算法的核心是支 持内容基( content- based)的编码和解码功能,也就是对场景中使用分割算法抽取的单独的 物理对象进行编码和解码。MPEG-4 Video还提供管理这些电视内容的最基本方法 为了实现预想的内容基交互等功能,MPEG-4 Video验证模型引进了一个叫做“电视图像 对象区( Video0 bject Plane,WOP)”的概念。如图13-11所示,上图表示支持MPEG-1和MPEG-2 的普通的MPEG-4编码器,下图表示MPEG-4的甚低速率电视图像 Very Low Bitrate video, ⅥLBⅴ)的核心编码器。MPEG-4 Video验证模型不像MPEG-1/-2 Video那样把电视图像都认为是 一个矩形区,而是假设每帧图像被分割成许多任意形状的图像区,每个区都有可能覆盖描述 场景中感兴趣的物理对象或者内容,这种区被定义为图像对象区VOP Generic MPEG-4 Coder Video MotionTexture Object Plane (MV)(DCT) bitstream (位流) (与MPEG1H261类似) MPEG- 4 VLBV Core Coder video Object- shape Motion Texture>bitstream Plane (MV)(DCT (位流 图13-11普通MPEG-4编码器和MPEG-4ⅥLBV核心编码器[3] 编码器输入的是任意形状的图像区,图像区的形状和位置也可随帧的变化而改变。属于 相同物理对象的连续的电视图像对象区(VOP)组成电视图像对象( Video0 bjects,VO)。例如 个没有背景图像的正在演讲的人,如图13-11所示。MPEG-4可单独对属于相同电视图像对 象(VO)的电视图像区(VOP)的形状、移动( motion)和纹理( texture)信息进编码和传送,或者 把它们编码成一个单独的电视图像对象层( Video0 bject layer,woL)。此外,需要标识每 个电视图像对象层(VOL的信息也包含在编码后的位流( bitstream)中,这些信息包括各种电 视图像对象层(OL)的电视图像在接收端应该如何进行组合,以便重构完整的原始图像序列 这样就可以对每个电视图像对象区(VOP)进行单独解码,提供了管理电视图像序列的灵活性 13.4.2电视图像编码方案 MPEG-4 Video验证模型对每个电视图像对象(O)的形状、移动和纹理信息进行编码形成 单独的VoL层,以便能够单独对电视图像对象(VO)进行解码。如果输入图像序列只包含标准 的矩形图像,就不需要形状编码,在这种情况下,MEG-4 Video使用的编码算法结构也就与 MPEG-1和MPEG-2使用的算法结构相同。 wPEG-4 Video验证模型对每个电视图像对象区(VOP)进行编码使用的压缩算法是在 MPEG-1和MPEG-2 Video标准的基础上开发的,它也是以图像块为基础的混合DPCM和变换编码 技术( hybrid DPCM/ Transform coding)。MPEG-4编码算法也定义了帧内电视图像对象区 ( Intra- Frame VOl,I-VoP)编码方式和帧间电视图像对象区预测( Inter- frame VO prediction,简写为P-VOP)编码方式,它也支持双向预测电视图像对象区(B- directionally predicted vOP,B-VOP)方式。在对电视图像对象区(VOP)的形状编码之后,颜色图像序列分
第13章 MPEG电视 10 核心的编码算法平台,包括编码器、解码器以及位流(bitstream)的语法和语义。本节就电 视图像的编码和解码的基本方法作一个简单介绍,其他内容请看本章所附的参考文献和站 点。 13.4.1 电视图像对象区的概念 MPEG-4 Video编码算法支持由MPEG-1和MPEG-2提供的所有功能,包括对各种输入格式下 的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。MPEG-4 Video算法的核心是支 持内容基(content-based)的编码和解码功能,也就是对场景中使用分割算法抽取的单独的 物理对象进行编码和解码。MPEG-4 Video还提供管理这些电视内容的最基本方法。 为了实现预想的内容基交互等功能,MPEG-4 Video验证模型引进了一个叫做“电视图像 对象区(Video Object Plane,VOP)”的概念。如图13-11所示,上图表示支持MPEG-1和MPEG-2 的普通的MPEG-4编码器,下图表示MPEG-4的甚低速率电视图像(Very Low Bitrate Video, VLBV)的核心编码器。MPEG-4 Video验证模型不像MPEG-1/-2 Video那样把电视图像都认为是 一个矩形区,而是假设每帧图像被分割成许多任意形状的图像区,每个区都有可能覆盖描述 场景中感兴趣的物理对象或者内容,这种区被定义为图像对象区VOP。 图13-11 普通MPEG-4编码器和MPEG-4 VLBV核心编码器[3] 编码器输入的是任意形状的图像区,图像区的形状和位置也可随帧的变化而改变。属于 相同物理对象的连续的电视图像对象区(VOP)组成电视图像对象(Video Objects,VO)。例如, 一个没有背景图像的正在演讲的人,如图13-11所示。MPEG-4可单独对属于相同电视图像对 象(VO)的电视图像区(VOP)的形状、移动(motion)和纹理(texture)信息进编码和传送,或者 把它们编码成一个单独的电视图像对象层(Video Object Layer,VOL)。此外,需要标识每 个电视图像对象层(VOL)的信息也包含在编码后的位流(bitstream)中,这些信息包括各种电 视图像对象层(VOL)的电视图像在接收端应该如何进行组合,以便重构完整的原始图像序列。 这样就可以对每个电视图像对象区(VOP)进行单独解码,提供了管理电视图像序列的灵活性。 13.4.2 电视图像编码方案 MPEG-4 Video验证模型对每个电视图像对象(VO)的形状、移动和纹理信息进行编码形成 单独的VOL层,以便能够单独对电视图像对象(VO)进行解码。如果输入图像序列只包含标准 的矩形图像,就不需要形状编码,在这种情况下,MPEG-4 Video使用的编码算法结构也就与 MPEG-1和MPEG-2使用的算法结构相同。 MPEG-4 Video验证模型对每个电视图像对象区(VOP)进行编码使用的压缩算法是在 MPEG-1和MPEG-2 Video标准的基础上开发的,它也是以图像块为基础的混合DPCM和变换编码 技术(hybrid DPCM/Transform coding)。MPEG-4编码算法也定义了帧内电视图像对象区 (Intra-Frame VOP,I-VOP)编码 方式 和帧间 电视 图像对 象区 预测(Inter-frame VOP prediction,简写为P-VOP)编码方式,它也支持双向预测电视图像对象区(B-directionally predicted VOP,B-VOP)方式。在对电视图像对象区(VOP)的形状编码之后,颜色图像序列分