清华大学：《多媒体技术》课程教学资源（教材教案讲义）第13章 MPEG电视.doc_大学文库

第13章MPEG电视水水水水*水水水水冰水水水水水水水水水水水客水水水水水水冰水水水水冰水水水水水水水水水水水水水冰水水水冰水水水水水水水水*水水冰水水水冰水 13.1电视图像的数据率 13.1.1ITU-RBT.601标准数据率 13.1.2VCD电视图像数据率的估算 13.1.3DVD电视图像数据率的估算 13.2数据压缩算法 13.2.1简介 13.2.2帧内图像I的压缩编码算法 13.2.3预测图像P的压缩编码算法 13.2.4双向预测图像B的压缩编码算 13.2.5电视图像的结构 13.3MPEG2的配置和等级 13.4MPEG-4电视图像编码 13.4.1电视图像对象区的概念 13.4.2电视图像编码方案 13.4.3电视图像分辨率可变编码 3.5HDTV格式练习与思考题参考文献和站点水水水冰冰水水水水水水水本水水冰水客客冰本水水水水客水水水水木水水水客水水本*水冰水水水冰冰水水水水水冰水水水水水水水半水水水水本水冰水 MPEG-1和-2ideo标准有许多共同之处,基本概念类似,数据压缩编码方法基本相同, 都采用以图像块作为基本单元进行变换、量化和移动补偿等技术来获得高压缩比。MPEG-4 Video部分采用内容基编码技术,它除与MPEG-1和-2 Video向后兼容外,还引入了电视图像对象(WO)的概念,在某些应用场合下,对场景中的图像分别进行编码可以获得很高的压缩比而服务质量也能满足要求。下面将简要介绍这些标准中压缩电视图像数据的基本方法。 13.1电视图像的数据率 13.1.1ITU-RBT.601标准数据率按照奈奎斯特( Nyquist)采样理论,模拟电视信号经过采样(把连续的时间信号变成离散的时间信号)和量化(把连续的幅度变成离散的幅度信号)之后,数字电视信号的数据量大得惊人,当前的存储器和网络都还没有足够的能力支持这种数据传输率,因此就要对数字电视信号进行压缩。为了在PAL、NTSC和 SECAM彩色电视制之间确定一个共同的数字化参数,早在1982年国际无线电咨询委员会(CCIR就制定了演播室质量的数字电视编码标准,这就是非常有名的 ITU-RBT.601标准。按照这个标准,使用4:2:2的采样格式,亮度信号Y的采样频率选择为13.5 MHz/s,而色差信号Cr和Cb的采样频率选择为6.75Mz/s,在传输数字电视信号通道上的数据传输率就达到为270Mb/s(兆位/秒)!,即亮度(Y) 58样本/行×525行/帧×30帧/秒×10位/样本≡135兆位/秒(NTSC) 864样本/行×625行/帧×25帧/秒×10位/样本三135兆位/秒(PAL) Cr(R-y) 429样本/行×525行/帧×30帧/秒×10位/样本三68兆位/秒(NTSC) 429样本/行×625行/帧×25帧/秒×10位/样本三68兆位/秒(PAL) Cb(B-Y) 429样本/行×525行/帧×30帧/秒×10位/样本≡68兆位/秒(NTSC)

第13章 MPEG电视 *************************************************************************** 13.1 电视图像的数据率 13.1.1 ITU-R BT.601标准数据率 13.1.2 VCD电视图像数据率的估算 13.1.3 DVD电视图像数据率的估算 13.2 数据压缩算法 13.2.1 简介 13.2.2 帧内图像I的压缩编码算法 13.2.3 预测图像P的压缩编码算法 13.2.4 双向预测图像B的压缩编码算法 13.2.5 电视图像的结构 13.3 MPEG-2的配置和等级 13.4 MPEG-4电视图像编码 13.4.1 电视图像对象区的概念 13.4.2 电视图像编码方案 13.4.3 电视图像分辨率可变编码 13.5 HDTV格式练习与思考题参考文献和站点 *************************************************************************** MPEG-1和-2 Video标准有许多共同之处，基本概念类似，数据压缩编码方法基本相同，都采用以图像块作为基本单元进行变换、量化和移动补偿等技术来获得高压缩比。MPEG-4 Video部分采用内容基编码技术，它除与MPEG-1和-2 Video向后兼容外，还引入了电视图像对象(VO)的概念，在某些应用场合下，对场景中的图像分别进行编码可以获得很高的压缩比而服务质量也能满足要求。下面将简要介绍这些标准中压缩电视图像数据的基本方法。 13.1 电视图像的数据率 13.1.1 ITU-R BT.601标准数据率按照奈奎斯特(Nyquist)采样理论，模拟电视信号经过采样(把连续的时间信号变成离散的时间信号)和量化(把连续的幅度变成离散的幅度信号)之后，数字电视信号的数据量大得惊人，当前的存储器和网络都还没有足够的能力支持这种数据传输率，因此就要对数字电视信号进行压缩。为了在PAL、NTSC和SECAM彩色电视制之间确定一个共同的数字化参数，早在1982年国际无线电咨询委员会(CCIR)就制定了演播室质量的数字电视编码标准，这就是非常有名的 ITU-R BT.601标准。按照这个标准，使用4:2:2的采样格式，亮度信号Y的采样频率选择为13.5 MHz/s，而色差信号Cr和Cb的采样频率选择为6.75 MHz/s，在传输数字电视信号通道上的数据传输率就达到为270 Mb/s(兆位/秒)！，即亮度(Y): 858样本/行×525行/帧×30帧/秒×10位/样本  135兆位/秒(NTSC) 864样本/行×625行/帧×25帧/秒×10位/样本  135兆位/秒(PAL) Cr (R-Y): 429样本/行×525行/帧×30帧/秒×10位/样本  68兆位/秒(NTSC) 429样本/行×625行/帧×25帧/秒×10位/样本  68兆位/秒(PAL) Cb (B-Y): 429样本/行×525行/帧×30帧/秒×10位/样本  68兆位/秒(NTSC)

第13章MPEG电视 429样本/行×625行/帧×25帧/秒×10位/样本≡68兆位/秒(PAL) 总计:27兆样本/秒×10位/样本=270兆位/秒实际上,在荧光屏上显示出来的有效图像的数据传输率并没有那么高, 亮度(Y) 720×480×30×10≡104Mb/s(NTSC) 720×576×25×10=104Mb/s(PAL) 色差(Cr,Cb):2×360×480×30×10≡104Mb/s(NTSC) 2×360×576×25×10=104Mb/s(PAL) 总计 207 Mb/s 如果每个样本的采样精度由10位降为8位,彩色数字电视信号的数据传输率就降为166 Mb/s 13.1.2电视图像数据率的估算如果考虑使用 Video-CD存储器来存储数字电视,由于它的数据传输率可达到1.4112 Mb/s,分配给电视信号的数据传输率为1.15Mb/s,这就意味MPEG电视编码器的输出数据率要达到1.15M/s。显而易见,如果存储166Ⅷb/s的数字电视信号就需要对它进行高度压缩, 压缩比高达166/1.15=1441 MPEG-1电视图像压缩技术不能达到这样高的压缩比。为此首先把MTSC和PAL数字电视转换成公用中分辨率格式 CIF(Common Intermediate Format)的数字电视,这种格式相当于 VHS( Video Home System)的质量,于是彩色数字电视的数据传输率就减小到 352×240×30×8×1.5≡30Mb/s(NTSC) 352×288×25×8×1.530Mb/s(PAL)。把这种彩色电视信号存储到CD盘上所需要的压缩比为:30/1.1526:1。这就是MPEG-1技术所能获得的压缩比 13.1.3电视图像数据率的估算根据当前成熟的压缩技术,电视图像的数据率压缩成平均为3.5Mb/s~4.7Mb/s时非专家难于区分电视图像在压缩前后的之间差别。如果使用DWD- Video存储器来存储数字电视, 它的数据传输率虽然可以达到10.08Mb/s,但一张4.7GB的单面单层DWD盘要存放133分钟的电视节目,按照数字电视信号的平均数据传输率为4.1Mb/s来计算,压缩比要达到:166/4.10 40:1 如果电视图像的子采样使用4:2:0格式,每个样本的精度为8位,数字电视信号的数据传输率就减小到124Mb/s,即 720×480×30×8×1.5≡124Mb/s(NTSC) 720×576×25×8×1.5124Mb/s(PAL) 使用 DVD-Video来存储720×480×30或者720×576×25的数字电视图像所需要的压缩比为:124/4.130:1。 13.2数据压缩算法 13.2.1简介电视图像数据压缩利用的各种特性和采用的方法归纳在表13-1中。从表中可以看到,电视图像本身在时间上和空间上都含有许多冗余信息,图像自身的构造也有冗余性。此外,正如前面所介绍的,利用人的视觉特性也可对图像进行压缩,这叫做视觉冗余表13-1电视图像压缩利用的各种冗余信息目前用的主要方法统计空间冗余像素间的相关性换编码,预测编码寺性时间冗余时间方向上的相关性帧间预测,移动补偿图像构造冗余图像本身的构造轮廓编码,区域分割和识冗余收发两端对人物的共有认识基于知识的编码视觉冗余人的视觉特性非线性量化,位分配

第13章 MPEG电视 2 429样本/行×625行/帧×25帧/秒×10位/样本  68兆位/秒(PAL) 总计: 27兆样本/秒×10位/样本 = 270兆位/秒实际上，在荧光屏上显示出来的有效图像的数据传输率并没有那么高，亮度(Y): 720×480×30×10 104 Mb/s (NTSC) 720×576×25×10 104 Mb/s (PAL) 色差(Cr，Cb): 2×360×480×30×10 104 Mb/s (NTSC) 2×360×576×25×10 104 Mb/s (PAL) 总计: ～ 207 Mb/s 如果每个样本的采样精度由10位降为8位，彩色数字电视信号的数据传输率就降为166 Mb/s。 13.1.2 电视图像数据率的估算如果考虑使用Video-CD存储器来存储数字电视，由于它的数据传输率可达到1.4112 Mb/s，分配给电视信号的数据传输率为1.15 Mb/s，这就意味MPEG电视编码器的输出数据率要达到1.15 Mb/s。显而易见，如果存储166 Mb/s的数字电视信号就需要对它进行高度压缩，压缩比高达166/1.15  144:1。 MPEG-1电视图像压缩技术不能达到这样高的压缩比。为此首先把NTSC和PAL数字电视转换成公用中分辨率格式CIF(Common Intermediate Format)的数字电视，这种格式相当于 VHS(Video Home System)的质量，于是彩色数字电视的数据传输率就减小到 352×240×30×8×1.5  30 Mb/s (NTSC) 352×288×25×8×1.5  30 Mb/s (PAL)。把这种彩色电视信号存储到CD盘上所需要的压缩比为：30/1.15  26:1。这就是MPEG-1技术所能获得的压缩比。 13.1.3 电视图像数据率的估算根据当前成熟的压缩技术，电视图像的数据率压缩成平均为3.5 Mb/s ～ 4.7 Mb/s时非专家难于区分电视图像在压缩前后的之间差别。如果使用DVD-Video存储器来存储数字电视，它的数据传输率虽然可以达到10.08 Mb/s，但一张4.7 GB的单面单层DVD盘要存放133分钟的电视节目，按照数字电视信号的平均数据传输率为4.1 Mb/s来计算，压缩比要达到：166/4.10  40:1。如果电视图像的子采样使用4:2:0格式，每个样本的精度为8位，数字电视信号的数据传输率就减小到124 Mb/s，即 720×480×30×8×1.5  124 Mb/s (NTSC) 720×576×25×8×1.5  124 Mb/s (PAL) 使用DVD-Video来存储720×480×30或者720×576×25的数字电视图像所需要的压缩比为：124/4.1  30:1。 13.2 数据压缩算法 13.2.1 简介电视图像数据压缩利用的各种特性和采用的方法归纳在表13-1中。从表中可以看到，电视图像本身在时间上和空间上都含有许多冗余信息，图像自身的构造也有冗余性。此外，正如前面所介绍的，利用人的视觉特性也可对图像进行压缩，这叫做视觉冗余。表13-1 电视图像压缩利用的各种冗余信息种类内容目前用的主要方法统计空间冗余像素间的相关性变换编码，预测编码特性时间冗余时间方向上的相关性帧间预测，移动补偿图像构造冗余图像本身的构造轮廓编码，区域分割知识冗余收发两端对人物的共有认识基于知识的编码视觉冗余人的视觉特性非线性量化，位分配

第13章MEG电视 I、P和B图像压缩后的大小如表13-02所示,单位为位。从表中可以看到,I帧图像的数据量最大,而B帧图像的数据量最小。表13-2MPEG三种图像的压缩后的典型值(位) 图像类型 B平均数据/帧 MPEG1CIF格式(1.15Wb/s)1500005002000038000 MPEG-2601格式(4.00Mb/s)|40000020000080000130000 13.3MPEG2的配置和等级在MPEG-2标准化阶段,考虑到要适应不同数据速率设备的应用,MPEG专家组定义了三种质量不同的编码方式:信噪比可变性( Signal-to- Noise Scalability),空间分辨率可变性 ( Spatial Scalability)和时间分辨率可变性( Temporal Scalability) 信噪比可变性SNR( Signal-to- Noise scalability)是指图像质量的折中,对于数据率比较低的解码器使用比较低的信噪比,而对数据率比较高的解码器则使用比较高的信噪比;空间分辨率可变性( Spatial scalability)是指图像的空间分辨率的折中,对于低速率的接受器使用比较低的图像分辨率,而对于数据率比较高的接受器使用比较高的图像分辨率;时间分辨率可变性( Temporal Scalability)是指图像在时间方向上分辨率的折中,与空间分辨率类似 MPEG-2为此引入了“配置( Profiles)”和参数“等级( Levels)”的概念。每种配置定义一套新的算法,而每一个等级指定一套参数范围(如图像大小、帧速率和位速率)。MPEG2 规定的配置规格如表13-03所示,等级规格如表13-04所示表13-03MPBG2的配置配置( Profile 算法( Algorithms) 支持由空间分辨率可变配置( Spatial scalable Profile)提供的 (高档) 所有功能和其他规定功能子采样各种:YUV4:2:2用于进一步提高图像质量 Spatial scalable 支持信噪比可变配置( SNR Scalable profile)提供的所有功能和 (空间分辨率可变)空间分辨率可变( Spatial scalable coding)算法(2层) 子采样格式:YUV:4:2:0 SNr scalable 支持基本配置( Main profile)提供的所有功能和信噪比可变编码 (信噪比可变) ( SNR scalable coding)算法②2层) 采样格式:YUV:4:2:0 非可变速率编码算法支持随机存取,B图像预测方式 (基本) 子采样格式:YUV:4:2:0 除不支持基本配置( (Main F" ofile)提供的B图像预测功能外,基本 (简化) 配置的其他所有功能都支持采样格式:YUV:4:2:0 表13-04MPBG2的等级等级参数( Parameters 说明 (Level) 1920 samples/line1920样本/行 HIGH 1152 lines/fr 1152行/帧 (高级)60 frames/s 60帧/秒 80 Mb/s 80兆位/秒 1440 samples/line1440样本/行

第13章 MPEG电视 8 I、P和B图像压缩后的大小如表13-02所示，单位为位。从表中可以看到，I帧图像的数据量最大，而B帧图像的数据量最小。表13-2 MPEG三种图像的压缩后的典型值(位) 图像类型 I P B 平均数据/帧 MPEG-1 CIF 格式(1.15 Mb/s) 150 000 50 000 20 000 38 000 MPEG-2 601 格式(4.00 Mb/s) 400 000 200 000 80 000 130 000 13.3 MPEG-2的配置和等级在MPEG-2标准化阶段，考虑到要适应不同数据速率设备的应用，MPEG专家组定义了三种质量不同的编码方式：信噪比可变性(Signal-to-Noise Scalability)，空间分辨率可变性 (Spatial Scalability)和时间分辨率可变性(Temporal Scalability)。信噪比可变性SNR(Signal-to-Noise scalability)是指图像质量的折中，对于数据率比较低的解码器使用比较低的信噪比，而对数据率比较高的解码器则使用比较高的信噪比；空间分辨率可变性(Spatial scalability)是指图像的空间分辨率的折中，对于低速率的接受器使用比较低的图像分辨率，而对于数据率比较高的接受器使用比较高的图像分辨率；时间分辨率可变性(Temporal Scalability)是指图像在时间方向上分辨率的折中，与空间分辨率类似。 MPEG-2为此引入了“配置(Profiles)”和参数“等级(Levels)”的概念。每种配置定义一套新的算法，而每一个等级指定一套参数范围(如图像大小、帧速率和位速率)。MPEG-2 规定的配置规格如表13-03所示，等级规格如表13-04所示。表13-03 MPEG-2的配置配置(Profile) 算法(Algorithms) High (高档) ⚫ 支持由空间分辨率可变配置(Spatial Scalable Profile)提供的所有功能和其他规定功能 ⚫ 子采样各种：YUV 4:2:2 用于进一步提高图像质量 Spatial scalable (空间分辨率可变) ⚫ 支持信噪比可变配置(SNR Scalable Profile)提供的所有功能和空间分辨率可变(Spatial scalable coding)算法(2层) ⚫ 子采样格式：YUV：4:2:0 SNR scalable (信噪比可变) ⚫ 支持基本配置(Main Profile)提供的所有功能和信噪比可变编码 (SNR scalable coding)算法(2层) ⚫ 子采样格式：YUV：4:2:0 Main (基本) ⚫ 非可变速率编码算法支持随机存取，B图像预测方式 ⚫ 子采样格式：YUV：4:2:0 Simple (简化) ⚫ 除不支持基本配置(Main Profile)提供的B图像预测功能外，基本配置的其他所有功能都支持 ⚫ 子采样格式：YUV：4:2:0 表13-04 MPEG-2的等级等级 (Level) 参数(Parameters) 说明 1920 samples/line 1920 样本/行 HIGH 1152 lines/frame 1152 行/帧 (高级) 60 frames/s 60 帧/秒 80 Mb/s 80 兆位/秒 1440 samples/line 1440 样本/行

第13章 MPEG电视 9 HIGH 1440 1152 lines/frame 1152 行/帧 (高级1440) 60 frames/s 60 帧/秒 60 Mb/s 60 兆位/秒 720 samples/line 720 样本/行 MAIN 576 lines/frame 576 行/帧 (基本级) 30 frames/s 30 帧/秒 15 Mb/s 15 兆位/秒 352 samples/line 352 样本/行 LOW 288 lines/frame 288 行/帧 (低级) 30 frames/s 30 帧/秒 4 Mb/s 4 兆位/秒由配置(profile)和参数等级(level)组合起来的MPEG-2所支持的各种电视规格如表 13-05所示。前者定义质量的可变性(scalability)和彩色空间分辨率的句法子集，后者定义图像分辨率和每种配置的最大位速率的参数集。例如，当前使用得最普遍的描述符是MP@ML (Main Profile, Main Level)，可译成“基本配置@基本级电视”或者“基本句法子集@基本参数级”，它指的是具有这种特性的电视：帧速率为30帧/秒，分辨率为720×576×30，子采样格式为4:2:0，位速率达15 Mb/s。MPEG-2标准期待大多数MPEG-2设备都能够支持这种电视。又如，MP@HL (Main Profile, High Level)描述符指的是帧速率为60帧/秒、分辨率为 1920×1152×60、子采样格式为4:2:0、位速率达80 Mb/s的HDTV制电视。表13-05 MPEG-2配置等级和参数级 Level＼ Profile (等级＼配置) Simple (简化型) Main (基本型) SRN Scalability (信噪比可变型) Spatial Scalability (空间分辨率可变型) High (高档型) High (高级) 4:2:0 1920×1152× 60 80 Mb/s I, P, B 4:2:0, 4:2:2 1920×1152× 60 80 Mb/s I, P, B High-1440 (高级1440) 4:2:0 1440×1152× 60 60 Mb/s I, P, B 4:2:0 1440×1152× 60 60 Mb/s I, P, B 4:2:0, 4:2:2 1440×1152× 60 60 Mb/s I, P, B Main (基本级) 4:2:0 720×576×30 15 Mb/s I, P 4:2:0 720×576×30 15 Mb/s I, P, B 4:2:0 720×576×30 15 Mb/s I, P, B 4:2:0 720×576×30 20 Mb/s I, P, B Low (低级) 4:2:0 352×288×30 4 Mb/s I, P, B 4:2:0 352×288×30 4 Mb/s I, P, B 13.4 MPEG-4电视图像编码 MPEG Video专家组建立了一个用来开发图像和电视图像编码技术的模型，叫做“试验模型(Test Model)”或者叫做“验证模型(VM—Verification Model)”。这个模型描述了一个

第13章MPEG电视核心的编码算法平台,包括编码器、解码器以及位流( bitstream)的语法和语义。本节就电视图像的编码和解码的基本方法作一个简单介绍,其他内容请看本章所附的参考文献和站点 13.4.1电视图像对象区的概念 MPEG-4 Video编码算法支持由MPEG-1和MPEG-2提供的所有功能,包括对各种输入格式下的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。MEG-4Ⅵideo算法的核心是支持内容基( content- based)的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。MPEG-4 Video还提供管理这些电视内容的最基本方法为了实现预想的内容基交互等功能,MPEG-4 Video验证模型引进了一个叫做“电视图像对象区( Video0 bject Plane,WOP)”的概念。如图13-11所示,上图表示支持MPEG-1和MPEG-2 的普通的MPEG-4编码器,下图表示MPEG-4的甚低速率电视图像 Very Low Bitrate video, ⅥLBⅴ)的核心编码器。MPEG-4 Video验证模型不像MPEG-1/-2 Video那样把电视图像都认为是一个矩形区,而是假设每帧图像被分割成许多任意形状的图像区,每个区都有可能覆盖描述场景中感兴趣的物理对象或者内容,这种区被定义为图像对象区VOP Generic MPEG-4 Coder Video MotionTexture Object Plane (MV)(DCT) bitstream (位流) (与MPEG1H261类似) MPEG- 4 VLBV Core Coder video Object- shape Motion Texture>bitstream Plane (MV)(DCT (位流图13-11普通MPEG-4编码器和MPEG-4ⅥLBV核心编码器[3] 编码器输入的是任意形状的图像区,图像区的形状和位置也可随帧的变化而改变。属于相同物理对象的连续的电视图像对象区(VOP)组成电视图像对象( Video0 bjects,VO)。例如个没有背景图像的正在演讲的人,如图13-11所示。MPEG-4可单独对属于相同电视图像对象(VO)的电视图像区(VOP)的形状、移动( motion)和纹理( texture)信息进编码和传送,或者把它们编码成一个单独的电视图像对象层( Video0 bject layer,woL)。此外,需要标识每个电视图像对象层(VOL的信息也包含在编码后的位流( bitstream)中,这些信息包括各种电视图像对象层(OL)的电视图像在接收端应该如何进行组合,以便重构完整的原始图像序列这样就可以对每个电视图像对象区(VOP)进行单独解码,提供了管理电视图像序列的灵活性 13.4.2电视图像编码方案 MPEG-4 Video验证模型对每个电视图像对象(O)的形状、移动和纹理信息进行编码形成单独的VoL层,以便能够单独对电视图像对象(VO)进行解码。如果输入图像序列只包含标准的矩形图像,就不需要形状编码,在这种情况下,MEG-4 Video使用的编码算法结构也就与 MPEG-1和MPEG-2使用的算法结构相同。 wPEG-4 Video验证模型对每个电视图像对象区(VOP)进行编码使用的压缩算法是在 MPEG-1和MPEG-2 Video标准的基础上开发的,它也是以图像块为基础的混合DPCM和变换编码技术( hybrid DPCM/ Transform coding)。MPEG-4编码算法也定义了帧内电视图像对象区 ( Intra- Frame VOl,I-VoP)编码方式和帧间电视图像对象区预测( Inter- frame VO prediction,简写为P-VOP)编码方式,它也支持双向预测电视图像对象区(B- directionally predicted vOP,B-VOP)方式。在对电视图像对象区(VOP)的形状编码之后,颜色图像序列分

第13章 MPEG电视 10 核心的编码算法平台，包括编码器、解码器以及位流(bitstream)的语法和语义。本节就电视图像的编码和解码的基本方法作一个简单介绍，其他内容请看本章所附的参考文献和站点。 13.4.1 电视图像对象区的概念 MPEG-4 Video编码算法支持由MPEG-1和MPEG-2提供的所有功能，包括对各种输入格式下的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。MPEG-4 Video算法的核心是支持内容基(content-based)的编码和解码功能，也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。MPEG-4 Video还提供管理这些电视内容的最基本方法。为了实现预想的内容基交互等功能，MPEG-4 Video验证模型引进了一个叫做“电视图像对象区(Video Object Plane，VOP)”的概念。如图13-11所示，上图表示支持MPEG-1和MPEG-2 的普通的MPEG-4编码器，下图表示MPEG-4的甚低速率电视图像(Very Low Bitrate Video， VLBV)的核心编码器。MPEG-4 Video验证模型不像MPEG-1/-2 Video那样把电视图像都认为是一个矩形区，而是假设每帧图像被分割成许多任意形状的图像区，每个区都有可能覆盖描述场景中感兴趣的物理对象或者内容，这种区被定义为图像对象区VOP。图13-11 普通MPEG-4编码器和MPEG-4 VLBV核心编码器[3] 编码器输入的是任意形状的图像区，图像区的形状和位置也可随帧的变化而改变。属于相同物理对象的连续的电视图像对象区(VOP)组成电视图像对象(Video Objects，VO)。例如，一个没有背景图像的正在演讲的人，如图13-11所示。MPEG-4可单独对属于相同电视图像对象(VO)的电视图像区(VOP)的形状、移动(motion)和纹理(texture)信息进编码和传送，或者把它们编码成一个单独的电视图像对象层(Video Object Layer，VOL)。此外，需要标识每个电视图像对象层(VOL)的信息也包含在编码后的位流(bitstream)中，这些信息包括各种电视图像对象层(VOL)的电视图像在接收端应该如何进行组合，以便重构完整的原始图像序列。这样就可以对每个电视图像对象区(VOP)进行单独解码，提供了管理电视图像序列的灵活性。 13.4.2 电视图像编码方案 MPEG-4 Video验证模型对每个电视图像对象(VO)的形状、移动和纹理信息进行编码形成单独的VOL层，以便能够单独对电视图像对象(VO)进行解码。如果输入图像序列只包含标准的矩形图像，就不需要形状编码，在这种情况下，MPEG-4 Video使用的编码算法结构也就与 MPEG-1和MPEG-2使用的算法结构相同。 MPEG-4 Video验证模型对每个电视图像对象区(VOP)进行编码使用的压缩算法是在 MPEG-1和MPEG-2 Video标准的基础上开发的，它也是以图像块为基础的混合DPCM和变换编码技术(hybrid DPCM/Transform coding)。MPEG-4编码算法也定义了帧内电视图像对象区 (Intra-Frame VOP，I-VOP)编码方式和帧间电视图像对象区预测(Inter-frame VOP prediction，简写为P-VOP)编码方式，它也支持双向预测电视图像对象区(B-directionally predicted VOP，B-VOP)方式。在对电视图像对象区(VOP)的形状编码之后，颜色图像序列分