第6讲数据压缩原理与方法 第三章数据压缩技术 31数据压缩的基本原理 31.1数据压缩的可行性 3.12压缩模型的构成原理 3数据压缩方法分类 33常用压缩编码方法 33.1信息熵编码 1.熵编码的基本原理 2. Huffman编码方法 3.行程编码方法 4.算术编码方法
第 6 讲 数据压缩原理与方法 第三章 数据压缩技术 3.1 数据压缩的基本原理 3.1.1 数据压缩的可行性 3.1.2 压缩模型的构成原理 3.2 数据压缩方法分类 3.3 常用压缩编码方法 3.3.1 信息熵编码 1. 熵编码的基本原理 2. Huffman编码方法 3. 行程编码方法 4. 算术编码方法
第三章数据压缩技术 多媒体应用普及的难题:巨量数据的存储和传输 解决途径: ①大容量的光盘存储技术(如: CD-ROM) ②高速CPU/ Cache/图形加速器一芯片集成 ③宽带高速网络通信技术 ④数据压缩技术(软件算法,专用芯片) 31数据压缩的基本原理 压缩目的:①减少存储量,以节省存储开销 ②降低实时传输量,以提高数据传输效率 ③提取结构数据特征,以供模式识别与特征分析
第三章 数据压缩技术 多媒体应用普及的难题:巨量数据的存储和传输 解决途径: ① 大容量的光盘存储技术(如:CD-ROM) ② 高速CPU/Cache/图形加速器 — 芯片集成 ③ 宽带高速网络通信技术 ④ 数据压缩技术(软件算法,专用芯片) 3.1 数据压缩的基本原理 压缩目的:① 减少存储量,以节省存储开销 ② 降低实时传输量,以提高数据传输效率 ③ 提取结构数据特征,以供模式识别与特征分析
3.1.1数据压缩的可行性 1.数据压缩的必要性 ①视频数据量:根据采样定理,对NTSC彩电信号进行数字化 Idate=(4+1.5+0.5)MHz×2×8bit/s=96Mbit/s ②音频数据量:由实验得出,语音带宽为4KHz.数字化后 Adae=4KHz×2×8bit/s=64Kbit/s 可见,数字图像是数字音频数据量的1000倍以上 ③光盘存储能力:一张 CD ROM光盘的标准容量是650MB; 由于每字节含2位校验位,即附加数据占25%,故 光盘的视频存放量=650×8/(96×(1+0.25))=43sec 结论:即使拥有大容量的光盘存储设备和高速CPU的计算机, 仍需采用数据压缩技术,使PC机能适应运动图像处理要求
3.1.1 数据压缩的可行性 1. 数据压缩的必要性 ① 视频数据量:根据采样定理,对NTSC彩电信号进行数字化 Idate = (4 + 1.5 + 0.5)MHz×2×8bit/s = 96Mbit/s ② 音频数据量:由实验得出,语音带宽为4KHz. 数字化后 Adate = 4KHz×2×8bit/s = 64Kbit/s 可见,数字图像是数字音频数据量的1000倍以上 ③ 光盘存储能力:一张CD_ROM光盘的标准容量是650MB; 由于每字节含2位校验位,即附加数据占25%,故 光盘的视频存放量=650×8/(96×(1 + 0.25))=43sec 结论:即使拥有大容量的光盘存储设备和高速CPU的计算机, 仍需采用数据压缩技术,使PC机能适应运动图像处理要求
2.数据的可压缩性 数据压缩的可能性:各种媒体数据内部存在冗余及相关性; 可采用不同编码与解码算法以减弱相关性,达到压缩目的 数据冗余类型:是有效采用各种压缩算法的基本依据 1)空间冗余 ①图像灰度或颜色等特性基本相同的视觉区域 ②编码符号序列中的码字冗余,称信息熵冗余 例:像素点P(x,y)具有邻域强相关性一空间冗余 P(x,y+1) P(x-1,y)P(x, y)P(x+1,y) P(x,y-1)
2.数据的可压缩性 数据压缩的可能性:各种媒体数据内部存在冗余及相关性; 可采用不同编码与解码算法以减弱相关性,达到压缩目的 数据冗余类型:是有效采用各种压缩算法的基本依据 ⑴ 空间冗余 ① 图像灰度或颜色等特性基本相同的视觉区域 ② 编码符号序列中的码字冗余,称信息熵冗余 例:像素点P(x,y)具有邻域强相关性 — 空间冗余
(2)时间冗余 ①相邻图幅间(帧间)或相邻音域间的重复与渐变部分 ②人眼视觉暂留特性导致感受与实际之间存在瞬间差异 例:F1和F2间时域相关一具有时间冗余 FI (3)其他冗余:结构冗余;知识冗余 小结:数据可压缩性可用 数据D所携带的信息量I及其冗余特征来表示,即 I=D一du 其中,D为数据量,du为D中的数据冗余量
⑵ 时间冗余 ① 相邻图幅间(帧间)或相邻音域间的重复与渐变部分 ② 人眼视觉暂留特性导致感受与实际之间存在瞬间差异 例:F1和F2间时域相关 — 具有时间冗余 ⑶ 其他冗余:结构冗余;知识冗余 小结:数据可压缩性可用 数据D所携带的信息量I及其冗余特征来表示,即 I= D - du 其中,D为数据量,du为D中的数据冗余量
3.1.2压缩模型的构成原理 1.数据压缩的基本思想 针对特定的数据冗余类型,采用合适的压缩编码方法; 对压缩对象的样本空间合理进行样本点划分, 建立以少代多或以局部代全体的数据变换关系; 从而以最少的数码表示信源或信道信号, 减少数据的按位贮存空间和位传输率 1)空间压缩:把相同视觉区(集合块)当作一个整体, 以极少的信息量来表示 (2)时间压缩:把连续帧间的重复部分 或渐变过程中的相似部分当作一个整体, 用极少的信息量(样本值)表示
3.1.2 压缩模型的构成原理 1.数据压缩的基本思想 针对特定的数据冗余类型,采用合适的压缩编码方法; 对压缩对象的样本空间合理进行样本点划分, 建立以少代多或以局部代全体的数据变换关系; 从而以最少的数码表示信源或信道信号, 减少数据的按位贮存空间和位传输率 ⑴ 空间压缩:把相同视觉区(集合块)当作一个整体, 以极少的信息量来表示 ⑵ 时间压缩:把连续帧间的重复部分 或渐变过程中的相似部分当作一个整体, 用极少的信息量(样本值)表示
2.压缩过程的框架构成 (1)编码过程:原始数据符号化;体现压缩算法及正变换 (有内容信息→无内容的信号序列) ①信源编码器:完成大多数压缩任务;可充当信号分析器 把输入数据量压缩到与存储器容量相适应的水平 把数据传输速率降低到传输介质所能支持的水平 ②信道编码器:侧重解决码制可靠性问题(传输可靠性) 把压缩的位流转译成既适应存储又适合传输的信号 降低信号调制/解调过程中的误码率 (2)解码过程:码元恢复与信号合成;体现解压算法及逆变换 (无内容的编码数据→有内容的还原数据) (3)对称/非对称压缩:压/解实时;压缩非实时,解压实时
2.压缩过程的框架构成 ⑴ 编码过程:原始数据符号化;体现压缩算法及正变换 (有内容信息→无内容的信号序列) ① 信源编码器:完成大多数压缩任务;可充当信号分析器 · 把输入数据量压缩到与存储器容量相适应的水平 · 把数据传输速率降低到传输介质所能支持的水平 ② 信道编码器:侧重解决码制可靠性问题(传输可靠性) · 把压缩的位流转译成既适应存储又适合传输的信号 · 降低信号调制/解调过程中的误码率 ⑵ 解码过程:码元恢复与信号合成;体现解压算法及逆变换 (无内容的编码数据→有内容的还原数据) ⑶ 对称/非对称压缩:压/解实时;压缩非实时,解压实时
32数据压缩方法分类 3.2.1图像压缩编码分类 (1)信息熵编码: Huffman编码,行程编码,算术编码,LZW编码 (2)预测编码:差分线性预测DPCM,自适应线性预测 ADPCM 运动补偿帧间线性预测;非线性预测 (3)变换编码:最优正交变换(KLT),离散傅立叶变换(DFT) 离散余弦变换(DCT),W变换, wavelet变换 4)矢量量化编码:多段式,分离式,全搜索式 (5)子带编码:分频带法,块切割法 (6)模型编码(参数编码):结构编码,基于知识的编码, 分析/识别合成编码,分形( Fracta1)编码 ()混合编码:JPEG编码,MEG编码,P×64编码
3.2 数据压缩方法分类 3.2.1 图像压缩编码分类 ⑴ 信息熵编码:Huffman编码,行程编码,算术编码,LZW编码 ⑵ 预测编码:差分线性预测DPCM,自适应线性预测ADPCM, 运动补偿帧间线性预测;非线性预测 ⑶ 变换编码:最优正交变换(KLT),离散傅立叶变换(DFT) 离散余弦变换(DCT), WHT变换,wavelet变换 ⑷ 矢量量化编码:多段式,分离式,全搜索式 ⑸ 子带编码:分频带法,块切割法 ⑹ 模型编码(参数编码):结构编码,基于知识的编码, 分析/识别合成编码,分形(Fractal)编码 ⑺ 混合编码:JPEG编码,MPEG编码,P×64编码
33常用压缩编码方法 第一代编码技术:主要利用数据的统计冗余来达到压缩目的 常用方法:信息熵编码,预测编码,变换编码;矢量量化编码 3.3.1信息熵编码 1.熵编码的基本原理 信息熵:信源数据所携带的平均信息量 设:信源X的符号集为X;(i=1,2,…N),X1出现的概率为P(X); 等概率值的单位信息量为[-1ogP(X)].故信源X的熵定义为 S(X)=-∑P(X)1og2P(X) 这就是熵编码原理的数学依据:信源符号集的平均码长→S(X) 按熵值来定义信源符号集的最小平均码长,可得到理想编码方案
3.3 常用压缩编码方法 第一代编码技术:主要利用数据的统计冗余来达到压缩目的 常用方法:信息熵编码,预测编码,变换编码;矢量量化编码 3.3.1 信息熵编码 1.熵编码的基本原理 信息熵:信源数据所携带的平均信息量 设:信源X的符号集为Xi(i=1,2,…N),Xi出现的概率为P(Xi); 等概率值的单位信息量为[-logP(X)].故信源X的熵定义为 这就是熵编码原理的数学依据:信源符号集的平均码长→S(X) 按熵值来定义信源符号集的最小平均码长,可得到理想编码方案
熵编码的基本思想: 根据信源符号出现的概率分布特性, 用短码字表示出现概率大的信息, 用长码字表示出现概率小的信息; 从而减少符号序列中的冗余度, 提高符号的平均信息量,达到数据压缩的目的 可变字长的统计编码方法 数据压缩标准中常用的熵编码方法: Huffman编码 算术编码 行程编码
熵编码的基本思想: 根据信源符号出现的概率分布特性, 用短码字表示出现概率大的信息, 用长码字表示出现概率小的信息; 从而减少符号序列中的冗余度, 提高符号的平均信息量,达到数据压缩的目的 — 可变字长的统计编码方法 数据压缩标准中常用的熵编码方法: · Huffman编码 · 算术编码 · 行程编码