《信息理论与编码》课程教学资源（知识点）第4章离散无记忆信源无失真编码.pdf_大学文库

121 （3）将“概率之和”当作一个新符号的概率，与剩下符号的概率一起，形成一个缩减信源，再重复上述步骤，直到“概率之和”为 1 为止；（4）按上述步骤实际上构造了一个码树，从树根到端点经过的树枝即为码字。霍夫曼编码构造了一个非续长码，采用概率匹配方法来决定各码字的码长，概率大的符号对应于短码，概率小的符号对应于长码，从而使平均码长最短，但编出的码字并不唯一。 2）r 进制霍夫曼编码对于 r 进制霍夫曼编码，信源符号数 q 应满足 qr r  ( 1)    （4.11）其中 为信源缩减的次数。可通过给信源添加概率为零的符号满足上式。 4.2.5.2 费诺编码（Fano）费诺编码也是构造一个码树，因此编出的码也是非续长码，但不一定是最佳码。编码步骤如下：（1）将信源符号按概率从大到小排序；（2）将信源符号分成 2 组，使 2 组信源符号的概率之和尽量接近，并给 2 组信源符号分别赋码元“0”和“1”；（3）把各小组的信源符号再细分为 2 组并赋码元，方法与第一次分组相同；（4）继续分组，直到每一小组只含一个信源符号为止；（5）由此即可构造一个码树，所有终端节点上的码字组成费诺码。费诺编码的平均码长比霍夫曼编码略长，编码效率稍有下降。一般来讲，费诺编码不是平均码长最短意义下的最佳编码，可将其看作准最佳编码。 4.2.5.3 香农编码香农编码的步骤如下：（1）将信源符号按概率从大到小排序；（2）按下式求第i 个信源符号对应的码长 i l ，并取整； log ( ) log ( ) 1     Pu l Pu ii i （4.12）（3）按下式求第i 个信源符号的累加概率 Pi ； 1 1 1 0 ( ) 2,3, , i i k k P P Pu i q             （4.13）（4）将累加概率 Pi 转换成二进制数；

122 （5）取 Pi 二进制数小数点后 i l 个二进制数字，作为第i 个信源符号的码字。三种方法中，霍夫曼编码效率最高，费诺编码效率次之，香农编码效率最低。香农编码的实用价值不大，但却有很深远的理论意义，同时，也是算术编码的基础。 4.2.6 几种实用的无失真信源编码 4.2.6.1 游程编码游程编码主要用于黑、白二值文件的传真。白纸黑字的二值文件采用二元码进行编码，表示背景（白色）时像素为码元“0”，表示内容（黑字）时像素为码元“1”。参照国际标准：一张 A4 幅面的二值文件，可分 1188 行，每行 1728 个像素。重复出现的同类像素的长度称为游程长度（Run length)  。信源符号中重复出现的黑游程和白游程可归一化为统一的编码单元，其单元结构如下：符号码标识码游程长度实际文件的行扫描中，由于文件的二值性，黑、白游程总是交替出现，在第一游程的类型预先规定后，进行游程编码就可省去原单元结构中的“符号码”及“标识码”，仅保留游程长度数据。 4.2.6.2 MH 码 MH 码是 CCITT 提出的文件、传真类一维数据压缩编码的国际标准，是由游程编码及霍夫曼编码结合而成的一种改进型霍夫曼码。 MH 码使用固定编码表进行编码，即在信源与信宿两端，利用预先确定的编码表各自独立进行编码和解码。 MH 码在编码中对游程长度进行分割，相应将长游程码（游程长度> 64）分割为结尾码（终止码）和组合码（形成码）两部分，如表 4.1 及表 4.2 所示。表 4.1 MH 码表(一) 结尾码 RL 长度白游程码字黑游程码字 RL 长度白游程码字黑游程码字 0 00110101 0000110111 32 00011011 000001101010 1 000111 010 33 00010010 000001101011 2 0111 11 34 00010011 000011010010 3 1000 10 35 00010100 000011010011 4 1011 011 36 00010101 000011010100 5 1100 0011 37 00010110 000011010101 6 1110 0010 38 00010111 000011010110

其中：P（u）表示信源符号序列π的概率，符号「表示取大于或等于该值的最小整数。从信源符号全序列出发，将各信源符号序列依累积概率分布函数的大小映射到10.1）区间，每个符号序列均有一个小区间与之对应，可在小区间内取点（比如区间的左端点）来代表该符号序列。将此点的累积概率分布函数值用二进制数表示，取小数点后的前1位，即是信源符号序列的算术码。码长1的确定体现了算术编码与信源符号序列的概率匹配关系：序列的概率越大,分配的码长越短。4.2.6.4基于字典的编码1）LZ编码LZ码是由两位以色列人兰佩尔（A.Lemple）与齐费（J.Z.V）共同提出，其基本的思路与查字典极为相似，即通过“单词”简短的位置信息，间接地表达“单词”的内容。基于字典的LZ编码方法实质上是一种映射，它将原有确切意义的长信源符号序列映射为字典精短的位置序号，通过传递位置序号完成对长信源符号序列内容的传达。LZ算法中字典的内容是由被压缩文件直接生成，一边编码，一边将新发生的“单词"添加到字典中，因而LZ算法不需要保存字典，是一种自适应的算法。2）LZW码LZW算法是韦尔奇（T.A.Welch）对LZ算法的一种修正，它保留了LZ算法原有的自适应性。为了使长短不一的“单词”更便于处理，专门为“单词”建立了一种通用的格式：（1）每个“单词”均由前缀字符串和尾字符串两部分组成。（2）前缀字符串为字典中已有的“单词”，尾字符是本“单词”的最后一个字符。（3）对本身已经是单节的“单词”，没有前缀词时则在前面加上一个空前缀，并规定字典最后一个“单词”为“空”。LZW的解码算法同样表现为一种基于字典的自适应的算法，由于LZW编码的输出压缩文件中仅包含码字，并无包含字典。因而解码过程同样表现为一边解码，一边生成字典。LZW算法是一种简单的通用编码方法，由于编码方法不依赖于信源的概率分布，并且编码方法简单，速度快，特别是具有自适应的功能，使得这种算法得到越来越广泛的应用。目前市场上常用的Winzip、ARJ、ARC等著名压缩软件都是LZW码的改进与应用。125

125 其中: P(u )表示信源符号序列u 的概率，符号 表示取大于或等于该值的最小整数。从信源符号全序列出发，将各信源符号序列依累积概率分布函数的大小映射到[0,1) 区间，每个符号序列均有一个小区间与之对应，可在小区间内取点（比如区间的左端点）来代表该符号序列。将此点的累积概率分布函数值用二进制数表示，取小数点后的前l 位，即是信源符号序列的算术码。码长l 的确定体现了算术编码与信源符号序列的概率匹配关系: 序列的概率越大,分配的码长越短。 4.2.6.4 基于字典的编码 1）LZ 编码 LZ 码是由两位以色列人兰佩尔（A. Lemple）与齐费（J.Z.V）共同提出，其基本的思路与查字典极为相似，即通过“单词”简短的位置信息，间接地表达“单词”的内容。基于字典的 LZ 编码方法实质上是一种映射，它将原有确切意义的长信源符号序列映射为字典精短的位置序号，通过传递位置序号完成对长信源符号序列内容的传达。 LZ 算法中字典的内容是由被压缩文件直接生成，一边编码，一边将新发生的“单词”添加到字典中，因而 LZ 算法不需要保存字典，是一种自适应的算法。 2）LZW 码 LZW 算法是韦尔奇（T.A.Welch）对 LZ 算法的一种修正，它保留了 LZ 算法原有的自适应性。为了使长短不一的“单词”更便于处理，专门为“单词”建立了一种通用的格式：（1）每个“单词”均由前缀字符串和尾字符串两部分组成。（2）前缀字符串为字典中已有的“单词”，尾字符是本“单词”的最后一个字符。（3）对本身已经是单节的“单词”，没有前缀词时则在前面加上一个空前缀，并规定字典最后一个“单词”为“空”。 LZW 的解码算法同样表现为一种基于字典的自适应的算法，由于 LZW 编码的输出压缩文件中仅包含码字，并无包含字典。因而解码过程同样表现为一边解码，一边生成字典。 LZW 算法是一种简单的通用编码方法，由于编码方法不依赖于信源的概率分布，并且编码方法简单，速度快，特别是具有自适应的功能，使得这种算法得到越来越广泛的应用。目前市场上常用的 Winzip、ARJ、ARC 等著名压缩软件都是 LZW 码的改进与应用

《信息理论与编码》课程教学资源（知识点）第4章 离散无记忆信源无失真编码

《信息理论与编码》课程教学资源（知识点）第4章离散无记忆信源无失真编码