
多媒体技术第2章数据无损压缩
多媒体技术 第2章 数据无损压缩

第2章数据无损压缩目录2.1数据的穴余2.3RLE编码2.1.1元余概念2.4 词典编码2.1.2决策量2.4.1词典编码的思想2.1.3信息量2.4.2LZ77算法2.1.4滴2.4.3LZSS算法2.1.5数据几余量2.4.4LZ78算法2.2 统计编码2.4.5LZW算法2.2.1香农-范诺编码参考文献和站点2.2.2 霍夫曼编码2.2.3算术编码2025年10月26日2 of 42第2章数据无损压缩
2025年10月26日 第2章 数据无损压缩 2 of 42 第2章 数据无损压缩目录 2.1 数据的冗余 2.1.1 冗余概念 2.1.2 决策量 2.1.3 信息量 2.1.4 熵 2.1.5 数据冗余量 2.2 统计编码 2.2.1 香农-范诺编码 2.2.2 霍夫曼编码 2.2.3 算术编码 2.3 RLE编码 2.4 词典编码 2.4.1 词典编码的思想 2.4.2 LZ77算法 2.4.3 LZSS算法 2.4.4 LZ78算法 2.4.5 LZW算法 参考文献和站点

2.0数据无损压缩概述数据可被压缩的依据数据本身存在几余听觉系统的敏感度有限视觉系统的敏感度有限三种多媒体数据类型一无损压缩文字(text)数据■根据数据本身的穴余(Basedondataredundancy)声音(audio)数据有损压缩根据数据本身的穴余(Basedondataredundancy),根据人的听觉系统特性(Basedonhumanhearingsystem)图像(image)/视像(video)数据有损压缩根据数据本身的穴余(Basedondataredundancy)根据人的视觉系统特性(Basedonhumanvisualsystem)3 of 422025年10月26日第2章数据无损压缩
2025年10月26日 第2章 数据无损压缩 3 of 42 2.0 数据无损压缩概述 ◼ 数据可被压缩的依据 ➢ 数据本身存在冗余 ➢ 听觉系统的敏感度有限 ➢ 视觉系统的敏感度有限 ◼ 三种多媒体数据类型 ➢ 文字 (text)数据——无损压缩 ◼ 根据数据本身的冗余(Based on data redundancy) ➢ 声音(audio)数据——有损压缩 ◼ 根据数据本身的冗余(Based on data redundancy) ◼ 根据人的听觉系统特性( Based on human hearing system) ➢ 图像(image)/视像(video) 数据——有损压缩 ◼ 根据数据本身的冗余(Based on data redundancy) ◼ 根据人的视觉系统特性(Based on human visual system)

2.0数据无损压缩概述(续1)数据无损压缩的理论信息论(informationtheory)1948年创建的数学理论的一个分支学科,研究信息的编码传输和存储该术语源于ClaudeShannon(香农)发表的"AMathematicalTheoryofCommunication论文题目,提议用二进制数据对信息进行编码最初只应用于通信工程领域,后来扩展到包括计算在内的其他多个领域,如信息的存储、信息的检索等。在通信方面,主要研究数据量、传输速率、信道容量、传输正确率等问题。数据无损压缩的方法霍夫曼编码(Hufimancoding)算术编码(arithmeticcoding)行程长度编码(run-lengthcoding)词典编码(dictionarycoding)2025年10月26日4 of 42第2章数据无损压缩
2025年10月26日 第2章 数据无损压缩 4 of 42 2.0 数据无损压缩概述(续1) ◼ 数据无损压缩的理论——信息论(information theory) ➢ 1948年创建的数学理论的一个分支学科,研究信息的编码、 传输和存储 ➢ 该术语源于Claude Shannon (香农)发表的“A Mathematical Theory of Communication”论文题目,提议用二进制数据对信 息进行编码 ➢ 最初只应用于通信工程领域,后来扩展到包括计算在内的其 他多个领域,如信息的存储、信息的检索等。在通信方面, 主要研究数据量、传输速率、信道容量、传输正确率等问题。 ◼ 数据无损压缩的方法 ➢ 霍夫曼编码(Huffman coding ) ➢ 算术编码(arithmetic coding) ➢ 行程长度编码(run-length coding) ➢ 词典编码(dictionary coding) ➢

2.03数据无损压缩概述(续2)信息论之父介绍The Father ofInformationTheoryClaude ElwoodShannonBorn: 30 April 1916 inGaylord, Michigan,USADied: 24 Feb 2001 inMedford.Massachusetts, USAhttp://www.bell-labs.com/news/2001/february/26/1.html2025年10月26日5 of 42第2章数据无损压缩
2025年10月26日 第2章 数据无损压缩 5 of 42 2.0 数据无损压缩概述(续2) ◼ The Father of Information Theory—— Claude Elwood Shannon ➢ Born: 30 April 1916 in Gaylord, Michigan, USA ➢ Died: 24 Feb 2001 in Medford, Massachusetts, USA http://www.bell-labs.com/news/2001/february/26/1.html ◼ 信息论之父介绍

2.0数据无损压缩概述(续3)ClaudeShannon-The founding father of electronic communications age ;American mathematical engineerIn 1936~1940.MIT- Master's thesis, A symbolicanalysis of relayand switchingcircuitsDoctoral thesis:ontheoreticalgenetics>In 1948: A mathematical theoryof communication, landmark, climax(An important feature of Shannon's theory: conceptof entropy)6 of 422025年10月26日第2章数据无损压缩
2025年10月26日 第2章 数据无损压缩 6 of 42 2.0 数据无损压缩概述(续3) ◼ Claude Shannon ——The founding father of electronic communications age; American mathematical engineer ➢ In 1936~1940, MIT: ◼ Master's thesis, A symbolic analysis of relay and switching circuits ◼ Doctoral thesis: on theoretical genetics ➢ In 1948: ◼ A mathematical theory of communication, landmark, climax (An important feature of Shannon's theory: concept of entropy )

2.1数据的见余■穴余概念人为几余在信息处理系统中,使用两台计算机做同样的工作是提高系统可靠性的一种措施在数据存储和传输中,为了检测和恢复在数据存储或数据传输过程中出现的错误,根据使用的算法的要求,在数据存储或数据传输之前把额外的数据添加到用户数据中,这个额外的数据就是亢余数据视听几余由于人的视觉系统和听觉系统的局限性,在图像数据和声数据中,有些数据确实是多余的,使用算法将其去掉后并不会丢失实质性的信意含父,对理解数据裴达的信息九乎没有影响数据几余不考虑数据来源时,单纯数据集中也可能存在多余的数据去掉这些多余数据并不会失往何信息,这种余称为数据穴余,而且还可定量表达2025年10月26日7 of 42第2章数据无损压缩
2025年10月26日 第2章 数据无损压缩 7 of 42 2.1 数据的冗余 ◼ 冗余概念 ➢ 人为冗余 ◼ 在信息处理系统中,使用两台计算机做同样的工作是提高 系统可靠性的一种措施 ◼ 在数据存储和传输中,为了检测和恢复在数据存储或数据 传输过程中出现的错误,根据使用的算法的要求,在数据 存储或数据传输之前把额外的数据添加到用户数据中,这 个额外的数据就是冗余数据 ➢ 视听冗余 ◼ 由于人的视觉系统和听觉系统的局限性,在图像数据和声 音数据中,有些数据确实是多余的,使用算法将其去掉后 并不会丢失实质性的信息或含义,对理解数据表达的信息 几乎没有影响 ➢ 数据冗余 ◼ 不考虑数据来源时,单纯数据集中也可能存在多余的数据, 去掉这些多余数据并不会丢失任何信息,这种冗余称为数 据冗余,而且还可定量表达

2.13数据的见余(续1)■决策量(decisioncontent),在有限数的互斥事件集合中,决策量是事件数的对数值在数学上表示为其中,n是事件数Ho=log(n),决策量的单位由对数的底数决定■Sh(Shannon):用于以2为底的对数■Nat (natural unit):用于以e为底的对数■Hart(hartley):用于以10为底的对数2025年10月26日8 of 42第2章数据无损压缩
2025年10月26日 第2章 数据无损压缩 8 of 42 2.1 数据的冗余(续1) ◼ 决策量(decision content) ➢ 在有限数目的互斥事件集合中,决策量是事 件数的对数值 ➢ 在数学上表示为 H0=log(n) 其中,n是事件数 ➢ 决策量的单位由对数的底数决定 ◼ Sh (Shannon): 用于以2为底的对数 ◼ Nat (natural unit): 用于以e为底的对数 ◼ Hart (hartley):用于以10为底的对数

2.1数据的见余(续2)信息量(informationcontent)具有确定概率事件的信息的定量度量、在数学上定义为I(x) = log2[1/ p(x)] = -log2 p(x)其中,p(x)是事件出现的概率>举例:假设X={a,b,c}是由3个事件构成的集合p(a)=0.5 ,p(b)=0.25,p(b)=0.25分别是事件a,b和c出现的概率,这些事件的信息量分别为,I(a)-log2(1/0.50)-1 shI(b)=log2(1/0.25)=2 shI(c)=log2(1/0.25)=2 sh一个等概率事件的集合,每个事件的信息量等于该集合的决策量9 of 422025年10月26日第2章数据无损压缩
2025年10月26日 第2章 数据无损压缩 9 of 42 2.1 数据的冗余(续2) ◼ 信息量(information content) ➢ 具有确定概率事件的信息的定量度量 ➢ 在数学上定义为 其中, 是事件出现的概率 ➢ 举例:假设X={a,b,c}是由3个事件构成的集合, p(a)=0.5,p(b)=0.25,p(b)=0.25分别是事件a, b和c出 现的概率,这些事件的信息量分别为, I(a)=log2 (1/0.50)=1 sh I(b)=log2 (1/0.25)=2 sh I(c)=log2 (1/0.25)=2 sh ➢ 一个等概率事件的集合,每个事件的信息量等于该 集合的决策量 2 2 I x p x p x ( ) log [1/ ( )] log ( ) = = − p x( )

2.1数据的见余(续3熵(entropy)按照香农(Shannon)的理论,在有限的互斥和联合穷举事件的集合中,为事件的信息量的平均值,也称事件的平均信息量(meaninformationcontent)用数学表示为H(X)=h(x)-2 p(x)I(x,)=-Z p(x,)1og2 P(x,)--1其中,(1)X=(,",)是事件x(i=1,2,,n)的集合,并满足p(x)=1i-1(2)I(x,)=-log2P(x)表示某个事件x,的信息量,其中(x)为事件,出现的概率,0<p(x)≤1;h(x)=-p(x,)log2p(x)表示事件x,的。例如,X=(α,b,c)是由3个符号构成的集合,符号a,b和c出现的概率分别为p(a)=0.5,p(b)=0.25,P(c)=0.25,那么符号α,b和c的摘分别等于0.5,0.5,0.5,这个集合的为,H(X) = p(a) I(a) + p(b) I(b) + p(c) I(c) = 1.5 (Sh)2025年10月26日10 of 42第2章数据无损压缩
2025年10月26日 第2章 数据无损压缩 10 of 42 2.1 数据的冗余(续3) ◼ 熵(entropy) ➢ 按照香农(Shannon)的理论,在有限的互斥和联合穷举事件的 集合中,熵为事件的信息量的平均值,也称事件的平均信息 量(mean information content) ➢ 用数学表示为