第12章MPEG声音 k*涂幸*客*客水***本水水*客客**水*客水客客水*客水水涂水**水***客 *客客水幸客水水水**客水客客水 12.1听觉系统的感知特性 12.1.1.对响度的感知 12.1.2.对音高的感知 12.1.3.掩蔽效应 122 MPEG Audio与感知特性 12.3 MPEG-I Audio 12.3.1声音编码 1232声音的性能 12.3.3子带编码 1234多相滤波器组 12.3.5编码层 12.4 MPEG-2 Audio 12.5 MPEG-2AAC 12.5 I MPEG-2AAC是什么 12.52MPEG-2AAC的配置 12.53MPEG-2AAC的基本模块 12.6 MPEG-4 Audio 126.1自然声音 126.2合成声音 练习与思考题 参考文献和站点 客水称*水客水*客客客水*水*客客水**水客水客客**水水*水客水*涂水水客水*涂*水*水水客客水称*水*水*客客 与前面章节介绍的波形声音压缩编码(如 ADPCM和参数编码(如LPC)不同,MPEG-1和 MPEG-2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是 利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编 ( perceptual audio coding)。进入20世纪80年代之后,尤其最近几年,人类在利用自身的听觉 系统的特性来压缩声音数据方面取得了很大的进展,先后制定了MPEG-1 Audio,MPEG2 Audio和MPEG-2AAC等标准 本章涉及的许多具体算法已经超出本教材的要求。对于要求深入钻研的读者,请参考本 章提供的参考文件或者浏览网址。 121听觉系统的感知特性 许多科学工作者一直在研究听觉系统对声音的感知特性,下面介绍已经用在MPEG dio压缩编码算法中的三个特性:响度、音高和掩蔽效应 12.1.1.对响度的感知 声音的响度就是声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即 dyn/cm2(达因/平方厘米声压)或Wcm2(瓦特/平方厘米)声强)。在心理上,主观感觉的声音 强弱使用响度级“方(phon)”或者“宋(sone)”来度量。这两种感知声音强弱的计量单位是 完全不同的两种概念,但是它们之间又有一定的联系 当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。例如,1kHz 纯音的声强达到1016w/cm2(定义成零dB声强级)时,人耳刚能听到,此时的主观响度级定为 零方。实验表明,听阈是随频率变化的。测出的“听阈一频率”曲线如图1201所示。图中 最靠下面的一根曲线叫做“零方等响度级”曲线,也称“绝对听阈”曲线,即在安静环境中, 能被人耳听到的纯音的最小值
第12章 MPEG声音 *************************************************************************** 12.1 听觉系统的感知特性 12.1.1. 对响度的感知 12.1.2. 对音高的感知 12.1.3. 掩蔽效应 12.2 MPEG Audio与感知特性 12.3 MPEG-1 Audio 12.3.1 声音编码 12.3.2 声音的性能 12.3.3 子带编码 12.3.4 多相滤波器组 12.3.5 编码层 12.4 MPEG-2 Audio 12.5 MPEG-2 AAC 12.5.1 MPEG-2 AAC是什么 12.5.2 MPEG-2 AAC的配置 12.5.3 MPEG-2 AAC的基本模块 12.6 MPEG-4 Audio 12.6.1 自然声音 12.6.2 合成声音 练习与思考题 参考文献和站点 *************************************************************************** 与前面章节介绍的波形声音压缩编码(如ADPCM)和参数编码(如LPC)不同,MPEG-1和 MPEG-2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是 利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码 (perceptual audio coding)。进入20世纪80年代之后,尤其最近几年,人类在利用自身的听觉 系统的特性来压缩声音数据方面取得了很大的进展,先后制定了MPEG-1 Audio, MPEG-2 Audio和MPEG-2 AAC等标准。 本章涉及的许多具体算法已经超出本教材的要求。对于要求深入钻研的读者,请参考本 章提供的参考文件或者浏览网址。 12.1 听觉系统的感知特性 许多科学工作者一直在研究听觉系统对声音的感知特性,下面介绍已经用在MPEG Audio压缩编码算法中的三个特性:响度、音高和掩蔽效应。 12.1.1. 对响度的感知 声音的响度就是声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即 dyn/cm2 (达因/平方厘米)(声压)或W/cm2 (瓦特/平方厘米)(声强)。在心理上,主观感觉的声音 强弱使用响度级“方(phon)”或者“宋(sone)”来度量。这两种感知声音强弱的计量单位是 完全不同的两种概念,但是它们之间又有一定的联系。 当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。例如,1 kHz 纯音的声强达到10-16w/cm2 (定义成零dB声强级)时,人耳刚能听到,此时的主观响度级定为 零方。实验表明,听阈是随频率变化的。测出的“听阈—频率”曲线如图12-01所示。图中 最靠下面的一根曲线叫做“零方等响度级”曲线,也称“绝对听阈”曲线,即在安静环境中, 能被人耳听到的纯音的最小值
第12章MPEG声音 另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率为1kHz的纯音的 声强级达到120dB左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈”。对不同的频率进 行测量,可以得到“痛阈一频率”曲线,如图12-01中最靠上面所示的一根曲线。这条曲线 也就是120方等响度级曲线 在“听阈一频率”曲线和“痛阈—频率”曲线之间的区域就是人耳的听觉范围。这个范 围内的等响度级曲线也是用同样的方法测量出来的。由图12-01可以看出,1kHz的10dB的 声音和200Hz的30dB的声音,在人耳听起来具有相同的响度 10 10 听膚 图12-01“听阈一频率”曲线 图12-01说明人耳对不同频率的敏感程度差别很大,其中对2kHz~4kHz范围的信号最 为敏感,幅度很低的信号都能被人耳听到。而在低频区和高频区,能被人耳听到的信号幅度 要高得多 1212.对音高的感知 客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel) 主观音高与客观音高的关系是 Mel=1000log2(1+f) 其中∫的单位为Hz,这也是两个既不相同又有联系的单位。 人耳对响度的感觉有一个范围,即从听阈到痛阈。同样,人耳对频率的感觉也有一个范 围。人耳可以听到的最低频率约20Hz,最高频率约18000Hz。正如测量响度时是以1kHz纯 音为基准一样,在测量音高时则以40dB声强为基准,并且同样由主观感觉来确定 测量主观音高时,让实验者听两个声强级为40dB的纯音,固定其中一个纯音的频率, 调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差 为两倍。实验表明,音高与频率之间也不是线性关系。测出的“音高一频率”曲线如图12-02
第12章 MPEG声音 2 另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率为1 kHz的纯音的 声强级达到120 dB左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈”。对不同的频率进 行测量,可以得到“痛阈—频率”曲线,如图12-01中最靠上面所示的一根曲线。这条曲线 也就是120方等响度级曲线。 在“听阈—频率”曲线和“痛阈—频率”曲线之间的区域就是人耳的听觉范围。这个范 围内的等响度级曲线也是用同样的方法测量出来的。由图12-01可以看出,1 kHz的10 dB的 声音和200 Hz的30 dB的声音,在人耳听起来具有相同的响度。 图12-01 “听阈—频率”曲线 图12-01说明人耳对不同频率的敏感程度差别很大,其中对2 kHz~4 kHz范围的信号最 为敏感,幅度很低的信号都能被人耳听到。而在低频区和高频区,能被人耳听到的信号幅度 要高得多。 12.1.2. 对音高的感知 客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel)”, 主观音高与客观音高的关系是 1000log (1 ) 2 Mel = + f 其中 f 的单位为Hz,这也是两个既不相同又有联系的单位。 人耳对响度的感觉有一个范围,即从听阈到痛阈。同样,人耳对频率的感觉也有一个范 围。人耳可以听到的最低频率约20 Hz,最高频率约18000 Hz。正如测量响度时是以1 kHz纯 音为基准一样,在测量音高时则以40 dB声强为基准,并且同样由主观感觉来确定。 测量主观音高时,让实验者听两个声强级为40 dB的纯音,固定其中一个纯音的频率, 调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差 为两倍。实验表明,音高与频率之间也不是线性关系。测出的“音高—频率”曲线如图12-02 所示
第12章MPEG声音 主观音高美) 3000 2000 1000 10000 频率(Hz) 图12-02“音高一频率”曲线 121.3.掩蔽效应 种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩 蔽声音( masking tone),后者称为被掩蔽声音( masked tone)s掩蔽可分成频域掩蔽和时域掩蔽。 1.频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽 ( simultaneous masking),如图1203所示。从图12-03可以看到,声音频率在300H附近 声强约为60dB的声音可掩蔽声音频率在150Hz附近、声强约为40dB的声音,也可掩蔽 声音频率在400Hz、声强为30dB的声音。又如,一个声强为60dB、频率为1000H的纯 音,另外还有一个1100Hz的纯音,前者比后者高18dB,在这种情况下我们的耳朵就只能 听到那个1000H的强音。如果有一个1000Hz的纯音和一个声强比它低18dB的2000Hz 的纯音,那么我们的耳朵将会同时听到这两个声音。要想让2000Hz的纯音也听不到,则需 要把它降到比1000Hz的纯音低45dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽。 掩蔽阈值 掩蔽声音 阈值 被掩蔽声音 距香看 0.020.050.10.20512 f/kHz 图12-03频域掩蔽 在图12-04中的一组曲线分别表示频率为250Hz,1kHz和4kHz纯音的掩蔽效应,它们 的声强均为60dB。从图1404中可以看到:①在250Hz,1kHz和4kHz纯音附近,对其他纯 音的掩蔽效果最明显,②低频纯音可以有效地掩蔽髙频纯音,但髙频纯音对低频纯音的掩蔽 作用则不明显
第12章 MPEG声音 3 图12-02 “音高—频率”曲线 12.1.3. 掩蔽效应 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩 蔽声音(masking tone),后者称为被掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。 1. 频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽 (simultaneous masking), 如图 12-03 所示。从图 12-03 可以看到,声音频率在 300 Hz 附近、 声强约为 60 dB 的声音可掩蔽声音频率在 150 Hz 附近、声强约为 40 dB 的声音,也可掩蔽 声音频率在 400 Hz、声强为 30dB 的声音。又如,一个声强为 60 dB、频率为 1000 Hz 的纯 音,另外还有一个 1100 Hz 的纯音,前者比后者高 18 dB,在这种情况下我们的耳朵就只能 听到那个 1000 Hz 的强音。如果有一个 1000 Hz 的纯音和一个声强比它低 18 dB 的 2000 Hz 的纯音,那么我们的耳朵将会同时听到这两个声音。要想让 2000 Hz 的纯音也听不到,则需 要把它降到比 1000 Hz 的纯音低 45 dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽。 图12-03 频域掩蔽 在图12-04中的一组曲线分别表示频率为250 Hz,1 kHz和4 kHz纯音的掩蔽效应,它们 的声强均为60 dB。从图14-04中可以看到:①在250 Hz,1 kHz和4 kHz纯音附近,对其他纯 音的掩蔽效果最明显,②低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽 作用则不明显
第12章MPEG声音 f=0.25 kHz 1khz 4 kHz 0.02 f/khz 图12-04不同纯音的掩蔽效应曲线 由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临 界频带( critical band)”的概念。通常认为,在20Hz到16kHz范围内有24个临界频带,如表12-01 所示。临界频带的单位叫Bark(巴克) I Bark=一个临界频带的宽度 f(频率)500Hz的情况下,1Bark≈∫/100 ∫(频率)>500Hz的情况下, 1 Bark≈9+4log2(∫/1000 以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要, 它是心理声学模型的基础。 表12.01临界频带 临界 频率(Hz) 临界 频率(Hz) 频带[低端高端[宽度频带「低端高端[宽度 13 100 142320 200 300 100 15 2700 3150 300 163150 400 s510 110 17 3700 700 630 120 184400 5300900 630 140 1953006400100 92010801 21770095001800 1270 9500 12000 500 10 210 23|1200015500 3500 1480 1720 2415500220506550 121720200028 2.时域掩蔽 除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并 且称为时域掩蔽。时域掩蔽又分为超前掩蔽( pre-masking)和滞后掩蔽φpost- masking,如图 12-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说, 超前掩蔽很短,只有大约5~20ms,而滞后掩蔽可以持续50~200ms。这个区别也是很容易 理解的
第12章 MPEG声音 4 图12-04 不同纯音的掩蔽效应曲线 由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临 界频带(critical band)”的概念。通常认为,在20 Hz到16 kHz范围内有24个临界频带,如表12-01 所示。临界频带的单位叫Bark(巴克), ⚫ 1 Bark = 一个临界频带的宽度 ⚫ f (频率) 500 Hz的情况下, 1Bark 9 + 4 2 log ( /1000) f 以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要, 它是心理声学模型的基础。 表12-01 临界频带[16] 临界 频率 (Hz) 临界 频率 (Hz) 频带 低端 高端 宽度 频带 低端 高端 宽度 0 0 100 100 13 2000 2320 320 1 100 200 100 14 2320 2700 380 2 200 300 100 15 2700 3150 450 3 300 400 100 16 3150 3700 550 4 400 510 110 17 3700 4400 700 5 510 630 120 18 4400 5300 900 6 630 770 140 19 5300 6400 1100 7 770 920 150 20 6400 7700 1300 8 920 1080 160 21 7700 9500 1800 9 1080 1270 190 22 9500 12000 2500 10 1270 1480 210 23 12000 15500 3500 11 1480 1720 240 24 15500 22050 6550 12 1720 2000 280 2. 时域掩蔽 除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并 且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),如图 12-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说, 超前掩蔽很短,只有大约5~20 ms,而滞后掩蔽可以持续50~200 ms。这个区别也是很容易 理解的
第12章MPEG声音 4声音强度(B) 90超前掩蔽 同时掩蔽 滞后掩蔽 60-40-20 160180020406080100120 时间(毫秒) 图12-05时域掩蔽 122 MPEG Audio与感知特性 MPEG Audio( MPEG声音)标准在本书中是指MPEG-1 Audio、MPEG2 Audio和MPEG-2 AAC,它们处理10Hz~20000Hz范围里的声音数据,数据压缩的主要依据是人耳朵的听觉 特性,使用“心理声学模型( psychoacoustic model)”来达到压缩声音数据的目的。 心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平 的声音信号就听不到,因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而 改变,各个人的听觉阈值也不同。大多数人的听觉系统对2kHz~5kH之间的声音最敏感 个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈 值 心理声学模型中的另一个概念是听觉掩饰特性,意思是听觉阈值电平是自适应的,即听 觉阈值电平会随听到的不同频率的声音而发生变化。例如,同时有两种频率的声音存在, 种是1000Hz的声音,另一种是1100Hz的声音,但它的强度比前者低18分贝,在这种情况下 l100Hz的声音就听不到。也许你有这样的体验,在一安静房间里的普通谈话可以听得很清 楚,但在播放摇滚乐的环境下冋样的普通谈话就听不清楚了。声音压缩算法也同样可以确立 这种特性的模型来取消更多的冗余数据 MPEG Audio采纳两种感知编码,一种叫做感知子带编码( perceptual subband coding), 另一种是由杜比实验室( Dolby Laboratories)开发的 Dolby AC-3( Audio Code number3)编码, 简称AC-3。它们都利用人的听觉系统的特性来压缩数据,只是压缩数据的算法不同 感知子带编码的简化算法框图如图12-06所示。输入信号通过“滤波器组”进行滤波之 后被分割成许多子带,每个子带信号对应一个“编码器”,然后根据心理声学模型对每个子 带信号进行量化和编码,输出量化信息和经过编码的子带样本,最后通过“多路复合器”把 每个子带的编码输出按照传输或者存储格式的要求复合成数据位流( bit stream)。解码过程与 编码过程相反。 绵码器 译码器 输入 Channel (通道 Psychoacoustic 心理声学模型) 图12-06感知子带压缩算法框图
第12章 MPEG声音 5 图12-05时域掩蔽 12.2 MPEG Audio与感知特性 MPEG Audio(MPEG声音)标准在本书中是指MPEG-1 Audio、MPEG-2 Audio和MPEG-2 AAC,它们处理10 Hz~20000 Hz范围里的声音数据,数据压缩的主要依据是人耳朵的听觉 特性,使用“心理声学模型(psychoacoustic model)”来达到压缩声音数据的目的。 心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平 的声音信号就听不到,因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而 改变,各个人的听觉阈值也不同。大多数人的听觉系统对2 kHz~5 kHz之间的声音最敏感。 一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈 值。 心理声学模型中的另一个概念是听觉掩饰特性,意思是听觉阈值电平是自适应的,即听 觉阈值电平会随听到的不同频率的声音而发生变化。例如,同时有两种频率的声音存在,一 种是1000 Hz的声音,另一种是1100 Hz的声音,但它的强度比前者低18分贝,在这种情况下, 1100 Hz的声音就听不到。也许你有这样的体验,在一安静房间里的普通谈话可以听得很清 楚,但在播放摇滚乐的环境下同样的普通谈话就听不清楚了。声音压缩算法也同样可以确立 这种特性的模型来取消更多的冗余数据。 MPEG Audio 采纳两种感知编码,一种叫做感知子带编码(perceptual subband coding ), 另一种是由杜比实验室(Dolby Laboratories)开发的 Dolby AC-3 (Audio Code number 3)编码, 简称 AC-3。它们都利用人的听觉系统的特性来压缩数据,只是压缩数据的算法不同。 感知子带编码的简化算法框图如图 12-06 所示。输入信号通过“滤波器组”进行滤波之 后被分割成许多子带,每个子带信号对应一个“编码器”,然后根据心理声学模型对每个子 带信号进行量化和编码,输出量化信息和经过编码的子带样本,最后通过“多路复合器”把 每个子带的编码输出按照传输或者存储格式的要求复合成数据位流(bit stream)。解码过程与 编码过程相反。 图12-06 感知子带压缩算法框图
第12章MPEG声音 Dolby AC-3是MPEG-2釆纳的声音编码技术,为便于和感知子带编码作比较,因此安 排在这一节简单介绍。 Dolby AC-3是一种多通道( multichannel)音乐信号压缩技术,它可支持 5个3~20000Hz频率范围的通道。AC-3压缩编码算法的简化框图如图12-07所示。它的 输入是未被压缩的PCM样本,而PCM样本的采样频率必须是32,441或者48kHz,样本 精度可多到20位。在图12-07中,各部分的功能如下: (1)分析滤波器组( analysis filter bank):它的功能是把用PCM时间样本表示的声音信号 变换成用频率系数块( frequencies coefficients block)表示的声音信号。输入信号从时 间域变换到频率域是用时间窗( time window)乘由512个时间样本组成的交叠块 ( overlapping block来实现的。在频率域中用因子2对每个系数块进行抽取,因此每 个系数块就包含256个频率系数。单个频率系数用浮点二进制的指数( exponent和尾 数( mantissa)表示 (2)频谱包络编码( spectral envelope encoding):它的功能是对“分析滤波器组”输出的 指数进行编码。指数代表粗糙的信号频谱,因此称为(频)“谱包络编码。” (3)位分配( bit allocation):它的功能是使用“谱包络编码”输出的信息确定尾数编码 所需要的位数。 (4)尾数量化( mantissa quantization)它的功能是按照“位分配”输出的位分配信息对 尾数进行量化 (5)AC-3帧格式(AC-3 frame formatting):它的功能是把“尾数量化”输出的量化尾数 和“谱包络编码”输出的频谱包络组成AC-3帧。一帧由6个声音块(1356个声音样本 组成。“AC-3帧格式”输出的是AC-3编码位流,它的位速率为32~640kbps 分析滤波器组谱包络编码位分配 PCMAnulysis Evelope 样本 Decagon Emco西ng 指数) (尾数) 尾数 Bit floation informaton 量化( Quantisation(位分配信息) Qruarziged o(量化后 encoded|(编码后的 Mmxl的尾数 ewl谱包络) Envelope ErrcodedAc-3 AC-3 FrAme Formatting BitStream (AC-3帧格式) (编码后的 AC3位丰) ec. 20, 95, Advanced Television Systems Committee) 图12-07 Dolby ac-3压缩编码算法框图 12. 3 MPEG-1 Audio 12.3.1声音编码 声音的数据量由两方面决定:采样频率和样本精度。对单声道信号而言,每秒钟的数据 量(位数戶=采样频率ⅹ样本精度。要减小数据量,就需要降低采样频率或者降低样本精度 由于人耳可听到的声音的频率范围大约是20~20kHz,根据奈奎斯特理论,要想不失真地重 构信号,采样频率不能低于40kHz。再考虑到实际中使用的滤波器都不可能是理想滤波器, 以及考虑各国所用的交流电源的频率不同,为保证声音频带的宽度,所以采样频率一般不能 低于44.1kHz。在MPEG-1 Audio中,编码器的输入信号的样本精度通常是16位,因此声音的 数据压缩就必须从降低样本精度这个角度出发,即减少每位样本所需要的位数
第12章 MPEG声音 6 Dolby AC-3 是 MPEG-2 采纳的声音编码技术,为便于和感知子带编码作比较,因此安 排在这一节简单介绍。Dolby AC-3 是一种多通道(multichannel)音乐信号压缩技术,它可支持 5 个 3 ~20 000 Hz 频率范围的通道。AC-3 压缩编码算法的简化框图如图 12-07 所示。它的 输入是未被压缩的 PCM 样本,而 PCM 样本的采样频率必须是 32, 44.1 或者 48 kHz,样本 精度可多到 20 位。在图 12-07 中,各部分的功能如下: (1) 分析滤波器组(analysis filter bank):它的功能是把用PCM时间样本表示的声音信号 变换成用频率系数块(frequencies coefficients block)表示的声音信号。输入信号从时 间域变换到频率域是用时间窗(time window)乘由512个时间样本组成的交叠块 (overlapping block)来实现的。在频率域中用因子2对每个系数块进行抽取,因此每 个系数块就包含256个频率系数。单个频率系数用浮点二进制的指数(exponent)和尾 数(mantissa)表示。 (2) 频谱包络编码(spectral envelope encoding):它的功能是对“分析滤波器组”输出的 指数进行编码。指数代表粗糙的信号频谱,因此称为(频)“谱包络编码。” (3) 位分配(bit allocation):它的功能是使用“谱包络编码”输出的信息确定尾数编码 所需要的位数。 (4) 尾数量化(mantissa quantization):它的功能是按照“位分配”输出的位分配信息对 尾数进行量化。 (5) AC-3帧格式(AC-3 frame formatting):它的功能是把“尾数量化”输出的量化尾数 和“谱包络编码”输出的频谱包络组成AC-3帧。一帧由6个声音块(1356个声音样本) 组成。“AC-3帧格式”输出的是AC-3编码位流,它的位速率为32~640 kbps。 图12-07 Dolby AC-3压缩编码算法框图 12.3 MPEG-1 Audio 12.3.1 声音编码 声音的数据量由两方面决定:采样频率和样本精度。对单声道信号而言,每秒钟的数据 量(位数)=采样频率 样本精度。要减小数据量,就需要降低采样频率或者降低样本精度。 由于人耳可听到的声音的频率范围大约是20~20 kHz,根据奈奎斯特理论,要想不失真地重 构信号,采样频率不能低于40 kHz。再考虑到实际中使用的滤波器都不可能是理想滤波器, 以及考虑各国所用的交流电源的频率不同,为保证声音频带的宽度,所以采样频率一般不能 低于44.1 kHz。在MPEG-1 Audio中,编码器的输入信号的样本精度通常是16位,因此声音的 数据压缩就必须从降低样本精度这个角度出发,即减少每位样本所需要的位数
第12章MPEG声音 本教材第3章“话音编码”介绍了多种话音编码方法,例如,μ-law,ALaw,自适应差 分脉冲调整( adaptive difference pulse code modulation, ADPCM),码激励线性预测(code excited linear prediction,CELP)编码和混合激励线性预测(miⅸ ed excitation linear prediction, MELP)编码和线性预测编码( linear predictive coding,LPC)等方法。这类编码方法称为音源特 定编码法( source specific methods,它们的编码对象主要是针对人说话的话音。当这些算法 用来压缩宽带声音(如音乐)信号时,在相同压缩比的情况下,输出的声音质量比较低。 MPEG-1 Audio的编码对象是20~20000Hz的宽带声音,因此它采用了感知子带编码。在 许多文献中,使用含义与它相同的一个术语,叫做子带编码(sub- band coding,SBC)。子带 编码是一种功能很强而且很有效的声音数据编码方法。与音源特定编码法不同,SBC的编码 对象不局限于话音数据,也不局限于哪一种声源。这种方法的具体思想是首先把时域中的声 音数据变换到频域,对频域内的子带分量分别进行量化和编码,根据心理声学模型确定样本 的精度,从而达到压缩数据量的目的。 MPEG声音数据压缩的基础是量化。虽然量化会带来失真,但MPEG标准要求量化失真 对于人耳来说是感觉不到的。在MPEG标准的制定过程中,MPEG- Audio委员会作了大量的 主观测试实验。实验表明,采样频率为48kHz、样本精度为16位的立体声音数据压缩到256 kb/s时,即在6:1的压缩率下,即使是专业测试员也很难分辨出是原始声音还是编码压缩后的 声音 123.2声音的性能 MPEG-1 Audio(SOEC1112-3)压缩算法是世界上第一个高保真声音数据压缩国际标 准,并且得到了极其广泛的应用。虽然MPEG声音标准是MPEG标准的一部分,但它也完全 可以独立应用。MPEG-1声音标准的主要性能如下: (1)如图12-08所示,MPEG编码器的输入信号为线性PCM信号,采样率为32,44支48 kHz,输出为32kb/s~384kb/s 32,44.1, 48 kHZ MPE 32 kbps- 编码器 PCM 384kb 图12-08MPEG编码器的输入/綸出 2)MPEG声音标准提供三个独立的压缩层次:层l( Layer1)、层2( Layer2)和层 Layer3), 用户对层次的选择可在复杂性和声音质量之间进行权衡 ①层1的编码器最为简单,编码器的输出数据率为384kbs,主要用于小型数字盒式磁 ②层2的编码器的复杂程度属中等,编码器的输出数据率为256kbs~192kb/s,其应用 包括数字广播声音( digital broadcast audio,DBA)、数字音乐、CDl( compact disc-interactive)和ⅤCD( video compact disc)等 ③层3的编码器最为复杂,编码器的输出数据率为64kb/s,主要应用于ISDN上的声音 在尽可能保持CD音质为前提的条件下,MPEG声音标准一般所能达到的压缩率如表 12-02所示,从编码器的输入到输出的延迟时间如表12-03所示 表1202MPEG声音的压缩率 层次算法 压缩率 立体声信号所对应的 MUSICAME MUSICAM*6 ASPEC*10:1~12 128~112
第12章 MPEG声音 7 本教材第3章“话音编码”介绍了多种话音编码方法,例如,-law,A-Law,自适应差 分脉冲调整(adaptive difference pulse code modulation,ADPCM),码激励线性预测(code excited linear prediction,CELP)编码和混合激励线性预测(mixed excitation linear prediction, MELP)编码和线性预测编码(linear predictive coding,LPC)等方法。这类编码方法称为音源特 定编码法(source specific methods),它们的编码对象主要是针对人说话的话音。当这些算法 用来压缩宽带声音(如音乐)信号时,在相同压缩比的情况下,输出的声音质量比较低。 MPEG-1 Audio的编码对象是20~20000Hz的宽带声音,因此它采用了感知子带编码。在 许多文献中,使用含义与它相同的一个术语,叫做子带编码(sub-band coding,SBC)。子带 编码是一种功能很强而且很有效的声音数据编码方法。与音源特定编码法不同,SBC的编码 对象不局限于话音数据,也不局限于哪一种声源。这种方法的具体思想是首先把时域中的声 音数据变换到频域,对频域内的子带分量分别进行量化和编码,根据心理声学模型确定样本 的精度,从而达到压缩数据量的目的。 MPEG声音数据压缩的基础是量化。虽然量化会带来失真,但MPEG标准要求量化失真 对于人耳来说是感觉不到的。在MPEG标准的制定过程中,MPEG-Audio委员会作了大量的 主观测试实验。实验表明,采样频率为48 kHz、样本精度为16位的立体声音数据压缩到256 kb/s时,即在6:1的压缩率下,即使是专业测试员也很难分辨出是原始声音还是编码压缩后的 声音。 12.3.2 声音的性能 MPEG-1 Audio (ISO/IEC 11172-3)压缩算法是世界上第一个高保真声音数据压缩国际标 准,并且得到了极其广泛的应用。虽然MPEG声音标准是MPEG标准的一部分,但它也完全 可以独立应用。MPEG-1声音标准的主要性能如下: (1) 如图12-08所示,MPEG编码器的输入信号为线性PCM信号,采样率为32, 44.1或48 kHz,输出为32 kb/s~384 kb/s。 MPEG 编码器 32, 44.1, 48 kHz PCM 32 kbps~ 384 kbps 图12-08 MPEG编码器的输入/输出 (2) MPEG声音标准提供三个独立的压缩层次:层1(Layer 1)、层2(Layer 2)和层3(Layer 3), 用户对层次的选择可在复杂性和声音质量之间进行权衡。 ① 层1的编码器最为简单,编码器的输出数据率为384 kb/s,主要用于小型数字盒式磁 带(digital compact cassette,DCC)。 ② 层2的编码器的复杂程度属中等,编码器的输出数据率为256 kb/s~192 kb/s,其应用 包括数字广播声音(digital broadcast audio,DBA)、数字音乐、CD-I(compact disc-interactive)和VCD(video compact disc)等。 ③ 层3的编码器最为复杂,编码器的输出数据率为64 kb/s,主要应用于ISDN上的声音 传输。 在尽可能保持CD音质为前提的条件下,MPEG声音标准一般所能达到的压缩率如表 12-02所示,从编码器的输入到输出的延迟时间如表12-03所示。 表12-02 MPEG声音的压缩率 层次 算法 压缩率 立体声信号所对应的 位率( kb/s) 1 MUSICAM* 4:1 384 2 MUSICAM* 6:1 ~ 8:1 256 ~ 192 3 ASPEC** 10:1 ~ 12:1 128 ~ 112
第12章MPEG声音 MUSICAM(Masking pattern adapted Universal Subband Integrated Coding And Multiplexing)自适应声音掩蔽特性的通用子带综合编码和复合技术 * ASPEC(Adaptive Spectral Perceptual Entropy Coding of high qual ity musical signal) 高质量音乐信号自适应谱感知熵编码(技术) 表12-03MPEG编码解码器的延迟时间 延迟时间理论最小值(ms实际实现中的一般值(ms) 19 层2( Layer2) 100 层3Lave3) (3)可预先定义压缩后的数据率,如表12-04所示。另外,MPEG声音标准也支持用户预 定义的数据率。 表1204MPEG层3在各种数据率下的性能 音质要求声音带宽(kH方式数据率(kb/s)压缩比 单声道 96: 优于短波 5.5 单声道 优于调幅广播 单声道 类似于调频广播 立体声56~6426~24:1 接近CD 15 立体声 96 16:1 >15 立体声112~128|2~10:1 (4)编码后的数据流支持循环冗余校验CRC( (cyclic redundancy check)。 (5)MPEG声音标准还支持在数据流中添加附加信息。 12.3.3子带编码 MPEG-1使用子带编码来达到既压缩声音数据又尽可能保留声音原有质量的目的。听觉 系统有许多特性,子带编码的理论根据是听觉系统的掩蔽特性,并且主要是利用频域掩蔽特 性。SBC的基本想法就是在编码过程中保留信号的带宽而扔掉被掩蔽的信号,其结果是编码 之后还原的声音,也就是解码或者叫做重构的声音信号与编码之前的声音信号不相同,但人 的听觉系统很难感觉到它们之间的差别。这也就是说,对听觉系统来说这种压缩是“无损压 MPEG-1 Audio编码器的结构如图12-09所示。输入声音信号经过一个“时间-频率多相滤 波器组”变换到频域里的多个子带中。输入声音信号同时经过“心理声学模型(计算掩蔽特 性)”,该模型计算以频率为自变量的噪声掩蔽阈值( masking threshold,査看输入信号和子带 中的信号以确定每个子带里的信号能量与掩蔽阈值的比率。“量化和编码”部分用信掩比 ( signal-to- mask ratio,SMR)来决定分配给子带信号的量化位数,使量化噪声低于掩蔽阈值 最后通过“数据流帧包装”将量化的子带样本和其他数据按照规定的称为“帧(fame)”的格 式组装成位数据流 PCM声音 数据样本 时间频率 变换多相 量化和 位数据流 滤波器组 编码 (计算掩蔽特性) 辅助数据 lSO11172-3 图12-09MPEG声音编码器结构图 信掩比(SMR)是指最大的信号功率与全局掩蔽阈值之比。图12-10表示某个临界频带中 的掩蔽阈值和信掩比,人们把“掩蔽音”电平和“掩蔽阈值”之间的距离叫做信掩比。在图
第12章 MPEG声音 8 * MUSICAM(Masking pattern adapted Universal Subband Integrated Coding And Multiplexing) 自适应声音掩蔽特性的通用子带综合编码和复合技术 ** ASPEC(Adaptive Spectral Perceptual Entropy Coding of high quality musical signal) 高质量音乐信号自适应谱感知熵编码(技术) 表12-03 MPEG编码解码器的延迟时间 延迟时间 理论最小值( ms) 实际实现中的一般值( ms) 层1(Layer 1) 19 15 立体声 112 ~ 128 12 ~ 10 :1 (4) 编码后的数据流支持循环冗余校验CRC(cyclic redundancy check)。 (5) MPEG声音标准还支持在数据流中添加附加信息。 12.3.3 子带编码 MPEG-1使用子带编码来达到既压缩声音数据又尽可能保留声音原有质量的目的。听觉 系统有许多特性,子带编码的理论根据是听觉系统的掩蔽特性,并且主要是利用频域掩蔽特 性。SBC的基本想法就是在编码过程中保留信号的带宽而扔掉被掩蔽的信号,其结果是编码 之后还原的声音,也就是解码或者叫做重构的声音信号与编码之前的声音信号不相同,但人 的听觉系统很难感觉到它们之间的差别。这也就是说,对听觉系统来说这种压缩是“无损压 缩”。 MPEG-1 Audio编码器的结构如图12-09所示。输入声音信号经过一个“时间-频率多相滤 波器组”变换到频域里的多个子带中。输入声音信号同时经过“心理声学模型(计算掩蔽特 性)”,该模型计算以频率为自变量的噪声掩蔽阈值(masking threshold),查看输入信号和子带 中的信号以确定每个子带里的信号能量与掩蔽阈值的比率。“量化和编码”部分用信掩比 (signal-to-mask ratio,SMR)来决定分配给子带信号的量化位数,使量化噪声低于掩蔽阈值。 最后通过“数据流帧包装”将量化的子带样本和其他数据按照规定的称为“帧(frame)”的格 式组装成位数据流。 位数据流 辅助数据 时间-频率 变换多相 滤波器组 量化和 编 码 心理声学模 型 (计算掩蔽特性) 数据流 帧包装 PCM声音 数据样本 32, 44.1, 或48 kHz ISO 11172-3 图12-09 MPEG声音编码器结构图 信掩比(SMR)是指最大的信号功率与全局掩蔽阈值之比。图 12-10 表示某个临界频带中 的掩蔽阈值和信掩比,人们把“掩蔽音”电平和“掩蔽阈值”之间的距离叫做信掩比。在图
第12章MPEG声音 12-10所示的临界频带中,“掩蔽阈值”曲线之下的声音可被“掩蔽音”掩蔽掉。此外,在图 2-10中还表示了信噪比( signal noise ratio,SNR)和噪掩比( noise-to- mask ratio,NMR 声音强度(dB) 掩數團值 信掩比 SMR m1m-位量化器 m+1的噪声电平 图12-10掩蔽阈值和SMR 图12-11是MPEG-1声音解码器的结构图。解码器对位数据流进行解码,恢复被量化的子 带样本值以重建声音信号。由于解码器无需心理声学模型,只需拆包、重构子带样本和把它 们变换回声音信号,因此解码器比编码器简单得多。 位数据流数据流 PCM声音样本 帧包 拆卸 上十臨 32.44.148kHz 辅助数据 ISO11172-3 图12-11MPEG声音解码器结构图 12.3.4多相滤波器组 在图12-09中,用来分割子带也就是时间频率变换部件是一个多相滤波器组。在MPEG-1 中,多相滤波器组是MPEG声音压缩的关键部件之一,它把输入信号变换到32个频域子带中 去。子带的划分方法有两种,一种是线性划分,另一种是非线性划分。如果把声音频带划分 成带宽相等的子带,这种划分就不能精确地反映人耳的听觉特性,因为人耳的听觉特性是以 “临界频带”来划分的,在一个临界频带之内,很多心理声学特性都是一样的。图12-12对 多相滤波器组的带宽和临界频带的带宽作了比较。从图中可以看到,在低频区域,一个子带 覆盖好几个临界频带。在这种情况下,某个子带中量化器的位分配就不能根据每个临界频带 的掩蔽阈值进行分配,而要以其中最低的掩蔽阈值为准 如果需要具体计算多相滤波器组的输出信号,请参看参考文献和站点
第12章 MPEG声音 9 12-10 所示的临界频带中,“掩蔽阈值”曲线之下的声音可被“掩蔽音”掩蔽掉。此外,在图 12-10 中还表示了信噪比(signal noise ratio,SNR)和噪掩比(noise-to-mask ratio,NMR)。 图12-10 掩蔽阈值和SMR 图12-11是MPEG-1声音解码器的结构图。解码器对位数据流进行解码,恢复被量化的子 带样本值以重建声音信号。由于解码器无需心理声学模型,只需拆包、重构子带样本和把它 们变换回声音信号,因此解码器比编码器简单得多。 32, 44.1或48kHz PCM声音样本 数据流 帧 包 拆 卸 声音 数据 重构 频率- 时 间 逆变换 位数据流 辅助数据 ISO 11172-3 图12-11 MPEG声音解码器结构图 12.3.4 多相滤波器组 在图12-09中,用来分割子带也就是时间-频率变换部件是一个多相滤波器组。在MPEG-1 中,多相滤波器组是MPEG声音压缩的关键部件之一,它把输入信号变换到32个频域子带中 去。子带的划分方法有两种,一种是线性划分,另一种是非线性划分。如果把声音频带划分 成带宽相等的子带,这种划分就不能精确地反映人耳的听觉特性,因为人耳的听觉特性是以 “临界频带”来划分的,在一个临界频带之内,很多心理声学特性都是一样的。图12-12对 多相滤波器组的带宽和临界频带的带宽作了比较。从图中可以看到,在低频区域,一个子带 覆盖好几个临界频带。在这种情况下,某个子带中量化器的位分配就不能根据每个临界频带 的掩蔽阈值进行分配,而要以其中最低的掩蔽阈值为准。 如果需要具体计算多相滤波器组的输出信号,请参看参考文献和站点[1]
第12章MPEG声音 MPEG/Audio滤波器组颊带 增加频率 检界频带带宽 图12-12滤波器组的带宽与临界频带带宽的比较[ 123.5编码层 MPEG声音压缩定义了3个分明的层次,它们的基本模型是相同的。层1是最基础的,层 2和层3都在层1的基础上有所提高。每个后继的层次都有更高的压缩比,但需要更复杂的编 码解码器。MPEG声音的每一个层都自含SBC编码器,其中包含如图12-09所示的“时间-频 率多相滤波器组”、“心理声学模型(计算掩蔽特性)”、“量化和编码”和“数据流帧包装”, 而高层SBC可使用低层SBC编码的声音数据 MPEG的声音数据分成帧( frame),层1每帧包含384个样本的数据,每帧由32个子带分别 输出的12个样本组成。层2和层3每帧为1152个样本,如图12-13所示。 样本1样本样本 子带滤波器0 子带滤波器1 声音样本 子带滤波器2 轮人 子带滤波器3 子带滤波器31 层1喷 注每32个输人样本每个子带 层23軟 德波器产生1个样本输出 图12-13层1、2和层3的子带样本 MPEG编码器的输入以12个样本为一组,每组样本经过时间-频率变换之后进行一次位 分配并记录一个比例因子( scale factor)。位分配信息告诉解码器每个样本由几位表示,比例 因子用6位表示,解码器使用这个6位的比例因子乘逆量化器的每个输出样本值,以恢复被量 化的子带值。比例因子的作用是充分利用量化器的量化范围,通过位分配和比例因子相配合, 可以表示动态范围超过120dB的样本 1.层1 层1的子带是频带相等的子带,它的心理声学模型仅使用频域掩蔽特性。层1和层2的比 较详细的框图如图12-14所示。在图12-14中,“分析滤波器组”相当于图129“时间-频率多 相滤波器组”,它使用与离散余弦变换( discrete cosine transform,DCn)类似的算法对输入信 号进行变换。与此同时,使用与“分析滤波器组”并行的快速傅立叶变换( fast Fourier transform,FFT)对输入信号进行频谱分析,并根据信号的频率、强度和音调,计算出掩蔽阈
第12章 MPEG声音 10 图12-12 滤波器组的带宽与临界频带带宽的比较[1] 12.3.5 编码层 MPEG声音压缩定义了3个分明的层次,它们的基本模型是相同的。层1是最基础的,层 2和层3都在层1的基础上有所提高。每个后继的层次都有更高的压缩比,但需要更复杂的编 码解码器。MPEG声音的每一个层都自含SBC编码器,其中包含如图12-09所示的“时间-频 率多相滤波器组”、“心理声学模型(计算掩蔽特性)”、“量化和编码”和“数据流帧包装”, 而高层SBC可使用低层SBC编码的声音数据。 MPEG的声音数据分成帧(frame),层1每帧包含384个样本的数据,每帧由32个子带分别 输出的12个样本组成。层2和层3每帧为1152个样本,如图12-13所示。 图12-13 层1、2和层3的子带样本 MPEG编码器的输入以12个样本为一组,每组样本经过时间-频率变换之后进行一次位 分配并记录一个比例因子(scale factor)。位分配信息告诉解码器每个样本由几位表示,比例 因子用6位表示,解码器使用这个6位的比例因子乘逆量化器的每个输出样本值,以恢复被量 化的子带值。比例因子的作用是充分利用量化器的量化范围,通过位分配和比例因子相配合, 可以表示动态范围超过120 dB的样本。 1. 层1 层1的子带是频带相等的子带,它的心理声学模型仅使用频域掩蔽特性。层1和层2的比 较详细的框图如图12-14所示。在图12-14中,“分析滤波器组”相当于图12-9“时间-频率多 相滤波器组”,它使用与离散余弦变换(discrete cosine transform,DCT)类似的算法对输入信 号进行变换。与此同时,使用与“分析滤波器组”并行的快速傅立叶变换(fast Fourier transform,FFT)对输入信号进行频谱分析,并根据信号的频率、强度和音调,计算出掩蔽阈