D0I:10.13374/i.issnl00It03.2009.04021 第31卷第4期 北京科技大学学报 Vol.31 No.4 2009年4月 Journal of University of Science and Technology Beijing Apr.2009 一种基于PEG一2AAC编码的音频水印方法 王 敬)杨扬)肖 蓉) 1)北京科技大学网络中心,北京1000832)北京科技大学倍息工程学院,北京100083 3)中国农业银行软件开发中心,北京100073 摘要提出了一种针对MPEG一2AAC压缩音频的脆弱水印算法.该算法利用了AAC中MDCT量化系数大于15的 Huffma编码特性来嵌入水印,并依据水印的频率分布和音频信号感知嫡PE的大小对嵌入算法进行了分析和改进.实验表 明,该算法具有较高隐藏率和良好的不可感知性,并且水印的嵌入和提取过程十分方便快速,适合进行实时分析, 关键词音频水印:AAC;压缩域;Huffman编码 分类号TP309.2 Audio watermarking based on MPEG-2 AAC WA NG Jing).YANG Yang2),XIAO Rong3) 1)Network Center.University of Science and Technology Beijing Beijing 100083,China 2)School of Information Engineering.University of Science and Technology Beijing.Beijing 100083.China 3)Software Development Center.Agriculture Bank of China.Beijing 100073.China ABSTRACT A fragile audio watermarking method for MPEG-2 AAC bitstreams was proposed.The algorithm of watermark embed- ding was carried out by modifying the LSBs(least significant bits)of quantized MDCT coefficient's magnitude that is greater than 15.and was improved by considering the watermark's distribution in frequency and the perceptual entropy of host audio.Experimen- tal result shows the proposed watermarking scheme is not appreciable,and it is possible to insert high hide rate additive data effective- ly into encoded bitstreams.The embedding and retrieving process is easy and it is adaptive for real-time analysis applications. KEY WORDS bitstream watermark:AAC;compression:Huffman coding 近年来,音频压缩技术的不断进步使得数字音 水印嵌入同时进行,根据某些MDCT系数的小数点 频的制作和传播越来越容易,但同时也对这些数字 后第1个非零位置P在经过MP3编码器压缩后不 音频文件的版权保护提出了更高的要求,通常采用 会发生变化的原理,通过改变MDCT系数的第1个 数字水印技术来对数字音频文件的版权进行保护, 非零位置来嵌入水印2],该方法可以抵御多次解 由于MPEG一1 layer3(MP3)音频编码和新一代的 压缩/压缩的攻击,但是不能完全有效地检测嵌入水 MPEG-2 Advanced Audio Coding(AAC)是目前使 印的信息,水印嵌入比例小,(3)在比例因子嵌入 用相当广泛的音频压缩技术,因此针对这两种压缩 水印.文献[45]均采用了这种方法,由于压缩音 算法的数字音频水印技术是近年来学术界研究的热 频中所含比例因子本身就很少,因此嵌入的水印量 点之一,已经有了一些研究成果 小,并且该算法过程复杂,计算量较大·(4)通过 针对MPEG编码的水印算法可以分为四类: Huffman编码的特性嵌入水印.如文献[6]通过一 (1)利用MP3的内循环的中止条件嵌入水印.这种 种将MP3中某些Huffman码书置换成和它有相同 算法对攻击比较敏感,如著名的MP3 Stego水印技 码长的码书来嵌入水印, 术山.(2)在MDCT系数上嵌入水印.MP3压缩和 本文将通过MPEG-一2AAC的Huffman编码的 收稿日期:2008-11-06 作者简介:王敬(I974-),男,工程师,E-mail:wangjing@ustb-edcm
一种基于 MPEG-2AAC 编码的音频水印方法 王 敬1) 杨 扬2) 肖 蓉3) 1) 北京科技大学网络中心北京100083 2) 北京科技大学信息工程学院北京100083 3) 中国农业银行软件开发中心北京100073 摘 要 提出了一种针对 MPEG-2 AAC 压缩音频的脆弱水印算法.该算法利用了 AAC 中 MDCT 量化系数大于15的 Huffman编码特性来嵌入水印并依据水印的频率分布和音频信号感知熵 PE 的大小对嵌入算法进行了分析和改进.实验表 明该算法具有较高隐藏率和良好的不可感知性并且水印的嵌入和提取过程十分方便快速适合进行实时分析. 关键词 音频水印;AAC;压缩域;Huffman 编码 分类号 TP309∙2 Audio watermarking based on MPEG-2AAC W A NG Jing 1)Y A NG Y ang 2)XIA O Rong 3) 1) Network CenterUniversity of Science and Technology BeijingBeijing100083China 2) School of Information EngineeringUniversity of Science and Technology BeijingBeijing100083China 3) Software Development CenterAgriculture Bank of ChinaBeijing100073China ABSTRACT A fragile audio watermarking method for MPEG-2AAC bitstreams was proposed.T he algorithm of watermark embedding was carried out by modifying the LSBs (least significant bits) of quantized MDCT coefficient’s magnitude that is greater than 15and was improved by considering the watermark’s distribution in frequency and the perceptual entropy of host audio.Experimental result shows the proposed watermarking scheme is not appreciableand it is possible to insert high hide rate additive data effectively into encoded bitstreams.T he embedding and retrieving process is easy and it is adaptive for rea-l time analysis applications. KEY WORDS bitstream watermark;AAC;compression;Huffman coding 收稿日期:2008-11-06 作者简介:王 敬(1974-)男工程师E-mail:wangjing@ustb.edu.cn 近年来音频压缩技术的不断进步使得数字音 频的制作和传播越来越容易但同时也对这些数字 音频文件的版权保护提出了更高的要求.通常采用 数字水印技术来对数字音频文件的版权进行保护. 由于 MPEG-1layer 3(MP3)音频编码和新一代的 MPEG-2Advanced Audio Coding (AAC)是目前使 用相当广泛的音频压缩技术因此针对这两种压缩 算法的数字音频水印技术是近年来学术界研究的热 点之一已经有了一些研究成果. 针对 MPEG 编码的水印算法可以分为四类: (1) 利用 MP3的内循环的中止条件嵌入水印.这种 算法对攻击比较敏感如著名的 MP3Stego 水印技 术[1].(2) 在 MDCT 系数上嵌入水印.MP3压缩和 水印嵌入同时进行根据某些 MDCT 系数的小数点 后第1个非零位置 P 在经过 MP3编码器压缩后不 会发生变化的原理通过改变 MDCT 系数的第1个 非零位置来嵌入水印[2-3].该方法可以抵御多次解 压缩/压缩的攻击但是不能完全有效地检测嵌入水 印的信息水印嵌入比例小.(3) 在比例因子嵌入 水印.文献[4-5]均采用了这种方法.由于压缩音 频中所含比例因子本身就很少因此嵌入的水印量 小并且该算法过程复杂计算量较大.(4) 通过 Huffman 编码的特性嵌入水印.如文献[6]通过一 种将 MP3中某些 Huffman 码书置换成和它有相同 码长的码书来嵌入水印. 本文将通过 MPEG-2AAC 的 Huffman 编码的 第31卷 第4期 2009年 4月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.31No.4 Apr.2009 DOI:10.13374/j.issn1001-053x.2009.04.021
526 北京科技大学学报 第31卷 特性来嵌入水印,利用量化系数大于15的Huffman 例因子频带,比例因子频带的划分尽可能地拟合人 码字作为宿主进行嵌入,并在此基础上对嵌入算法 耳的临界频带,心理声学模型用来估计每一个比例 进行分析和改进,提高嵌入水印的不可感知性, 因子频带的最大可允许失真,通过内外双层循环迭 Kim[对MP3文件使用Huffman编码嵌入水印的 代计算出每个比例因子频带的量化步长,以此对 方法为本文提供了思路 MDCT系数进行量化.量化步长一方面要满足编码 1MPEG一2AAC编码8] 使用的比特数小于可分配的比特数,另一方面还要 使量化噪声在心理声学模型允许范围之内,然后用 1.1MPEG2AAC简介 Huffman编码对量化后的系数进行编码,最后进行 为了达到更高的编码质量和效率,MPEG一2 比特流封装,得到压缩后的码流, AAC(先进音频编码)[8]打破了对MPEG一1layer3 1.2 Huffman编码 (MP3)的向下兼容性,在MPEG系统上进一步改进 在AAC中的Huffman编码是一种无损编码 并加入了很多新的功能,大大增强了编码的灵活度, 需要进行Huffman编码的参数包括各子带的比例 在保证音质的同时更大限度地压缩了码率 因子和经过量化的MDCT谱线,对比例因子的编码 AAC编码可以分为频谱变换、量化、熵编码和 比较简单.对谱系数进行Huffman编码时,AAC编 比特流封装四步.首先,对输入的PCM信号分段, 码一共使用了l2本码书.每个Huffman码书所能 每帧信号通过改进的离散余弦变换(MDCT),输出 表示的量化频谱系数的最大绝对值、不同码书中n 1024个频谱分量.再将这些频谱分量依据不同的 重组的个数、是否有符号等情况如表1所示, 采样率和变换块类型划分成数10个不同带宽的比 表】Huffman码书 Table 1 Huffman codebook 码书序号 n重组 最大绝对值 有符号值 码书序号 n重组 最大绝对值 有符号值 0 0 6 2 4 是 1 1 是 7 2 7 否 2 4 1 是 8 2 否 3 4 2 9 2 12 否 4 4 2 否 10 2 12 否 是 11 2 16 否 有两个码书需要特别说明:码书0专门针对在 N=0,得到的escape--sequence是“00000”,同理可 个编码区内的各系数都为0的情况:码书11能够 知1011111”的escape--sequence代表值为63的量 表示绝对值大于等于16的量化值,在量化值大于 化系数.escape--sequence反映了量化值的真实大 或等于l6时,使用一种称为escape coding的机制来 小,并且编码后的escape-sequence在解压端能够毫 实现无损编码.这样量化系数可以用escape 无误差地被还原,这给水印的嵌入和提取提供条件. sequence来表示,escape sequence由以下几部分组 2水印嵌入 成: escape sequence= 本文的水印嵌入是对Huffman码字进行修改, escape-prefix)<escape-separator(escape-word. 因此水印可以在音频压缩过程中嵌入,也可以在压 缩好的AAC音频上直接嵌入·本文在压缩过程中 其中,(escape--prefix)是一个由V位“l"来表示的序 列escape-separator只有一位,固定用“0”来表 嵌入水印,采用了视觉可辨的二值图像,这种水印在 用于数字音频版权保护或对其内容的原始性进行校 示,用来分隔(escape-prefix).和(escape-word; 验时具有视觉的直观性, (escape--word是一个N+4位的无符号整数,N保 2.1数字水印预处理 证下面的式子成立: 为了消除二维水印图像W的像素空间相关 量化系数=2N+4十escape-word (1) 性,提高数字水印算法的鲁棒性,确保水印图像某一 根据上面的式子可以知当量化系数为16时, 部分受到破坏后仍能全部或部分地恢复水印,首先
特性来嵌入水印利用量化系数大于15的 Huffman 码字作为宿主进行嵌入并在此基础上对嵌入算法 进行分析和改进提高嵌入水印的不可感知性. Kim [7]对 MP3文件使用 Huffman 编码嵌入水印的 方法为本文提供了思路. 1 MPEG-2AAC 编码 [8] 1∙1 MPEG-2AAC 简介 为了达到更高的编码质量和效率MPEG-2 AAC(先进音频编码) [8]打破了对 MPEG-1layer 3 (MP3)的向下兼容性在 MPEG 系统上进一步改进 并加入了很多新的功能大大增强了编码的灵活度 在保证音质的同时更大限度地压缩了码率. AAC 编码可以分为频谱变换、量化、熵编码和 比特流封装四步.首先对输入的 PCM 信号分段 每帧信号通过改进的离散余弦变换(MDCT )输出 1024个频谱分量.再将这些频谱分量依据不同的 采样率和变换块类型划分成数10个不同带宽的比 例因子频带比例因子频带的划分尽可能地拟合人 耳的临界频带.心理声学模型用来估计每一个比例 因子频带的最大可允许失真.通过内外双层循环迭 代计算出每个比例因子频带的量化步长以此对 MDCT 系数进行量化.量化步长一方面要满足编码 使用的比特数小于可分配的比特数另一方面还要 使量化噪声在心理声学模型允许范围之内然后用 Huffman 编码对量化后的系数进行编码最后进行 比特流封装得到压缩后的码流. 1∙2 Huffman 编码 在 AAC 中的 Huffman 编码是一种无损编码. 需要进行 Huffman 编码的参数包括各子带的比例 因子和经过量化的 MDCT 谱线对比例因子的编码 比较简单.对谱系数进行 Huffman 编码时AAC 编 码一共使用了12本码书.每个 Huffman 码书所能 表示的量化频谱系数的最大绝对值、不同码书中 n 重组的个数、是否有符号等情况如表1所示. 表1 Huffman 码书 Table1 Huffman codebook 码书序号 n 重组 最大绝对值 有符号值 0 - 0 - 1 4 1 是 2 4 1 是 3 4 2 否 4 4 2 否 5 2 4 是 码书序号 n 重组 最大绝对值 有符号值 6 2 4 是 7 2 7 否 8 2 7 否 9 2 12 否 10 2 12 否 11 2 16 否 有两个码书需要特别说明:码书0专门针对在 一个编码区内的各系数都为0的情况;码书11能够 表示绝对值大于等于16的量化值.在量化值大于 或等于16时使用一种称为 escape coding 的机制来 实现 无 损 编 码.这 样 量 化 系 数 可 以 用 escape sequence来表示escape sequence 由以下几部分组 成: escape sequence= 〈escape-prefix〉〈escape-separator〉〈escape-word〉. 其中〈escape-prefix〉是一个由 N 位“1”来表示的序 列;〈escape- separator〉 只有一位固定用“0” 来表 示用来分隔〈escape- prefix〉和〈escape- word〉; 〈escape-word〉是一个 N+4位的无符号整数N 保 证下面的式子成立: 量化系数=2N+4+〈escape-word〉 (1) 根据上面的式子可以知当量化系数为16时 N=0得到的 escape-sequence 是“00000”.同理可 知“1011111”的 escape-sequence 代表值为63的量 化系数.escape- sequence 反映了量化值的真实大 小并且编码后的 escape-sequence 在解压端能够毫 无误差地被还原这给水印的嵌入和提取提供条件. 2 水印嵌入 本文的水印嵌入是对 Huffman 码字进行修改 因此水印可以在音频压缩过程中嵌入也可以在压 缩好的 AAC 音频上直接嵌入.本文在压缩过程中 嵌入水印采用了视觉可辨的二值图像这种水印在 用于数字音频版权保护或对其内容的原始性进行校 验时具有视觉的直观性. 2∙1 数字水印预处理 为了消除二维水印图像 W 的像素空间相关 性提高数字水印算法的鲁棒性确保水印图像某一 部分受到破坏后仍能全部或部分地恢复水印首先 ·526· 北 京 科 技 大 学 学 报 第31卷
第4期 王敬等:一种基于MPEG2AAC编码的音频水印方法 .527 对二维水印图像进行置乱变换.本文采用了Arnold 0≤j0 2 0,255 01' 0.0 *00 为了分析嵌入水印的结果,需要对水印嵌入后 PEAQ模型是一种音频质量客观评价模型.它将参 的音频的听觉质量进行评价,国内经常使用的信噪 考信号和失真信号通过感知声学模型模拟人对音频 比(signal-to-noise ratio,SNR)方法没有考虑到人类 信号的感知,认知模型将感知声学模型输出值在频 听觉系统的感知特性,对于高质量的音频编解码系 域和时域进行综合产生一系列模型输出变量 统而言这种方法并不实用.因此本文采用ITUR (MOV),通过一个人工神经网络,计算出最终的客 提出的感知音频质量评价PEAQ(perceived evalua~ 观失真等级ODG(objective difference grade),ODG tion of audio quality)模型1o来评价音频听觉质量. 有五个等级,见表3.实验结果如表4所示 表3ODG的五个等级 Table 3 Five classes of ODG 客观失真等级(ODG) 0 -1 -2 -3 -4 感知效果 不可感知 可感知 有些恼人 恼人 非常恼人 表4水印嵌入结果 Table 4 Results of watermark embedding 音乐名称 文件长度/ 嵌入水印/ 每秒嵌入水印/ 感知音频质量评价:客观失真等级 (48000h,133kbps) 5 bit (hits) PEAQ:ODG 流行音乐 19.63 18075 920.8 -0.312 爵士乐 20.73 30437 1468.3 -0.390 经典音乐 19.71 42879 2175.5 -0.773 民歌 20.28 18447 909.6 -0.744 鼓乐 20.40 23833 1168.2 -0.146 摇滚乐 20.06 11261 561.7 -0.247 演唱 20.10 7968 396.4 -0.245 乡村音乐 20.20 30139 1492.0 -0.757
对二维水印图像进行置乱变换.本文采用了 Arnold 变换[9]对二维水印图像 W (大小为 N× N)进行置 乱变换.数字化后的图像可以看作一个矩阵令矩 阵的坐标 xy∈{0123…N-1}于是 Arnold 变换可以表示为: x′ y′ = 1 2 1 1 x y (mod N) (2) 由此作迭代程序直到图像变得杂乱无章.接 下来对置乱后的二维水印图像进行降维处理(即将 置乱后的二维水印图像转换为一维的数字水印序列 V 以便将二维的灰度图像嵌入到一维的数字音频 信号中)即: V ={v ( k)= w( ij)0≤ i< N 0≤ j< Nk= i·N+ j} (3) 2∙2 基于 escape coding 的水印嵌入算法 通过修改 escape-word 的最低有效位(LSB)来 嵌入水印.MPEG-2AAC 中规定量化后的系数最 大值不能超过8191因此 escape-word 的最低有效 位数可以从4bit 到12bit.为了减小嵌入水印产生 的听觉失真只使用1bit 和2bit 的最低有效位来嵌 入水印.当 escape-prefix 中“1”的个数为零即量化 系数在16到31时只取1bit 最低有效位进行嵌 入;当 escape-prefix 中“1”的个数大于零即量化系 数大于或等于32时取2bit 最低有效位进行嵌入. 具体的嵌入方法是根据当前的水印象素值来对 escape-word的最低有效位进行修改(如表2). 表2 嵌入方法 Table2 Embedding method 条件 最低有效位(LSB)/bit 水印象素值 嵌入水印 escape-prefix 中“1”的个数=0 1 255 ‘1’ 0 ‘0’ 255255 ‘11’ escape-prefix 中“1”的个数>0 2 2550 ‘10’ 0255 ‘01’ 00 ‘00’ 为了分析嵌入水印的结果需要对水印嵌入后 的音频的听觉质量进行评价.国内经常使用的信噪 比(signa-l to-noise ratioSNR)方法没有考虑到人类 听觉系统的感知特性对于高质量的音频编解码系 统而言这种方法并不实用.因此本文采用 ITU-R 提出的感知音频质量评价 PEAQ (perceived evaluation of audio quality)模型[10]来评价音频听觉质量. PEAQ 模型是一种音频质量客观评价模型.它将参 考信号和失真信号通过感知声学模型模拟人对音频 信号的感知认知模型将感知声学模型输出值在频 域 和 时 域 进 行 综 合 产 生 一 系 列 模 型 输 出 变 量 (MOV)通过一个人工神经网络计算出最终的客 观失真等级 ODG (objective difference grade).ODG 有五个等级见表3.实验结果如表4所示. 表3 ODG 的五个等级 Table3 Five classes of ODG 客观失真等级(ODG) 0 -1 -2 -3 -4 感知效果 不可感知 可感知 有些恼人 恼人 非常恼人 表4 水印嵌入结果 Table4 Results of watermark embedding 音乐名称 (48000Hz133kbps) 文件长度/ s 嵌入水印/ bit 每秒嵌入水印/ (bit·s -1) 感知音频质量评价∶客观失真等级 PEAQ∶ODG 流行音乐 19∙63 18075 920∙8 -0∙312 爵士乐 20∙73 30437 1468∙3 -0∙390 经典音乐 19∙71 42879 2175∙5 -0∙773 民歌 20∙28 18447 909∙6 -0∙744 鼓乐 20∙40 23833 1168∙2 -0∙146 摇滚乐 20∙06 11261 561∙7 -0∙247 演唱 20∙10 7968 396∙4 -0∙245 乡村音乐 20∙20 30139 1492∙0 -0∙757 第4期 王 敬等: 一种基于 MPEG-2AAC 编码的音频水印方法 ·527·
.528 北京科技大学学报 第31卷 2.3嵌入算法改进 escape coding的发生频率与该音乐在频率上的分布 不难发现,虽然escape coding在各类音乐压缩 密切相关,如图1所示,经典音乐的水印嵌入量大, 时都会发生,但发生的频率却各不相同,嵌入水印的 它的频率分布主要集中在低频区;演唱的水印嵌入 码率会随着宿主不同有较大不同,同时对宿主音频 量较小,它的频率分布则比较均匀,也就是说,能量 音质的改变也不相同 主要集中在低频区时的音乐发生escape coding的频 通过比较这些音乐的频谱分布可以发现, 率要比能量在各个频率分布均匀的音乐高得多 (a) (b) 图1不同嵌入码率的频率分布。(a)经典音乐的频率分布;(b)演唱的频率分布 Fig.I Frequency distributions at different embedded rates:(a)classic frequency distribution:(b)singing frequeney distribution 由于人耳对于低频声音敏感,为了进一步提高 表5长窗信号水印嵌入量控制 嵌入水印后的听觉质量,应该减少水印在低频段的 Table 5 Watermark embedding control by long window signal 嵌入量,在MPEG一2AAC中,MDCT系数根据心 比例因子带号,动 sb5 5<b<20 20<b 理声学模型一Ⅱ从低频到高频被划分成了多个比例 嵌入量/bit 10 无限制 因子频带,因此可由escape coding发生所处的比例 因子带号来判断当前的频率段,从而控制各频段上 经过码率控制后的水印嵌入结果如表6所示, 的水印嵌入量,但通过实验发现,由于大部分的 所有嵌入水印的音乐在听觉质量上都有了提高,同 escape coding发生在低频区域,如果一味的控制低 时不同音频水印嵌入码率的差异减小,说明嵌入码 频区的水印嵌入,提高了听觉质量,却使水印的嵌入 率更稳定 码率变得很小. 为了平衡水印的嵌入码率和不可感知性,本文 3水印提取 利用AAC中根据心理声学模型计算出的感知熵PE 水印提取即水印嵌入的逆过程,在Huffman解 (perceptual entropy)作为另一嵌入条件.PE表 码之前,找到所有使用码书号为l1的Huffman码 示信号对噪声的容忍度.在AAC中,当PE值大于 字,并判断该编码是否使用了escape coding根据嵌 1800时表明该段音乐变化较大,为避免失真AAC 入算法可以得到嵌入的水印值,再将提取的水印通 给它分配较多的比特数,使用短窗(256个样本)来 过Anorld反变换9,恢复成原来的图像. 进行编码;当PE小于1800时,为提高编码效率使 用长窗(2048个样本)给信号编码,根据刘伟等12] 4实验结果 的研究结果表明,MP3压缩后的信噪比与PE值的 以fok文件为例,水印图像(大小70×70)如 变化趋势一致,即对PE较大的帧MP3所产生的影 图2(a)所示,实际嵌入的水印量是6495bit 响较小,因此在短窗信号中嵌入水印引起的失真较 (图2(b),在音频文件没有受到攻击时,水印可以 小,这一点同样适用于AAC. 100%被提取出来(图2(c)·由于嵌入和提取算法 基于escape coding发生的频段和PE的大小, 复杂度小,嵌入和提取的速度很快,几乎不会增加音 本文对水印嵌入算法进行了改进:对PE小于1800 频文件压缩和解压缩的时间,虽然这种水印嵌入量 的短窗信号不限制水印嵌入量,而对长窗信号则由 较大,但由于只是对Huffman的LsB进行修改,原 比例因子带号决定水印嵌入量(表5), 压缩音频的比特率不会增加
2∙3 嵌入算法改进 不难发现虽然 escape coding 在各类音乐压缩 时都会发生但发生的频率却各不相同嵌入水印的 码率会随着宿主不同有较大不同同时对宿主音频 音质的改变也不相同. 通过比 较 这 些 音 乐 的 频 谱 分 布 可 以 发 现 escape coding 的发生频率与该音乐在频率上的分布 密切相关如图1所示.经典音乐的水印嵌入量大 它的频率分布主要集中在低频区;演唱的水印嵌入 量较小它的频率分布则比较均匀.也就是说能量 主要集中在低频区时的音乐发生 escape coding 的频 率要比能量在各个频率分布均匀的音乐高得多. 图1 不同嵌入码率的频率分布.(a) 经典音乐的频率分布;(b) 演唱的频率分布 Fig.1 Frequency distributions at different embedded rates:(a) classic frequency distribution;(b) singing frequency distribution 由于人耳对于低频声音敏感为了进一步提高 嵌入水印后的听觉质量应该减少水印在低频段的 嵌入量.在 MPEG-2AAC 中MDCT 系数根据心 理声学模型-Ⅱ从低频到高频被划分成了多个比例 因子频带因此可由 escape coding 发生所处的比例 因子带号来判断当前的频率段从而控制各频段上 的水印嵌入量.但通过实验发现由于大部分的 escape coding 发生在低频区域如果一味的控制低 频区的水印嵌入提高了听觉质量却使水印的嵌入 码率变得很小. 为了平衡水印的嵌入码率和不可感知性本文 利用 AAC 中根据心理声学模型计算出的感知熵 PE (perceptual entropy) [11] 作为另一嵌入条件.PE 表 示信号对噪声的容忍度.在 AAC 中当 PE 值大于 1800时表明该段音乐变化较大为避免失真 AAC 给它分配较多的比特数使用短窗(256个样本)来 进行编码;当 PE 小于1800时为提高编码效率使 用长窗(2048个样本)给信号编码.根据刘伟等[12] 的研究结果表明MP3压缩后的信噪比与 PE 值的 变化趋势一致即对 PE 较大的帧 MP3所产生的影 响较小因此在短窗信号中嵌入水印引起的失真较 小这一点同样适用于 AAC. 基于 escape coding 发生的频段和 PE 的大小 本文对水印嵌入算法进行了改进:对 PE 小于1800 的短窗信号不限制水印嵌入量而对长窗信号则由 比例因子带号决定水印嵌入量(表5). 表5 长窗信号水印嵌入量控制 Table5 Watermark embedding control by long window signal 比例因子带号sb sb≤5 5<sb<20 20<sb 嵌入量/bit 0 10 无限制 经过码率控制后的水印嵌入结果如表6所示. 所有嵌入水印的音乐在听觉质量上都有了提高同 时不同音频水印嵌入码率的差异减小说明嵌入码 率更稳定. 3 水印提取 水印提取即水印嵌入的逆过程.在 Huffman 解 码之前找到所有使用码书号为11的 Huffman 码 字并判断该编码是否使用了 escape coding;根据嵌 入算法可以得到嵌入的水印值再将提取的水印通 过 Anorld 反变换[9]恢复成原来的图像. 4 实验结果 以 folk 文件为例水印图像(大小70×70)如 图2(a) 所 示实 际 嵌 入 的 水 印 量 是 6495 bit (图2(b))在音频文件没有受到攻击时水印可以 100%被提取出来(图2(c)).由于嵌入和提取算法 复杂度小嵌入和提取的速度很快几乎不会增加音 频文件压缩和解压缩的时间.虽然这种水印嵌入量 较大但由于只是对 Huffman 的 LSB 进行修改原 压缩音频的比特率不会增加. ·528· 北 京 科 技 大 学 学 报 第31卷
第4期 王敬等:一种基于MPEG2AAC编码的音频水印方法 .529 表6改进后的水印嵌入结果 Table 6 Results of improved watermark embedding 音乐名称 文件长度/ 嵌入水印/ 每秒嵌入水印/ 感知音频质量评价:客观失真等级, (48000h,133kbps) 5 bit (bit's) PEAQ:ODG 流行音乐 19.63 9054 461.2 -0.270 爵士乐 20.73 12548 605.3 -0.325 经典音乐 19.71 21245 1077.9 -0.732 民歌 20.28 6495 320.3 -0.690 鼓乐 20.40 13210 647.5 -0.132 摇滚乐 20.06 4900 244.3 -0.217 演唱 20.10 5129 255.2 -0.214 乡村音乐 20.20 12680 627.8 -0.678 [3]Moghadam N.Sadeghi H.Genetic content-based MP3 audio wa- termarking in MDCT domain [J/OL].Proc World Acad Sci Eng Technol,2005.7:248 [2006-06-08 ]http://www.waset. org/pwaset/v7/v7-69.pof [4]Koukopoulos D.Stamatiou Y.A watermarking scheme for MP3 audio files [J/OL].Int JSignal Process.006.2/3:06[2006- (b) (e) 05-01].http://www.waset.org/ijsp/v2/v2-3-30.pdf 图2水印图像比较.(a)水印图像:(凸)实际嵌入水印:(c)实际 [5]Koukopoulos D.Stamatiou Y.An efficient watermarking method 提取水印 for MP3Audio files[J/OL]Proe World Acad Sci Eng Technol. Fig-2 Comparison of watermark images:(a)watermark image 2005.7:154 [2006-05-01].http://www.waset-org/pwaset/ (b)actually embedded watermark:(c)actually retrieved watermark v7/v7-29.pdf [6]Torrubia A.Mora F.Perceptual eryptography on MPEG layer 5 结论 bit streams.IEEE Trans Consumer Electron,2002.48(4): 1046 本文通过修改MEPG一2AAC帧数据中的 [7]Kim D H.Yang S J.Chung J H.Additive data insertion into MP3 bitstream using linbits characteristics//Proceeding on the Hluffman码字设计了一种基于MPEG一2AAC的隐 2004 IEEE International Conference on Acoustics,Speech,and 写算法,该算法提取水印时不需要原始音频参与, Signal Processing.Montreal.2004 嵌入水印后的音频在听觉上与原始音频无任何差 [8]ISO/IEC 13818-7.Information Technology-Generic Coding of 异,并且计算简单,嵌入速度快,嵌入量大,嵌入和提 Moving Picture and Associated Audio,Part 7:Advanced Au- 取可以与压缩和解压缩同步完成,也可在码流上直 dio Coding-1997 [9]Tian Y K,Jia C Y.Wang Q W.Image scrambling and restoring 接嵌入与提取,具有较强的实用性,由于该水印是 algorithm based on Arnold transform.J Dalian Maritime Univ, 一种脆弱水印,对各种信号攻击都很敏感,因此可以 2006,32(4):107 用在数字产品的完整性认证中,该算法还存在一些 (田云凯,贾传荧,王庆武-基于Arnold变换的图像置乱及其恢 待改进的地方,如可以在水印嵌入和提取时增加同 复.大连海事大学学报,2006,32(4):107) 步机制来抵抗同步攻击,这将是今后的研究方向. [10]ITU-R Recommendation BS 1387-1,Method for Objective Measurements of Perceived Audio Quality.Geneva:Interna- 参考文献 tional Telecommunications Union,2001 [1]Fabien Petitcolas:mp3stego [EB/OL].[2006-05-01]-http:/ [11]Jonhston J D.Transform coding of audio signal using perceptual www.cl.cam-ac-uk/~fapp2/steganography/mp3stego noise criteria.IEEE J Selected Areas Commun.1988.6:314 [12]Liu W.Wang S Z,Zhang X P.Frequency domain audio water- [2]Wang C T.Chen T S.Chao W H.A new audio watermarking mark embedding capable of resisting MP3 encoding.JAppl Sci, based on modified discrete cosine transform of MPEG/Audio layer 2005,23(4):341 /Proceedings of the 2004 IEEE International Conference on (刘伟,王朔中,张新鹏抗MP3编码的音频水印频域嵌入方 Networking.Sensing Control.Taipei.2004:984 案.应用科学学报,2005,23(4):341)
表6 改进后的水印嵌入结果 Table6 Results of improved watermark embedding 音乐名称 (48000Hz133kbps) 文件长度/ s 嵌入水印/ bit 每秒嵌入水印/ (bit·s -1) 感知音频质量评价∶客观失真等级 PEAQ∶ODG 流行音乐 19∙63 9054 461∙2 -0∙270 爵士乐 20∙73 12548 605∙3 -0∙325 经典音乐 19∙71 21245 1077∙9 -0∙732 民歌 20∙28 6495 320∙3 -0∙690 鼓乐 20∙40 13210 647∙5 -0∙132 摇滚乐 20∙06 4900 244∙3 -0∙217 演唱 20∙10 5129 255∙2 -0∙214 乡村音乐 20∙20 12680 627∙8 -0∙678 图2 水印图像比较.(a) 水印图像;(b) 实际嵌入水印;(c) 实际 提取水印 Fig.2 Comparison of watermark images:(a) watermark image ; (b) actually embedded watermark;(c) actually retrieved watermark 5 结论 本文通过修改 MEPG-2 AAC 帧数据中的 Huffman 码字设计了一种基于 MPEG-2AAC 的隐 写算法.该算法提取水印时不需要原始音频参与 嵌入水印后的音频在听觉上与原始音频无任何差 异并且计算简单嵌入速度快嵌入量大嵌入和提 取可以与压缩和解压缩同步完成也可在码流上直 接嵌入与提取具有较强的实用性.由于该水印是 一种脆弱水印对各种信号攻击都很敏感因此可以 用在数字产品的完整性认证中.该算法还存在一些 待改进的地方如可以在水印嵌入和提取时增加同 步机制来抵抗同步攻击这将是今后的研究方向. 参 考 文 献 [1] Fabien Petitcolas:mp3stego [EB/OL ].[2006-05-01].http:∥ www.cl.cam.ac.uk/~fapp2/steganography/mp3stego [2] Wang C TChen T SChao W H.A new audio watermarking based on modified discrete cosine transform of MPEG/Audio layer Ⅲ∥ Proceedings of the 2004IEEE International Conference on NetworkingSensing & Control.Taipei2004:984 [3] Moghadam NSadeghi H.Genetic content-based MP3audio watermarking in MDCT domain [J/OL ].Proc World Acad Sci Eng Technol20057:248 [2006-06-08].http:∥ www.waset. org/pwaset/v7/v7-69.pdf [4] Koukopoulos DStamatiou Y.A watermarking scheme for MP3 audio files [J/OL ].Int J Signal Process20062/3:206[2006- 05-01].http:∥www.waset.org/ijsp/v2/v2-3-30.pdf [5] Koukopoulos DStamatiou Y.An efficient watermarking method for MP3Audio files[J/OL ].Proc World Acad Sci Eng Technol 20057:154 [2006-05-01].http:∥www.waset.org/pwaset/ v7/v7-29.pdf [6] Torrubia AMora F.Perceptual cryptography on MPEG layer Ⅲ bit-streams. IEEE T rans Consumer Electron200248(4): 1046 [7] Kim D HYang S JChung J H.Additive data insertion into MP3bitstream using linbits characteristics ∥ Proceeding on the 2004IEEE International Conference on AcousticsSpeechand Signal Processing.Montreal2004 [8] ISO/IEC13818-7.Information Technology-Generic Coding of Moving Picture and Associated A udioPart 7:A dv anced A udio Coding.1997 [9] Tian Y KJia C YWang Q W.Image scrambling and restoring algorithm based on Arnold transform.J Dalian Maritime Univ 200632(4):107 (田云凯贾传荧王庆武.基于 Arnold 变换的图像置乱及其恢 复.大连海事大学学报200632(4):107) [10] ITU-R Recommendation BS 1387-1 Method for Objective Measurements of Perceived A udio Quality.Geneva:International Telecommunications Union2001 [11] Jonhston J D.Transform coding of audio signal using perceptual noise criteria.IEEE J Selected A reas Commun19886:314 [12] Liu WWang S ZZhang X P.Frequency domain audio watermark embedding capable of resisting MP3encoding.J Appl Sci 200523(4):341 (刘伟王朔中张新鹏.抗 MP3编码的音频水印频域嵌入方 案.应用科学学报200523(4):341) 第4期 王 敬等: 一种基于 MPEG-2AAC 编码的音频水印方法 ·529·