正在加载图片...
第3章话音编码 这种声码器的数据率在2.4kb/s左右,产生的语音虽然可以听懂,但其质量远远低于自 然话音。增加数据率对提高合成话音的质量无济于事,这是因为受到话音生成模型的限制。 尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上, 3.混合编译码 混合编译码的想法是企图填补波形编译码和音源编译码之间的间隔。波形编译码器虽然 可提供高话音的质量,但数据率低于16kb/s的情况下,在技术上还没有解决音质的问题 声码器的数据率虽然可降到2.4kb/s甚至更低,但它的音质根本不能与自然话音相提并论 为了得到音质高而数据率又低的编译码器,历史上出现过很多形式的混合编译码器,但最成 功并且普遍使用的编译码器是时域合成-分析( analysis-by- synthesis,AbS)编译码器。这 种编译码器使用的声道线性预测滤波器模型与线性预测编码(1 inear predictive coding, LPC)使用的模型相同,不使用两个状态(有声/无声)的模型来寻找滤波器的输入激励信号 而是企图寻找这样一种激励信号,使用这种信号激励产生的波形尽可能接近于原始话音的波 形。AbS编译码器由Ata1和 Reade在1982年首次提出,并命名为多脉冲激励 multi-pulse excited,MPE)编译码器,在此基础上随后出现的是等间隔脉冲激励( regular-pulse excited,RPE)编译码器、码激励线性预测( code excited linear predictive,CELP)编i 码器和混合激励线性预测( mixed excitation linear prediction,MLP)等编译码器。 bS编译码器的一般结构如图3-06所示。 话音输入 Excitation u(n))合成滤波器3(, 激励生成 nthesis Generation Filter) 误差最小化 误差加权 Minimization eighting) (a)编码器 激励生成 皮滤波器])重构话音 (Excitation u(n)(Synthesis roduced Generation) filter) Speech) b)译码器 图3-06AbS编译码器的结构 AbS编译码器把输入话音信号分成许多帧( frames),一般来说,每帧的长度为20ms。合 成滤波器的参数按帧计算,然后确定滤波器的激励参数。从图3-06(a)可以看到,AbS编码器 是一个负反馈系统,通过调节激励信号u(n)可使话音输入信号s(m)与重构的话音信号s(n 之差为最小,也就是重构的话音与实际的话音最接近。这就是说,编码器通过“合成”许多 不同的近似值来“分析”输入话音信号,这也是“合成-分析编码器”名称的来由。在表示 每帧的合成滤波器的参数和激励信号确定之后,编码器就把它们存储起来或者传送到译码 器。在译码器端,激励信号馈送给合成滤波器,合成滤波器产生重构的话音信号,如图3-06(b) 所示。第3章 话音编码 6 这种声码器的数据率在2.4 kb/s左右,产生的语音虽然可以听懂,但其质量远远低于自 然话音。增加数据率对提高合成话音的质量无济于事,这是因为受到话音生成模型的限制。 尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上, 3. 混合编译码 混合编译码的想法是企图填补波形编译码和音源编译码之间的间隔。波形编译码器虽然 可提供高话音的质量,但数据率低于16 kb/s的情况下,在技术上还没有解决音质的问题; 声码器的数据率虽然可降到2.4 kb/s甚至更低,但它的音质根本不能与自然话音相提并论。 为了得到音质高而数据率又低的编译码器,历史上出现过很多形式的混合编译码器,但最成 功并且普遍使用的编译码器是时域合成-分析(analysis-by-synthesis,AbS)编译码器。这 种编译码器使用的声道线性预测滤波器模型与线性预测编码(linear predictive coding, LPC)使用的模型相同,不使用两个状态(有声/无声)的模型来寻找滤波器的输入激励信号, 而是企图寻找这样一种激励信号,使用这种信号激励产生的波形尽可能接近于原始话音的波 形。AbS编译码器由Atal和Remde在1982年首次提出,并命名为多脉冲激励(multi-pulse excited,MPE)编译码器,在此基础上随后出现的是等间隔脉冲激励(regular-pulse excited,RPE)编译码器、码激励线性预测(code excited linear predictive,CELP)编译 码器和混合激励线性预测(mixed excitation linear prediction,MELP)等编译码器。 AbS编译码器的一般结构如图3-06所示。 (a) 编码器 (b) 译码器 图3-06 AbS编译码器的结构 AbS编译码器把输入话音信号分成许多帧(frames),一般来说,每帧的长度为20 ms。合 成滤波器的参数按帧计算,然后确定滤波器的激励参数。从图3-06(a)可以看到,AbS编码器 是一个负反馈系统,通过调节激励信号 u(n) 可使话音输入信号 s(n) 与重构的话音信号 s(n)  之差为最小,也就是重构的话音与实际的话音最接近。这就是说,编码器通过“合成”许多 不同的近似值来“分析”输入话音信号,这也是“合成-分析编码器”名称的来由。在表示 每帧的合成滤波器的参数和激励信号确定之后,编码器就把它们存储起来或者传送到译码 器。在译码器端,激励信号馈送给合成滤波器,合成滤波器产生重构的话音信号,如图3-06(b) 所示
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有