第3卷第6期 智能系统学报 Vol.3 No.6 2008年12月 CAAI Transactions on Intelligent Systems Dec.2008 一种基于噪声对消与倒谱均值相减的 鲁棒语音识别方法 王振力,裴凌波2,于元斌 (1.南京国际关系学院博士后流动站,江苏南京210039;2.工程兵指挥学院训练部,江苏徐州221004) 摘要:提出一种基于语音增强算法的噪声鲁棒语音识别方法.在语音识别预处理阶段,通过噪声对消语音增强法 来抑制噪声提高信噪比.然后对增强语音提取Ml颜段倒谱特征参数,并在倒谱域应用倒谱均值相诚处理来补偿增 强语音中的失真成分和剩余噪声.实验结果表明,在低信噪比(-12~0dB)条件下,该方法对于数字语音识别具有 较好的识别率,其性能明显优于基本的Ml频段倒谱参数识别器、传统的谱诚法和噪声对消语音增强法. 关键词:自适应噪声对消:语音增强:谱减法;噪声鲁棒语音识别;倒谱均值相减法 中图分类号:TN912.34文献标识码:A文章编号:16734785(2008)06055205 A robust speech recognition method by combining noise cancelling and cepstral mean subtraction WANG Zhen-li',PEI Ling-bo2,YU Yuan-bin' (1.Postdoctoral Station,Nanjing University of Intemational Relations,Nanjing 210039,China;2.Training Department,The Command Academy of Engineer Corps,Xuzhou 221004,China) Abstract:A noise resistant speech recognition method based on a speech enhancement algorithm was implemented. First,it obtains the denoised speech,with significant SNR(signal-to-noise ratio)improvement,by applying adap- tive noise cancelling (ANC)to the pre-treatment stage of speech recognition.Then Mel-frequency cepstral coeffi- cients(MFCC)are computed from the enhanced speech.Then cepstral mean subtraction (CMS)is used to compen- sate for components of distortion and the residual noise of the enhanced speech in the cepstral domain.When speech samples have a low SNR,ranging from 0 to 12 dB,experimental results indicate that the proposed method performs better than a standard MFCC recognizer,conventional spectral subtraction(SS)and the ANC speech en- hancement for digital speech recognition. Keywords:adaptive noise cancelling;speech enhancement;spectral subtraction;noise robust speech recognition; cepstral mean subtraction 当前,噪声鲁棒性是语音识别技术实用化过程 练环境产生失配,最终恶化了语音识别系统性能.如 中最迫切需要解决的关键问题之一.提高语音识别 果单纯地采用抗噪语音特征如线性预测倒谱参数 系统在噪声环境中的识别性能,常见的方法是用语 (linear prediction cepstral coefficients,LPCC)s1Mel 音增强在前端预处理中来消除噪声.语音增强1 频段倒谱参数(Mel-frequency cepstral coefficients, 虽然可以抑制带噪语音信号中的噪声成分,但同时 MFCC)161 RASTA(relative spectra)PLP(per- 也带来了语音失真和残余噪声;使得测试环境和训 ceptual linear predictive)[8]等,在一定程度上能提高 识别系统的噪声鲁棒性;但在低信噪比条件下很难 收稿日期:2008-03-06. 基金项目:江苏省博土后科研基金资助项目(0701008C):中国博士后 遏制系统性能的恶化.基于时不变线性信道假设的 科学基金资助项目(20070420561). 通信作者:王振力.E-mail:dowen3619@sina.com 倒谱均值相减法(cepstral mean subtraction,CMS)[s]
第6期 王振力,等:一种基于噪声对消与倒谱均值相减的鲁棒语音识别方法 ·553· 是一种常用的信道补偿方法,主要用于消除信道卷 从矢量X(n)中去除与X(n-1)相关的部分,并定 积噪声和加性噪声对识别特征在倒谱域造成的偏 义为新矢量: 差;但其改善系统的性能有限.本文提出将一种噪声 U(n)=X(n)-y(n)X(n-1). (3) 对消语音增强算法用于语音识别系统的前端预处 理,接着对增强语音计算MFCC参数,然后应用 共中:7(a)=0)表不格人灰量 CMS方法消除语音增强带来的语音失真和残余噪 X(n)在n和n-1时刻的相关系数.将矢量U(n)看 声,最后在低信噪比条件下研究了数字语音识别系 作为滤波器n时刻的输入,可得到自适应噪声对消 统的性能, 语音增强算法权系数更新公式0]为 (n+1)=(n)+ 1自适应噪声对消语音增强算法 L,U(n)e·(n). (4) 当环境噪声的统计特性未知,并且可能不断发 1U(n)‖2+8 生变化时,一般采用自适应噪声对消技术来完成对 其中:μ为自适应常数;6>0为实数,用于控制算法 带噪语音的增强处理.噪声对消器通常将麦克风采 的稳态失调大小和收敛速度的快慢.文献[10]给出 了该算法的证明,即当迭代次数无限增加时,滤波器 集的未知噪声信号输入到自适应滤波器中,通过滤 的权系数均值趋向于广义Wiener-Hopf解,如式(5) 波器自适应地调节其权系数,按照均方误差最小 (minimum mean square error,MMSE)的准则,以尽 所示. 可能地接近主信道带噪语音中的噪声成分并从中减 limE1(n)}=2lim(1-A)“Q'E{(0)}+ 去.图1为自适应噪声对消器的原理框图.设参考信 道接收到干扰n1,由于传输路径不同,no(主信道接 (1-A)'- 收噪声)和1是不同的.但因二者都来自同样的噪 P0∑(1-4)Q= 声源,所以它们是相关的, POA-OT =P(Ru)=Wo (5) 主信道输 系统输出 对于实际的ANC系统,主信道、参考信道的两 倍号源 个麦克风之间的距离都是固定的.因此,可以通过对 参考信号进行固定时延处理,很容易解决信道间信 噪市源 自适应滤 号的时间同步问题,考虑到语音识别系统的实时性, 波器 参考信道输入! 对噪声进行统计平均的次数取为1.这样虽然噪声 对消的性能下降了,但是满足了系统的实时性要求. 自活应噪声对消器 由于统计次数为最低,使得自适应噪声对消器权值 图1自适应噪声对消原理 估计W()对随机性噪声的变化不能够进行统计意 Fig.1 The principle of adaptive noise cancelling 义上的自适应更新;故输出增强语音中不但包含了 未彻底对消的剩余噪声,而且增强语音也发生了失 在图1中,主信道输入的带噪语音即为自适应 真.此外,参考信道接收的噪声信号中往往也会混有 滤波器的期望信号d(d=s+no,s表示主信道接收 少量的信号源发出的语音信号;因此,在进行噪声对 到的语音信号),系统输出则为误差信号B,则 消时会部分地对消有用的语音信号,导致增强语音 e(n)=d(n)-y. (1) 信号的频谱畸变,最终恶化了识别系统的性能 假设参考信道中滤波器n时刻输人矢量 通常,纯净语音信号在倒谱域的均值接近于 X(n)=[n(n),n1(n-1),…,n1(n-M+1)](M 09],那么带噪语音信号倒谱特征均值主要表现为 表示滤波器阶数,H表示共轭转置),对应的权系数 语音信号在信道传输过程中信道卷积噪声和加性噪 矢量为(n)=[o(n),w(n-1),…,w(n-M+ 声在倒谱域的均值,这种非期望均值使得识别特征 1)]“,将自适应滤波器输出y=“(n)X(n)代入式 与纯净训练语音的倒谱特征产生了失配.在ANC方 (1)得 法中,作者将上述情况下的残留噪声和语音失真均 e(n)=d(n)-"(n)X(n). (2) 假定为信道卷积噪声和加性噪声对语音信号的影
·554 智能系统学报 第3卷 响.对这种混合残留噪声和失真信号的增强语音在 MFCC识别器的性能,实验中所用的语音数据为汉 倒谱域采用CMS处理,可以使其在倒谱域的均值近 语普通话数字0~9的发音语句,每个数字被朗读了 似为0,从而消除了残留噪声和失真语音在倒谱域 41次,前20次数据用于训练,后21次数据用于识 对特征提取的影响.为了取得更好的识别率,必须对 别.语音的采样频率为8kHz,帧长为256点(32ms), 纯净语音的倒谱特征训练也加入CMS处理,以获得 帧移为80点(10ms),加窗函数为Hamming窗,量化 训练特征和识别特征更好的匹配性.后续的实验结 精度为16位,3种方法中识别特征均为MFCC及其 果进一步表明了CMS处理可以在语音特征层较好 一阶差分参数△MFCC,两者维数都是12.噪声来自 地消除前端预处理残留噪声及降低畸变信号对后续 Noisex-92数据库,识别系统中包含4个隐Markov模 倒谱域特征提取的影响, 型(hidden Markov model,HMM),由左至右无跳转, 每个状态由2个高斯正态分布叠加而成.在语音识 2倒谱均值相减法 别预处理阶段,噪声对消语音增强算法(adaptive 在缓慢变化的噪声环境中,CMS对于消除信道 noise cancelling,ANC)的参数设置为:u=1,M=12, 的卷积和加性噪声所造成的训练和测试识别特征间 8=0.01,噪声统计平均数为1次.同时假定其参考 的失配,是一种非常简单有效的方法.CMS方法通 信号中无串音影响,这样使得该方法抑制噪声的性 过在倒谱域减去估计的信道噪声均值,使得带噪语 能尽可能的好;在识别阶段,CMS处理中的窗宽 音特征尽可能接近于0,从而消除信道的不利影响. N=20,更新步长入=0.94. 假设D,表示带噪语音信号的倒谱特征矢量,m,表 表1~4分别给出了数字语音识别系统分别在 示倒谱均值矢量,其中t表示采样时刻.考虑到识别 白噪声、驱逐舰机舱噪声、F16噪声和Babble噪声环 系统的实时性,作者根据迭代计算法来求取倒谱 境中的识别精度.由实验数据可知,本文方法 均值m (MFCC+ANC+CMS)比未经CMS处理的噪声对消 对于最初的N个特征矢量(N即为用于计算倒 语音增强法(MFCC+ANC)性能优异,这主要得益 谱均值的窗宽),完成m,和标准方差的初始化,如 于CMS可以部分地消除增强语音中的畸变成分和 式(6)所示. 剩余噪声,在低信噪比(Ys≤0dB)条件下,无论参 m,()= 1∑.D.(); 考信道接收的噪声信号中是否混入少量串音(即信 N台 号源发出的语音信号),本文方法与基本的MFCC o(i)= N[D(]-[m,()]2=(6) 1 识别器、谱减法和噪声对消语音增强法相比,仍然具 有良好的识别性能.当参考信号无串音且YsR≤ √(t)-[m,(i)] 0dB时,本文方法对应的平均识别率比基本的MF 对于后续的特征矢量,向前滑动窗宽N,根据式(7) CC识别器、谱减法和噪声对消语音增强法在白噪声 更新m,和采样均方估计. 环境中分别提高了55.24%、48.41%和20.64%;在 rm,()=A·m-1(i)+(1-A)·D(i); 驱逐舰机舱噪声环境中分别提高了42.86%、 (7) s(i)=入·s1()+(1-入)·D2(i). 28.25%和10.63%;在F16噪声环境中分别提高了 其中是更新步长,入与N的关系如式(8)所示 55.39%、44.60%和21.27%;在Babble噪声环境中 1 分别提高了52.54%、39.05%和14.76%.当ysN≤ 1-λN= (8) OdB时,对传统的谱减法在倒谱域采用CMS处理 在窗宽N内的特征矢量根据式(9)减去倒谱均值, (MFCC+SS+CMS),在4种噪声环境中其识别性 同时完成归一化: 能仍然明显劣于MFCC+ANC+CMS.以上数据或者 D.()=D.())-m,() 结论说明了在所测试的噪声环境中,本文方法具有 (9) 0,() 比基本的MFCC识别器、谱减法和噪声对消语音增 强法更好的抗噪性能,因而更适合于低信噪比噪声 3实验结果及分析 环境中的语音识别, 为了研究比较本文方法、传统谱减法和基本 应当说明的是,本文方法与传统的谱减法相比
第6期 王振力,等:一种基于噪声对消与倒谱均值相减的鲁棒语音识别方法 ·555 二者都具有实时性:但是由于本文方法是基于双信 的谱减法有所增加. 道噪声对消系统,因而硬件实现的成本会比单信道 表1白噪声环境下的语音识别率 Table 1 Speech recognition accuracy under white Gaussian noise background MFCC +SS+ MFCC +ANC MFCC +ANC CMS/% YsNR/dB MFCC/%MFCC+SS/ CMS/% (无串音)/% 无串音 5%串音 10%串音 -12 10.00 18.57 16.67 40.48 65.24 65.71 66.19 -6 13.81 22.86 26.19 53.33 70.95 70.48 68.57 0 29.52 32.38 35.61 63.33 82.86 80.00 75.71 6 42.38 52.38 54.28 77.14 89.05 88.10 81.43 12 54.29 71.90 83.33 87.62 91.90 83.81 61.90 表2 驱逐舰机舱噪声环境下的语音识别率 Table 2 Speech recognition accuracy under destroyer engine room noise background MFCC +SS+ MFCC +ANC MFCC ANC CMS/% YsNR/dB MFCC/% MFCC +SS/% CMS/% (无串音)/% 无串音 5%串音 10%串音 -12 16.67 21.43 22.38 42.86 55.24 54.76 52.86 -6 20.48 32.86 30.48 55.24 65.24 62.38 60.00 0 29.52 56.19 60.48 65.24 74.76 71.43 66.19 6 38.10 76.19 86.19 84.76 90.95 85.71 76.19 12 64.76 79.52 88.09 90.95 93.33 87.62 79.05 表3F16噪声环境下的的语音识别率 Table 3 Speech recognition accuracy under F-16 noise background MFCC +SS+ MFCC +ANC MFCC ANC +CMS/% YsM/dB MFCC/% MFCC SS/% CMS/% (无串音)/% 无串音 5%串音 10%串音 12 10.00 13.81 14.76 36.67 57.14 57.62 59.05 -6 10.48 20.95 23.81 45.71 69.52 68.10 64.76 0 20.95 39.05 44.76 61.43 80.95 76.67 76.19 6 33.81 62.38 70.00 82.86 91.43 89.52 83.81 12 63.81 75.24 89.53 90.48 93.33 89.05 79.52 表4 Babble噪声环境下的的语音识别率 Table 4 Speech recognition accuracy under Babble noise background MFCC +SS MFCC +ANC MFCC ANC CMS/% YsNR/dB MFCC/%MFCC+SS/% CMS/% (无串音)/% 无串音 5%串音 10%串音 -12 10.00 14.76 15.24 44.29 49.52 48.10 45.24 -6 12.38 25.71 24.76 51.90 69.52 59.52 56.19 0 20.00 42.38 43.81 59.52 80.95 69.52 64.76 6 42.86 65.71 75.71 73.81 91.43 81.90 77.14 12 70.95 80.48 87.15 93.33 93.33 87.14 80.48
·556 智能系统学报 第3卷 representations of monosyllabic word recognition in continu- 4 结束语 ously spoken sentences [J].IEEE Trans on Speech and 本文研究了一种噪声对消语音增强算法在语音 Audio Processing,1980,28(4):357-366. 识别前端预处理中的应用,并通过CMS处理来消除 [7]HERMANSKY H,MORGAN N.RASTA processing of spe- 语音增强过程中所产生的语音失真和剩余噪声,研 ech [J].IEEE Trans on Speech and Audio Processing, 1994,2(4):578-589. 究表明:当信噪比不大于零分贝时,在4种所测试的 [8]HERMANSKY H.Perceptual linear predictive (PLP)anal- 噪声环境中,无论参考信道接收的噪声信号是否混 ysis of speech [J].J Acoust Soc Am,1990,87(4):1738- 入串音信号,本文方法均具有比基本的MFCC识别 1752. 器、谱减法和噪声对消语音增强法更高的识别率,这 [9]LIU F H,ACERO A,STERN R.Efficient joint compensa- 主要得益于本文方法中CMS处理在一定程度上避 tion of speech for the effects of additive noise and linear fil- 免了畸变信号在倒谱域对特征提取的不利影响,从 tering[C]//IEEE International Conference on Acoustics, 而可以更好地满足低信噪比噪声环境中较高数字语 Speech,and Signal Processing.San Francisco,USA,1992 音识别率的需要.本文方法可否较好地提高连续大 (1):257-260. 词汇量语音识别系统在低信噪比条件下的性能,这 [10]王振力,张雄伟,杨吉斌,等.一种新的快速自适应滤波算 是下一步的研究工作。 法的研究[J].通信学报,2005,26(11):1-6. WANG Zhenli,ZHANG Xiongwei,YANG Jibin,et al.Study 参考文献: of a new fast adaptive filtering algorithm[].Joural of Chi- na Institute of Communications,2005,26(11):1-6. [1]STEVEN F B.Suppression of acoustic noise in speech using [11]VIILDU O,BYE D,IAURILA K.A recursive feature vee- spectral subtraction [J].IEEE Trans on Speech and Audio tor normalization approach for robust speech recognition in Processing,1979,27(2):113-120. noise [C]//Proceedings ICASSP98.Seattle,WA,USA: [2]徐义芳,张金杰,姚开盛,等.语音增强用于抗噪声语音 IEEE Acoustics,Speech and Signal Processing Society, 识别[J].清华大学学报:自然科学版,2001,41(1): 1998:733-736. 41-44. 作者简介: XU Yifang,ZHANG Jinjie,YAO Kaisheng,et al.Speech 王振力,男,1977年生,工程师,博 enhancement applied to speech recognition in noisy environ- 士后,主要研究方向为人工智能、多媒 ments[J].Journal of Tsinghua University:Science and 体信息处理等.发表学术论文20余篇, Technology,2001,41(1):41-44. 被SCI、EI、ISTP收录10余篇, [3]丁沛,曹志刚.基于语音增强失真补偿的抗噪声语音 识别技术[J].中文信息学报,2004,18(5):6469. DING Pei,CAO Zhigang.Robust speech recognition based 裴凌波,男,1972年生,讲师,主要 on the compensation of speech enhancement distortion [J. 研究方向为网络测量、网络性能建模和 Joumnal of Chinese Information Processing,2004,18(5): 智能化信息检索等.发表学术论文20 64-69. [4]王振力,张雄伟,郑翔,等.一种新的子波域语音增强 余篇。 方法[J].信号处理,2006,22(3):325-328. WANG Zhenli,ZHANG Xiongwei,ZHENG Xiang,et al.A 于元斌,男,1973年生,讲师,博士 new wavelet domain speech enhancement method [J].Sig- 后.主要研究方向为作战指挥。发表学 nal Proces9sing,2006,22(3):325-328. 术论文10余篇,出版专著3部 [5]MAMMONE R J,ZHANG Xiaoyu,RAMACHANDRAN R P. Robust speaker recognition:a feature-based approach [J]. IEEE Signal Processing Magazine,1996,13(5):58. [6]DAVIS S B,MERMELSTEIN P.Comparison of parametric