第11卷第2期 智能系统学报 Vol.11 No.2 2016年4月 CAAI Transactions on Intelligent Systems Apr.2016 D0I:10.11992/is.201511008 网络出版地址:http://www.enki..net/kcms/detail/23.1538.TP.20160315.1248.018.html 一种语音特征提取中Ml倒谱系数的后处理算法 张毅,谢延义2,罗元3,席兵3 (1.重庆邮电大学先进制造工程学院,重庆400065:2.重庆邮电大学自动化学院,重庆400065:3.重庆邮电大学光 电工程学院,重庆400065) 摘要:为提高语音识别系统的鲁棒性,本文以Ml频率倒谱系数(MFCC)为基础,结合均值消减法、方差归一化、时 间序列滤波法和加权自回归移动平均滤波法,提出了一种后处理算法,本文将该算法命名为MVDA后处理法,所得 语音特征参数简称MVDA。本文首先从理论上推导了MVDA后处理法可以去除加性噪声和卷积噪声的干扰,接着 针对MVDA与MFCC做了对比试验,并分析了含噪语音与语音信号的欧氏距离变化,证明MVDA后处理法的每一步 均有效降低了噪声的干扰,且得出了MVDA在不同噪声环境中均更优的结论。这种简洁的语音特征不仅可以达到 许多复杂语音特征处理方法的效果,而且有效减少了自动语音识别系统的计算量。 关键词:后处理:语音特征:语音识别:噪声:鲁棒性 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2016)02-0208-07 中文引用格式:张毅,谢延义,罗元,等.一种语音特征提取中Ml倒谱系数的后处理算法[J].智能系统学报,2016,11(2): 208-215. 英文引用格式:ZHANG Yi,XIE Yanyi,LUO Yuan,etal.Postprocessing method of MFCC in speech feature extraction[J].CAAI transactions on intelligent systems,2016,11(2):208-215. Postprocessing method of MFCC in speech feature extraction ZHANG Yi',XIE Yanyi2,LUO Yuan',XI Bing' (1.Institute of Advanced Manufacturing Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065, China;2.College of Automation,Chongqing University of Posts and Telecommunications,Chongqing 400065,China;3.College of Opto Electronic Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,China) Abstract:To improve the robustness of automatic speech recognition systems,a new speech feature postprocessing method based on the Mel-frequency Cepstral Coefficient MFCC)is proposed,which is named the MVDA postpro- cessing method.The postprocessed feature parameters are named MVDAs.This technique combines mean subtrac- tion,variance normalization,time sequence fltering,and autoregressive moving average flters.Experiments were conducted to compare MVDA and MFCC.Changes in the Euclidean distance of the speech with noise and the speech signal were analyzed,proving that every step of MVDA postprocessing could effectively reduce the noise in- terference.Thus,all MVDAs in different noise environments were superior.This simple feature does not only a- chieve the effect of many complex speech feature processing methods but also effectively reduces the computational complexity of automatic speech recognition systems. Keywords:postprocessing;phonetic feature;speech recognition;noise;robustness 为了提高语音识别系统的鲁棒性,谱减法、卡尔 收稿日期:2015-11-06.网络出版日期:2016-03-15. 曼滤波1]和麦克风阵列[]等语音增强技术得到应 基金项目:重庆市科委前沿技术专项重点项目(cstc2015 jeyjBX0066). 通信作者:谢延义.E-mail:811719530@qq.com. 用和推广。语音特征的失真造成声学空间的变形
第 11 卷第 2 期 智 能 系 统 学 报 Vol.11 №.2 2016 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2016 DOI:10.11992 / tis.201511008 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160315.1248.018.html 一种语音特征提取中 Mel 倒谱系数的后处理算法 张毅1 ,谢延义2 ,罗元3 ,席兵3 (1.重庆邮电大学 先进制造工程学院,重庆 400065; 2. 重庆邮电大学 自动化学院,重庆 400065; 3. 重庆邮电大学 光 电工程学院,重庆 400065) 摘 要:为提高语音识别系统的鲁棒性,本文以 Mel 频率倒谱系数(MFCC)为基础,结合均值消减法、方差归一化、时 间序列滤波法和加权自回归移动平均滤波法,提出了一种后处理算法,本文将该算法命名为 MVDA 后处理法,所得 语音特征参数简称 MVDA。 本文首先从理论上推导了 MVDA 后处理法可以去除加性噪声和卷积噪声的干扰,接着 针对 MVDA 与 MFCC 做了对比试验,并分析了含噪语音与语音信号的欧氏距离变化,证明 MVDA 后处理法的每一步 均有效降低了噪声的干扰,且得出了 MVDA 在不同噪声环境中均更优的结论。 这种简洁的语音特征不仅可以达到 许多复杂语音特征处理方法的效果,而且有效减少了自动语音识别系统的计算量。 关键词:后处理;语音特征;语音识别;噪声;鲁棒性 中图分类号:TP391.4 文献标志码:A 文章编号:1673⁃4785(2016)02⁃0208⁃07 中文引用格式:张毅,谢延义,罗元,等. 一种语音特征提取中 Mel 倒谱系数的后处理算法[ J] . 智能系统学报, 2016, 11( 2) : 208⁃215. 英文引用格式:ZHANG Yi,XIE Yanyi,LUO Yuan, et al. Postprocessing method of MFCC in speech feature extraction[ J]. CAAI transactions on intelligent systems, 2016, 11(2): 208⁃215. Postprocessing method of MFCC in speech feature extraction ZHANG Yi 1 , XIE Yanyi 2 , LUO Yuan 3 , XI Bing 3 (1. Institute of Advanced Manufacturing Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China; 2. College of Automation, Chongqing University of Posts and Telecommunications, Chongqing 400065, China; 3. College of Opto Electronic Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China) Abstract:To improve the robustness of automatic speech recognition systems, a new speech feature postprocessing method based on the Mel⁃frequency Cepstral Coefficient (MFCC) is proposed, which is named the MVDA postpro⁃ cessing method. The postprocessed feature parameters are named MVDAs. This technique combines mean subtrac⁃ tion, variance normalization, time sequence fltering, and autoregressive moving average flters. Experiments were conducted to compare MVDA and MFCC. Changes in the Euclidean distance of the speech with noise and the speech signal were analyzed, proving that every step of MVDA postprocessing could effectively reduce the noise in⁃ terference. Thus, all MVDAs in different noise environments were superior. This simple feature does not only a⁃ chieve the effect of many complex speech feature processing methods but also effectively reduces the computational complexity of automatic speech recognition systems. Keywords: postprocessing; phonetic feature; speech recognition; noise; robustness 收稿日期:2015⁃11⁃06. 网络出版日期:2016⁃03⁃15. 基金项目:重庆市科委前沿技术专项重点项目(cstc2015jcyjBX0066). 通信作者:谢延义. E⁃mail:811719530@ qq.com. 为了提高语音识别系统的鲁棒性,谱减法、卡尔 曼滤波[1⁃2]和麦克风阵列[3] 等语音增强技术得到应 用和推广。 语音特征的失真造成声学空间的变形
第2期 张毅,等:一种语音特征提取中M倒谱系数的后处理算法 ·209· 对此声学模型可以相应地调整,以弥补训练和测试 声环境下的{s(t)}本身存在失真,这种失真可以看 语音之间的差异,这种调整通常被称为噪声模型补 做是式(4)的一个特例。 偿技术4。由于语音去噪的复杂性,甚至小词汇 1.2基础语音特征MFCC 的自动语音识别系统都采用了相对复杂的处理方 本文以Ml频率倒谱系数为基础,提出了新的 法[6)。这些复杂的处理方法往往会造成较大的计 语音特征提取法。MFCC的分析基于人的听觉机 算量和不必要的时延,降低自动语音识别系统的灵 理,即根据人的听觉实验结果来分析语音的频谱,期 活性。 望获得更好的语音特性。MFCC分析依据的听觉机 因此本文综合考虑自动语音识别系统的鲁棒性 理有两个:1)人的主观感知频域的划定并不是线性 和灵敏性,有针对性地提出了一种简洁的语音信号 的:2)人耳听觉的临界带原理。 后处理方法一MVDA后处理法。同时,也改善了 ~帧语音信号的MFCC参数可以表示为C△ 传统的MFCC特征提取方法中采用三角滤波器组带 (C[1]…C[D])',这里D表示倒谱系数的维数。 来的相邻频带之间的频谱能量相互泄露,且不利于 MFCC的定义如下: 反映共振特性的问题,为整个语音识别系统的优化 C=GInQ (5) 提供了基础。实验表明,MVDA后处理法在不同的 这里Q△(Q[1]…Q[J])'表示每帧的谱线能量经 噪声环境中的鲁棒性和灵敏性都要高于传统的MF- 过梅尔三角滤波器处理后的梅尔能量谱。G是代表 CC特征提取法。 离散余弦变换的1*J阶矩阵,表示为 1 噪声分类和MFCC G 2 -co 自动语音识别系统的鲁棒性取决于噪声、语音 i=1,2,…,1,j=1,2,…,J (6) 特征和语音信号处理方法。本节首先定义了日常声 MFCC特征提取方法采用三角滤波器组处理, 学环境中常见的噪声类型,对噪声的分类有利于本 同时也带来的相邻频带之间频谱能量的相互泄露。 文更加清晰地分析特征失真,并且有利于描述MV- 2 MVDA后处理法步骤 DA后处理法。 1.1噪声的分类 MVDA后处理法在MFCC特征提取法的基础 通常处理的噪声分为加性噪声和卷积噪声。加 上,融合了均值消减、方差归一化、时间序列滤波和 性噪声可以描述为 加权自回归移动平均滤波法,图1为MVDA后处理 x(t)=s(t)+n(t) (1) 法基本步骤。 式中:{s(t)}是语音信号,{n(t)}是加性噪声, 方 时 加权 {x(t)}是含噪语音。卷积噪声可以描述为 x(t) c 差归 自回 C 序 归 c 么 x(t)=s(t)*n(t) (2) 消 平 式中:*是卷积符号,h(t)是环境导致的卷积噪 化 滤 均滤 波法 声。此处假设环境是稳定的,在实际环境中,两种类 图1 MVDA后处理法 型的噪声同时存在。因此加噪语音可以描述为 Fig.1 Postprocessing of MVDA x(t)=s(t)*h(t)+n(t) (3) MVDA的提出是为了解决MFCC特征参数的 式(3)可以被看成是一般噪声情况下,表明语 加性和卷积噪声的问题,均值消减和方差归一化在 音成分与噪声成分的一种方法,可以简化为 语音处理中已经得到了相对广泛的应用[1)]。本文 x(t)=F(s(t)) (4) 提出了结合时间序列滤波和加权自回归移动平均滤 式中:F指非线性时变环境下语音信号的映射。由 波法在频域的应用,可以获得相较于单独使用均值 于语音信号具有短时连续性,经过分帧加窗之后,语 消减和方差归一化更好的效果。 音信号在短时内接近线性时不变。 本文用C)表示第r帧语音的特征,则均值消 另一种失真产生于噪声环境下样本采集过程中 减表示为 的Lombard效应[s】,如延长元音的持续时间和频谱 向高频率倾斜,从而改变了语音信号本身。因此,噪 Cr)=C(r)-u (7)
对此声学模型可以相应地调整,以弥补训练和测试 语音之间的差异,这种调整通常被称为噪声模型补 偿技术[4⁃5] 。 由于语音去噪的复杂性,甚至小词汇 的自动语音识别系统都采用了相对复杂的处理方 法[6] 。 这些复杂的处理方法往往会造成较大的计 算量和不必要的时延,降低自动语音识别系统的灵 活性[7] 。 因此本文综合考虑自动语音识别系统的鲁棒性 和灵敏性,有针对性地提出了一种简洁的语音信号 后处理方法———MVDA 后处理法。 同时,也改善了 传统的 MFCC 特征提取方法中采用三角滤波器组带 来的相邻频带之间的频谱能量相互泄露,且不利于 反映共振特性的问题,为整个语音识别系统的优化 提供了基础。 实验表明,MVDA 后处理法在不同的 噪声环境中的鲁棒性和灵敏性都要高于传统的 MF⁃ CC 特征提取法。 1 噪声分类和 MFCC 自动语音识别系统的鲁棒性取决于噪声、语音 特征和语音信号处理方法。 本节首先定义了日常声 学环境中常见的噪声类型,对噪声的分类有利于本 文更加清晰地分析特征失真,并且有利于描述 MV⁃ DA 后处理法。 1.1 噪声的分类 通常处理的噪声分为加性噪声和卷积噪声。 加 性噪声可以描述为 x(t) = s(t) + n(t) (1) 式中: {s(t)} 是语音信号, {n(t)} 是加性噪声, {x(t)} 是含噪语音。 卷积噪声可以描述为 x(t) = s(t)∗n(t) (2) 式中: ∗ 是卷积符号, h(t) 是环境导致的卷积噪 声。 此处假设环境是稳定的,在实际环境中,两种类 型的噪声同时存在。 因此加噪语音可以描述为 x(t) = s(t)∗h(t) + n(t) (3) 式(3)可以被看成是一般噪声情况下,表明语 音成分与噪声成分的一种方法,可以简化为 x(t) = F(s(t) ) (4) 式中: F 指非线性时变环境下语音信号的映射。 由 于语音信号具有短时连续性,经过分帧加窗之后,语 音信号在短时内接近线性时不变。 另一种失真产生于噪声环境下样本采集过程中 的 Lombard 效应[8] ,如延长元音的持续时间和频谱 向高频率倾斜,从而改变了语音信号本身。 因此,噪 声环境下的 {s(t)} 本身存在失真,这种失真可以看 做是式(4)的一个特例。 1.2 基础语音特征 MFCC 本文以 Mel 频率倒谱系数为基础,提出了新的 语音特征提取法。 MFCC 的分析基于人的听觉机 理,即根据人的听觉实验结果来分析语音的频谱,期 望获得更好的语音特性。 MFCC 分析依据的听觉机 理有两个:1)人的主观感知频域的划定并不是线性 的;2)人耳听觉的临界带原理。 一帧语音信号的 MFCC 参数可以表示为 C (C[1]…C[D]) T ,这里 D 表示倒谱系数的维数。 MFCC 的定义如下: C = G lnQ (5) 这里 Q (Q[1]…Q[J]) T 表示每帧的谱线能量经 过梅尔三角滤波器处理后的梅尔能量谱。 G 是代表 离散余弦变换的 I∗J 阶矩阵,表示为 Gij = 2 J cos πi J (j - 0.5) æ è ç ö ø ÷ i = 1,2,…,I, j = 1,2,…,J (6) MFCC 特征提取方法采用三角滤波器组处理, 同时也带来的相邻频带之间频谱能量的相互泄露。 2 MVDA 后处理法步骤 MVDA 后处理法在 MFCC 特征提取法的基础 上,融合了均值消减、方差归一化、时间序列滤波和 加权自回归移动平均滤波法,图 1 为 MVDA 后处理 法基本步骤。 图 1 MVDA 后处理法 Fig.1 Postprocessing of MVDA MVDA 的提出是为了解决 MFCC 特征参数的 加性和卷积噪声的问题,均值消减和方差归一化在 语音处理中已经得到了相对广泛的应用[9⁃12] 。 本文 提出了结合时间序列滤波和加权自回归移动平均滤 波法在频域的应用,可以获得相较于单独使用均值 消减和方差归一化更好的效果。 本文用 C (τ) 表示第 τ 帧语音的特征,则均值消 减表示为 C - (τ) = C (τ) - μ (7) 第 2 期 张毅,等:一种语音特征提取中 Mel 倒谱系数的后处理算法 ·209·
·210· 智能系统学报 第11卷 式中:山是根据样本数据估计的均值项。方差归一 平均滤波法的去噪效果,并分析在滤波前后噪声对 化法表示为 语音特征的影响。 c)[d]=(σ2[d])-2c[d] (8) 3.1均值消减 本文首先分析卷积噪声对语音特征造成的失 式中:C是均值消减和方差归一化之后的特征, 真,并且得出均值消减可以有效去除卷积噪声。分 σ2[d]是特征向量第d维的估计方差。本文的时间 析表明,频域均值消减导致参数在时不变卷积噪声 序列滤波法表示为 下是稳定的。 kc) (k-1)2C- 卷积噪声在频域内表现为乘法运算,因此 C)= k=1 k=1 (9) {x(t)}、{s(t)}和{h(t)}的功率谱可以表示为 P,[k]=P,[k]P,[k] 式中:C是均值消减、方差归一化和时间序列滤波之 式中:P[k]=|X[k]2|,X[k]为语音信号x[n] 后的特征,k代表时间序列的宽度,心为其最大宽 的离散傅里叶变换。根据式(5),x的第i维参数为 -1 度。本文的加权自回归移动平均滤波法表示为 C)=[C-m)+…+(m-1)C-)+mC]/m2+ 式中:F:表示第j个Mel特征滤波器的第k条谱线。 [(m-1)C+)+…+Cr+m)]/m2 般情况下,C,和C,并不是简单的通过h关 (10) 联,因为对数的参数求和不能被因式分解。如果假 设P。是相对平滑的,每一个Ml滤波器频带内卷积 式中:C是MVDA滤波之后的特征,m代表加权自 噪声的变化很小。 回归移动平均滤波法深度,特殊情况m=1表示没 有加权自回归移动平均滤波处理,综合考虑算法的 复杂度和准确度,一般取m=3。 艺- FP.[k]P.tk] 均值μ和方差σ2的估计可以采用多种方法。 N- 在方差估计法[3]中,均值和方差根据一整段对话语 P,[1名FP[ 音估计。如果环境是静态的,则这种估计是相对稳 式中:P[k]为{h(t)}在第j维滤波器中的能量谱。 定的。而根据在线估计法[4」,均值和方差可以不依 赖将来的特征观察值,根据当前样本估计,这种策略 c=2,h.[1点,P[)= 时延低,适用于灵敏度要求高的系统。介于这两种 策略之间的是语句估计法。本文中的所有结果都基 含c61+ieI2.PI) 于语句估计,其定义为 c9 C(]h.) u= B[i门+C,[i] (c[d]-[d]) 式中B,[]△∑C,lnP[]。 式中:T为给定语句中的帧数。注意在语句归一化 上述假设不排除在P,在Ml频域滤波器的不 法中,结果可能被语音前后的空白和噪声影响[5], 同频带内产生变化,而只要求其在每个频带内的变 本文的研究假设在计算均值和方差统计之前,已经 化足够小,该假设要求设计良好的传输设备通带。 对语音进行了合理的分割。 然而在多噪声环境中,从声源到接收者的多路径反 射可能导致峰谷的频率响应6,不满足上述假设。 3噪声影响与MVDA滤波法分析 因此第i维噪声和语音信号MFCC的差别与 关于频域加性和卷积噪声,本文均作了详细的 {h(t)},而与{s(t)}无关。也就是说,卷积噪声增 分析。本节从理论上推导MVDA滤波法,分析均值 加特征的偏置取决于瞬时的信道特性数值。如果进 消减、方差归一化、时间序列滤波和加权自回归移动 一步假设噪声是稳态的,对于MFCC,有
式中: μ 是根据样本数据估计的均值项。 方差归一 化法表示为 C ^ (τ) [d] = (σ 2 [d]) -1/ 2C - (τ) [d] (8) 式中: C ^ 是均值消减和方差归一化之后的特征, σ 2 [d] 是特征向量第 d 维的估计方差。 本文的时间 序列滤波法表示为 C ⌒ (τ) = ∑ w k = 1 k 2C ^ (τ+k) - ∑ w k = 1 (k - 1) 2C ^ (τ-k) (4k - 2)∑ w k = 1 k 2 (9) 式中: C ⌒ 是均值消减、方差归一化和时间序列滤波之 后的特征, k 代表时间序列的宽度, w 为其最大宽 度。 本文的加权自回归移动平均滤波法表示为 C ~ (τ) = C ~ (τ-m) + … + (m - 1)C ~ (τ-1) + mC ~ (τ) [ ] / m 2 + (m - 1)C ⌒ (τ+1) + … + C ⌒ (τ+m) [ ] / m 2 (10) 式中: C ⌒ 是 MVDA 滤波之后的特征, m 代表加权自 回归移动平均滤波法深度,特殊情况 m = 1 表示没 有加权自回归移动平均滤波处理, 综合考虑算法的 复杂度和准确度,一般取 m = 3。 均值 μ 和方差 σ 2 的估计可以采用多种方法。 在方差估计法[13 ]中,均值和方差根据一整段对话语 音估计。 如果环境是静态的,则这种估计是相对稳 定的。 而根据在线估计法[14 ] ,均值和方差可以不依 赖将来的特征观察值,根据当前样本估计,这种策略 时延低,适用于灵敏度要求高的系统。 介于这两种 策略之间的是语句估计法。 本文中的所有结果都基 于语句估计,其定义为 μ = 1 T ∑ T τ = 1 C (τ) σ 2 [d] = 1 T ∑ T τ = 1 (C (τ) [d] - μ[d]) 2 式中: T 为给定语句中的帧数。 注意在语句归一化 法中,结果可能被语音前后的空白和噪声影响[15 ] , 本文的研究假设在计算均值和方差统计之前,已经 对语音进行了合理的分割。 3 噪声影响与 MVDA 滤波法分析 关于频域加性和卷积噪声,本文均作了详细的 分析。 本节从理论上推导 MVDA 滤波法,分析均值 消减、方差归一化、时间序列滤波和加权自回归移动 平均滤波法的去噪效果,并分析在滤波前后噪声对 语音特征的影响。 3.1 均值消减 本文首先分析卷积噪声对语音特征造成的失 真,并且得出均值消减可以有效去除卷积噪声。 分 析表明,频域均值消减导致参数在时不变卷积噪声 下是稳定的。 卷积噪 声 在 频 域 内 表 现 为 乘 法 运 算, 因 此 {x(t)} 、 {s(t)} 和 {h(t)} 的功率谱可以表示为 Px[k] = Ps[k]Ph [k] 式中: Px[k] = X [k] 2 , X[k] 为语音信号 x[n] 的离散傅里叶变换。 根据式(5), x 的第 i 维参数为 Cx[i] = ∑ J j = 1 Gij ln ∑ N-1 k = 0 ( FjkPx[k] ) 式中: Fjk 表示第 j 个 Mel 特征滤波器的第 k 条谱线。 一般情况下, Cx 和 Cs 并不是简单的通过 h 关 联,因为对数的参数求和不能被因式分解。 如果假 设 Ph 是相对平滑的,每一个 Mel 滤波器频带内卷积 噪声的变化很小。 ∑ N-1 k = 0 FjkPx[k] = ∑ N-1 k = 0 FjkPs[k]Ph [k] ≈ Ph [kj]∑ N-1 k = 0 FjkPs[k] 式中: Ph [kj] 为 {h(t)} 在第 j 维滤波器中的能量谱。 Cx[i] = ∑ J j = 1 Gij ln Ph [kj]∑ N-1 k = 0 ( FjkPs[k] ) = ∑ J j = 1 Gij lnPh [kj] + log ∑ N-1 k = 0 ( [ FjkPs[k] ] ) = ∑ J j = 1 Gij lnPh [k ( j] + lnQs[j] ) = Bh [i] + Cs[i] 式中 Bh [i] ∑ J j = 1 Gij lnPh [kj] 。 上述假设不排除在 Ph 在 Mel 频域滤波器的不 同频带内产生变化,而只要求其在每个频带内的变 化足够小,该假设要求设计良好的传输设备通带。 然而在多噪声环境中,从声源到接收者的多路径反 射可能导致峰谷的频率响应[16] ,不满足上述假设。 因此 第 i 维 噪 声 和 语 音 信 号 MFCC 的 差 别 与 {h(t)} ,而与 {s(t)} 无关。 也就是说,卷积噪声增 加特征的偏置取决于瞬时的信道特性数值。 如果进 一步假设噪声是稳态的,对于 MFCC,有 ·210· 智 能 系 统 学 报 第 11 卷
第2期 张毅,等:一种语音特征提取中M倒谱系数的后处理算法 ·211· C,[i]=C.[i]-u,[i]= 三c,hno.j+20.ij+f0.i)- C,[i订+B[i订-(u,[i]+B[i])= C.[i]-4,[i]=C,[i],i=0,1,…,1 c,[+,+2y0 C,[i]+8C[i],i=1,2,…,1 因此在稳态噪声和相对平滑的卷积噪声环境 语音失真为 下,均值消减特征不会改变。从而在语句结构中,如 果环境噪声是卷积类型并且在语句内是稳态的、平 δC[i]△】 滑的,均值消减法是有效的。对均值消减的上述特 因此失真与语音信号s(t)和噪声n(t:y)相 性均建立在卷积噪声的基础上。对于加性噪声的分 关。一般强度的加性噪声影响与语音信号、噪声类 析将在后面三级滤波中进行分析。 型和噪声强度有着复杂的关系,因此加性噪声的滤 3.2方差归一化 波相对困难。当存在噪声语音数据样本时,可以考 加性噪声不同于卷积噪声,在经过频域变换之 虑设计潜在的非线性变换来减小语音信号的失真。 后语音与加性噪声更加难以区分,为了更加方便地 均值消减法的使用无法弥补(C2≠C,)造成 分析加性噪声环境下的语音信号,我们将含噪语音 的失真。处理含噪语音的方法有两种,一种是直接 定义为 使用含噪语音样本,另一种是非线性变换去噪,直接 x(t;y)=s(t)+n(t;y)=s(t)+yno(t) 使用含噪语音必须与测试语音噪声匹配。 式中:加性噪声n(ty)△yn.(t)中的y变量表示噪 加性噪声造成的语音信号失真不仅仅取决于噪 声的强度。本文首先分析加性噪声,然后分析语音信 声的加性增益,而与语音信号和噪声均相关,因此很 号。n(t;y)和n,(t)在Mel频域的对数特征表示为 难去除加性噪声。在低噪声环境下这种关联并不明 N- 显。高噪声环境下,在去除噪声增益项之后,本文应 In [j]=In ,F(y2P[k])) 用了方差归一化法以弥补语音信号特征的衰减。由 N-1 于存在y1的增益,在使用方差归一化法后,也无法 2nyl+ln(∑FP.[k])= 得到零加性噪声的语音信号,因此处理后的语音特 k=0 2In ly+In Q [j] 征很难满足要求。 3.3时间序列滤波和加权自回归移动平均滤波 式中:Q和Q分别是n(ty)和n.(t)的Mel频 本文首先分析了没有假设y的语音信号失真。 率谱表示,Mel倒谱系数可以表示为 以此为依据建立了方差归一化法,并基于该方法的 C [i]=G,(2In lyl+In Q.[jl)=C..[i] 不足,分析低噪声|yg1和高噪声|y之1,这两 种噪声情况都可以通过近似来简化。 式中:Ca)和Cn.分别是n(t;y)和n(t)的倒谱, 1)低加性噪声 MFCC并没有衰减。含噪语音的功率谱为 当|y≤1时,失真可以简化为 P[k]= Q] IS[k]2|+2y|S[k]N.[k]+y2|N.[k]2I= C.d=三c,n1+2y0 ≈2yCa[i] P.[k]+2y S[k]N,[k]+y'P [k] 式中:C[订△】 式中:P)、P和P.分别表示x(t:y)、s(t)和 c,(Q[]Q.]),并且 n.(t)的功率谱。由于Mel分级是线性运算,因此 ln(1+x)≈x。 2)高加性噪声 Q [j]=Q.[j]2yQ[]+yQ.,[j] 当y≥1时,失真可简化为 式中:Q,]△∑Fs[k]v[k]l,Q、Q. 和Q,分别代表x(t:y)、s(t)和n.(t)的功率谱。 0a-2cr(o.1+2o.j) Ml特征频谱的失真由两部分构成:一部分取决于 并且失真之后的MFCC特征近似为 噪声和语音信号,并且与y成正比。另一部分只取 决于噪声,并且与y2成正比。根据式(5): cti.)
C - x (τ) [i] = Cx (τ) [i] - μx[i] = Cx (τ) [i] + Bh [i] - (μs[i] + Bh [i]) = Cx (τ) [i] - μs[i] = C - s (τ) [i],i = 0,1,…,I 因此在稳态噪声和相对平滑的卷积噪声环境 下,均值消减特征不会改变。 从而在语句结构中,如 果环境噪声是卷积类型并且在语句内是稳态的、平 滑的,均值消减法是有效的。 对均值消减的上述特 性均建立在卷积噪声的基础上。 对于加性噪声的分 析将在后面三级滤波中进行分析。 3.2 方差归一化 加性噪声不同于卷积噪声,在经过频域变换之 后语音与加性噪声更加难以区分,为了更加方便地 分析加性噪声环境下的语音信号,我们将含噪语音 定义为 x(t;γ) = s(t) + n(t;γ) = s(t) + γn0(t) 式中:加性噪声 n(t;γ) γno(t) 中的 γ 变量表示噪 声的强度。 本文首先分析加性噪声,然后分析语音信 号。 n(t;γ) 和 no(t) 在 Mel 频域的对数特征表示为 ln Qn(γ) [j] = ln ∑ N-1 k = 0 Fjk γ 2Pno ( ( [k] ) ) = 2ln γ + ln ∑ N-1 k = 0 FjkPno ( [k] ) = 2ln γ + ln Qno [j] 式中: Qn(γ) 和 Qno 分别是 n(t;γ) 和 no(t) 的 Mel 频 率谱表示,Mel 倒谱系数可以表示为 Cn(γ) [i] = ∑ J j = 1 Gij 2ln γ + ln Qno ( [j] ) = Cno [i] 式中: Cn(γ) 和 Cno 分别是 n(t;γ) 和 no(t) 的倒谱, MFCC 并没有衰减。 含噪语音的功率谱为 Px(γ) [k] = S [k] 2 + 2γ S[k]No[k] + γ 2 No [k] 2 = Ps[k] + 2γ S[k]No[k] + γ 2Pno [k] 式中: Px(γ) 、 Ps 和 Pno 分别表示 x(t;γ) 、 s(t) 和 no(t) 的功率谱。 由于 Mel 分级是线性运算,因此 Qx(γ) [j] = Qs[j] + 2γQ1 [j] + γ 2Qno [j] 式中: Q1 [j] ∑ N-1 k = 0 Fjk S[k]No[k] , Qx(γ) 、 Qs 和 Qno 分别代表 x(t;γ) 、 s(t) 和 no(t) 的功率谱。 Mel 特征频谱的失真由两部分构成:一部分取决于 噪声和语音信号,并且与 γ 成正比。 另一部分只取 决于噪声,并且与 γ 2 成正比。 根据式(5): Cx(γ) [i] = ∑ J j = 1 Gij lnQx(γ) [j] = ∑ J j = 1 Gij ln Qs[j] + 2γQ1 [j] + γ 2Qno ( [j] ) = Cs[i] + ∑ J j = 1 Gij ln 1 + 2γ Q1 [j] Qs[j] + γ 2 Qno [j] Qs[j] æ è ç ö ø ÷ = Cs[i] + δCx(γ) [i], i = 1,2,…,I 语音失真为 δCx(γ) [i] ∑ J j = 1 Gij ln 1 + 2γ Q1 [j] Qs[j] + æ è ç ö ø ÷ γ 2 Qno [j] Qs[j] 因此失真与语音信号 s(t) 和噪声 n(t;γ) 相 关。 一般强度的加性噪声影响与语音信号、噪声类 型和噪声强度有着复杂的关系,因此加性噪声的滤 波相对困难。 当存在噪声语音数据样本时,可以考 虑设计潜在的非线性变换来减小语音信号的失真。 均值消减法的使用无法弥补 Ce2 ≠ Cs ( ) 造成 的失真。 处理含噪语音的方法有两种,一种是直接 使用含噪语音样本,另一种是非线性变换去噪,直接 使用含噪语音必须与测试语音噪声匹配。 加性噪声造成的语音信号失真不仅仅取决于噪 声的加性增益,而与语音信号和噪声均相关,因此很 难去除加性噪声。 在低噪声环境下这种关联并不明 显。 高噪声环境下,在去除噪声增益项之后,本文应 用了方差归一化法以弥补语音信号特征的衰减。 由 于存在 γ -1 的增益,在使用方差归一化法后,也无法 得到零加性噪声的语音信号,因此处理后的语音特 征很难满足要求。 3.3 时间序列滤波和加权自回归移动平均滤波 本文首先分析了没有假设 γ 的语音信号失真。 以此为依据建立了方差归一化法,并基于该方法的 不足,分析低噪声 γ ≪ 1 和高噪声 γ ≫ 1,这两 种噪声情况都可以通过近似来简化。 1)低加性噪声 当 γ ≪ 1 时,失真可以简化为 δCx(γ) [i] ≈ ∑ J j = 1 Gij ln 1 + 2γ Q1 [j] Qs [j] æ è ç ö ø ÷ ≈ 2γCe1 [i] 式 中: Ce1 [i] ∑ J j = 1 Gij(Q1 [j] / Qs[j]) , 并 且 ln (1 + x) ≈ x 。 2)高加性噪声 当 γ ≫ 1 时,失真可简化为 Qx(γ) [i] ≈ ∑ J j = 1 Gij ln γ 2 Qno [j] + 2 γ Q1 [j] æ è ç ö ø ÷ æ è ç ö ø ÷ 并且失真之后的 MFCC 特征近似为 Cx(γ) [i] ≈ ∑ J j = 1 Gij γ 2 Qno [j] + 2 γ Q1 [j] æ è ç ö ø ÷ æ è ç ö ø ÷ ≈ ∑ J j = 1 Gij ln γ 2Qno 1 + 2 γ Q1 [j] Qno [j] æ è ç ö ø ÷ æ è ç ö ø ÷ ≈ 第 2 期 张毅,等:一种语音特征提取中 Mel 倒谱系数的后处理算法 ·211·
.212. 智能系统学报 第11卷 含c1+h.in+8 4 *y Q..[j]) 实验设计及分析 6.+2ca.ie1,21 实验数据库为用cooledit软件建立语音样本 库。数据库规模为100人(50男50女),考虑时间 式中:Ca[i]△∑c,(Q,j]/J)。其倒谱 的遍历性,同一段指令要求在不同的时间录制10 主要与噪声n.(t)相关,并且通过C2与语音强度成 遍。语音采样率16kHz,单声道,Windows PCM编 反比,倒谱特征的失真不只是偏置。由此,低噪声 码格式,采样精度16位。噪声添加使用Noise-92库 |y≤1和高噪声|y≥1时的噪声均反映了信号 中的pink、volvo、destroyerengine(DE)、和white噪 的不稳定性,因此强调语音动态特性和低频特性,将 声,根据随机时间偏移与纯净语音信号混合,形成 有助于加性噪声的去除。 -5~20dB范围内不同信噪比的数据库。 人耳对语音的动态特征更为敏感,这种动态特 本文语音信号分帧采用交叠分段的法,每帧 性可以通过时间序列滤波实现。时间序列滤波之后 170个采样点,叠加步长为15个采样点,对信号进 的语音信号更接近真实语音信号。时间序列滤波器 行特征提取得MFCC,设定特征维数为25。再以 在语音信号静态特性的基础上,又兼顾了语音信号 MFCC为基础,获得MVDA语音特征。 的动态特性,其使用达到了预期的目的。 图2~9是语音“12345”在噪声环境下,MVDA 由于人类的声音频率的结构性限制,发声时 特征向量的第一维和第D维特征。通过对比发现 声道系统结构的改变有限,人类语音的重要信息 干净语音和不同信噪比的含噪语音的差异。均值消 主要是在低频段1。由于MFCC反映声道系统 减和方差归化法使语音信号和含噪信号在同平均水 的特性,本文假设语音低频特征包含的信息更 平(均值消减)和总体规模(方差归一化法)的差异 多。均值消减和方差归一化方法可以弥补能谱 减小,然而差别依然明显。本文进一步使用了时间 的下降,但却不能解决谱型平滑的问题。而加权 序列滤波和加权自回归移动平均滤波,差异进一步 自回归移动平均滤波由于强调了语音低频段的 减小。 作用,并弱化了高频的影响。 20 20 0 100200300 0 100200300 0 100200300 100200300 100200300 頫率/Hz 频率Hz 频率Hz 频率Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c方差归一化输出 (d)时间序列滤波输出 (e)加权自回归平均输出 图2语音特征C[1]噪声为20dB时,MVDA后处理输出 Fig.2 The MVDA postprocessing output of voice features C[1]with noise of 20 dB 20 920 0100200300 0100200300 0100200300 100200300 0100200300 、频率/Hz 顺率Hz 频率Hz 頫案Hz 频率/Hz (a)原始语音信号 b)均值消减输出 (c方差归一·化输出 (d)时间序列滤波输出 (e)加权自回归平均输出 图3语音特征C[1]噪声为10dB时,MVDA后处理输出 Fig.3 The MVDA postprocessing output of voice features C[1]with noise of 10 dB 5 ap/ m20 0 蟹-20 -20 0 100200300 0 100200300 100200300 100200300 100200300 频率Hz 频率Hz 频率/Hz 频率/Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c)方差归一化输出 (d)时间序列滤波输出 (e)加权自回归平均输出 图4语音特征C[1]噪声为0dB时,MVDA后处理输出 Fig.4 he MVDA postprocessing output of voice features C[1]with noise of 0 dB
∑ J j = 1 Gij 2ln γ + ln Qno [j] + 2 γ Q1 [j] Qno [j] æ è ç ö ø ÷ ≈ Cno [i] + 2 γ Ce2 [i], i = 1,2,…,I 式中: Ce2 [i] ∑ J j = 1 Gij Q1 [j] / Qno ( [j] ) 。 其倒谱 主要与噪声 no(t) 相关,并且通过 Ce2 与语音强度成 反比,倒谱特征的失真不只是偏置。 由此,低噪声 γ ≪ 1 和高噪声 γ ≫ 1 时的噪声均反映了信号 的不稳定性,因此强调语音动态特性和低频特性,将 有助于加性噪声的去除。 人耳对语音的动态特征更为敏感,这种动态特 性可以通过时间序列滤波实现。 时间序列滤波之后 的语音信号更接近真实语音信号。 时间序列滤波器 在语音信号静态特性的基础上,又兼顾了语音信号 的动态特性,其使用达到了预期的目的。 由于人类的声音频率的结构性限制,发声时 声道系统结构的改变有限,人类语音的重要信息 主要是在低频段[ 17] 。 由于 MFCC 反映声道系统 的特性,本文假设语音低频特征包 含 的 信 息 更 多。 均值消减和方差归一化方法可以弥补能谱 的下降,但却不能解决谱型平滑的问题。 而加权 自回归移动平均滤波由于强调了语音低频段的 作用,并弱化了高频的影响。 4 实验设计及分析 实验数据库为用 cooledit 软件建立语音样本 库。 数据库规模为 100 人(50 男 50 女),考虑时间 的遍历性,同一段指令要求在不同的时间录制 10 遍。 语音采样率 16 kHz,单声道,Windows PCM 编 码格式,采样精度 16 位。 噪声添加使用 Noise⁃92 库 中的 pink、 volvo、 destroyerengine ( DE)、 和 white 噪 声,根据随机时间偏移与纯净语音信号混合,形成 -5~20 dB 范围内不同信噪比的数据库。 本文语音信号分帧采用交叠分段的法,每帧 170 个采样点,叠加步长为 15 个采样点,对信号进 行特征提取得 MFCC,设定特征维数为 25。 再以 MFCC 为基础,获得 MVDA 语音特征。 图 2~ 9 是语音“12345” 在噪声环境下,MVDA 特征向量的第一维和第 D 维特征。 通过对比发现 干净语音和不同信噪比的含噪语音的差异。 均值消 减和方差归化法使语音信号和含噪信号在同平均水 平(均值消减)和总体规模(方差归一化法)的差异 减小,然而差别依然明显。 本文进一步使用了时间 序列滤波和加权自回归移动平均滤波,差异进一步 减小。 图 2 语音特征 C[1] 噪声为 20 dB 时,MVDA 后处理输出 Fig.2 The MVDA postprocessing output of voice features C[1] with noise of 20 dB 图 3 语音特征 C[1] 噪声为 10 dB 时,MVDA 后处理输出 Fig.3 The MVDA postprocessing output of voice features C[1] with noise of 10 dB 图 4 语音特征 C[1] 噪声为 0 dB 时,MVDA 后处理输出 Fig.4 he MVDA postprocessing output of voice features C[1] with noise of 0 dB ·212· 智 能 系 统 学 报 第 11 卷
第2期 张毅,等:一种语音特征提取中Ml倒谱系数的后处理算法 ·213 20 20 0 - -20 0 100200300 0100200300 0100200300 100200300 0 100200300 频率Hz 频率/Hz 频率Hz 顺率Hz 频率Hz (a)原始语音信号 (b)均值消减输出 (c方差归一化输出 (d时间序列滤波输出 (e)加权自回归平均输出 图5语音特征C[1]噪声为-5dB时,MVDA后处理输出 Fig.5 The MVDA postprocessing output of voice features C[1]with noise of-5 dB 20 20 2 M0 -20 二20 1 0 100200300 0 100200300 0100200300 0 100200300 0 100200300 频率/Hz 频率/Hz 频率Hz 频率/Hz 频率/Hz (a)原始语音信号 b)均值消减输出 (c)方差归一化输出 (d)时间序列滤波输出 (e加权自回归平均输出 图6语音特征C[D]噪声为20dB时,MVDA后处理输出 F1g.61 The MVDA postprocessing output of voice features C[D]with noise of 20 dB 20 .on/m 20 睡20 0 100200300 0 100200300 100200300 100200300 100200300 频率/Hz 频率Hz 频率/Hz 频率/Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c方差归一化输出 (d)时间序列滤波输出 (e)加权自回归平均输出 图7语音特征C[D]噪声为10dB时,MVDA后处理输出 Fig.7 The MVDA postprocessing output of voice features C[D]with noise of 10 dB 20 20 20 10 0 100200300 0 100200300 0 100200300 0 100200300 0 100200300 频率/Hz 頫率/Hz 頫率/Hz 频率/Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c方差归一化输出 (d)时间序列滤波输出 (e)加权自回归平均输出 图8语音特征C[D]噪声为0dB时,MVDA后处理输出 Fig.8 The MVDA postprocessing output of voice features C[D]with noise of 0 dB 20 0 100200300 0 100200300 0 100200300 0 100200300 0 100200300 频率/Hz 频率Hz 频率/Hz 频率/Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c)方差归一化输出 (d时间序列滤波输出 (e加权自回归平均输出 图9语音特征C[D]噪声为-5dB时,MVDA后处理输出 Fig.9 The MVDA postprocessing output of voice features C[D]with noise of-5 dB 然而使用视觉检查推断语音识别处理方法的不 音更加接近真实的语音信号。 确定性总是存在的。为了便于比较,本文计算了语 表1含噪语音MVDA参数与语音信号的欧氏距离 音信号特征和带噪语音信号特征的欧式距离,具体 Table 1 The compasison of training beteeen MVDA and 数值见表1。可以分析得出,含噪语音特征和无噪 MFCC 语音信号特征的欧式距离均与噪声强度正相关。均 参数 20/dB 10/dB 0/dB -10/dB 值消减和方差归一化减小了含噪语音特征与无噪语 均值消减 939 1356 1845 1956 音信号特征的欧式距离。最终,时间序列滤波和加 方差归一化 129 196 259 346 权自回归移动平均滤波进一步减小了欧式距离。根 时间序列滤波 78 112 136 203 据表1,加权自回归移动平均滤波处理后的带噪语 加权自回归移动平均61 69 72 76
图 5 语音特征 C[1] 噪声为-5 dB 时,MVDA 后处理输出 Fig.5 The MVDA postprocessing output of voice features C[1] with noise of -5 dB 图 6 语音特征 C[D] 噪声为 20 dB 时,MVDA 后处理输出 Fig.6 The MVDA postprocessing output of voice features C[D] with noise of 20 dB 图 7 语音特征 C[D] 噪声为 10 dB 时,MVDA 后处理输出 Fig.7 The MVDA postprocessing output of voice features C[D] with noise of 10 dB 图 8 语音特征 C[D] 噪声为 0 dB 时,MVDA 后处理输出 Fig.8 The MVDA postprocessing output of voice features C[D] with noise of 0 dB 图 9 语音特征 C[D] 噪声为-5 dB 时,MVDA 后处理输出 Fig.9 The MVDA postprocessing output of voice features C[D] with noise of -5 dB 然而使用视觉检查推断语音识别处理方法的不 确定性总是存在的。 为了便于比较,本文计算了语 音信号特征和带噪语音信号特征的欧式距离,具体 数值见表 1。 可以分析得出,含噪语音特征和无噪 语音信号特征的欧式距离均与噪声强度正相关。 均 值消减和方差归一化减小了含噪语音特征与无噪语 音信号特征的欧式距离。 最终,时间序列滤波和加 权自回归移动平均滤波进一步减小了欧式距离。 根 据表 1,加权自回归移动平均滤波处理后的带噪语 音更加接近真实的语音信号。 表 1 含噪语音 MVDA 参数与语音信号的欧氏距离 Table 1 The compasison of training beteeen MVDA and MFCC 参数 20 / dB 10 / dB 0 / dB -10 / dB 均值消减 939 1 356 1 845 1 956 方差归一化 129 196 259 346 时间序列滤波 78 112 136 203 加权自回归移动平均 61 69 72 76 第 2 期 张毅,等:一种语音特征提取中 Mel 倒谱系数的后处理算法 ·213·
.214. 智能系统学报 第11卷 将MVDA与MFCC特征在自动语音识别系统 5 下进行语音识别实验对比,实验结果如图4。可以 结束语 得出,信噪比较高时,MFCC特征与MVDA特征的识 本文的分析主要基于加性噪声和卷积噪声环境 别率基本相同,但随着信噪比降低,MVDA语音特征 下MFCC特征参数的失真,针对这一问题提出了 的效果更加显著。 MVDA语音特征提取法。分析得出实验效果与语音 基本特征、滤波器的类型均相关。在使用MVDA滤 100 o-MFCC参数 波法后,相较于MFCC语音特征,自动语音识别系统 95 -MVDA参数 在不同性噪比环境下的识别率提高了2.7%~ 90 卧 15.0%。MVDA特征提取可以达到很多复杂去噪算 法的效果,却可以减少系统对计算能力的要求,减小 80f 系统的时延。因此,MVDA后处理法可以在更小的 75 计算代价下提高系统的鲁棒性,具有较高的实际应 105 0 5 10 20 用价值。 躁声强度/dB (a)噪青类型为white 参考文献: 95 [1]PALIWAL KK,BASU A.A speech enhancement method 90 based on Kalman fltering[C]//Proceedings of IEEE Inter- national Conference on Acoustics,Speech,and Signal Pro- cessing.Dallas,USA,1997:177-180. 80 。MFCC参数 [2]GIBSON J D.KOO B.GRAY S D.Filtering of Colored 75 -MVDA参数 Noise for Speech Enhancement and Coding J].IEEE 70 Transactions on Signal Processing,1991,39(8):1732- 5 0 5 10 15 20 1742 噪声强度/dB (b)噪声类型为pink [3]ZELINSKI R.A microphone array with adaptive post-filte- ring for noise reduction in reverberant rooms[C]//Proceed- 95 ings of IEEE International Conference on Acoustics, % Speech,and Signal Processing.New York,USA,1998: 2578-2581. 禁 [4]MYLLYMAKI M,VIRTANEN T.Non-stationary noise mod- 80 el compensation in voice activity detection[C]//Proceed- ·MFCC参数 ings of IEEE International Conference on Signal Processing -MVDA参数 Conference.Glasgow,Scotland,2009:2186-2190. 105 0 5 1015 20 [5]RAMFREZ J,SEGURA J C,BENFTEZ C,et al.Efficient 噪声强度/dB voice activity detection algorithms using long-term speech in- (c)噪声类型为volvo formation J].Speech communication,2004,42(3/4): 95 271-287. [6]CHOWDHURY M,SELOUANI S A,OSHAUGHNESSY D. 90 A soft computing approach to improve the robustness of on- 85 line ASR in previously unseen highly non-stationary acoustic environments[C]//Proceedings of the 11th IEEE Interna- 80 -MFCC参数 tional Conference on Information Science,Signal Processing 75 -MVDA参数 and their Applications.Montreal,Canada,2012:522-527. 70 [7]GUPTA H A,RAJU A,ALWAN A.Non-linear dimension 5 10 1520 噪声强度/dB reduction of Gabor features for noise-robust ASR[C]//Pro- (d)噪声类型为DE ceedings of IEEE International Conference on Acoustics, 图10自动语音识别结果对比图 Speech,and Signal Processing.Florence,Italy,2014: Fig.10 Comparison of automatic speech recognition results 1715-1719. 8 HANSEN J H L.VARADARAJAN V.Analysis and com-
将 MVDA 与 MFCC 特征在自动语音识别系统 下进行语音识别实验对比,实验结果如图 4 。 可以 得出,信噪比较高时,MFCC 特征与 MVDA 特征的识 别率基本相同,但随着信噪比降低,MVDA 语音特征 的效果更加显著。 图 10 自动语音识别结果对比图 Fig.10 Comparison of automatic speech recognition results 5 结束语 本文的分析主要基于加性噪声和卷积噪声环境 下 MFCC 特征参数的失真,针对这一问题提出了 MVDA 语音特征提取法。 分析得出实验效果与语音 基本特征、滤波器的类型均相关。 在使用 MVDA 滤 波法后,相较于 MFCC 语音特征,自动语音识别系统 在不 同 性 噪 比 环 境 下 的 识 别 率 提 高 了 2. 7% ~ 15.0%。 MVDA 特征提取可以达到很多复杂去噪算 法的效果,却可以减少系统对计算能力的要求,减小 系统的时延。 因此,MVDA 后处理法可以在更小的 计算代价下提高系统的鲁棒性,具有较高的实际应 用价值。 参考文献: [1]PALIWAL K K, BASU A. A speech enhancement method based on Kalman fltering[C] / / Proceedings of IEEE Inter⁃ national Conference on Acoustics, Speech, and Signal Pro⁃ cessing. Dallas, USA, 1997: 177⁃180. [2] GIBSON J D, KOO B, GRAY S D. Filtering of Colored Noise for Speech Enhancement and Coding [ J ]. IEEE Transactions on Signal Processing, 1991, 39 ( 8): 1732⁃ 1742. [3] ZELINSKI R. A microphone array with adaptive post⁃filte⁃ ring for noise reduction in reverberant rooms[C] / / Proceed⁃ ings of IEEE International Conference on Acoustics, Speech, and Signal Processing. New York, USA, 1998: 2578⁃2581. [4]MYLLYMAKI M, VIRTANEN T. Non⁃stationary noise mod⁃ el compensation in voice activity detection [ C] / / Proceed⁃ ings of IEEE International Conference on Signal Processing Conference. Glasgow, Scotland, 2009: 2186⁃2190. [5]RAMFREZ J, SEGURA J C, BENFTEZ C, et al. Efficient voice activity detection algorithms using long⁃term speech in⁃ formation [ J]. Speech communication, 2004, 42 ( 3 / 4): 271⁃287. [6]CHOWDHURY M, SELOUANI S A, O'SHAUGHNESSY D. A soft computing approach to improve the robustness of on⁃ line ASR in previously unseen highly non⁃stationary acoustic environments[ C] / / Proceedings of the 11th IEEE Interna⁃ tional Conference on Information Science, Signal Processing and their Applications. Montreal, Canada, 2012: 522⁃527. [7]GUPTA H A, RAJU A, ALWAN A. Non⁃linear dimension reduction of Gabor features for noise⁃robust ASR[C] / / Pro⁃ ceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. Florence, Italy, 2014: 1715⁃1719. [8] HANSEN J H L, VARADARAJAN V. Analysis and com⁃ ·214· 智 能 系 统 学 报 第 11 卷
第2期 张毅,等:一种语音特征提取中M倒谱系数的后处理算法 ·215. pensation of lombard speech across noise type and levels [15]BOLL S F.Suppression of acoustic noise in speech using with application to in-set/out-of-set speaker recognition[J]. spectral subtraction[].IEEE transactions on acoustics, IEEE transactions on audio,speech,and language process- speech,and signal processing,1999,27(2):113-120. ig,2009,17(2):366-378. [16]MAMMONE R J,ZHANG Xiaoyu,RAMACHANDRAN R P. [9]COOK G,ROBINSON T.Transcribing broadcast news with Robust speaker recognition:a feature-based approach[J]. the 1997 abbot system[C]//Proceedings of IEEE Interna- IEEE signal processing magazine,1996,13(5):58-71. tional Conference on Acoustics,Speech,and Signal Pro- [17]BOLL S F.Suppression of acoustic noise in speech using cessing.Seattle,USA,1998:917-920. spectral subtraction[J].IEEE transactions on acoustics, [10]KIM D S,LEE S Y,KIL R M.Auditory processing of speech,and signal processing,1999,27(2):113-120. speech signals for robust speech recognition in real-world 作者简介: noisy environments[J].IEEE transactions on speech and 张毅,男,1966年生,教授,博士生 audio processing,1999,7(1):55-69. 导师。主要研究方向机器人及应用、数 [11]HAIN T,WOODLAND P C,EVERMANN G,et al.New 据融合、信息无障碍技术。任重庆邮电 features in the CU-HTK system for transcription of conver- 大学国家信息无障碍工程研发中心主 sational telephone speech[C]//Proceedings of IEEE Inter- 任,智能系统及机器人实验室主任,发 national Conference on Acoustics,Speech,and Signal Pro- 表学术论文多篇。 cessing.Salt Lake City,UT,2001(1):57-60. [12]LIN S H,CHEN B,YEH Y M.Exploring the use of speech 谢延义,男,1989年生,硕士研究 features and their corresponding distribution characteristics for 生,主要研究方向为语音识别与智能机 robust speech recognition[].IEEE transactions on audio, 器人。 speech,and language processing,2009,17(1):84-94. [13]MORTIA S,UNOKI M,LU Xugang,et al.Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments[C]//Proceed- 罗元,女,1972年生,教授,博士,主 ings of International Symposium on Chinese Spoken Lan- 要研究方向为信号与信息处理、数字图 guage Processing (ISCSLP).Singapore,2014:108-112. 像处理。 [14]CHANG J E,BAI J Y,ZENG Fangang.Unintelligible low frequency sound enhances simulated cochlear implant speech recognition in noise[J].IEEe transactions on bio- medical engineering,2006,53(12):2598-2601
pensation of lombard speech across noise type and levels with application to in⁃set / out⁃of⁃set speaker recognition[J]. IEEE transactions on audio, speech, and language process⁃ ing, 2009, 17(2): 366⁃378. [9]COOK G, ROBINSON T. Transcribing broadcast news with the 1997 abbot system[C] / / Proceedings of IEEE Interna⁃ tional Conference on Acoustics, Speech, and Signal Pro⁃ cessing. Seattle, USA, 1998: 917⁃920. [10] KIM D S, LEE S Y, KIL R M. Auditory processing of speech signals for robust speech recognition in real⁃world noisy environments[ J]. IEEE transactions on speech and audio processing, 1999, 7(1): 55⁃69. [11]HAIN T, WOODLAND P C, EVERMANN G, et al. New features in the CU⁃HTK system for transcription of conver⁃ sational telephone speech[C] / / Proceedings of IEEE Inter⁃ national Conference on Acoustics, Speech, and Signal Pro⁃ cessing. Salt Lake City, UT, 2001(1): 57⁃60. [12]LIN S H, CHEN B, YEH Y M. Exploring the use of speech features and their corresponding distribution characteristics for robust speech recognition [J]. IEEE transactions on audio, speech, and language processing, 2009, 17(1): 84⁃94. [13]MORTIA S, UNOKI M, LU Xugang, et al. Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments[C] / / Proceed⁃ ings of International Symposium on Chinese Spoken Lan⁃ guage Processing (ISCSLP). Singapore, 2014: 108⁃112. [14]CHANG J E, BAI J Y, ZENG Fangang. Unintelligible low frequency sound enhances simulated cochlear implant speech recognition in noise[ J]. IEEe transactions on bio⁃ medical engineering, 2006, 53(12): 2598⁃2601. [15] BOLL S F. Suppression of acoustic noise in speech using spectral subtraction [ J]. IEEE transactions on acoustics, speech, and signal processing, 1999, 27(2): 113⁃120. [16]MAMMONE R J, ZHANG Xiaoyu, RAMACHANDRAN R P. Robust speaker recognition: a feature⁃based approach [ J]. IEEE signal processing magazine, 1996, 13(5): 58⁃71. [17] BOLL S F. Suppression of acoustic noise in speech using spectral subtraction [ J]. IEEE transactions on acoustics, speech, and signal processing, 1999, 27(2): 113⁃120. 作者简介: 张毅,男,1966 年生,教授,博士生 导师。 主要研究方向机器人及应用、数 据融合、信息无障碍技术。 任重庆邮电 大学国家信息无障碍工程研发中心主 任,智能系统及机器人实验室主任,发 表学术论文多篇。 谢延义,男, 1989 年生,硕士研究 生,主要研究方向为语音识别与智能机 器人。 罗元,女,1972 年生,教授,博士,主 要研究方向为信号与信息处理、数字图 像处理。 第 2 期 张毅,等:一种语音特征提取中 Mel 倒谱系数的后处理算法 ·215·