正在加载图片...
·210· 智能系统学报 第11卷 式中:山是根据样本数据估计的均值项。方差归一 平均滤波法的去噪效果,并分析在滤波前后噪声对 化法表示为 语音特征的影响。 c)[d]=(σ2[d])-2c[d] (8) 3.1均值消减 本文首先分析卷积噪声对语音特征造成的失 式中:C是均值消减和方差归一化之后的特征, 真,并且得出均值消减可以有效去除卷积噪声。分 σ2[d]是特征向量第d维的估计方差。本文的时间 析表明,频域均值消减导致参数在时不变卷积噪声 序列滤波法表示为 下是稳定的。 kc) (k-1)2C- 卷积噪声在频域内表现为乘法运算,因此 C)= k=1 k=1 (9) {x(t)}、{s(t)}和{h(t)}的功率谱可以表示为 P,[k]=P,[k]P,[k] 式中:C是均值消减、方差归一化和时间序列滤波之 式中:P[k]=|X[k]2|,X[k]为语音信号x[n] 后的特征,k代表时间序列的宽度,心为其最大宽 的离散傅里叶变换。根据式(5),x的第i维参数为 -1 度。本文的加权自回归移动平均滤波法表示为 C)=[C-m)+…+(m-1)C-)+mC]/m2+ 式中:F:表示第j个Mel特征滤波器的第k条谱线。 [(m-1)C+)+…+Cr+m)]/m2 般情况下,C,和C,并不是简单的通过h关 (10) 联,因为对数的参数求和不能被因式分解。如果假 设P。是相对平滑的,每一个Ml滤波器频带内卷积 式中:C是MVDA滤波之后的特征,m代表加权自 噪声的变化很小。 回归移动平均滤波法深度,特殊情况m=1表示没 有加权自回归移动平均滤波处理,综合考虑算法的 复杂度和准确度,一般取m=3。 艺- FP.[k]P.tk] 均值μ和方差σ2的估计可以采用多种方法。 N- 在方差估计法[3]中,均值和方差根据一整段对话语 P,[1名FP[ 音估计。如果环境是静态的,则这种估计是相对稳 式中:P[k]为{h(t)}在第j维滤波器中的能量谱。 定的。而根据在线估计法[4」,均值和方差可以不依 赖将来的特征观察值,根据当前样本估计,这种策略 c=2,h.[1点,P[)= 时延低,适用于灵敏度要求高的系统。介于这两种 策略之间的是语句估计法。本文中的所有结果都基 含c61+ieI2.PI) 于语句估计,其定义为 c9 C(]h.) u= B[i门+C,[i] (c[d]-[d]) 式中B,[]△∑C,lnP[]。 式中:T为给定语句中的帧数。注意在语句归一化 上述假设不排除在P,在Ml频域滤波器的不 法中,结果可能被语音前后的空白和噪声影响[5], 同频带内产生变化,而只要求其在每个频带内的变 本文的研究假设在计算均值和方差统计之前,已经 化足够小,该假设要求设计良好的传输设备通带。 对语音进行了合理的分割。 然而在多噪声环境中,从声源到接收者的多路径反 射可能导致峰谷的频率响应6,不满足上述假设。 3噪声影响与MVDA滤波法分析 因此第i维噪声和语音信号MFCC的差别与 关于频域加性和卷积噪声,本文均作了详细的 {h(t)},而与{s(t)}无关。也就是说,卷积噪声增 分析。本节从理论上推导MVDA滤波法,分析均值 加特征的偏置取决于瞬时的信道特性数值。如果进 消减、方差归一化、时间序列滤波和加权自回归移动 一步假设噪声是稳态的,对于MFCC,有式中: μ 是根据样本数据估计的均值项。 方差归一 化法表示为 C ^ (τ) [d] = (σ 2 [d]) -1/ 2C - (τ) [d] (8) 式中: C ^ 是均值消减和方差归一化之后的特征, σ 2 [d] 是特征向量第 d 维的估计方差。 本文的时间 序列滤波法表示为 C ⌒ (τ) = ∑ w k = 1 k 2C ^ (τ+k) - ∑ w k = 1 (k - 1) 2C ^ (τ-k) (4k - 2)∑ w k = 1 k 2 (9) 式中: C ⌒ 是均值消减、方差归一化和时间序列滤波之 后的特征, k 代表时间序列的宽度, w 为其最大宽 度。 本文的加权自回归移动平均滤波法表示为 C ~ (τ) = C ~ (τ-m) + … + (m - 1)C ~ (τ-1) + mC ~ (τ) [ ] / m 2 + (m - 1)C ⌒ (τ+1) + … + C ⌒ (τ+m) [ ] / m 2 (10) 式中: C ⌒ 是 MVDA 滤波之后的特征, m 代表加权自 回归移动平均滤波法深度,特殊情况 m = 1 表示没 有加权自回归移动平均滤波处理, 综合考虑算法的 复杂度和准确度,一般取 m = 3。 均值 μ 和方差 σ 2 的估计可以采用多种方法。 在方差估计法[13 ]中,均值和方差根据一整段对话语 音估计。 如果环境是静态的,则这种估计是相对稳 定的。 而根据在线估计法[14 ] ,均值和方差可以不依 赖将来的特征观察值,根据当前样本估计,这种策略 时延低,适用于灵敏度要求高的系统。 介于这两种 策略之间的是语句估计法。 本文中的所有结果都基 于语句估计,其定义为 μ = 1 T ∑ T τ = 1 C (τ) σ 2 [d] = 1 T ∑ T τ = 1 (C (τ) [d] - μ[d]) 2 式中: T 为给定语句中的帧数。 注意在语句归一化 法中,结果可能被语音前后的空白和噪声影响[15 ] , 本文的研究假设在计算均值和方差统计之前,已经 对语音进行了合理的分割。 3 噪声影响与 MVDA 滤波法分析 关于频域加性和卷积噪声,本文均作了详细的 分析。 本节从理论上推导 MVDA 滤波法,分析均值 消减、方差归一化、时间序列滤波和加权自回归移动 平均滤波法的去噪效果,并分析在滤波前后噪声对 语音特征的影响。 3.1 均值消减 本文首先分析卷积噪声对语音特征造成的失 真,并且得出均值消减可以有效去除卷积噪声。 分 析表明,频域均值消减导致参数在时不变卷积噪声 下是稳定的。 卷积噪 声 在 频 域 内 表 现 为 乘 法 运 算, 因 此 {x(t)} 、 {s(t)} 和 {h(t)} 的功率谱可以表示为 Px[k] = Ps[k]Ph [k] 式中: Px[k] = X [k] 2 , X[k] 为语音信号 x[n] 的离散傅里叶变换。 根据式(5), x 的第 i 维参数为 Cx[i] = ∑ J j = 1 Gij ln ∑ N-1 k = 0 ( FjkPx[k] ) 式中: Fjk 表示第 j 个 Mel 特征滤波器的第 k 条谱线。 一般情况下, Cx 和 Cs 并不是简单的通过 h 关 联,因为对数的参数求和不能被因式分解。 如果假 设 Ph 是相对平滑的,每一个 Mel 滤波器频带内卷积 噪声的变化很小。 ∑ N-1 k = 0 FjkPx[k] = ∑ N-1 k = 0 FjkPs[k]Ph [k] ≈ Ph [kj]∑ N-1 k = 0 FjkPs[k] 式中: Ph [kj] 为 {h(t)} 在第 j 维滤波器中的能量谱。 Cx[i] = ∑ J j = 1 Gij ln Ph [kj]∑ N-1 k = 0 ( FjkPs[k] ) = ∑ J j = 1 Gij lnPh [kj] + log ∑ N-1 k = 0 ( [ FjkPs[k] ] ) = ∑ J j = 1 Gij lnPh [k ( j] + lnQs[j] ) = Bh [i] + Cs[i] 式中 Bh [i] 􀰛 ∑ J j = 1 Gij lnPh [kj] 。 上述假设不排除在 Ph 在 Mel 频域滤波器的不 同频带内产生变化,而只要求其在每个频带内的变 化足够小,该假设要求设计良好的传输设备通带。 然而在多噪声环境中,从声源到接收者的多路径反 射可能导致峰谷的频率响应[16] ,不满足上述假设。 因此 第 i 维 噪 声 和 语 音 信 号 MFCC 的 差 别 与 {h(t)} ,而与 {s(t)} 无关。 也就是说,卷积噪声增 加特征的偏置取决于瞬时的信道特性数值。 如果进 一步假设噪声是稳态的,对于 MFCC,有 ·210· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有