正在加载图片...
第2期 张毅,等:一种语音特征提取中M倒谱系数的后处理算法 ·211· C,[i]=C.[i]-u,[i]= 三c,hno.j+20.ij+f0.i)- C,[i订+B[i订-(u,[i]+B[i])= C.[i]-4,[i]=C,[i],i=0,1,…,1 c,[+,+2y0 C,[i]+8C[i],i=1,2,…,1 因此在稳态噪声和相对平滑的卷积噪声环境 语音失真为 下,均值消减特征不会改变。从而在语句结构中,如 果环境噪声是卷积类型并且在语句内是稳态的、平 δC[i]△】 滑的,均值消减法是有效的。对均值消减的上述特 因此失真与语音信号s(t)和噪声n(t:y)相 性均建立在卷积噪声的基础上。对于加性噪声的分 关。一般强度的加性噪声影响与语音信号、噪声类 析将在后面三级滤波中进行分析。 型和噪声强度有着复杂的关系,因此加性噪声的滤 3.2方差归一化 波相对困难。当存在噪声语音数据样本时,可以考 加性噪声不同于卷积噪声,在经过频域变换之 虑设计潜在的非线性变换来减小语音信号的失真。 后语音与加性噪声更加难以区分,为了更加方便地 均值消减法的使用无法弥补(C2≠C,)造成 分析加性噪声环境下的语音信号,我们将含噪语音 的失真。处理含噪语音的方法有两种,一种是直接 定义为 使用含噪语音样本,另一种是非线性变换去噪,直接 x(t;y)=s(t)+n(t;y)=s(t)+yno(t) 使用含噪语音必须与测试语音噪声匹配。 式中:加性噪声n(ty)△yn.(t)中的y变量表示噪 加性噪声造成的语音信号失真不仅仅取决于噪 声的强度。本文首先分析加性噪声,然后分析语音信 声的加性增益,而与语音信号和噪声均相关,因此很 号。n(t;y)和n,(t)在Mel频域的对数特征表示为 难去除加性噪声。在低噪声环境下这种关联并不明 N- 显。高噪声环境下,在去除噪声增益项之后,本文应 In [j]=In ,F(y2P[k])) 用了方差归一化法以弥补语音信号特征的衰减。由 N-1 于存在y1的增益,在使用方差归一化法后,也无法 2nyl+ln(∑FP.[k])= 得到零加性噪声的语音信号,因此处理后的语音特 k=0 2In ly+In Q [j] 征很难满足要求。 3.3时间序列滤波和加权自回归移动平均滤波 式中:Q和Q分别是n(ty)和n.(t)的Mel频 本文首先分析了没有假设y的语音信号失真。 率谱表示,Mel倒谱系数可以表示为 以此为依据建立了方差归一化法,并基于该方法的 C [i]=G,(2In lyl+In Q.[jl)=C..[i] 不足,分析低噪声|yg1和高噪声|y之1,这两 种噪声情况都可以通过近似来简化。 式中:Ca)和Cn.分别是n(t;y)和n(t)的倒谱, 1)低加性噪声 MFCC并没有衰减。含噪语音的功率谱为 当|y≤1时,失真可以简化为 P[k]= Q] IS[k]2|+2y|S[k]N.[k]+y2|N.[k]2I= C.d=三c,n1+2y0 ≈2yCa[i] P.[k]+2y S[k]N,[k]+y'P [k] 式中:C[订△】 式中:P)、P和P.分别表示x(t:y)、s(t)和 c,(Q[]Q.]),并且 n.(t)的功率谱。由于Mel分级是线性运算,因此 ln(1+x)≈x。 2)高加性噪声 Q [j]=Q.[j]2yQ[]+yQ.,[j] 当y≥1时,失真可简化为 式中:Q,]△∑Fs[k]v[k]l,Q、Q. 和Q,分别代表x(t:y)、s(t)和n.(t)的功率谱。 0a-2cr(o.1+2o.j) Ml特征频谱的失真由两部分构成:一部分取决于 并且失真之后的MFCC特征近似为 噪声和语音信号,并且与y成正比。另一部分只取 决于噪声,并且与y2成正比。根据式(5): cti.)C - x (τ) [i] = Cx (τ) [i] - μx[i] = Cx (τ) [i] + Bh [i] - (μs[i] + Bh [i]) = Cx (τ) [i] - μs[i] = C - s (τ) [i],i = 0,1,…,I 因此在稳态噪声和相对平滑的卷积噪声环境 下,均值消减特征不会改变。 从而在语句结构中,如 果环境噪声是卷积类型并且在语句内是稳态的、平 滑的,均值消减法是有效的。 对均值消减的上述特 性均建立在卷积噪声的基础上。 对于加性噪声的分 析将在后面三级滤波中进行分析。 3.2 方差归一化 加性噪声不同于卷积噪声,在经过频域变换之 后语音与加性噪声更加难以区分,为了更加方便地 分析加性噪声环境下的语音信号,我们将含噪语音 定义为 x(t;γ) = s(t) + n(t;γ) = s(t) + γn0(t) 式中:加性噪声 n(t;γ) 􀰛 γno(t) 中的 γ 变量表示噪 声的强度。 本文首先分析加性噪声,然后分析语音信 号。 n(t;γ) 和 no(t) 在 Mel 频域的对数特征表示为 ln Qn(γ) [j] = ln ∑ N-1 k = 0 Fjk γ 2Pno ( ( [k] ) ) = 2ln γ + ln ∑ N-1 k = 0 FjkPno ( [k] ) = 2ln γ + ln Qno [j] 式中: Qn(γ) 和 Qno 分别是 n(t;γ) 和 no(t) 的 Mel 频 率谱表示,Mel 倒谱系数可以表示为 Cn(γ) [i] = ∑ J j = 1 Gij 2ln γ + ln Qno ( [j] ) = Cno [i] 式中: Cn(γ) 和 Cno 分别是 n(t;γ) 和 no(t) 的倒谱, MFCC 并没有衰减。 含噪语音的功率谱为 Px(γ) [k] = S [k] 2 + 2γ S[k]No[k] + γ 2 No [k] 2 = Ps[k] + 2γ S[k]No[k] + γ 2Pno [k] 式中: Px(γ) 、 Ps 和 Pno 分别表示 x(t;γ) 、 s(t) 和 no(t) 的功率谱。 由于 Mel 分级是线性运算,因此 Qx(γ) [j] = Qs[j] + 2γQ1 [j] + γ 2Qno [j] 式中: Q1 [j] 􀰛 ∑ N-1 k = 0 Fjk S[k]No[k] , Qx(γ) 、 Qs 和 Qno 分别代表 x(t;γ) 、 s(t) 和 no(t) 的功率谱。 Mel 特征频谱的失真由两部分构成:一部分取决于 噪声和语音信号,并且与 γ 成正比。 另一部分只取 决于噪声,并且与 γ 2 成正比。 根据式(5): Cx(γ) [i] = ∑ J j = 1 Gij lnQx(γ) [j] = ∑ J j = 1 Gij ln Qs[j] + 2γQ1 [j] + γ 2Qno ( [j] ) = Cs[i] + ∑ J j = 1 Gij ln 1 + 2γ Q1 [j] Qs[j] + γ 2 Qno [j] Qs[j] æ è ç ö ø ÷ = Cs[i] + δCx(γ) [i], i = 1,2,…,I 语音失真为 δCx(γ) [i] 􀰛 ∑ J j = 1 Gij ln 1 + 2γ Q1 [j] Qs[j] + æ è ç ö ø ÷ γ 2 Qno [j] Qs[j] 因此失真与语音信号 s(t) 和噪声 n(t;γ) 相 关。 一般强度的加性噪声影响与语音信号、噪声类 型和噪声强度有着复杂的关系,因此加性噪声的滤 波相对困难。 当存在噪声语音数据样本时,可以考 虑设计潜在的非线性变换来减小语音信号的失真。 均值消减法的使用无法弥补 Ce2 ≠ Cs ( ) 造成 的失真。 处理含噪语音的方法有两种,一种是直接 使用含噪语音样本,另一种是非线性变换去噪,直接 使用含噪语音必须与测试语音噪声匹配。 加性噪声造成的语音信号失真不仅仅取决于噪 声的加性增益,而与语音信号和噪声均相关,因此很 难去除加性噪声。 在低噪声环境下这种关联并不明 显。 高噪声环境下,在去除噪声增益项之后,本文应 用了方差归一化法以弥补语音信号特征的衰减。 由 于存在 γ -1 的增益,在使用方差归一化法后,也无法 得到零加性噪声的语音信号,因此处理后的语音特 征很难满足要求。 3.3 时间序列滤波和加权自回归移动平均滤波 本文首先分析了没有假设 γ 的语音信号失真。 以此为依据建立了方差归一化法,并基于该方法的 不足,分析低噪声 γ ≪ 1 和高噪声 γ ≫ 1,这两 种噪声情况都可以通过近似来简化。 1)低加性噪声 当 γ ≪ 1 时,失真可以简化为 δCx(γ) [i] ≈ ∑ J j = 1 Gij ln 1 + 2γ Q1 [j] Qs [j] æ è ç ö ø ÷ ≈ 2γCe1 [i] 式 中: Ce1 [i] 􀰛 ∑ J j = 1 Gij(Q1 [j] / Qs[j]) , 并 且 ln (1 + x) ≈ x 。 2)高加性噪声 当 γ ≫ 1 时,失真可简化为 Qx(γ) [i] ≈ ∑ J j = 1 Gij ln γ 2 Qno [j] + 2 γ Q1 [j] æ è ç ö ø ÷ æ è ç ö ø ÷ 并且失真之后的 MFCC 特征近似为 Cx(γ) [i] ≈ ∑ J j = 1 Gij γ 2 Qno [j] + 2 γ Q1 [j] æ è ç ö ø ÷ æ è ç ö ø ÷ ≈ ∑ J j = 1 Gij ln γ 2Qno 1 + 2 γ Q1 [j] Qno [j] æ è ç ö ø ÷ æ è ç ö ø ÷ ≈ 第 2 期 张毅,等:一种语音特征提取中 Mel 倒谱系数的后处理算法 ·211·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有