∑ Ｊｊ＝１Ｇｉｊ２ｌｎ γ ＋ｌｎＱｎｏ［ｊ］＋２

点击下载：【机器感知与模式识别】一种语音特征提取中Mel倒谱系数的后处理算法编辑部

正在加载图片...

.212. 智能系统学报第11卷含c1+h.in+8 4 *y Q..[j]) 实验设计及分析 6.+2ca.ie1,21 实验数据库为用cooledit软件建立语音样本库。数据库规模为100人(50男50女)，考虑时间式中：Ca[i]△∑c,(Q,j]/J)。其倒谱的遍历性，同一段指令要求在不同的时间录制10 主要与噪声n.(t)相关，并且通过C2与语音强度成遍。语音采样率16kHz,单声道，Windows PCM编反比，倒谱特征的失真不只是偏置。由此，低噪声码格式，采样精度16位。噪声添加使用Noise-92库 |y≤1和高噪声|y≥1时的噪声均反映了信号中的pink、volvo、destroyerengine(DE)、和white噪的不稳定性，因此强调语音动态特性和低频特性，将声，根据随机时间偏移与纯净语音信号混合，形成有助于加性噪声的去除。 -5~20dB范围内不同信噪比的数据库。人耳对语音的动态特征更为敏感，这种动态特本文语音信号分帧采用交叠分段的法，每帧性可以通过时间序列滤波实现。时间序列滤波之后 170个采样点，叠加步长为15个采样点，对信号进的语音信号更接近真实语音信号。时间序列滤波器行特征提取得MFCC,设定特征维数为25。再以在语音信号静态特性的基础上，又兼顾了语音信号 MFCC为基础，获得MVDA语音特征。的动态特性，其使用达到了预期的目的。图2~9是语音“12345”在噪声环境下，MVDA 由于人类的声音频率的结构性限制，发声时特征向量的第一维和第D维特征。通过对比发现声道系统结构的改变有限，人类语音的重要信息干净语音和不同信噪比的含噪语音的差异。均值消主要是在低频段1。由于MFCC反映声道系统减和方差归化法使语音信号和含噪信号在同平均水的特性，本文假设语音低频特征包含的信息更平（均值消减）和总体规模（方差归一化法）的差异多。均值消减和方差归一化方法可以弥补能谱减小，然而差别依然明显。本文进一步使用了时间的下降，但却不能解决谱型平滑的问题。而加权序列滤波和加权自回归移动平均滤波，差异进一步自回归移动平均滤波由于强调了语音低频段的减小。作用，并弱化了高频的影响。 20 20 0 100200300 0 100200300 0 100200300 100200300 100200300 頫率/Hz 频率Hz 频率Hz 频率Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c方差归一化输出 (d)时间序列滤波输出 (e)加权自回归平均输出图2语音特征C[1]噪声为20dB时，MVDA后处理输出 Fig.2 The MVDA postprocessing output of voice features C[1]with noise of 20 dB 20 920 0100200300 0100200300 0100200300 100200300 0100200300 、频率/Hz 顺率Hz 频率Hz 頫案Hz 频率/Hz (a)原始语音信号 b)均值消减输出 (c方差归一·化输出 (d)时间序列滤波输出 (e)加权自回归平均输出图3语音特征C[1]噪声为10dB时，MVDA后处理输出 Fig.3 The MVDA postprocessing output of voice features C[1]with noise of 10 dB 5 ap/ m20 0 蟹-20 -20 0 100200300 0 100200300 100200300 100200300 100200300 频率Hz 频率Hz 频率/Hz 频率/Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c)方差归一化输出 (d)时间序列滤波输出 (e)加权自回归平均输出图4语音特征C[1]噪声为0dB时，MVDA后处理输出 Fig.4 he MVDA postprocessing output of voice features C[1]with noise of 0 dB∑ Ｊｊ＝１Ｇｉｊ２ｌｎ γ ＋ｌｎＱｎｏ［ｊ］＋２ γ Ｑ１［ｊ］Ｑｎｏ［ｊ］ æ è ç ö ø ÷ ≈ Ｃｎｏ［ｉ］＋２ γ Ｃｅ２［ｉ］，ｉ＝１，２，…，Ｉ式中：Ｃｅ２［ｉ］ 􀰛 ∑ Ｊｊ＝１ＧｉｊＱ１［ｊ］／Ｑｎｏ ( ［ｊ］ ) 。其倒谱主要与噪声ｎｏ（ｔ）相关，并且通过Ｃｅ２与语音强度成反比，倒谱特征的失真不只是偏置。由此，低噪声 γ ≪ １和高噪声 γ ≫ １时的噪声均反映了信号的不稳定性，因此强调语音动态特性和低频特性，将有助于加性噪声的去除。人耳对语音的动态特征更为敏感，这种动态特性可以通过时间序列滤波实现。时间序列滤波之后的语音信号更接近真实语音信号。时间序列滤波器在语音信号静态特性的基础上，又兼顾了语音信号的动态特性，其使用达到了预期的目的。由于人类的声音频率的结构性限制，发声时声道系统结构的改变有限，人类语音的重要信息主要是在低频段［１７］。由于ＭＦＣＣ反映声道系统的特性，本文假设语音低频特征包含的信息更多。均值消减和方差归一化方法可以弥补能谱的下降，但却不能解决谱型平滑的问题。而加权自回归移动平均滤波由于强调了语音低频段的作用，并弱化了高频的影响。４实验设计及分析实验数据库为用ｃｏｏｌｅｄｉｔ软件建立语音样本库。数据库规模为１００人（５０男５０女），考虑时间的遍历性，同一段指令要求在不同的时间录制１０遍。语音采样率１６ｋＨｚ，单声道，ＷｉｎｄｏｗｓＰＣＭ编码格式，采样精度１６位。噪声添加使用Ｎｏｉｓｅ⁃９２库中的ｐｉｎｋ、ｖｏｌｖｏ、ｄｅｓｔｒｏｙｅｒｅｎｇｉｎｅ（ＤＥ）、和ｗｈｉｔｅ噪声，根据随机时间偏移与纯净语音信号混合，形成－５～２０ｄＢ范围内不同信噪比的数据库。本文语音信号分帧采用交叠分段的法，每帧１７０个采样点，叠加步长为１５个采样点，对信号进行特征提取得ＭＦＣＣ，设定特征维数为２５。再以ＭＦＣＣ为基础，获得ＭＶＤＡ语音特征。图２～９是语音“１２３４５” 在噪声环境下，ＭＶＤＡ特征向量的第一维和第Ｄ维特征。通过对比发现干净语音和不同信噪比的含噪语音的差异。均值消减和方差归化法使语音信号和含噪信号在同平均水平（均值消减）和总体规模（方差归一化法）的差异减小，然而差别依然明显。本文进一步使用了时间序列滤波和加权自回归移动平均滤波，差异进一步减小。图２语音特征Ｃ［１］噪声为２０ｄＢ时，ＭＶＤＡ后处理输出Ｆｉｇ．２ＴｈｅＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｏｕｔｐｕｔｏｆｖｏｉｃｅｆｅａｔｕｒｅｓＣ［１］ｗｉｔｈｎｏｉｓｅｏｆ２０ｄＢ图３语音特征Ｃ［１］噪声为１０ｄＢ时，ＭＶＤＡ后处理输出Ｆｉｇ．３ＴｈｅＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｏｕｔｐｕｔｏｆｖｏｉｃｅｆｅａｔｕｒｅｓＣ［１］ｗｉｔｈｎｏｉｓｅｏｆ１０ｄＢ图４语音特征Ｃ［１］噪声为０ｄＢ时，ＭＶＤＡ后处理输出Ｆｉｇ．４ｈｅＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｏｕｔｐｕｔｏｆｖｏｉｃｅｆｅａｔｕｒｅｓＣ［１］ｗｉｔｈｎｏｉｓｅｏｆ０ｄＢ ·２１２· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】一种语音特征提取中Mel倒谱系数的后处理算法编辑部