【机器感知与模式识别】一种语音特征提取中Mel倒谱系数的后处理算法编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：899.16KB

第11卷第2期智能系统学报 Vol.11 No.2 2016年4月 CAAI Transactions on Intelligent Systems Apr.2016 D0I:10.11992/is.201511008 网络出版地址：http://www.enki..net/kcms/detail/23.1538.TP.20160315.1248.018.html 一种语音特征提取中Ml倒谱系数的后处理算法张毅，谢延义2，罗元3，席兵3 (1.重庆邮电大学先进制造工程学院，重庆400065：2.重庆邮电大学自动化学院，重庆400065：3.重庆邮电大学光电工程学院，重庆400065) 摘要：为提高语音识别系统的鲁棒性，本文以Ml频率倒谱系数(MFCC)为基础，结合均值消减法、方差归一化、时间序列滤波法和加权自回归移动平均滤波法，提出了一种后处理算法，本文将该算法命名为MVDA后处理法，所得语音特征参数简称MVDA。本文首先从理论上推导了MVDA后处理法可以去除加性噪声和卷积噪声的干扰，接着针对MVDA与MFCC做了对比试验，并分析了含噪语音与语音信号的欧氏距离变化，证明MVDA后处理法的每一步均有效降低了噪声的干扰，且得出了MVDA在不同噪声环境中均更优的结论。这种简洁的语音特征不仅可以达到许多复杂语音特征处理方法的效果，而且有效减少了自动语音识别系统的计算量。关键词：后处理：语音特征：语音识别：噪声：鲁棒性中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2016)02-0208-07 中文引用格式：张毅，谢延义，罗元，等.一种语音特征提取中Ml倒谱系数的后处理算法[J].智能系统学报，2016,11(2)： 208-215. 英文引用格式：ZHANG Yi,XIE Yanyi,LUO Yuan,etal.Postprocessing method of MFCC in speech feature extraction[J].CAAI transactions on intelligent systems,2016,11(2):208-215. Postprocessing method of MFCC in speech feature extraction ZHANG Yi',XIE Yanyi2,LUO Yuan',XI Bing' (1.Institute of Advanced Manufacturing Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065, China;2.College of Automation,Chongqing University of Posts and Telecommunications,Chongqing 400065,China;3.College of Opto Electronic Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,China) Abstract:To improve the robustness of automatic speech recognition systems,a new speech feature postprocessing method based on the Mel-frequency Cepstral Coefficient MFCC)is proposed,which is named the MVDA postpro- cessing method.The postprocessed feature parameters are named MVDAs.This technique combines mean subtrac- tion,variance normalization,time sequence fltering,and autoregressive moving average flters.Experiments were conducted to compare MVDA and MFCC.Changes in the Euclidean distance of the speech with noise and the speech signal were analyzed,proving that every step of MVDA postprocessing could effectively reduce the noise in- terference.Thus,all MVDAs in different noise environments were superior.This simple feature does not only a- chieve the effect of many complex speech feature processing methods but also effectively reduces the computational complexity of automatic speech recognition systems. Keywords:postprocessing;phonetic feature;speech recognition;noise;robustness 为了提高语音识别系统的鲁棒性，谱减法、卡尔收稿日期：2015-11-06.网络出版日期：2016-03-15. 曼滤波1]和麦克风阵列[]等语音增强技术得到应基金项目：重庆市科委前沿技术专项重点项目(cstc2015 jeyjBX0066). 通信作者：谢延义.E-mail:811719530@qq.com. 用和推广。语音特征的失真造成声学空间的变形

第１１卷第２期智能系统学报Ｖｏｌ．１１ №．２２０１６年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５１１００８网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０３１５．１２４８．０１８．ｈｔｍｌ一种语音特征提取中Ｍｅｌ倒谱系数的后处理算法张毅１，谢延义２，罗元３，席兵３（１．重庆邮电大学先进制造工程学院，重庆４０００６５；２．重庆邮电大学自动化学院，重庆４０００６５；３．重庆邮电大学光电工程学院，重庆４０００６５）摘要：为提高语音识别系统的鲁棒性，本文以Ｍｅｌ频率倒谱系数（ＭＦＣＣ）为基础，结合均值消减法、方差归一化、时间序列滤波法和加权自回归移动平均滤波法，提出了一种后处理算法，本文将该算法命名为ＭＶＤＡ后处理法，所得语音特征参数简称ＭＶＤＡ。本文首先从理论上推导了ＭＶＤＡ后处理法可以去除加性噪声和卷积噪声的干扰，接着针对ＭＶＤＡ与ＭＦＣＣ做了对比试验，并分析了含噪语音与语音信号的欧氏距离变化，证明ＭＶＤＡ后处理法的每一步均有效降低了噪声的干扰，且得出了ＭＶＤＡ在不同噪声环境中均更优的结论。这种简洁的语音特征不仅可以达到许多复杂语音特征处理方法的效果，而且有效减少了自动语音识别系统的计算量。关键词：后处理；语音特征；语音识别；噪声；鲁棒性中图分类号：ＴＰ３９１．４文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０２⁃０２０８⁃０７中文引用格式：张毅，谢延义，罗元，等．一种语音特征提取中Ｍｅｌ倒谱系数的后处理算法［Ｊ］．智能系统学报，２０１６，１１（２）：２０８⁃２１５．英文引用格式：ＺＨＡＮＧＹｉ，ＸＩＥＹａｎｙｉ，ＬＵＯＹｕａｎ，ｅｔａｌ．ＰｏｓｔｐｒｏｃｅｓｓｉｎｇｍｅｔｈｏｄｏｆＭＦＣＣｉｎｓｐｅｅｃｈｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（２）：２０８⁃２１５．ＰｏｓｔｐｒｏｃｅｓｓｉｎｇｍｅｔｈｏｄｏｆＭＦＣＣｉｎｓｐｅｅｃｈｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎＺＨＡＮＧＹｉ１，ＸＩＥＹａｎｙｉ２，ＬＵＯＹｕａｎ３，ＸＩＢｉｎｇ３（１．ＩｎｓｔｉｔｕｔｅｏｆＡｄｖａｎｃｅｄＭａｎｕｆａｃｔｕｒｉｎｇＥｎｇｉｎｅｅｒｉｎｇ，ＣｈｏｎｇｑｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｃｈｏｎｇｑｉｎｇ４０００６５，Ｃｈｉｎａ；２．ＣｏｌｌｅｇｅｏｆＡｕｔｏｍａｔｉｏｎ，ＣｈｏｎｇｑｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｃｈｏｎｇｑｉｎｇ４０００６５，Ｃｈｉｎａ；３．ＣｏｌｌｅｇｅｏｆＯｐｔｏＥｌｅｃｔｒｏｎｉｃＥｎｇｉｎｅｅｒｉｎｇ，ＣｈｏｎｇｑｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｃｈｏｎｇｑｉｎｇ４０００６５，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｏｉｍｐｒｏｖｅｔｈｅｒｏｂｕｓｔｎｅｓｓｏｆａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｓ，ａｎｅｗｓｐｅｅｃｈｆｅａｔｕｒｅｐｏｓｔｐｒｏｃｅｓｓｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎｔｈｅＭｅｌ⁃ｆｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ（ＭＦＣＣ）ｉｓｐｒｏｐｏｓｅｄ，ｗｈｉｃｈｉｓｎａｍｅｄｔｈｅＭＶＤＡｐｏｓｔｐｒｏ⁃ ｃｅｓｓｉｎｇｍｅｔｈｏｄ．ＴｈｅｐｏｓｔｐｒｏｃｅｓｓｅｄｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓａｒｅｎａｍｅｄＭＶＤＡｓ．Ｔｈｉｓｔｅｃｈｎｉｑｕｅｃｏｍｂｉｎｅｓｍｅａｎｓｕｂｔｒａｃ⁃ ｔｉｏｎ，ｖａｒｉａｎｃｅｎｏｒｍａｌｉｚａｔｉｏｎ，ｔｉｍｅｓｅｑｕｅｎｃｅｆｌｔｅｒｉｎｇ，ａｎｄａｕｔｏｒｅｇｒｅｓｓｉｖｅｍｏｖｉｎｇａｖｅｒａｇｅｆｌｔｅｒｓ．ＥｘｐｅｒｉｍｅｎｔｓｗｅｒｅｃｏｎｄｕｃｔｅｄｔｏｃｏｍｐａｒｅＭＶＤＡａｎｄＭＦＣＣ．ＣｈａｎｇｅｓｉｎｔｈｅＥｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅｏｆｔｈｅｓｐｅｅｃｈｗｉｔｈｎｏｉｓｅａｎｄｔｈｅｓｐｅｅｃｈｓｉｇｎａｌｗｅｒｅａｎａｌｙｚｅｄ，ｐｒｏｖｉｎｇｔｈａｔｅｖｅｒｙｓｔｅｐｏｆＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｃｏｕｌｄｅｆｆｅｃｔｉｖｅｌｙｒｅｄｕｃｅｔｈｅｎｏｉｓｅｉｎ⁃ ｔｅｒｆｅｒｅｎｃｅ．Ｔｈｕｓ，ａｌｌＭＶＤＡｓｉｎｄｉｆｆｅｒｅｎｔｎｏｉｓｅｅｎｖｉｒｏｎｍｅｎｔｓｗｅｒｅｓｕｐｅｒｉｏｒ．Ｔｈｉｓｓｉｍｐｌｅｆｅａｔｕｒｅｄｏｅｓｎｏｔｏｎｌｙａ⁃ ｃｈｉｅｖｅｔｈｅｅｆｆｅｃｔｏｆｍａｎｙｃｏｍｐｌｅｘｓｐｅｅｃｈｆｅａｔｕｒｅｐｒｏｃｅｓｓｉｎｇｍｅｔｈｏｄｓｂｕｔａｌｓｏｅｆｆｅｃｔｉｖｅｌｙｒｅｄｕｃｅｓｔｈｅｃｏｍｐｕｔａｔｉｏｎａｌｃｏｍｐｌｅｘｉｔｙｏｆａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｓ．Ｋｅｙｗｏｒｄｓ：ｐｏｓｔｐｒｏｃｅｓｓｉｎｇ；ｐｈｏｎｅｔｉｃｆｅａｔｕｒｅ；ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ；ｎｏｉｓｅ；ｒｏｂｕｓｔｎｅｓｓ收稿日期：２０１５⁃１１⁃０６．网络出版日期：２０１６⁃０３⁃１５．基金项目：重庆市科委前沿技术专项重点项目（ｃｓｔｃ２０１５ｊｃｙｊＢＸ００６６）．通信作者：谢延义．Ｅ⁃ｍａｉｌ：８１１７１９５３０＠ｑｑ．ｃｏｍ．为了提高语音识别系统的鲁棒性，谱减法、卡尔曼滤波［１⁃２］和麦克风阵列［３］等语音增强技术得到应用和推广。语音特征的失真造成声学空间的变形

第2期张毅，等：一种语音特征提取中M倒谱系数的后处理算法 ·209· 对此声学模型可以相应地调整，以弥补训练和测试声环境下的{s(t)}本身存在失真，这种失真可以看语音之间的差异，这种调整通常被称为噪声模型补做是式(4)的一个特例。偿技术4。由于语音去噪的复杂性，甚至小词汇 1.2基础语音特征MFCC 的自动语音识别系统都采用了相对复杂的处理方本文以Ml频率倒谱系数为基础，提出了新的法[6)。这些复杂的处理方法往往会造成较大的计语音特征提取法。MFCC的分析基于人的听觉机算量和不必要的时延，降低自动语音识别系统的灵理，即根据人的听觉实验结果来分析语音的频谱，期活性。望获得更好的语音特性。MFCC分析依据的听觉机因此本文综合考虑自动语音识别系统的鲁棒性理有两个：1)人的主观感知频域的划定并不是线性和灵敏性，有针对性地提出了一种简洁的语音信号的：2)人耳听觉的临界带原理。后处理方法一MVDA后处理法。同时，也改善了 ~帧语音信号的MFCC参数可以表示为C△ 传统的MFCC特征提取方法中采用三角滤波器组带 (C[1]…C[D])',这里D表示倒谱系数的维数。来的相邻频带之间的频谱能量相互泄露，且不利于 MFCC的定义如下：反映共振特性的问题，为整个语音识别系统的优化 C=GInQ (5) 提供了基础。实验表明，MVDA后处理法在不同的这里Q△(Q[1]…Q[J])'表示每帧的谱线能量经噪声环境中的鲁棒性和灵敏性都要高于传统的MF- 过梅尔三角滤波器处理后的梅尔能量谱。G是代表 CC特征提取法。离散余弦变换的1*J阶矩阵，表示为 1 噪声分类和MFCC G 2 -co 自动语音识别系统的鲁棒性取决于噪声、语音 i=1,2,…,1,j=1,2,…,J (6) 特征和语音信号处理方法。本节首先定义了日常声 MFCC特征提取方法采用三角滤波器组处理，学环境中常见的噪声类型，对噪声的分类有利于本同时也带来的相邻频带之间频谱能量的相互泄露。文更加清晰地分析特征失真，并且有利于描述MV- 2 MVDA后处理法步骤 DA后处理法。 1.1噪声的分类 MVDA后处理法在MFCC特征提取法的基础通常处理的噪声分为加性噪声和卷积噪声。加上，融合了均值消减、方差归一化、时间序列滤波和性噪声可以描述为加权自回归移动平均滤波法，图1为MVDA后处理 x(t)=s(t)+n(t) (1) 法基本步骤。式中：{s(t)}是语音信号，{n(t)}是加性噪声，方时加权 {x(t)}是含噪语音。卷积噪声可以描述为 x(t) c 差归自回 C 序归 c 么 x(t)=s(t)*n(t) (2) 消平式中：*是卷积符号，h(t)是环境导致的卷积噪化滤均滤波法声。此处假设环境是稳定的，在实际环境中，两种类图1 MVDA后处理法型的噪声同时存在。因此加噪语音可以描述为 Fig.1 Postprocessing of MVDA x(t)=s(t)*h(t)+n(t) (3) MVDA的提出是为了解决MFCC特征参数的式(3)可以被看成是一般噪声情况下，表明语加性和卷积噪声的问题，均值消减和方差归一化在音成分与噪声成分的一种方法，可以简化为语音处理中已经得到了相对广泛的应用[1)]。本文 x(t)=F(s(t)) (4) 提出了结合时间序列滤波和加权自回归移动平均滤式中：F指非线性时变环境下语音信号的映射。由波法在频域的应用，可以获得相较于单独使用均值于语音信号具有短时连续性，经过分帧加窗之后，语消减和方差归一化更好的效果。音信号在短时内接近线性时不变。本文用C)表示第r帧语音的特征，则均值消另一种失真产生于噪声环境下样本采集过程中减表示为的Lombard效应[s】,如延长元音的持续时间和频谱向高频率倾斜，从而改变了语音信号本身。因此，噪 Cr)=C(r)-u (7)

对此声学模型可以相应地调整，以弥补训练和测试语音之间的差异，这种调整通常被称为噪声模型补偿技术［４⁃５］。由于语音去噪的复杂性，甚至小词汇的自动语音识别系统都采用了相对复杂的处理方法［６］。这些复杂的处理方法往往会造成较大的计算量和不必要的时延，降低自动语音识别系统的灵活性［７］。因此本文综合考虑自动语音识别系统的鲁棒性和灵敏性，有针对性地提出了一种简洁的语音信号后处理方法———ＭＶＤＡ后处理法。同时，也改善了传统的ＭＦＣＣ特征提取方法中采用三角滤波器组带来的相邻频带之间的频谱能量相互泄露，且不利于反映共振特性的问题，为整个语音识别系统的优化提供了基础。实验表明，ＭＶＤＡ后处理法在不同的噪声环境中的鲁棒性和灵敏性都要高于传统的ＭＦ⁃ ＣＣ特征提取法。１噪声分类和ＭＦＣＣ自动语音识别系统的鲁棒性取决于噪声、语音特征和语音信号处理方法。本节首先定义了日常声学环境中常见的噪声类型，对噪声的分类有利于本文更加清晰地分析特征失真，并且有利于描述ＭＶ⁃ ＤＡ后处理法。１．１噪声的分类通常处理的噪声分为加性噪声和卷积噪声。加性噪声可以描述为ｘ（ｔ）＝ｓ（ｔ）＋ｎ（ｔ）（１）式中：｛ｓ（ｔ）｝是语音信号，｛ｎ（ｔ）｝是加性噪声，｛ｘ（ｔ）｝是含噪语音。卷积噪声可以描述为ｘ（ｔ）＝ｓ（ｔ）∗ｎ（ｔ）（２）式中： ∗ 是卷积符号，ｈ（ｔ）是环境导致的卷积噪声。此处假设环境是稳定的，在实际环境中，两种类型的噪声同时存在。因此加噪语音可以描述为ｘ（ｔ）＝ｓ（ｔ）∗ｈ（ｔ）＋ｎ（ｔ）（３）式（３）可以被看成是一般噪声情况下，表明语音成分与噪声成分的一种方法，可以简化为ｘ（ｔ）＝Ｆ(ｓ（ｔ） ) （４）式中：Ｆ指非线性时变环境下语音信号的映射。由于语音信号具有短时连续性，经过分帧加窗之后，语音信号在短时内接近线性时不变。另一种失真产生于噪声环境下样本采集过程中的Ｌｏｍｂａｒｄ效应［８］，如延长元音的持续时间和频谱向高频率倾斜，从而改变了语音信号本身。因此，噪声环境下的｛ｓ（ｔ）｝本身存在失真，这种失真可以看做是式（４）的一个特例。１．２基础语音特征ＭＦＣＣ本文以Ｍｅｌ频率倒谱系数为基础，提出了新的语音特征提取法。ＭＦＣＣ的分析基于人的听觉机理，即根据人的听觉实验结果来分析语音的频谱，期望获得更好的语音特性。ＭＦＣＣ分析依据的听觉机理有两个：１）人的主观感知频域的划定并不是线性的；２）人耳听觉的临界带原理。一帧语音信号的ＭＦＣＣ参数可以表示为Ｃ 􀰛 （Ｃ［１］…Ｃ［Ｄ］）Ｔ，这里Ｄ表示倒谱系数的维数。ＭＦＣＣ的定义如下：Ｃ＝ＧｌｎＱ（５）这里Ｑ 􀰛 （Ｑ［１］…Ｑ［Ｊ］）Ｔ表示每帧的谱线能量经过梅尔三角滤波器处理后的梅尔能量谱。Ｇ是代表离散余弦变换的Ｉ∗Ｊ阶矩阵，表示为Ｇｉｊ＝２Ｊｃｏｓ πｉＪ（ｊ－０．５） æ è ç ö ø ÷ ｉ＝１，２，…，Ｉ，ｊ＝１，２，…，Ｊ（６）ＭＦＣＣ特征提取方法采用三角滤波器组处理，同时也带来的相邻频带之间频谱能量的相互泄露。２ＭＶＤＡ后处理法步骤ＭＶＤＡ后处理法在ＭＦＣＣ特征提取法的基础上，融合了均值消减、方差归一化、时间序列滤波和加权自回归移动平均滤波法，图１为ＭＶＤＡ后处理法基本步骤。图１ＭＶＤＡ后处理法Ｆｉｇ．１ＰｏｓｔｐｒｏｃｅｓｓｉｎｇｏｆＭＶＤＡＭＶＤＡ的提出是为了解决ＭＦＣＣ特征参数的加性和卷积噪声的问题，均值消减和方差归一化在语音处理中已经得到了相对广泛的应用［９⁃１２］。本文提出了结合时间序列滤波和加权自回归移动平均滤波法在频域的应用，可以获得相较于单独使用均值消减和方差归一化更好的效果。本文用Ｃ（τ）表示第 τ 帧语音的特征，则均值消减表示为Ｃ－（τ）＝Ｃ（τ）－ μ （７）第２期张毅，等：一种语音特征提取中Ｍｅｌ倒谱系数的后处理算法 ·２０９·

·210· 智能系统学报第11卷式中：山是根据样本数据估计的均值项。方差归一平均滤波法的去噪效果，并分析在滤波前后噪声对化法表示为语音特征的影响。 c)[d]=(σ2[d])-2c[d] (8) 3.1均值消减本文首先分析卷积噪声对语音特征造成的失式中：C是均值消减和方差归一化之后的特征，真，并且得出均值消减可以有效去除卷积噪声。分 σ2[d]是特征向量第d维的估计方差。本文的时间析表明，频域均值消减导致参数在时不变卷积噪声序列滤波法表示为下是稳定的。 kc) (k-1)2C- 卷积噪声在频域内表现为乘法运算，因此 C)= k=1 k=1 (9) {x(t)}、{s(t)}和{h(t)}的功率谱可以表示为 P,[k]=P,[k]P,[k] 式中：C是均值消减、方差归一化和时间序列滤波之式中：P[k]=|X[k]2|,X[k]为语音信号x[n] 后的特征，k代表时间序列的宽度，心为其最大宽的离散傅里叶变换。根据式(5)，x的第i维参数为 -1 度。本文的加权自回归移动平均滤波法表示为 C)=[C-m）+…+(m-1)C-)+mC]/m2+ 式中：F:表示第j个Mel特征滤波器的第k条谱线。 [(m-1)C+)+…+Cr+m)]/m2 般情况下，C,和C,并不是简单的通过h关 (10) 联，因为对数的参数求和不能被因式分解。如果假设P。是相对平滑的，每一个Ml滤波器频带内卷积式中：C是MVDA滤波之后的特征，m代表加权自噪声的变化很小。回归移动平均滤波法深度，特殊情况m=1表示没有加权自回归移动平均滤波处理，综合考虑算法的复杂度和准确度，一般取m=3。艺- FP.[k]P.tk] 均值μ和方差σ2的估计可以采用多种方法。 N- 在方差估计法[3]中，均值和方差根据一整段对话语 P,[1名FP[ 音估计。如果环境是静态的，则这种估计是相对稳式中：P[k]为{h(t)}在第j维滤波器中的能量谱。定的。而根据在线估计法[4」，均值和方差可以不依赖将来的特征观察值，根据当前样本估计，这种策略 c=2,h.[1点，P[)= 时延低，适用于灵敏度要求高的系统。介于这两种策略之间的是语句估计法。本文中的所有结果都基含c61+ieI2.PI) 于语句估计，其定义为 c9 C(]h.) u= B[i门+C,[i] (c[d]-[d]) 式中B,[]△∑C,lnP[]。式中：T为给定语句中的帧数。注意在语句归一化上述假设不排除在P,在Ml频域滤波器的不法中，结果可能被语音前后的空白和噪声影响[5]，同频带内产生变化，而只要求其在每个频带内的变本文的研究假设在计算均值和方差统计之前，已经化足够小，该假设要求设计良好的传输设备通带。对语音进行了合理的分割。然而在多噪声环境中，从声源到接收者的多路径反射可能导致峰谷的频率响应6，不满足上述假设。 3噪声影响与MVDA滤波法分析因此第i维噪声和语音信号MFCC的差别与关于频域加性和卷积噪声，本文均作了详细的 {h(t)},而与{s(t)}无关。也就是说，卷积噪声增分析。本节从理论上推导MVDA滤波法，分析均值加特征的偏置取决于瞬时的信道特性数值。如果进消减、方差归一化、时间序列滤波和加权自回归移动一步假设噪声是稳态的，对于MFCC,有

式中： μ 是根据样本数据估计的均值项。方差归一化法表示为Ｃ＾（τ）［ｄ］＝（σ ２［ｄ］）－１／２Ｃ－（τ）［ｄ］（８）式中：Ｃ＾是均值消减和方差归一化之后的特征， σ ２［ｄ］是特征向量第ｄ维的估计方差。本文的时间序列滤波法表示为Ｃ ⌒ （τ）＝ ∑ ｗｋ＝１ｋ２Ｃ＾（τ＋ｋ）－ ∑ ｗｋ＝１（ｋ－１）２Ｃ＾（τ－ｋ）（４ｋ－２）∑ ｗｋ＝１ｋ２（９）式中：Ｃ ⌒ 是均值消减、方差归一化和时间序列滤波之后的特征，ｋ代表时间序列的宽度，ｗ为其最大宽度。本文的加权自回归移动平均滤波法表示为Ｃ～（τ）＝Ｃ～（τ－ｍ）＋ … ＋（ｍ－１）Ｃ～（τ－１）＋ｍＣ～（τ） [ ] ／ｍ２＋（ｍ－１）Ｃ ⌒ （τ＋１）＋ … ＋Ｃ ⌒ （τ＋ｍ） [ ] ／ｍ２（１０）式中：Ｃ ⌒ 是ＭＶＤＡ滤波之后的特征，ｍ代表加权自回归移动平均滤波法深度，特殊情况ｍ＝１表示没有加权自回归移动平均滤波处理，综合考虑算法的复杂度和准确度，一般取ｍ＝３。均值 μ 和方差 σ ２的估计可以采用多种方法。在方差估计法［１３］中，均值和方差根据一整段对话语音估计。如果环境是静态的，则这种估计是相对稳定的。而根据在线估计法［１４］，均值和方差可以不依赖将来的特征观察值，根据当前样本估计，这种策略时延低，适用于灵敏度要求高的系统。介于这两种策略之间的是语句估计法。本文中的所有结果都基于语句估计，其定义为 μ ＝１Ｔ ∑ Ｔ τ ＝１Ｃ（τ） σ ２［ｄ］＝１Ｔ ∑ Ｔ τ ＝１（Ｃ（τ）［ｄ］－ μ［ｄ］）２式中：Ｔ为给定语句中的帧数。注意在语句归一化法中，结果可能被语音前后的空白和噪声影响［１５］，本文的研究假设在计算均值和方差统计之前，已经对语音进行了合理的分割。３噪声影响与ＭＶＤＡ滤波法分析关于频域加性和卷积噪声，本文均作了详细的分析。本节从理论上推导ＭＶＤＡ滤波法，分析均值消减、方差归一化、时间序列滤波和加权自回归移动平均滤波法的去噪效果，并分析在滤波前后噪声对语音特征的影响。３．１均值消减本文首先分析卷积噪声对语音特征造成的失真，并且得出均值消减可以有效去除卷积噪声。分析表明，频域均值消减导致参数在时不变卷积噪声下是稳定的。卷积噪声在频域内表现为乘法运算，因此｛ｘ（ｔ）｝、｛ｓ（ｔ）｝和｛ｈ（ｔ）｝的功率谱可以表示为Ｐｘ［ｋ］＝Ｐｓ［ｋ］Ｐｈ［ｋ］式中：Ｐｘ［ｋ］＝Ｘ［ｋ］２，Ｘ［ｋ］为语音信号ｘ［ｎ］的离散傅里叶变换。根据式（５），ｘ的第ｉ维参数为Ｃｘ［ｉ］＝ ∑ Ｊｊ＝１Ｇｉｊｌｎ ∑ Ｎ－１ｋ＝０ ( ＦｊｋＰｘ［ｋ］ ) 式中：Ｆｊｋ表示第ｊ个Ｍｅｌ特征滤波器的第ｋ条谱线。一般情况下，Ｃｘ和Ｃｓ并不是简单的通过ｈ关联，因为对数的参数求和不能被因式分解。如果假设Ｐｈ是相对平滑的，每一个Ｍｅｌ滤波器频带内卷积噪声的变化很小。 ∑ Ｎ－１ｋ＝０ＦｊｋＰｘ［ｋ］＝ ∑ Ｎ－１ｋ＝０ＦｊｋＰｓ［ｋ］Ｐｈ［ｋ］ ≈ Ｐｈ［ｋｊ］∑ Ｎ－１ｋ＝０ＦｊｋＰｓ［ｋ］式中：Ｐｈ［ｋｊ］为｛ｈ（ｔ）｝在第ｊ维滤波器中的能量谱。Ｃｘ［ｉ］＝ ∑ Ｊｊ＝１ＧｉｊｌｎＰｈ［ｋｊ］∑ Ｎ－１ｋ＝０ ( ＦｊｋＰｓ［ｋ］ ) ＝ ∑ Ｊｊ＝１ＧｉｊｌｎＰｈ［ｋｊ］＋ｌｏｇ ∑ Ｎ－１ｋ＝０ ( [ ＦｊｋＰｓ［ｋ］ ] ) ＝ ∑ Ｊｊ＝１ＧｉｊｌｎＰｈ［ｋ ( ｊ］＋ｌｎＱｓ［ｊ］ ) ＝Ｂｈ［ｉ］＋Ｃｓ［ｉ］式中Ｂｈ［ｉ］ 􀰛 ∑ Ｊｊ＝１ＧｉｊｌｎＰｈ［ｋｊ］。上述假设不排除在Ｐｈ在Ｍｅｌ频域滤波器的不同频带内产生变化，而只要求其在每个频带内的变化足够小，该假设要求设计良好的传输设备通带。然而在多噪声环境中，从声源到接收者的多路径反射可能导致峰谷的频率响应［１６］，不满足上述假设。因此第ｉ维噪声和语音信号ＭＦＣＣ的差别与｛ｈ（ｔ）｝，而与｛ｓ（ｔ）｝无关。也就是说，卷积噪声增加特征的偏置取决于瞬时的信道特性数值。如果进一步假设噪声是稳态的，对于ＭＦＣＣ，有 ·２１０· 智能系统学报第１１卷

第2期张毅，等：一种语音特征提取中M倒谱系数的后处理算法 ·211· C,[i]=C.[i]-u,[i]= 三c,hno.j+20.ij+f0.i)- C,[i订+B[i订-(u,[i]+B[i])= C.[i]-4,[i]=C,[i],i=0,1,…,1 c,[+,+2y0 C,[i]+8C[i],i=1,2,…,1 因此在稳态噪声和相对平滑的卷积噪声环境语音失真为下，均值消减特征不会改变。从而在语句结构中，如果环境噪声是卷积类型并且在语句内是稳态的、平 δC[i]△】滑的，均值消减法是有效的。对均值消减的上述特因此失真与语音信号s(t)和噪声n(t:y)相性均建立在卷积噪声的基础上。对于加性噪声的分关。一般强度的加性噪声影响与语音信号、噪声类析将在后面三级滤波中进行分析。型和噪声强度有着复杂的关系，因此加性噪声的滤 3.2方差归一化波相对困难。当存在噪声语音数据样本时，可以考加性噪声不同于卷积噪声，在经过频域变换之虑设计潜在的非线性变换来减小语音信号的失真。后语音与加性噪声更加难以区分，为了更加方便地均值消减法的使用无法弥补(C2≠C,)造成分析加性噪声环境下的语音信号，我们将含噪语音的失真。处理含噪语音的方法有两种，一种是直接定义为使用含噪语音样本，另一种是非线性变换去噪，直接 x(t;y)=s(t)+n(t;y)=s(t)+yno(t) 使用含噪语音必须与测试语音噪声匹配。式中：加性噪声n(ty)△yn.(t)中的y变量表示噪加性噪声造成的语音信号失真不仅仅取决于噪声的强度。本文首先分析加性噪声，然后分析语音信声的加性增益，而与语音信号和噪声均相关，因此很号。n(t;y)和n,(t)在Mel频域的对数特征表示为难去除加性噪声。在低噪声环境下这种关联并不明 N- 显。高噪声环境下，在去除噪声增益项之后，本文应 In [j]=In ,F(y2P[k])）用了方差归一化法以弥补语音信号特征的衰减。由 N-1 于存在y1的增益，在使用方差归一化法后，也无法 2nyl+ln(∑FP.[k])= 得到零加性噪声的语音信号，因此处理后的语音特 k=0 2In ly+In Q [j] 征很难满足要求。 3.3时间序列滤波和加权自回归移动平均滤波式中：Q和Q分别是n(ty)和n.(t)的Mel频本文首先分析了没有假设y的语音信号失真。率谱表示，Mel倒谱系数可以表示为以此为依据建立了方差归一化法，并基于该方法的 C [i]=G,(2In lyl+In Q.[jl)=C..[i] 不足，分析低噪声|yg1和高噪声|y之1，这两种噪声情况都可以通过近似来简化。式中：Ca)和Cn.分别是n(t;y)和n(t)的倒谱， 1)低加性噪声 MFCC并没有衰减。含噪语音的功率谱为当|y≤1时，失真可以简化为 P[k]= Q] IS[k]2|+2y|S[k]N.[k]+y2|N.[k]2I= C.d=三c,n1+2y0 ≈2yCa[i] P.[k]+2y S[k]N,[k]+y'P [k] 式中：C[订△】式中：P)、P和P.分别表示x(t:y）、s(t)和 c,(Q[]Q.]),并且 n.(t)的功率谱。由于Mel分级是线性运算，因此 ln(1+x)≈x。 2)高加性噪声 Q [j]=Q.[j]2yQ[]+yQ.,[j] 当y≥1时，失真可简化为式中：Q,]△∑Fs[k]v[k]l,Q、Q. 和Q,分别代表x(t:y)、s(t)和n.(t)的功率谱。 0a-2cr(o.1+2o.j) Ml特征频谱的失真由两部分构成：一部分取决于并且失真之后的MFCC特征近似为噪声和语音信号，并且与y成正比。另一部分只取决于噪声，并且与y2成正比。根据式(5)： cti.)

Ｃ－ｘ（τ）［ｉ］＝Ｃｘ（τ）［ｉ］－ μｘ［ｉ］＝Ｃｘ（τ）［ｉ］＋Ｂｈ［ｉ］－（μｓ［ｉ］＋Ｂｈ［ｉ］）＝Ｃｘ（τ）［ｉ］－ μｓ［ｉ］＝Ｃ－ｓ（τ）［ｉ］，ｉ＝０，１，…，Ｉ因此在稳态噪声和相对平滑的卷积噪声环境下，均值消减特征不会改变。从而在语句结构中，如果环境噪声是卷积类型并且在语句内是稳态的、平滑的，均值消减法是有效的。对均值消减的上述特性均建立在卷积噪声的基础上。对于加性噪声的分析将在后面三级滤波中进行分析。３．２方差归一化加性噪声不同于卷积噪声，在经过频域变换之后语音与加性噪声更加难以区分，为了更加方便地分析加性噪声环境下的语音信号，我们将含噪语音定义为ｘ（ｔ；γ）＝ｓ（ｔ）＋ｎ（ｔ；γ）＝ｓ（ｔ）＋ γｎ０（ｔ）式中：加性噪声ｎ（ｔ；γ） 􀰛 γｎｏ（ｔ）中的 γ 变量表示噪声的强度。本文首先分析加性噪声，然后分析语音信号。ｎ（ｔ；γ）和ｎｏ（ｔ）在Ｍｅｌ频域的对数特征表示为ｌｎＱｎ（γ）［ｊ］＝ｌｎ ∑ Ｎ－１ｋ＝０Ｆｊｋ γ ２Ｐｎｏ ( ( ［ｋ］ ) ) ＝２ｌｎ γ ＋ｌｎ ∑ Ｎ－１ｋ＝０ＦｊｋＰｎｏ ( ［ｋ］ ) ＝２ｌｎ γ ＋ｌｎＱｎｏ［ｊ］式中：Ｑｎ（γ）和Ｑｎｏ分别是ｎ（ｔ；γ）和ｎｏ（ｔ）的Ｍｅｌ频率谱表示，Ｍｅｌ倒谱系数可以表示为Ｃｎ（γ）［ｉ］＝ ∑ Ｊｊ＝１Ｇｉｊ２ｌｎ γ ＋ｌｎＱｎｏ ( ［ｊ］ ) ＝Ｃｎｏ［ｉ］式中：Ｃｎ（γ）和Ｃｎｏ分别是ｎ（ｔ；γ）和ｎｏ（ｔ）的倒谱，ＭＦＣＣ并没有衰减。含噪语音的功率谱为Ｐｘ（γ）［ｋ］＝Ｓ［ｋ］２＋２γ Ｓ［ｋ］Ｎｏ［ｋ］＋ γ ２Ｎｏ［ｋ］２＝Ｐｓ［ｋ］＋２γ Ｓ［ｋ］Ｎｏ［ｋ］＋ γ ２Ｐｎｏ［ｋ］式中：Ｐｘ（γ）、Ｐｓ和Ｐｎｏ分别表示ｘ（ｔ；γ）、ｓ（ｔ）和ｎｏ（ｔ）的功率谱。由于Ｍｅｌ分级是线性运算，因此Ｑｘ（γ）［ｊ］＝Ｑｓ［ｊ］＋２γＱ１［ｊ］＋ γ ２Ｑｎｏ［ｊ］式中：Ｑ１［ｊ］ 􀰛 ∑ Ｎ－１ｋ＝０ＦｊｋＳ［ｋ］Ｎｏ［ｋ］，Ｑｘ（γ）、Ｑｓ和Ｑｎｏ分别代表ｘ（ｔ；γ）、ｓ（ｔ）和ｎｏ（ｔ）的功率谱。Ｍｅｌ特征频谱的失真由两部分构成：一部分取决于噪声和语音信号，并且与 γ 成正比。另一部分只取决于噪声，并且与 γ ２成正比。根据式（５）：Ｃｘ（γ）［ｉ］＝ ∑ Ｊｊ＝１ＧｉｊｌｎＱｘ（γ）［ｊ］＝ ∑ Ｊｊ＝１ＧｉｊｌｎＱｓ［ｊ］＋２γＱ１［ｊ］＋ γ ２Ｑｎｏ ( ［ｊ］ ) ＝Ｃｓ［ｉ］＋ ∑ Ｊｊ＝１Ｇｉｊｌｎ１＋２γ Ｑ１［ｊ］Ｑｓ［ｊ］＋ γ ２Ｑｎｏ［ｊ］Ｑｓ［ｊ］ æ è ç ö ø ÷ ＝Ｃｓ［ｉ］＋ δＣｘ（γ）［ｉ］，ｉ＝１，２，…，Ｉ语音失真为 δＣｘ（γ）［ｉ］ 􀰛 ∑ Ｊｊ＝１Ｇｉｊｌｎ１＋２γ Ｑ１［ｊ］Ｑｓ［ｊ］＋ æ è ç ö ø ÷ γ ２Ｑｎｏ［ｊ］Ｑｓ［ｊ］因此失真与语音信号ｓ（ｔ）和噪声ｎ（ｔ；γ）相关。一般强度的加性噪声影响与语音信号、噪声类型和噪声强度有着复杂的关系，因此加性噪声的滤波相对困难。当存在噪声语音数据样本时，可以考虑设计潜在的非线性变换来减小语音信号的失真。均值消减法的使用无法弥补Ｃｅ２ ≠ Ｃｓ ( ) 造成的失真。处理含噪语音的方法有两种，一种是直接使用含噪语音样本，另一种是非线性变换去噪，直接使用含噪语音必须与测试语音噪声匹配。加性噪声造成的语音信号失真不仅仅取决于噪声的加性增益，而与语音信号和噪声均相关，因此很难去除加性噪声。在低噪声环境下这种关联并不明显。高噪声环境下，在去除噪声增益项之后，本文应用了方差归一化法以弥补语音信号特征的衰减。由于存在 γ －１的增益，在使用方差归一化法后，也无法得到零加性噪声的语音信号，因此处理后的语音特征很难满足要求。３．３时间序列滤波和加权自回归移动平均滤波本文首先分析了没有假设 γ 的语音信号失真。以此为依据建立了方差归一化法，并基于该方法的不足，分析低噪声 γ ≪ １和高噪声 γ ≫ １，这两种噪声情况都可以通过近似来简化。１）低加性噪声当 γ ≪ １时，失真可以简化为 δＣｘ（γ）［ｉ］ ≈ ∑ Ｊｊ＝１Ｇｉｊｌｎ１＋２γ Ｑ１［ｊ］Ｑｓ［ｊ］ æ è ç ö ø ÷ ≈ ２γＣｅ１［ｉ］式中：Ｃｅ１［ｉ］ 􀰛 ∑ Ｊｊ＝１Ｇｉｊ（Ｑ１［ｊ］／Ｑｓ［ｊ］），并且ｌｎ（１＋ｘ） ≈ ｘ。２）高加性噪声当 γ ≫ １时，失真可简化为Ｑｘ（γ）［ｉ］ ≈ ∑ Ｊｊ＝１Ｇｉｊｌｎ γ ２Ｑｎｏ［ｊ］＋２ γ Ｑ１［ｊ］ æ è ç ö ø ÷ æ è ç ö ø ÷ 并且失真之后的ＭＦＣＣ特征近似为Ｃｘ（γ）［ｉ］ ≈ ∑ Ｊｊ＝１Ｇｉｊ γ ２Ｑｎｏ［ｊ］＋２ γ Ｑ１［ｊ］ æ è ç ö ø ÷ æ è ç ö ø ÷ ≈ ∑ Ｊｊ＝１Ｇｉｊｌｎ γ ２Ｑｎｏ１＋２ γ Ｑ１［ｊ］Ｑｎｏ［ｊ］ æ è ç ö ø ÷ æ è ç ö ø ÷ ≈ 第２期张毅，等：一种语音特征提取中Ｍｅｌ倒谱系数的后处理算法 ·２１１·

.212. 智能系统学报第11卷含c1+h.in+8 4 *y Q..[j]) 实验设计及分析 6.+2ca.ie1,21 实验数据库为用cooledit软件建立语音样本库。数据库规模为100人(50男50女)，考虑时间式中：Ca[i]△∑c,(Q,j]/J)。其倒谱的遍历性，同一段指令要求在不同的时间录制10 主要与噪声n.(t)相关，并且通过C2与语音强度成遍。语音采样率16kHz,单声道，Windows PCM编反比，倒谱特征的失真不只是偏置。由此，低噪声码格式，采样精度16位。噪声添加使用Noise-92库 |y≤1和高噪声|y≥1时的噪声均反映了信号中的pink、volvo、destroyerengine(DE)、和white噪的不稳定性，因此强调语音动态特性和低频特性，将声，根据随机时间偏移与纯净语音信号混合，形成有助于加性噪声的去除。 -5~20dB范围内不同信噪比的数据库。人耳对语音的动态特征更为敏感，这种动态特本文语音信号分帧采用交叠分段的法，每帧性可以通过时间序列滤波实现。时间序列滤波之后 170个采样点，叠加步长为15个采样点，对信号进的语音信号更接近真实语音信号。时间序列滤波器行特征提取得MFCC,设定特征维数为25。再以在语音信号静态特性的基础上，又兼顾了语音信号 MFCC为基础，获得MVDA语音特征。的动态特性，其使用达到了预期的目的。图2~9是语音“12345”在噪声环境下，MVDA 由于人类的声音频率的结构性限制，发声时特征向量的第一维和第D维特征。通过对比发现声道系统结构的改变有限，人类语音的重要信息干净语音和不同信噪比的含噪语音的差异。均值消主要是在低频段1。由于MFCC反映声道系统减和方差归化法使语音信号和含噪信号在同平均水的特性，本文假设语音低频特征包含的信息更平（均值消减）和总体规模（方差归一化法）的差异多。均值消减和方差归一化方法可以弥补能谱减小，然而差别依然明显。本文进一步使用了时间的下降，但却不能解决谱型平滑的问题。而加权序列滤波和加权自回归移动平均滤波，差异进一步自回归移动平均滤波由于强调了语音低频段的减小。作用，并弱化了高频的影响。 20 20 0 100200300 0 100200300 0 100200300 100200300 100200300 頫率/Hz 频率Hz 频率Hz 频率Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c方差归一化输出 (d)时间序列滤波输出 (e)加权自回归平均输出图2语音特征C[1]噪声为20dB时，MVDA后处理输出 Fig.2 The MVDA postprocessing output of voice features C[1]with noise of 20 dB 20 920 0100200300 0100200300 0100200300 100200300 0100200300 、频率/Hz 顺率Hz 频率Hz 頫案Hz 频率/Hz (a)原始语音信号 b)均值消减输出 (c方差归一·化输出 (d)时间序列滤波输出 (e)加权自回归平均输出图3语音特征C[1]噪声为10dB时，MVDA后处理输出 Fig.3 The MVDA postprocessing output of voice features C[1]with noise of 10 dB 5 ap/ m20 0 蟹-20 -20 0 100200300 0 100200300 100200300 100200300 100200300 频率Hz 频率Hz 频率/Hz 频率/Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c)方差归一化输出 (d)时间序列滤波输出 (e)加权自回归平均输出图4语音特征C[1]噪声为0dB时，MVDA后处理输出 Fig.4 he MVDA postprocessing output of voice features C[1]with noise of 0 dB

∑ Ｊｊ＝１Ｇｉｊ２ｌｎ γ ＋ｌｎＱｎｏ［ｊ］＋２ γ Ｑ１［ｊ］Ｑｎｏ［ｊ］ æ è ç ö ø ÷ ≈ Ｃｎｏ［ｉ］＋２ γ Ｃｅ２［ｉ］，ｉ＝１，２，…，Ｉ式中：Ｃｅ２［ｉ］ 􀰛 ∑ Ｊｊ＝１ＧｉｊＱ１［ｊ］／Ｑｎｏ ( ［ｊ］ ) 。其倒谱主要与噪声ｎｏ（ｔ）相关，并且通过Ｃｅ２与语音强度成反比，倒谱特征的失真不只是偏置。由此，低噪声 γ ≪ １和高噪声 γ ≫ １时的噪声均反映了信号的不稳定性，因此强调语音动态特性和低频特性，将有助于加性噪声的去除。人耳对语音的动态特征更为敏感，这种动态特性可以通过时间序列滤波实现。时间序列滤波之后的语音信号更接近真实语音信号。时间序列滤波器在语音信号静态特性的基础上，又兼顾了语音信号的动态特性，其使用达到了预期的目的。由于人类的声音频率的结构性限制，发声时声道系统结构的改变有限，人类语音的重要信息主要是在低频段［１７］。由于ＭＦＣＣ反映声道系统的特性，本文假设语音低频特征包含的信息更多。均值消减和方差归一化方法可以弥补能谱的下降，但却不能解决谱型平滑的问题。而加权自回归移动平均滤波由于强调了语音低频段的作用，并弱化了高频的影响。４实验设计及分析实验数据库为用ｃｏｏｌｅｄｉｔ软件建立语音样本库。数据库规模为１００人（５０男５０女），考虑时间的遍历性，同一段指令要求在不同的时间录制１０遍。语音采样率１６ｋＨｚ，单声道，ＷｉｎｄｏｗｓＰＣＭ编码格式，采样精度１６位。噪声添加使用Ｎｏｉｓｅ⁃９２库中的ｐｉｎｋ、ｖｏｌｖｏ、ｄｅｓｔｒｏｙｅｒｅｎｇｉｎｅ（ＤＥ）、和ｗｈｉｔｅ噪声，根据随机时间偏移与纯净语音信号混合，形成－５～２０ｄＢ范围内不同信噪比的数据库。本文语音信号分帧采用交叠分段的法，每帧１７０个采样点，叠加步长为１５个采样点，对信号进行特征提取得ＭＦＣＣ，设定特征维数为２５。再以ＭＦＣＣ为基础，获得ＭＶＤＡ语音特征。图２～９是语音“１２３４５” 在噪声环境下，ＭＶＤＡ特征向量的第一维和第Ｄ维特征。通过对比发现干净语音和不同信噪比的含噪语音的差异。均值消减和方差归化法使语音信号和含噪信号在同平均水平（均值消减）和总体规模（方差归一化法）的差异减小，然而差别依然明显。本文进一步使用了时间序列滤波和加权自回归移动平均滤波，差异进一步减小。图２语音特征Ｃ［１］噪声为２０ｄＢ时，ＭＶＤＡ后处理输出Ｆｉｇ．２ＴｈｅＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｏｕｔｐｕｔｏｆｖｏｉｃｅｆｅａｔｕｒｅｓＣ［１］ｗｉｔｈｎｏｉｓｅｏｆ２０ｄＢ图３语音特征Ｃ［１］噪声为１０ｄＢ时，ＭＶＤＡ后处理输出Ｆｉｇ．３ＴｈｅＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｏｕｔｐｕｔｏｆｖｏｉｃｅｆｅａｔｕｒｅｓＣ［１］ｗｉｔｈｎｏｉｓｅｏｆ１０ｄＢ图４语音特征Ｃ［１］噪声为０ｄＢ时，ＭＶＤＡ后处理输出Ｆｉｇ．４ｈｅＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｏｕｔｐｕｔｏｆｖｏｉｃｅｆｅａｔｕｒｅｓＣ［１］ｗｉｔｈｎｏｉｓｅｏｆ０ｄＢ ·２１２· 智能系统学报第１１卷

第2期张毅，等：一种语音特征提取中Ml倒谱系数的后处理算法 ·213 20 20 0 - -20 0 100200300 0100200300 0100200300 100200300 0 100200300 频率Hz 频率/Hz 频率Hz 顺率Hz 频率Hz (a)原始语音信号 (b)均值消减输出 (c方差归一化输出 (d时间序列滤波输出 (e)加权自回归平均输出图5语音特征C[1]噪声为-5dB时，MVDA后处理输出 Fig.5 The MVDA postprocessing output of voice features C[1]with noise of-5 dB 20 20 2 M0 -20 二20 1 0 100200300 0 100200300 0100200300 0 100200300 0 100200300 频率/Hz 频率/Hz 频率Hz 频率/Hz 频率/Hz (a)原始语音信号 b)均值消减输出 (c)方差归一化输出 (d)时间序列滤波输出 (e加权自回归平均输出图6语音特征C[D]噪声为20dB时，MVDA后处理输出 F1g.61 The MVDA postprocessing output of voice features C[D]with noise of 20 dB 20 .on/m 20 睡20 0 100200300 0 100200300 100200300 100200300 100200300 频率/Hz 频率Hz 频率/Hz 频率/Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c方差归一化输出 (d)时间序列滤波输出 (e)加权自回归平均输出图7语音特征C[D]噪声为10dB时，MVDA后处理输出 Fig.7 The MVDA postprocessing output of voice features C[D]with noise of 10 dB 20 20 20 10 0 100200300 0 100200300 0 100200300 0 100200300 0 100200300 频率/Hz 頫率/Hz 頫率/Hz 频率/Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c方差归一化输出 (d)时间序列滤波输出 (e)加权自回归平均输出图8语音特征C[D]噪声为0dB时，MVDA后处理输出 Fig.8 The MVDA postprocessing output of voice features C[D]with noise of 0 dB 20 0 100200300 0 100200300 0 100200300 0 100200300 0 100200300 频率/Hz 频率Hz 频率/Hz 频率/Hz 频率/Hz (a)原始语音信号 (b)均值消减输出 (c)方差归一化输出 (d时间序列滤波输出 (e加权自回归平均输出图9语音特征C[D]噪声为-5dB时，MVDA后处理输出 Fig.9 The MVDA postprocessing output of voice features C[D]with noise of-5 dB 然而使用视觉检查推断语音识别处理方法的不音更加接近真实的语音信号。确定性总是存在的。为了便于比较，本文计算了语表1含噪语音MVDA参数与语音信号的欧氏距离音信号特征和带噪语音信号特征的欧式距离，具体 Table 1 The compasison of training beteeen MVDA and 数值见表1。可以分析得出，含噪语音特征和无噪 MFCC 语音信号特征的欧式距离均与噪声强度正相关。均参数 20/dB 10/dB 0/dB -10/dB 值消减和方差归一化减小了含噪语音特征与无噪语均值消减 939 1356 1845 1956 音信号特征的欧式距离。最终，时间序列滤波和加方差归一化 129 196 259 346 权自回归移动平均滤波进一步减小了欧式距离。根时间序列滤波 78 112 136 203 据表1，加权自回归移动平均滤波处理后的带噪语加权自回归移动平均61 69 72 76

图５语音特征Ｃ［１］噪声为－５ｄＢ时，ＭＶＤＡ后处理输出Ｆｉｇ．５ＴｈｅＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｏｕｔｐｕｔｏｆｖｏｉｃｅｆｅａｔｕｒｅｓＣ［１］ｗｉｔｈｎｏｉｓｅｏｆ－５ｄＢ图６语音特征Ｃ［Ｄ］噪声为２０ｄＢ时，ＭＶＤＡ后处理输出Ｆｉｇ．６ＴｈｅＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｏｕｔｐｕｔｏｆｖｏｉｃｅｆｅａｔｕｒｅｓＣ［Ｄ］ｗｉｔｈｎｏｉｓｅｏｆ２０ｄＢ图７语音特征Ｃ［Ｄ］噪声为１０ｄＢ时，ＭＶＤＡ后处理输出Ｆｉｇ．７ＴｈｅＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｏｕｔｐｕｔｏｆｖｏｉｃｅｆｅａｔｕｒｅｓＣ［Ｄ］ｗｉｔｈｎｏｉｓｅｏｆ１０ｄＢ图８语音特征Ｃ［Ｄ］噪声为０ｄＢ时，ＭＶＤＡ后处理输出Ｆｉｇ．８ＴｈｅＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｏｕｔｐｕｔｏｆｖｏｉｃｅｆｅａｔｕｒｅｓＣ［Ｄ］ｗｉｔｈｎｏｉｓｅｏｆ０ｄＢ图９语音特征Ｃ［Ｄ］噪声为－５ｄＢ时，ＭＶＤＡ后处理输出Ｆｉｇ．９ＴｈｅＭＶＤＡｐｏｓｔｐｒｏｃｅｓｓｉｎｇｏｕｔｐｕｔｏｆｖｏｉｃｅｆｅａｔｕｒｅｓＣ［Ｄ］ｗｉｔｈｎｏｉｓｅｏｆ－５ｄＢ然而使用视觉检查推断语音识别处理方法的不确定性总是存在的。为了便于比较，本文计算了语音信号特征和带噪语音信号特征的欧式距离，具体数值见表１。可以分析得出，含噪语音特征和无噪语音信号特征的欧式距离均与噪声强度正相关。均值消减和方差归一化减小了含噪语音特征与无噪语音信号特征的欧式距离。最终，时间序列滤波和加权自回归移动平均滤波进一步减小了欧式距离。根据表１，加权自回归移动平均滤波处理后的带噪语音更加接近真实的语音信号。表１含噪语音ＭＶＤＡ参数与语音信号的欧氏距离Ｔａｂｌｅ１ＴｈｅｃｏｍｐａｓｉｓｏｎｏｆｔｒａｉｎｉｎｇｂｅｔｅｅｅｎＭＶＤＡａｎｄＭＦＣＣ参数２０／ｄＢ１０／ｄＢ０／ｄＢ－１０／ｄＢ均值消减９３９１３５６１８４５１９５６方差归一化１２９１９６２５９３４６时间序列滤波７８１１２１３６２０３加权自回归移动平均６１６９７２７６第２期张毅，等：一种语音特征提取中Ｍｅｌ倒谱系数的后处理算法 ·２１３·

.214. 智能系统学报第11卷将MVDA与MFCC特征在自动语音识别系统 5 下进行语音识别实验对比，实验结果如图4。可以结束语得出，信噪比较高时，MFCC特征与MVDA特征的识本文的分析主要基于加性噪声和卷积噪声环境别率基本相同，但随着信噪比降低，MVDA语音特征下MFCC特征参数的失真，针对这一问题提出了的效果更加显著。 MVDA语音特征提取法。分析得出实验效果与语音基本特征、滤波器的类型均相关。在使用MVDA滤 100 o-MFCC参数波法后，相较于MFCC语音特征，自动语音识别系统 95 -MVDA参数在不同性噪比环境下的识别率提高了2.7%~ 90 卧 15.0%。MVDA特征提取可以达到很多复杂去噪算法的效果，却可以减少系统对计算能力的要求，减小 80f 系统的时延。因此，MVDA后处理法可以在更小的 75 计算代价下提高系统的鲁棒性，具有较高的实际应 105 0 5 10 20 用价值。躁声强度/dB (a)噪青类型为white 参考文献： 95 [1]PALIWAL KK,BASU A.A speech enhancement method 90 based on Kalman fltering[C]//Proceedings of IEEE Inter- national Conference on Acoustics,Speech,and Signal Pro- cessing.Dallas,USA,1997:177-180. 80 。MFCC参数 [2]GIBSON J D.KOO B.GRAY S D.Filtering of Colored 75 -MVDA参数 Noise for Speech Enhancement and Coding J].IEEE 70 Transactions on Signal Processing,1991,39(8):1732- 5 0 5 10 15 20 1742 噪声强度/dB (b)噪声类型为pink [3]ZELINSKI R.A microphone array with adaptive post-filte- ring for noise reduction in reverberant rooms[C]//Proceed- 95 ings of IEEE International Conference on Acoustics, % Speech,and Signal Processing.New York,USA,1998: 2578-2581. 禁 [4]MYLLYMAKI M,VIRTANEN T.Non-stationary noise mod- 80 el compensation in voice activity detection[C]//Proceed- ·MFCC参数 ings of IEEE International Conference on Signal Processing -MVDA参数 Conference.Glasgow,Scotland,2009:2186-2190. 105 0 5 1015 20 [5]RAMFREZ J,SEGURA J C,BENFTEZ C,et al.Efficient 噪声强度/dB voice activity detection algorithms using long-term speech in- (c)噪声类型为volvo formation J].Speech communication,2004,42(3/4): 95 271-287. [6]CHOWDHURY M,SELOUANI S A,OSHAUGHNESSY D. 90 A soft computing approach to improve the robustness of on- 85 line ASR in previously unseen highly non-stationary acoustic environments[C]//Proceedings of the 11th IEEE Interna- 80 -MFCC参数 tional Conference on Information Science,Signal Processing 75 -MVDA参数 and their Applications.Montreal,Canada,2012:522-527. 70 [7]GUPTA H A,RAJU A,ALWAN A.Non-linear dimension 5 10 1520 噪声强度/dB reduction of Gabor features for noise-robust ASR[C]//Pro- (d)噪声类型为DE ceedings of IEEE International Conference on Acoustics, 图10自动语音识别结果对比图 Speech,and Signal Processing.Florence,Italy,2014: Fig.10 Comparison of automatic speech recognition results 1715-1719. 8 HANSEN J H L.VARADARAJAN V.Analysis and com-

将ＭＶＤＡ与ＭＦＣＣ特征在自动语音识别系统下进行语音识别实验对比，实验结果如图４。可以得出，信噪比较高时，ＭＦＣＣ特征与ＭＶＤＡ特征的识别率基本相同，但随着信噪比降低，ＭＶＤＡ语音特征的效果更加显著。图１０自动语音识别结果对比图Ｆｉｇ．１０Ｃｏｍｐａｒｉｓｏｎｏｆａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｒｅｓｕｌｔｓ５结束语本文的分析主要基于加性噪声和卷积噪声环境下ＭＦＣＣ特征参数的失真，针对这一问题提出了ＭＶＤＡ语音特征提取法。分析得出实验效果与语音基本特征、滤波器的类型均相关。在使用ＭＶＤＡ滤波法后，相较于ＭＦＣＣ语音特征，自动语音识别系统在不同性噪比环境下的识别率提高了２．７％～１５．０％。ＭＶＤＡ特征提取可以达到很多复杂去噪算法的效果，却可以减少系统对计算能力的要求，减小系统的时延。因此，ＭＶＤＡ后处理法可以在更小的计算代价下提高系统的鲁棒性，具有较高的实际应用价值。参考文献：［１］ＰＡＬＩＷＡＬＫＫ，ＢＡＳＵＡ．ＡｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｍｅｔｈｏｄｂａｓｅｄｏｎＫａｌｍａｎｆｌｔｅｒｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒ⁃ ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏ⁃ ｃｅｓｓｉｎｇ．Ｄａｌｌａｓ，ＵＳＡ，１９９７：１７７⁃１８０．［２］ＧＩＢＳＯＮＪＤ，ＫＯＯＢ，ＧＲＡＹＳＤ．ＦｉｌｔｅｒｉｎｇｏｆＣｏｌｏｒｅｄＮｏｉｓｅｆｏｒＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔａｎｄＣｏｄｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１９９１，３９（８）：１７３２⁃ １７４２．［３］ＺＥＬＩＮＳＫＩＲ．Ａｍｉｃｒｏｐｈｏｎｅａｒｒａｙｗｉｔｈａｄａｐｔｉｖｅｐｏｓｔ⁃ｆｉｌｔｅ⁃ ｒｉｎｇｆｏｒｎｏｉｓｅｒｅｄｕｃｔｉｏｎｉｎｒｅｖｅｒｂｅｒａｎｔｒｏｏｍｓ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．ＮｅｗＹｏｒｋ，ＵＳＡ，１９９８：２５７８⁃２５８１．［４］ＭＹＬＬＹＭＡＫＩＭ，ＶＩＲＴＡＮＥＮＴ．Ｎｏｎ⁃ｓｔａｔｉｏｎａｒｙｎｏｉｓｅｍｏｄ⁃ ｅｌｃｏｍｐｅｎｓａｔｉｏｎｉｎｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆｅｒｅｎｃｅ．Ｇｌａｓｇｏｗ，Ｓｃｏｔｌａｎｄ，２００９：２１８６⁃２１９０．［５］ＲＡＭＦＲＥＺＪ，ＳＥＧＵＲＡＪＣ，ＢＥＮＦＴＥＺＣ，ｅｔａｌ．Ｅｆｆｉｃｉｅｎｔｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｓｕｓｉｎｇｌｏｎｇ⁃ｔｅｒｍｓｐｅｅｃｈｉｎ⁃ ｆｏｒｍａｔｉｏｎ［Ｊ］．Ｓｐｅｅｃｈｃｏｍｍｕｎｉｃａｔｉｏｎ，２００４，４２（３／４）：２７１⁃２８７．［６］ＣＨＯＷＤＨＵＲＹＭ，ＳＥＬＯＵＡＮＩＳＡ，Ｏ＇ＳＨＡＵＧＨＮＥＳＳＹＤ．Ａｓｏｆｔｃｏｍｐｕｔｉｎｇａｐｐｒｏａｃｈｔｏｉｍｐｒｏｖｅｔｈｅｒｏｂｕｓｔｎｅｓｓｏｆｏｎ⁃ ｌｉｎｅＡＳＲｉｎｐｒｅｖｉｏｕｓｌｙｕｎｓｅｅｎｈｉｇｈｌｙｎｏｎ⁃ｓｔａｔｉｏｎａｒｙａｃｏｕｓｔｉｃｅｎｖｉｒｏｎｍｅｎｔｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１１ｔｈＩＥＥＥＩｎｔｅｒｎａ⁃ ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇａｎｄｔｈｅｉｒＡｐｐｌｉｃａｔｉｏｎｓ．Ｍｏｎｔｒｅａｌ，Ｃａｎａｄａ，２０１２：５２２⁃５２７．［７］ＧＵＰＴＡＨＡ，ＲＡＪＵＡ，ＡＬＷＡＮＡ．Ｎｏｎ⁃ｌｉｎｅａｒｄｉｍｅｎｓｉｏｎｒｅｄｕｃｔｉｏｎｏｆＧａｂｏｒｆｅａｔｕｒｅｓｆｏｒｎｏｉｓｅ⁃ｒｏｂｕｓｔＡＳＲ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．Ｆｌｏｒｅｎｃｅ，Ｉｔａｌｙ，２０１４：１７１５⁃１７１９．［８］ＨＡＮＳＥＮＪＨＬ，ＶＡＲＡＤＡＲＡＪＡＮＶ．Ａｎａｌｙｓｉｓａｎｄｃｏｍ⁃ ·２１４· 智能系统学报第１１卷

第2期张毅，等：一种语音特征提取中M倒谱系数的后处理算法 ·215. pensation of lombard speech across noise type and levels [15]BOLL S F.Suppression of acoustic noise in speech using with application to in-set/out-of-set speaker recognition[J]. spectral subtraction[].IEEE transactions on acoustics, IEEE transactions on audio,speech,and language process- speech,and signal processing,1999,27(2):113-120. ig,2009,17(2):366-378. [16]MAMMONE R J,ZHANG Xiaoyu,RAMACHANDRAN R P. [9]COOK G,ROBINSON T.Transcribing broadcast news with Robust speaker recognition:a feature-based approach[J]. the 1997 abbot system[C]//Proceedings of IEEE Interna- IEEE signal processing magazine,1996,13(5):58-71. tional Conference on Acoustics,Speech,and Signal Pro- [17]BOLL S F.Suppression of acoustic noise in speech using cessing.Seattle,USA,1998:917-920. spectral subtraction[J].IEEE transactions on acoustics, [10]KIM D S,LEE S Y,KIL R M.Auditory processing of speech,and signal processing,1999,27(2):113-120. speech signals for robust speech recognition in real-world 作者简介： noisy environments[J].IEEE transactions on speech and 张毅，男，1966年生，教授，博士生 audio processing,1999,7(1):55-69. 导师。主要研究方向机器人及应用、数 [11]HAIN T,WOODLAND P C,EVERMANN G,et al.New 据融合、信息无障碍技术。任重庆邮电 features in the CU-HTK system for transcription of conver- 大学国家信息无障碍工程研发中心主 sational telephone speech[C]//Proceedings of IEEE Inter- 任，智能系统及机器人实验室主任，发 national Conference on Acoustics,Speech,and Signal Pro- 表学术论文多篇。 cessing.Salt Lake City,UT,2001(1):57-60. [12]LIN S H,CHEN B,YEH Y M.Exploring the use of speech 谢延义，男，1989年生，硕士研究 features and their corresponding distribution characteristics for 生，主要研究方向为语音识别与智能机 robust speech recognition[].IEEE transactions on audio, 器人。 speech,and language processing,2009,17(1):84-94. [13]MORTIA S,UNOKI M,LU Xugang,et al.Robust voice activity detection based on concept of modulation transfer function in noisy reverberant environments[C]//Proceed- 罗元，女，1972年生，教授，博士，主 ings of International Symposium on Chinese Spoken Lan- 要研究方向为信号与信息处理、数字图 guage Processing (ISCSLP).Singapore,2014:108-112. 像处理。 [14]CHANG J E,BAI J Y,ZENG Fangang.Unintelligible low frequency sound enhances simulated cochlear implant speech recognition in noise[J].IEEe transactions on bio- medical engineering,2006,53(12):2598-2601

ｐｅｎｓａｔｉｏｎｏｆｌｏｍｂａｒｄｓｐｅｅｃｈａｃｒｏｓｓｎｏｉｓｅｔｙｐｅａｎｄｌｅｖｅｌｓｗｉｔｈａｐｐｌｉｃａｔｉｏｎｔｏｉｎ⁃ｓｅｔ／ｏｕｔ⁃ｏｆ⁃ｓｅｔｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｕｄｉｏ，ｓｐｅｅｃｈ，ａｎｄｌａｎｇｕａｇｅｐｒｏｃｅｓｓ⁃ ｉｎｇ，２００９，１７（２）：３６６⁃３７８．［９］ＣＯＯＫＧ，ＲＯＢＩＮＳＯＮＴ．Ｔｒａｎｓｃｒｉｂｉｎｇｂｒｏａｄｃａｓｔｎｅｗｓｗｉｔｈｔｈｅ１９９７ａｂｂｏｔｓｙｓｔｅｍ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａ⁃ ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏ⁃ ｃｅｓｓｉｎｇ．Ｓｅａｔｔｌｅ，ＵＳＡ，１９９８：９１７⁃９２０．［１０］ＫＩＭＤＳ，ＬＥＥＳＹ，ＫＩＬＲＭ．Ａｕｄｉｔｏｒｙｐｒｏｃｅｓｓｉｎｇｏｆｓｐｅｅｃｈｓｉｇｎａｌｓｆｏｒｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｉｎｒｅａｌ⁃ｗｏｒｌｄｎｏｉｓｙｅｎｖｉｒｏｎｍｅｎｔｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｓｐｅｅｃｈａｎｄａｕｄｉｏｐｒｏｃｅｓｓｉｎｇ，１９９９，７（１）：５５⁃６９．［１１］ＨＡＩＮＴ，ＷＯＯＤＬＡＮＤＰＣ，ＥＶＥＲＭＡＮＮＧ，ｅｔａｌ．ＮｅｗｆｅａｔｕｒｅｓｉｎｔｈｅＣＵ⁃ＨＴＫｓｙｓｔｅｍｆｏｒｔｒａｎｓｃｒｉｐｔｉｏｎｏｆｃｏｎｖｅｒ⁃ ｓａｔｉｏｎａｌｔｅｌｅｐｈｏｎｅｓｐｅｅｃｈ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒ⁃ ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏ⁃ ｃｅｓｓｉｎｇ．ＳａｌｔＬａｋｅＣｉｔｙ，ＵＴ，２００１（１）：５７⁃６０．［１２］ＬＩＮＳＨ，ＣＨＥＮＢ，ＹＥＨＹＭ．Ｅｘｐｌｏｒｉｎｇｔｈｅｕｓｅｏｆｓｐｅｅｃｈｆｅａｔｕｒｅｓａｎｄｔｈｅｉｒｃｏｒｒｅｓｐｏｎｄｉｎｇｄｉｓｔｒｉｂｕｔｉｏｎｃｈａｒａｃｔｅｒｉｓｔｉｃｓｆｏｒｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｕｄｉｏ，ｓｐｅｅｃｈ，ａｎｄｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，２００９，１７（１）：８４⁃９４．［１３］ＭＯＲＴＩＡＳ，ＵＮＯＫＩＭ，ＬＵＸｕｇａｎｇ，ｅｔａｌ．Ｒｏｂｕｓｔｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｃｏｎｃｅｐｔｏｆｍｏｄｕｌａｔｉｏｎｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎｉｎｎｏｉｓｙｒｅｖｅｒｂｅｒａｎｔｅｎｖｉｒｏｎｍｅｎｔｓ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｈｉｎｅｓｅＳｐｏｋｅｎＬａｎ⁃ ｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＩＳＣＳＬＰ）．Ｓｉｎｇａｐｏｒｅ，２０１４：１０８⁃１１２．［１４］ＣＨＡＮＧＪＥ，ＢＡＩＪＹ，ＺＥＮＧＦａｎｇａｎｇ．Ｕｎｉｎｔｅｌｌｉｇｉｂｌｅｌｏｗｆｒｅｑｕｅｎｃｙｓｏｕｎｄｅｎｈａｎｃｅｓｓｉｍｕｌａｔｅｄｃｏｃｈｌｅａｒｉｍｐｌａｎｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｉｎｎｏｉｓｅ［Ｊ］．ＩＥＥｅｔｒａｎｓａｃｔｉｏｎｓｏｎｂｉｏ⁃ ｍｅｄｉｃａｌｅｎｇｉｎｅｅｒｉｎｇ，２００６，５３（１２）：２５９８⁃２６０１．［１５］ＢＯＬＬＳＦ．Ｓｕｐｐｒｅｓｓｉｏｎｏｆａｃｏｕｓｔｉｃｎｏｉｓｅｉｎｓｐｅｅｃｈｕｓｉｎｇｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｃｏｕｓｔｉｃｓ，ｓｐｅｅｃｈ，ａｎｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ，１９９９，２７（２）：１１３⁃１２０．［１６］ＭＡＭＭＯＮＥＲＪ，ＺＨＡＮＧＸｉａｏｙｕ，ＲＡＭＡＣＨＡＮＤＲＡＮＲＰ．Ｒｏｂｕｓｔｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎ：ａｆｅａｔｕｒｅ⁃ｂａｓｅｄａｐｐｒｏａｃｈ［Ｊ］．ＩＥＥＥｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｍａｇａｚｉｎｅ，１９９６，１３（５）：５８⁃７１．［１７］ＢＯＬＬＳＦ．Ｓｕｐｐｒｅｓｓｉｏｎｏｆａｃｏｕｓｔｉｃｎｏｉｓｅｉｎｓｐｅｅｃｈｕｓｉｎｇｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｃｏｕｓｔｉｃｓ，ｓｐｅｅｃｈ，ａｎｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ，１９９９，２７（２）：１１３⁃１２０．作者简介：张毅，男，１９６６年生，教授，博士生导师。主要研究方向机器人及应用、数据融合、信息无障碍技术。任重庆邮电大学国家信息无障碍工程研发中心主任，智能系统及机器人实验室主任，发表学术论文多篇。谢延义，男，１９８９年生，硕士研究生，主要研究方向为语音识别与智能机器人。罗元，女，１９７２年生，教授，博士，主要研究方向为信号与信息处理、数字图像处理。第２期张毅，等：一种语音特征提取中Ｍｅｌ倒谱系数的后处理算法 ·２１５·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录