正在加载图片...
第2期 张毅,等:一种语音特征提取中M倒谱系数的后处理算法 ·209· 对此声学模型可以相应地调整,以弥补训练和测试 声环境下的{s(t)}本身存在失真,这种失真可以看 语音之间的差异,这种调整通常被称为噪声模型补 做是式(4)的一个特例。 偿技术4。由于语音去噪的复杂性,甚至小词汇 1.2基础语音特征MFCC 的自动语音识别系统都采用了相对复杂的处理方 本文以Ml频率倒谱系数为基础,提出了新的 法[6)。这些复杂的处理方法往往会造成较大的计 语音特征提取法。MFCC的分析基于人的听觉机 算量和不必要的时延,降低自动语音识别系统的灵 理,即根据人的听觉实验结果来分析语音的频谱,期 活性。 望获得更好的语音特性。MFCC分析依据的听觉机 因此本文综合考虑自动语音识别系统的鲁棒性 理有两个:1)人的主观感知频域的划定并不是线性 和灵敏性,有针对性地提出了一种简洁的语音信号 的:2)人耳听觉的临界带原理。 后处理方法一MVDA后处理法。同时,也改善了 ~帧语音信号的MFCC参数可以表示为C△ 传统的MFCC特征提取方法中采用三角滤波器组带 (C[1]…C[D])',这里D表示倒谱系数的维数。 来的相邻频带之间的频谱能量相互泄露,且不利于 MFCC的定义如下: 反映共振特性的问题,为整个语音识别系统的优化 C=GInQ (5) 提供了基础。实验表明,MVDA后处理法在不同的 这里Q△(Q[1]…Q[J])'表示每帧的谱线能量经 噪声环境中的鲁棒性和灵敏性都要高于传统的MF- 过梅尔三角滤波器处理后的梅尔能量谱。G是代表 CC特征提取法。 离散余弦变换的1*J阶矩阵,表示为 1 噪声分类和MFCC G 2 -co 自动语音识别系统的鲁棒性取决于噪声、语音 i=1,2,…,1,j=1,2,…,J (6) 特征和语音信号处理方法。本节首先定义了日常声 MFCC特征提取方法采用三角滤波器组处理, 学环境中常见的噪声类型,对噪声的分类有利于本 同时也带来的相邻频带之间频谱能量的相互泄露。 文更加清晰地分析特征失真,并且有利于描述MV- 2 MVDA后处理法步骤 DA后处理法。 1.1噪声的分类 MVDA后处理法在MFCC特征提取法的基础 通常处理的噪声分为加性噪声和卷积噪声。加 上,融合了均值消减、方差归一化、时间序列滤波和 性噪声可以描述为 加权自回归移动平均滤波法,图1为MVDA后处理 x(t)=s(t)+n(t) (1) 法基本步骤。 式中:{s(t)}是语音信号,{n(t)}是加性噪声, 方 时 加权 {x(t)}是含噪语音。卷积噪声可以描述为 x(t) c 差归 自回 C 序 归 c 么 x(t)=s(t)*n(t) (2) 消 平 式中:*是卷积符号,h(t)是环境导致的卷积噪 化 滤 均滤 波法 声。此处假设环境是稳定的,在实际环境中,两种类 图1 MVDA后处理法 型的噪声同时存在。因此加噪语音可以描述为 Fig.1 Postprocessing of MVDA x(t)=s(t)*h(t)+n(t) (3) MVDA的提出是为了解决MFCC特征参数的 式(3)可以被看成是一般噪声情况下,表明语 加性和卷积噪声的问题,均值消减和方差归一化在 音成分与噪声成分的一种方法,可以简化为 语音处理中已经得到了相对广泛的应用[1)]。本文 x(t)=F(s(t)) (4) 提出了结合时间序列滤波和加权自回归移动平均滤 式中:F指非线性时变环境下语音信号的映射。由 波法在频域的应用,可以获得相较于单独使用均值 于语音信号具有短时连续性,经过分帧加窗之后,语 消减和方差归一化更好的效果。 音信号在短时内接近线性时不变。 本文用C)表示第r帧语音的特征,则均值消 另一种失真产生于噪声环境下样本采集过程中 减表示为 的Lombard效应[s】,如延长元音的持续时间和频谱 向高频率倾斜,从而改变了语音信号本身。因此,噪 Cr)=C(r)-u (7)对此声学模型可以相应地调整,以弥补训练和测试 语音之间的差异,这种调整通常被称为噪声模型补 偿技术[4⁃5] 。 由于语音去噪的复杂性,甚至小词汇 的自动语音识别系统都采用了相对复杂的处理方 法[6] 。 这些复杂的处理方法往往会造成较大的计 算量和不必要的时延,降低自动语音识别系统的灵 活性[7] 。 因此本文综合考虑自动语音识别系统的鲁棒性 和灵敏性,有针对性地提出了一种简洁的语音信号 后处理方法———MVDA 后处理法。 同时,也改善了 传统的 MFCC 特征提取方法中采用三角滤波器组带 来的相邻频带之间的频谱能量相互泄露,且不利于 反映共振特性的问题,为整个语音识别系统的优化 提供了基础。 实验表明,MVDA 后处理法在不同的 噪声环境中的鲁棒性和灵敏性都要高于传统的 MF⁃ CC 特征提取法。 1 噪声分类和 MFCC 自动语音识别系统的鲁棒性取决于噪声、语音 特征和语音信号处理方法。 本节首先定义了日常声 学环境中常见的噪声类型,对噪声的分类有利于本 文更加清晰地分析特征失真,并且有利于描述 MV⁃ DA 后处理法。 1.1 噪声的分类 通常处理的噪声分为加性噪声和卷积噪声。 加 性噪声可以描述为 x(t) = s(t) + n(t) (1) 式中: {s(t)} 是语音信号, {n(t)} 是加性噪声, {x(t)} 是含噪语音。 卷积噪声可以描述为 x(t) = s(t)∗n(t) (2) 式中: ∗ 是卷积符号, h(t) 是环境导致的卷积噪 声。 此处假设环境是稳定的,在实际环境中,两种类 型的噪声同时存在。 因此加噪语音可以描述为 x(t) = s(t)∗h(t) + n(t) (3) 式(3)可以被看成是一般噪声情况下,表明语 音成分与噪声成分的一种方法,可以简化为 x(t) = F(s(t) ) (4) 式中: F 指非线性时变环境下语音信号的映射。 由 于语音信号具有短时连续性,经过分帧加窗之后,语 音信号在短时内接近线性时不变。 另一种失真产生于噪声环境下样本采集过程中 的 Lombard 效应[8] ,如延长元音的持续时间和频谱 向高频率倾斜,从而改变了语音信号本身。 因此,噪 声环境下的 {s(t)} 本身存在失真,这种失真可以看 做是式(4)的一个特例。 1.2 基础语音特征 MFCC 本文以 Mel 频率倒谱系数为基础,提出了新的 语音特征提取法。 MFCC 的分析基于人的听觉机 理,即根据人的听觉实验结果来分析语音的频谱,期 望获得更好的语音特性。 MFCC 分析依据的听觉机 理有两个:1)人的主观感知频域的划定并不是线性 的;2)人耳听觉的临界带原理。 一帧语音信号的 MFCC 参数可以表示为 C 􀰛 (C[1]…C[D]) T ,这里 D 表示倒谱系数的维数。 MFCC 的定义如下: C = G lnQ (5) 这里 Q 􀰛 (Q[1]…Q[J]) T 表示每帧的谱线能量经 过梅尔三角滤波器处理后的梅尔能量谱。 G 是代表 离散余弦变换的 I∗J 阶矩阵,表示为 Gij = 2 J cos πi J (j - 0.5) æ è ç ö ø ÷ i = 1,2,…,I, j = 1,2,…,J (6) MFCC 特征提取方法采用三角滤波器组处理, 同时也带来的相邻频带之间频谱能量的相互泄露。 2 MVDA 后处理法步骤 MVDA 后处理法在 MFCC 特征提取法的基础 上,融合了均值消减、方差归一化、时间序列滤波和 加权自回归移动平均滤波法,图 1 为 MVDA 后处理 法基本步骤。 图 1 MVDA 后处理法 Fig.1 Postprocessing of MVDA MVDA 的提出是为了解决 MFCC 特征参数的 加性和卷积噪声的问题,均值消减和方差归一化在 语音处理中已经得到了相对广泛的应用[9⁃12] 。 本文 提出了结合时间序列滤波和加权自回归移动平均滤 波法在频域的应用,可以获得相较于单独使用均值 消减和方差归一化更好的效果。 本文用 C (τ) 表示第 τ 帧语音的特征,则均值消 减表示为 C - (τ) = C (τ) - μ (7) 第 2 期 张毅,等:一种语音特征提取中 Mel 倒谱系数的后处理算法 ·209·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有