第1期 王雨轩,等:手语识别中基于HMM的区分性训练方法 ·81· 广泛的研究,Normandin4等人采用EBW(expend- 有易混集中的模型.常数D用来保证参数计算的结 baum-welch)算法实现了MMIE准则在连续HMM 果为正值,同时控制收敛速度 模型中训练的难题,使这种方法开始广泛应用于语 更一般形式的MMIE准则即H准则目标函数 音识别领域, 定义如下: 在手语识别领域,由于易混集的构建等问题,区 = P(O' 分性训练还没有被手语识别研究者所采用.然而由 )n (∑,P101) (5) 于手语信号和语音信号都是基于统计概率的时序信 H准则目标函数比传统的MMIE准则增加了 号,可以期待对于MMIE准则在手语识别领域上的 分母上的指数项,这就使H准则侧更具有了一般性」 改进能够极大地改善现有系统的识别效果 可以看出,MLE和MMIE准则都可以理解为特殊 1MMIE准则及对其的改造 情况下的H准则,即当h=0和h=1时.[0,1]被普 遍的认为是h的正常、合理的值域,在实验中却发现 1.1MMIE准则的基本原理 为了寻求最小错误率,值域的范围可以扩展到 传统的MMIE的目标函数为 [1,+网 R N= P(O (1) 对于H准则重估函数的推导可以用传统的 r 厂P(01入) EBW算法进行扩展或使用改良的梯度下降算法 (GD)进行推导.二者推出的重估公式极为相近,如 式中:R为当前训练的样本个数,M,为由当前词产 生的易混词表,入为正确HMM模型所对应的参数 下所示: 为易混词表中的一个HMM模型所对应的参数 A,=1L0).0O2+D (-hYs+D 6) 而传统的MLE目标函数为 =d)-h0驰dy±Dg (7) =月nPo1少 (2) {g-h"}+D 可见,除了引入h系数以及方差重估公式的略 通过对2种准则目标函数的比较,MMIE准则 微不同外,H准则重估公式和标准MMIE重估公式 只比MLE准则多了分母上的一项易混集上的后验 十分相近.然而适当的设定h值可以提高MMIE准 概率的累加.这反映MMIE目标函数的本质是增加 则的收敛速度及获得更好的识别结果 当前模型的后验概率在易混集中所占的比例,使相 1.2H准则重估公式在手语识别应用中的改进 近的模型之间的距离增大,以此增强模型的泛化能 H准则重估公式和MMIE准则面临一个同样 力,提高识别效果.相对的,MLE准则只关注于当前 的问题,即D值的选取.通常采取以下2种策略:1) 训练模型上的所有训练样本的极大似然概率值而忽 使用一个全局最大化的阈值:或者选取以下二者的 视了其他近似模型的训练.这就是2种训练准则本 最大值1:1)hY";2)使高斯模型各维变量均为正值 质上的不同.MLE在400词集上进行训练和在 的最小D值的2倍 4000词集上进行训练得到的训练模型结果都是相 使用全局最大化阈值相对简单,然而过大的阈 同的因为MLE准则下,模型的训练是独立的,非 值对于易混模型会造成收敛速度下降,以至效果不 相关的.而MMIE准则在MLE的基础上考虑模型 明显.而使用局部计算D值的方法,会造成计算量 之间的相关性,这就注定了MMIE准则可以很好地 增加,尤其是计算方差时,通常都要解二次方程,这 弥补MLE准则的固有缺陷.二者合作使用,理论上 使算法的复杂度进一步上升.而且由于D值选取的 会使结果更加优化 不均衡,会对不同的模型造成不良影响. 传统的MMIE准则的训练方法是扩展的BW 算法EBW.其对HMM模型均值和方差的重估公 通过将H准则应用于手语识别的大量实验,发 现在h值选择恰当时,由于易混集构建的特点,完全 式如下: ,=1L0-102+D4 可以取消常数D,就可以保证绝大多数参数的结果 3 g-2}+D 为正值.由于易混集选中的模型打分基本都高于待 =0)--0!+D4e+4 训练的模型,所以可以期待分子分母中的易混模型 s-7s+D 集合的累加项要大于该模型的那一项,分子分母基 4) 本上同时为负值,结果为正值.对于少数结果为负值 式中:上标num和den分别对应于当前的模型和所 的重估结果,只要简单的将其取反就可以保证其对 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net广泛的研究 ,Normandin [4 ] 等人采用 EBW (expend2 baum2welch) 算法实现了 MMIE 准则在连续 HMM 模型中训练的难题 ,使这种方法开始广泛应用于语 音识别领域. 在手语识别领域 ,由于易混集的构建等问题 ,区 分性训练还没有被手语识别研究者所采用. 然而由 于手语信号和语音信号都是基于统计概率的时序信 号 ,可以期待对于 MMIE 准则在手语识别领域上的 改进能够极大地改善现有系统的识别效果. 1 MMIE 准则及对其的改造 1. 1 MMIE 准则的基本原理 传统的 MMIE 的目标函数为 Γλ = ∑ R r = 1 ln P( O r | λ) ∑ M r m = 1 P( O r | λm ) . (1) 式中 : R 为当前训练的样本个数 , Mr 为由当前词产 生的易混词表 ,λ为正确 HMM 模型所对应的参数 , λm 为易混词表中的一个 HMM 模型所对应的参数. 而传统的 ML E 目标函数为 Γλ = ∑ K k = 1 ln P( O k | λ) . (2) 通过对 2 种准则目标函数的比较 ,MMIE 准则 只比 ML E 准则多了分母上的一项易混集上的后验 概率的累加. 这反映 MMIE 目标函数的本质是增加 当前模型的后验概率在易混集中所占的比例 ,使相 近的模型之间的距离增大 ,以此增强模型的泛化能 力 ,提高识别效果. 相对的 ,ML E 准则只关注于当前 训练模型上的所有训练样本的极大似然概率值而忽 视了其他近似模型的训练. 这就是 2 种训练准则本 质上的不同. ML E 在 400 词集上进行训练和在 4 000词集上进行训练得到的训练模型结果都是相 同的 ,因为 ML E 准则下 ,模型的训练是独立的 ,非 相关的. 而 MMIE 准则在 ML E 的基础上考虑模型 之间的相关性 ,这就注定了 MMIE 准则可以很好地 弥补 ML E 准则的固有缺陷. 二者合作使用 ,理论上 会使结果更加优化. 传统的 MMIE 准则的训练方法是扩展的 BW 算法 EBW. 其对 HMM 模型均值和方差的重估公 式如下 : μ^ g = {θnum g ( O) - θden g ( O) } + Dμg {γnum g - γden g } + D . (3) σ^ 2 g = {θnum g ( O 2 ) - θden g ( O 2 ) } + D{μ2 g +σ2 g } {γnum g - γden g } + D - μ^ 2 g . (4) 式中 :上标 num 和 den 分别对应于当前的模型和所 有易混集中的模型. 常数 D 用来保证参数计算的结 果为正值 ,同时控制收敛速度. 更一般形式的 MMIE 准则即 H 准则目标函数 定义如下 : Γλ = ∑ R r =1 ln P( O r | λ) ( ∑ Mr m =1 P( O r | λm ) ) h . (5) H 准则目标函数比传统的 MMIE 准则增加了 分母上的指数项 ,这就使 H 准则更具有了一般性. 可以看出 ,ML E 和 MMIE 准则都可以理解为特殊 情况下的 H 准则 ,即当 h = 0 和 h = 1 时. [ 0 ,1 ]被普 遍的认为是 h 的正常、合理的值域 ,在实验中却发现 为了寻求最小错误率 , 值域的范围可以扩展到 [1 , + ∞) . 对于 H 准则重估函数的推导可以用传统的 EBW 算法进行扩展或使用改良的梯度下降算法 ( GD) 进行推导. 二者推出的重估公式极为相近 ,如 下所示 : μ^ g = {θnum g ( O) - hθden g ( O) } + Dμg {γnum g - hγden g } + D . (6) σ^ 2 g = {θnum g (σ2 ) - hθden g (σ2 ) } + Dσ2 g {γnum g - hγden g } + D . (7) 可见 ,除了引入 h 系数以及方差重估公式的略 微不同外 , H 准则重估公式和标准 MMIE 重估公式 十分相近. 然而适当的设定 h 值可以提高 MMIE 准 则的收敛速度及获得更好的识别结果. 1. 2 H 准则重估公式在手语识别应用中的改进 H 准则重估公式和 MMIE 准则面临一个同样 的问题 ,即 D 值的选取. 通常采取以下 2 种策略 :1) 使用一个全局最大化的阈值 ;或者选取以下二者的 最大值[ 5 ] :1) hγden g ;2) 使高斯模型各维变量均为正值 的最小 D 值的 2 倍. 使用全局最大化阈值相对简单 ,然而过大的阈 值对于易混模型会造成收敛速度下降 ,以至效果不 明显. 而使用局部计算 D 值的方法 ,会造成计算量 增加 ,尤其是计算方差时 ,通常都要解二次方程 ,这 使算法的复杂度进一步上升. 而且由于 D 值选取的 不均衡 ,会对不同的模型造成不良影响. 通过将 H 准则应用于手语识别的大量实验 ,发 现在 h 值选择恰当时 ,由于易混集构建的特点 ,完全 可以取消常数 D ,就可以保证绝大多数参数的结果 为正值. 由于易混集选中的模型打分基本都高于待 训练的模型 ,所以可以期待分子分母中的易混模型 集合的累加项要大于该模型的那一项 ,分子分母基 本上同时为负值 ,结果为正值. 对于少数结果为负值 的重估结果 ,只要简单的将其取反就可以保证其对 第 1 期 王雨轩 ,等 :手语识别中基于 HMM 的区分性训练方法 ·81 · © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net