第2卷第1期 智能系统学报 Vol.2 Ng 1 2007年2月 CAAI Transactions on Intelligent Systems Fcb.2007 手语识别中基于HMM的区分性训练方法 王雨轩,倪训博,姜峰 (哈尔滨工业大学计算机学院,黑龙江哈尔滨150001) 摘要:传统的隐马尔科夫模型(HMM)的训练方法基于统计概率的最大似然准则(MLE),在训练样本数目足够大 的情况下,这种方法在理论上可以得到最优的结果.在手语识别研究中,采集足够大的训练样本十分困难.区分性训 练可以很好地弥补由于训练样本的缺乏以及手语模型之间的近似而造成的识别系统的缺陷,最大交互信息准则 (MMIE)作为区分性训练准则的一种已经被广泛的应用于语音识别领域.文中通过合理的构建手语识别中的竞争模 型和易混集,提出了MMIE准则的改进形式,并将其应用于特定人与非特定人手语识别.实验证明,使用改进的 MMIE准则对识别系统性能有很大的提高. 关键词:区分性训练;隐马尔科夫模型;易混集;最大交互信息 中图分类号:文献标识码:A文章编号:1673-4785(2007)01-008005 Discriminative training methods of HMM for sign language recognition WANG Yurxuan,NI Xun-bo JIAN G Feng (School of Computer Science,Harbin Institute of Technology,Harbin 150001,China) Abstract:The traditional method of training HMM(Hidden Markov Models)is based on ML E(maximum likelihood estimation).When training samples are sufficient enough,the method can principally gain the optimal result.However,it is too difficult to get such large data sets practically,especially in sign lan- guage recognition.Discriminative training method can improve the error rate of MLE,which is caused by insufficient training data and similarities among sign language models.Maximum mutual information esti- mation as one of discriminative training methods has been widely applied in speech recognition.By taking competition models into account and setting up mixture sets appropriately,MMIE method was improved and applied both in signer-dependent and signer-independent sign language recognition.A great number of experiments had been taken,showing that this method greatly promoted the ability of the traditional MLE system. Key words:discriminative training;hidden Markov models;mixture sets;maximum mutual information 手语作为一种结构化手势,是聋人进行信息交 目前手语识别研究中,最常用的是基于高斯混 流的最常用形式.自动手语识别的尝试始于20世纪 合概率密度的HMM模型系统:采用传统的MLE 90年代.新加坡南洋理工大学Charayaphan和 准则函数与BW(Baum-Welch)算法对模型的各个 Marble使用图像处理方法来理解美国手语中31 参数进行迭代重估.这种重估方式只考虑当前模型 个孤立手势词,该方法能正确识别其中的27个.此 的所有训练样本,不考虑模型之间的相关性 后,国际上众多学者投入到手语识别的领域中,比较 最大交互信息准则MMIE!,是最为常用的区 著名的如香港中文大学Deng和Tsui2I使用基于并 分性训练准则.与MLE相比,MMIE在训练时不仅 行的HMM模型去识别192个美国手语词,识别率 考虑到当前模型的信息,还考虑到其他竞争模型的 为93.3% 信息.这就使MMIE准则可以很好地作为MLE训 练准则的补充. 收稿日期:2006-0429. 在语音识别领域,对区分性训练的方法进行了 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net第 2 卷第 1 期 智 能 系 统 学 报 Vol. 2 №. 1 2007 年 2 月 CAA I Transactions on Intelligent Systems Feb. 2007 手语识别中基于 HMM 的区分性训练方法 王雨轩 , 倪训博 ,姜 峰 (哈尔滨工业大学 计算机学院 ,黑龙江 哈尔滨 150001) 摘 要 :传统的隐马尔科夫模型( HMM) 的训练方法基于统计概率的最大似然准则(ML E) ,在训练样本数目足够大 的情况下 ,这种方法在理论上可以得到最优的结果. 在手语识别研究中 ,采集足够大的训练样本十分困难. 区分性训 练可以很好地弥补由于训练样本的缺乏以及手语模型之间的近似而造成的识别系统的缺陷. 最大交互信息准则 (MMIE) 作为区分性训练准则的一种已经被广泛的应用于语音识别领域. 文中通过合理的构建手语识别中的竞争模 型和易混集 ,提出了 MMIE 准则的改进形式 ,并将其应用于特定人与非特定人手语识别. 实验证明 ,使用改进的 MMIE 准则对识别系统性能有很大的提高. 关键词 :区分性训练 ;隐马尔科夫模型 ;易混集 ;最大交互信息 中图分类号 : 文献标识码 :A 文章编号 :167324785 (2007) 0120080205 Discriminative training methods of HMM for sign language recognition WAN G Yu2xuan , NI Xun2bo , J IAN G Feng (School of Computer Science , Harbin Institute of Technology , Harbin 150001 , China) Abstract :The traditional met hod of training HMM ( Hidden Markov Models) is based on ML E (maximum likelihood estimation) . When training samples are sufficient enough , t he method can principally gain t he optimal result. However , it is too difficult to get such large data sets practically , especially in sign lan2 guage recognition. Discriminative training method can improve t he error rate of ML E , which is caused by insufficient training data and similarities among sign language models. Maximum mut ual information esti2 mation as one of discriminative training met hods has been widely applied in speech recognition. By taking competition models into account and setting up mixt ure sets app ropriately , MMIE met hod was improved and applied bot h in signer2dependent and signer2independent sign language recognition. A great number of experiments had been taken , showing that t his met hod greatly promoted the ability of t he traditional ML E system. Keywords :discriminative training ;hidden Markov models; mixt ure sets; maximum mut ual information 收稿日期 :2006204229. 手语作为一种结构化手势 ,是聋人进行信息交 流的最常用形式. 自动手语识别的尝试始于 20 世纪 90 年代. 新加坡南洋理工大 学 Charayap han 和 Marble [1 ]使用图像处理方法来理解美国手语中 31 个孤立手势词 ,该方法能正确识别其中的 27 个. 此 后 ,国际上众多学者投入到手语识别的领域中 ,比较 著名的如香港中文大学 Deng 和 Tsui [2 ]使用基于并 行的 HMM 模型去识别 192 个美国手语词 ,识别率 为 93. 3 %. 目前手语识别研究中 ,最常用的是基于高斯混 合概率密度的 HMM 模型系统 :采用传统的 ML E 准则函数与 BW (Baum2Welch) 算法对模型的各个 参数进行迭代重估. 这种重估方式只考虑当前模型 的所有训练样本 ,不考虑模型之间的相关性. 最大交互信息准则 MMIE [ 3 ] ,是最为常用的区 分性训练准则. 与 ML E 相比 ,MMIE 在训练时不仅 考虑到当前模型的信息 ,还考虑到其他竞争模型的 信息. 这就使 MMIE 准则可以很好地作为 ML E 训 练准则的补充. 在语音识别领域 ,对区分性训练的方法进行了 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net