·84· 智能系统学报 第2卷 但包含了原有MLE已经训练成熟的基于统计的模 Proc.1986 Int.Conf.on Acoustics,Speech and Signal 型,还包含了MLE所不具备的这些模型之间相关 Processing [C].Tokyo Japan1986. 性的信息.此外,由于D值选择的困难,导致了 [4]NORMANDIN Y.An improved MMIE training algo- BW算法相对MLE算法的改进并不明显,而改进 rithm for speaker independent [A].Proc.ICASSP'91 [C].Toronto,1991. 的算法可以很好地弥补EBW算法的缺陷.此外,引 [5]SCHLUTER R MACHEREY W,RULL ER B,NEY H. 入主观经验后构造的易混集使识别结果达到最优 Comparison of discriminative training criteria and optimi- 平均识别率相比MLE,在注册集和非注册集上分别 zation methods for speech recognition[J ]Speech Com- 提高了3.55%和8.5%.因为加入主观经验后,混合 munication,2001(34):287.310. 集的构造更加体现了训练集中数据之间的特点,并 [6]ZHENG J,BUTZBERER J,FRANCO H.Scandinavia 去掉了很多干扰因素.这个结果应该是区分性训练 improved maximum mutual information estimation train- 的最优结果,可以作为进一步研究的参考界限 ing of continuous density HMMs [J ]Andreas Stolcke Speech Technology and Research Laboratory,2001,15 4 结束语 (2):25.30. 区分性训练方法对传统的MLE系统是有效的 [7]WOODLAND P C,POVEY D.Large scale discrimina- 补充.重新构建后的模型相对于经典的统计概率模 tive training for speech recognition[J].In Proc.ITRW ASR[C].ISCA,2000 型更能体现手语数据和手语模型之间的相关性.本 [8]BAHL L R,PADMANABHAN M,NAHAMOO D,GO- 论文首次将区分性训练应用于手语识别领域,并对 PALA KRIS HNAN P S.An m best candidates-based dis- 其加以改造,取得了显著的效果」 criminative training for speech recognition Applications 虽然文中构造的易混集得到了良好的识别结 [J ]IEEE Transactions on Speech and Audio Process- 果,但是相对于主观经验所构造的易混集,还有很高 ing,1994,2(1):206.216. 的提升空间.这需要更大量的数据作为实验样本,来 [9]CHOW YL.Maximum mutual information estimation of 挖掘模型之间更深层次的相关性.由此可见,虽然区 HMM parameters for continuous speech recognition u 分性训练可以使数据量不足够大的MLE系统性能 sing the N-Best algorithm [A ]Proc.ICASSP'90[C]. 提高,但反过来,数据的短缺又会影响区分性训练的 Albuquerque,1990. 作者简介 效果,这是一对矛盾的统一体」 王雨轩,男,1980年生,哈尔滨工业 此外,通过对MLE系统的不断改进,已经获得 大学硕士研究生,主要研究方向为模式 了在注册集上十分令人满意的结果.然而在非注册 识别、机器学习」 集上,识别结果还有很大的提升空间.下一步应该从 E mail yxwang @vilab.hit.edu.cn 数据上着手,如利用有限的数据,生成新的非特定人 的数据,来扩大训练集的规模等.这对进一步研究易 混集表的构建也是有指导意义的。 倪训博,男,1978年生,哈尔滨工业 参考文献: 大学博士研究生,主要研究方向为模式 [1]WANG Chunli,GAO Wen.Re-sampling for Chinese 识别、机器学习 sign language recognition by genetic algorithm [A ] E mail nixunbo @hit.edu.cn GW2005[C].[s.1.],2005. [2]DENGJ W,TSUI H T.A two-step approach based on Pa HMM for the recognition of ASL [A].Proceedings of 姜峰,男,1978年生,哈尔滨工业 The Fifth Asian Conference on Computer Vision [C]. Melbourne,Australia,2002. 大学讲师,主要研究方向为模式识别、 [3]BAHLL R,BROWN P F,SOUZA P V,MERCER R 机器学习、图像处理、人机交互等。 L.Maximum mutual information estimation of hidden E mail fjiang @hit.edu.cn Markov model parameters for speech recognition[A]. 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net但包含了原有 ML E 已经训练成熟的基于统计的模 型 ,还包含了 ML E 所不具备的这些模型之间相关 性的信息. 此外 ,由于 D 值选择的困难 ,导致了 EBW 算法相对 ML E 算法的改进并不明显 ,而改进 的算法可以很好地弥补 EBW 算法的缺陷. 此外 ,引 入主观经验后构造的易混集使识别结果达到最优. 平均识别率相比 ML E ,在注册集和非注册集上分别 提高了 3. 55 %和 8. 5 %. 因为加入主观经验后 ,混合 集的构造更加体现了训练集中数据之间的特点 ,并 去掉了很多干扰因素. 这个结果应该是区分性训练 的最优结果 ,可以作为进一步研究的参考界限. 4 结束语 区分性训练方法对传统的 ML E 系统是有效的 补充. 重新构建后的模型相对于经典的统计概率模 型更能体现手语数据和手语模型之间的相关性. 本 论文首次将区分性训练应用于手语识别领域 ,并对 其加以改造 ,取得了显著的效果. 虽然文中构造的易混集得到了良好的识别结 果 ,但是相对于主观经验所构造的易混集 ,还有很高 的提升空间. 这需要更大量的数据作为实验样本 ,来 挖掘模型之间更深层次的相关性. 由此可见 ,虽然区 分性训练可以使数据量不足够大的 ML E 系统性能 提高 ,但反过来 ,数据的短缺又会影响区分性训练的 效果 ,这是一对矛盾的统一体. 此外 ,通过对 ML E 系统的不断改进 ,已经获得 了在注册集上十分令人满意的结果. 然而在非注册 集上 ,识别结果还有很大的提升空间. 下一步应该从 数据上着手 ,如利用有限的数据 ,生成新的非特定人 的数据 ,来扩大训练集的规模等. 这对进一步研究易 混集表的构建也是有指导意义的. 参考文献 : [1 ] WAN G Chunli , GAO Wen. Re2sampling for Chinese sign language recognition by genetic algorithm [ A ]. GW2005[C]. [s. l. ] ,2005. [2 ]DEN GJ W , TSUI H T. A two2step approach based on Pa HMM for the recognition of ASL [ A ]. Proceedings of The Fifth Asian Conference on Computer Vision [ C ]. Melbourne , Australia , 2002. [3 ]BA HLL R , BROWN P F , SOUZA P V , MERCER R L. Maximum mutual information estimation of hidden Markov model parameters for speech recognition[ A ]. Proc. 1986 Int. Conf. on Acoustics ,Speech and Signal Processing [C]. Tokyo ,Japan1986. [4 ] NORMANDIN Y. An improved MMIE training algo2 rithm for speaker independent [ A ]. Proc. ICASSP’91 [C]. Toronto ,1991. [ 5 ]SCHLU TER R ,MACHEREY W ,RULL ER B , N EY H. Comparison of discriminative training criteria and optimi2 zation methods for speech recognition[J ]. Speech Com2 munication , 2001 (34) :287 - 310. [6 ] ZHEN G J ,BU TZBERER J , FRANCO H. Scandinavia improved maximum mutual information estimation train2 ing of continuous density HMMs [J ]. Andreas Stolcke Speech Technology and Research Laboratory , 2001 , 15 (2) :25 - 30. [7 ] WOODLAND P C , POV EY D. Large scale discrimina2 tive training for speech recognition [J ]. In Proc. ITRW ASR[C]. ISCA , 2000. [8 ]BA HL L R ,PADMANAB HAN M ,NA HAMOO D , GO2 PALA KRISHNAN P S. An n2best candidates2based dis2 criminative training for speech recognition Applications [J ]. IEEE Transactions on Speech and Audio Process2 ing , 1994 ,2 (1) :206 - 216. [9 ]CHOW Y L. Maximum mutual information estimation of HMM parameters for continuous speech recognition u2 sing the N2Best algorithm[ A ]. Proc. ICASSP’90 [ C]. Albuquerque ,1990. 作者简介 : 王雨轩 ,男 ,1980 年生 ,哈尔滨工业 大学硕士研究生 ,主要研究方向为模式 识别、机器学习. E2mail :yxwang @vilab. hit. edu. cn. 倪训博 ,男 ,1978 年生 ,哈尔滨工业 大学博士研究生 ,主要研究方向为模式 识别、机器学习. E2mail : nixunbo @hit. edu. cn 姜 峰 ,男 ,1978 年生 ,哈尔滨工业 大学讲师 ,主要研究方向为模式识别、 机器学习、图像处理、人机交互等. E2mail : fjiang @hit. edu. cn ·84 · 智 能 系 统 学 报 第 2 卷 © 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net