正在加载图片...
第3卷第4期 智能系统学报 Vol 3 Ng 4 2008年8月 CAA I Transactions on Intelligent Systems Aug 2008 基于滑动倒谱的自动语言辨识 王洪海,刘刚,郭军 北京邮电大学信息工程学院,北京100876) 摘要:滑动差分倒谱在自动语言辨识的研究中获得了广泛的应用.但是滑动差分倒谱并没有利用语音信号的静态 倒谱信息,在方言辨识中的研究表明静态倒谱比差分倒谱含有更多的特征信息.为此提出了滑动倒谱($℃)的概念, 并与滑动差分倒谱特征矢量进行了对比研究.首先利用开发集的语音考察了滑动差分倒谱和滑动倒谱的控制参数 在不同取值的情况下对识别性能的影响,利用爬山法确定了这2类特征矢量达到局部最优控制参数组合的路径,然 后利用测试集的数据对优化后的2类特征矢量建立的模型进行了闭集辨识和开集辨识.2种情况下的测试结果都表 明滑动倒谱的性能优于滑动差分倒谱.并且这2种参数还具有特征互补性,将它们进行决策级数据融合可以进一步 提高系统的性能」 关键词:自动语言辨识;滑动倒谱;滑动差分倒谱;高斯混合模型 中图分类号:1P39142文献标识码:A文章编号:1673-4785(2008)04-0336-06 Automa tic language identifica tion usng shifted cepstra WANG Hong-hai,LIU Gang,GUO Jun Infomation Engineering College,Beijing University of Posts and Telecommunications,Beijing 100876,China) Abstract:Shifted delta cepstra have been widely used in automatic language identification,but only delta cepstrm infomation is emp lyed Research on accent identification revealed that detailed cepstrum is more infomative than delta cepstrum.So shifted cepstrum was proposed and comparative study was conducted beteen these to cepstra Effects of their control parameters on recognition perlomance were investigated with speech data in the development set The best paths of these wo vectors to reach a bcally optmal control parameter combination were detem ined with the hill-clmbing method Comparative tests perfomed with speech data both in the cbsed test set and open test set demonstrated that shifted cepstra is superior to shifted delta cepstra In addition,they are mutually comp le- mentary and data fusion at the decision level could further mprove the perfomance of the system. Keywords:automatic language identification;shifted cepstra;shifted delta cepstra;Gaussian m ixture model 基于声学特征的方法是自动语言辨识(uo~别完全可以做到实时处理,而基于并行的音素识别 matic language identificatin,ALD)研究中经常采用结合语言模型(parallel phoneme recognition follwed 的一种方法.它直接利用不同语言之间的频谱或 by language modeling,PPRLM)的系统则需要14倍 倒谱差异作为语言识别的依据,因而具有计算复杂的实时处理时间2).尤其是随着滑动差分倒谱(h正 度低、可移植性好及不需要音素标注的训练语料等 ted delta cepstra,SDC)参数在ALD研究中的成功应 优点.实验表明,基于声学特征的高斯混合模型 用,使得基于声学特征的研究方法获得了突破性的 (Gaussian m ixture model,GMM)对l2种语言的识 进展13).在2003年美国国家标准与技术协会(Na 收稿日期:2007-06-28 tional Institute of Standards and Technobgy,N IST) 基金项目:“十一五国家863计划重点项目课题(2006AA010102) 织的自动语言辨识系统评测中,采用SDC参数的 通信作者:王洪海.Email greegrassw@sina com. 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net第 3卷第 4期 智 能 系 统 学 报 Vol. 3 №. 4 2008年 8月 CAA I Transactions on Intelligent System s Aug. 2008 基于滑动倒谱的自动语言辨识 王洪海 ,刘 刚 ,郭 军 (北京邮电大学 信息工程学院 ,北京 100876) 摘 要 :滑动差分倒谱在自动语言辨识的研究中获得了广泛的应用. 但是滑动差分倒谱并没有利用语音信号的静态 倒谱信息 ,在方言辨识中的研究表明静态倒谱比差分倒谱含有更多的特征信息. 为此 ,提出了滑动倒谱 ( SC)的概念 , 并与滑动差分倒谱特征矢量进行了对比研究. 首先利用开发集的语音考察了滑动差分倒谱和滑动倒谱的控制参数 在不同取值的情况下对识别性能的影响 ,利用爬山法确定了这 2类特征矢量达到局部最优控制参数组合的路径 ,然 后利用测试集的数据对优化后的 2类特征矢量建立的模型进行了闭集辨识和开集辨识. 2种情况下的测试结果都表 明滑动倒谱的性能优于滑动差分倒谱. 并且这 2种参数还具有特征互补性 ,将它们进行决策级数据融合可以进一步 提高系统的性能. 关键词 :自动语言辨识 ;滑动倒谱 ;滑动差分倒谱 ;高斯混合模型 中图分类号 : TP391. 42 文献标识码 : A 文章编号 : 167324785 (2008) 0420336206 Automatic language identification using shifted cepstra WANG Hong2hai, L IU Gang, GUO Jun ( Information Engineering College, Beijing University of Posts and Telecommunications, Beijing 100876, China) Abstract:Shifted delta cep stra have been widely used in automatic language identification, but only delta cep strum information is emp loyed. Research on accent identification revealed that detailed cep strum ismore informative than delta cep strum. So shifted cep strum was p roposed and comparative study was conducted between these two cep stra. Effects of their control parameters on recognition performance were investigated with speech data in the development set. The best paths of these two vectors to reach a locally op timal control parameter combination were determ ined with the hill2climbing method. Comparative tests performed with speech data both in the closed test set and open test set demonstrated that shifted cep stra is superior to shifted delta cep stra. In addition, they are mutually comp le2 mentary and data fusion at the decision level could further imp rove the performance of the system. Keywords: automatic language identification; shifted cep stra; shifted delta cep stra; Gaussian m ixture model 收稿日期 : 2007206228. 基金项目 :“十一五 ”国家 863计划重点项目课题 (2006AA010102) 通信作者 :王洪海. E2mail: greegrassw@ sina. com. 基于声学特征的方法是自动语言辨识 ( auto2 matic language identification, AL ID)研究中经常采用 的一种方法 [ 1 ] . 它直接利用不同语言之间的频谱或 倒谱差异作为语言识别的依据 ,因而具有计算复杂 度低、可移植性好及不需要音素标注的训练语料等 优点. 实验表明 ,基于声学特征的高斯混合模型 ( Gaussian m ixture model , GMM )对 12种语言的识 别完全可以做到实时处理 ,而基于并行的音素识别 结合语言模型 (parallel phoneme recognition followed by language modeling , PPRLM)的系统则需要 14倍 的实时处理时间 [ 2 ] . 尤其是随着滑动差分倒谱 ( shif2 ted delta cep stra, SDC)参数在 AL ID研究中的成功应 用 ,使得基于声学特征的研究方法获得了突破性的 进展 [ 324 ] . 在 2003年美国国家标准与技术协会 (Na2 tional Institute of Standards and Technology, N IST)组 织的自动语言辨识系统评测中 ,采用 SDC参数的
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有