【自然语言处理与理解】基于滑动倒谱的自动语言辨识

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：367.18KB

第3卷第4期智能系统学报 Vol 3 Ng 4 2008年8月 CAA I Transactions on Intelligent Systems Aug 2008 基于滑动倒谱的自动语言辨识王洪海，刘刚，郭军北京邮电大学信息工程学院，北京100876) 摘要：滑动差分倒谱在自动语言辨识的研究中获得了广泛的应用.但是滑动差分倒谱并没有利用语音信号的静态倒谱信息，在方言辨识中的研究表明静态倒谱比差分倒谱含有更多的特征信息.为此提出了滑动倒谱($℃)的概念，并与滑动差分倒谱特征矢量进行了对比研究.首先利用开发集的语音考察了滑动差分倒谱和滑动倒谱的控制参数在不同取值的情况下对识别性能的影响，利用爬山法确定了这2类特征矢量达到局部最优控制参数组合的路径，然后利用测试集的数据对优化后的2类特征矢量建立的模型进行了闭集辨识和开集辨识.2种情况下的测试结果都表明滑动倒谱的性能优于滑动差分倒谱.并且这2种参数还具有特征互补性，将它们进行决策级数据融合可以进一步提高系统的性能」关键词：自动语言辨识；滑动倒谱；滑动差分倒谱；高斯混合模型中图分类号：1P39142文献标识码：A文章编号：1673-4785(2008)04-0336-06 Automa tic language identifica tion usng shifted cepstra WANG Hong-hai,LIU Gang,GUO Jun Infomation Engineering College,Beijing University of Posts and Telecommunications,Beijing 100876,China) Abstract:Shifted delta cepstra have been widely used in automatic language identification,but only delta cepstrm infomation is emp lyed Research on accent identification revealed that detailed cepstrum is more infomative than delta cepstrum.So shifted cepstrum was proposed and comparative study was conducted beteen these to cepstra Effects of their control parameters on recognition perlomance were investigated with speech data in the development set The best paths of these wo vectors to reach a bcally optmal control parameter combination were detem ined with the hill-clmbing method Comparative tests perfomed with speech data both in the cbsed test set and open test set demonstrated that shifted cepstra is superior to shifted delta cepstra In addition,they are mutually comp le- mentary and data fusion at the decision level could further mprove the perfomance of the system. Keywords:automatic language identification;shifted cepstra;shifted delta cepstra;Gaussian m ixture model 基于声学特征的方法是自动语言辨识(uo~别完全可以做到实时处理，而基于并行的音素识别 matic language identificatin,ALD)研究中经常采用结合语言模型(parallel phoneme recognition follwed 的一种方法.它直接利用不同语言之间的频谱或 by language modeling,PPRLM)的系统则需要14倍倒谱差异作为语言识别的依据，因而具有计算复杂的实时处理时间2).尤其是随着滑动差分倒谱(h正度低、可移植性好及不需要音素标注的训练语料等 ted delta cepstra,SDC)参数在ALD研究中的成功应优点.实验表明，基于声学特征的高斯混合模型用，使得基于声学特征的研究方法获得了突破性的 (Gaussian m ixture model,GMM)对l2种语言的识进展13).在2003年美国国家标准与技术协会(Na 收稿日期：2007-06-28 tional Institute of Standards and Technobgy,N IST) 基金项目：“十一五国家863计划重点项目课题(2006AA010102) 织的自动语言辨识系统评测中，采用SDC参数的通信作者：王洪海.Email greegrassw@sina com. 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

第 3卷第 4期智能系统学报 Vol. 3 №. 4 2008年 8月 CAA I Transactions on Intelligent System s Aug. 2008 基于滑动倒谱的自动语言辨识王洪海 ,刘刚 ,郭军 (北京邮电大学信息工程学院 ,北京 100876) 摘要 :滑动差分倒谱在自动语言辨识的研究中获得了广泛的应用. 但是滑动差分倒谱并没有利用语音信号的静态倒谱信息 ,在方言辨识中的研究表明静态倒谱比差分倒谱含有更多的特征信息. 为此 ,提出了滑动倒谱 ( SC)的概念 , 并与滑动差分倒谱特征矢量进行了对比研究. 首先利用开发集的语音考察了滑动差分倒谱和滑动倒谱的控制参数在不同取值的情况下对识别性能的影响 ,利用爬山法确定了这 2类特征矢量达到局部最优控制参数组合的路径 ,然后利用测试集的数据对优化后的 2类特征矢量建立的模型进行了闭集辨识和开集辨识. 2种情况下的测试结果都表明滑动倒谱的性能优于滑动差分倒谱. 并且这 2种参数还具有特征互补性 ,将它们进行决策级数据融合可以进一步提高系统的性能. 关键词 :自动语言辨识 ;滑动倒谱 ;滑动差分倒谱 ;高斯混合模型中图分类号 : TP391. 42 文献标识码 : A 文章编号 : 167324785 (2008) 0420336206 Automatic language identification using shifted cepstra WANG Hong2hai, L IU Gang, GUO Jun ( Information Engineering College, Beijing University of Posts and Telecommunications, Beijing 100876, China) Abstract:Shifted delta cep stra have been widely used in automatic language identification, but only delta cep strum information is emp loyed. Research on accent identification revealed that detailed cep strum ismore informative than delta cep strum. So shifted cep strum was p roposed and comparative study was conducted between these two cep stra. Effects of their control parameters on recognition performance were investigated with speech data in the development set. The best paths of these two vectors to reach a locally op timal control parameter combination were determ ined with the hill2climbing method. Comparative tests performed with speech data both in the closed test set and open test set demonstrated that shifted cep stra is superior to shifted delta cep stra. In addition, they are mutually comp le2 mentary and data fusion at the decision level could further imp rove the performance of the system. Keywords: automatic language identification; shifted cep stra; shifted delta cep stra; Gaussian m ixture model 收稿日期 : 2007206228. 基金项目 :“十一五 ”国家 863计划重点项目课题 (2006AA010102) 通信作者 :王洪海. E2mail: greegrassw@ sina. com. 基于声学特征的方法是自动语言辨识 ( auto2 matic language identification, AL ID)研究中经常采用的一种方法 [ 1 ] . 它直接利用不同语言之间的频谱或倒谱差异作为语言识别的依据 ,因而具有计算复杂度低、可移植性好及不需要音素标注的训练语料等优点. 实验表明 ,基于声学特征的高斯混合模型 ( Gaussian m ixture model , GMM )对 12种语言的识别完全可以做到实时处理 ,而基于并行的音素识别结合语言模型 (parallel phoneme recognition followed by language modeling , PPRLM)的系统则需要 14倍的实时处理时间 [ 2 ] . 尤其是随着滑动差分倒谱 ( shif2 ted delta cep stra, SDC)参数在 AL ID研究中的成功应用 ,使得基于声学特征的研究方法获得了突破性的进展 [ 324 ] . 在 2003年美国国家标准与技术协会 (Na2 tional Institute of Standards and Technology, N IST)组织的自动语言辨识系统评测中 ,采用 SDC参数的

第4期王洪海，等：基于滑动倒谱的自动语言辨识 ·337 GMM方法获得了比PPRLM方法更好的识别效合对系统识别性能的影响不同.最佳的参数组合与果1，改变了人们长期以来的观点们.如今，DC参所要识别的语言类型有关数在ALD研究中获得了广泛的应用【6] 2滑动倒谱 SDC是差分倒谱系数的扩展，它同时考虑了前后帧差分倒谱的影响，具有融合长时序信息特征的根据SDC的思想可以直接在静态倒谱的基础能力.但是，SDC只利用了差分倒谱信息，即语音信上构建滑动倒谱SC,即直接在每一帧内串联k块倒号的动态特性，并没有考虑语音信号的静态特性，即谱系数，其中每块倒谱向后滑动了p帧，其表达式为频谱倒频谱信息.而WU Tingyao等人在方言识别 S()=ICo(,C(,…,Cx.1(),Co(1+p, 中的研究表明，详细刻画的频谱倒频谱比差分倒谱 C(1+pl,…Cw.1(1+pl,Co(1+ 包含更多的信息o.Matejka Pavel等人在语言辨识 (k-1)p,C1(1+(k-1p以，g 的研究中将美尔倒频谱系数(Mel frequency cepstral Cw.1(1+(k-1)pl1 (3) coeffic ients,MFCC)与SDC系数结合在一起获得了式中：G()是第帧语音中第个倒谱系数.这样，比单独的DC更好的识别效果)因此，本文根据每帧内的倒谱系数由N个扩展到了WN个.SC特征 SDC的思想提出了滑动倒谱(shifted cepstra,SC)的向量由3个参数确定：每帧语音中包含的倒谱系数概念，与目前研究中常用的SDC特征矢量进行了对个数N,倒谱块的滑动帧数p和一个SC特征向量中比研究包含的差分倒谱块的个数k 1滑动差分倒谱从滑动倒谱的构成可以看出，它与滑动差分倒谱一样，可以在一个特征向量内融入比较长的时序滑动差分倒谱参数由若干块跨多帧语音的差分信息，因而它能够刻画长时间间隔的过渡期信息特倒谱组成，这样在一个特征矢量内包含多帧语音的征.听觉实验研究表明，人类的听觉特性对语音频谱长时声学信息.差分倒谱参数一般通过式(1)计算：的过渡信息非常敏感，虽然差分倒谱参数可以描述 6()=C(t+d)-C(t-d), 50~100ms时间间隔的过渡信息特征，但是它却无 j=0,1,…N-1 1) 法刻画更长时间间隔如200~300ms的长过渡期信式中：C,()是第帧语音中第个倒谱系数，每帧语息特征，而这种长过渡期信息对应着音素到音素、音音中包含N个倒谱系数节到音节的过渡信息.Fuui曾认为，如何采用一种滑动差分倒谱通过串联k块差分倒谱在一帧内特征参数形式描述长过渡期的语音信息特征是一个对差分倒谱进行了扩展，其中每块差分倒谱向后滑有待解决的问题口.而从SDC和SC特征向量的结动了p帧，其表达式为构特性来分析，这2种参数形式为解决这一问题提 S)=[(),8(,…⑧.1()，⑨(1+pl, 供了借鉴思路，因为它们都能够融合长时间间隔的 8(1+pl,…,⑨.1(1+p以，8(1+ 信息特征.至于需要这2种参数形式刻画多长时间 (k-)p,8(1+(k-1)p,s 间隔的过渡期特征，可以结合具体的任务系统通过 6.1(1+(k-1)p吵1 2) 实验调整这2种特征向量的控制参数组合来实现，这样，每帧内的差分倒谱系数由N个扩展到了W 3实验和分析个.DC特征向量由4个参数确定：每帧语音中包含的倒谱系数个数N,计算差分倒谱的时移d差分倒 31语音语料库谱块的滑动帧数p和一个SDC特征向量中包含的实验中所用的汉语语音来源于863汉语普通话差分倒谱块的个数k 语料库，英语、日语、德语、法语、西班牙语、俄语和阿 Kohler等人的研究表明，不同的N-dpk参数组拉伯语等7个语种的语音是从网络上采集的，每个 C 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

GMM 方法获得了比 PPRLM 方法更好的识别效果 [ 2 ] ,改变了人们长期以来的观点 [ 5 ] . 如今 , SDC参数在 AL ID研究中获得了广泛的应用 [ 6～9 ] . SDC是差分倒谱系数的扩展 ,它同时考虑了前后帧差分倒谱的影响 ,具有融合长时序信息特征的能力. 但是 , SDC只利用了差分倒谱信息 ,即语音信号的动态特性 ,并没有考虑语音信号的静态特性 ,即频谱 /倒频谱信息. 而 WU Tingyao等人在方言识别中的研究表明 ,详细刻画的频谱 /倒频谱比差分倒谱包含更多的信息 [ 10 ] . Matejka Pavel等人在语言辨识的研究中将美尔倒频谱系数 (Mel frequency cep stral coefficients, MFCC)与 SDC系数结合在一起获得了比单独的 SDC更好的识别效果 [ 7 ] . 因此 ,本文根据 SDC的思想提出了滑动倒谱 ( shifted cep stra, SC)的概念 ,与目前研究中常用的 SDC特征矢量进行了对比研究. 1 滑动差分倒谱滑动差分倒谱参数由若干块跨多帧语音的差分倒谱组成 ,这样在一个特征矢量内包含多帧语音的长时声学信息. 差分倒谱参数一般通过式 (1)计算 : δj ( t) =Cj ( t + d) - Cj ( t - d) , j = 0, 1, …, N - 1. (1) 式中 : Cj ( t)是第 t帧语音中第 j个倒谱系数 ,每帧语音中包含 N 个倒谱系数. 滑动差分倒谱通过串联 k块差分倒谱在一帧内对差分倒谱进行了扩展 ,其中每块差分倒谱向后滑动了 p帧 ,其表达式为 S ( t) = [δ0 ( t) ,δ1 ( t) , …,δN - 1 ( t) , δ0 ( t + p) , δ1 ( t + p) , …, δN - 1 ( t + p) ,δ0 ( t + ( k - 1) p) ,δ1 ( t + ( k - 1) p) , …, δN - 1 ( t + ( k - 1) p) ]. (2) 这样 ,每帧内的差分倒谱系数由 N 个扩展到了 kN 个. SDC特征向量由 4个参数确定 :每帧语音中包含的倒谱系数个数 N,计算差分倒谱的时移 d,差分倒谱块的滑动帧数 p和一个 SDC特征向量中包含的差分倒谱块的个数 k. Kohler等人的研究表明 ,不同的 N 2d2p2k参数组合对系统识别性能的影响不同. 最佳的参数组合与所要识别的语言类型有关 [ 4 ] . 2 滑动倒谱根据 SDC的思想可以直接在静态倒谱的基础上构建滑动倒谱 SC,即直接在每一帧内串联 k块倒谱系数 ,其中每块倒谱向后滑动了 p帧 ,其表达式为 S ( t) = [C0 ( t) , C1 ( t) , …, CN - 1 ( t) , C0 ( t + p) , C1 ( t + p) , …, CN - 1 ( t + p) , C0 ( t + ( k - 1) p) , C1 ( t + ( k - 1) p) , …, CN - 1 ( t + ( k - 1) p) ]. (3) 式中 : Cj ( t)是第 t帧语音中第 j个倒谱系数. 这样 , 每帧内的倒谱系数由 N 个扩展到了 kN 个. SC特征向量由 3个参数确定 :每帧语音中包含的倒谱系数个数 N,倒谱块的滑动帧数 p和一个 SC特征向量中包含的差分倒谱块的个数 k. 从滑动倒谱的构成可以看出 ,它与滑动差分倒谱一样 ,可以在一个特征向量内融入比较长的时序信息 ,因而它能够刻画长时间间隔的过渡期信息特征. 听觉实验研究表明 ,人类的听觉特性对语音频谱的过渡信息非常敏感 ,虽然差分倒谱参数可以描述 50～100 m s时间间隔的过渡信息特征 ,但是它却无法刻画更长时间间隔如 200～300 m s的长过渡期信息特征 ,而这种长过渡期信息对应着音素到音素、音节到音节的过渡信息. Furui曾认为 ,如何采用一种特征参数形式描述长过渡期的语音信息特征是一个有待解决的问题 [ 11 ] . 而从 SDC和 SC特征向量的结构特性来分析 ,这 2种参数形式为解决这一问题提供了借鉴思路 ,因为它们都能够融合长时间间隔的信息特征. 至于需要这 2种参数形式刻画多长时间间隔的过渡期特征 ,可以结合具体的任务系统通过实验调整这 2种特征向量的控制参数组合来实现. 3 实验和分析 3. 1 语音语料库实验中所用的汉语语音来源于 863汉语普通话语料库 ,英语、日语、德语、法语、西班牙语、俄语和阿拉伯语等 7个语种的语音是从网络上采集的 ,每个第 4期王洪海 ,等 :基于滑动倒谱的自动语言辨识 · 733 ·

·338 智能系统学报第3卷语种包含了多种内容体裁.整个语料库的语音被分以下就从系统的初始模型(SDC和SC的控制成训练集、开发集和测试集3部分.训练集包括汉、参数组合分别为13-13-3和13-3-3)出发，依次调整英、日、德、法、西6个语种，每个语种包括36~38个特征向量的控制参数，考察它们对性能的影响说话人，每个说话人的语音片段为30~60s每种语 3.21参数N对性能的影响言大约有20m的训练语料.开发集也只包括汉、首先，保持2类特征向量的其他控制参数不变，英、日、德、法、西6个语种，每个语种包含5名男性只调整参数N的取值，得到测试结果如表2所示和5名女性的语音，每人有50个平均时长为45s从表2中可以看出，对于普遍使用的13维的RAS 的语音片段.测试集包括闭集和开集2个集合.闭集ALP倒谱系数，其SDC和S℃特征矢量并没有表包括汉、英、日、德、法、西6个语种，与训练集中的语现出最好的识别性能，而是在阶数比较少的情况下种完全相同，而开集则在闭集的基础上增加了俄语 (分别是9维和7维)SDC和SC参数获得了比较好和阿拉伯语.测试集中，每个语种包括10名男性和的识别效果.这说明，对于SC和SDC,比较少的系 10名女性、每人有50个语音片段，每个测试语音片数已经包含了充分的识别信息，信息冗余反而会造段的平均长度为45s训练集、开发集和测试集中成识别性能下降的说话人没有交叉.关于语料库的详细介绍请参见表2参数N对性能的影响文献121 Table 2 Effect ofN on perfommance 32对开发集的实验特征参数误识率1% 特征参数误识率/% 对于开发集的实验主要是考察不同的控制参数 DC(13-1-3-3) 237 ℃(13-3-3) 157 组合对SDC和SC特征向量的性能的影响，利用爬 DC(10-1-3-3) 217 S℃(10-3-3)） 173 山法确定这2类特征矢量达到局部最优识别效果时 DC(9-13-3) 207 S℃(9-3-3) 1.53 的控制参数组合，并对这2类特征向量采用加权系 DC(8-1-3-3) 257 S℃(7-3-3) 1.50 统数a进行数据融合 DC(7-1-3-3) 233 9℃(6-3-3) 243 实验中，输入的语音经16kHz取样16bit量化后 3.22参数k对性能的影响进行预加重，用帧长为25ms帧移为10ms的汉明窗对于SC特征矢量，使控制参数在组合73-3的分帧，计算13维的RASTA-LP参数包括0阶的能基础上调整k的取值，而对于SDC特征矢量，以前量系数).然后，取Npk为133-3构建SC特征矢量，的研究中2得到的N的优化数值为7，所以本实利用期望最大算法为每种语言建立GMM模型验中取SDC的控制参数分别为7-133和9-1-33 与此同时，在经RASTA滤波的感知线性预测为初值，然后调整k的取值，利用开发集中的语音进 (RASTA peretep tual linear prediction,RASTA-PLP) 行测试得到了表3中所列的结果参数的基础上计算差分倒谱，然后取N-dpk为13- 表3参数k对性能的影响 13-3构建SDC特征矢量，并为每种语言建立GMM Table 3 Effect of k on perfommance 模型.所有GMM模型的混合分量数目都为128这特征参数误识率/% 特征参数误识率/% 样，对应于SC和SDC控制参数组合的一组初始值 SDC(9-1-35) 1.77 SC(7-3-3) 1.50 分别建立起了系统的初始模型，对于开发集中的语 sDC(7-1-3-5) 1.53 S℃(7-3-5) 1.07 音进行测试的结果见表1 SDC(7-1-36)】 1.47 S℃(7-3-6) 1.13 1.67 S℃(7-3-7) 表1初始模型的测试结果 SDC(7-1-3-7) 1.30 Table 1 Test results of orignalmodel 从表3中可以看出，对于滑动倒谱SC矢量，当特征参数误识率/% 串联倒谱块的数目为5时表现出了最好的性能，当 RASTA-PLP-SDC 237 k继续增加时，系统的识别率略有降低.而对于滑动 RASTA-PLP-SC 1.57 差分倒谱SDC矢量，虽然在控制参数为9-133时 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

语种包含了多种内容体裁. 整个语料库的语音被分成训练集、开发集和测试集 3部分. 训练集包括汉、英、日、德、法、西 6个语种 ,每个语种包括 36～38个说话人 ,每个说话人的语音片段为 30～60 s,每种语言大约有 20 m in的训练语料. 开发集也只包括汉、英、日、德、法、西 6个语种 ,每个语种包含 5名男性和 5名女性的语音 ,每人有 50个平均时长为 4. 5 s 的语音片段. 测试集包括闭集和开集 2个集合. 闭集包括汉、英、日、德、法、西 6个语种 ,与训练集中的语种完全相同 ,而开集则在闭集的基础上增加了俄语和阿拉伯语. 测试集中 ,每个语种包括 10名男性和 10名女性、每人有 50个语音片段 ,每个测试语音片段的平均长度为 4. 5 s. 训练集、开发集和测试集中的说话人没有交叉. 关于语料库的详细介绍请参见文献 [12 ]. 3. 2 对开发集的实验对于开发集的实验主要是考察不同的控制参数组合对 SDC和 SC特征向量的性能的影响 ,利用爬山法确定这 2类特征矢量达到局部最优识别效果时的控制参数组合 ,并对这 2类特征向量采用加权系统数 α进行数据融合. 实验中 ,输入的语音经 16 kHz取样 16 bit量化后进行预加重,用帧长为 25 ms、帧移为 10 ms的汉明窗分帧,计算 13维的 RASTA2PLP参数 (包括 0阶的能量系数 ). 然后 ,取 N 2p2k为 132323构建 SC特征矢量, 利用期望最大算法为每种语言建立 GMM模型. 与此同时 ,在经 RASTA 滤波的感知线性预测 (RASTA2peretep tual linear p rediction, RASTA2PLP) 参数的基础上计算差分倒谱 ,然后取 N 2d2p2k为 132 12323构建 SDC特征矢量 ,并为每种语言建立 GMM 模型. 所有 GMM模型的混合分量数目都为 128. 这样 ,对应于 SC和 SDC控制参数组合的一组初始值分别建立起了系统的初始模型 ,对于开发集中的语音进行测试的结果见表 1. 表 1 初始模型的测试结果 Table 1 Test results of or ig ina l m odel 特征参数误识率 /% RASTA2PLP2SDC 2. 37 RASTA2PLP2SC 1. 57 以下就从系统的初始模型 (SDC和 SC的控制参数组合分别为 13212323和 132323)出发 ,依次调整特征向量的控制参数 ,考察它们对性能的影响. 3. 2. 1 参数 N 对性能的影响首先 ,保持 2类特征向量的其他控制参数不变 , 只调整参数 N 的取值 ,得到测试结果如表 2所示. 从表 2中可以看出 ,对于普遍使用的 13维的 RAS2 TA2PLP倒谱系数 ,其 SDC和 SC特征矢量并没有表现出最好的识别性能 ,而是在阶数比较少的情况下 (分别是 9维和 7维 ) SDC和 SC参数获得了比较好的识别效果. 这说明 ,对于 SC和 SDC,比较少的系数已经包含了充分的识别信息 ,信息冗余反而会造成识别性能下降. 表 2 参数 N 对性能的影响 Table 2 Effect of N on performance 特征参数误识率 /% 特征参数误识率 /% SDC (13212323) 2. 37 SC (132323) 1. 57 SDC (10212323) 2. 17 SC (102323) 1. 73 SDC (9212323) 2. 07 SC (92323) 1. 53 SDC (8212323) 2. 57 SC (72323) 1. 50 SDC (7212323) 2. 33 SC (62323) 2. 43 3. 2. 2 参数 k对性能的影响对于 SC特征矢量 ,使控制参数在组合 72323的基础上调整 k的取值 ,而对于 SDC特征矢量 ,以前的研究中 [ 2, 729 ]得到的 N 的优化数值为 7,所以本实验中取 SDC的控制参数分别为 7212323和 9212323 为初值 ,然后调整 k的取值 ,利用开发集中的语音进行测试得到了表 3中所列的结果. 表 3 参数 k对性能的影响 Table 3 Effect of k on performance 特征参数误识率 /% 特征参数误识率 /% SDC (9212325) 1. 77 SC (72323) 1. 50 SDC (7212325) 1. 53 SC (72325) 1. 07 SDC (7212326) 1. 47 SC (72326) 1. 13 SDC (7212327) 1. 67 SC (72327) 1. 30 从表 3中可以看出 ,对于滑动倒谱 SC矢量 ,当串联倒谱块的数目为 5时表现出了最好的性能 ,当 k继续增加时 ,系统的识别率略有降低. 而对于滑动差分倒谱 SDC矢量 ,虽然在控制参数为 9212323时 · 833 · 智能系统学报第 3卷

第4期王洪海，等：基于滑动倒谱的自动语言辨识 ·339 的识别效果好于7-133，但是，当k增加到5时，由爬山法可以比较快捷地得到一个局部最优的参数组 SDC(7-13-5)得到的改善效果明显好于SDC(9-13- 合.通过3.22节的实验可知，局部最优的参数未必 5).因此，接下来继续对SDC(71-36)和SDC(71- 是全局最优的.有时需要利用经验知识对搜索方向 3-7)进行测试，并由此确认SDC(7-1-36)可以达到进行调整.图1给出了利用爬山法和经验知识进行局部最优的识别效果搜索确定的控制参数优化路径，并标出了对应的控 3.23参数p对性能的影响制参数是相邻倒谱块的相对滑动帧数，它确定了进 3.5 +SC 3.0 SDC 行信息融合的前后帧的时移.确定最佳的p值可以 13-1-3-3 2.5 -、。9-J-3-3 说明前后哪些帧的参数具有最大的互补性.在SDC 2.0 、7-1-367-1-26 和SC特征矢量的控制参数分别取7-136和7-3-5 1.5 1.0 13-3-37-33 的基础上调整p的取值，测试结果如表4所示 7-3-57-2-5 0.5 表4参数p对性能的影响 2 3 4 5 Table 4 Effect ofp on performance 优化步骤特征参数误识率/% 特征参数误识率/% 图1SC和DC控制参数优化的路径 DC(7-136) 1.47 SC(7-3-5) 1.07 Fig 1 Optmizing path of control parameters of SC and SDC SDC(7-126) 1.40 8℃(7-2-5) 103 DC(7-1-16) 1.90 SC(7-1-5) 117 3.25SC与SDC矢量的数据融合从表4中可以看出，滑动2帧的倒谱块参数具利用以上实验中性能达到局部最优的SC(72 有最大的互补性，这些互补性的信息融合在一个SC 5)参数所建立的模型作为一个子系统（标注为特征向量内可以达到比较好的识别效果.与SC特 Sub1),然后与采用SDC(7-1-26)参数建立的子系征向量一样，SDC特征向量也需要融合滑动2帧的统（标注为Sub2)进行决策级数据融合，2个子系统差分倒谱块才能达到比较好的效果使用的分类器都是混合分量数为128的GMM融合 3.24参数d对SDC矢量性能的影响方式采用线性加权组合，即： DC矢量比SC矢量多了一个控制参数d,它是计算差分倒谱的时移.当d值变化时对DC(7-X S=Ssubl +a XSsub2. (4) 式中：Ssb1和S分别代表2个子系统的得分，S为 2-6)矢量性能的影响如表5所示表5参数d对SDC性能的影响数据融合之后系统的总得分.式(4)表示首先固定 Table 5 Effect of d on perfommance of SDC Sub1子系统的加权系数为1，然后调整Sub2子系统的加权系数α，使融合后的识别效果达到全局或局特征参数误识率/% DC(7-126) 140 部最优.加权系数a采用搜索算法确定，即从ā=1 SDC(7-22-6) 233 开始，按01的步长增加或降低a的取值，使系统的从表5可以看出，按照前后帧的时移间隔计算识别率逐步增加，直到达到一个局部最优的结果.表差分倒谱可以使SDC特征向量获得比较好的性能， 6给出了最终确定的加权系数及对应的测试结果从以上实验可以看出，调整滑动倒谱$C℃和滑表6决策级数据融合动差分倒谱SDC的控制参数可以使系统的识别率 Table 6 Data fusion on dec ision level 得到明显的改善.对于特定的语音语料库和识别任特征参数加权系数ā误识率/% 务，SDC矢量和SC矢量应当各自存在一个最优的 SC(7-2-5) … 103 参数组合，使系统的识别性能达到最佳.但是，最优 ①C(7-1-26) 1.40 数据融合 01 097 的控制参数需要长时间的搜索才能确定.一般通过 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

的识别效果好于 7212323,但是 ,当 k增加到 5时 ,由 SDC (7212325)得到的改善效果明显好于 SDC (921232 5). 因此 ,接下来继续对 SDC (7212326)和 SDC (7212 327)进行测试 ,并由此确认 SDC ( 7212326)可以达到局部最优的识别效果. 3. 2. 3 参数 p对性能的影响 p是相邻倒谱块的相对滑动帧数 , 它确定了进行信息融合的前后帧的时移. 确定最佳的 p值可以说明前后哪些帧的参数具有最大的互补性. 在 SDC 和 SC特征矢量的控制参数分别取 7212326和 72325 的基础上调整 p的取值 ,测试结果如表 4所示. 表 4 参数 p对性能的影响 Table 4 Effect ofp on performance 特征参数误识率 /% 特征参数误识率 /% SDC (7212326) 1. 47 SC (72325) 1. 07 SDC (7212226) 1. 40 SC (72225) 1. 03 SDC (7212126) 1. 90 SC (72125) 1. 17 从表 4中可以看出 ,滑动 2帧的倒谱块参数具有最大的互补性 ,这些互补性的信息融合在一个 SC 特征向量内可以达到比较好的识别效果. 与 SC特征向量一样 , SDC特征向量也需要融合滑动 2帧的差分倒谱块才能达到比较好的效果. 3. 2. 4 参数 d对 SDC矢量性能的影响 SDC矢量比 SC矢量多了一个控制参数 d ,它是计算差分倒谱的时移. 当 d值变化时对 SDC (72X2 226)矢量性能的影响如表 5所示. 表 5 参数 d对 SDC性能的影响 Table 5 Effect of d on performance of SDC 特征参数误识率 /% SDC (7212226) 1. 40 SDC (7222226) 2. 33 从表 5可以看出 ,按照前后帧的时移间隔计算差分倒谱可以使 SDC特征向量获得比较好的性能. 从以上实验可以看出 ,调整滑动倒谱 SC和滑动差分倒谱 SDC的控制参数可以使系统的识别率得到明显的改善. 对于特定的语音语料库和识别任务 , SDC矢量和 SC矢量应当各自存在一个最优的参数组合 ,使系统的识别性能达到最佳. 但是 ,最优的控制参数需要长时间的搜索才能确定. 一般通过爬山法可以比较快捷地得到一个局部最优的参数组合. 通过 3. 2. 2节的实验可知 ,局部最优的参数未必是全局最优的. 有时需要利用经验知识对搜索方向进行调整. 图 1给出了利用爬山法和经验知识进行搜索确定的控制参数优化路径 ,并标出了对应的控制参数. 图 1 SC和 SDC控制参数优化的路径 Fig. 1 Op timizing path of control parameters of SC and SDC 3. 2. 5 SC与 SDC矢量的数据融合利用以上实验中性能达到局部最优的 SC (7222 5)参数所建立的模型作为一个子系统 (标注为 Sub1) ,然后与采用 SDC ( 7212226)参数建立的子系统 (标注为 Sub2)进行决策级数据融合 , 2个子系统使用的分类器都是混合分量数为 128的 GMM. 融合方式采用线性加权组合 ,即 : S = SSub1 +α ×SSub2 . (4) 式中 : SSub1和 SSub2分别代表 2个子系统的得分 , S为数据融合之后系统的总得分. 式 ( 4)表示首先固定 Sub1子系统的加权系数为 1,然后调整 Sub2子系统的加权系数 α,使融合后的识别效果达到全局或局部最优. 加权系数 α采用搜索算法确定 ,即从 α = 1 开始 ,按 0. 1的步长增加或降低α的取值 ,使系统的识别率逐步增加 ,直到达到一个局部最优的结果. 表 6给出了最终确定的加权系数及对应的测试结果. 表 6 决策级数据融合 Table 6 Da ta fusion on dec ision level 特征参数加权系数 α 误识率 /% SC (72225) … 1. 03 SDC (7212226) … 1. 40 数据融合 0. 1 0. 97 第 4期王洪海 ,等 :基于滑动倒谱的自动语言辨识 · 933 ·

·340· 智能系统学报第3卷 3.3对测试集的实验后的EER,如表8所示」对测试集的实验分为闭集辨识和开集辨识.对对于初步确认语种属于闭集的语音片段进行进于开集辨识，要求系统首先判决被测语言片段的语一步的识别，以确定其具体的语言种类，得到表9所种是否属于闭集中的注册成员.因此，开集辨识比闭示的识别结果集辨识多了一个确认过程，其正确识别率将有所降表9对测试集的开集辨识结果低，但与实际情况更为接近 Table 9 Iden tifica tion results for the open test set 3.3.1闭集辨识特征参数加权系数a 误识率/% 根据3.2节得到优化结果，分别选取最优的特 S℃(7-2-5)】 833 征参数SC(7-2-5)和SDC(7-1-2-6)建立模型对测 DC(7-126) … 898 数据融合 01 7.85 试集闭集中的数据进行测试，然后再利用优化的加权系数将2类模型进行融合，得到了表7所列出的从表8和表9中可以看出，对于开集辨识的语种测试结果确认过程和识别过程，使用滑动倒谱的效果也好于滑表7对测试集的闭集辨识结果动差分倒谱.并且这2种参数也具有特征互补性，将 Table 7 ldentification results for the closed test set 它们进行数据融合可以进一步改善系统的识别效果】特征参数加权系数a 误识率/% 4结束语 SC(7-2-5) 0 205 DC(7-1-26) 232 从对比实验可以看出，无论对于闭集辨识的测数据融合 01 197 试还是开集辨识的测试，SC参数比SDC参数都表从表7可以看出，滑动倒谱的性能优于滑动差现出了更优越的性能，并且SC参数不需要计算差分倒谱，将滑动倒谱与滑动差分倒谱进行数据融合分倒谱，计算量比SDC参数小，因此，这种参数形式可以进一步提高系统的识别率值得在今后的研究中进一步关注.利用爬山法可以 3.3.2开集辨识方便快捷地对SC和SDC的控制参数进行优化.但在开集辨识中，系统首先根据设定的阈值对被是，这种方法得到的往往是局部最优结果，并且需要测语言片段的语种是否属于闭集做出判决，此时使利用经验知识对搜索方向进行调整.以前的研用拒识率E和误识率E2个参量来表征系统的性究B79指出，DC控制参数的优化组合为713-7，能.调节判决阈值的大小可以得到拒识率和误识率而在本实验中得到的局部最优参数组合为71-26，相等时的等错误率(equal eror rate,EER) 这说明最佳的控制参数组合与系统的识别任务及所根据优化结果，分别选取最优的特征参数SC(7: 使用的语音语料库密切相关.另外，SDC和SC特征 2-5)和SDC(7-1-2-6)建立模型对测试集开集中的语向量中不同的控制参数组合最终反映了特征信息的言片段是否属于闭集中的语种进行表决，在不同的判时序长度和向量中内嵌特征块的间隔，而这2项又决阈值条件下得到不同的拒识率和误识率，通过调节同时受到帧长和帧移的影响.因此，帧长和帧移变化判决阈值的大小得到最后的EER,结果见表& 时，最优的控制参数组合也可能受到影响，最终系统表8对测试集开集的确认结果的性能也会有所变化.而在以前的研究中还没有关 Table 8 Verification results for the open test set 于最优的控制参数组合随帧长和帧移变化的讨论，特征参数加权系数a EER/% 这种变化关系的确定需要进一步研究 SC(725) … 683 DC(7-1-26) … 7.35 数据融合 01 628 参考文献：然后，再利用优化的加权系数将2类模型进行 [1任洪海，刘刚，郭军.自动语言辨识研究方法及发融合，重新设定判决阈值进行表决，得到了数据融合展概述[J].电脑与信息技术，2007,16(2)：37-39 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

3. 3 对测试集的实验对测试集的实验分为闭集辨识和开集辨识. 对于开集辨识 ,要求系统首先判决被测语言片段的语种是否属于闭集中的注册成员. 因此 ,开集辨识比闭集辨识多了一个确认过程 ,其正确识别率将有所降低 ,但与实际情况更为接近. 3. 3. 1 闭集辨识根据 3. 2节得到优化结果 ,分别选取最优的特征参数 SC ( 72225)和 SDC ( 721222 6)建立模型对测试集闭集中的数据进行测试 ,然后再利用优化的加权系数将 2类模型进行融合 ,得到了表 7所列出的测试结果. 表 7 对测试集的闭集辨识结果 Table 7 Iden tifica tion results for the closed test set 特征参数加权系数 α 误识率 /% SC (72225) … 2. 05 SDC (7212226) … 2. 32 数据融合 0. 1 1. 97 从表 7可以看出 ,滑动倒谱的性能优于滑动差分倒谱 ,将滑动倒谱与滑动差分倒谱进行数据融合可以进一步提高系统的识别率. 3. 3. 2 开集辨识在开集辨识中 ,系统首先根据设定的阈值对被测语言片段的语种是否属于闭集做出判决 ,此时使用拒识率 EFJ和误识率 EFA 2个参量来表征系统的性能. 调节判决阈值的大小可以得到拒识率和误识率相等时的等错误率 ( equal error rate, EER). 根据优化结果 ,分别选取最优的特征参数 SC (72 225)和 SDC (7212226)建立模型对测试集开集中的语言片段是否属于闭集中的语种进行表决 ,在不同的判决阈值条件下得到不同的拒识率和误识率. 通过调节判决阈值的大小得到最后的 EER,结果见表 8. 表 8 对测试集开集的确认结果 Table 8 Ver ifica tion results for the open test set 特征参数加权系数 α EER /% SC (72225) … 6. 83 SDC (7212226) … 7. 35 数据融合 0. 1 6. 28 然后 ,再利用优化的加权系数将 2类模型进行融合 ,重新设定判决阈值进行表决 ,得到了数据融合后的 EER,如表 8所示. 对于初步确认语种属于闭集的语音片段进行进一步的识别 ,以确定其具体的语言种类 ,得到表 9所示的识别结果. 表 9 对测试集的开集辨识结果 Table 9 Iden tifica tion results for the open test set 特征参数加权系数 α 误识率 /% SC (72225) … 8. 33 SDC (7212226) … 8. 98 数据融合 0. 1 7. 85 从表 8和表 9中可以看出 ,对于开集辨识的语种确认过程和识别过程 ,使用滑动倒谱的效果也好于滑动差分倒谱. 并且这 2种参数也具有特征互补性 ,将它们进行数据融合可以进一步改善系统的识别效果. 4 结束语从对比实验可以看出 ,无论对于闭集辨识的测试还是开集辨识的测试 , SC参数比 SDC参数都表现出了更优越的性能 ,并且 SC参数不需要计算差分倒谱 ,计算量比 SDC参数小 ,因此 ,这种参数形式值得在今后的研究中进一步关注. 利用爬山法可以方便快捷地对 SC和 SDC的控制参数进行优化. 但是 ,这种方法得到的往往是局部最优结果 ,并且需要利用经验知识对搜索方向进行调整. 以前的研究 [ 2, 729 ]指出 , SDC控制参数的优化组合为 7212327, 而在本实验中得到的局部最优参数组合为 7212226, 这说明最佳的控制参数组合与系统的识别任务及所使用的语音语料库密切相关. 另外 , SDC和 SC特征向量中不同的控制参数组合最终反映了特征信息的时序长度和向量中内嵌特征块的间隔 ,而这 2项又同时受到帧长和帧移的影响. 因此 ,帧长和帧移变化时 ,最优的控制参数组合也可能受到影响 ,最终系统的性能也会有所变化. 而在以前的研究中还没有关于最优的控制参数组合随帧长和帧移变化的讨论 , 这种变化关系的确定需要进一步研究. 参考文献 : [ 1 ]王洪海 , 刘刚 , 郭军. 自动语言辨识研究方法及发展概述 [J ]. 电脑与信息技术 , 2007, 16 (2) : 37239. · 043 · 智能系统学报第 3卷

第4期王洪海，等：基于滑动倒谱的自动语言辨识 ·341· WANG Honghai,LI Gang.GO Jun Overview of ap- [10 JWU Tingyao,COMPERNOLLE D V,DUCHATEAU J,et al proaches o autmatic language identification and recent de- Spectral change representaton and feature selection for ac- vebpment [J ]Computer and Infomation Technology, cent ldentification tasks[C]//Proc of the Workshop on 2007,16(2):37-39 Modeling for the ldentification ofLanguages Paris,2004: [2]SNGER E,TORRES C,GLEASON T P,et al Acoustic 57-61 phonetic and discri inative appoaches autmatic lan- [11]FURU I S Recent advances in speaker recognition [C]// guage recognition[C]//Proc of Eurospeech Geneva,2003: Proc of the First Intemational Conference on Audio-and 1345-1348 Video-based Biometric Person Authentication S I ] [3]TORRES-CARRASQU LLO P A,SNGER E,KOHLER M 1997:237-252 A,et al Appoaches to language identification using [12正洪海.基于声学特征的自动语言辨识研究[D]北 Gaussian mixture models and shifted delta cepstral features 京：北京邮电大学，2007. [C]//Proc of CCSLP Denver,USA,2002:89-92 WANG Honghai Acoustic-based research on automatic [4]KOHLER M A.Language identification using shifted delta language lientificaton [D].Beijing Beijing University of cepstra[C ]/Proc of M idwest Symposium on Circuits and Posts and Telecommunications,2007. Systems[S11,2002:69-72 作者简介： [5]ZISSMAN M A.Comparison of four appoaches o automatic 王洪海，男，1970年生，高级工程 language identification of telephone speech [J ]IEEE Trans 师，主要研究方向为自动语言辨识，发 on Speech and Audio Processing,1996,4(1):31-44 表学术论文近10篇」 [6 ]BO Yin,EL ATHAMBYA,FANG Chen Combining ceps- tral and prosodic features in language identification [C]// Proc of 18th Intemational Conference on Pattem Recogni- tion Hongkong,2006:254-257 刘刚，男，1973年生，副教授，主 [7]CAMPBELLI W,GLEASON T,NAVRATLI J,et al Ad- 要研究方向为语音识别、文字识别、语 vanced language recogniton using cepstra and phonotactics 音合成等。 MIILL Syste Perfomance on the N IST2005 Language Reoog- nition Evaluation [C]//Proc of Odyssey:The Speaker and Language Recognition Workshop.San Juan,Ruero Rico,2006: 1-8 郭军，男，1959年生，教授，博士生 [8]BURGET L,MATEJKA P,CERNOCKY J.Discrm inative 导师，北京市中高级职称评审委员会计 training techniques for acoustic language identification 算机组副组长，主要研究方向为模式识 [C]/Proc of CASSP.[s1],2006:209-212 别、网络控制与管理等.主持开发的基于 [9 MATEJKA P,BURGETL,SCHWARZ P,et al Bmo uni 整形变换的手写汉字识别方法在对日本 versity of technobgy system orN IST 2005 language recogni- 国家标准汉字数据库EI9的测试中获 tion evaluation C]//Proc of Odyssey:The Speaker and 最高识别率，在1995年全国评测中获得 Language Recognition Workshop.San Juan,Ruerto R ico, 识别率第1名. 2006:57-64 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

WANG Honghai, L IU Gang, GUO Jun. Overview of ap2 p roaches to automatic language identification and recent de2 velopment [ J ]. Computer and Information Technology, 2007, 16 (2) : 37239. [ 2 ] SINGER E, TORRES C, GLEASON T P, et al. Acoustic phonetic and discriminative app roaches to automatic lan2 guage recognition[C ] / /Proc of Eurospeech. Geneva, 2003: 134521348. [ 3 ] TORRES2CARRASQU ILLO P A, SINGER E, KOHLER M A, et al. App roaches to language identification using Gaussian m ixture models and shifted delta cep stral features [C ] / / Proc of ICSLP. Denver, USA, 2002: 89292. [ 4 ] KOHLER M A. Language identification using shifted delta cep stra [ C ] / / Proc of M idwest Symposium on Circuits and Systems. [ S. l. ], 2002: 69272. [ 5 ] ZISSMAN M A. Comparison of four app roaches to automatic language identification of telephone speech [J ]. IEEE Trans on Speech and Audio Processing, 1996, 4 (1) : 31244. [ 6 ]BO Yin, EL IATHAMBY A, FANG Chen. Combining cep s2 tral and p rosodic features in language identification [ C ] / / Proc of 18 th International Conference on Pattern Recogni2 tion. Hongkong, 2006: 2542257. [7 ] CAMPBELLl W, GLEASON T, NAVRATILl J, et al. Ad2 vanced language recognition using cep stra and phonotactics: M ITLL System Performance on the N IST 2005 Language Recog2 nition Evaluation [ C ] / / Proc of Odyssey: The Speaker and Language RecognitionWorkshop. San Juan, Ruerto Rico, 2006: 128. [ 8 ]BURGET L, MATEJKA P, CERNOCKY J. D iscrim inative training techniques for acoustic language identification [C ] / / Proc of ICASSP. [ S. l. ], 2006: 2092212. [ 9 ]MATEJKA P, BURGET L, SCHWARZ P, et al. Brno uni2 versity of technology system forN IST 2005 language recogni2 tion evaluation [ C ] / / Proc of Odyssey: The Speaker and Language Recognition Workshop. San Juan, Ruerto Rico , 2006: 57264. [ 10 ]WU Tingyao, COMPERNOLLE D V, DUCHATEAU J, et al. Spectral change rep resentation and feature selection for ac2 cent Identification tasks[ C ] / / Proc of the Workshop on Modeling for the Identification of Languages. Paris, 2004: 57261. [ 11 ] FURU I S. Recent advances in speaker recognition [ C ] / / Proc of the First International Conference on Audio2 and V ideo2based Biometric Person Authentication. [ S. l. ], 1997: 2372252. [ 12 ]王洪海. 基于声学特征的自动语言辨识研究 [D ]. 北京 :北京邮电大学 , 2007 . WANG Honghai. Acoustic2based research on automatic language Iientification [D ]. Beijing: Beijing University of Posts and Telecommunications, 2007. 作者简介 : 王洪海 ,男 , 1970 年生 ,高级工程师 ,主要研究方向为自动语言辨识 ,发表学术论文近 10篇. 刘刚 ,男 , 1973年生 ,副教授 ,主要研究方向为语音识别、文字识别、语音合成等. 郭军 ,男 , 1959年生 ,教授 ,博士生导师 ,北京市中高级职称评审委员会计算机组副组长 ,主要研究方向为模式识别、网络控制与管理等. 主持开发的基于整形变换的手写汉字识别方法在对日本国家标准汉字数据库 ETL9的测试中获最高识别率 ,在 1995年全国评测中获得识别率第 1名. 第 4期王洪海 ,等 :基于滑动倒谱的自动语言辨识 · 143 ·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录