第3卷第4期 智能系统学报 Vol 3 Ng 4 2008年8月 CAA I Transactions on Intelligent Systems Aug 2008 基于滑动倒谱的自动语言辨识 王洪海,刘刚,郭军 北京邮电大学信息工程学院,北京100876) 摘要:滑动差分倒谱在自动语言辨识的研究中获得了广泛的应用.但是滑动差分倒谱并没有利用语音信号的静态 倒谱信息,在方言辨识中的研究表明静态倒谱比差分倒谱含有更多的特征信息.为此提出了滑动倒谱($℃)的概念, 并与滑动差分倒谱特征矢量进行了对比研究.首先利用开发集的语音考察了滑动差分倒谱和滑动倒谱的控制参数 在不同取值的情况下对识别性能的影响,利用爬山法确定了这2类特征矢量达到局部最优控制参数组合的路径,然 后利用测试集的数据对优化后的2类特征矢量建立的模型进行了闭集辨识和开集辨识.2种情况下的测试结果都表 明滑动倒谱的性能优于滑动差分倒谱.并且这2种参数还具有特征互补性,将它们进行决策级数据融合可以进一步 提高系统的性能」 关键词:自动语言辨识;滑动倒谱;滑动差分倒谱;高斯混合模型 中图分类号:1P39142文献标识码:A文章编号:1673-4785(2008)04-0336-06 Automa tic language identifica tion usng shifted cepstra WANG Hong-hai,LIU Gang,GUO Jun Infomation Engineering College,Beijing University of Posts and Telecommunications,Beijing 100876,China) Abstract:Shifted delta cepstra have been widely used in automatic language identification,but only delta cepstrm infomation is emp lyed Research on accent identification revealed that detailed cepstrum is more infomative than delta cepstrum.So shifted cepstrum was proposed and comparative study was conducted beteen these to cepstra Effects of their control parameters on recognition perlomance were investigated with speech data in the development set The best paths of these wo vectors to reach a bcally optmal control parameter combination were detem ined with the hill-clmbing method Comparative tests perfomed with speech data both in the cbsed test set and open test set demonstrated that shifted cepstra is superior to shifted delta cepstra In addition,they are mutually comp le- mentary and data fusion at the decision level could further mprove the perfomance of the system. Keywords:automatic language identification;shifted cepstra;shifted delta cepstra;Gaussian m ixture model 基于声学特征的方法是自动语言辨识(uo~别完全可以做到实时处理,而基于并行的音素识别 matic language identificatin,ALD)研究中经常采用结合语言模型(parallel phoneme recognition follwed 的一种方法.它直接利用不同语言之间的频谱或 by language modeling,PPRLM)的系统则需要14倍 倒谱差异作为语言识别的依据,因而具有计算复杂的实时处理时间2).尤其是随着滑动差分倒谱(h正 度低、可移植性好及不需要音素标注的训练语料等 ted delta cepstra,SDC)参数在ALD研究中的成功应 优点.实验表明,基于声学特征的高斯混合模型 用,使得基于声学特征的研究方法获得了突破性的 (Gaussian m ixture model,GMM)对l2种语言的识 进展13).在2003年美国国家标准与技术协会(Na 收稿日期:2007-06-28 tional Institute of Standards and Technobgy,N IST) 基金项目:“十一五国家863计划重点项目课题(2006AA010102) 织的自动语言辨识系统评测中,采用SDC参数的 通信作者:王洪海.Email greegrassw@sina com. 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
第 3卷第 4期 智 能 系 统 学 报 Vol. 3 №. 4 2008年 8月 CAA I Transactions on Intelligent System s Aug. 2008 基于滑动倒谱的自动语言辨识 王洪海 ,刘 刚 ,郭 军 (北京邮电大学 信息工程学院 ,北京 100876) 摘 要 :滑动差分倒谱在自动语言辨识的研究中获得了广泛的应用. 但是滑动差分倒谱并没有利用语音信号的静态 倒谱信息 ,在方言辨识中的研究表明静态倒谱比差分倒谱含有更多的特征信息. 为此 ,提出了滑动倒谱 ( SC)的概念 , 并与滑动差分倒谱特征矢量进行了对比研究. 首先利用开发集的语音考察了滑动差分倒谱和滑动倒谱的控制参数 在不同取值的情况下对识别性能的影响 ,利用爬山法确定了这 2类特征矢量达到局部最优控制参数组合的路径 ,然 后利用测试集的数据对优化后的 2类特征矢量建立的模型进行了闭集辨识和开集辨识. 2种情况下的测试结果都表 明滑动倒谱的性能优于滑动差分倒谱. 并且这 2种参数还具有特征互补性 ,将它们进行决策级数据融合可以进一步 提高系统的性能. 关键词 :自动语言辨识 ;滑动倒谱 ;滑动差分倒谱 ;高斯混合模型 中图分类号 : TP391. 42 文献标识码 : A 文章编号 : 167324785 (2008) 0420336206 Automatic language identification using shifted cepstra WANG Hong2hai, L IU Gang, GUO Jun ( Information Engineering College, Beijing University of Posts and Telecommunications, Beijing 100876, China) Abstract:Shifted delta cep stra have been widely used in automatic language identification, but only delta cep strum information is emp loyed. Research on accent identification revealed that detailed cep strum ismore informative than delta cep strum. So shifted cep strum was p roposed and comparative study was conducted between these two cep stra. Effects of their control parameters on recognition performance were investigated with speech data in the development set. The best paths of these two vectors to reach a locally op timal control parameter combination were determ ined with the hill2climbing method. Comparative tests performed with speech data both in the closed test set and open test set demonstrated that shifted cep stra is superior to shifted delta cep stra. In addition, they are mutually comp le2 mentary and data fusion at the decision level could further imp rove the performance of the system. Keywords: automatic language identification; shifted cep stra; shifted delta cep stra; Gaussian m ixture model 收稿日期 : 2007206228. 基金项目 :“十一五 ”国家 863计划重点项目课题 (2006AA010102) 通信作者 :王洪海. E2mail: greegrassw@ sina. com. 基于声学特征的方法是自动语言辨识 ( auto2 matic language identification, AL ID)研究中经常采用 的一种方法 [ 1 ] . 它直接利用不同语言之间的频谱或 倒谱差异作为语言识别的依据 ,因而具有计算复杂 度低、可移植性好及不需要音素标注的训练语料等 优点. 实验表明 ,基于声学特征的高斯混合模型 ( Gaussian m ixture model , GMM )对 12种语言的识 别完全可以做到实时处理 ,而基于并行的音素识别 结合语言模型 (parallel phoneme recognition followed by language modeling , PPRLM)的系统则需要 14倍 的实时处理时间 [ 2 ] . 尤其是随着滑动差分倒谱 ( shif2 ted delta cep stra, SDC)参数在 AL ID研究中的成功应 用 ,使得基于声学特征的研究方法获得了突破性的 进展 [ 324 ] . 在 2003年美国国家标准与技术协会 (Na2 tional Institute of Standards and Technology, N IST)组 织的自动语言辨识系统评测中 ,采用 SDC参数的
第4期 王洪海,等:基于滑动倒谱的自动语言辨识 ·337 GMM方法获得了比PPRLM方法更好的识别效 合对系统识别性能的影响不同.最佳的参数组合与 果1,改变了人们长期以来的观点们.如今,DC参 所要识别的语言类型有关 数在ALD研究中获得了广泛的应用【6] 2滑动倒谱 SDC是差分倒谱系数的扩展,它同时考虑了前 后帧差分倒谱的影响,具有融合长时序信息特征的 根据SDC的思想可以直接在静态倒谱的基础 能力.但是,SDC只利用了差分倒谱信息,即语音信 上构建滑动倒谱SC,即直接在每一帧内串联k块倒 号的动态特性,并没有考虑语音信号的静态特性,即 谱系数,其中每块倒谱向后滑动了p帧,其表达式为 频谱倒频谱信息.而WU Tingyao等人在方言识别 S()=ICo(,C(,…,Cx.1(),Co(1+p, 中的研究表明,详细刻画的频谱倒频谱比差分倒谱 C(1+pl,…Cw.1(1+pl,Co(1+ 包含更多的信息o.Matejka Pavel等人在语言辨识 (k-1)p,C1(1+(k-1p以,g 的研究中将美尔倒频谱系数(Mel frequency cepstral Cw.1(1+(k-1)pl1 (3) coeffic ients,MFCC)与SDC系数结合在一起获得了 式中:G()是第帧语音中第个倒谱系数.这样, 比单独的DC更好的识别效果)因此,本文根据 每帧内的倒谱系数由N个扩展到了WN个.SC特征 SDC的思想提出了滑动倒谱(shifted cepstra,SC)的 向量由3个参数确定:每帧语音中包含的倒谱系数 概念,与目前研究中常用的SDC特征矢量进行了对 个数N,倒谱块的滑动帧数p和一个SC特征向量中 比研究 包含的差分倒谱块的个数k 1滑动差分倒谱 从滑动倒谱的构成可以看出,它与滑动差分倒 谱一样,可以在一个特征向量内融入比较长的时序 滑动差分倒谱参数由若干块跨多帧语音的差分 信息,因而它能够刻画长时间间隔的过渡期信息特 倒谱组成,这样在一个特征矢量内包含多帧语音的 征.听觉实验研究表明,人类的听觉特性对语音频谱 长时声学信息.差分倒谱参数一般通过式(1)计算: 的过渡信息非常敏感,虽然差分倒谱参数可以描述 6()=C(t+d)-C(t-d), 50~100ms时间间隔的过渡信息特征,但是它却无 j=0,1,…N-1 1) 法刻画更长时间间隔如200~300ms的长过渡期信 式中:C,()是第帧语音中第个倒谱系数,每帧语 息特征,而这种长过渡期信息对应着音素到音素、音 音中包含N个倒谱系数 节到音节的过渡信息.Fuui曾认为,如何采用一种 滑动差分倒谱通过串联k块差分倒谱在一帧内 特征参数形式描述长过渡期的语音信息特征是一个 对差分倒谱进行了扩展,其中每块差分倒谱向后滑 有待解决的问题口.而从SDC和SC特征向量的结 动了p帧,其表达式为 构特性来分析,这2种参数形式为解决这一问题提 S)=[(),8(,…⑧.1(),⑨(1+pl, 供了借鉴思路,因为它们都能够融合长时间间隔的 8(1+pl,…,⑨.1(1+p以,8(1+ 信息特征.至于需要这2种参数形式刻画多长时间 (k-)p,8(1+(k-1)p,s 间隔的过渡期特征,可以结合具体的任务系统通过 6.1(1+(k-1)p吵1 2) 实验调整这2种特征向量的控制参数组合来实现, 这样,每帧内的差分倒谱系数由N个扩展到了W 3实验和分析 个.DC特征向量由4个参数确定:每帧语音中包含 的倒谱系数个数N,计算差分倒谱的时移d差分倒 31语音语料库 谱块的滑动帧数p和一个SDC特征向量中包含的 实验中所用的汉语语音来源于863汉语普通话 差分倒谱块的个数k 语料库,英语、日语、德语、法语、西班牙语、俄语和阿 Kohler等人的研究表明,不同的N-dpk参数组 拉伯语等7个语种的语音是从网络上采集的,每个 C 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
GMM 方法获得了比 PPRLM 方法更好的识别效 果 [ 2 ] ,改变了人们长期以来的观点 [ 5 ] . 如今 , SDC参 数在 AL ID研究中获得了广泛的应用 [ 6~9 ] . SDC是差分倒谱系数的扩展 ,它同时考虑了前 后帧差分倒谱的影响 ,具有融合长时序信息特征的 能力. 但是 , SDC只利用了差分倒谱信息 ,即语音信 号的动态特性 ,并没有考虑语音信号的静态特性 ,即 频谱 /倒频谱信息. 而 WU Tingyao等人在方言识别 中的研究表明 ,详细刻画的频谱 /倒频谱比差分倒谱 包含更多的信息 [ 10 ] . Matejka Pavel等人在语言辨识 的研究中将美尔倒频谱系数 (Mel frequency cep stral coefficients, MFCC)与 SDC系数结合在一起获得了 比单独的 SDC更好的识别效果 [ 7 ] . 因此 ,本文根据 SDC的思想提出了滑动倒谱 ( shifted cep stra, SC)的 概念 ,与目前研究中常用的 SDC特征矢量进行了对 比研究. 1 滑动差分倒谱 滑动差分倒谱参数由若干块跨多帧语音的差分 倒谱组成 ,这样在一个特征矢量内包含多帧语音的 长时声学信息. 差分倒谱参数一般通过式 (1)计算 : δj ( t) =Cj ( t + d) - Cj ( t - d) , j = 0, 1, …, N - 1. (1) 式中 : Cj ( t)是第 t帧语音中第 j个倒谱系数 ,每帧语 音中包含 N 个倒谱系数. 滑动差分倒谱通过串联 k块差分倒谱在一帧内 对差分倒谱进行了扩展 ,其中每块差分倒谱向后滑 动了 p帧 ,其表达式为 S ( t) = [δ0 ( t) ,δ1 ( t) , …,δN - 1 ( t) , δ0 ( t + p) , δ1 ( t + p) , …, δN - 1 ( t + p) ,δ0 ( t + ( k - 1) p) ,δ1 ( t + ( k - 1) p) , …, δN - 1 ( t + ( k - 1) p) ]. (2) 这样 ,每帧内的差分倒谱系数由 N 个扩展到了 kN 个. SDC特征向量由 4个参数确定 :每帧语音中包含 的倒谱系数个数 N,计算差分倒谱的时移 d,差分倒 谱块的滑动帧数 p和一个 SDC特征向量中包含的 差分倒谱块的个数 k. Kohler等人的研究表明 ,不同的 N 2d2p2k参数组 合对系统识别性能的影响不同. 最佳的参数组合与 所要识别的语言类型有关 [ 4 ] . 2 滑动倒谱 根据 SDC的思想可以直接在静态倒谱的基础 上构建滑动倒谱 SC,即直接在每一帧内串联 k块倒 谱系数 ,其中每块倒谱向后滑动了 p帧 ,其表达式为 S ( t) = [C0 ( t) , C1 ( t) , …, CN - 1 ( t) , C0 ( t + p) , C1 ( t + p) , …, CN - 1 ( t + p) , C0 ( t + ( k - 1) p) , C1 ( t + ( k - 1) p) , …, CN - 1 ( t + ( k - 1) p) ]. (3) 式中 : Cj ( t)是第 t帧语音中第 j个倒谱系数. 这样 , 每帧内的倒谱系数由 N 个扩展到了 kN 个. SC特征 向量由 3个参数确定 :每帧语音中包含的倒谱系数 个数 N,倒谱块的滑动帧数 p和一个 SC特征向量中 包含的差分倒谱块的个数 k. 从滑动倒谱的构成可以看出 ,它与滑动差分倒 谱一样 ,可以在一个特征向量内融入比较长的时序 信息 ,因而它能够刻画长时间间隔的过渡期信息特 征. 听觉实验研究表明 ,人类的听觉特性对语音频谱 的过渡信息非常敏感 ,虽然差分倒谱参数可以描述 50~100 m s时间间隔的过渡信息特征 ,但是它却无 法刻画更长时间间隔如 200~300 m s的长过渡期信 息特征 ,而这种长过渡期信息对应着音素到音素、音 节到音节的过渡信息. Furui曾认为 ,如何采用一种 特征参数形式描述长过渡期的语音信息特征是一个 有待解决的问题 [ 11 ] . 而从 SDC和 SC特征向量的结 构特性来分析 ,这 2种参数形式为解决这一问题提 供了借鉴思路 ,因为它们都能够融合长时间间隔的 信息特征. 至于需要这 2种参数形式刻画多长时间 间隔的过渡期特征 ,可以结合具体的任务系统通过 实验调整这 2种特征向量的控制参数组合来实现. 3 实验和分析 3. 1 语音语料库 实验中所用的汉语语音来源于 863汉语普通话 语料库 ,英语、日语、德语、法语、西班牙语、俄语和阿 拉伯语等 7个语种的语音是从网络上采集的 ,每个 第 4期 王洪海 ,等 :基于滑动倒谱的自动语言辨识 · 733 ·
·338 智能系统学报 第3卷 语种包含了多种内容体裁.整个语料库的语音被分 以下就从系统的初始模型(SDC和SC的控制 成训练集、开发集和测试集3部分.训练集包括汉、 参数组合分别为13-13-3和13-3-3)出发,依次调整 英、日、德、法、西6个语种,每个语种包括36~38个 特征向量的控制参数,考察它们对性能的影响 说话人,每个说话人的语音片段为30~60s每种语 3.21参数N对性能的影响 言大约有20m的训练语料.开发集也只包括汉、 首先,保持2类特征向量的其他控制参数不变, 英、日、德、法、西6个语种,每个语种包含5名男性 只调整参数N的取值,得到测试结果如表2所示 和5名女性的语音,每人有50个平均时长为45s从表2中可以看出,对于普遍使用的13维的RAS 的语音片段.测试集包括闭集和开集2个集合.闭集ALP倒谱系数,其SDC和S℃特征矢量并没有表 包括汉、英、日、德、法、西6个语种,与训练集中的语 现出最好的识别性能,而是在阶数比较少的情况下 种完全相同,而开集则在闭集的基础上增加了俄语 (分别是9维和7维)SDC和SC参数获得了比较好 和阿拉伯语.测试集中,每个语种包括10名男性和 的识别效果.这说明,对于SC和SDC,比较少的系 10名女性、每人有50个语音片段,每个测试语音片 数已经包含了充分的识别信息,信息冗余反而会造 段的平均长度为45s训练集、开发集和测试集中 成识别性能下降 的说话人没有交叉.关于语料库的详细介绍请参见 表2参数N对性能的影响 文献121 Table 2 Effect ofN on perfommance 32对开发集的实验 特征参数 误识率1% 特征参数 误识率/% 对于开发集的实验主要是考察不同的控制参数 DC(13-1-3-3) 237 ℃(13-3-3) 157 组合对SDC和SC特征向量的性能的影响,利用爬 DC(10-1-3-3) 217 S℃(10-3-3)) 173 山法确定这2类特征矢量达到局部最优识别效果时 DC(9-13-3) 207 S℃(9-3-3) 1.53 的控制参数组合,并对这2类特征向量采用加权系 DC(8-1-3-3) 257 S℃(7-3-3) 1.50 统数a进行数据融合 DC(7-1-3-3) 233 9℃(6-3-3) 243 实验中,输入的语音经16kHz取样16bit量化后 3.22参数k对性能的影响 进行预加重,用帧长为25ms帧移为10ms的汉明窗 对于SC特征矢量,使控制参数在组合73-3的 分帧,计算13维的RASTA-LP参数包括0阶的能 基础上调整k的取值,而对于SDC特征矢量,以前 量系数).然后,取Npk为133-3构建SC特征矢量, 的研究中2得到的N的优化数值为7,所以本实 利用期望最大算法为每种语言建立GMM模型 验中取SDC的控制参数分别为7-133和9-1-33 与此同时,在经RASTA滤波的感知线性预测 为初值,然后调整k的取值,利用开发集中的语音进 (RASTA peretep tual linear prediction,RASTA-PLP) 行测试得到了表3中所列的结果 参数的基础上计算差分倒谱,然后取N-dpk为13- 表3参数k对性能的影响 13-3构建SDC特征矢量,并为每种语言建立GMM Table 3 Effect of k on perfommance 模型.所有GMM模型的混合分量数目都为128这 特征参数 误识率/% 特征参数 误识率/% 样,对应于SC和SDC控制参数组合的一组初始值 SDC(9-1-35) 1.77 SC(7-3-3) 1.50 分别建立起了系统的初始模型,对于开发集中的语 sDC(7-1-3-5) 1.53 S℃(7-3-5) 1.07 音进行测试的结果见表1 SDC(7-1-36)】 1.47 S℃(7-3-6) 1.13 1.67 S℃(7-3-7) 表1初始模型的测试结果 SDC(7-1-3-7) 1.30 Table 1 Test results of orignalmodel 从表3中可以看出,对于滑动倒谱SC矢量,当 特征参数 误识率/% 串联倒谱块的数目为5时表现出了最好的性能,当 RASTA-PLP-SDC 237 k继续增加时,系统的识别率略有降低.而对于滑动 RASTA-PLP-SC 1.57 差分倒谱SDC矢量,虽然在控制参数为9-133时 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
语种包含了多种内容体裁. 整个语料库的语音被分 成训练集、开发集和测试集 3部分. 训练集包括汉、 英、日、德、法、西 6个语种 ,每个语种包括 36~38个 说话人 ,每个说话人的语音片段为 30~60 s,每种语 言大约有 20 m in的训练语料. 开发集也只包括汉、 英、日、德、法、西 6个语种 ,每个语种包含 5名男性 和 5名女性的语音 ,每人有 50个平均时长为 4. 5 s 的语音片段. 测试集包括闭集和开集 2个集合. 闭集 包括汉、英、日、德、法、西 6个语种 ,与训练集中的语 种完全相同 ,而开集则在闭集的基础上增加了俄语 和阿拉伯语. 测试集中 ,每个语种包括 10名男性和 10名女性、每人有 50个语音片段 ,每个测试语音片 段的平均长度为 4. 5 s. 训练集、开发集和测试集中 的说话人没有交叉. 关于语料库的详细介绍请参见 文献 [12 ]. 3. 2 对开发集的实验 对于开发集的实验主要是考察不同的控制参数 组合对 SDC和 SC特征向量的性能的影响 ,利用爬 山法确定这 2类特征矢量达到局部最优识别效果时 的控制参数组合 ,并对这 2类特征向量采用加权系 统数 α进行数据融合. 实验中 ,输入的语音经 16 kHz取样 16 bit量化后 进行预加重,用帧长为 25 ms、帧移为 10 ms的汉明窗 分帧,计算 13维的 RASTA2PLP参数 (包括 0阶的能 量系数 ). 然后 ,取 N 2p2k为 132323构建 SC特征矢量, 利用期望最大算法为每种语言建立 GMM模型. 与此同时 ,在经 RASTA 滤波的感知线性预测 (RASTA2peretep tual linear p rediction, RASTA2PLP) 参数的基础上计算差分倒谱 ,然后取 N 2d2p2k为 132 12323构建 SDC特征矢量 ,并为每种语言建立 GMM 模型. 所有 GMM模型的混合分量数目都为 128. 这 样 ,对应于 SC和 SDC控制参数组合的一组初始值 分别建立起了系统的初始模型 ,对于开发集中的语 音进行测试的结果见表 1. 表 1 初始模型的测试结果 Table 1 Test results of or ig ina l m odel 特征参数 误识率 /% RASTA2PLP2SDC 2. 37 RASTA2PLP2SC 1. 57 以下就从系统的初始模型 (SDC和 SC的控制 参数组合分别为 13212323和 132323)出发 ,依次调整 特征向量的控制参数 ,考察它们对性能的影响. 3. 2. 1 参数 N 对性能的影响 首先 ,保持 2类特征向量的其他控制参数不变 , 只调整参数 N 的取值 ,得到测试结果如表 2所示. 从表 2中可以看出 ,对于普遍使用的 13维的 RAS2 TA2PLP倒谱系数 ,其 SDC和 SC特征矢量并没有表 现出最好的识别性能 ,而是在阶数比较少的情况下 (分别是 9维和 7维 ) SDC和 SC参数获得了比较好 的识别效果. 这说明 ,对于 SC和 SDC,比较少的系 数已经包含了充分的识别信息 ,信息冗余反而会造 成识别性能下降. 表 2 参数 N 对性能的影响 Table 2 Effect of N on performance 特征参数 误识率 /% 特征参数 误识率 /% SDC (13212323) 2. 37 SC (132323) 1. 57 SDC (10212323) 2. 17 SC (102323) 1. 73 SDC (9212323) 2. 07 SC (92323) 1. 53 SDC (8212323) 2. 57 SC (72323) 1. 50 SDC (7212323) 2. 33 SC (62323) 2. 43 3. 2. 2 参数 k对性能的影响 对于 SC特征矢量 ,使控制参数在组合 72323的 基础上调整 k的取值 ,而对于 SDC特征矢量 ,以前 的研究中 [ 2, 729 ]得到的 N 的优化数值为 7,所以本实 验中取 SDC的控制参数分别为 7212323和 9212323 为初值 ,然后调整 k的取值 ,利用开发集中的语音进 行测试得到了表 3中所列的结果. 表 3 参数 k对性能的影响 Table 3 Effect of k on performance 特征参数 误识率 /% 特征参数 误识率 /% SDC (9212325) 1. 77 SC (72323) 1. 50 SDC (7212325) 1. 53 SC (72325) 1. 07 SDC (7212326) 1. 47 SC (72326) 1. 13 SDC (7212327) 1. 67 SC (72327) 1. 30 从表 3中可以看出 ,对于滑动倒谱 SC矢量 ,当 串联倒谱块的数目为 5时表现出了最好的性能 ,当 k继续增加时 ,系统的识别率略有降低. 而对于滑动 差分倒谱 SDC矢量 ,虽然在控制参数为 9212323时 · 833 · 智 能 系 统 学 报 第 3卷
第4期 王洪海,等:基于滑动倒谱的自动语言辨识 ·339 的识别效果好于7-133,但是,当k增加到5时,由 爬山法可以比较快捷地得到一个局部最优的参数组 SDC(7-13-5)得到的改善效果明显好于SDC(9-13- 合.通过3.22节的实验可知,局部最优的参数未必 5).因此,接下来继续对SDC(71-36)和SDC(71- 是全局最优的.有时需要利用经验知识对搜索方向 3-7)进行测试,并由此确认SDC(7-1-36)可以达到 进行调整.图1给出了利用爬山法和经验知识进行 局部最优的识别效果 搜索确定的控制参数优化路径,并标出了对应的控 3.23参数p对性能的影响 制参数 是相邻倒谱块的相对滑动帧数,它确定了进 3.5 +SC 3.0 SDC 行信息融合的前后帧的时移.确定最佳的p值可以 13-1-3-3 2.5 -、。9-J-3-3 说明前后哪些帧的参数具有最大的互补性.在SDC 2.0 、7-1-367-1-26 和SC特征矢量的控制参数分别取7-136和7-3-5 1.5 1.0 13-3-37-33 的基础上调整p的取值,测试结果如表4所示 7-3-57-2-5 0.5 表4参数p对性能的影响 2 3 4 5 Table 4 Effect ofp on performance 优化步骤 特征参数 误识率/% 特征参数 误识率/% 图1SC和DC控制参数优化的路径 DC(7-136) 1.47 SC(7-3-5) 1.07 Fig 1 Optmizing path of control parameters of SC and SDC SDC(7-126) 1.40 8℃(7-2-5) 103 DC(7-1-16) 1.90 SC(7-1-5) 117 3.25SC与SDC矢量的数据融合 从表4中可以看出,滑动2帧的倒谱块参数具 利用以上实验中性能达到局部最优的SC(72 有最大的互补性,这些互补性的信息融合在一个SC 5)参数所建立的模型作为一个子系统(标注为 特征向量内可以达到比较好的识别效果.与SC特 Sub1),然后与采用SDC(7-1-26)参数建立的子系 征向量一样,SDC特征向量也需要融合滑动2帧的 统(标注为Sub2)进行决策级数据融合,2个子系统 差分倒谱块才能达到比较好的效果 使用的分类器都是混合分量数为128的GMM融合 3.24参数d对SDC矢量性能的影响 方式采用线性加权组合,即: DC矢量比SC矢量多了一个控制参数d,它 是计算差分倒谱的时移.当d值变化时对DC(7-X S=Ssubl +a XSsub2. (4) 式中:Ssb1和S分别代表2个子系统的得分,S为 2-6)矢量性能的影响如表5所示 表5参数d对SDC性能的影响 数据融合之后系统的总得分.式(4)表示首先固定 Table 5 Effect of d on perfommance of SDC Sub1子系统的加权系数为1,然后调整Sub2子系统 的加权系数α,使融合后的识别效果达到全局或局 特征参数 误识率/% DC(7-126) 140 部最优.加权系数a采用搜索算法确定,即从ā=1 SDC(7-22-6) 233 开始,按01的步长增加或降低a的取值,使系统的 从表5可以看出,按照前后帧的时移间隔计算 识别率逐步增加,直到达到一个局部最优的结果.表 差分倒谱可以使SDC特征向量获得比较好的性能, 6给出了最终确定的加权系数及对应的测试结果 从以上实验可以看出,调整滑动倒谱$C℃和滑 表6决策级数据融合 动差分倒谱SDC的控制参数可以使系统的识别率 Table 6 Data fusion on dec ision level 得到明显的改善.对于特定的语音语料库和识别任 特征参数 加权系数ā误识率/% 务,SDC矢量和SC矢量应当各自存在一个最优的 SC(7-2-5) … 103 参数组合,使系统的识别性能达到最佳.但是,最优 ①C(7-1-26) 1.40 数据融合 01 097 的控制参数需要长时间的搜索才能确定.一般通过 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
的识别效果好于 7212323,但是 ,当 k增加到 5时 ,由 SDC (7212325)得到的改善效果明显好于 SDC (921232 5). 因此 ,接下来继续对 SDC (7212326)和 SDC (7212 327)进行测试 ,并由此确认 SDC ( 7212326)可以达到 局部最优的识别效果. 3. 2. 3 参数 p对性能的影响 p是相邻倒谱块的相对滑动帧数 , 它确定了进 行信息融合的前后帧的时移. 确定最佳的 p值可以 说明前后哪些帧的参数具有最大的互补性. 在 SDC 和 SC特征矢量的控制参数分别取 7212326和 72325 的基础上调整 p的取值 ,测试结果如表 4所示. 表 4 参数 p对性能的影响 Table 4 Effect ofp on performance 特征参数 误识率 /% 特征参数 误识率 /% SDC (7212326) 1. 47 SC (72325) 1. 07 SDC (7212226) 1. 40 SC (72225) 1. 03 SDC (7212126) 1. 90 SC (72125) 1. 17 从表 4中可以看出 ,滑动 2帧的倒谱块参数具 有最大的互补性 ,这些互补性的信息融合在一个 SC 特征向量内可以达到比较好的识别效果. 与 SC特 征向量一样 , SDC特征向量也需要融合滑动 2帧的 差分倒谱块才能达到比较好的效果. 3. 2. 4 参数 d对 SDC矢量性能的影响 SDC矢量比 SC矢量多了一个控制参数 d ,它 是计算差分倒谱的时移. 当 d值变化时对 SDC (72X2 226)矢量性能的影响如表 5所示. 表 5 参数 d对 SDC性能的影响 Table 5 Effect of d on performance of SDC 特征参数 误识率 /% SDC (7212226) 1. 40 SDC (7222226) 2. 33 从表 5可以看出 ,按照前后帧的时移间隔计算 差分倒谱可以使 SDC特征向量获得比较好的性能. 从以上实验可以看出 ,调整滑动倒谱 SC和滑 动差分倒谱 SDC的控制参数可以使系统的识别率 得到明显的改善. 对于特定的语音语料库和识别任 务 , SDC矢量和 SC矢量应当各自存在一个最优的 参数组合 ,使系统的识别性能达到最佳. 但是 ,最优 的控制参数需要长时间的搜索才能确定. 一般通过 爬山法可以比较快捷地得到一个局部最优的参数组 合. 通过 3. 2. 2节的实验可知 ,局部最优的参数未必 是全局最优的. 有时需要利用经验知识对搜索方向 进行调整. 图 1给出了利用爬山法和经验知识进行 搜索确定的控制参数优化路径 ,并标出了对应的控 制参数. 图 1 SC和 SDC控制参数优化的路径 Fig. 1 Op timizing path of control parameters of SC and SDC 3. 2. 5 SC与 SDC矢量的数据融合 利用以上实验中性能达到局部最优的 SC (7222 5)参数所建立的模型作为一个子系统 (标注为 Sub1) ,然后与采用 SDC ( 7212226)参数建立的子系 统 (标注为 Sub2)进行决策级数据融合 , 2个子系统 使用的分类器都是混合分量数为 128的 GMM. 融合 方式采用线性加权组合 ,即 : S = SSub1 +α ×SSub2 . (4) 式中 : SSub1和 SSub2分别代表 2个子系统的得分 , S为 数据融合之后系统的总得分. 式 ( 4)表示首先固定 Sub1子系统的加权系数为 1,然后调整 Sub2子系统 的加权系数 α,使融合后的识别效果达到全局或局 部最优. 加权系数 α采用搜索算法确定 ,即从 α = 1 开始 ,按 0. 1的步长增加或降低α的取值 ,使系统的 识别率逐步增加 ,直到达到一个局部最优的结果. 表 6给出了最终确定的加权系数及对应的测试结果. 表 6 决策级数据融合 Table 6 Da ta fusion on dec ision level 特征参数 加权系数 α 误识率 /% SC (72225) … 1. 03 SDC (7212226) … 1. 40 数据融合 0. 1 0. 97 第 4期 王洪海 ,等 :基于滑动倒谱的自动语言辨识 · 933 ·
·340· 智能系统学报 第3卷 3.3对测试集的实验 后的EER,如表8所示」 对测试集的实验分为闭集辨识和开集辨识.对 对于初步确认语种属于闭集的语音片段进行进 于开集辨识,要求系统首先判决被测语言片段的语 一步的识别,以确定其具体的语言种类,得到表9所 种是否属于闭集中的注册成员.因此,开集辨识比闭 示的识别结果 集辨识多了一个确认过程,其正确识别率将有所降 表9对测试集的开集辨识结果 低,但与实际情况更为接近 Table 9 Iden tifica tion results for the open test set 3.3.1闭集辨识 特征参数 加权系数a 误识率/% 根据3.2节得到优化结果,分别选取最优的特 S℃(7-2-5)】 833 征参数SC(7-2-5)和SDC(7-1-2-6)建立模型对测 DC(7-126) … 898 数据融合 01 7.85 试集闭集中的数据进行测试,然后再利用优化的加 权系数将2类模型进行融合,得到了表7所列出的 从表8和表9中可以看出,对于开集辨识的语种 测试结果 确认过程和识别过程,使用滑动倒谱的效果也好于滑 表7对测试集的闭集辨识结果 动差分倒谱.并且这2种参数也具有特征互补性,将 Table 7 ldentification results for the closed test set 它们进行数据融合可以进一步改善系统的识别效果】 特征参数 加权系数a 误识率/% 4结束语 SC(7-2-5) 0 205 DC(7-1-26) 232 从对比实验可以看出,无论对于闭集辨识的测 数据融合 01 197 试还是开集辨识的测试,SC参数比SDC参数都表 从表7可以看出,滑动倒谱的性能优于滑动差 现出了更优越的性能,并且SC参数不需要计算差 分倒谱,将滑动倒谱与滑动差分倒谱进行数据融合 分倒谱,计算量比SDC参数小,因此,这种参数形式 可以进一步提高系统的识别率 值得在今后的研究中进一步关注.利用爬山法可以 3.3.2开集辨识 方便快捷地对SC和SDC的控制参数进行优化.但 在开集辨识中,系统首先根据设定的阈值对被 是,这种方法得到的往往是局部最优结果,并且需要 测语言片段的语种是否属于闭集做出判决,此时使 利用经验知识对搜索方向进行调整.以前的研 用拒识率E和误识率E2个参量来表征系统的性 究B79指出,DC控制参数的优化组合为713-7, 能.调节判决阈值的大小可以得到拒识率和误识率 而在本实验中得到的局部最优参数组合为71-26, 相等时的等错误率(equal eror rate,EER) 这说明最佳的控制参数组合与系统的识别任务及所 根据优化结果,分别选取最优的特征参数SC(7: 使用的语音语料库密切相关.另外,SDC和SC特征 2-5)和SDC(7-1-2-6)建立模型对测试集开集中的语 向量中不同的控制参数组合最终反映了特征信息的 言片段是否属于闭集中的语种进行表决,在不同的判 时序长度和向量中内嵌特征块的间隔,而这2项又 决阈值条件下得到不同的拒识率和误识率,通过调节 同时受到帧长和帧移的影响.因此,帧长和帧移变化 判决阈值的大小得到最后的EER,结果见表& 时,最优的控制参数组合也可能受到影响,最终系统 表8对测试集开集的确认结果 的性能也会有所变化.而在以前的研究中还没有关 Table 8 Verification results for the open test set 于最优的控制参数组合随帧长和帧移变化的讨论, 特征参数 加权系数a EER/% 这种变化关系的确定需要进一步研究 SC(725) … 683 DC(7-1-26) … 7.35 数据融合 01 628 参考文献: 然后,再利用优化的加权系数将2类模型进行 [1任洪海,刘刚,郭军.自动语言辨识研究方法及发 融合,重新设定判决阈值进行表决,得到了数据融合 展概述[J].电脑与信息技术,2007,16(2):37-39 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
3. 3 对测试集的实验 对测试集的实验分为闭集辨识和开集辨识. 对 于开集辨识 ,要求系统首先判决被测语言片段的语 种是否属于闭集中的注册成员. 因此 ,开集辨识比闭 集辨识多了一个确认过程 ,其正确识别率将有所降 低 ,但与实际情况更为接近. 3. 3. 1 闭集辨识 根据 3. 2节得到优化结果 ,分别选取最优的特 征参数 SC ( 72225)和 SDC ( 721222 6)建立模型对测 试集闭集中的数据进行测试 ,然后再利用优化的加 权系数将 2类模型进行融合 ,得到了表 7所列出的 测试结果. 表 7 对测试集的闭集辨识结果 Table 7 Iden tifica tion results for the closed test set 特征参数 加权系数 α 误识率 /% SC (72225) … 2. 05 SDC (7212226) … 2. 32 数据融合 0. 1 1. 97 从表 7可以看出 ,滑动倒谱的性能优于滑动差 分倒谱 ,将滑动倒谱与滑动差分倒谱进行数据融合 可以进一步提高系统的识别率. 3. 3. 2 开集辨识 在开集辨识中 ,系统首先根据设定的阈值对被 测语言片段的语种是否属于闭集做出判决 ,此时使 用拒识率 EFJ和误识率 EFA 2个参量来表征系统的性 能. 调节判决阈值的大小可以得到拒识率和误识率 相等时的等错误率 ( equal error rate, EER). 根据优化结果 ,分别选取最优的特征参数 SC (72 225)和 SDC (7212226)建立模型对测试集开集中的语 言片段是否属于闭集中的语种进行表决 ,在不同的判 决阈值条件下得到不同的拒识率和误识率. 通过调节 判决阈值的大小得到最后的 EER,结果见表 8. 表 8 对测试集开集的确认结果 Table 8 Ver ifica tion results for the open test set 特征参数 加权系数 α EER /% SC (72225) … 6. 83 SDC (7212226) … 7. 35 数据融合 0. 1 6. 28 然后 ,再利用优化的加权系数将 2类模型进行 融合 ,重新设定判决阈值进行表决 ,得到了数据融合 后的 EER,如表 8所示. 对于初步确认语种属于闭集的语音片段进行进 一步的识别 ,以确定其具体的语言种类 ,得到表 9所 示的识别结果. 表 9 对测试集的开集辨识结果 Table 9 Iden tifica tion results for the open test set 特征参数 加权系数 α 误识率 /% SC (72225) … 8. 33 SDC (7212226) … 8. 98 数据融合 0. 1 7. 85 从表 8和表 9中可以看出 ,对于开集辨识的语种 确认过程和识别过程 ,使用滑动倒谱的效果也好于滑 动差分倒谱. 并且这 2种参数也具有特征互补性 ,将 它们进行数据融合可以进一步改善系统的识别效果. 4 结束语 从对比实验可以看出 ,无论对于闭集辨识的测 试还是开集辨识的测试 , SC参数比 SDC参数都表 现出了更优越的性能 ,并且 SC参数不需要计算差 分倒谱 ,计算量比 SDC参数小 ,因此 ,这种参数形式 值得在今后的研究中进一步关注. 利用爬山法可以 方便快捷地对 SC和 SDC的控制参数进行优化. 但 是 ,这种方法得到的往往是局部最优结果 ,并且需要 利用经验知识对搜索方向进行调整. 以前的研 究 [ 2, 729 ]指出 , SDC控制参数的优化组合为 7212327, 而在本实验中得到的局部最优参数组合为 7212226, 这说明最佳的控制参数组合与系统的识别任务及所 使用的语音语料库密切相关. 另外 , SDC和 SC特征 向量中不同的控制参数组合最终反映了特征信息的 时序长度和向量中内嵌特征块的间隔 ,而这 2项又 同时受到帧长和帧移的影响. 因此 ,帧长和帧移变化 时 ,最优的控制参数组合也可能受到影响 ,最终系统 的性能也会有所变化. 而在以前的研究中还没有关 于最优的控制参数组合随帧长和帧移变化的讨论 , 这种变化关系的确定需要进一步研究. 参考文献 : [ 1 ]王洪海 , 刘 刚 , 郭 军. 自动语言辨识研究方法及发 展概述 [J ]. 电脑与信息技术 , 2007, 16 (2) : 37239. · 043 · 智 能 系 统 学 报 第 3卷
第4期 王洪海,等:基于滑动倒谱的自动语言辨识 ·341· WANG Honghai,LI Gang.GO Jun Overview of ap- [10 JWU Tingyao,COMPERNOLLE D V,DUCHATEAU J,et al proaches o autmatic language identification and recent de- Spectral change representaton and feature selection for ac- vebpment [J ]Computer and Infomation Technology, cent ldentification tasks[C]//Proc of the Workshop on 2007,16(2):37-39 Modeling for the ldentification ofLanguages Paris,2004: [2]SNGER E,TORRES C,GLEASON T P,et al Acoustic 57-61 phonetic and discri inative appoaches autmatic lan- [11]FURU I S Recent advances in speaker recognition [C]// guage recognition[C]//Proc of Eurospeech Geneva,2003: Proc of the First Intemational Conference on Audio-and 1345-1348 Video-based Biometric Person Authentication S I ] [3]TORRES-CARRASQU LLO P A,SNGER E,KOHLER M 1997:237-252 A,et al Appoaches to language identification using [12正洪海.基于声学特征的自动语言辨识研究[D]北 Gaussian mixture models and shifted delta cepstral features 京:北京邮电大学,2007. [C]//Proc of CCSLP Denver,USA,2002:89-92 WANG Honghai Acoustic-based research on automatic [4]KOHLER M A.Language identification using shifted delta language lientificaton [D].Beijing Beijing University of cepstra[C ]/Proc of M idwest Symposium on Circuits and Posts and Telecommunications,2007. Systems[S11,2002:69-72 作者简介: [5]ZISSMAN M A.Comparison of four appoaches o automatic 王洪海,男,1970年生,高级工程 language identification of telephone speech [J ]IEEE Trans 师,主要研究方向为自动语言辨识,发 on Speech and Audio Processing,1996,4(1):31-44 表学术论文近10篇」 [6 ]BO Yin,EL ATHAMBYA,FANG Chen Combining ceps- tral and prosodic features in language identification [C]// Proc of 18th Intemational Conference on Pattem Recogni- tion Hongkong,2006:254-257 刘刚,男,1973年生,副教授,主 [7]CAMPBELLI W,GLEASON T,NAVRATLI J,et al Ad- 要研究方向为语音识别、文字识别、语 vanced language recogniton using cepstra and phonotactics 音合成等。 MIILL Syste Perfomance on the N IST2005 Language Reoog- nition Evaluation [C]//Proc of Odyssey:The Speaker and Language Recognition Workshop.San Juan,Ruero Rico,2006: 1-8 郭军,男,1959年生,教授,博士生 [8]BURGET L,MATEJKA P,CERNOCKY J.Discrm inative 导师,北京市中高级职称评审委员会计 training techniques for acoustic language identification 算机组副组长,主要研究方向为模式识 [C]/Proc of CASSP.[s1],2006:209-212 别、网络控制与管理等.主持开发的基于 [9 MATEJKA P,BURGETL,SCHWARZ P,et al Bmo uni 整形变换的手写汉字识别方法在对日本 versity of technobgy system orN IST 2005 language recogni- 国家标准汉字数据库EI9的测试中获 tion evaluation C]//Proc of Odyssey:The Speaker and 最高识别率,在1995年全国评测中获得 Language Recognition Workshop.San Juan,Ruerto R ico, 识别率第1名. 2006:57-64 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
WANG Honghai, L IU Gang, GUO Jun. Overview of ap2 p roaches to automatic language identification and recent de2 velopment [ J ]. Computer and Information Technology, 2007, 16 (2) : 37239. [ 2 ] SINGER E, TORRES C, GLEASON T P, et al. Acoustic phonetic and discriminative app roaches to automatic lan2 guage recognition[C ] / /Proc of Eurospeech. Geneva, 2003: 134521348. [ 3 ] TORRES2CARRASQU ILLO P A, SINGER E, KOHLER M A, et al. App roaches to language identification using Gaussian m ixture models and shifted delta cep stral features [C ] / / Proc of ICSLP. Denver, USA, 2002: 89292. [ 4 ] KOHLER M A. Language identification using shifted delta cep stra [ C ] / / Proc of M idwest Symposium on Circuits and Systems. [ S. l. ], 2002: 69272. [ 5 ] ZISSMAN M A. Comparison of four app roaches to automatic language identification of telephone speech [J ]. IEEE Trans on Speech and Audio Processing, 1996, 4 (1) : 31244. [ 6 ]BO Yin, EL IATHAMBY A, FANG Chen. Combining cep s2 tral and p rosodic features in language identification [ C ] / / Proc of 18 th International Conference on Pattern Recogni2 tion. Hongkong, 2006: 2542257. [7 ] CAMPBELLl W, GLEASON T, NAVRATILl J, et al. Ad2 vanced language recognition using cep stra and phonotactics: M ITLL System Performance on the N IST 2005 Language Recog2 nition Evaluation [ C ] / / Proc of Odyssey: The Speaker and Language RecognitionWorkshop. San Juan, Ruerto Rico, 2006: 128. [ 8 ]BURGET L, MATEJKA P, CERNOCKY J. D iscrim inative training techniques for acoustic language identification [C ] / / Proc of ICASSP. [ S. l. ], 2006: 2092212. [ 9 ]MATEJKA P, BURGET L, SCHWARZ P, et al. Brno uni2 versity of technology system forN IST 2005 language recogni2 tion evaluation [ C ] / / Proc of Odyssey: The Speaker and Language Recognition Workshop. San Juan, Ruerto Rico , 2006: 57264. [ 10 ]WU Tingyao, COMPERNOLLE D V, DUCHATEAU J, et al. Spectral change rep resentation and feature selection for ac2 cent Identification tasks[ C ] / / Proc of the Workshop on Modeling for the Identification of Languages. Paris, 2004: 57261. [ 11 ] FURU I S. Recent advances in speaker recognition [ C ] / / Proc of the First International Conference on Audio2 and V ideo2based Biometric Person Authentication. [ S. l. ], 1997: 2372252. [ 12 ]王洪海. 基于声学特征的自动语言辨识研究 [D ]. 北 京 :北京邮电大学 , 2007 . WANG Honghai. Acoustic2based research on automatic language Iientification [D ]. Beijing: Beijing University of Posts and Telecommunications, 2007. 作者简介 : 王洪海 ,男 , 1970 年生 ,高级工程 师 ,主要研究方向为自动语言辨识 ,发 表学术论文近 10篇. 刘 刚 ,男 , 1973年生 ,副教授 ,主 要研究方向为语音识别、文字识别、语 音合成等. 郭 军 ,男 , 1959年生 ,教授 ,博士生 导师 ,北京市中高级职称评审委员会计 算机组副组长 ,主要研究方向为模式识 别、网络控制与管理等. 主持开发的基于 整形变换的手写汉字识别方法在对日本 国家标准汉字数据库 ETL9的测试中获 最高识别率 ,在 1995年全国评测中获得 识别率第 1名. 第 4期 王洪海 ,等 :基于滑动倒谱的自动语言辨识 · 143 ·