第13卷第3期 智能系统学报 Vol.13 No.3 2018年6月 CAAI Transactions on Intelligent Systems Jun.2018 D0:10.11992/tis.201710029 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180408.1725.028.html 基于深度神经网络的蒙古语声学模型建模研究 马志强,李图雅,杨双涛,张力 (内蒙古工业大学数据科学与应用学院,内蒙古呼和浩特010080) 摘要:针对高斯混合模型在蒙古语语音识别声学建模中不能充分描述蒙古语声学特征之间相关性和独立性假设的 问题,开展了使用深度神经网铬模型进行蒙古语声学模型建模的研究。以深度神经网络为基础,将分类与语音特征 内在结构的学习紧密结合进行蒙古语声学特征的提取,构建了DNN-HMM蒙古语声学模型,结合无监督预训练与监 督训练调优过程设计了训练算法,在DNN-HMM蒙古语声学模型训练中加入dropout技术避免过拟合现象。最后, 在小规模语料库和Kaldi实验平台下,对GMM-HMM和DNN-HMM蒙古语声学模型进行了对比实验。实验结果表 明,DNN-HMM蒙古语声学模型的词识别错误率降低了7.5%,句识别错误率降低了13.63%;同时,训练时加入do pout技术可以有效避免DNN-HMM蒙古语声学模型的过拟合现象。 关键词:语音识别;声学模型;GMM-HMM;DNN-HMM;监督学习;预训练;过拟合;dropout 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2018)03-0486-07 中文引用格式:马志强,李图雅,杨双涛,等.基于深度神经网络的蒙古语声学模型建模研究.智能系统学报,2018,13(3:486-492 英文引用格式:MA Zhiqiang,LITuya,YANG Shuangtao,.etal.Mongolian acoustic modeling based on deep neural network[J CAAI transactions on intelligent systems,2018,13(3):486-492. Mongolian acoustic modeling based on deep neural network MA Zhiqiang,LI Tuya,YANG Shuangtao,ZHANG Li (School of Data Science &Application,Inner Mongolia University of Technology,Hohhot 010080,China) Abstract:Considering the difficulty of using the Gaussian mixture model(GMM)to adequately describe the correla- tion and independence hypothesis of the Mongolian acoustic features in the acoustic modeling of Mongolian speech re- cognition,this study investigates an acoustic model based on deep neural network(DNN).Firstly,using DNN,the in- ternal structure of phonetic features were classified and learned to extract the Mongolian acoustic features,and a DNN- HMM Mongolian acoustic model was constructed.Secondly,a training algorithm was designed by combining unsuper- vised pre-training and supervised training tuning.In addition,dropout technology was added into the DNN-HMM Mon- golian acoustic model training to avoid the over-fitting phenomenon.Finally,a comparative experiment was conducted for the GMM-HMM and DNN-HMM Mongolian acoustic models on basis of the small-scale corpus and Kaldi experi- mental platform.Experimental results show that the word recognition error rate of DNN-HMM Mongolian model was reduced by 7.5%and sentence recognition error rate was reduced by 13.63%.In addition,the over-fitting of DNN-HMM Mongolian acoustic model can be effectively avoided by adopting the dropout technique during training. Keywords:speech recognition;acoustic model;GMM-HMM;DNN-HMM;supervised learning;pre-training;over-fit- ting,dropout 典型的大词汇量连续语音识别系统(large voca- 征提取、声学模型、语言模型和解码器等组成。声 bulary continuous speech recognition,LVCSR) 学模型是语音识别系统的核心组成部分,基于GMM 和HMM模型构建的GMM-HMM声学模型一度 收稿日期:2017-10-31.网络出版日期:2018-04-09 基金项目:国家自然科学基金项目(61762070,61650205)】 是大词汇量连续语音识别系统中应用最广的声学模 通信作者:李图雅.E-mail:2297854548@qq.com. 型。在GMM-HMM模型中,GMM模型对语音特
DOI: 10.11992/tis.201710029 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180408.1725.028.html 基于深度神经网络的蒙古语声学模型建模研究 马志强,李图雅,杨双涛,张力 (内蒙古工业大学 数据科学与应用学院,内蒙古 呼和浩特 010080) 摘 要:针对高斯混合模型在蒙古语语音识别声学建模中不能充分描述蒙古语声学特征之间相关性和独立性假设的 问题,开展了使用深度神经网络模型进行蒙古语声学模型建模的研究。以深度神经网络为基础,将分类与语音特征 内在结构的学习紧密结合进行蒙古语声学特征的提取,构建了 DNN-HMM 蒙古语声学模型,结合无监督预训练与监 督训练调优过程设计了训练算法,在 DNN-HMM 蒙古语声学模型训练中加入 dropout 技术避免过拟合现象。最后, 在小规模语料库和 Kaldi 实验平台下,对 GMM-HMM 和 DNN-HMM 蒙古语声学模型进行了对比实验。实验结果表 明,DNN-HMM 蒙古语声学模型的词识别错误率降低了 7.5%,句识别错误率降低了 13.63%;同时,训练时加入 dropout 技术可以有效避免 DNN-HMM 蒙古语声学模型的过拟合现象。 关键词:语音识别;声学模型;GMM-HMM;DNN-HMM;监督学习;预训练;过拟合;dropout 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2018)03−0486−07 中文引用格式:马志强, 李图雅, 杨双涛, 等. 基于深度神经网络的蒙古语声学模型建模研究[J]. 智能系统学报, 2018, 13(3): 486–492. 英文引用格式:MA Zhiqiang, LI Tuya, YANG Shuangtao, et al. Mongolian acoustic modeling based on deep neural network[J]. CAAI transactions on intelligent systems, 2018, 13(3): 486–492. Mongolian acoustic modeling based on deep neural network MA Zhiqiang,LI Tuya,YANG Shuangtao,ZHANG Li (School of Data Science &Application, Inner Mongolia University of Technology, Hohhot 010080, China) Abstract: Considering the difficulty of using the Gaussian mixture model (GMM) to adequately describe the correlation and independence hypothesis of the Mongolian acoustic features in the acoustic modeling of Mongolian speech recognition, this study investigates an acoustic model based on deep neural network (DNN). Firstly, using DNN, the internal structure of phonetic features were classified and learned to extract the Mongolian acoustic features, and a DNNHMM Mongolian acoustic model was constructed. Secondly, a training algorithm was designed by combining unsupervised pre-training and supervised training tuning. In addition, dropout technology was added into the DNN-HMM Mongolian acoustic model training to avoid the over-fitting phenomenon. Finally, a comparative experiment was conducted for the GMM-HMM and DNN-HMM Mongolian acoustic models on basis of the small-scale corpus and Kaldi experimental platform. Experimental results show that the word recognition error rate of DNN-HMM Mongolian model was reduced by 7.5% and sentence recognition error rate was reduced by 13.63%. In addition, the over-fitting of DNN-HMM Mongolian acoustic model can be effectively avoided by adopting the dropout technique during training. Keywords: speech recognition; acoustic model; GMM-HMM; DNN-HMM; supervised learning; pre-training; over-fitting; dropout 典型的大词汇量连续语音识别系统 (large vocabulary continuous speech recognition,LVCSR) 由特 征提取、声学模型、语言模型和解码器等组成。声 学模型是语音识别系统的核心组成部分,基于 GMM 和 HMM 模型构建的 GMM-HMM 声学模型[1]一度 是大词汇量连续语音识别系统中应用最广的声学模 型。在 GMM-HMM 模型中,GMM 模型对语音特 收稿日期:2017−10−31. 网络出版日期:2018−04−09. 基金项目:国家自然科学基金项目 (61762070,61650205). 通信作者:李图雅. E-mail:2297854548@qq.com. 第 13 卷第 3 期 智 能 系 统 学 报 Vol.13 No.3 2018 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2018
第3期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·487· 征向量进行概率建模,然后通过EM算法生成语音 1.1DNN-HMM蒙古语声学模型 观察特征的最大化概率,当混合高斯分布数目足够 DNN-HMM蒙古语声学模型就是将深度神经 多时,GMM可以充分拟合声学特征的概率分布, 网络技术应用到蒙古语声学模型中,用DNN深度 HMM模型根据GMM拟合的观察状态生成语音的 神经网络代替GMM高斯混合模型,实现对蒙古语 时序状态2。当采用GMM混合高斯模型的概率 声学状态的后验概率估算。在给定蒙古语声学特征 来描述语音数据分布时,GMM模型本质上属于浅 序列的情况下,首先用DNN模型估算当前特征属 层模型,并在拟合声学特征分布时对特征之间进行 于HMM状态的概率,然后用HMM模型描述蒙古 了独立性的假设,因此无法充分描述声学特征的状 语语音信号的动态变化,捕捉蒙古语语音信息的时 态空间分布;同时,GMM建模的特征维数一般是几 序状态信息。DNN-HMM蒙古语声学模型结构如 十维,不能充分描述声学特征之间的相关性,模型 图1所示。 表达能力有限。因此,在20世纪80年代利用神经 网络和HMM模型构建声学模型的研究开始出现, 但是,当时计算机计算能力不足且缺乏足够的训练 HMM 数据,模型的效果不及GMM-HMM。2010年微 DNN 软亚洲研究院的邓力与Hinton小组针对大规模连 续语音识别任务提出了CD-DBN-HMM的混合声学 模型框架,并进行了相关实验。实验结果表明,相 比GMM-HMM声学模型,采用CD-DBN-HMM声 学模型使语音识别系统识别正确率提高了30%左 右,CD-DBN-HMM混合声学模型框架的提出彻底 革新了语音识别原有的声学模型框架。与传统的高 斯混合模型相比,深度神经网络属于深度模型,能 够更好地表示复杂非线性函数,更能捕捉语音特征 蒙古语声学特征向量 向量之间的相关性,易于取得更好的建模效果1。 蒙古语语音识别研究主要借鉴了英语、汉语以及其 图1DNN-HMM蒙古语声学模型 他少数民族语言,在语音识别研究上取得了成果, Fig.1 The Mongolian acoustic model based on DNN- 因此蒙古语声学模型建模过程主要以GMM-HMM HMM. 模型为基础开展研究,也取得了一定的研究成果6。 在DNN-HMM蒙古语声学模型中,DNN网络 在特征学习方面DNN模型比GMM模型具有更大 是通过不断地自下而上堆叠隐含层实现的。其中, 的优势,所以本文用DNN模型代替了GMM模型 S表示HMM模型中的隐含状态,A表示状态转移 来完成蒙古语声学模型建模任务。 概率矩阵,L表示DNN深度神经网络的层数(隐含 层为L-I层,L层为输入层,L,层为输出层,DNN网 1蒙古语声学模型研究 络共包含L+1层),W表示层之间的连接矩阵。DNN- HMM蒙古语声学模型在进行蒙古语语音识别过程 在语音识别领域内,DNN主要以两种形式被应 建模前,需要对DNN神经网络进行训练。在完成 用:直接作为声学特征的提取模型,但是这种应用 DNN神经网络的训练后,对蒙古语声学模型的建模 方式仍需要借助GMM-HMM模型才能完成;将 过程与GMM-HMM模型一致。 DNN与HMM隐马尔科夫模型进行结合,构成混合 1.2DNN网络的训练 模型结构,利用深度神经网络代替GMM高斯混合 蒙古语声学模型中的DNN网络的训练分为预 模型进行声学状态输出概率的计算81。与高斯混 训练和调优两个阶段。DNN的预训练就是对深度 合模型相比,深度神经网络有着更强的学习能力和 神经网络的参数进行初始化。通常,DNN深度神经 建模能力,能够更好地捕捉声学特征的内在关系, 网络的预训练方式分为生成式训练和判别式训练。 有助于声学模型性能的提升,所以本文通过使用深 逐层无监督预训练算法就是使用无监督学习方法 度神经网络模型对蒙古语声学特征逐层提取,将分 对网络的每一层进行预训练,它属于生成式训练算 类与语音特征内在结构的学习进行了紧密结合,有 法7。在DNN-HMM蒙古语声学模型预训练中,采 利于蒙古语语音识别系统正确率的提升。 用了逐层无监督训练算法
征向量进行概率建模,然后通过 EM 算法生成语音 观察特征的最大化概率,当混合高斯分布数目足够 多时,GMM 可以充分拟合声学特征的概率分布, HMM 模型根据 GMM 拟合的观察状态生成语音的 时序状态[2-3]。当采用 GMM 混合高斯模型的概率 来描述语音数据分布时,GMM 模型本质上属于浅 层模型,并在拟合声学特征分布时对特征之间进行 了独立性的假设,因此无法充分描述声学特征的状 态空间分布;同时,GMM 建模的特征维数一般是几 十维,不能充分描述声学特征之间的相关性,模型 表达能力有限。因此,在 20 世纪 80 年代利用神经 网络和 HMM 模型构建声学模型的研究开始出现, 但是,当时计算机计算能力不足且缺乏足够的训练 数据,模型的效果不及 GMM-HMM[4-5]。2010 年微 软亚洲研究院的邓力与 Hinton 小组针对大规模连 续语音识别任务提出了 CD-DBN-HMM的混合声学 模型框架[6] ,并进行了相关实验。实验结果表明,相 比 GMM-HMM 声学模型,采用 CD-DBN-HMM 声 学模型使语音识别系统识别正确率提高了 30% 左 右,CD-DBN-HMM 混合声学模型框架的提出彻底 革新了语音识别原有的声学模型框架。与传统的高 斯混合模型相比,深度神经网络属于深度模型,能 够更好地表示复杂非线性函数,更能捕捉语音特征 向量之间的相关性,易于取得更好的建模效果[7-12]。 蒙古语语音识别研究主要借鉴了英语、汉语以及其 他少数民族语言,在语音识别研究上取得了成果, 因此蒙古语声学模型建模过程主要以 GMM-HMM 模型为基础开展研究,也取得了一定的研究成果[13-16]。 在特征学习方面 DNN 模型比 GMM 模型具有更大 的优势,所以本文用 DNN 模型代替了 GMM 模型 来完成蒙古语声学模型建模任务。 1 蒙古语声学模型研究 在语音识别领域内,DNN 主要以两种形式被应 用:直接作为声学特征的提取模型,但是这种应用 方式仍需要借助 GMM-HMM 模型才能完成;将 DNN 与 HMM 隐马尔科夫模型进行结合,构成混合 模型结构,利用深度神经网络代替 GMM 高斯混合 模型进行声学状态输出概率的计算[7-8]。与高斯混 合模型相比,深度神经网络有着更强的学习能力和 建模能力,能够更好地捕捉声学特征的内在关系, 有助于声学模型性能的提升,所以本文通过使用深 度神经网络模型对蒙古语声学特征逐层提取,将分 类与语音特征内在结构的学习进行了紧密结合,有 利于蒙古语语音识别系统正确率的提升。 1.1 DNN-HMM 蒙古语声学模型 DNN-HMM 蒙古语声学模型就是将深度神经 网络技术应用到蒙古语声学模型中,用 DNN 深度 神经网络代替 GMM 高斯混合模型,实现对蒙古语 声学状态的后验概率估算。在给定蒙古语声学特征 序列的情况下,首先用 DNN 模型估算当前特征属 于 HMM 状态的概率,然后用 HMM 模型描述蒙古 语语音信号的动态变化,捕捉蒙古语语音信息的时 序状态信息。DNN-HMM 蒙古语声学模型结构如 图 1 所示。 L0 LL 在 DNN-HMM 蒙古语声学模型中,DNN 网络 是通过不断地自下而上堆叠隐含层实现的。其中, S 表示 HMM 模型中的隐含状态,A 表示状态转移 概率矩阵,L 表示 DNN 深度神经网络的层数 (隐含 层为 L-1 层, 层为输入层, 层为输出层,DNN 网 络共包含 L+1 层),W 表示层之间的连接矩阵。DNNHMM 蒙古语声学模型在进行蒙古语语音识别过程 建模前,需要对 DNN 神经网络进行训练。在完成 DNN 神经网络的训练后,对蒙古语声学模型的建模 过程与 GMM-HMM 模型一致。 1.2 DNN 网络的训练 蒙古语声学模型中的 DNN 网络的训练分为预 训练和调优两个阶段。DNN 的预训练就是对深度 神经网络的参数进行初始化。通常,DNN 深度神经 网络的预训练方式分为生成式训练和判别式训练。 逐层无监督预训练算法就是使用无监督学习方法 对网络的每一层进行预训练,它属于生成式训练算 法 [17]。在 DNN-HMM 蒙古语声学模型预训练中,采 用了逐层无监督训练算法。 A A A A S S S S HMM DNN WL W2 W1 LL−1 L2 L1 L0 㧅ऐ䄙ผ႒➥ᒭऽ䛻 图 1 DNN-HMM 蒙古语声学模型 Fig. 1 The Mongolian acoustic model based on DNNHMM. 第 3 期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·487·
·488· 智能系统学报 第13卷 DNN模型是一个多层次的神经网络,逐层无监 算法2随机梯度下降算法 督预训练算法是对DNN的每一层进行训练,而且 输入训练集set,批量大小batch size;学习 每次只训练其中一层,其他层参数保持原来初始化 率a,循环次数epoch, 参数不变,训练时,对每一层的输人和输出误差尽 输出模型参数weight。 量减小,这样就能够保证每一层参数对于该层来说 1)weight-initWeight(); 都是最优的。接下来,将训练好的每一层的输出数 2)For j in 0 to epoch do; 据作为下一层的输人数据,那么下一层输入的数据 3)batch+randomSelect(set,batch size); 就比直接训练时经过多层神经网络输入到下一层数 4)weight-getWeightFromMaster(); 据的误差小得多,逐层无监督预训练算法能够保证 S)△W←-miniGradient(batch,weight): 每一层之间输入输出数据的误差都相对较小。 6)weight←-weight-a*△W; 具体训练过程如图2所示,训练算法见算法1。 7)End for; 1.3蒙古语语音数据识别 通过对DNN网络的预训练和调优后,可以利 用DNN-HMM声学模型对蒙古语语音数据进行识 别,具体的过程如下。 首先,根据输入的蒙古语声学特征向量,计算 (a)第1层隐 (b)第2层隐含层 (©)第3层隐含层 DNN深度神经网络前L层的输出,即 含层训练 训练 训练 va=f(z")=f(Wava-1+b),0sa<L (1) 图2DNN-HMM蒙古语声学模型预训练过程 式中:z表示激励向量,z”=Wy-1+b°且z∈Rx; Fig.2 The pre-training DNN-HMM process for Mongoli- v表示激活向量,“∈RI;W表示权重矩阵, an acoustic model. Wm∈R.Xw;b表示偏执向量,b°∈R1,N。表示第 算法1逐层无监督预训练算法 a层的神经节点个数且N。∈R;V表示网络的输入特 输入学习率α,最大迭代次数T,需要训练的 征,V°=OE RNXI。在DNN-HMM声学模型中,输入 层数L;各隐含层内的隐单元个数W=(n,n2,…,n): 特征即为声学特征向量。其中N。=D表示输入声学 训练数据按mini-batch划分后的序列x,其中j= 特征向量的维度,f):Rv.x1→R心x1表示激活函数对 (1,2,…,Max),序列长度Max。 激励向量的计算过程,f)表示激活函数。 输出链接权重W,i=(1,2,·,L);偏执向量 然后,利用L层的softmax分类层计算当前特 b,i=(0,1,…,L)。 征关于全部声学状态的后验概率,即当前特征属于 1)初始化输入层的偏执向量; 各蒙古语声学状态的概率: 2)For i in I to L do; =Pdnn(il0)=softmax(i) (2) 3)初始化W=0,b=0; 在DNN-HMM蒙古语声学模型中,DNN深度 4)For t in 1 to Tdo; 神经网络用于估计每个HMM状态的后验概率,所 5)For j in 1 to Max do; 以DNN的输出是按照HMM隐含状态进行分类输 6)mini-batch =i 出的,实质上属于多分类任务,因此DNN的输出层 7)DNNUpdate (mini-batch,a,Wi,b,b-); 通常是softmax分类层。而且softmax分类层的神 8)End For; 经单元个数与HMM声学模型中的隐含状态个数相 9)End For; 同。在式(2)中,i=1,2,…,C,其中C表示声学模型 10)End For: 的隐含状态个数,v表示softmax分类层第i个神经 其中DNNUpdate算法采用经典的对比散度算 单元的输出,即输入声学特征向量0关于声学模型 法(contrastive divergence,CD-K),具体见文献[T)。 第个隐含状态的后验概率。得到隐含状态的后验 通过逐层无监督预训练算法可以得到较好的神 概率后,利用维特比解码算法进行解码得到最优路 经网络初始化参数,然后使用蒙古语标注数据(即 径。在直接解码前需要根据贝叶斯公式,将各个状 特征状态)通过BP(error back propagation)算法进 态的后验概率除以其自身的先验概率,得到各状态 行有监督的调优,最终得到可用于声学状态分类的 规整的似然值。隐含状态的先验概率计算较为简 DNN深度神经网络模型。有监督的调优算法采用 单,仅通过计算各状态对应帧总数与全部声学特征 随机梯度下降算法进行实现,具体见算法2。 帧数的比值即可得到
DNN 模型是一个多层次的神经网络,逐层无监 督预训练算法是对 DNN 的每一层进行训练,而且 每次只训练其中一层,其他层参数保持原来初始化 参数不变,训练时,对每一层的输入和输出误差尽 量减小,这样就能够保证每一层参数对于该层来说 都是最优的。接下来,将训练好的每一层的输出数 据作为下一层的输入数据,那么下一层输入的数据 就比直接训练时经过多层神经网络输入到下一层数 据的误差小得多,逐层无监督预训练算法能够保证 每一层之间输入输出数据的误差都相对较小。 具体训练过程如图 2 所示,训练算法见算法 1。 算法 1 逐层无监督预训练算法 N = ( n 1 ,n 2 ,··· ,n L ) X j (1,2,··· ,Max) 输入 学习率 α,最大迭代次数 T,需要训练的 层数 L;各隐含层内的隐单元个数 ; 训练数据按 mini-batch 划分后的序列 ,其中 j = ,序列长度 Max。 Wi i = (1,2,··· ,L) b i i = (0,1,··· ,L) 输出 链接权重 , ;偏执向量 , 。 1) 初始化输入层的偏执向量; 2) For i in 1 to L do; Wi = 0 b i 3) 初始化 , = 0 ; 4) For t in 1 to T do; 5) For j in 1 to Max do; X 6) mini-batch = j ; α Wi b i b i−1 7) DNNUpdate (mini-batch, , , , ); 8) End For; 9) End For; 10) End For; 其中 DNNUpdate 算法采用经典的对比散度算 法 (contrastive divergence,CD-K),具体见文献[7]。 通过逐层无监督预训练算法可以得到较好的神 经网络初始化参数,然后使用蒙古语标注数据 (即 特征状态) 通过 BP(error back propagation) 算法进 行有监督的调优,最终得到可用于声学状态分类的 DNN 深度神经网络模型。有监督的调优算法采用 随机梯度下降算法进行实现,具体见算法 2。 算法 2 随机梯度下降算法 输入 训练集 set,批量大小 batch_size;学习 率 α,循环次数 epoch。 输出 模型参数 weight。 1) weight←initWeight(); 2) For j in 0 to epoch do; 3) batch←randomSelect(set, batch_size); 4) weight←getWeightFromMaster(); 5) ∆W ←miniGradient(batch, weight); 6) weight←weight- α * ∆W ; 7) End for; 1.3 蒙古语语音数据识别 通过对 DNN 网络的预训练和调优后,可以利 用 DNN-HMM 声学模型对蒙古语语音数据进行识 别,具体的过程如下。 首先,根据输入的蒙古语声学特征向量,计算 DNN 深度神经网络前 L 层的输出,即 v α = f(z α ) = f(Wα v α−1 + b α ),0 ⩽ α < L (1) z α z α = Wα v α−1 + b α z α ∈ R NαX1 v α v α ∈ R NαX1 Wα Wα ∈ R NαXNα−1 b α b α ∈ R NαX1 Nα α Nα ∈ R V 0 V 0 = o ∈ R N0X1 N0 = D f(·) : R NαX1 → R NαX1 f(·) 式中: 表示激励向量, 且 ; 表示激活向量, ; 表示权重矩阵, ; 表示偏执向量, , 表示第 层的神经节点个数且 ; 表示网络的输入特 征, 。在 DNN-HMM声学模型中,输入 特征即为声学特征向量。其中 表示输入声学 特征向量的维度, 表示激活函数对 激励向量的计算过程, 表示激活函数。 然后,利用 L 层的 softmax 分类层计算当前特 征关于全部声学状态的后验概率,即当前特征属于 各蒙古语声学状态的概率: v i = Pdnn(i|O) = softmax(i) (2) i = 1,2,··· ,C C v i i i 在 DNN-HMM 蒙古语声学模型中,DNN 深度 神经网络用于估计每个 HMM 状态的后验概率,所 以 DNN 的输出是按照 HMM 隐含状态进行分类输 出的,实质上属于多分类任务,因此 DNN 的输出层 通常是 softmax 分类层。而且 softmax 分类层的神 经单元个数与 HMM 声学模型中的隐含状态个数相 同。在式 (2) 中, ,其中 表示声学模型 的隐含状态个数, 表示 softmax 分类层第 个神经 单元的输出,即输入声学特征向量 O 关于声学模型 第 个隐含状态的后验概率。得到隐含状态的后验 概率后,利用维特比解码算法进行解码得到最优路 径。在直接解码前需要根据贝叶斯公式,将各个状 态的后验概率除以其自身的先验概率,得到各状态 规整的似然值。隐含状态的先验概率计算较为简 单,仅通过计算各状态对应帧总数与全部声学特征 帧数的比值即可得到。 L1 W1 V (a) じ1ᅮ䮼 ॗᅮ䃙㏯ L2 L1 W2 W1 V (b) じ2ᅮ䮼ॗᅮ 䃙㏯ L3 L2 L1 W3 W2 W1 V (c) じ3ᅮ䮼ॗᅮ 䃙㏯ 图 2 DNN-HMM 蒙古语声学模型预训练过程 Fig. 2 The pre-training DNN-HMM process for Mongolian acoustic model. ·488· 智 能 系 统 学 报 第 13 卷
第3期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·489· 2蒙古语声学模型的调优训练 型时,采用期望最大化算法进行无监督训练,避免 了对标注数据的要求;然后利用蒙古语声学特征对 由于DNN模型在调优时需要对齐的语音帧标 深度神经网络进行预训练:在深度神经网络训练的 注数据,同时标注数据质量往往影响DNN模型的 第二阶段(即有监督调优阶段),利用已训练的GMM 性能,因此,在DNN网络调优阶段,通过使用已训 HMM蒙古语声学模型进行语音特征到状态的强制 练好的GMM-HMM蒙古语声学模型生成对齐的蒙 对齐,得到标注数据:最后利用标注数据对DNN深 古语语音特征标注数据。 度神经网络进行有监督的调优。DNN深度神经网 所以,DNN-HMM蒙古语声学模型的训练过程 络训练完成以后,根据DNN-HMM在测试集上的识 为:首先训练GMM-HMM蒙古语声学模型,得到对 别结果决定其下一步流程。 齐的蒙古语语音特征标注数据:然后在对齐语音特 征数据的基础上对深度神经网络(DNN)进行训练 3实验与结果 和调优;最后根据得到的蒙古语语音观察状态再对 3.1实验方案设计 隐马尔科夫模型(HMM)进行训练。具体见DNN- 为了验证提出的DNN-HMM蒙古语声学模型 HMM蒙古语声学模型训练过程。 的有效性,设计了3组实验。在实验中,将未采用 DNN-HMM蒙古语声学模型训练过程: dropout技术的DNN-HMM声学模型定义为DNN. 输入蒙古语语料库。 HMM,将采用dropout技术的DNN-HMM声学模 输出DNN-HMM声学模型。 型定义为dropout-.DNN-HMM。 I)进行GMM-HMM蒙古语声学模型训练,得 1)开展GMM-HMM、DNN-HMM蒙古语声学 到一个最优的GMM-HMM蒙古语语音识别系统, 模型建模实验研究,主要观察不同声学建模单元对 用gmm-hmm表示。 声学模型的性能影响,以及对比不同类型声学模型 2)利用维特比解码算法解析gmm-hmm,对gmm 对语音识别系统的影响。 hmm蒙古语声学模型中的每一个senone进行标号, 2)通过构建不同层数的深度网络结构的DNN- 得到senone_id, HMM三音子蒙古语声学模型,开展层数对蒙古语 3)利用gmm-hmm蒙古语声学模型,将声学状 声学模型,以及对过拟合现象影响的实验研究。 态tri-phone映射到相应的senone id。 3)在构建DNN-HMM三音子蒙古语声学模型 4)利用gmm-hmm蒙古语声学模型初始化DNN- 时,通过采用dropout技术开展dropout技术对DNN- HMM蒙古语声学模型,主要是HMM隐马尔科夫 HMM三音子蒙古语声学模型过拟合现象影响的实 模型参数部分,最终得到dnn-hmml模型。 验研究。 5)利用蒙古语声学特征文件预训练DNN深度 3.2数据集 神经网络,得到ptdnn。 蒙古语语音识别的语料库由310句蒙古语教学 6)使用gmm-hmm蒙古语声学模型,将蒙古语 语音组成,共计2291个蒙古语词汇,命名为MUT310 声学特征数据进行状态级别的强制对齐,对齐结果 语料库。语料库共由3部分组成:音频文件、发音 为align-raw。 标注以及相应的蒙文文本。实验中,将IMUT310 7)将align-raw的物理状态转换成senone id,. 语料库划分成训练集和测试集两部分,其中训练集 得到帧级别对齐的训练数据align-frame。 为287句,测试集为23句。实验在Kaldi平台上完 成。Kaldi的具体实验环境配置如表1所示。 8)利用对齐数据align-data对ptdnn深度神经 表1实验环境 网络进行有监督地微调,得到网络模型dnn。 Table 1 9)根据最大似然算法,利用dnn重新估计dnn- Experimental environment hmml中HMM模型转移概率得到的网络模型,用 项目 参数说明 dnn-hmm2表示。 操作系统 Ubuntu14.04 l0)如果dnn和dnn-hmm2上测试集识别准确 处理器 I5.4×3.2GHz 率没有提高,训练结束。否则,使用dnn-hmm2对训 GPU显卡 GTX660ti2GB显存 练数据再次进行状态级别对齐,执行)。 硬盘 SAT硬盘500GB 在训练过程中,首先训练一个最优的GMM-HMM Kaldi 0.9版本 蒙古语语音识别数据准备系统,目的是为DNN的 监督调优服务。在训练GMM-HMM蒙古语声学模 CUDA 6.5版本
2 蒙古语声学模型的调优训练 由于 DNN 模型在调优时需要对齐的语音帧标 注数据,同时标注数据质量往往影响 DNN 模型的 性能,因此,在 DNN 网络调优阶段,通过使用已训 练好的 GMM-HMM 蒙古语声学模型生成对齐的蒙 古语语音特征标注数据。 所以,DNN-HMM 蒙古语声学模型的训练过程 为:首先训练 GMM-HMM 蒙古语声学模型,得到对 齐的蒙古语语音特征标注数据;然后在对齐语音特 征数据的基础上对深度神经网络 (DNN) 进行训练 和调优;最后根据得到的蒙古语语音观察状态再对 隐马尔科夫模型 (HMM) 进行训练。具体见 DNNHMM 蒙古语声学模型训练过程。 DNN-HMM 蒙古语声学模型训练过程: 输入 蒙古语语料库。 输出 DNN-HMM 声学模型。 1) 进行 GMM-HMM 蒙古语声学模型训练,得 到一个最优的 GMM-HMM 蒙古语语音识别系统, 用 gmm-hmm 表示。 2) 利用维特比解码算法解析 gmm-hmm,对 gmmhmm 蒙古语声学模型中的每一个 senone 进行标号, 得到 senone_id。 3) 利用 gmm-hmm 蒙古语声学模型,将声学状 态 tri-phone 映射到相应的 senone_id。 4) 利用 gmm-hmm 蒙古语声学模型初始化 DNNHMM 蒙古语声学模型,主要是 HMM 隐马尔科夫 模型参数部分,最终得到 dnn-hmm1 模型。 5) 利用蒙古语声学特征文件预训练 DNN 深度 神经网络,得到 ptdnn。 6) 使用 gmm-hmm 蒙古语声学模型,将蒙古语 声学特征数据进行状态级别的强制对齐,对齐结果 为 align-raw。 7) 将 align-raw 的物理状态转换成 senone_id, 得到帧级别对齐的训练数据 align-frame。 8) 利用对齐数据 align-data 对 ptdnn 深度神经 网络进行有监督地微调,得到网络模型 dnn。 9) 根据最大似然算法,利用 dnn 重新估计 dnnhmm1 中 HMM 模型转移概率得到的网络模型,用 dnn-hmm2 表示。 10) 如果 dnn 和 dnn-hmm2 上测试集识别准确 率没有提高,训练结束。否则,使用 dnn-hmm2 对训 练数据再次进行状态级别对齐,执行 7)。 在训练过程中,首先训练一个最优的 GMM-HMM 蒙古语语音识别数据准备系统,目的是为 DNN 的 监督调优服务。在训练 GMM-HMM 蒙古语声学模 型时,采用期望最大化算法进行无监督训练,避免 了对标注数据的要求;然后利用蒙古语声学特征对 深度神经网络进行预训练;在深度神经网络训练的 第二阶段 (即有监督调优阶段),利用已训练的 GMMHMM 蒙古语声学模型进行语音特征到状态的强制 对齐,得到标注数据;最后利用标注数据对 DNN 深 度神经网络进行有监督的调优。DNN 深度神经网 络训练完成以后,根据 DNN-HMM 在测试集上的识 别结果决定其下一步流程。 3 实验与结果 3.1 实验方案设计 为了验证提出的 DNN-HMM 蒙古语声学模型 的有效性,设计了 3 组实验。在实验中,将未采用 dropout 技术的 DNN-HMM 声学模型定义为 DNNHMM,将采用 dropout 技术的 DNN-HMM 声学模 型定义为 dropout-DNN-HMM。 1) 开展 GMM-HMM、DNN-HMM 蒙古语声学 模型建模实验研究,主要观察不同声学建模单元对 声学模型的性能影响,以及对比不同类型声学模型 对语音识别系统的影响。 2) 通过构建不同层数的深度网络结构的 DNNHMM 三音子蒙古语声学模型,开展层数对蒙古语 声学模型,以及对过拟合现象影响的实验研究。 3) 在构建 DNN-HMM 三音子蒙古语声学模型 时,通过采用 dropout 技术开展 dropout 技术对 DNNHMM 三音子蒙古语声学模型过拟合现象影响的实 验研究。 3.2 数据集 蒙古语语音识别的语料库由 310 句蒙古语教学 语音组成,共计 2 291 个蒙古语词汇,命名为 IMUT310 语料库。语料库共由 3 部分组成:音频文件、发音 标注以及相应的蒙文文本。实验中,将 IMUT310 语料库划分成训练集和测试集两部分,其中训练集 为 287 句,测试集为 23 句。实验在 Kaldi 平台上完 成。Kaldi 的具体实验环境配置如表 1 所示。 表 1 实验环境 Table 1 Experimental environment 项目 参数说明 操作系统 Ubuntu14.04 处理器 I5. 4×3.2 GHz GPU 显卡 GTX 660ti 2 GB 显存 硬盘 SAT 硬盘 500 GB Kaldi 0.9 版本 CUDA 6.5 版本 第 3 期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·489·
·490· 智能系统学报 第13卷 实验过程中,蒙古语声学特征采用MFCC声学 HMM实验。采用3.2中的实验参数设置进行了实 特征表示,共有39维数据,其中前13维特征由 验,实验结果数据见表2。 12个倒谱特征和1个能量系数组成,后面的两个 表2GMM-HMM与DNN-HMM蒙古语声学模型实验数据 13维特征是对前面13维特征的一阶差分和二阶差 Table 2 The experimental data of Mongolian acoustic 分。在提取蒙古语MFFC特征时,帧窗口长度为 mode from GMM-HMM and DNN-HMM 25ms,帧移10ms。对训练集和测试集分别进行特 词错误率% 句错误率/% 征提取,全部语音数据共生成119960个MFCC特 声学模型 征,其中训练数据生成的特征为112535个,测试数 训练集测试集 训练集测试集 据生成的特征为7425个。GMM-HMM声学模型 单音子GMM-HMM 14.32 47.34 41.71 75.3 训练时,蒙古语语音MFCC特征采用39维数据进 单音子DNN-HMM 5.48 36.2 9.28 行实验。单音子DNN-HMM实验时,蒙古语MFCC 57.42 语音特征为13维(不包括一、二阶差分特征)。三音 三音子GMM-HMM 5.86 33.2 30.74 60.39 子DNN-HMM实验时,蒙古语MFCC的特征为 三音子DNN-HMM 4.53 25.7 11.44 46.76 39维。 DNN网络训练时,特征提取采用上下文结合的 从图3(a)中可以发现,相对于单音子GMM- 办法,即在当前帧前后各取5帧来表示当前帧的上 HMM蒙古语声学模型,单音子DNN-HMM蒙古语 下文环境,因此,在实验过程中,单音子DNN网络 声学模型在训练集上的词错误率降低了8.84%,在 的输入节点数为143个(13×(5+1+5),三音子 测试集上的词识别错误率降低了11.14%;但是,对 DNN网络的输入节点数为429个(39×(5+1+5)。 于三音子模型来说,三音子DNN-HMM蒙古语声学 DNN网络的输出层节点为可观察蒙古语语音音素 模型比三音子GMM-HMM蒙古语声学模型在训练 个数,根据语料库标注的标准,输出节点为27个; DNN网络的隐含层节点数设定为1024,调优训练 集上的词错误率降低了1.33%,在测试集上的词识 次数设定为60,初始学习率设定为0.015,最终学习 别错误率降低了7.5%。由图3b)发现,单音子模型 率设定为0.002。 在训练集上的句识别错误率降低了32.43%,在测试 3.3实验和结果 集上的句识别错误率降低了17.88%:对于三音子模 为了验证深度神经网络能够更好地捕捉蒙古语 型来说,三音子DNN-HMM蒙古语声学模型比三音 语音的声学特征,具备更好地建模能力。本文设计 子GMM-HMM蒙古语声学模型在训练集上的句识 了4个实验,分别是单音子GMM-HMM、三音子 别错误率降低了19.3%,在测试集上的句识别错误 GMM-HMM、单音子DNN-HMM和三音子DNN- 率降低了13.63%。 15 ■测试集 40 ■测试集 ■训练集 ■训练集 11.14 30 10 8.84 7.5 20 17.88 19.3 13.63 5 1.13 0 01 单音子DNN-HMM三音子DNN-HMM 单音子DNN-HMM三音子DNN-HMM 声学模型/音素 声学模型/音素 (a)相对于GMM-HMM声学模型的词错误下降率 (b)相对于GMM-HMM声学模型的句错误下降率 图3相对于GMM-HMM声学模型的实验对比结果 Fig.3 The experimental results are compared with the GMM-HMM acoustic model 从以上分析可以得出:单音子DNN-HMM蒙古 对DNN-HMM三音子蒙古语声学模型的影响,本文 语声学模型明显优于单音子GMM-HMM蒙古语声 以未采用dropout技术的4层三音子DNN-HMM 学模型:对于三音子模型来说,三音子DNN-HMM 蒙古语声学模型为基准实验,分别进行了关于隐含 蒙古语声学模型比三音子GMM-HMM蒙古语声学 层层数以及dropout技术的对比实验,实验结果数 模型的识别率还要高。 据见表3。 另外,为了研究隐含层层数、dropout技术u-20
实验过程中,蒙古语声学特征采用 MFCC 声学 特征表示,共有 39 维数据,其中前 13 维特征由 12 个倒谱特征和 1 个能量系数组成,后面的两个 13 维特征是对前面 13 维特征的一阶差分和二阶差 分。在提取蒙古语 MFFC 特征时,帧窗口长度为 25 ms,帧移 10 ms。对训练集和测试集分别进行特 征提取,全部语音数据共生成 119 960 个 MFCC 特 征,其中训练数据生成的特征为 112 535 个,测试数 据生成的特征为 7 425 个。GMM-HMM 声学模型 训练时,蒙古语语音 MFCC 特征采用 39 维数据进 行实验。单音子 DNN-HMM 实验时,蒙古语 MFCC 语音特征为 13 维 (不包括一、二阶差分特征)。三音 子 DNN-HMM 实验时,蒙古语 MFCC 的特征为 39 维。 DNN 网络训练时,特征提取采用上下文结合的 办法,即在当前帧前后各取 5 帧来表示当前帧的上 下文环境,因此,在实验过程中,单音子 DNN 网络 的输入节点数为 143 个 (13×(5+1+5)),三音子 DNN 网络的输入节点数为 429 个 (39×(5+1+5))。 DNN 网络的输出层节点为可观察蒙古语语音音素 个数,根据语料库标注的标准,输出节点为 27 个; DNN 网络的隐含层节点数设定为 1 024,调优训练 次数设定为 60,初始学习率设定为 0.015,最终学习 率设定为 0.002。 3.3 实验和结果 为了验证深度神经网络能够更好地捕捉蒙古语 语音的声学特征,具备更好地建模能力。本文设计 了 4 个实验,分别是单音子 GMM-HMM、三音子 GMM-HMM、单音子 DNN-HMM 和三音子 DNNHMM 实验。采用 3.2 中的实验参数设置进行了实 验,实验结果数据见表 2。 从图 3(a) 中可以发现,相对于单音子 GMMHMM 蒙古语声学模型,单音子 DNN-HMM 蒙古语 声学模型在训练集上的词错误率降低了 8.84%,在 测试集上的词识别错误率降低了 11.14%;但是,对 于三音子模型来说,三音子 DNN-HMM 蒙古语声学 模型比三音子 GMM-HMM 蒙古语声学模型在训练 集上的词错误率降低了 1.33%,在测试集上的词识 别错误率降低了 7.5%。由图 3(b) 发现,单音子模型 在训练集上的句识别错误率降低了 32.43%,在测试 集上的句识别错误率降低了 17.88%;对于三音子模 型来说,三音子 DNN-HMM 蒙古语声学模型比三音 子 GMM-HMM 蒙古语声学模型在训练集上的句识 别错误率降低了 19.3%,在测试集上的句识别错误 率降低了 13.63%。 从以上分析可以得出:单音子 DNN-HMM 蒙古 语声学模型明显优于单音子 GMM-HMM 蒙古语声 学模型;对于三音子模型来说,三音子 DNN-HMM 蒙古语声学模型比三音子 GMM-HMM 蒙古语声学 模型的识别率还要高。 另外,为了研究隐含层层数、dropout 技术[18-20] 对 DNN-HMM 三音子蒙古语声学模型的影响,本文 以未采用 dropout 技术的 4 层三音子 DNN-HMM 蒙古语声学模型为基准实验,分别进行了关于隐含 层层数以及 dropout 技术的对比实验,实验结果数 据见表 3。 表 2 GMM-HMM 与 DNN-HMM 蒙古语声学模型实验数据 Table 2 The experimental data of Mongolian acoustic mode from GMM-HMM and DNN-HMM 声学模型 词错误率/% 句错误率/% 训练集 测试集 训练集 测试集 单音子 GMM-HMM 14.32 47.34 41.71 75.3 单音子 DNN-HMM 5.48 36.2 9.28 57.42 三音子 GMM-HMM 5.86 33.2 30.74 60.39 三音子 DNN-HMM 4.53 25.7 11.44 46.76 8.84 1.13 11.14 7.5 0 5 10 15 ≷䄁䯲 䃙㏯䯲 ≷䄁䯲 䃙㏯䯲 䃹䩅䄛̷䭹⢳/% ผ႒Ὅಷ/䴟㉌ ࢁ䴟ၼ DNN−HMM ̵䴟ၼ DNN−HMM (a) ⰤᄥκGMM−HMMผ႒Ὅಷ⮰䃹䩅䄛̷䭹⢳ 32.43 19.3 17.88 13.63 0 10 20 30 40 ऑ䩅䄛̷䭹⢳/% ผ႒Ὅಷ/䴟㉌ ࢁ䴟ၼ DNN−HMM ̵䴟ၼ DNN−HMM (b) ⰤᄥκGMM−HMMผ႒Ὅಷ⮰ऑ䩅䄛̷䭹⢳ 图 3 相对于 GMM-HMM 声学模型的实验对比结果 Fig. 3 The experimental results are compared with the GMM-HMM acoustic model ·490· 智 能 系 统 学 报 第 13 卷
第3期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·491· 表3三音子DNN-HMM声学模型上dropout实验 数据在训练集上的识别率很高,而在测试集上的识 Table 3 Dropout experiment on Triphone DNN-HMM 别率很低时,那么,就表示该模型有着严重的过拟 acoustic model 合现象,我们用模型在测试集上的评价指标和模型 隐含层 词错误率/% 句错误率% 在训练集上的评价指标的差值的绝对值来表示过拟 声学模型 层数训练集测试集训练集测试集 合现象的程度,所以,将它的计算公式定义为 4 4.53 25.7 11.44 46.76 模型的过拟合距离=模型在测试集上的评价指标- 三音子 5 4.49 26.4 12.19 49.02 模型在测试集上的评价指标 DNN-HMM 6 3.23 45.7 (3) 9.81 66.23 > 2.11 56.92 7.2 87.92 从图4深色部分中可以发现,在未采用dro- 三音子 4 pout技术训练得到的DNN-HMM蒙古语声学模型 4.67 26.1 12.27 44.98 4.49 26.4 12.19 47.02 中,当隐含层网络层数由4层增加至7层时,对词 dropout- 5.27 29.34 15.33 48.21 识别的过拟合距离从21.17%增长到了54.81%;对 DNN-HMM 7 8.32 33.8 19.1 51.08 句识别的过拟合距离从35.32%增长到了80.72%。 由此可以看出,随着隐含层网络层数的增加,模型 为了表示过拟合现象的程度,本文定义了一个 的过拟合距离越来越大,过拟合距离的变大说明 模型的过拟合距离,在语音识别中,过拟合往往是 DNN网络构建的蒙古语声学模型已经严重过拟合, 通过训练集和测试集上的识别率来进行判断的,当 那么,DNN-HMM的表现就会越来越差。 60】 ■DNN-HMM 54.81 dropout DNN-HMM2.38 100 「■DNN-HMM 80.72 440 ■dropout DNN-HMM 24 56.42 24.07 25.48 5035.32 2 2.7 36.8334.83 32.88 31.98 0 隐含层的层数层 隐含层的层数层 (a)对词识别的过拟合距离 (b)对句识别的过拟合距离 图4 dropout技术和隐含层层数对DNN-HMM模型过拟合距离的影响 Fig.4 Influence of dropout technique and hidden layers on the over-fitting distance of DNN-HMM model 在图4中,通过深浅两种颜色的对比可以看 表明:1)在不同建模单元(单音子和三音子)下, 出,采用dropout技术后,当隐含层网络层数由4层 DNN-HMM蒙古语声学模型不论词错误率还是句 增加至7层时,对词识别的过拟合距离分别是 错误率都优于GMM-HMM蒙古语声学模型,具体 21.43%、21.91%、24.07%和25.48%。而未采用dr0- 表现为三音子DNN-HMM声学模型比三音子 pout技术,对词识别的过拟合距离分别是21.17%、 GMM-HMM模型在测试集上的词识别错误率降低 21.91%、42.38%、54.81%。由此可知,采用dr0- 了7.5%,句识别错误率降低了13.63%;2)在训练 pout技术后的过拟合距离要比未采用dropout技术 DNN-HMM三音子蒙古语声学模型时,加入dro 后的过拟合距离小,这一点,在对句识别的过拟合 pout技术可以有效避免随着隐含层层数增加带来的 距离上同样存在。所以,在加入了dropout技术后, 过拟合影响。 有效地缓解了因隐含层数增加而导致的过拟合现 参考文献: 象,从而提高了模型的识别性能。 []马志强,张泽广,闫瑞,等.基于N-Gram模型的蒙古语文 4结束语 本语种识别算法的研究).中文信息学报,2016,30(1): 133-140 在蒙古语语音识别声学建模中,本文给出了 MA Zhiqiang,ZHANG Zeguang,YAN Rui,et al.N-Gram DNN-HMM蒙古语声学模型、无监督与监督算法相 based language identification for Mongolian text[J].Journal 结合的蒙古语声学模型的训练算法以及以GMM- of Chinese information processing,2016,30(1):133-140. HMM为基础的DNN-HMM蒙古语声学模型的训 [2]RABINER L R.A tutorial on hidden Markov models and 练过程。在Kaldi实验平台上使用小规模的蒙古语 selected applications in speech recognition[J].Proceedings 语音语料库IMUT310开展了实验研究,实验结果 of the IEEE,1989,77(2):257-286
为了表示过拟合现象的程度,本文定义了一个 模型的过拟合距离,在语音识别中,过拟合往往是 通过训练集和测试集上的识别率来进行判断的,当 数据在训练集上的识别率很高,而在测试集上的识 别率很低时,那么,就表示该模型有着严重的过拟 合现象,我们用模型在测试集上的评价指标和模型 在训练集上的评价指标的差值的绝对值来表示过拟 合现象的程度,所以,将它的计算公式定义为 模型的过拟合距离 = |模型在测试集上的评价指标− 模型在测试集上的评价指标| (3) 从图 4 深色部分中可以发现,在未采用 dropout 技术训练得到的 DNN-HMM 蒙古语声学模型 中,当隐含层网络层数由 4 层增加至 7 层时,对词 识别的过拟合距离从 21.17% 增长到了 54.81%;对 句识别的过拟合距离从 35.32% 增长到了 80.72%。 由此可以看出,随着隐含层网络层数的增加,模型 的过拟合距离越来越大,过拟合距离的变大说明 DNN 网络构建的蒙古语声学模型已经严重过拟合, 那么,DNN-HMM 的表现就会越来越差。 在图 4 中,通过深浅两种颜色的对比可以看 出,采用 dropout 技术后,当隐含层网络层数由 4 层 增加至 7 层时,对词识别的过拟合距离分别是 21.43%、21.91%、24.07% 和 25.48%。而未采用 dropout 技术,对词识别的过拟合距离分别是 21.17%、 21.91%、42.38%、54.81%。由此可知,采用 dropout 技术后的过拟合距离要比未采用 dropout 技术 后的过拟合距离小,这一点,在对句识别的过拟合 距离上同样存在。所以,在加入了 dropout 技术后, 有效地缓解了因隐含层数增加而导致的过拟合现 象,从而提高了模型的识别性能。 4 结束语 在蒙古语语音识别声学建模中,本文给出了 DNN-HMM 蒙古语声学模型、无监督与监督算法相 结合的蒙古语声学模型的训练算法以及以 GMMHMM 为基础的 DNN-HMM 蒙古语声学模型的训 练过程。在 Kaldi 实验平台上使用小规模的蒙古语 语音语料库 IMUT310 开展了实验研究,实验结果 表明:1) 在不同建模单元 (单音子和三音子) 下, DNN-HMM 蒙古语声学模型不论词错误率还是句 错误率都优于 GMM-HMM 蒙古语声学模型,具体 表现为三音子 DNN-HMM 声学模型比三音子 GMM-HMM 模型在测试集上的词识别错误率降低 了 7.5%,句识别错误率降低了 13.63%;2) 在训练 DNN-HMM 三音子蒙古语声学模型时,加入 dropout 技术可以有效避免随着隐含层层数增加带来的 过拟合影响。 参考文献: 马志强, 张泽广, 闫瑞, 等. 基于 N-Gram 模型的蒙古语文 本语种识别算法的研究[J]. 中文信息学报, 2016, 30(1): 133–140. MA Zhiqiang, ZHANG Zeguang, YAN Rui, et al. N-Gram based language identification for Mongolian text[J]. Journal of Chinese information processing, 2016, 30(1): 133–140. [1] RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition[J]. Proceedings of the IEEE, 1989, 77(2): 257–286. [2] 表 3 三音子 DNN-HMM 声学模型上 dropout 实验 Table 3 Dropout experiment on Triphone DNN-HMM acoustic model 声学模型 隐含层 层数 词错误率/% 句错误率/% 训练集 测试集 训练集 测试集 三音子 DNN-HMM 4 4.53 25.7 11.44 46.76 5 4.49 26.4 12.19 49.02 6 3.23 45.7 9.81 66.23 7 2.11 56.92 7.2 87.92 三音子 dropoutDNN-HMM 4 4.67 26.1 12.27 44.98 5 4.49 26.4 12.19 47.02 6 5.27 29.34 15.33 48.21 7 8.32 33.8 19.1 51.08 21.17 21.91 42.38 54.81 21.43 21.91 24.07 25.48 0 20 40 60 对词识别的过拟合距离 4 5 6 7 /% 隐含层的层数/层 dropout DNN-HMM DNN-HMM (a) 对词识别的过拟合距离 dropout DNN-HMM DNN-HMM 35.32 36.83 56.42 80.72 32.71 34.83 32.88 31.98 0 50 100 4 5 6 7 隐含层的层数/层 对句识别的过拟合距离/% (b) 对句识别的过拟合距离 图 4 dropout 技术和隐含层层数对 DNN-HMM 模型过拟合距离的影响 Fig. 4 Influence of dropout technique and hidden layers on the over - fitting distance of DNN-HMM model 第 3 期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·491·
·492· 智能系统学报 第13卷 [3]RABINER L,JUANG B H.Fundamentals of Speech Re- 45(4):438-451 cognition[M].Upper Saddle River,USA:Prentice-Hall, [15]JAIMAI P,ZUNDUI T,CHAGNAA A,et al.PC- 1993 KIMMO-based description of Mongolian morphology[J]. [4]RENALS S,MORGAN N,BOURLARD H,et al.Connec- International journal of information processing systems, tionist probability estimators in HMM speech recognition[J]. 2005,1(1:41-48. IEEE transactions on speech and audio processing,1994, [16]GAO Guanglai,BILIGETU,NABUQING,et al.A Mon- 2(1):161-174. golian speech recognition system based on HMM[C]//Pro- [5]LI Deng,HINTON G,KINGSBURY B.New types of deep ceedings of 2006 International Conference on Intelligent neural network learning for speech recognition and related Computing.Kunming,China,2006:667-676. applications:an overview[Cl//Proceedings of 2013 IEEE In- [1刀飞龙,高光来,闫学亮,等.基于分割识别的蒙古语语音 ternational Conference on Acoustics,Speech and Signal 关键词检测方法的研究J.计算机科学,2013,40(9): Processing.Vancouver,Canada,2013:8599-8603. 208-211. [6]HINTON G,DENG Li,YU Dong,et al.Deep neural net- FEI Long,GAO Guanglai,Yan Xueliang,et al.Research works for acoustic modeling in speech recognition:the on Mongolian spoken term detection method based on seg- shared views of four research groups[J].IEEE signal pro- mentation recognition[J].Computer science,2013,40(9): cessing magazine,2012,29(6):82-97. 208-211. [7]YU Dong,DENG Li,DAHL G E.Roles of pre-training and [18]HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al fine-tuning in context-dependent DBN-HMMs for real- Improving neural networks by preventing co-adaptation of world speech recognition[C]//Proceedings of NIPS Work- feature detectors[J].arXiv:1207.0580,2012. shop on Deep Learning and Unsupervised Feature Learning. [19]SRIVASTAVA N.Improving neural networks with dro- 2010 [8]DAHL G E,YU Dong,DENG Li,et al.Large vocabulary pout[D].Toronto:University of Toronto,2013. [20]DENG Li,YU Dong.Deep learning:methods and applica- continuous speech recognition with context-dependent DBN-HMMs[C]//Proceedings of 2011 IEEE International tions[J].Foundations and trends in signal processing,2014. 7(3/4):197-387 Conference on Acoustics,Speech and Signal Processing. Prague,Czech Republic,2011:4688-4691. 作者简介: 9]DAHL G E.YU Dong,DENG Li,et al.Context-dependent 马志强,男,1972年生,教授,主 pre-trained deep neural networks for large-vocabulary 要研究方向为机器学习、语音识别、自 speech recognition[J].IEEE transactions on audio,speech, 然语言处理。发表学术论文30余篇, and language processing,2012,20(1):30-42. 被EI检索10余篇。 [10]HINTON G E.Training products of experts by minimizing contrastive divergence[J].Neural computation,2002. 148):1771-1800 [11]HINTON G E,OSINDERO S,TEH Y W.A fast learning 李图雅,女,1993年生,硕士研究 algorithm for deep belief nets[J].Neural computation, 生,主要研究方向为机器学习、语音识 别、自然语言处理。 2006,18(7):1527-1554. [12]BENGIO Y,LAMBLIN P,POPOVICI D,et al.Greedy layer-wise training of deep networks[M]//SCHOLKOPF B, PLATT J,HOFFMAN T.Advances in Neural Information Processing Systems.Cambridge:MIT Press,2007:19-153. [13]HINTON G E.A practical guide to training restricted 杨双涛,男,1990年生.硕士研究 生,主要研究方向为机器学习、语音识 Boltzmann machines[R].Toronto:University of Toronto, 别、自然语言处理。 2010:926-927 [14]KHALTA B O,FUJ II A.A lemmatization method for Mongolian and its application to indexing for information retrieval[J].Information processing management,2009
RABINER L, JUANG B H. Fundamentals of Speech Recognition[M]. Upper Saddle River, USA: Prentice-Hall, 1993. [3] RENALS S, MORGAN N, BOURLARD H, et al. Connectionist probability estimators in HMM speech recognition[J]. IEEE transactions on speech and audio processing, 1994, 2(1): 161–174. [4] LI Deng, HINTON G, KINGSBURY B. New types of deep neural network learning for speech recognition and related applications: an overview[C]//Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada, 2013: 8599–8603. [5] HINTON G, DENG Li, YU Dong, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE signal processing magazine, 2012, 29(6): 82–97. [6] YU Dong, DENG Li, DAHL G E. Roles of pre-training and fine-tuning in context-dependent DBN-HMMs for realworld speech recognition[C]//Proceedings of NIPS Workshop on Deep Learning and Unsupervised Feature Learning. 2010. [7] DAHL G E, YU Dong, DENG Li, et al. Large vocabulary continuous speech recognition with context-dependent DBN-HMMs[C]//Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing. Prague, Czech Republic, 2011: 4688–4691. [8] DAHL G E, YU Dong, DENG Li, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE transactions on audio, speech, and language processing, 2012, 20(1): 30–42. [9] HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Neural computation, 2002, 14(8): 1771–1800. [10] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527–1554. [11] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[M]//SCHÖLKOPF B, PLATT J, HOFFMAN T. Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2007: 19–153. [12] HINTON G E. A practical guide to training restricted Boltzmann machines[R]. Toronto: University of Toronto, 2010: 926–927. [13] KHALTA B O, FUJⅡ A. A lemmatization method for Mongolian and its application to indexing for information retrieval[J]. Information processing & management, 2009, [14] 45(4): 438–451. JAIMAI P, ZUNDUI T, CHAGNAA A, et al. PCKIMMO-based description of Mongolian morphology[J]. International journal of information processing systems, 2005, 1(1): 41–48. [15] GAO Guanglai, BILIGETU, NABUQING, et al. A Mongolian speech recognition system based on HMM[C]//Proceedings of 2006 International Conference on Intelligent Computing. Kunming, China, 2006: 667–676. [16] 飞龙, 高光来, 闫学亮, 等. 基于分割识别的蒙古语语音 关键词检测方法的研究[J]. 计算机科学, 2013, 40(9): 208–211. FEI Long, GAO Guanglai, Yan Xueliang, et al. Research on Mongolian spoken term detection method based on segmentation recognition[J]. Computer science, 2013, 40(9): 208–211. [17] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. arXiv: 1207.0580, 2012. [18] SRIVASTAVA N. Improving neural networks with dropout[D]. Toronto: University of Toronto, 2013. [19] DENG Li, YU Dong. Deep learning: methods and applications[J]. Foundations and trends in signal processing, 2014, 7(3/4): 197–387. [20] 作者简介: 马志强,男,1972 年生,教授,主 要研究方向为机器学习、语音识别、自 然语言处理。发表学术论文 30 余篇, 被 EI 检索 10 余篇。 李图雅,女,1993 年生,硕士研究 生,主要研究方向为机器学习、语音识 别、自然语言处理。 杨双涛,男,1990 年生,硕士研究 生,主要研究方向为机器学习、语音识 别、自然语言处理。 ·492· 智 能 系 统 学 报 第 13 卷