【自然语言处理与理解】基于深度神经网络的蒙古语声学模型建模研究

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：819.91KB

第13卷第3期智能系统学报 Vol.13 No.3 2018年6月 CAAI Transactions on Intelligent Systems Jun.2018 D0:10.11992/tis.201710029 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180408.1725.028.html 基于深度神经网络的蒙古语声学模型建模研究马志强，李图雅，杨双涛，张力 (内蒙古工业大学数据科学与应用学院，内蒙古呼和浩特010080) 摘要：针对高斯混合模型在蒙古语语音识别声学建模中不能充分描述蒙古语声学特征之间相关性和独立性假设的问题，开展了使用深度神经网铬模型进行蒙古语声学模型建模的研究。以深度神经网络为基础，将分类与语音特征内在结构的学习紧密结合进行蒙古语声学特征的提取，构建了DNN-HMM蒙古语声学模型，结合无监督预训练与监督训练调优过程设计了训练算法，在DNN-HMM蒙古语声学模型训练中加入dropout技术避免过拟合现象。最后，在小规模语料库和Kaldi实验平台下，对GMM-HMM和DNN-HMM蒙古语声学模型进行了对比实验。实验结果表明，DNN-HMM蒙古语声学模型的词识别错误率降低了7.5%，句识别错误率降低了13.63%；同时，训练时加入do pout技术可以有效避免DNN-HMM蒙古语声学模型的过拟合现象。关键词：语音识别；声学模型；GMM-HMM;DNN-HMM;监督学习；预训练；过拟合；dropout 中图分类号：TP391 文献标志码：A文章编号：1673-4785(2018)03-0486-07 中文引用格式：马志强，李图雅，杨双涛，等.基于深度神经网络的蒙古语声学模型建模研究.智能系统学报，2018,13(3：486-492 英文引用格式：MA Zhiqiang,LITuya,YANG Shuangtao,.etal.Mongolian acoustic modeling based on deep neural network[J CAAI transactions on intelligent systems,2018,13(3):486-492. Mongolian acoustic modeling based on deep neural network MA Zhiqiang,LI Tuya,YANG Shuangtao,ZHANG Li (School of Data Science &Application,Inner Mongolia University of Technology,Hohhot 010080,China) Abstract:Considering the difficulty of using the Gaussian mixture model(GMM)to adequately describe the correla- tion and independence hypothesis of the Mongolian acoustic features in the acoustic modeling of Mongolian speech re- cognition,this study investigates an acoustic model based on deep neural network(DNN).Firstly,using DNN,the in- ternal structure of phonetic features were classified and learned to extract the Mongolian acoustic features,and a DNN- HMM Mongolian acoustic model was constructed.Secondly,a training algorithm was designed by combining unsuper- vised pre-training and supervised training tuning.In addition,dropout technology was added into the DNN-HMM Mon- golian acoustic model training to avoid the over-fitting phenomenon.Finally,a comparative experiment was conducted for the GMM-HMM and DNN-HMM Mongolian acoustic models on basis of the small-scale corpus and Kaldi experi- mental platform.Experimental results show that the word recognition error rate of DNN-HMM Mongolian model was reduced by 7.5%and sentence recognition error rate was reduced by 13.63%.In addition,the over-fitting of DNN-HMM Mongolian acoustic model can be effectively avoided by adopting the dropout technique during training. Keywords:speech recognition;acoustic model;GMM-HMM;DNN-HMM;supervised learning;pre-training;over-fit- ting,dropout 典型的大词汇量连续语音识别系统(large voca- 征提取、声学模型、语言模型和解码器等组成。声 bulary continuous speech recognition,LVCSR) 学模型是语音识别系统的核心组成部分，基于GMM 和HMM模型构建的GMM-HMM声学模型一度收稿日期：2017-10-31.网络出版日期：2018-04-09 基金项目：国家自然科学基金项目(61762070,61650205)】是大词汇量连续语音识别系统中应用最广的声学模通信作者：李图雅.E-mail:2297854548@qq.com. 型。在GMM-HMM模型中，GMM模型对语音特

DOI: 10.11992/tis.201710029 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180408.1725.028.html 基于深度神经网络的蒙古语声学模型建模研究马志强，李图雅，杨双涛，张力（内蒙古工业大学数据科学与应用学院，内蒙古呼和浩特 010080）摘要：针对高斯混合模型在蒙古语语音识别声学建模中不能充分描述蒙古语声学特征之间相关性和独立性假设的问题，开展了使用深度神经网络模型进行蒙古语声学模型建模的研究。以深度神经网络为基础，将分类与语音特征内在结构的学习紧密结合进行蒙古语声学特征的提取，构建了 DNN-HMM 蒙古语声学模型，结合无监督预训练与监督训练调优过程设计了训练算法，在 DNN-HMM 蒙古语声学模型训练中加入 dropout 技术避免过拟合现象。最后，在小规模语料库和 Kaldi 实验平台下，对 GMM-HMM 和 DNN-HMM 蒙古语声学模型进行了对比实验。实验结果表明，DNN-HMM 蒙古语声学模型的词识别错误率降低了 7.5%，句识别错误率降低了 13.63%；同时，训练时加入 dropout 技术可以有效避免 DNN-HMM 蒙古语声学模型的过拟合现象。关键词：语音识别；声学模型；GMM-HMM；DNN-HMM；监督学习；预训练；过拟合；dropout 中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2018)03−0486−07 中文引用格式：马志强, 李图雅, 杨双涛, 等. 基于深度神经网络的蒙古语声学模型建模研究[J]. 智能系统学报, 2018, 13(3): 486–492. 英文引用格式：MA Zhiqiang, LI Tuya, YANG Shuangtao, et al. Mongolian acoustic modeling based on deep neural network[J]. CAAI transactions on intelligent systems, 2018, 13(3): 486–492. Mongolian acoustic modeling based on deep neural network MA Zhiqiang，LI Tuya，YANG Shuangtao，ZHANG Li (School of Data Science &Application, Inner Mongolia University of Technology, Hohhot 010080, China) Abstract: Considering the difficulty of using the Gaussian mixture model (GMM) to adequately describe the correlation and independence hypothesis of the Mongolian acoustic features in the acoustic modeling of Mongolian speech recognition, this study investigates an acoustic model based on deep neural network (DNN). Firstly, using DNN, the internal structure of phonetic features were classified and learned to extract the Mongolian acoustic features, and a DNNHMM Mongolian acoustic model was constructed. Secondly, a training algorithm was designed by combining unsupervised pre-training and supervised training tuning. In addition, dropout technology was added into the DNN-HMM Mongolian acoustic model training to avoid the over-fitting phenomenon. Finally, a comparative experiment was conducted for the GMM-HMM and DNN-HMM Mongolian acoustic models on basis of the small-scale corpus and Kaldi experimental platform. Experimental results show that the word recognition error rate of DNN-HMM Mongolian model was reduced by 7.5% and sentence recognition error rate was reduced by 13.63%. In addition, the over-fitting of DNN-HMM Mongolian acoustic model can be effectively avoided by adopting the dropout technique during training. Keywords: speech recognition; acoustic model; GMM-HMM; DNN-HMM; supervised learning; pre-training; over-fitting; dropout 典型的大词汇量连续语音识别系统 (large vocabulary continuous speech recognition，LVCSR) 由特征提取、声学模型、语言模型和解码器等组成。声学模型是语音识别系统的核心组成部分，基于 GMM 和 HMM 模型构建的 GMM-HMM 声学模型[1]一度是大词汇量连续语音识别系统中应用最广的声学模型。在 GMM-HMM 模型中，GMM 模型对语音特收稿日期：2017−10−31. 网络出版日期：2018−04−09. 基金项目：国家自然科学基金项目 (61762070，61650205). 通信作者：李图雅. E-mail：2297854548@qq.com. 第 13 卷第 3 期智能系统学报 Vol.13 No.3 2018 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2018

第3期马志强，等：基于深度神经网络的蒙古语声学模型建模研究 ·487· 征向量进行概率建模，然后通过EM算法生成语音 1.1DNN-HMM蒙古语声学模型观察特征的最大化概率，当混合高斯分布数目足够 DNN-HMM蒙古语声学模型就是将深度神经多时，GMM可以充分拟合声学特征的概率分布，网络技术应用到蒙古语声学模型中，用DNN深度 HMM模型根据GMM拟合的观察状态生成语音的神经网络代替GMM高斯混合模型，实现对蒙古语时序状态2。当采用GMM混合高斯模型的概率声学状态的后验概率估算。在给定蒙古语声学特征来描述语音数据分布时，GMM模型本质上属于浅序列的情况下，首先用DNN模型估算当前特征属层模型，并在拟合声学特征分布时对特征之间进行于HMM状态的概率，然后用HMM模型描述蒙古了独立性的假设，因此无法充分描述声学特征的状语语音信号的动态变化，捕捉蒙古语语音信息的时态空间分布；同时，GMM建模的特征维数一般是几序状态信息。DNN-HMM蒙古语声学模型结构如十维，不能充分描述声学特征之间的相关性，模型图1所示。表达能力有限。因此，在20世纪80年代利用神经网络和HMM模型构建声学模型的研究开始出现，但是，当时计算机计算能力不足且缺乏足够的训练 HMM 数据，模型的效果不及GMM-HMM。2010年微 DNN 软亚洲研究院的邓力与Hinton小组针对大规模连续语音识别任务提出了CD-DBN-HMM的混合声学模型框架，并进行了相关实验。实验结果表明，相比GMM-HMM声学模型，采用CD-DBN-HMM声学模型使语音识别系统识别正确率提高了30%左右，CD-DBN-HMM混合声学模型框架的提出彻底革新了语音识别原有的声学模型框架。与传统的高斯混合模型相比，深度神经网络属于深度模型，能够更好地表示复杂非线性函数，更能捕捉语音特征蒙古语声学特征向量向量之间的相关性，易于取得更好的建模效果1。蒙古语语音识别研究主要借鉴了英语、汉语以及其图1DNN-HMM蒙古语声学模型他少数民族语言，在语音识别研究上取得了成果， Fig.1 The Mongolian acoustic model based on DNN- 因此蒙古语声学模型建模过程主要以GMM-HMM HMM. 模型为基础开展研究，也取得了一定的研究成果6。在DNN-HMM蒙古语声学模型中，DNN网络在特征学习方面DNN模型比GMM模型具有更大是通过不断地自下而上堆叠隐含层实现的。其中，的优势，所以本文用DNN模型代替了GMM模型 S表示HMM模型中的隐含状态，A表示状态转移来完成蒙古语声学模型建模任务。概率矩阵，L表示DNN深度神经网络的层数（隐含层为L-I层，L层为输入层，L,层为输出层，DNN网 1蒙古语声学模型研究络共包含L+1层)，W表示层之间的连接矩阵。DNN- HMM蒙古语声学模型在进行蒙古语语音识别过程在语音识别领域内，DNN主要以两种形式被应建模前，需要对DNN神经网络进行训练。在完成用：直接作为声学特征的提取模型，但是这种应用 DNN神经网络的训练后，对蒙古语声学模型的建模方式仍需要借助GMM-HMM模型才能完成；将过程与GMM-HMM模型一致。 DNN与HMM隐马尔科夫模型进行结合，构成混合 1.2DNN网络的训练模型结构，利用深度神经网络代替GMM高斯混合蒙古语声学模型中的DNN网络的训练分为预模型进行声学状态输出概率的计算81。与高斯混训练和调优两个阶段。DNN的预训练就是对深度合模型相比，深度神经网络有着更强的学习能力和神经网络的参数进行初始化。通常，DNN深度神经建模能力，能够更好地捕捉声学特征的内在关系，网络的预训练方式分为生成式训练和判别式训练。有助于声学模型性能的提升，所以本文通过使用深逐层无监督预训练算法就是使用无监督学习方法度神经网络模型对蒙古语声学特征逐层提取，将分对网络的每一层进行预训练，它属于生成式训练算类与语音特征内在结构的学习进行了紧密结合，有法7。在DNN-HMM蒙古语声学模型预训练中，采利于蒙古语语音识别系统正确率的提升。用了逐层无监督训练算法

征向量进行概率建模，然后通过 EM 算法生成语音观察特征的最大化概率，当混合高斯分布数目足够多时，GMM 可以充分拟合声学特征的概率分布， HMM 模型根据 GMM 拟合的观察状态生成语音的时序状态[2-3]。当采用 GMM 混合高斯模型的概率来描述语音数据分布时，GMM 模型本质上属于浅层模型，并在拟合声学特征分布时对特征之间进行了独立性的假设，因此无法充分描述声学特征的状态空间分布；同时，GMM 建模的特征维数一般是几十维，不能充分描述声学特征之间的相关性，模型表达能力有限。因此，在 20 世纪 80 年代利用神经网络和 HMM 模型构建声学模型的研究开始出现，但是，当时计算机计算能力不足且缺乏足够的训练数据，模型的效果不及 GMM-HMM[4-5]。2010 年微软亚洲研究院的邓力与 Hinton 小组针对大规模连续语音识别任务提出了 CD-DBN-HMM的混合声学模型框架[6] ，并进行了相关实验。实验结果表明，相比 GMM-HMM 声学模型，采用 CD-DBN-HMM 声学模型使语音识别系统识别正确率提高了 30% 左右，CD-DBN-HMM 混合声学模型框架的提出彻底革新了语音识别原有的声学模型框架。与传统的高斯混合模型相比，深度神经网络属于深度模型，能够更好地表示复杂非线性函数，更能捕捉语音特征向量之间的相关性，易于取得更好的建模效果[7-12]。蒙古语语音识别研究主要借鉴了英语、汉语以及其他少数民族语言，在语音识别研究上取得了成果，因此蒙古语声学模型建模过程主要以 GMM-HMM 模型为基础开展研究，也取得了一定的研究成果[13-16]。在特征学习方面 DNN 模型比 GMM 模型具有更大的优势，所以本文用 DNN 模型代替了 GMM 模型来完成蒙古语声学模型建模任务。 1 蒙古语声学模型研究在语音识别领域内，DNN 主要以两种形式被应用：直接作为声学特征的提取模型，但是这种应用方式仍需要借助 GMM-HMM 模型才能完成；将 DNN 与 HMM 隐马尔科夫模型进行结合，构成混合模型结构，利用深度神经网络代替 GMM 高斯混合模型进行声学状态输出概率的计算[7-8]。与高斯混合模型相比，深度神经网络有着更强的学习能力和建模能力，能够更好地捕捉声学特征的内在关系，有助于声学模型性能的提升，所以本文通过使用深度神经网络模型对蒙古语声学特征逐层提取，将分类与语音特征内在结构的学习进行了紧密结合，有利于蒙古语语音识别系统正确率的提升。 1.1 DNN-HMM 蒙古语声学模型 DNN-HMM 蒙古语声学模型就是将深度神经网络技术应用到蒙古语声学模型中，用 DNN 深度神经网络代替 GMM 高斯混合模型，实现对蒙古语声学状态的后验概率估算。在给定蒙古语声学特征序列的情况下，首先用 DNN 模型估算当前特征属于 HMM 状态的概率，然后用 HMM 模型描述蒙古语语音信号的动态变化，捕捉蒙古语语音信息的时序状态信息。DNN-HMM 蒙古语声学模型结构如图 1 所示。 L0 LL 在 DNN-HMM 蒙古语声学模型中，DNN 网络是通过不断地自下而上堆叠隐含层实现的。其中， S 表示 HMM 模型中的隐含状态，A 表示状态转移概率矩阵，L 表示 DNN 深度神经网络的层数 (隐含层为 L-1 层，层为输入层，层为输出层，DNN 网络共包含 L+1 层)，W 表示层之间的连接矩阵。DNNHMM 蒙古语声学模型在进行蒙古语语音识别过程建模前，需要对 DNN 神经网络进行训练。在完成 DNN 神经网络的训练后，对蒙古语声学模型的建模过程与 GMM-HMM 模型一致。 1.2 DNN 网络的训练蒙古语声学模型中的 DNN 网络的训练分为预训练和调优两个阶段。DNN 的预训练就是对深度神经网络的参数进行初始化。通常，DNN 深度神经网络的预训练方式分为生成式训练和判别式训练。逐层无监督预训练算法就是使用无监督学习方法对网络的每一层进行预训练，它属于生成式训练算法 [17]。在 DNN-HMM 蒙古语声学模型预训练中，采用了逐层无监督训练算法。 A A A A S S S S HMM DNN WL W2 W1 LL−1 L2 L1 L0 㧅ऐ䄙ผ႒➥ᒭऽ䛻图 1 DNN-HMM 蒙古语声学模型 Fig. 1 The Mongolian acoustic model based on DNNHMM. 第 3 期马志强，等：基于深度神经网络的蒙古语声学模型建模研究 ·487·

·488· 智能系统学报第13卷 DNN模型是一个多层次的神经网络，逐层无监算法2随机梯度下降算法督预训练算法是对DNN的每一层进行训练，而且输入训练集set,批量大小batch size;学习每次只训练其中一层，其他层参数保持原来初始化率a,循环次数epoch, 参数不变，训练时，对每一层的输人和输出误差尽输出模型参数weight。量减小，这样就能够保证每一层参数对于该层来说 1)weight-initWeight(); 都是最优的。接下来，将训练好的每一层的输出数 2)For j in 0 to epoch do; 据作为下一层的输人数据，那么下一层输入的数据 3)batch+randomSelect(set,batch size); 就比直接训练时经过多层神经网络输入到下一层数 4)weight-getWeightFromMaster(); 据的误差小得多，逐层无监督预训练算法能够保证 S)△W←-miniGradient(batch,weight): 每一层之间输入输出数据的误差都相对较小。 6)weight←-weight-a*△W; 具体训练过程如图2所示，训练算法见算法1。 7)End for; 1.3蒙古语语音数据识别通过对DNN网络的预训练和调优后，可以利用DNN-HMM声学模型对蒙古语语音数据进行识别，具体的过程如下。首先，根据输入的蒙古语声学特征向量，计算 (a)第1层隐 (b)第2层隐含层 (©)第3层隐含层 DNN深度神经网络前L层的输出，即含层训练训练训练 va=f(z")=f(Wava-1+b),0sa<L (1) 图2DNN-HMM蒙古语声学模型预训练过程式中：z表示激励向量，z”=Wy-1+b°且z∈Rx; Fig.2 The pre-training DNN-HMM process for Mongoli- v表示激活向量，“∈RI;W表示权重矩阵， an acoustic model. Wm∈R.Xw;b表示偏执向量，b°∈R1,N。表示第算法1逐层无监督预训练算法 a层的神经节点个数且N。∈R;V表示网络的输入特输入学习率α，最大迭代次数T,需要训练的征，V°=OE RNXI。在DNN-HMM声学模型中，输入层数L;各隐含层内的隐单元个数W=(n,n2,…,n): 特征即为声学特征向量。其中N。=D表示输入声学训练数据按mini-batch划分后的序列x,其中j= 特征向量的维度，f):Rv.x1→R心x1表示激活函数对 (1,2,…,Max),序列长度Max。激励向量的计算过程，f)表示激活函数。输出链接权重W,i=(1,2,·,L);偏执向量然后，利用L层的softmax分类层计算当前特 b,i=(0,1,…,L)。征关于全部声学状态的后验概率，即当前特征属于 1)初始化输入层的偏执向量；各蒙古语声学状态的概率： 2)For i in I to L do; =Pdnn(il0)=softmax(i) (2) 3)初始化W=0,b=0; 在DNN-HMM蒙古语声学模型中，DNN深度 4)For t in 1 to Tdo; 神经网络用于估计每个HMM状态的后验概率，所 5)For j in 1 to Max do; 以DNN的输出是按照HMM隐含状态进行分类输 6)mini-batch =i 出的，实质上属于多分类任务，因此DNN的输出层 7)DNNUpdate (mini-batch,a,Wi,b,b-); 通常是softmax分类层。而且softmax分类层的神 8)End For; 经单元个数与HMM声学模型中的隐含状态个数相 9)End For; 同。在式(2)中，i=1,2,…,C,其中C表示声学模型 10)End For: 的隐含状态个数，v表示softmax分类层第i个神经其中DNNUpdate算法采用经典的对比散度算单元的输出，即输入声学特征向量0关于声学模型法(contrastive divergence,CD-K),具体见文献[T)。第个隐含状态的后验概率。得到隐含状态的后验通过逐层无监督预训练算法可以得到较好的神概率后，利用维特比解码算法进行解码得到最优路经网络初始化参数，然后使用蒙古语标注数据（即径。在直接解码前需要根据贝叶斯公式，将各个状特征状态)通过BP(error back propagation)算法进态的后验概率除以其自身的先验概率，得到各状态行有监督的调优，最终得到可用于声学状态分类的规整的似然值。隐含状态的先验概率计算较为简 DNN深度神经网络模型。有监督的调优算法采用单，仅通过计算各状态对应帧总数与全部声学特征随机梯度下降算法进行实现，具体见算法2。帧数的比值即可得到

DNN 模型是一个多层次的神经网络，逐层无监督预训练算法是对 DNN 的每一层进行训练，而且每次只训练其中一层，其他层参数保持原来初始化参数不变，训练时，对每一层的输入和输出误差尽量减小，这样就能够保证每一层参数对于该层来说都是最优的。接下来，将训练好的每一层的输出数据作为下一层的输入数据，那么下一层输入的数据就比直接训练时经过多层神经网络输入到下一层数据的误差小得多，逐层无监督预训练算法能够保证每一层之间输入输出数据的误差都相对较小。具体训练过程如图 2 所示，训练算法见算法 1。算法 1 逐层无监督预训练算法 N = ( n 1 ,n 2 ,··· ,n L ) X j (1,2,··· ,Max) 输入学习率 α，最大迭代次数 T，需要训练的层数 L；各隐含层内的隐单元个数；训练数据按 mini-batch 划分后的序列，其中 j = ，序列长度 Max。 Wi i = (1,2,··· ,L) b i i = (0,1,··· ,L) 输出链接权重，；偏执向量，。 1) 初始化输入层的偏执向量； 2) For i in 1 to L do； Wi = 0 b i 3) 初始化， = 0 ； 4) For t in 1 to T do； 5) For j in 1 to Max do； X 6) mini-batch = j ； α Wi b i b i−1 7) DNNUpdate (mini-batch, , , , )； 8) End For； 9) End For； 10) End For；其中 DNNUpdate 算法采用经典的对比散度算法 (contrastive divergence，CD-K)，具体见文献[7]。通过逐层无监督预训练算法可以得到较好的神经网络初始化参数，然后使用蒙古语标注数据 (即特征状态) 通过 BP(error back propagation) 算法进行有监督的调优，最终得到可用于声学状态分类的 DNN 深度神经网络模型。有监督的调优算法采用随机梯度下降算法进行实现，具体见算法 2。算法 2 随机梯度下降算法输入训练集 set，批量大小 batch_size；学习率 α，循环次数 epoch。输出模型参数 weight。 1) weight←initWeight()； 2) For j in 0 to epoch do； 3) batch←randomSelect(set, batch_size)； 4) weight←getWeightFromMaster()； 5) ∆W ←miniGradient(batch, weight)； 6) weight←weight- α * ∆W ； 7) End for； 1.3 蒙古语语音数据识别通过对 DNN 网络的预训练和调优后，可以利用 DNN-HMM 声学模型对蒙古语语音数据进行识别，具体的过程如下。首先，根据输入的蒙古语声学特征向量，计算 DNN 深度神经网络前 L 层的输出，即 v α = f(z α ) = f(Wα v α−1 + b α ),0 ⩽ α < L (1) z α z α = Wα v α−1 + b α z α ∈ R NαX1 v α v α ∈ R NαX1 Wα Wα ∈ R NαXNα−1 b α b α ∈ R NαX1 Nα α Nα ∈ R V 0 V 0 = o ∈ R N0X1 N0 = D f(·) : R NαX1 → R NαX1 f(·) 式中：表示激励向量，且；表示激活向量，；表示权重矩阵，；表示偏执向量，，表示第层的神经节点个数且；表示网络的输入特征，。在 DNN-HMM声学模型中，输入特征即为声学特征向量。其中表示输入声学特征向量的维度，表示激活函数对激励向量的计算过程，表示激活函数。然后，利用 L 层的 softmax 分类层计算当前特征关于全部声学状态的后验概率，即当前特征属于各蒙古语声学状态的概率： v i = Pdnn(i|O) = softmax(i) (2) i = 1,2,··· ,C C v i i i 在 DNN-HMM 蒙古语声学模型中，DNN 深度神经网络用于估计每个 HMM 状态的后验概率，所以 DNN 的输出是按照 HMM 隐含状态进行分类输出的，实质上属于多分类任务，因此 DNN 的输出层通常是 softmax 分类层。而且 softmax 分类层的神经单元个数与 HMM 声学模型中的隐含状态个数相同。在式 (2) 中，，其中表示声学模型的隐含状态个数，表示 softmax 分类层第个神经单元的输出，即输入声学特征向量 O 关于声学模型第个隐含状态的后验概率。得到隐含状态的后验概率后，利用维特比解码算法进行解码得到最优路径。在直接解码前需要根据贝叶斯公式，将各个状态的后验概率除以其自身的先验概率，得到各状态规整的似然值。隐含状态的先验概率计算较为简单，仅通过计算各状态对应帧总数与全部声学特征帧数的比值即可得到。 L1 W1 V (a) じ1ᅮ䮼 ॗᅮ䃙㏯ L2 L1 W2 W1 V (b) じ2ᅮ䮼ॗᅮ 䃙㏯ L3 L2 L1 W3 W2 W1 V (c) じ3ᅮ䮼ॗᅮ 䃙㏯图 2 DNN-HMM 蒙古语声学模型预训练过程 Fig. 2 The pre-training DNN-HMM process for Mongolian acoustic model. ·488· 智能系统学报第 13 卷

第3期马志强，等：基于深度神经网络的蒙古语声学模型建模研究 ·489· 2蒙古语声学模型的调优训练型时，采用期望最大化算法进行无监督训练，避免了对标注数据的要求；然后利用蒙古语声学特征对由于DNN模型在调优时需要对齐的语音帧标深度神经网络进行预训练：在深度神经网络训练的注数据，同时标注数据质量往往影响DNN模型的第二阶段（即有监督调优阶段），利用已训练的GMM 性能，因此，在DNN网络调优阶段，通过使用已训 HMM蒙古语声学模型进行语音特征到状态的强制练好的GMM-HMM蒙古语声学模型生成对齐的蒙对齐，得到标注数据：最后利用标注数据对DNN深古语语音特征标注数据。度神经网络进行有监督的调优。DNN深度神经网所以，DNN-HMM蒙古语声学模型的训练过程络训练完成以后，根据DNN-HMM在测试集上的识为：首先训练GMM-HMM蒙古语声学模型，得到对别结果决定其下一步流程。齐的蒙古语语音特征标注数据：然后在对齐语音特征数据的基础上对深度神经网络(DNN)进行训练 3实验与结果和调优；最后根据得到的蒙古语语音观察状态再对 3.1实验方案设计隐马尔科夫模型(HMM)进行训练。具体见DNN- 为了验证提出的DNN-HMM蒙古语声学模型 HMM蒙古语声学模型训练过程。的有效性，设计了3组实验。在实验中，将未采用 DNN-HMM蒙古语声学模型训练过程： dropout技术的DNN-HMM声学模型定义为DNN. 输入蒙古语语料库。 HMM,将采用dropout技术的DNN-HMM声学模输出DNN-HMM声学模型。型定义为dropout-.DNN-HMM。 I)进行GMM-HMM蒙古语声学模型训练，得 1)开展GMM-HMM、DNN-HMM蒙古语声学到一个最优的GMM-HMM蒙古语语音识别系统，模型建模实验研究，主要观察不同声学建模单元对用gmm-hmm表示。声学模型的性能影响，以及对比不同类型声学模型 2)利用维特比解码算法解析gmm-hmm,对gmm 对语音识别系统的影响。 hmm蒙古语声学模型中的每一个senone进行标号， 2)通过构建不同层数的深度网络结构的DNN- 得到senone_id, HMM三音子蒙古语声学模型，开展层数对蒙古语 3)利用gmm-hmm蒙古语声学模型，将声学状声学模型，以及对过拟合现象影响的实验研究。态tri-phone映射到相应的senone id。 3)在构建DNN-HMM三音子蒙古语声学模型 4)利用gmm-hmm蒙古语声学模型初始化DNN- 时，通过采用dropout技术开展dropout技术对DNN- HMM蒙古语声学模型，主要是HMM隐马尔科夫 HMM三音子蒙古语声学模型过拟合现象影响的实模型参数部分，最终得到dnn-hmml模型。验研究。 5)利用蒙古语声学特征文件预训练DNN深度 3.2数据集神经网络，得到ptdnn。蒙古语语音识别的语料库由310句蒙古语教学 6)使用gmm-hmm蒙古语声学模型，将蒙古语语音组成，共计2291个蒙古语词汇，命名为MUT310 声学特征数据进行状态级别的强制对齐，对齐结果语料库。语料库共由3部分组成：音频文件、发音为align-raw。标注以及相应的蒙文文本。实验中，将IMUT310 7)将align-raw的物理状态转换成senone id,. 语料库划分成训练集和测试集两部分，其中训练集得到帧级别对齐的训练数据align-frame。为287句，测试集为23句。实验在Kaldi平台上完成。Kaldi的具体实验环境配置如表1所示。 8)利用对齐数据align-data对ptdnn深度神经表1实验环境网络进行有监督地微调，得到网络模型dnn。 Table 1 9)根据最大似然算法，利用dnn重新估计dnn- Experimental environment hmml中HMM模型转移概率得到的网络模型，用项目参数说明 dnn-hmm2表示。操作系统 Ubuntu14.04 l0)如果dnn和dnn-hmm2上测试集识别准确处理器 I5.4×3.2GHz 率没有提高，训练结束。否则，使用dnn-hmm2对训 GPU显卡 GTX660ti2GB显存练数据再次进行状态级别对齐，执行)。硬盘 SAT硬盘500GB 在训练过程中，首先训练一个最优的GMM-HMM Kaldi 0.9版本蒙古语语音识别数据准备系统，目的是为DNN的监督调优服务。在训练GMM-HMM蒙古语声学模 CUDA 6.5版本

2 蒙古语声学模型的调优训练由于 DNN 模型在调优时需要对齐的语音帧标注数据，同时标注数据质量往往影响 DNN 模型的性能，因此，在 DNN 网络调优阶段，通过使用已训练好的 GMM-HMM 蒙古语声学模型生成对齐的蒙古语语音特征标注数据。所以，DNN-HMM 蒙古语声学模型的训练过程为：首先训练 GMM-HMM 蒙古语声学模型，得到对齐的蒙古语语音特征标注数据；然后在对齐语音特征数据的基础上对深度神经网络 (DNN) 进行训练和调优；最后根据得到的蒙古语语音观察状态再对隐马尔科夫模型 (HMM) 进行训练。具体见 DNNHMM 蒙古语声学模型训练过程。 DNN-HMM 蒙古语声学模型训练过程：输入蒙古语语料库。输出 DNN-HMM 声学模型。 1) 进行 GMM-HMM 蒙古语声学模型训练，得到一个最优的 GMM-HMM 蒙古语语音识别系统，用 gmm-hmm 表示。 2) 利用维特比解码算法解析 gmm-hmm，对 gmmhmm 蒙古语声学模型中的每一个 senone 进行标号，得到 senone_id。 3) 利用 gmm-hmm 蒙古语声学模型，将声学状态 tri-phone 映射到相应的 senone_id。 4) 利用 gmm-hmm 蒙古语声学模型初始化 DNNHMM 蒙古语声学模型，主要是 HMM 隐马尔科夫模型参数部分，最终得到 dnn-hmm1 模型。 5) 利用蒙古语声学特征文件预训练 DNN 深度神经网络，得到 ptdnn。 6) 使用 gmm-hmm 蒙古语声学模型，将蒙古语声学特征数据进行状态级别的强制对齐，对齐结果为 align-raw。 7) 将 align-raw 的物理状态转换成 senone_id，得到帧级别对齐的训练数据 align-frame。 8) 利用对齐数据 align-data 对 ptdnn 深度神经网络进行有监督地微调，得到网络模型 dnn。 9) 根据最大似然算法，利用 dnn 重新估计 dnnhmm1 中 HMM 模型转移概率得到的网络模型，用 dnn-hmm2 表示。 10) 如果 dnn 和 dnn-hmm2 上测试集识别准确率没有提高，训练结束。否则，使用 dnn-hmm2 对训练数据再次进行状态级别对齐，执行 7)。在训练过程中，首先训练一个最优的 GMM-HMM 蒙古语语音识别数据准备系统，目的是为 DNN 的监督调优服务。在训练 GMM-HMM 蒙古语声学模型时，采用期望最大化算法进行无监督训练，避免了对标注数据的要求；然后利用蒙古语声学特征对深度神经网络进行预训练；在深度神经网络训练的第二阶段 (即有监督调优阶段)，利用已训练的 GMMHMM 蒙古语声学模型进行语音特征到状态的强制对齐，得到标注数据；最后利用标注数据对 DNN 深度神经网络进行有监督的调优。DNN 深度神经网络训练完成以后，根据 DNN-HMM 在测试集上的识别结果决定其下一步流程。 3 实验与结果 3.1 实验方案设计为了验证提出的 DNN-HMM 蒙古语声学模型的有效性，设计了 3 组实验。在实验中，将未采用 dropout 技术的 DNN-HMM 声学模型定义为 DNNHMM，将采用 dropout 技术的 DNN-HMM 声学模型定义为 dropout-DNN-HMM。 1) 开展 GMM-HMM、DNN-HMM 蒙古语声学模型建模实验研究，主要观察不同声学建模单元对声学模型的性能影响，以及对比不同类型声学模型对语音识别系统的影响。 2) 通过构建不同层数的深度网络结构的 DNNHMM 三音子蒙古语声学模型，开展层数对蒙古语声学模型，以及对过拟合现象影响的实验研究。 3) 在构建 DNN-HMM 三音子蒙古语声学模型时，通过采用 dropout 技术开展 dropout 技术对 DNNHMM 三音子蒙古语声学模型过拟合现象影响的实验研究。 3.2 数据集蒙古语语音识别的语料库由 310 句蒙古语教学语音组成，共计 2 291 个蒙古语词汇，命名为 IMUT310 语料库。语料库共由 3 部分组成：音频文件、发音标注以及相应的蒙文文本。实验中，将 IMUT310 语料库划分成训练集和测试集两部分，其中训练集为 287 句，测试集为 23 句。实验在 Kaldi 平台上完成。Kaldi 的具体实验环境配置如表 1 所示。表 1 实验环境 Table 1 Experimental environment 项目参数说明操作系统 Ubuntu14.04 处理器 I5. 4×3.2 GHz GPU 显卡 GTX 660ti 2 GB 显存硬盘 SAT 硬盘 500 GB Kaldi 0.9 版本 CUDA 6.5 版本第 3 期马志强，等：基于深度神经网络的蒙古语声学模型建模研究 ·489·

·490· 智能系统学报第13卷实验过程中，蒙古语声学特征采用MFCC声学 HMM实验。采用3.2中的实验参数设置进行了实特征表示，共有39维数据，其中前13维特征由验，实验结果数据见表2。 12个倒谱特征和1个能量系数组成，后面的两个表2GMM-HMM与DNN-HMM蒙古语声学模型实验数据 13维特征是对前面13维特征的一阶差分和二阶差 Table 2 The experimental data of Mongolian acoustic 分。在提取蒙古语MFFC特征时，帧窗口长度为 mode from GMM-HMM and DNN-HMM 25ms,帧移10ms。对训练集和测试集分别进行特词错误率% 句错误率/% 征提取，全部语音数据共生成119960个MFCC特声学模型征，其中训练数据生成的特征为112535个，测试数训练集测试集训练集测试集据生成的特征为7425个。GMM-HMM声学模型单音子GMM-HMM 14.32 47.34 41.71 75.3 训练时，蒙古语语音MFCC特征采用39维数据进单音子DNN-HMM 5.48 36.2 9.28 行实验。单音子DNN-HMM实验时，蒙古语MFCC 57.42 语音特征为13维（不包括一、二阶差分特征）。三音三音子GMM-HMM 5.86 33.2 30.74 60.39 子DNN-HMM实验时，蒙古语MFCC的特征为三音子DNN-HMM 4.53 25.7 11.44 46.76 39维。 DNN网络训练时，特征提取采用上下文结合的从图3(a)中可以发现，相对于单音子GMM- 办法，即在当前帧前后各取5帧来表示当前帧的上 HMM蒙古语声学模型，单音子DNN-HMM蒙古语下文环境，因此，在实验过程中，单音子DNN网络声学模型在训练集上的词错误率降低了8.84%，在的输入节点数为143个(13×(5+1+5)，三音子测试集上的词识别错误率降低了11.14%；但是，对 DNN网络的输入节点数为429个(39×(5+1+5)。于三音子模型来说，三音子DNN-HMM蒙古语声学 DNN网络的输出层节点为可观察蒙古语语音音素模型比三音子GMM-HMM蒙古语声学模型在训练个数，根据语料库标注的标准，输出节点为27个； DNN网络的隐含层节点数设定为1024，调优训练集上的词错误率降低了1.33%，在测试集上的词识次数设定为60，初始学习率设定为0.015，最终学习别错误率降低了7.5%。由图3b)发现，单音子模型率设定为0.002。在训练集上的句识别错误率降低了32.43%，在测试 3.3实验和结果集上的句识别错误率降低了17.88%：对于三音子模为了验证深度神经网络能够更好地捕捉蒙古语型来说，三音子DNN-HMM蒙古语声学模型比三音语音的声学特征，具备更好地建模能力。本文设计子GMM-HMM蒙古语声学模型在训练集上的句识了4个实验，分别是单音子GMM-HMM、三音子别错误率降低了19.3%，在测试集上的句识别错误 GMM-HMM、单音子DNN-HMM和三音子DNN- 率降低了13.63%。 15 ■测试集 40 ■测试集 ■训练集 ■训练集 11.14 30 10 8.84 7.5 20 17.88 19.3 13.63 5 1.13 0 01 单音子DNN-HMM三音子DNN-HMM 单音子DNN-HMM三音子DNN-HMM 声学模型/音素声学模型/音素 (a)相对于GMM-HMM声学模型的词错误下降率 (b)相对于GMM-HMM声学模型的句错误下降率图3相对于GMM-HMM声学模型的实验对比结果 Fig.3 The experimental results are compared with the GMM-HMM acoustic model 从以上分析可以得出：单音子DNN-HMM蒙古对DNN-HMM三音子蒙古语声学模型的影响，本文语声学模型明显优于单音子GMM-HMM蒙古语声以未采用dropout技术的4层三音子DNN-HMM 学模型：对于三音子模型来说，三音子DNN-HMM 蒙古语声学模型为基准实验，分别进行了关于隐含蒙古语声学模型比三音子GMM-HMM蒙古语声学层层数以及dropout技术的对比实验，实验结果数模型的识别率还要高。据见表3。另外，为了研究隐含层层数、dropout技术u-20

实验过程中，蒙古语声学特征采用 MFCC 声学特征表示，共有 39 维数据，其中前 13 维特征由 12 个倒谱特征和 1 个能量系数组成，后面的两个 13 维特征是对前面 13 维特征的一阶差分和二阶差分。在提取蒙古语 MFFC 特征时，帧窗口长度为 25 ms，帧移 10 ms。对训练集和测试集分别进行特征提取，全部语音数据共生成 119 960 个 MFCC 特征，其中训练数据生成的特征为 112 535 个，测试数据生成的特征为 7 425 个。GMM-HMM 声学模型训练时，蒙古语语音 MFCC 特征采用 39 维数据进行实验。单音子 DNN-HMM 实验时，蒙古语 MFCC 语音特征为 13 维 (不包括一、二阶差分特征)。三音子 DNN-HMM 实验时，蒙古语 MFCC 的特征为 39 维。 DNN 网络训练时，特征提取采用上下文结合的办法，即在当前帧前后各取 5 帧来表示当前帧的上下文环境，因此，在实验过程中，单音子 DNN 网络的输入节点数为 143 个 (13×(5+1+5))，三音子 DNN 网络的输入节点数为 429 个 (39×(5+1+5))。 DNN 网络的输出层节点为可观察蒙古语语音音素个数，根据语料库标注的标准，输出节点为 27 个； DNN 网络的隐含层节点数设定为 1 024，调优训练次数设定为 60，初始学习率设定为 0.015，最终学习率设定为 0.002。 3.3 实验和结果为了验证深度神经网络能够更好地捕捉蒙古语语音的声学特征，具备更好地建模能力。本文设计了 4 个实验，分别是单音子 GMM-HMM、三音子 GMM-HMM、单音子 DNN-HMM 和三音子 DNNHMM 实验。采用 3.2 中的实验参数设置进行了实验，实验结果数据见表 2。从图 3(a) 中可以发现，相对于单音子 GMMHMM 蒙古语声学模型，单音子 DNN-HMM 蒙古语声学模型在训练集上的词错误率降低了 8.84%，在测试集上的词识别错误率降低了 11.14%；但是，对于三音子模型来说，三音子 DNN-HMM 蒙古语声学模型比三音子 GMM-HMM 蒙古语声学模型在训练集上的词错误率降低了 1.33%，在测试集上的词识别错误率降低了 7.5%。由图 3(b) 发现，单音子模型在训练集上的句识别错误率降低了 32.43%，在测试集上的句识别错误率降低了 17.88%；对于三音子模型来说，三音子 DNN-HMM 蒙古语声学模型比三音子 GMM-HMM 蒙古语声学模型在训练集上的句识别错误率降低了 19.3%，在测试集上的句识别错误率降低了 13.63%。从以上分析可以得出：单音子 DNN-HMM 蒙古语声学模型明显优于单音子 GMM-HMM 蒙古语声学模型；对于三音子模型来说，三音子 DNN-HMM 蒙古语声学模型比三音子 GMM-HMM 蒙古语声学模型的识别率还要高。另外，为了研究隐含层层数、dropout 技术[18-20] 对 DNN-HMM 三音子蒙古语声学模型的影响，本文以未采用 dropout 技术的 4 层三音子 DNN-HMM 蒙古语声学模型为基准实验，分别进行了关于隐含层层数以及 dropout 技术的对比实验，实验结果数据见表 3。表 2 GMM-HMM 与 DNN-HMM 蒙古语声学模型实验数据 Table 2 The experimental data of Mongolian acoustic mode from GMM-HMM and DNN-HMM 声学模型词错误率/% 句错误率/% 训练集测试集训练集测试集单音子 GMM-HMM 14.32 47.34 41.71 75.3 单音子 DNN-HMM 5.48 36.2 9.28 57.42 三音子 GMM-HMM 5.86 33.2 30.74 60.39 三音子 DNN-HMM 4.53 25.7 11.44 46.76 8.84 1.13 11.14 7.5 0 5 10 15 ≷䄁䯲䃙㏯䯲 ≷䄁䯲䃙㏯䯲䃹䩅䄛̷䭹⢳/% ผ႒Ὅಷ/䴟㉌ ࢁ䴟ၼ DNN−HMM ̵䴟ၼ DNN−HMM (a) ⰤᄥκGMM−HMMผ႒Ὅಷ⮰䃹䩅䄛̷䭹⢳ 32.43 19.3 17.88 13.63 0 10 20 30 40 ऑ䩅䄛̷䭹⢳/% ผ႒Ὅಷ/䴟㉌ ࢁ䴟ၼ DNN−HMM ̵䴟ၼ DNN−HMM (b) ⰤᄥκGMM−HMMผ႒Ὅಷ⮰ऑ䩅䄛̷䭹⢳ 图 3 相对于 GMM-HMM 声学模型的实验对比结果 Fig. 3 The experimental results are compared with the GMM-HMM acoustic model ·490· 智能系统学报第 13 卷

第3期马志强，等：基于深度神经网络的蒙古语声学模型建模研究 ·491· 表3三音子DNN-HMM声学模型上dropout实验数据在训练集上的识别率很高，而在测试集上的识 Table 3 Dropout experiment on Triphone DNN-HMM 别率很低时，那么，就表示该模型有着严重的过拟 acoustic model 合现象，我们用模型在测试集上的评价指标和模型隐含层词错误率/% 句错误率% 在训练集上的评价指标的差值的绝对值来表示过拟声学模型层数训练集测试集训练集测试集合现象的程度，所以，将它的计算公式定义为 4 4.53 25.7 11.44 46.76 模型的过拟合距离=模型在测试集上的评价指标- 三音子 5 4.49 26.4 12.19 49.02 模型在测试集上的评价指标 DNN-HMM 6 3.23 45.7 (3) 9.81 66.23 > 2.11 56.92 7.2 87.92 从图4深色部分中可以发现，在未采用dro- 三音子 4 pout技术训练得到的DNN-HMM蒙古语声学模型 4.67 26.1 12.27 44.98 4.49 26.4 12.19 47.02 中，当隐含层网络层数由4层增加至7层时，对词 dropout- 5.27 29.34 15.33 48.21 识别的过拟合距离从21.17%增长到了54.81%；对 DNN-HMM 7 8.32 33.8 19.1 51.08 句识别的过拟合距离从35.32%增长到了80.72%。由此可以看出，随着隐含层网络层数的增加，模型为了表示过拟合现象的程度，本文定义了一个的过拟合距离越来越大，过拟合距离的变大说明模型的过拟合距离，在语音识别中，过拟合往往是 DNN网络构建的蒙古语声学模型已经严重过拟合，通过训练集和测试集上的识别率来进行判断的，当那么，DNN-HMM的表现就会越来越差。 60】 ■DNN-HMM 54.81 dropout DNN-HMM2.38 100 「■DNN-HMM 80.72 440 ■dropout DNN-HMM 24 56.42 24.07 25.48 5035.32 2 2.7 36.8334.83 32.88 31.98 0 隐含层的层数层隐含层的层数层 (a)对词识别的过拟合距离 (b)对句识别的过拟合距离图4 dropout技术和隐含层层数对DNN-HMM模型过拟合距离的影响 Fig.4 Influence of dropout technique and hidden layers on the over-fitting distance of DNN-HMM model 在图4中，通过深浅两种颜色的对比可以看表明：1)在不同建模单元（单音子和三音子）下，出，采用dropout技术后，当隐含层网络层数由4层 DNN-HMM蒙古语声学模型不论词错误率还是句增加至7层时，对词识别的过拟合距离分别是错误率都优于GMM-HMM蒙古语声学模型，具体 21.43%、21.91%、24.07%和25.48%。而未采用dr0- 表现为三音子DNN-HMM声学模型比三音子 pout技术，对词识别的过拟合距离分别是21.17%、 GMM-HMM模型在测试集上的词识别错误率降低 21.91%、42.38%、54.81%。由此可知，采用dr0- 了7.5%，句识别错误率降低了13.63%；2)在训练 pout技术后的过拟合距离要比未采用dropout技术 DNN-HMM三音子蒙古语声学模型时，加入dro 后的过拟合距离小，这一点，在对句识别的过拟合 pout技术可以有效避免随着隐含层层数增加带来的距离上同样存在。所以，在加入了dropout技术后，过拟合影响。有效地缓解了因隐含层数增加而导致的过拟合现参考文献：象，从而提高了模型的识别性能。 []马志强，张泽广，闫瑞，等.基于N-Gram模型的蒙古语文 4结束语本语种识别算法的研究).中文信息学报，2016,30(1)： 133-140 在蒙古语语音识别声学建模中，本文给出了 MA Zhiqiang,ZHANG Zeguang,YAN Rui,et al.N-Gram DNN-HMM蒙古语声学模型、无监督与监督算法相 based language identification for Mongolian text[J].Journal 结合的蒙古语声学模型的训练算法以及以GMM- of Chinese information processing,2016,30(1):133-140. HMM为基础的DNN-HMM蒙古语声学模型的训 [2]RABINER L R.A tutorial on hidden Markov models and 练过程。在Kaldi实验平台上使用小规模的蒙古语 selected applications in speech recognition[J].Proceedings 语音语料库IMUT310开展了实验研究，实验结果 of the IEEE,1989,77(2):257-286

为了表示过拟合现象的程度，本文定义了一个模型的过拟合距离，在语音识别中，过拟合往往是通过训练集和测试集上的识别率来进行判断的，当数据在训练集上的识别率很高，而在测试集上的识别率很低时，那么，就表示该模型有着严重的过拟合现象，我们用模型在测试集上的评价指标和模型在训练集上的评价指标的差值的绝对值来表示过拟合现象的程度，所以，将它的计算公式定义为模型的过拟合距离 = |模型在测试集上的评价指标− 模型在测试集上的评价指标| (3) 从图 4 深色部分中可以发现，在未采用 dropout 技术训练得到的 DNN-HMM 蒙古语声学模型中，当隐含层网络层数由 4 层增加至 7 层时，对词识别的过拟合距离从 21.17% 增长到了 54.81%；对句识别的过拟合距离从 35.32% 增长到了 80.72%。由此可以看出，随着隐含层网络层数的增加，模型的过拟合距离越来越大，过拟合距离的变大说明 DNN 网络构建的蒙古语声学模型已经严重过拟合，那么，DNN-HMM 的表现就会越来越差。在图 4 中，通过深浅两种颜色的对比可以看出，采用 dropout 技术后，当隐含层网络层数由 4 层增加至 7 层时，对词识别的过拟合距离分别是 21.43%、21.91%、24.07% 和 25.48%。而未采用 dropout 技术，对词识别的过拟合距离分别是 21.17%、 21.91%、42.38%、54.81%。由此可知，采用 dropout 技术后的过拟合距离要比未采用 dropout 技术后的过拟合距离小，这一点，在对句识别的过拟合距离上同样存在。所以，在加入了 dropout 技术后，有效地缓解了因隐含层数增加而导致的过拟合现象，从而提高了模型的识别性能。 4 结束语在蒙古语语音识别声学建模中，本文给出了 DNN-HMM 蒙古语声学模型、无监督与监督算法相结合的蒙古语声学模型的训练算法以及以 GMMHMM 为基础的 DNN-HMM 蒙古语声学模型的训练过程。在 Kaldi 实验平台上使用小规模的蒙古语语音语料库 IMUT310 开展了实验研究，实验结果表明：1) 在不同建模单元 (单音子和三音子) 下， DNN-HMM 蒙古语声学模型不论词错误率还是句错误率都优于 GMM-HMM 蒙古语声学模型，具体表现为三音子 DNN-HMM 声学模型比三音子 GMM-HMM 模型在测试集上的词识别错误率降低了 7.5%，句识别错误率降低了 13.63%；2) 在训练 DNN-HMM 三音子蒙古语声学模型时，加入 dropout 技术可以有效避免随着隐含层层数增加带来的过拟合影响。参考文献：马志强, 张泽广, 闫瑞, 等. 基于 N-Gram 模型的蒙古语文本语种识别算法的研究[J]. 中文信息学报, 2016, 30(1): 133–140. MA Zhiqiang, ZHANG Zeguang, YAN Rui, et al. N-Gram based language identification for Mongolian text[J]. Journal of Chinese information processing, 2016, 30(1): 133–140. [1] RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition[J]. Proceedings of the IEEE, 1989, 77(2): 257–286. [2] 表 3 三音子 DNN-HMM 声学模型上 dropout 实验 Table 3 Dropout experiment on Triphone DNN-HMM acoustic model 声学模型隐含层层数词错误率/% 句错误率/% 训练集测试集训练集测试集三音子 DNN-HMM 4 4.53 25.7 11.44 46.76 5 4.49 26.4 12.19 49.02 6 3.23 45.7 9.81 66.23 7 2.11 56.92 7.2 87.92 三音子 dropoutDNN-HMM 4 4.67 26.1 12.27 44.98 5 4.49 26.4 12.19 47.02 6 5.27 29.34 15.33 48.21 7 8.32 33.8 19.1 51.08 21.17 21.91 42.38 54.81 21.43 21.91 24.07 25.48 0 20 40 60 对词识别的过拟合距离 4 5 6 7 /% 隐含层的层数/层 dropout DNN-HMM DNN-HMM (a) 对词识别的过拟合距离 dropout DNN-HMM DNN-HMM 35.32 36.83 56.42 80.72 32.71 34.83 32.88 31.98 0 50 100 4 5 6 7 隐含层的层数/层对句识别的过拟合距离/% (b) 对句识别的过拟合距离图 4 dropout 技术和隐含层层数对 DNN-HMM 模型过拟合距离的影响 Fig. 4 Influence of dropout technique and hidden layers on the over - fitting distance of DNN-HMM model 第 3 期马志强，等：基于深度神经网络的蒙古语声学模型建模研究 ·491·

·492· 智能系统学报第13卷 [3]RABINER L,JUANG B H.Fundamentals of Speech Re- 45(4):438-451 cognition[M].Upper Saddle River,USA:Prentice-Hall, [15]JAIMAI P,ZUNDUI T,CHAGNAA A,et al.PC- 1993 KIMMO-based description of Mongolian morphology[J]. [4]RENALS S,MORGAN N,BOURLARD H,et al.Connec- International journal of information processing systems, tionist probability estimators in HMM speech recognition[J]. 2005,1(1:41-48. IEEE transactions on speech and audio processing,1994, [16]GAO Guanglai,BILIGETU,NABUQING,et al.A Mon- 2(1):161-174. golian speech recognition system based on HMM[C]//Pro- [5]LI Deng,HINTON G,KINGSBURY B.New types of deep ceedings of 2006 International Conference on Intelligent neural network learning for speech recognition and related Computing.Kunming,China,2006:667-676. applications:an overview[Cl//Proceedings of 2013 IEEE In- [1刀飞龙，高光来，闫学亮，等.基于分割识别的蒙古语语音 ternational Conference on Acoustics,Speech and Signal 关键词检测方法的研究J.计算机科学，2013,40(9)： Processing.Vancouver,Canada,2013:8599-8603. 208-211. [6]HINTON G,DENG Li,YU Dong,et al.Deep neural net- FEI Long,GAO Guanglai,Yan Xueliang,et al.Research works for acoustic modeling in speech recognition:the on Mongolian spoken term detection method based on seg- shared views of four research groups[J].IEEE signal pro- mentation recognition[J].Computer science,2013,40(9): cessing magazine,2012,29(6):82-97. 208-211. [7]YU Dong,DENG Li,DAHL G E.Roles of pre-training and [18]HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al fine-tuning in context-dependent DBN-HMMs for real- Improving neural networks by preventing co-adaptation of world speech recognition[C]//Proceedings of NIPS Work- feature detectors[J].arXiv:1207.0580,2012. shop on Deep Learning and Unsupervised Feature Learning. [19]SRIVASTAVA N.Improving neural networks with dro- 2010 [8]DAHL G E,YU Dong,DENG Li,et al.Large vocabulary pout[D].Toronto:University of Toronto,2013. [20]DENG Li,YU Dong.Deep learning:methods and applica- continuous speech recognition with context-dependent DBN-HMMs[C]//Proceedings of 2011 IEEE International tions[J].Foundations and trends in signal processing,2014. 7(3/4):197-387 Conference on Acoustics,Speech and Signal Processing. Prague,Czech Republic,2011:4688-4691. 作者简介： 9]DAHL G E.YU Dong,DENG Li,et al.Context-dependent 马志强，男，1972年生，教授，主 pre-trained deep neural networks for large-vocabulary 要研究方向为机器学习、语音识别、自 speech recognition[J].IEEE transactions on audio,speech, 然语言处理。发表学术论文30余篇， and language processing,2012,20(1):30-42. 被EI检索10余篇。 [10]HINTON G E.Training products of experts by minimizing contrastive divergence[J].Neural computation,2002. 148):1771-1800 [11]HINTON G E,OSINDERO S,TEH Y W.A fast learning 李图雅，女，1993年生，硕士研究 algorithm for deep belief nets[J].Neural computation, 生，主要研究方向为机器学习、语音识别、自然语言处理。 2006,18(7):1527-1554. [12]BENGIO Y,LAMBLIN P,POPOVICI D,et al.Greedy layer-wise training of deep networks[M]//SCHOLKOPF B, PLATT J,HOFFMAN T.Advances in Neural Information Processing Systems.Cambridge:MIT Press,2007:19-153. [13]HINTON G E.A practical guide to training restricted 杨双涛，男，1990年生.硕士研究生，主要研究方向为机器学习、语音识 Boltzmann machines[R].Toronto:University of Toronto, 别、自然语言处理。 2010:926-927 [14]KHALTA B O,FUJ II A.A lemmatization method for Mongolian and its application to indexing for information retrieval[J].Information processing management,2009

RABINER L, JUANG B H. Fundamentals of Speech Recognition[M]. Upper Saddle River, USA: Prentice-Hall, 1993. [3] RENALS S, MORGAN N, BOURLARD H, et al. Connectionist probability estimators in HMM speech recognition[J]. IEEE transactions on speech and audio processing, 1994, 2(1): 161–174. [4] LI Deng, HINTON G, KINGSBURY B. New types of deep neural network learning for speech recognition and related applications: an overview[C]//Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada, 2013: 8599–8603. [5] HINTON G, DENG Li, YU Dong, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE signal processing magazine, 2012, 29(6): 82–97. [6] YU Dong, DENG Li, DAHL G E. Roles of pre-training and fine-tuning in context-dependent DBN-HMMs for realworld speech recognition[C]//Proceedings of NIPS Workshop on Deep Learning and Unsupervised Feature Learning. 2010. [7] DAHL G E, YU Dong, DENG Li, et al. Large vocabulary continuous speech recognition with context-dependent DBN-HMMs[C]//Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing. Prague, Czech Republic, 2011: 4688–4691. [8] DAHL G E, YU Dong, DENG Li, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE transactions on audio, speech, and language processing, 2012, 20(1): 30–42. [9] HINTON G E. Training products of experts by minimizing contrastive divergence[J]. Neural computation, 2002, 14(8): 1771–1800. [10] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527–1554. [11] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[M]//SCHÖLKOPF B, PLATT J, HOFFMAN T. Advances in Neural Information Processing Systems. Cambridge: MIT Press, 2007: 19–153. [12] HINTON G E. A practical guide to training restricted Boltzmann machines[R]. Toronto: University of Toronto, 2010: 926–927. [13] KHALTA B O, FUJⅡ A. A lemmatization method for Mongolian and its application to indexing for information retrieval[J]. Information processing & management, 2009, [14] 45(4): 438–451. JAIMAI P, ZUNDUI T, CHAGNAA A, et al. PCKIMMO-based description of Mongolian morphology[J]. International journal of information processing systems, 2005, 1(1): 41–48. [15] GAO Guanglai, BILIGETU, NABUQING, et al. A Mongolian speech recognition system based on HMM[C]//Proceedings of 2006 International Conference on Intelligent Computing. Kunming, China, 2006: 667–676. [16] 飞龙, 高光来, 闫学亮, 等. 基于分割识别的蒙古语语音关键词检测方法的研究[J]. 计算机科学, 2013, 40(9): 208–211. FEI Long, GAO Guanglai, Yan Xueliang, et al. Research on Mongolian spoken term detection method based on segmentation recognition[J]. Computer science, 2013, 40(9): 208–211. [17] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. arXiv: 1207.0580, 2012. [18] SRIVASTAVA N. Improving neural networks with dropout[D]. Toronto: University of Toronto, 2013. [19] DENG Li, YU Dong. Deep learning: methods and applications[J]. Foundations and trends in signal processing, 2014, 7(3/4): 197–387. [20] 作者简介：马志强，男，1972 年生，教授，主要研究方向为机器学习、语音识别、自然语言处理。发表学术论文 30 余篇，被 EI 检索 10 余篇。李图雅，女，1993 年生，硕士研究生，主要研究方向为机器学习、语音识别、自然语言处理。杨双涛，男，1990 年生，硕士研究生，主要研究方向为机器学习、语音识别、自然语言处理。 ·492· 智能系统学报第 13 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录