第3期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·491· 表3三音子DNN-HMM声学模型上dropout实验 数据在训练集上的识别率很高,而在测试集上的识 Table 3 Dropout experiment on Triphone DNN-HMM 别率很低时,那么,就表示该模型有着严重的过拟 acoustic model 合现象,我们用模型在测试集上的评价指标和模型 隐含层 词错误率/% 句错误率% 在训练集上的评价指标的差值的绝对值来表示过拟 声学模型 层数训练集测试集训练集测试集 合现象的程度,所以,将它的计算公式定义为 4 4.53 25.7 11.44 46.76 模型的过拟合距离=模型在测试集上的评价指标- 三音子 5 4.49 26.4 12.19 49.02 模型在测试集上的评价指标 DNN-HMM 6 3.23 45.7 (3) 9.81 66.23 > 2.11 56.92 7.2 87.92 从图4深色部分中可以发现,在未采用dro- 三音子 4 pout技术训练得到的DNN-HMM蒙古语声学模型 4.67 26.1 12.27 44.98 4.49 26.4 12.19 47.02 中,当隐含层网络层数由4层增加至7层时,对词 dropout- 5.27 29.34 15.33 48.21 识别的过拟合距离从21.17%增长到了54.81%;对 DNN-HMM 7 8.32 33.8 19.1 51.08 句识别的过拟合距离从35.32%增长到了80.72%。 由此可以看出,随着隐含层网络层数的增加,模型 为了表示过拟合现象的程度,本文定义了一个 的过拟合距离越来越大,过拟合距离的变大说明 模型的过拟合距离,在语音识别中,过拟合往往是 DNN网络构建的蒙古语声学模型已经严重过拟合, 通过训练集和测试集上的识别率来进行判断的,当 那么,DNN-HMM的表现就会越来越差。 60】 ■DNN-HMM 54.81 dropout DNN-HMM2.38 100 「■DNN-HMM 80.72 440 ■dropout DNN-HMM 24 56.42 24.07 25.48 5035.32 2 2.7 36.8334.83 32.88 31.98 0 隐含层的层数层 隐含层的层数层 (a)对词识别的过拟合距离 (b)对句识别的过拟合距离 图4 dropout技术和隐含层层数对DNN-HMM模型过拟合距离的影响 Fig.4 Influence of dropout technique and hidden layers on the over-fitting distance of DNN-HMM model 在图4中,通过深浅两种颜色的对比可以看 表明:1)在不同建模单元(单音子和三音子)下, 出,采用dropout技术后,当隐含层网络层数由4层 DNN-HMM蒙古语声学模型不论词错误率还是句 增加至7层时,对词识别的过拟合距离分别是 错误率都优于GMM-HMM蒙古语声学模型,具体 21.43%、21.91%、24.07%和25.48%。而未采用dr0- 表现为三音子DNN-HMM声学模型比三音子 pout技术,对词识别的过拟合距离分别是21.17%、 GMM-HMM模型在测试集上的词识别错误率降低 21.91%、42.38%、54.81%。由此可知,采用dr0- 了7.5%,句识别错误率降低了13.63%;2)在训练 pout技术后的过拟合距离要比未采用dropout技术 DNN-HMM三音子蒙古语声学模型时,加入dro 后的过拟合距离小,这一点,在对句识别的过拟合 pout技术可以有效避免随着隐含层层数增加带来的 距离上同样存在。所以,在加入了dropout技术后, 过拟合影响。 有效地缓解了因隐含层数增加而导致的过拟合现 参考文献: 象,从而提高了模型的识别性能。 []马志强,张泽广,闫瑞,等.基于N-Gram模型的蒙古语文 4结束语 本语种识别算法的研究).中文信息学报,2016,30(1): 133-140 在蒙古语语音识别声学建模中,本文给出了 MA Zhiqiang,ZHANG Zeguang,YAN Rui,et al.N-Gram DNN-HMM蒙古语声学模型、无监督与监督算法相 based language identification for Mongolian text[J].Journal 结合的蒙古语声学模型的训练算法以及以GMM- of Chinese information processing,2016,30(1):133-140. HMM为基础的DNN-HMM蒙古语声学模型的训 [2]RABINER L R.A tutorial on hidden Markov models and 练过程。在Kaldi实验平台上使用小规模的蒙古语 selected applications in speech recognition[J].Proceedings 语音语料库IMUT310开展了实验研究,实验结果 of the IEEE,1989,77(2):257-286.为了表示过拟合现象的程度,本文定义了一个 模型的过拟合距离,在语音识别中,过拟合往往是 通过训练集和测试集上的识别率来进行判断的,当 数据在训练集上的识别率很高,而在测试集上的识 别率很低时,那么,就表示该模型有着严重的过拟 合现象,我们用模型在测试集上的评价指标和模型 在训练集上的评价指标的差值的绝对值来表示过拟 合现象的程度,所以,将它的计算公式定义为 模型的过拟合距离 = |模型在测试集上的评价指标− 模型在测试集上的评价指标| (3) 从图 4 深色部分中可以发现,在未采用 dropout 技术训练得到的 DNN-HMM 蒙古语声学模型 中,当隐含层网络层数由 4 层增加至 7 层时,对词 识别的过拟合距离从 21.17% 增长到了 54.81%;对 句识别的过拟合距离从 35.32% 增长到了 80.72%。 由此可以看出,随着隐含层网络层数的增加,模型 的过拟合距离越来越大,过拟合距离的变大说明 DNN 网络构建的蒙古语声学模型已经严重过拟合, 那么,DNN-HMM 的表现就会越来越差。 在图 4 中,通过深浅两种颜色的对比可以看 出,采用 dropout 技术后,当隐含层网络层数由 4 层 增加至 7 层时,对词识别的过拟合距离分别是 21.43%、21.91%、24.07% 和 25.48%。而未采用 dropout 技术,对词识别的过拟合距离分别是 21.17%、 21.91%、42.38%、54.81%。由此可知,采用 dropout 技术后的过拟合距离要比未采用 dropout 技术 后的过拟合距离小,这一点,在对句识别的过拟合 距离上同样存在。所以,在加入了 dropout 技术后, 有效地缓解了因隐含层数增加而导致的过拟合现 象,从而提高了模型的识别性能。 4 结束语 在蒙古语语音识别声学建模中,本文给出了 DNN-HMM 蒙古语声学模型、无监督与监督算法相 结合的蒙古语声学模型的训练算法以及以 GMMHMM 为基础的 DNN-HMM 蒙古语声学模型的训 练过程。在 Kaldi 实验平台上使用小规模的蒙古语 语音语料库 IMUT310 开展了实验研究,实验结果 表明:1) 在不同建模单元 (单音子和三音子) 下, DNN-HMM 蒙古语声学模型不论词错误率还是句 错误率都优于 GMM-HMM 蒙古语声学模型,具体 表现为三音子 DNN-HMM 声学模型比三音子 GMM-HMM 模型在测试集上的词识别错误率降低 了 7.5%,句识别错误率降低了 13.63%;2) 在训练 DNN-HMM 三音子蒙古语声学模型时,加入 dropout 技术可以有效避免随着隐含层层数增加带来的 过拟合影响。 参考文献: 马志强, 张泽广, 闫瑞, 等. 基于 N-Gram 模型的蒙古语文 本语种识别算法的研究[J]. 中文信息学报, 2016, 30(1): 133–140. MA Zhiqiang, ZHANG Zeguang, YAN Rui, et al. N-Gram based language identification for Mongolian text[J]. Journal of Chinese information processing, 2016, 30(1): 133–140. [1] RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition[J]. Proceedings of the IEEE, 1989, 77(2): 257–286. [2] 表 3 三音子 DNN-HMM 声学模型上 dropout 实验 Table 3 Dropout experiment on Triphone DNN-HMM acoustic model 声学模型 隐含层 层数 词错误率/% 句错误率/% 训练集 测试集 训练集 测试集 三音子 DNN-HMM 4 4.53 25.7 11.44 46.76 5 4.49 26.4 12.19 49.02 6 3.23 45.7 9.81 66.23 7 2.11 56.92 7.2 87.92 三音子 dropoutDNN-HMM 4 4.67 26.1 12.27 44.98 5 4.49 26.4 12.19 47.02 6 5.27 29.34 15.33 48.21 7 8.32 33.8 19.1 51.08 21.17 21.91 42.38 54.81 21.43 21.91 24.07 25.48 0 20 40 60 对词识别的过拟合距离 4 5 6 7 /% 隐含层的层数/层 dropout DNN-HMM DNN-HMM (a) 对词识别的过拟合距离 dropout DNN-HMM DNN-HMM 35.32 36.83 56.42 80.72 32.71 34.83 32.88 31.98 0 50 100 4 5 6 7 隐含层的层数/层 对句识别的过拟合距离/% (b) 对句识别的过拟合距离 图 4 dropout 技术和隐含层层数对 DNN-HMM 模型过拟合距离的影响 Fig. 4 Influence of dropout technique and hidden layers on the over - fitting distance of DNN-HMM model 第 3 期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·491·