·490· 智能系统学报 第13卷 实验过程中,蒙古语声学特征采用MFCC声学 HMM实验。采用3.2中的实验参数设置进行了实 特征表示,共有39维数据,其中前13维特征由 验,实验结果数据见表2。 12个倒谱特征和1个能量系数组成,后面的两个 表2GMM-HMM与DNN-HMM蒙古语声学模型实验数据 13维特征是对前面13维特征的一阶差分和二阶差 Table 2 The experimental data of Mongolian acoustic 分。在提取蒙古语MFFC特征时,帧窗口长度为 mode from GMM-HMM and DNN-HMM 25ms,帧移10ms。对训练集和测试集分别进行特 词错误率% 句错误率/% 征提取,全部语音数据共生成119960个MFCC特 声学模型 征,其中训练数据生成的特征为112535个,测试数 训练集测试集 训练集测试集 据生成的特征为7425个。GMM-HMM声学模型 单音子GMM-HMM 14.32 47.34 41.71 75.3 训练时,蒙古语语音MFCC特征采用39维数据进 单音子DNN-HMM 5.48 36.2 9.28 行实验。单音子DNN-HMM实验时,蒙古语MFCC 57.42 语音特征为13维(不包括一、二阶差分特征)。三音 三音子GMM-HMM 5.86 33.2 30.74 60.39 子DNN-HMM实验时,蒙古语MFCC的特征为 三音子DNN-HMM 4.53 25.7 11.44 46.76 39维。 DNN网络训练时,特征提取采用上下文结合的 从图3(a)中可以发现,相对于单音子GMM- 办法,即在当前帧前后各取5帧来表示当前帧的上 HMM蒙古语声学模型,单音子DNN-HMM蒙古语 下文环境,因此,在实验过程中,单音子DNN网络 声学模型在训练集上的词错误率降低了8.84%,在 的输入节点数为143个(13×(5+1+5),三音子 测试集上的词识别错误率降低了11.14%;但是,对 DNN网络的输入节点数为429个(39×(5+1+5)。 于三音子模型来说,三音子DNN-HMM蒙古语声学 DNN网络的输出层节点为可观察蒙古语语音音素 模型比三音子GMM-HMM蒙古语声学模型在训练 个数,根据语料库标注的标准,输出节点为27个; DNN网络的隐含层节点数设定为1024,调优训练 集上的词错误率降低了1.33%,在测试集上的词识 次数设定为60,初始学习率设定为0.015,最终学习 别错误率降低了7.5%。由图3b)发现,单音子模型 率设定为0.002。 在训练集上的句识别错误率降低了32.43%,在测试 3.3实验和结果 集上的句识别错误率降低了17.88%:对于三音子模 为了验证深度神经网络能够更好地捕捉蒙古语 型来说,三音子DNN-HMM蒙古语声学模型比三音 语音的声学特征,具备更好地建模能力。本文设计 子GMM-HMM蒙古语声学模型在训练集上的句识 了4个实验,分别是单音子GMM-HMM、三音子 别错误率降低了19.3%,在测试集上的句识别错误 GMM-HMM、单音子DNN-HMM和三音子DNN- 率降低了13.63%。 15 ■测试集 40 ■测试集 ■训练集 ■训练集 11.14 30 10 8.84 7.5 20 17.88 19.3 13.63 5 1.13 0 01 单音子DNN-HMM三音子DNN-HMM 单音子DNN-HMM三音子DNN-HMM 声学模型/音素 声学模型/音素 (a)相对于GMM-HMM声学模型的词错误下降率 (b)相对于GMM-HMM声学模型的句错误下降率 图3相对于GMM-HMM声学模型的实验对比结果 Fig.3 The experimental results are compared with the GMM-HMM acoustic model 从以上分析可以得出:单音子DNN-HMM蒙古 对DNN-HMM三音子蒙古语声学模型的影响,本文 语声学模型明显优于单音子GMM-HMM蒙古语声 以未采用dropout技术的4层三音子DNN-HMM 学模型:对于三音子模型来说,三音子DNN-HMM 蒙古语声学模型为基准实验,分别进行了关于隐含 蒙古语声学模型比三音子GMM-HMM蒙古语声学 层层数以及dropout技术的对比实验,实验结果数 模型的识别率还要高。 据见表3。 另外,为了研究隐含层层数、dropout技术u-20实验过程中,蒙古语声学特征采用 MFCC 声学 特征表示,共有 39 维数据,其中前 13 维特征由 12 个倒谱特征和 1 个能量系数组成,后面的两个 13 维特征是对前面 13 维特征的一阶差分和二阶差 分。在提取蒙古语 MFFC 特征时,帧窗口长度为 25 ms,帧移 10 ms。对训练集和测试集分别进行特 征提取,全部语音数据共生成 119 960 个 MFCC 特 征,其中训练数据生成的特征为 112 535 个,测试数 据生成的特征为 7 425 个。GMM-HMM 声学模型 训练时,蒙古语语音 MFCC 特征采用 39 维数据进 行实验。单音子 DNN-HMM 实验时,蒙古语 MFCC 语音特征为 13 维 (不包括一、二阶差分特征)。三音 子 DNN-HMM 实验时,蒙古语 MFCC 的特征为 39 维。 DNN 网络训练时,特征提取采用上下文结合的 办法,即在当前帧前后各取 5 帧来表示当前帧的上 下文环境,因此,在实验过程中,单音子 DNN 网络 的输入节点数为 143 个 (13×(5+1+5)),三音子 DNN 网络的输入节点数为 429 个 (39×(5+1+5))。 DNN 网络的输出层节点为可观察蒙古语语音音素 个数,根据语料库标注的标准,输出节点为 27 个; DNN 网络的隐含层节点数设定为 1 024,调优训练 次数设定为 60,初始学习率设定为 0.015,最终学习 率设定为 0.002。 3.3 实验和结果 为了验证深度神经网络能够更好地捕捉蒙古语 语音的声学特征,具备更好地建模能力。本文设计 了 4 个实验,分别是单音子 GMM-HMM、三音子 GMM-HMM、单音子 DNN-HMM 和三音子 DNNHMM 实验。采用 3.2 中的实验参数设置进行了实 验,实验结果数据见表 2。 从图 3(a) 中可以发现,相对于单音子 GMMHMM 蒙古语声学模型,单音子 DNN-HMM 蒙古语 声学模型在训练集上的词错误率降低了 8.84%,在 测试集上的词识别错误率降低了 11.14%;但是,对 于三音子模型来说,三音子 DNN-HMM 蒙古语声学 模型比三音子 GMM-HMM 蒙古语声学模型在训练 集上的词错误率降低了 1.33%,在测试集上的词识 别错误率降低了 7.5%。由图 3(b) 发现,单音子模型 在训练集上的句识别错误率降低了 32.43%,在测试 集上的句识别错误率降低了 17.88%;对于三音子模 型来说,三音子 DNN-HMM 蒙古语声学模型比三音 子 GMM-HMM 蒙古语声学模型在训练集上的句识 别错误率降低了 19.3%,在测试集上的句识别错误 率降低了 13.63%。 从以上分析可以得出:单音子 DNN-HMM 蒙古 语声学模型明显优于单音子 GMM-HMM 蒙古语声 学模型;对于三音子模型来说,三音子 DNN-HMM 蒙古语声学模型比三音子 GMM-HMM 蒙古语声学 模型的识别率还要高。 另外,为了研究隐含层层数、dropout 技术[18-20] 对 DNN-HMM 三音子蒙古语声学模型的影响,本文 以未采用 dropout 技术的 4 层三音子 DNN-HMM 蒙古语声学模型为基准实验,分别进行了关于隐含 层层数以及 dropout 技术的对比实验,实验结果数 据见表 3。 表 2 GMM-HMM 与 DNN-HMM 蒙古语声学模型实验数据 Table 2 The experimental data of Mongolian acoustic mode from GMM-HMM and DNN-HMM 声学模型 词错误率/% 句错误率/% 训练集 测试集 训练集 测试集 单音子 GMM-HMM 14.32 47.34 41.71 75.3 单音子 DNN-HMM 5.48 36.2 9.28 57.42 三音子 GMM-HMM 5.86 33.2 30.74 60.39 三音子 DNN-HMM 4.53 25.7 11.44 46.76 8.84 1.13 11.14 7.5 0 5 10 15 ≷䄁䯲 䃙㏯䯲 ≷䄁䯲 䃙㏯䯲 䃹䩅䄛̷䭹⢳/% ผ႒Ὅಷ/䴟㉌ ࢁ䴟ၼ DNN−HMM ̵䴟ၼ DNN−HMM (a) ⰤᄥκGMM−HMMผ႒Ὅಷ⮰䃹䩅䄛̷䭹⢳ 32.43 19.3 17.88 13.63 0 10 20 30 40 ऑ䩅䄛̷䭹⢳/% ผ႒Ὅಷ/䴟㉌ ࢁ䴟ၼ DNN−HMM ̵䴟ၼ DNN−HMM (b) ⰤᄥκGMM−HMMผ႒Ὅಷ⮰ऑ䩅䄛̷䭹⢳ 图 3 相对于 GMM-HMM 声学模型的实验对比结果 Fig. 3 The experimental results are compared with the GMM-HMM acoustic model ·490· 智 能 系 统 学 报 第 13 卷