实验过程中，蒙古语声学特征采用 MFCC 声学特征表示，共有 39 维数

正在加载图片...

·490· 智能系统学报第13卷实验过程中，蒙古语声学特征采用MFCC声学 HMM实验。采用3.2中的实验参数设置进行了实特征表示，共有39维数据，其中前13维特征由验，实验结果数据见表2。 12个倒谱特征和1个能量系数组成，后面的两个表2GMM-HMM与DNN-HMM蒙古语声学模型实验数据 13维特征是对前面13维特征的一阶差分和二阶差 Table 2 The experimental data of Mongolian acoustic 分。在提取蒙古语MFFC特征时，帧窗口长度为 mode from GMM-HMM and DNN-HMM 25ms,帧移10ms。对训练集和测试集分别进行特词错误率% 句错误率/% 征提取，全部语音数据共生成119960个MFCC特声学模型征，其中训练数据生成的特征为112535个，测试数训练集测试集训练集测试集据生成的特征为7425个。GMM-HMM声学模型单音子GMM-HMM 14.32 47.34 41.71 75.3 训练时，蒙古语语音MFCC特征采用39维数据进单音子DNN-HMM 5.48 36.2 9.28 行实验。单音子DNN-HMM实验时，蒙古语MFCC 57.42 语音特征为13维（不包括一、二阶差分特征）。三音三音子GMM-HMM 5.86 33.2 30.74 60.39 子DNN-HMM实验时，蒙古语MFCC的特征为三音子DNN-HMM 4.53 25.7 11.44 46.76 39维。 DNN网络训练时，特征提取采用上下文结合的从图3(a)中可以发现，相对于单音子GMM- 办法，即在当前帧前后各取5帧来表示当前帧的上 HMM蒙古语声学模型，单音子DNN-HMM蒙古语下文环境，因此，在实验过程中，单音子DNN网络声学模型在训练集上的词错误率降低了8.84%，在的输入节点数为143个(13×(5+1+5)，三音子测试集上的词识别错误率降低了11.14%；但是，对 DNN网络的输入节点数为429个(39×(5+1+5)。于三音子模型来说，三音子DNN-HMM蒙古语声学 DNN网络的输出层节点为可观察蒙古语语音音素模型比三音子GMM-HMM蒙古语声学模型在训练个数，根据语料库标注的标准，输出节点为27个； DNN网络的隐含层节点数设定为1024，调优训练集上的词错误率降低了1.33%，在测试集上的词识次数设定为60，初始学习率设定为0.015，最终学习别错误率降低了7.5%。由图3b)发现，单音子模型率设定为0.002。在训练集上的句识别错误率降低了32.43%，在测试 3.3实验和结果集上的句识别错误率降低了17.88%：对于三音子模为了验证深度神经网络能够更好地捕捉蒙古语型来说，三音子DNN-HMM蒙古语声学模型比三音语音的声学特征，具备更好地建模能力。本文设计子GMM-HMM蒙古语声学模型在训练集上的句识了4个实验，分别是单音子GMM-HMM、三音子别错误率降低了19.3%，在测试集上的句识别错误 GMM-HMM、单音子DNN-HMM和三音子DNN- 率降低了13.63%。 15 ■测试集 40 ■测试集 ■训练集 ■训练集 11.14 30 10 8.84 7.5 20 17.88 19.3 13.63 5 1.13 0 01 单音子DNN-HMM三音子DNN-HMM 单音子DNN-HMM三音子DNN-HMM 声学模型/音素声学模型/音素 (a)相对于GMM-HMM声学模型的词错误下降率 (b)相对于GMM-HMM声学模型的句错误下降率图3相对于GMM-HMM声学模型的实验对比结果 Fig.3 The experimental results are compared with the GMM-HMM acoustic model 从以上分析可以得出：单音子DNN-HMM蒙古对DNN-HMM三音子蒙古语声学模型的影响，本文语声学模型明显优于单音子GMM-HMM蒙古语声以未采用dropout技术的4层三音子DNN-HMM 学模型：对于三音子模型来说，三音子DNN-HMM 蒙古语声学模型为基准实验，分别进行了关于隐含蒙古语声学模型比三音子GMM-HMM蒙古语声学层层数以及dropout技术的对比实验，实验结果数模型的识别率还要高。据见表3。另外，为了研究隐含层层数、dropout技术u-20实验过程中，蒙古语声学特征采用 MFCC 声学特征表示，共有 39 维数据，其中前 13 维特征由 12 个倒谱特征和 1 个能量系数组成，后面的两个 13 维特征是对前面 13 维特征的一阶差分和二阶差分。在提取蒙古语 MFFC 特征时，帧窗口长度为 25 ms，帧移 10 ms。对训练集和测试集分别进行特征提取，全部语音数据共生成 119 960 个 MFCC 特征，其中训练数据生成的特征为 112 535 个，测试数据生成的特征为 7 425 个。GMM-HMM 声学模型训练时，蒙古语语音 MFCC 特征采用 39 维数据进行实验。单音子 DNN-HMM 实验时，蒙古语 MFCC 语音特征为 13 维 (不包括一、二阶差分特征)。三音子 DNN-HMM 实验时，蒙古语 MFCC 的特征为 39 维。 DNN 网络训练时，特征提取采用上下文结合的办法，即在当前帧前后各取 5 帧来表示当前帧的上下文环境，因此，在实验过程中，单音子 DNN 网络的输入节点数为 143 个 (13×(5+1+5))，三音子 DNN 网络的输入节点数为 429 个 (39×(5+1+5))。 DNN 网络的输出层节点为可观察蒙古语语音音素个数，根据语料库标注的标准，输出节点为 27 个； DNN 网络的隐含层节点数设定为 1 024，调优训练次数设定为 60，初始学习率设定为 0.015，最终学习率设定为 0.002。 3.3 实验和结果为了验证深度神经网络能够更好地捕捉蒙古语语音的声学特征，具备更好地建模能力。本文设计了 4 个实验，分别是单音子 GMM-HMM、三音子 GMM-HMM、单音子 DNN-HMM 和三音子 DNNHMM 实验。采用 3.2 中的实验参数设置进行了实验，实验结果数据见表 2。从图 3(a) 中可以发现，相对于单音子 GMMHMM 蒙古语声学模型，单音子 DNN-HMM 蒙古语声学模型在训练集上的词错误率降低了 8.84%，在测试集上的词识别错误率降低了 11.14%；但是，对于三音子模型来说，三音子 DNN-HMM 蒙古语声学模型比三音子 GMM-HMM 蒙古语声学模型在训练集上的词错误率降低了 1.33%，在测试集上的词识别错误率降低了 7.5%。由图 3(b) 发现，单音子模型在训练集上的句识别错误率降低了 32.43%，在测试集上的句识别错误率降低了 17.88%；对于三音子模型来说，三音子 DNN-HMM 蒙古语声学模型比三音子 GMM-HMM 蒙古语声学模型在训练集上的句识别错误率降低了 19.3%，在测试集上的句识别错误率降低了 13.63%。从以上分析可以得出：单音子 DNN-HMM 蒙古语声学模型明显优于单音子 GMM-HMM 蒙古语声学模型；对于三音子模型来说，三音子 DNN-HMM 蒙古语声学模型比三音子 GMM-HMM 蒙古语声学模型的识别率还要高。另外，为了研究隐含层层数、dropout 技术[18-20] 对 DNN-HMM 三音子蒙古语声学模型的影响，本文以未采用 dropout 技术的 4 层三音子 DNN-HMM 蒙古语声学模型为基准实验，分别进行了关于隐含层层数以及 dropout 技术的对比实验，实验结果数据见表 3。表 2 GMM-HMM 与 DNN-HMM 蒙古语声学模型实验数据 Table 2 The experimental data of Mongolian acoustic mode from GMM-HMM and DNN-HMM 声学模型词错误率/% 句错误率/% 训练集测试集训练集测试集单音子 GMM-HMM 14.32 47.34 41.71 75.3 单音子 DNN-HMM 5.48 36.2 9.28 57.42 三音子 GMM-HMM 5.86 33.2 30.74 60.39 三音子 DNN-HMM 4.53 25.7 11.44 46.76 8.84 1.13 11.14 7.5 0 5 10 15 ≷䄁䯲䃙㏯䯲 ≷䄁䯲䃙㏯䯲䃹䩅䄛̷䭹⢳/% ผ႒Ὅಷ/䴟㉌ ࢁ䴟ၼ DNN−HMM ̵䴟ၼ DNN−HMM (a) ⰤᄥκGMM−HMMผ႒Ὅಷ⮰䃹䩅䄛̷䭹⢳ 32.43 19.3 17.88 13.63 0 10 20 30 40 ऑ䩅䄛̷䭹⢳/% ผ႒Ὅಷ/䴟㉌ ࢁ䴟ၼ DNN−HMM ̵䴟ၼ DNN−HMM (b) ⰤᄥκGMM−HMMผ႒Ὅಷ⮰ऑ䩅䄛̷䭹⢳ 图 3 相对于 GMM-HMM 声学模型的实验对比结果 Fig. 3 The experimental results are compared with the GMM-HMM acoustic model ·490· 智能系统学报第 13 卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于深度神经网络的蒙古语声学模型建模研究