正在加载图片...
第3期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·489· 2蒙古语声学模型的调优训练 型时,采用期望最大化算法进行无监督训练,避免 了对标注数据的要求;然后利用蒙古语声学特征对 由于DNN模型在调优时需要对齐的语音帧标 深度神经网络进行预训练:在深度神经网络训练的 注数据,同时标注数据质量往往影响DNN模型的 第二阶段(即有监督调优阶段),利用已训练的GMM 性能,因此,在DNN网络调优阶段,通过使用已训 HMM蒙古语声学模型进行语音特征到状态的强制 练好的GMM-HMM蒙古语声学模型生成对齐的蒙 对齐,得到标注数据:最后利用标注数据对DNN深 古语语音特征标注数据。 度神经网络进行有监督的调优。DNN深度神经网 所以,DNN-HMM蒙古语声学模型的训练过程 络训练完成以后,根据DNN-HMM在测试集上的识 为:首先训练GMM-HMM蒙古语声学模型,得到对 别结果决定其下一步流程。 齐的蒙古语语音特征标注数据:然后在对齐语音特 征数据的基础上对深度神经网络(DNN)进行训练 3实验与结果 和调优;最后根据得到的蒙古语语音观察状态再对 3.1实验方案设计 隐马尔科夫模型(HMM)进行训练。具体见DNN- 为了验证提出的DNN-HMM蒙古语声学模型 HMM蒙古语声学模型训练过程。 的有效性,设计了3组实验。在实验中,将未采用 DNN-HMM蒙古语声学模型训练过程: dropout技术的DNN-HMM声学模型定义为DNN. 输入蒙古语语料库。 HMM,将采用dropout技术的DNN-HMM声学模 输出DNN-HMM声学模型。 型定义为dropout-.DNN-HMM。 I)进行GMM-HMM蒙古语声学模型训练,得 1)开展GMM-HMM、DNN-HMM蒙古语声学 到一个最优的GMM-HMM蒙古语语音识别系统, 模型建模实验研究,主要观察不同声学建模单元对 用gmm-hmm表示。 声学模型的性能影响,以及对比不同类型声学模型 2)利用维特比解码算法解析gmm-hmm,对gmm 对语音识别系统的影响。 hmm蒙古语声学模型中的每一个senone进行标号, 2)通过构建不同层数的深度网络结构的DNN- 得到senone_id, HMM三音子蒙古语声学模型,开展层数对蒙古语 3)利用gmm-hmm蒙古语声学模型,将声学状 声学模型,以及对过拟合现象影响的实验研究。 态tri-phone映射到相应的senone id。 3)在构建DNN-HMM三音子蒙古语声学模型 4)利用gmm-hmm蒙古语声学模型初始化DNN- 时,通过采用dropout技术开展dropout技术对DNN- HMM蒙古语声学模型,主要是HMM隐马尔科夫 HMM三音子蒙古语声学模型过拟合现象影响的实 模型参数部分,最终得到dnn-hmml模型。 验研究。 5)利用蒙古语声学特征文件预训练DNN深度 3.2数据集 神经网络,得到ptdnn。 蒙古语语音识别的语料库由310句蒙古语教学 6)使用gmm-hmm蒙古语声学模型,将蒙古语 语音组成,共计2291个蒙古语词汇,命名为MUT310 声学特征数据进行状态级别的强制对齐,对齐结果 语料库。语料库共由3部分组成:音频文件、发音 为align-raw。 标注以及相应的蒙文文本。实验中,将IMUT310 7)将align-raw的物理状态转换成senone id,. 语料库划分成训练集和测试集两部分,其中训练集 得到帧级别对齐的训练数据align-frame。 为287句,测试集为23句。实验在Kaldi平台上完 成。Kaldi的具体实验环境配置如表1所示。 8)利用对齐数据align-data对ptdnn深度神经 表1实验环境 网络进行有监督地微调,得到网络模型dnn。 Table 1 9)根据最大似然算法,利用dnn重新估计dnn- Experimental environment hmml中HMM模型转移概率得到的网络模型,用 项目 参数说明 dnn-hmm2表示。 操作系统 Ubuntu14.04 l0)如果dnn和dnn-hmm2上测试集识别准确 处理器 I5.4×3.2GHz 率没有提高,训练结束。否则,使用dnn-hmm2对训 GPU显卡 GTX660ti2GB显存 练数据再次进行状态级别对齐,执行)。 硬盘 SAT硬盘500GB 在训练过程中,首先训练一个最优的GMM-HMM Kaldi 0.9版本 蒙古语语音识别数据准备系统,目的是为DNN的 监督调优服务。在训练GMM-HMM蒙古语声学模 CUDA 6.5版本2 蒙古语声学模型的调优训练 由于 DNN 模型在调优时需要对齐的语音帧标 注数据,同时标注数据质量往往影响 DNN 模型的 性能,因此,在 DNN 网络调优阶段,通过使用已训 练好的 GMM-HMM 蒙古语声学模型生成对齐的蒙 古语语音特征标注数据。 所以,DNN-HMM 蒙古语声学模型的训练过程 为:首先训练 GMM-HMM 蒙古语声学模型,得到对 齐的蒙古语语音特征标注数据;然后在对齐语音特 征数据的基础上对深度神经网络 (DNN) 进行训练 和调优;最后根据得到的蒙古语语音观察状态再对 隐马尔科夫模型 (HMM) 进行训练。具体见 DNN￾HMM 蒙古语声学模型训练过程。 DNN-HMM 蒙古语声学模型训练过程: 输入 蒙古语语料库。 输出 DNN-HMM 声学模型。 1) 进行 GMM-HMM 蒙古语声学模型训练,得 到一个最优的 GMM-HMM 蒙古语语音识别系统, 用 gmm-hmm 表示。 2) 利用维特比解码算法解析 gmm-hmm,对 gmm￾hmm 蒙古语声学模型中的每一个 senone 进行标号, 得到 senone_id。 3) 利用 gmm-hmm 蒙古语声学模型,将声学状 态 tri-phone 映射到相应的 senone_id。 4) 利用 gmm-hmm 蒙古语声学模型初始化 DNN￾HMM 蒙古语声学模型,主要是 HMM 隐马尔科夫 模型参数部分,最终得到 dnn-hmm1 模型。 5) 利用蒙古语声学特征文件预训练 DNN 深度 神经网络,得到 ptdnn。 6) 使用 gmm-hmm 蒙古语声学模型,将蒙古语 声学特征数据进行状态级别的强制对齐,对齐结果 为 align-raw。 7) 将 align-raw 的物理状态转换成 senone_id, 得到帧级别对齐的训练数据 align-frame。 8) 利用对齐数据 align-data 对 ptdnn 深度神经 网络进行有监督地微调,得到网络模型 dnn。 9) 根据最大似然算法,利用 dnn 重新估计 dnn￾hmm1 中 HMM 模型转移概率得到的网络模型,用 dnn-hmm2 表示。 10) 如果 dnn 和 dnn-hmm2 上测试集识别准确 率没有提高,训练结束。否则,使用 dnn-hmm2 对训 练数据再次进行状态级别对齐,执行 7)。 在训练过程中,首先训练一个最优的 GMM-HMM 蒙古语语音识别数据准备系统,目的是为 DNN 的 监督调优服务。在训练 GMM-HMM 蒙古语声学模 型时,采用期望最大化算法进行无监督训练,避免 了对标注数据的要求;然后利用蒙古语声学特征对 深度神经网络进行预训练;在深度神经网络训练的 第二阶段 (即有监督调优阶段),利用已训练的 GMM￾HMM 蒙古语声学模型进行语音特征到状态的强制 对齐,得到标注数据;最后利用标注数据对 DNN 深 度神经网络进行有监督的调优。DNN 深度神经网 络训练完成以后,根据 DNN-HMM 在测试集上的识 别结果决定其下一步流程。 3 实验与结果 3.1 实验方案设计 为了验证提出的 DNN-HMM 蒙古语声学模型 的有效性,设计了 3 组实验。在实验中,将未采用 dropout 技术的 DNN-HMM 声学模型定义为 DNN￾HMM,将采用 dropout 技术的 DNN-HMM 声学模 型定义为 dropout-DNN-HMM。 1) 开展 GMM-HMM、DNN-HMM 蒙古语声学 模型建模实验研究,主要观察不同声学建模单元对 声学模型的性能影响,以及对比不同类型声学模型 对语音识别系统的影响。 2) 通过构建不同层数的深度网络结构的 DNN￾HMM 三音子蒙古语声学模型,开展层数对蒙古语 声学模型,以及对过拟合现象影响的实验研究。 3) 在构建 DNN-HMM 三音子蒙古语声学模型 时,通过采用 dropout 技术开展 dropout 技术对 DNN￾HMM 三音子蒙古语声学模型过拟合现象影响的实 验研究。 3.2 数据集 蒙古语语音识别的语料库由 310 句蒙古语教学 语音组成,共计 2 291 个蒙古语词汇,命名为 IMUT310 语料库。语料库共由 3 部分组成:音频文件、发音 标注以及相应的蒙文文本。实验中,将 IMUT310 语料库划分成训练集和测试集两部分,其中训练集 为 287 句,测试集为 23 句。实验在 Kaldi 平台上完 成。Kaldi 的具体实验环境配置如表 1 所示。 表 1 实验环境 Table 1 Experimental environment 项目 参数说明 操作系统 Ubuntu14.04 处理器 I5. 4×3.2 GHz GPU 显卡 GTX 660ti 2 GB 显存 硬盘 SAT 硬盘 500 GB Kaldi 0.9 版本 CUDA 6.5 版本 第 3 期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·489·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有