征向量进行概率建模，然后通过 EM 算法生成语音观察特征的最大化概率，当

正在加载图片...

第3期马志强，等：基于深度神经网络的蒙古语声学模型建模研究 ·487· 征向量进行概率建模，然后通过EM算法生成语音 1.1DNN-HMM蒙古语声学模型观察特征的最大化概率，当混合高斯分布数目足够 DNN-HMM蒙古语声学模型就是将深度神经多时，GMM可以充分拟合声学特征的概率分布，网络技术应用到蒙古语声学模型中，用DNN深度 HMM模型根据GMM拟合的观察状态生成语音的神经网络代替GMM高斯混合模型，实现对蒙古语时序状态2。当采用GMM混合高斯模型的概率声学状态的后验概率估算。在给定蒙古语声学特征来描述语音数据分布时，GMM模型本质上属于浅序列的情况下，首先用DNN模型估算当前特征属层模型，并在拟合声学特征分布时对特征之间进行于HMM状态的概率，然后用HMM模型描述蒙古了独立性的假设，因此无法充分描述声学特征的状语语音信号的动态变化，捕捉蒙古语语音信息的时态空间分布；同时，GMM建模的特征维数一般是几序状态信息。DNN-HMM蒙古语声学模型结构如十维，不能充分描述声学特征之间的相关性，模型图1所示。表达能力有限。因此，在20世纪80年代利用神经网络和HMM模型构建声学模型的研究开始出现，但是，当时计算机计算能力不足且缺乏足够的训练 HMM 数据，模型的效果不及GMM-HMM。2010年微 DNN 软亚洲研究院的邓力与Hinton小组针对大规模连续语音识别任务提出了CD-DBN-HMM的混合声学模型框架，并进行了相关实验。实验结果表明，相比GMM-HMM声学模型，采用CD-DBN-HMM声学模型使语音识别系统识别正确率提高了30%左右，CD-DBN-HMM混合声学模型框架的提出彻底革新了语音识别原有的声学模型框架。与传统的高斯混合模型相比，深度神经网络属于深度模型，能够更好地表示复杂非线性函数，更能捕捉语音特征蒙古语声学特征向量向量之间的相关性，易于取得更好的建模效果1。蒙古语语音识别研究主要借鉴了英语、汉语以及其图1DNN-HMM蒙古语声学模型他少数民族语言，在语音识别研究上取得了成果， Fig.1 The Mongolian acoustic model based on DNN- 因此蒙古语声学模型建模过程主要以GMM-HMM HMM. 模型为基础开展研究，也取得了一定的研究成果6。在DNN-HMM蒙古语声学模型中，DNN网络在特征学习方面DNN模型比GMM模型具有更大是通过不断地自下而上堆叠隐含层实现的。其中，的优势，所以本文用DNN模型代替了GMM模型 S表示HMM模型中的隐含状态，A表示状态转移来完成蒙古语声学模型建模任务。概率矩阵，L表示DNN深度神经网络的层数（隐含层为L-I层，L层为输入层，L,层为输出层，DNN网 1蒙古语声学模型研究络共包含L+1层)，W表示层之间的连接矩阵。DNN- HMM蒙古语声学模型在进行蒙古语语音识别过程在语音识别领域内，DNN主要以两种形式被应建模前，需要对DNN神经网络进行训练。在完成用：直接作为声学特征的提取模型，但是这种应用 DNN神经网络的训练后，对蒙古语声学模型的建模方式仍需要借助GMM-HMM模型才能完成；将过程与GMM-HMM模型一致。 DNN与HMM隐马尔科夫模型进行结合，构成混合 1.2DNN网络的训练模型结构，利用深度神经网络代替GMM高斯混合蒙古语声学模型中的DNN网络的训练分为预模型进行声学状态输出概率的计算81。与高斯混训练和调优两个阶段。DNN的预训练就是对深度合模型相比，深度神经网络有着更强的学习能力和神经网络的参数进行初始化。通常，DNN深度神经建模能力，能够更好地捕捉声学特征的内在关系，网络的预训练方式分为生成式训练和判别式训练。有助于声学模型性能的提升，所以本文通过使用深逐层无监督预训练算法就是使用无监督学习方法度神经网络模型对蒙古语声学特征逐层提取，将分对网络的每一层进行预训练，它属于生成式训练算类与语音特征内在结构的学习进行了紧密结合，有法7。在DNN-HMM蒙古语声学模型预训练中，采利于蒙古语语音识别系统正确率的提升。用了逐层无监督训练算法。征向量进行概率建模，然后通过 EM 算法生成语音观察特征的最大化概率，当混合高斯分布数目足够多时，GMM 可以充分拟合声学特征的概率分布， HMM 模型根据 GMM 拟合的观察状态生成语音的时序状态[2-3]。当采用 GMM 混合高斯模型的概率来描述语音数据分布时，GMM 模型本质上属于浅层模型，并在拟合声学特征分布时对特征之间进行了独立性的假设，因此无法充分描述声学特征的状态空间分布；同时，GMM 建模的特征维数一般是几十维，不能充分描述声学特征之间的相关性，模型表达能力有限。因此，在 20 世纪 80 年代利用神经网络和 HMM 模型构建声学模型的研究开始出现，但是，当时计算机计算能力不足且缺乏足够的训练数据，模型的效果不及 GMM-HMM[4-5]。2010 年微软亚洲研究院的邓力与 Hinton 小组针对大规模连续语音识别任务提出了 CD-DBN-HMM的混合声学模型框架[6] ，并进行了相关实验。实验结果表明，相比 GMM-HMM 声学模型，采用 CD-DBN-HMM 声学模型使语音识别系统识别正确率提高了 30% 左右，CD-DBN-HMM 混合声学模型框架的提出彻底革新了语音识别原有的声学模型框架。与传统的高斯混合模型相比，深度神经网络属于深度模型，能够更好地表示复杂非线性函数，更能捕捉语音特征向量之间的相关性，易于取得更好的建模效果[7-12]。蒙古语语音识别研究主要借鉴了英语、汉语以及其他少数民族语言，在语音识别研究上取得了成果，因此蒙古语声学模型建模过程主要以 GMM-HMM 模型为基础开展研究，也取得了一定的研究成果[13-16]。在特征学习方面 DNN 模型比 GMM 模型具有更大的优势，所以本文用 DNN 模型代替了 GMM 模型来完成蒙古语声学模型建模任务。 1 蒙古语声学模型研究在语音识别领域内，DNN 主要以两种形式被应用：直接作为声学特征的提取模型，但是这种应用方式仍需要借助 GMM-HMM 模型才能完成；将 DNN 与 HMM 隐马尔科夫模型进行结合，构成混合模型结构，利用深度神经网络代替 GMM 高斯混合模型进行声学状态输出概率的计算[7-8]。与高斯混合模型相比，深度神经网络有着更强的学习能力和建模能力，能够更好地捕捉声学特征的内在关系，有助于声学模型性能的提升，所以本文通过使用深度神经网络模型对蒙古语声学特征逐层提取，将分类与语音特征内在结构的学习进行了紧密结合，有利于蒙古语语音识别系统正确率的提升。 1.1 DNN-HMM 蒙古语声学模型 DNN-HMM 蒙古语声学模型就是将深度神经网络技术应用到蒙古语声学模型中，用 DNN 深度神经网络代替 GMM 高斯混合模型，实现对蒙古语声学状态的后验概率估算。在给定蒙古语声学特征序列的情况下，首先用 DNN 模型估算当前特征属于 HMM 状态的概率，然后用 HMM 模型描述蒙古语语音信号的动态变化，捕捉蒙古语语音信息的时序状态信息。DNN-HMM 蒙古语声学模型结构如图 1 所示。 L0 LL 在 DNN-HMM 蒙古语声学模型中，DNN 网络是通过不断地自下而上堆叠隐含层实现的。其中， S 表示 HMM 模型中的隐含状态，A 表示状态转移概率矩阵，L 表示 DNN 深度神经网络的层数 (隐含层为 L-1 层，层为输入层，层为输出层，DNN 网络共包含 L+1 层)，W 表示层之间的连接矩阵。DNNHMM 蒙古语声学模型在进行蒙古语语音识别过程建模前，需要对 DNN 神经网络进行训练。在完成 DNN 神经网络的训练后，对蒙古语声学模型的建模过程与 GMM-HMM 模型一致。 1.2 DNN 网络的训练蒙古语声学模型中的 DNN 网络的训练分为预训练和调优两个阶段。DNN 的预训练就是对深度神经网络的参数进行初始化。通常，DNN 深度神经网络的预训练方式分为生成式训练和判别式训练。逐层无监督预训练算法就是使用无监督学习方法对网络的每一层进行预训练，它属于生成式训练算法 [17]。在 DNN-HMM 蒙古语声学模型预训练中，采用了逐层无监督训练算法。 A A A A S S S S HMM DNN WL W2 W1 LL−1 L2 L1 L0 㧅ऐ䄙ผ႒➥ᒭऽ䛻图 1 DNN-HMM 蒙古语声学模型 Fig. 1 The Mongolian acoustic model based on DNNHMM. 第 3 期马志强，等：基于深度神经网络的蒙古语声学模型建模研究 ·487·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于深度神经网络的蒙古语声学模型建模研究