第3期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·487· 征向量进行概率建模,然后通过EM算法生成语音 1.1DNN-HMM蒙古语声学模型 观察特征的最大化概率,当混合高斯分布数目足够 DNN-HMM蒙古语声学模型就是将深度神经 多时,GMM可以充分拟合声学特征的概率分布, 网络技术应用到蒙古语声学模型中,用DNN深度 HMM模型根据GMM拟合的观察状态生成语音的 神经网络代替GMM高斯混合模型,实现对蒙古语 时序状态2。当采用GMM混合高斯模型的概率 声学状态的后验概率估算。在给定蒙古语声学特征 来描述语音数据分布时,GMM模型本质上属于浅 序列的情况下,首先用DNN模型估算当前特征属 层模型,并在拟合声学特征分布时对特征之间进行 于HMM状态的概率,然后用HMM模型描述蒙古 了独立性的假设,因此无法充分描述声学特征的状 语语音信号的动态变化,捕捉蒙古语语音信息的时 态空间分布;同时,GMM建模的特征维数一般是几 序状态信息。DNN-HMM蒙古语声学模型结构如 十维,不能充分描述声学特征之间的相关性,模型 图1所示。 表达能力有限。因此,在20世纪80年代利用神经 网络和HMM模型构建声学模型的研究开始出现, 但是,当时计算机计算能力不足且缺乏足够的训练 HMM 数据,模型的效果不及GMM-HMM。2010年微 DNN 软亚洲研究院的邓力与Hinton小组针对大规模连 续语音识别任务提出了CD-DBN-HMM的混合声学 模型框架,并进行了相关实验。实验结果表明,相 比GMM-HMM声学模型,采用CD-DBN-HMM声 学模型使语音识别系统识别正确率提高了30%左 右,CD-DBN-HMM混合声学模型框架的提出彻底 革新了语音识别原有的声学模型框架。与传统的高 斯混合模型相比,深度神经网络属于深度模型,能 够更好地表示复杂非线性函数,更能捕捉语音特征 蒙古语声学特征向量 向量之间的相关性,易于取得更好的建模效果1。 蒙古语语音识别研究主要借鉴了英语、汉语以及其 图1DNN-HMM蒙古语声学模型 他少数民族语言,在语音识别研究上取得了成果, Fig.1 The Mongolian acoustic model based on DNN- 因此蒙古语声学模型建模过程主要以GMM-HMM HMM. 模型为基础开展研究,也取得了一定的研究成果6。 在DNN-HMM蒙古语声学模型中,DNN网络 在特征学习方面DNN模型比GMM模型具有更大 是通过不断地自下而上堆叠隐含层实现的。其中, 的优势,所以本文用DNN模型代替了GMM模型 S表示HMM模型中的隐含状态,A表示状态转移 来完成蒙古语声学模型建模任务。 概率矩阵,L表示DNN深度神经网络的层数(隐含 层为L-I层,L层为输入层,L,层为输出层,DNN网 1蒙古语声学模型研究 络共包含L+1层),W表示层之间的连接矩阵。DNN- HMM蒙古语声学模型在进行蒙古语语音识别过程 在语音识别领域内,DNN主要以两种形式被应 建模前,需要对DNN神经网络进行训练。在完成 用:直接作为声学特征的提取模型,但是这种应用 DNN神经网络的训练后,对蒙古语声学模型的建模 方式仍需要借助GMM-HMM模型才能完成;将 过程与GMM-HMM模型一致。 DNN与HMM隐马尔科夫模型进行结合,构成混合 1.2DNN网络的训练 模型结构,利用深度神经网络代替GMM高斯混合 蒙古语声学模型中的DNN网络的训练分为预 模型进行声学状态输出概率的计算81。与高斯混 训练和调优两个阶段。DNN的预训练就是对深度 合模型相比,深度神经网络有着更强的学习能力和 神经网络的参数进行初始化。通常,DNN深度神经 建模能力,能够更好地捕捉声学特征的内在关系, 网络的预训练方式分为生成式训练和判别式训练。 有助于声学模型性能的提升,所以本文通过使用深 逐层无监督预训练算法就是使用无监督学习方法 度神经网络模型对蒙古语声学特征逐层提取,将分 对网络的每一层进行预训练,它属于生成式训练算 类与语音特征内在结构的学习进行了紧密结合,有 法7。在DNN-HMM蒙古语声学模型预训练中,采 利于蒙古语语音识别系统正确率的提升。 用了逐层无监督训练算法。征向量进行概率建模,然后通过 EM 算法生成语音 观察特征的最大化概率,当混合高斯分布数目足够 多时,GMM 可以充分拟合声学特征的概率分布, HMM 模型根据 GMM 拟合的观察状态生成语音的 时序状态[2-3]。当采用 GMM 混合高斯模型的概率 来描述语音数据分布时,GMM 模型本质上属于浅 层模型,并在拟合声学特征分布时对特征之间进行 了独立性的假设,因此无法充分描述声学特征的状 态空间分布;同时,GMM 建模的特征维数一般是几 十维,不能充分描述声学特征之间的相关性,模型 表达能力有限。因此,在 20 世纪 80 年代利用神经 网络和 HMM 模型构建声学模型的研究开始出现, 但是,当时计算机计算能力不足且缺乏足够的训练 数据,模型的效果不及 GMM-HMM[4-5]。2010 年微 软亚洲研究院的邓力与 Hinton 小组针对大规模连 续语音识别任务提出了 CD-DBN-HMM的混合声学 模型框架[6] ,并进行了相关实验。实验结果表明,相 比 GMM-HMM 声学模型,采用 CD-DBN-HMM 声 学模型使语音识别系统识别正确率提高了 30% 左 右,CD-DBN-HMM 混合声学模型框架的提出彻底 革新了语音识别原有的声学模型框架。与传统的高 斯混合模型相比,深度神经网络属于深度模型,能 够更好地表示复杂非线性函数,更能捕捉语音特征 向量之间的相关性,易于取得更好的建模效果[7-12]。 蒙古语语音识别研究主要借鉴了英语、汉语以及其 他少数民族语言,在语音识别研究上取得了成果, 因此蒙古语声学模型建模过程主要以 GMM-HMM 模型为基础开展研究,也取得了一定的研究成果[13-16]。 在特征学习方面 DNN 模型比 GMM 模型具有更大 的优势,所以本文用 DNN 模型代替了 GMM 模型 来完成蒙古语声学模型建模任务。 1 蒙古语声学模型研究 在语音识别领域内,DNN 主要以两种形式被应 用:直接作为声学特征的提取模型,但是这种应用 方式仍需要借助 GMM-HMM 模型才能完成;将 DNN 与 HMM 隐马尔科夫模型进行结合,构成混合 模型结构,利用深度神经网络代替 GMM 高斯混合 模型进行声学状态输出概率的计算[7-8]。与高斯混 合模型相比,深度神经网络有着更强的学习能力和 建模能力,能够更好地捕捉声学特征的内在关系, 有助于声学模型性能的提升,所以本文通过使用深 度神经网络模型对蒙古语声学特征逐层提取,将分 类与语音特征内在结构的学习进行了紧密结合,有 利于蒙古语语音识别系统正确率的提升。 1.1 DNN-HMM 蒙古语声学模型 DNN-HMM 蒙古语声学模型就是将深度神经 网络技术应用到蒙古语声学模型中,用 DNN 深度 神经网络代替 GMM 高斯混合模型,实现对蒙古语 声学状态的后验概率估算。在给定蒙古语声学特征 序列的情况下,首先用 DNN 模型估算当前特征属 于 HMM 状态的概率,然后用 HMM 模型描述蒙古 语语音信号的动态变化,捕捉蒙古语语音信息的时 序状态信息。DNN-HMM 蒙古语声学模型结构如 图 1 所示。 L0 LL 在 DNN-HMM 蒙古语声学模型中,DNN 网络 是通过不断地自下而上堆叠隐含层实现的。其中, S 表示 HMM 模型中的隐含状态,A 表示状态转移 概率矩阵,L 表示 DNN 深度神经网络的层数 (隐含 层为 L-1 层, 层为输入层, 层为输出层,DNN 网 络共包含 L+1 层),W 表示层之间的连接矩阵。DNNHMM 蒙古语声学模型在进行蒙古语语音识别过程 建模前,需要对 DNN 神经网络进行训练。在完成 DNN 神经网络的训练后,对蒙古语声学模型的建模 过程与 GMM-HMM 模型一致。 1.2 DNN 网络的训练 蒙古语声学模型中的 DNN 网络的训练分为预 训练和调优两个阶段。DNN 的预训练就是对深度 神经网络的参数进行初始化。通常,DNN 深度神经 网络的预训练方式分为生成式训练和判别式训练。 逐层无监督预训练算法就是使用无监督学习方法 对网络的每一层进行预训练,它属于生成式训练算 法 [17]。在 DNN-HMM 蒙古语声学模型预训练中,采 用了逐层无监督训练算法。 A A A A S S S S HMM DNN WL W2 W1 LL−1 L2 L1 L0 㧅ऐ䄙ผ႒➥ᒭऽ䛻 图 1 DNN-HMM 蒙古语声学模型 Fig. 1 The Mongolian acoustic model based on DNNHMM. 第 3 期 马志强,等:基于深度神经网络的蒙古语声学模型建模研究 ·487·