正在加载图片...
434 工程科学学报,第43卷,第3期 convergence speed.Apart from that,a transfer learning method suitable for a DL-T was also proposed.Finally,a DL-T was researched in speech recognition based on the Aishell-1 dataset for validating the abovementioned methods.The experimental results show that the relative CER of DL-T is reduced by 12.52%compared with RNN-T,and the final CER is 10.34%,which also demonstrates a low CER and better convergence speed of the DL-T. KEY WORDS deep learning;speech recognition;acoustic model;DL-T;transfer learning 语音识别是人机交互的一项关键技术,近年 高声学模型准确率 来,基于深度学习的语音识别技术取得了跨越式 值得指出的是:CTC是最早提出的端到端语 的发展-),其在语音搜索、个人数码助理及车载 音识别方法,由于其建模过程简便且训练模型容 娱乐系统]等领域得到了广泛应用.鉴于声学建 易,因此得到了广泛研究8-山,但CTC存在输出独 模是语音识别技术的关键,因此国内外学者对其 立性假设且无法与语言模型联合训练问题的为 开展了广泛研究4,主要可划分为4类:(1)隐马 解决上述问题,RNN-T通过引入解码网络,不仅 尔科夫模型(Hidden Markov model,HMM):(2)连 解决了CTC输出独立性假设问题且可联合语言模 接时序分类⑧-l(Connectionist temporal classifica- 型进行训练 tion,CTC);(3)序列到序列(Sequence to sequence, 综上所述,本文首先基于RNN-T模型探索不 S2S)模型2L,(4)循环神经网络转换器l3-1(Recur- 同编码、解码网络层数对其预测错误率影响;其 rent neural network-transducer,RNN-T). 次,在上述模型的基础上结合DenseNet与LSTM ()第1类基于HMM构建声学模型,用神经 网络提出了DL-T声学模型;然后,为进一步提高 网络描述声学特征的概率分布,有效弥补了高斯 其准确率,提出了适合DL-T的迁移学习方法;最 混合模型对于语音特征建模能力不足的缺点,从 后,基于Aishell--1l6数据集开展语音识别研究, 而提升声学模型准确率.其中,Peddinti等探索 其结果验证了DL-T兼具预测错误率低及收敛速 了神经网络-隐马尔可夫模型(Neural network- 度快的优点 hidden Markov model,NN-HMM)的声学模型; Povey等构建了因式分解的时延神经网络模型; 1声学模型 刑安昊等提出了深度神经网络(Deep neural 1.1循环神经网络转换器RNN-T network,DNN)裁剪方法,使得DNN性能损失降 RNN-T是由Graves等I]提出的一种语音识 低.(2)第2类方法基于CTC构建端到端声学模 别声学建模方法,该方法可分为编码网络(Encoder 型,无需时间维度上帧级别对齐标签,极大地简化 network)、解码网络(Decoder network)以及联合网络 了声学模型训练流程⑧-.Gravesl首次构建了神 (Joint network)三部分7,其模型结构如图1所示. 经网-连接时序分类(Neural network-CTC, P(,) NN-CTC)声学模型并验证了其对于声学建模的 有效性;Zhang等例探索了深度卷积神经网络-连 Softmax 接时序分类(DCNN-CTC)模型;Zhang等ioI构建 了多路卷积神经网络-连接时序分类声学模型,使 Linear 得音节错误率相对降低12.08%;Zhang等提出 Joint network 了连接时序分类-交叉嫡训练方法.(3)第3类方 Concat 法旨在将声学特征编码成高维向量,再解码成识 别结果.基于自注意力模型,Dong等2构建了端 Encoder Decoder network network 到端语音识别声学模型.(4)第4类方法则基于 LSTM RNN-T构建声学模型,该方法对CTC输出独立性 BLSTM 假设进行优化,并联合训练声学模型与语言模型 Embedding 进一步提升声学模型准确率侧.Graves等]首次 验证了RNN-T对于构建声学建模的可行性;Rao -1 等W提出了适用于RNN-T的预训练方法:Tian等 图1RNN-T声学模型结构图 构建了SA-T声学建模方法并结合正则化方法提 Fig.1 Acoustic model of RNN-Tconvergence speed. Apart from that, a transfer learning method suitable for a DL–T was also proposed. Finally, a DL–T was researched in speech recognition based on the Aishell–1 dataset for validating the abovementioned methods. The experimental results show that the relative CER of DL–T is reduced by 12.52% compared with RNN–T, and the final CER is 10.34%, which also demonstrates a low CER and better convergence speed of the DL–T. KEY WORDS    deep learning;speech recognition;acoustic model;DL–T;transfer learning 语音识别是人机交互的一项关键技术,近年 来,基于深度学习的语音识别技术取得了跨越式 的发展[1−2] ,其在语音搜索、个人数码助理及车载 娱乐系统[3] 等领域得到了广泛应用. 鉴于声学建 模是语音识别技术的关键,因此国内外学者对其 开展了广泛研究[4−15] ,主要可划分为 4 类:(1)隐马 尔科夫模型[4−7] (Hidden Markov model, HMM);(2)连 接 时 序 分 类 [8−11] ( Connectionist  temporal  classifica￾tion, CTC);(3)序列到序列(Sequence to sequence, S2S)模型[12] ;(4) 循环神经网络转换器[13−15] (Recur￾rent neural network–transducer, RNN–T). (1) 第 1 类基于 HMM 构建声学模型,用神经 网络描述声学特征的概率分布,有效弥补了高斯 混合模型对于语音特征建模能力不足的缺点,从 而提升声学模型准确率[4] . 其中,Peddinti 等[5] 探索 了神经网络-隐马尔可夫模型( Neural network– hidden Markov model, NN –HMM)的声学模型 ; Povey 等[6] 构建了因式分解的时延神经网络模型; 刑安昊等 [7] 提出了深度神经网络 ( Deep  neural network, DNN)裁剪方法,使得 DNN 性能损失降 低. (2)第 2 类方法基于 CTC 构建端到端声学模 型,无需时间维度上帧级别对齐标签,极大地简化 了声学模型训练流程[8−11] . Graves[8] 首次构建了神 经网络 – 连接时序分类 ( Neural  network –CTC, NN–CTC)声学模型并验证了其对于声学建模的 有效性;Zhang 等[9] 探索了深度卷积神经网络–连 接时序分类(DCNN–CTC)模型;Zhang 等[10] 构建 了多路卷积神经网络–连接时序分类声学模型,使 得音节错误率相对降低 12.08%;Zhang 等[11] 提出 了连接时序分类–交叉熵训练方法. (3)第 3 类方 法旨在将声学特征编码成高维向量,再解码成识 别结果. 基于自注意力模型,Dong 等[12] 构建了端 到端语音识别声学模型. (4)第 4 类方法则基于 RNN–T 构建声学模型,该方法对 CTC 输出独立性 假设进行优化,并联合训练声学模型与语言模型 进一步提升声学模型准确率[8] . Graves 等[13] 首次 验证了 RNN–T 对于构建声学建模的可行性;Rao 等[14] 提出了适用于 RNN–T 的预训练方法;Tian 等[15] 构建了 SA–T 声学建模方法并结合正则化方法提 高声学模型准确率. 值得指出的是:CTC 是最早提出的端到端语 音识别方法,由于其建模过程简便且训练模型容 易,因此得到了广泛研究[8−11] ,但 CTC 存在输出独 立性假设且无法与语言模型联合训练问题[15] . 为 解决上述问题,RNN–T 通过引入解码网络,不仅 解决了 CTC 输出独立性假设问题且可联合语言模 型进行训练. 综上所述,本文首先基于 RNN–T 模型探索不 同编码、解码网络层数对其预测错误率影响;其 次,在上述模型的基础上结合 DenseNet 与 LSTM 网络提出了 DL–T 声学模型;然后,为进一步提高 其准确率,提出了适合 DL–T 的迁移学习方法;最 后,基于 Aishell–1[16] 数据集开展语音识别研究, 其结果验证了 DL–T 兼具预测错误率低及收敛速 度快的优点. 1    声学模型 1.1    循环神经网络转换器 RNN–T RNN–T 是由 Graves 等[13] 提出的一种语音识 别声学建模方法,该方法可分为编码网络(Encoder network)、解码网络(Decoder network)以及联合网络 (Joint network)三部分[17] ,其模型结构如图 1 所示. P (k|t, u) Softmax Linear Concat Joint network Encoder network Decoder network gu wt, u f t xt yu−1 BLSTM LSTM Embedding 图 1    RNN–T 声学模型结构图 Fig.1    Acoustic model of RNN–T · 434 · 工程科学学报,第 43 卷,第 3 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有