工程科学学报 Chinese Journal of Engineering 基于DL-T及迁移学习的语音识别研究 张成刘晨贵鸿博李巍俞经虎曹毅 Research on automatic speech recognition based on a DL-T and transfer learning ZHANG Wei,LIU Chen,FEI Hong-bo,LI Wei.YU Jing-hu.CAO Yi 引用本文: 张威,刘晨,费鸿博.李巍,俞经虎.曹毅.基于DL-T及迁移学习的语音识别研究.工程科学学报,2021,433:433-441.doi: 10.13374j.issn2095-9389.2020.01.12.001 ZHANG Wei,LIU Chen,FEI Hong-bo,LI Wei,YU Jing-hu,CAO Yi.Research on automatic speech recognition based on a DLT and transfer learning[J].Chinese Journal of Engineering,2021,43(3):433-441.doi:10.13374/j.issn2095-9389.2020.01.12.001 在线阅读View online::https://doi..org10.13374/.issn2095-9389.2020.01.12.001 您可能感兴趣的其他文章 Articles you may be interested in 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报.2020.42(11):1525htps:1doi.org10.13374.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报.2019,41(6:817 https:oi.org10.13374j.issn2095-93892019.06.014 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报.2020,42(5):557htps:/1doi.org10.13374.issn2095-9389.2019.03.21.003 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报.2019,41(10:1229 https:/oi.org/10.13374.issn2095-9389.2019.03.27.002 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报.2020,42(4:399 https::/1doi.org/10.13374.issn2095-9389.2019.06.16.030 复杂环境下一种基于Siam Mask的时空预测移动目标跟踪算法 Design and implementation of multi-feature fusion moving target detection algorithms in a complex environment based on SiamMask 工程科学学报.2020.42(3:381htps:/doi.org10.13374issn2095-9389.2019.06.06.005
基于DL-T及迁移学习的语音识别研究 张威 刘晨 费鸿博 李巍 俞经虎 曹毅 Research on automatic speech recognition based on a DL–T and transfer learning ZHANG Wei, LIU Chen, FEI Hong-bo, LI Wei, YU Jing-hu, CAO Yi 引用本文: 张威, 刘晨, 费鸿博, 李巍, 俞经虎, 曹毅. 基于DL-T及迁移学习的语音识别研究[J]. 工程科学学报, 2021, 43(3): 433-441. doi: 10.13374/j.issn2095-9389.2020.01.12.001 ZHANG Wei, LIU Chen, FEI Hong-bo, LI Wei, YU Jing-hu, CAO Yi. Research on automatic speech recognition based on a DLT and transfer learning[J]. Chinese Journal of Engineering, 2021, 43(3): 433-441. doi: 10.13374/j.issn2095-9389.2020.01.12.001 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.01.12.001 您可能感兴趣的其他文章 Articles you may be interested in 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报. 2020, 42(11): 1525 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报. 2019, 41(6): 817 https://doi.org/10.13374/j.issn2095-9389.2019.06.014 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报. 2020, 42(5): 557 https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报. 2019, 41(10): 1229 https://doi.org/10.13374/j.issn2095-9389.2019.03.27.002 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报. 2020, 42(4): 399 https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030 复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 Design and implementation of multi-feature fusion moving target detection algorithms in a complex environment based on SiamMask 工程科学学报. 2020, 42(3): 381 https://doi.org/10.13374/j.issn2095-9389.2019.06.06.005
工程科学学报.第43卷,第3期:433-441.2021年3月 Chinese Journal of Engineering,Vol.43,No.3:433-441,March 2021 https://doi.org/10.13374/j.issn2095-9389.2020.01.12.001;http://cje.ustb.edu.cn 基于DL-T及迁移学习的语音识别研究 张 威12,刘晨2,费鸿博2,李巍),俞经虎2),曹毅12)区 1)江南大学机械工程学院.无锡2141222)江苏省食品先进制造装备技术重点实验室,无锡2141223)苏州工业职业技术学院,苏州 215104 ☒通信作者,E-mail:caoyi@jiangnan.edu.cn 摘要为解决RNN-T语音识别时预测错误率高、收敛速度慢的问题,本文提出了一种基于DL-T的声学建模方法.首先 介绍了RNN-T声学模型;其次结合DenseNet与LSTM网络提出了一种新的声学建模方法一DL-T,该方法可提取原始语 音的高维信息从而加强特征信息重用、减轻梯度问题便于深层信息传递,使其兼具预测错误率低及收敛速度快的优点:然 后,为进一步提高声学模型的准确率,提出了一种适合DL-T的迁移学习方法;最后为验证上述方法,采用DL-T声学模型, 基于Aishell--1数据集开展了语音识别研究.研究结果表明:DL-T相较于RNN-T预测错误率相对降低了12.52%,模型最终 错误率可达10.34%.因此,DL-T可显著改善RNN-T的预测错误率和收敛速度 关键词深度学习:语音识别:声学模型:DL-T;迁移学习 分类号TN912.3 Research on automatic speech recognition based on a DL-T and transfer learning ZHANG Wei2),LIU Chen2.FEI Hong-bo2,LI We,YU Jing-hu2),CAO Yi2 1)School of Mechanical Engineering.Jiangnan University,Wuxi214122,China 2)Jiangsu Key Laboratory of Advanced Food Manufacturing Equipment and Technology,Wuxi 214122,China 3)Suzhou Institute of Industrial Technology,Suzhou 215104,China Corresponding author,E-mail:caoyi@jiangnan.edu.cn ABSTRACT Speech has been a natural and effective way of communication,widely used in the field of information-communication and human-machine interaction.In recent years,various algorithms have been used for achieving efficient communication.The main purpose of automatic speech recognition (ASR),one of the key technologies in this field,is to convert the analog signals of input speech into corresponding text digital signals.Further,ASR can be divided into two categories:one based on hidden Markov model (HMM)and the other based on end to end (E2E)models.Compared with the former,E2E models have a simple modeling process and an easy training model and thus,research is carried out in the direction of developing E2E models for effectively using in ASR.However,HMM- based speech recognition technologies have some disadvantages in terms of prediction error rate,generalization ability,and convergence speed.Therefore,recurrent neural network-transducer(RNN-T),a typical E2E acoustic model that can model the dependencies between the outputs and can be optimized jointly with a Language Model (LM),was proposed in this study.Further,a new acoustic model of DL-T based on DenseNet (dense convolutional network)-LSTM(long short-term memory)-Transducer,was proposed to solve the problems of a high prediction error rate and slow convergence speed in a RNN-T.First,a RNN-T was briefly introduced.Then, combining the merits of both DenseNet and LSTM,a novel acoustic model of DL-T,was proposed in this study.A DL-T can extract high-dimensional speech features and alleviate gradient problems and it has the advantages of low character error rate(CER)and fast 收稿日期:2020-01-12 基金项目:国家自然科学基金资助项目(51375209):江苏省“六大人才高蜂”计划资助项目(ZBZZ-012):江苏省研究生创新计划资助项目 (KYCX180630,KYCX181846):高等学校学科创新引智计划资助项目(B18027)
基于 DL-T 及迁移学习的语音识别研究 张 威1,2),刘 晨1,2),费鸿博1,2),李 巍3),俞经虎1,2),曹 毅1,2) 苣 1) 江南大学机械工程学院,无锡 214122 2) 江苏省食品先进制造装备技术重点实验室,无锡 214122 3) 苏州工业职业技术学院,苏州 215104 苣通信作者,E-mail:caoyi@jiangnan.edu.cn 摘 要 为解决 RNN–T 语音识别时预测错误率高、收敛速度慢的问题,本文提出了一种基于 DL–T 的声学建模方法. 首先 介绍了 RNN–T 声学模型;其次结合 DenseNet 与 LSTM 网络提出了一种新的声学建模方法——DL–T,该方法可提取原始语 音的高维信息从而加强特征信息重用、减轻梯度问题便于深层信息传递,使其兼具预测错误率低及收敛速度快的优点;然 后,为进一步提高声学模型的准确率,提出了一种适合 DL–T 的迁移学习方法;最后为验证上述方法,采用 DL–T 声学模型, 基于 Aishell–1 数据集开展了语音识别研究. 研究结果表明:DL–T 相较于 RNN–T 预测错误率相对降低了 12.52%,模型最终 错误率可达 10.34%. 因此,DL–T 可显著改善 RNN–T 的预测错误率和收敛速度. 关键词 深度学习;语音识别;声学模型;DL–T;迁移学习 分类号 TN912.3 Research on automatic speech recognition based on a DL–T and transfer learning ZHANG Wei1,2) ,LIU Chen1,2) ,FEI Hong-bo1,2) ,LI Wei3) ,YU Jing-hu1,2) ,CAO Yi1,2) 苣 1) School of Mechanical Engineering, Jiangnan University, Wuxi 214122, China 2) Jiangsu Key Laboratory of Advanced Food Manufacturing Equipment and Technology, Wuxi 214122, China 3) Suzhou Institute of Industrial Technology, Suzhou 215104, China 苣 Corresponding author, E-mail: caoyi@jiangnan.edu.cn ABSTRACT Speech has been a natural and effective way of communication, widely used in the field of information-communication and human–machine interaction. In recent years, various algorithms have been used for achieving efficient communication. The main purpose of automatic speech recognition (ASR), one of the key technologies in this field, is to convert the analog signals of input speech into corresponding text digital signals. Further, ASR can be divided into two categories: one based on hidden Markov model (HMM) and the other based on end to end (E2E) models. Compared with the former, E2E models have a simple modeling process and an easy training model and thus, research is carried out in the direction of developing E2E models for effectively using in ASR. However, HMMbased speech recognition technologies have some disadvantages in terms of prediction error rate, generalization ability, and convergence speed. Therefore, recurrent neural network–transducer (RNN–T), a typical E2E acoustic model that can model the dependencies between the outputs and can be optimized jointly with a Language Model (LM), was proposed in this study. Further, a new acoustic model of DL –T based on DenseNet (dense convolutional network) –LSTM (long short-term memory) –Transducer, was proposed to solve the problems of a high prediction error rate and slow convergence speed in a RNN –T. First, a RNN –T was briefly introduced. Then, combining the merits of both DenseNet and LSTM, a novel acoustic model of DL–T, was proposed in this study. A DL–T can extract high-dimensional speech features and alleviate gradient problems and it has the advantages of low character error rate (CER) and fast 收稿日期: 2020−01−12 基金项目: 国家自然科学基金资助项目(51375209);江苏省“六大人才高峰”计划资助项目(ZBZZ–012);江苏省研究生创新计划资助项目 (KYCX18_0630, KYCX18_1846);高等学校学科创新引智计划资助项目(B18027) 工程科学学报,第 43 卷,第 3 期:433−441,2021 年 3 月 Chinese Journal of Engineering, Vol. 43, No. 3: 433−441, March 2021 https://doi.org/10.13374/j.issn2095-9389.2020.01.12.001; http://cje.ustb.edu.cn
434 工程科学学报,第43卷,第3期 convergence speed.Apart from that,a transfer learning method suitable for a DL-T was also proposed.Finally,a DL-T was researched in speech recognition based on the Aishell-1 dataset for validating the abovementioned methods.The experimental results show that the relative CER of DL-T is reduced by 12.52%compared with RNN-T,and the final CER is 10.34%,which also demonstrates a low CER and better convergence speed of the DL-T. KEY WORDS deep learning;speech recognition;acoustic model;DL-T;transfer learning 语音识别是人机交互的一项关键技术,近年 高声学模型准确率 来,基于深度学习的语音识别技术取得了跨越式 值得指出的是:CTC是最早提出的端到端语 的发展-),其在语音搜索、个人数码助理及车载 音识别方法,由于其建模过程简便且训练模型容 娱乐系统]等领域得到了广泛应用.鉴于声学建 易,因此得到了广泛研究8-山,但CTC存在输出独 模是语音识别技术的关键,因此国内外学者对其 立性假设且无法与语言模型联合训练问题的为 开展了广泛研究4,主要可划分为4类:(1)隐马 解决上述问题,RNN-T通过引入解码网络,不仅 尔科夫模型(Hidden Markov model,HMM):(2)连 解决了CTC输出独立性假设问题且可联合语言模 接时序分类⑧-l(Connectionist temporal classifica- 型进行训练 tion,CTC);(3)序列到序列(Sequence to sequence, 综上所述,本文首先基于RNN-T模型探索不 S2S)模型2L,(4)循环神经网络转换器l3-1(Recur- 同编码、解码网络层数对其预测错误率影响;其 rent neural network-transducer,RNN-T). 次,在上述模型的基础上结合DenseNet与LSTM ()第1类基于HMM构建声学模型,用神经 网络提出了DL-T声学模型;然后,为进一步提高 网络描述声学特征的概率分布,有效弥补了高斯 其准确率,提出了适合DL-T的迁移学习方法;最 混合模型对于语音特征建模能力不足的缺点,从 后,基于Aishell--1l6数据集开展语音识别研究, 而提升声学模型准确率.其中,Peddinti等探索 其结果验证了DL-T兼具预测错误率低及收敛速 了神经网络-隐马尔可夫模型(Neural network- 度快的优点 hidden Markov model,NN-HMM)的声学模型; Povey等构建了因式分解的时延神经网络模型; 1声学模型 刑安昊等提出了深度神经网络(Deep neural 1.1循环神经网络转换器RNN-T network,DNN)裁剪方法,使得DNN性能损失降 RNN-T是由Graves等I]提出的一种语音识 低.(2)第2类方法基于CTC构建端到端声学模 别声学建模方法,该方法可分为编码网络(Encoder 型,无需时间维度上帧级别对齐标签,极大地简化 network)、解码网络(Decoder network)以及联合网络 了声学模型训练流程⑧-.Gravesl首次构建了神 (Joint network)三部分7,其模型结构如图1所示. 经网-连接时序分类(Neural network-CTC, P(,) NN-CTC)声学模型并验证了其对于声学建模的 有效性;Zhang等例探索了深度卷积神经网络-连 Softmax 接时序分类(DCNN-CTC)模型;Zhang等ioI构建 了多路卷积神经网络-连接时序分类声学模型,使 Linear 得音节错误率相对降低12.08%;Zhang等提出 Joint network 了连接时序分类-交叉嫡训练方法.(3)第3类方 Concat 法旨在将声学特征编码成高维向量,再解码成识 别结果.基于自注意力模型,Dong等2构建了端 Encoder Decoder network network 到端语音识别声学模型.(4)第4类方法则基于 LSTM RNN-T构建声学模型,该方法对CTC输出独立性 BLSTM 假设进行优化,并联合训练声学模型与语言模型 Embedding 进一步提升声学模型准确率侧.Graves等]首次 验证了RNN-T对于构建声学建模的可行性;Rao -1 等W提出了适用于RNN-T的预训练方法:Tian等 图1RNN-T声学模型结构图 构建了SA-T声学建模方法并结合正则化方法提 Fig.1 Acoustic model of RNN-T
convergence speed. Apart from that, a transfer learning method suitable for a DL–T was also proposed. Finally, a DL–T was researched in speech recognition based on the Aishell–1 dataset for validating the abovementioned methods. The experimental results show that the relative CER of DL–T is reduced by 12.52% compared with RNN–T, and the final CER is 10.34%, which also demonstrates a low CER and better convergence speed of the DL–T. KEY WORDS deep learning;speech recognition;acoustic model;DL–T;transfer learning 语音识别是人机交互的一项关键技术,近年 来,基于深度学习的语音识别技术取得了跨越式 的发展[1−2] ,其在语音搜索、个人数码助理及车载 娱乐系统[3] 等领域得到了广泛应用. 鉴于声学建 模是语音识别技术的关键,因此国内外学者对其 开展了广泛研究[4−15] ,主要可划分为 4 类:(1)隐马 尔科夫模型[4−7] (Hidden Markov model, HMM);(2)连 接 时 序 分 类 [8−11] ( Connectionist temporal classification, CTC);(3)序列到序列(Sequence to sequence, S2S)模型[12] ;(4) 循环神经网络转换器[13−15] (Recurrent neural network–transducer, RNN–T). (1) 第 1 类基于 HMM 构建声学模型,用神经 网络描述声学特征的概率分布,有效弥补了高斯 混合模型对于语音特征建模能力不足的缺点,从 而提升声学模型准确率[4] . 其中,Peddinti 等[5] 探索 了神经网络-隐马尔可夫模型( Neural network– hidden Markov model, NN –HMM)的声学模型 ; Povey 等[6] 构建了因式分解的时延神经网络模型; 刑安昊等 [7] 提出了深度神经网络 ( Deep neural network, DNN)裁剪方法,使得 DNN 性能损失降 低. (2)第 2 类方法基于 CTC 构建端到端声学模 型,无需时间维度上帧级别对齐标签,极大地简化 了声学模型训练流程[8−11] . Graves[8] 首次构建了神 经网络 – 连接时序分类 ( Neural network –CTC, NN–CTC)声学模型并验证了其对于声学建模的 有效性;Zhang 等[9] 探索了深度卷积神经网络–连 接时序分类(DCNN–CTC)模型;Zhang 等[10] 构建 了多路卷积神经网络–连接时序分类声学模型,使 得音节错误率相对降低 12.08%;Zhang 等[11] 提出 了连接时序分类–交叉熵训练方法. (3)第 3 类方 法旨在将声学特征编码成高维向量,再解码成识 别结果. 基于自注意力模型,Dong 等[12] 构建了端 到端语音识别声学模型. (4)第 4 类方法则基于 RNN–T 构建声学模型,该方法对 CTC 输出独立性 假设进行优化,并联合训练声学模型与语言模型 进一步提升声学模型准确率[8] . Graves 等[13] 首次 验证了 RNN–T 对于构建声学建模的可行性;Rao 等[14] 提出了适用于 RNN–T 的预训练方法;Tian 等[15] 构建了 SA–T 声学建模方法并结合正则化方法提 高声学模型准确率. 值得指出的是:CTC 是最早提出的端到端语 音识别方法,由于其建模过程简便且训练模型容 易,因此得到了广泛研究[8−11] ,但 CTC 存在输出独 立性假设且无法与语言模型联合训练问题[15] . 为 解决上述问题,RNN–T 通过引入解码网络,不仅 解决了 CTC 输出独立性假设问题且可联合语言模 型进行训练. 综上所述,本文首先基于 RNN–T 模型探索不 同编码、解码网络层数对其预测错误率影响;其 次,在上述模型的基础上结合 DenseNet 与 LSTM 网络提出了 DL–T 声学模型;然后,为进一步提高 其准确率,提出了适合 DL–T 的迁移学习方法;最 后,基于 Aishell–1[16] 数据集开展语音识别研究, 其结果验证了 DL–T 兼具预测错误率低及收敛速 度快的优点. 1 声学模型 1.1 循环神经网络转换器 RNN–T RNN–T 是由 Graves 等[13] 提出的一种语音识 别声学建模方法,该方法可分为编码网络(Encoder network)、解码网络(Decoder network)以及联合网络 (Joint network)三部分[17] ,其模型结构如图 1 所示. P (k|t, u) Softmax Linear Concat Joint network Encoder network Decoder network gu wt, u f t xt yu−1 BLSTM LSTM Embedding 图 1 RNN–T 声学模型结构图 Fig.1 Acoustic model of RNN–T · 434 · 工程科学学报,第 43 卷,第 3 期
张威等:基于DL-T及迁移学习的语音识别研究 435 设给定序列X=(x1,x2,,x,,x)表示输人 式(9)~(10)中,fg分别表示编码向量与解码向 T1≤≤T)帧声学特征序列,对应标签序列=01, 量,并将上述二者组合成联合向量"进而通过 y2,,ymu),其中U(1≤u≤U表示标签长度.如 Softmax函数计算其后验概率.式(Il)表示 图1所示,编码网络将输入声学特征映射为声学 RNN-T损失函数,其值可通过前向-后向算法计 特征向量f。编码结果如下式所示: 算.其中,y表示给定序列的标签,由于式(10)结 f;=fEnc(x (1) 果均可微.因此,可通过随时间反向传播(Back- 其中,fc()表示深度神经网络构建的函数,该 propagation through time,BPTT)算法l进行参数 文编码层均采用BLSTM网络,其具体计算如式 训练 (2)~(7)所示: 1.2密集连接网络转换器DL-T in=(Wixx:+Wibht-1 Wiss:-1+bi) (2) DenseNet是由Huang等ug提出的一种深度学 z=(Wzrxt Wzhh-1 Wzss-1+bz) (3) 习算法,其采用密集连接方式加强特征的信息重 用,从而提升网络的性能,其模型结构如图2所 st=ziS1-1+ir (Wsxxt +Wshht-1+bs) (4) 示.曹毅等2ol结合DenseNet和N阶马尔可夫模型 o=(Woxx:Wohh:-1 Wosst-1+bo) (5) 提出了N阶DenseNet,,该模型在避免梯度消失的 hr=ou中(sr) (6) 前提下有针对性地减少了特征图层之间的连接, f=hrihr (7) 极大地减少了特征冗余,使得模型的收敛速度更 快.式(I2)可用于表示DenseNet计算结果: 式(2)~(7)中,n、s、0h,和f分别代表1时刻 x1=H([x0,x1,",x1-1]) (12) 输入门、遗忘门、中间状态、输出门、隐藏值向量 和输出向量;Wx、W、Ws分别表示输入到输入 Input 门、输入门到隐藏值向量权值以及输入门到中间 状态的权值;Wx、Wh、Ws分别表示输入到遗忘 门、遗忘门到隐藏值向量权值以及遗忘门到中间 状态的权值;Wx、Woh、Ws分别表示输入到输出 门、输出门到隐藏值向量权值以及输出门到中间 状态的权值;Wx、W如分别表示中间状态到输入门 BN+Relu 与隐藏值向量的权值:b、b、bs、b。分别代表输入 门、遗忘门、中间状态和输出门偏置矩阵;) )分别表示sigmoid及Tanh激活函数:hr;h,表 BN+Relu 示拼接前向隐藏向量h,与后向隐藏向量,得到编 码网络结果f 如图I所示,RNN-T引入解码网络对CTC输 BN+Relu 出独立性假设进行优化,该网络对上一时刻非空 预测结果进行再编码,其结果如式(8)所示: gu=fDec (y-i) (8) 同理,fD()表示深度神经网络构建的函数, BN+Relu 且该文解码层均采用LSTM网络,具体计算与式 图2 DenseNet模型结构图 (2)~(6)一致,解码网络最终结果gu与h,相等. Fig.2 Model structure of DenseNet 联合网络将编码网络与解码网络组合(图1), 得到组合序列,再通过Softmax函数得到下一时刻 其中,1表示当前层数,[xo,x1,,-]表示拼接前 概率分布,其计算如式(9)~(10)所示: -1层的特征图,H表示拼接前-1层特征图,x表 wiu=floint(fr gu) 示第1层特征图 (9) 受上述算法启发,首先使用DenseNet提取原 p(klt,u)=Softmax (wiu) (10) 始特征的高维信息,其不仅提升特征的信息重用四, LRNN-T=-In P(y'X) (11) 而且可以减轻梯度问题2:然后利用LSTM网络
,··· ,··· ,··· ,··· 设给定序 列 X=(x1 , x2 , xt , xT ) 表示输 入 T(1≤t≤T) 帧声学特征序列,对应标签序列 y=(y1 , y2 , yu ,yU),其中 U(1≤u≤U) 表示标签长度. 如 图 1 所示,编码网络将输入声学特征映射为声学 特征向量 ft,编码结果如下式所示: ft = f Enc (xt) (1) 其中, f Enc(·) 表示深度神经网络构建的函数,该 文编码层均采用 BLSTM 网络,其具体计算如式 (2)~(7)所示: it = σ(Wixxt +Wihht−1 +Wisst−1 + bi) (2) zt = σ(Wzxxt +Wzhht−1 +Wzsst−1 + bz) (3) st = ztst−1 + itϕ(Wsxxt +Wshht−1 + bs) (4) ot = σ(Woxxt +Wohht−1 +Wosst−1 + bo) (5) ht = otϕ(st) (6) ft = [→ ht ; ← ht ] (7) [→ ht ; ← ht ] → ht ← ht 式(2)~(7)中,i t、zt、st、ot、ht 和 ft 分别代表 t 时刻 输入门、遗忘门、中间状态、输出门、隐藏值向量 和输出向量;Wix、Wih、Wis 分别表示输入到输入 门、输入门到隐藏值向量权值以及输入门到中间 状态的权值;Wzx、Wzh、Wzs 分别表示输入到遗忘 门、遗忘门到隐藏值向量权值以及遗忘门到中间 状态的权值;Wox、Woh、Wos 分别表示输入到输出 门、输出门到隐藏值向量权值以及输出门到中间 状态的权值;Wsx、Wsh 分别表示中间状态到输入门 与隐藏值向量的权值;bi、bz、bs、bo 分别代表输入 门、遗忘门、中间状态和输出门偏置矩阵; σ(·)、 ϕ(·) 分别表示 sigmoid 及 Tanh 激活函数; 表 示拼接前向隐藏向量 与后向隐藏向量 得到编 码网络结果 ft . 如图 1 所示,RNN–T 引入解码网络对 CTC 输 出独立性假设进行优化,该网络对上一时刻非空 预测结果进行再编码,其结果如式 (8) 所示: gu = f Dec (yu−1) (8) 同理,f Dec(·) 表示深度神经网络构建的函数, 且该文解码层均采用 LSTM 网络,具体计算与式 (2)~(6)一致,解码网络最终结果 gu 与 ht 相等. 联合网络将编码网络与解码网络组合(图 1), 得到组合序列,再通过 Softmax 函数得到下一时刻 概率分布,其计算如式(9)~(10)所示: wt,u = f Joint(ft , gu) (9) p(k|t,u) = Softmax( wt,u ) (10) LRNN−T = −lnP ( y ∗ |X ) (11) 式(9)~(10)中,ft、gu 分别表示编码向量与解码向 量,并将上述二者组合成联合向量 wt,u,进而通过 Softmax 函 数 计 算 其 后 验 概 率 . 式 ( 11) 表 示 RNN–T 损失函数,其值可通过前向–后向算法计 算. 其中,y *表示给定序列的标签,由于式(10)结 果均可微. 因此,可通过随时间反向传播(Backpropagation through time, BPTT)算法 [18] 进行参数 训练. 1.2 密集连接网络转换器 DL–T DenseNet 是由 Huang 等[19] 提出的一种深度学 习算法,其采用密集连接方式加强特征的信息重 用,从而提升网络的性能,其模型结构如图 2 所 示. 曹毅等[20] 结合 DenseNet 和 N 阶马尔可夫模型 提出了 N 阶 DenseNet,该模型在避免梯度消失的 前提下有针对性地减少了特征图层之间的连接, 极大地减少了特征冗余,使得模型的收敛速度更 快. 式(12)可用于表示 DenseNet 计算结果: xl = Hl([x0, x1,· · ·, xl−1]) (12) Input BN+Relu BN+Relu BN+Relu BN+Relu BN+Relu x0 x1 x2 x3 x4 图 2 DenseNet 模型结构图 Fig.2 Model structure of DenseNet 其中,l 表示当前层数,[x ,··· 0 , x1 , xl−1] 表示拼接前 l–1 层的特征图,Hl 表示拼接前 l−1 层特征图,xl 表 示第 l 层特征图. 受上述算法启发,首先使用 DenseNet 提取原 始特征的高维信息,其不仅提升特征的信息重用[21] , 而且可以减轻梯度问题[22] ;然后利用 LSTM 网络 张 威等: 基于 DL-T 及迁移学习的语音识别研究 · 435 ·
436 工程科学学报,第43卷,第3期 序列建模时的优势,对提取的高维信息进行序列 化算法中的研究热点,其旨在基于源域在解决任 建模;最终构建DL-T声学模型,其具体编码网络 务中获得知识进而改善目标任务的算法.近年来, 模型结构如图3所示. 国内外已有不少学者在此领域进行深入研究52-2刈 Tian等将预训练模型作为RNN-T的初始模 型,在此基础上进行再训练,使得RNN-T训练难 BLSTM 度降低;易江燕等1用迁移学习方法对带噪语音 进行声学建模,该方法利用老师模型指导学生模 DenseNe 型进行训练,提高带噪语音的鲁棒性;Xue等2基 于多任务学习理论,对声学模型进行再训练,从而 图3DL-T编码网络结构图 降低模型的错误率 Fig.3 Encoder network structure of a DL-T 有鉴于此,为进一步提高声学模型准确率,本 2基于迁移学习的声学模型 文拟用迁移学习方法对声学模型进行优化.该方 法在初始模型的基础上融合优化算法重训练得到 迁移学习(Transfer learning,TL)是深度学习优 最终模型,其训练方法如图4所示. ,XXn,x) Encoder network Joint network Acoustic feature LSTM LSTM LSTM LSTM Linear iRNN-T training Acoustic feature LSTMLSTM LSTM LSTM Vi2.u) Linear RNN-T word Input word Embedding LSTM Decodernetwork ,,J, Input word Embedding LSTM 图4迁移学习方法结构图 Fig.4 Method of transfer learning 图4中,虚线部分表示初始训练模型,其包含 的参数,其中P=Pk,),P=P(k:D()为本 编码网络、解码网络及联合网络3部分,其具体工 文迁移学习的优化目标,其用P:通过参数优化得 作原理如下: 到P。旨在最小化D()目标函数 (1)首先以声学特征序列X为编码网络输入; 3 (2)其次,用字序列y通过词嵌入1变换作为 实验 解码网络输入,该输入序列将高维稀疏字序列映 为验证DL-T声学模型相较于RNN-T训练 射低维密集的特征空间,从而减少输人参数量便 时收敛速度更快且具有良好的准确率,本节基于 于模型训练; Aishell-l数据集在实验平台上开展语音识别的 (3)最后,联合网络将编码网络与解码网络相 研究 结合,通过softmax函数输出结果 3.1实验数据集 实线为迁移学习部分,该部分RNN-T结构与 实验采用Aishell-1I6数据集进行实验,该 初始模型一致,将初始模型参数重训练得到迁移 数据集是中文语音标准数据集,其采样率为 学习之后的模型,其计算结果如式(13)所示: 16000Hz.其中训练集、验证集以及测试集分别包 D(PrlP:)≡-lnP(yX) (13) 含120098、14326以及7176条标准语料,数据总时 其中,P、P分别表示初始模型以及迁移学习模型 长约为178h,并且训练集、验证集和测试集语料
序列建模时的优势,对提取的高维信息进行序列 建模;最终构建 DL–T 声学模型,其具体编码网络 模型结构如图 3 所示. BLSTM DenseNet xt ft 图 3 DL–T 编码网络结构图 Fig.3 Encoder network structure of a DL–T 2 基于迁移学习的声学模型 迁移学习(Transfer learning, TL)是深度学习优 化算法中的研究热点,其旨在基于源域在解决任 务中获得知识进而改善目标任务的算法. 近年来, 国内外已有不少学者在此领域进行深入研究[15, 23−24] . Tian 等[15] 将预训练模型作为 RNN – T 的初始模 型,在此基础上进行再训练,使得 RNN–T 训练难 度降低;易江燕等[23] 用迁移学习方法对带噪语音 进行声学建模,该方法利用老师模型指导学生模 型进行训练,提高带噪语音的鲁棒性;Xue 等[24] 基 于多任务学习理论,对声学模型进行再训练,从而 降低模型的错误率. 有鉴于此,为进一步提高声学模型准确率,本 文拟用迁移学习方法对声学模型进行优化. 该方 法在初始模型的基础上融合优化算法重训练得到 最终模型,其训练方法如图 4 所示. (x1, x2, ..., xt , ..., xT) (x1, x2, ..., xt , ..., xT) (y1, y2, ..., yu, ..., yU) (y1, y2, ..., yu, ..., yU) Acoustic feature Acoustic feature LSTM LSTM LSTM LSTM LSTM Input word Embedding LSTM LSTM LSTM LSTM Input word Embedding LSTM Joint network Linear Linear RNN-T word Encoder network Decoder network RNN-T training 图 4 迁移学习方法结构图 Fig.4 Method of transfer learning 图 4 中,虚线部分表示初始训练模型,其包含 编码网络、解码网络及联合网络 3 部分,其具体工 作原理如下: (1)首先以声学特征序列 X 为编码网络输入; (2)其次,用字序列 y 通过词嵌入[25] 变换作为 解码网络输入,该输入序列将高维稀疏字序列映 射低维密集的特征空间,从而减少输入参数量便 于模型训练; (3)最后,联合网络将编码网络与解码网络相 结合,通过 softmax 函数输出结果. 实线为迁移学习部分,该部分 RNN–T 结构与 初始模型一致,将初始模型参数重训练得到迁移 学习之后的模型,其计算结果如式(13)所示: Dfi (Pf ∥ Pi) ≡ −lnP ( y ∗ |X ) (13) 其中,Pi、Pf 分别表示初始模型以及迁移学习模型 的参数,其中 Pi=P(ki |t i , ui ), Pf=P(kf |t f , uf );Dfi(·) 为本 文迁移学习的优化目标,其用 Pi 通过参数优化得 到 Pf,旨在最小化 Dfi(·) 目标函数. 3 实验 为验证 DL–T 声学模型相较于 RNN–T 训练 时收敛速度更快且具有良好的准确率,本节基于 Aishell–1 数据集在实验平台上开展语音识别的 研究. 3.1 实验数据集 实验采用 Aishell –1[16] 数据集进行实验 ,该 数据集是中文语音标准数据集 ,其采样率为 16000 Hz,其中训练集、验证集以及测试集分别包 含 120098、14326 以及 7176 条标准语料,数据总时 长约为 178 h,并且训练集、验证集和测试集语料 · 436 · 工程科学学报,第 43 卷,第 3 期
张威等:基于DL-T及迁移学习的语音识别研究 437 间均无交叠 表1RNN-T基线模型实验结果 3.2实验设置 Table 1 Experimental results of RNN-T's baseline 为验证DL-T兼具预测错误率低与收敛速度 Initial model TL TL+LM 快的优点,基于Aishell--1数据集,论文将开展声 Acoustic model Dev Test Dev Test Dev Test 学模型研究,其具体参数配置如下: CER CER CERCER CERCER (1)特征提取:基于kaldi2语音识别开发包提 RNN-TU5I 10.1311.82 取80维FBank特征,其中窗长25ms,帧移为10ms, E3D1 17.6918.9214.4216.31 12.0713.57 然后左拼接3帧阿,共320维,用其作为声学模型 E4D1 15.03 17.39 13.66 15.58 11.25 13.07 输入.训练阶段,对所有语料按帧由短到长进行排 E5D1 19.6222.35 14.1416.2211.89 13.53 序,共4335个字作为建模单元. E4D2 12.12 14.54 10.7412.74 9.13 10.65 (2)声学模型参数:本文基于Pytorch27构建声 学模型.初始训练阶段,优化准则采用随机梯度下 误率和测试集错误率.其中,“E3D1”表示编码网 降,学习率初始设置为0.001:迁移学习阶段,优化 络中BLSTM层数为3,解码网络中LSTM网络层 数为1;“E3DI(TL)”表示“E3D1”声学模型经过迁 准则不变,但学习率降为0.00001.且所有训练阶 段,Linear和DenseNet网络均采用反向传播算法 移学习(TL)训练得到的模型;迁移学习与语言模 进行训练,LSTM模型采用BPTT算法进行优化参 型共同优化下,得到“E3DI(TL+LM)”声学模型 数.RNN-T基线模型中,编码网络设置DenseNet 从表1不难看出: 为4层,特征图增长率20为4,初始输入为单通 (1)编码网络初始设为3层,随其层数增加,模 道的语音特征;采用3层BLSTM模型进行序列建 型预测错误率出现先增后减趋势,当模型编码层 模,隐藏神经元个数为320:解码网络设置为1层 数为4,且解码层数为2时,声学结果达到最优,其 单向LSTM网,神经元数目为320:联合网络采 测试集错误率降至14.54%; 用2层全连接网络,其神经元数目依次为512和 (2)RNN-T经过重训练可使得声学模型错误 4335 率降低1.80%~6.13%,验证了迁移学习可进一步 提高RNN-T声学模型准确率的结论: (3)解码:本文采用束搜索对最后概率分布进 行解码),解码宽度为10.并且,采用训练集数据 (3)语言模型和声学模型联合解码使得RNN-T 构建5-元语言模型对声学模型结果进行修正,初 的效果得到极大提升,相较于文献[15],“E4D2(TL+ 始设置语言模型权重为0.3,式(14)表示RNN-T LM)”声学模型在验证集与测试集的预测错误率分 声学模型与语言模型联合解码定义: 别相对降低9.87%和9.90%,模型的错误率降至 10.65% Ymal=Argmax(PrNN-rylX)+ar·PLMy)(l4) 综上可得:(1)“E4D2(TL+LM”为本文构建的 其中,PRNN-Ty)与PLM)分别表示RNN-T声 RNN-T声学模型,其错误率最低,选其作为基线 学模型以及LM生成y的概率,a代表语言模型权 模型具有合理性;(2)迁移学习可进一步降低初始 重,最终通过Argmax()函数将上述计算结果映射 模型错误率,通过插入语言模型可使得模型达到 为对应的序列Yfinal 最优 3.3实验结果 3.3.2DL-T实验结果 3.3.1基线模型 为验证DL-T声学模型相较于RNN-T训练收 RNN-T基线模型可为DL-T提供对比模型并 敛速度快、预测错误率低.基于32节设置DL-T 能验证其声学模型的有效性.为得到RNN-T基线 初始参数训练声学模型,并与3.3.1节中RNN-T 模型,基于32中设置的初始实验参数,对基线模 的实验结果进行对比,其实验损失函数曲线与错 型中不同参数进行对比研究.首先对编码网络中 误率曲线如图5、图6所示 BLSTM网络的层数进行实验,得到编码阶段最优 图5中,“DE3D1”表示编码网络为DenseNet.- 模型;其次,再增加解码网络中单向LSTM层数; LSTM结构(DenseNet结构与3.2节参数一致),其 最终采用最低的错误率(CER)模型作为基线 LSTM层数为3,解码网络中LSTM网络层数为1 (Baseline)模型,具体实验结果如表1所示 的DL-T声学模型.RNN-T以及DL-T实验结果 表I中Dev CER、Test CER分别表示验证集错 分别用虚线、实线表示.图5(a)和5(c)分别表示
间均无交叠. 3.2 实验设置 为验证 DL–T 兼具预测错误率低与收敛速度 快的优点,基于 Aishell–1 数据集,论文将开展声 学模型研究,其具体参数配置如下: (1)特征提取:基于 kaldi[26] 语音识别开发包提 取 80 维 FBank 特征,其中窗长 25 ms,帧移为 10 ms, 然后左拼接 3 帧[15] ,共 320 维,用其作为声学模型 输入. 训练阶段,对所有语料按帧由短到长进行排 序,共 4335 个字作为建模单元. (2)声学模型参数:本文基于 Pytorch[27] 构建声 学模型. 初始训练阶段,优化准则采用随机梯度下 降,学习率初始设置为 0.001;迁移学习阶段,优化 准则不变,但学习率降为 0.00001. 且所有训练阶 段 ,Linear 和 DenseNet 网络均采用反向传播算法 进行训练,LSTM 模型采用 BPTT 算法进行优化参 数. RNN–T 基线模型中,编码网络设置 DenseNet 为 4 层,特征图增长率[19−20] 为 4,初始输入为单通 道的语音特征;采用 3 层 BLSTM 模型进行序列建 模,隐藏神经元个数为 320;解码网络设置为 1 层 单向 LSTM 网络,神经元数目为 320;联合网络采 用 2 层全连接网络,其神经元数目依次为 512 和 4335. (3)解码:本文采用束搜索对最后概率分布进 行解码[13] ,解码宽度为 10. 并且,采用训练集数据 构建 5–元语言模型对声学模型结果进行修正,初 始设置语言模型权重为 0.3,式(14)表示 RNN–T 声学模型与语言模型联合解码定义: Yfinal = Argmax y ∗ ( PRNN−T ( y ∗ |X ) +α· PLM ( y ∗ )) (14) 其中,PRNN–T(y * |X) 与 PLM(y * ) 分别表示 RNN–T 声 学模型以及 LM 生成 y *的概率,α 代表语言模型权 重,最终通过 Argmax(·) 函数将上述计算结果映射 为对应的序列 Yfinal. 3.3 实验结果 3.3.1 基线模型 RNN–T 基线模型可为 DL–T 提供对比模型并 能验证其声学模型的有效性. 为得到 RNN–T 基线 模型,基于 3.2 中设置的初始实验参数,对基线模 型中不同参数进行对比研究. 首先对编码网络中 BLSTM 网络的层数进行实验,得到编码阶段最优 模型;其次,再增加解码网络中单向 LSTM 层数; 最终采用最低的错误率 ( CER)模型作为基线 (Baseline)模型,具体实验结果如表 1 所示. 表 1 中 Dev CER、Test CER 分别表示验证集错 误率和测试集错误率. 其中,“E3D1”表示编码网 络中 BLSTM 层数为 3,解码网络中 LSTM 网络层 数为 1;“E3D1(TL)”表示“E3D1”声学模型经过迁 移学习 (TL) 训练得到的模型;迁移学习与语言模 型共同优化下,得到“E3D1(TL+LM)”声学模型. 从表 1 不难看出: (1)编码网络初始设为 3 层,随其层数增加,模 型预测错误率出现先增后减趋势,当模型编码层 数为 4,且解码层数为 2 时,声学结果达到最优,其 测试集错误率降至 14.54%; (2)RNN–T 经过重训练可使得声学模型错误 率降低 1.80%~6.13%,验证了迁移学习可进一步 提高 RNN–T 声学模型准确率的结论; (3)语言模型和声学模型联合解码使得 RNN–T 的效果得到极大提升,相较于文献 [15],“E4D2(TL+ LM)”声学模型在验证集与测试集的预测错误率分 别相对降低 9.87% 和 9.90%,模型的错误率降至 10.65%. 综上可得:(1)“E4D2(TL+LM)”为本文构建的 RNN–T 声学模型,其错误率最低,选其作为基线 模型具有合理性;(2)迁移学习可进一步降低初始 模型错误率,通过插入语言模型可使得模型达到 最优. 3.3.2 DL–T 实验结果 为验证 DL–T 声学模型相较于 RNN–T 训练收 敛速度快、预测错误率低. 基于 3.2 节设置 DL–T 初始参数训练声学模型,并与 3.3.1 节中 RNN–T 的实验结果进行对比,其实验损失函数曲线与错 误率曲线如图 5、图 6 所示. 图 5 中,“DE3D1”表示编码网络为 DenseNet– LSTM 结构(DenseNet 结构与 3.2 节参数一致),其 LSTM 层数为 3,解码网络中 LSTM 网络层数为 1 的 DL–T 声学模型. RNN–T 以及 DL–T 实验结果 分别用虚线、实线表示. 图 5(a)和 5(c)分别表示 表 1 RNN–T 基线模型实验结果 Table 1 Experimental results of RNN–T’s baseline % Acoustic model Initial model TL TL+LM Dev CER Test CER Dev CER Test CER Dev CER Test CER RNN-T[15] 10.13 11.82 E3D1 17.69 18.92 14.42 16.31 12.07 13.57 E4D1 15.03 17.39 13.66 15.58 11.25 13.07 E5D1 19.62 22.35 14.14 16.22 11.89 13.53 E4D2 12.12 14.54 10.74 12.74 9.13 10.65 张 威等: 基于 DL-T 及迁移学习的语音识别研究 · 437 ·
438 工程科学学报,第43卷,第3期 0 (a) --E3D1 1.0 (b) -E3D1 0 ■-E4D1 -■-E4D1 ★-E5D1 E5D1 50 DE3D1 0.8 B部 DE4D 0.6 0.4 10 ◆4w与 0.2 0 5 10 15 20 25 30 0 5 10 15 20 25 30 Epoch Epoch 100 16.0 --F31 E3D1 (c) (d) 15.5 80 ★ -E5D1 一DE3D1 15.0 上3) ■-DE4D1 量-DE4D1 一。 -DE5D1 14.5 DE5D1 14.0 0 13.5 13.0 0 5 1015 20 30 0 10152025 30 Epoch Epoch 图5基线模型实验曲线图.(a)初始训练损失值曲线图:(b)迁移学习损失值曲线图:(c)初始训练错误率曲线图:(d)迁移学习错误率曲线图 Fig.5 Curves of the baseline model:(a)loss curve on initial training stage:(b)loss curve on transfer learning stage;(c)prediction error rate curve on initial training stage;(d)prediction error rate curve on transfer leaming stage 80 (a) E4D1 (b) -F4D1 E4D2 0.6 -DE4D2 DE4D2 % 0.4 0.3 20 0.2 10 15 20 25 30 0 10 15 20 25 30 Epoch Epoch 100 (c) 14.0 (d) 80 13 30 60 國 12 0 12.0 11.5 20 11.0 0 5 1015 20 25 30 0 1015 30 25 30 Epoch Epoch 图6DL-T实验曲线图.()不同声学模型初始训练损失值曲线图:(b)不同声学模型迁移学习损失值曲线图:(c)不同声学模型初始训练错误率 曲线图:(d)不同声学模型迁移学习错误率曲线图 Fig.6 Curves of the DenseNet-LSTM-Transducer:(a)loss curve of different acoustic models on initial training stage,(b)loss curve of different acoustic models on transfer learning stage;(c)prediction error rate curve of different acoustic models on initial training stage,(d)prediction error rate curve of different acoustic models on transfer learning stage 初始训练阶段损失值曲线与错误率曲线,图5(b) 增加,声学模型逐渐趋于收敛,损失值最终收敛到 和5(d)分别表示迁移学习阶段损失值曲线与错误 一个固定范围内:(2)在初始训练阶段,DL-T收敛 率曲线 速度相较于RNN-T更快;在重训练阶段,RNN-T 从图5(a)及5(b)可看出:(1)随着迭代次数的 声学模型损失值减小至0.25左右,DL-T可减小
初始训练阶段损失值曲线与错误率曲线,图 5(b) 和 5(d)分别表示迁移学习阶段损失值曲线与错误 率曲线. 从图 5(a)及 5(b)可看出:(1)随着迭代次数的 增加,声学模型逐渐趋于收敛,损失值最终收敛到 一个固定范围内;(2)在初始训练阶段,DL–T 收敛 速度相较于 RNN–T 更快;在重训练阶段,RNN–T 声学模型损失值减小至 0.25 左右,DL–T 可减小 70 60 50 40 30 1.0 0.8 0.4 0.6 0.2 100 16.0 15.5 15.0 14.5 14.0 13.5 13.0 80 40 60 20 20 10 0 0 5 10 15 Epoch 20 25 30 0 5 10 15 Epoch 20 25 30 0 5 10 15 Epoch 20 25 30 0 5 10 15 Epoch 20 25 30 Training loss Re-training loss Training CER/ % Re-training CER/ % E3D1 E4D1 E5D1 DE3D1 DE4D1 DE5D1 E3D1 E4D1 E5D1 DE3D1 DE4D1 DE5D1 E3D1 E4D1 E5D1 DE3D1 DE4D1 DE5D1 E3D1 E4D1 E5D1 DE3D1 DE4D1 DE5D1 (a) (b) (c) (d) 图 5 基线模型实验曲线图. (a)初始训练损失值曲线图;(b)迁移学习损失值曲线图;(c)初始训练错误率曲线图;(d)迁移学习错误率曲线图 Fig.5 Curves of the baseline model:(a) loss curve on initial training stage; (b) loss curve on transfer learning stage; (c) prediction error rate curve on initial training stage; (d) prediction error rate curve on transfer learning stage 0 5 10 15 Epoch 20 25 30 0 5 10 15 Epoch 20 25 30 Training loss Re-training loss 80 60 40 20 0 0.6 0.4 0.5 0.3 0.2 0 5 10 15 Epoch 20 25 30 Training CER/ % 80 100 60 40 20 0 5 10 15 Epoch 20 25 30 Re-training CER/ %13.5 14.0 13.0 11.5 12.0 12.5 11.0 E4D1 E4D2 DE4D2 E4D1 E4D2 DE4D2 E4D1 E4D2 DE4D2 E4D1 E4D2 DE4D2 (a) (b) (c) (d) 图 6 DL–T 实验曲线图. (a)不同声学模型初始训练损失值曲线图;(b)不同声学模型迁移学习损失值曲线图;(c)不同声学模型初始训练错误率 曲线图;(d)不同声学模型迁移学习错误率曲线图 Fig.6 Curves of the DenseNet–LSTM–Transducer: (a) loss curve of different acoustic models on initial training stage; (b) loss curve of different acoustic models on transfer learning stage; (c) prediction error rate curve of different acoustic models on initial training stage; (d) prediction error rate curve of different acoustic models on transfer learning stage · 438 · 工程科学学报,第 43 卷,第 3 期
张威等:基于DL-T及迁移学习的语音识别研究 439 至0.15以下,证明了DL-T相较于RNN-T训练收 相较于前者单轮训练时间只增加约5s,说明 敛速度更快 DL-T对RNN-T训练时间影响较小;(2)“E4D2” 从图5(c)与5(d)可看出:(1)随着迭代次数的 与“DE4D2”单句解码耗时分别约为910ms与 增加,声学模型预测错误率逐渐降低,最终降至 915ms,“DE4D2”相较于前者单句解码耗时仅相 12.0%~15.0%范围内;(2)初始训练阶段,RNN-T与 对增加0.55%,实验结果进一步验证了DL-T对于 DL-T预测错误率曲线均呈下降趋势,但DL-T错 识别复杂度的影响较小 误率相较于RNN-T低;重训练阶段,RNN-T预测 为进一步验证不同语言模型权重对于声学模 错误率降至13.5%~15.0%范围内,DL-T预测错 型结果的影响,表3给出了不同语言模型权重对 误率最低降至13.0%以下,该结果进一步验证了 于模型“DE4D2”的影响,语言模型的权重分别设 DL-T可显著降低声学模型预测错误率.其具体 置为02、0.3和0.4.从表3实验结果可得出,当权 实验结果如表2所示 重值为0.3时,声学模型的错误率最低,达到10.34%, 声学模型结果为最优 表2DL-T实验结果 Table 2 Experimental results of DL-T % 表3不同语言模型对声学模型的影响 Initial model TL TL+LM Acoustic Table 3 Effects of different language model weights on the model Dev Test Dev Test Dev Test acoustic model % CER CER CER CER CER CER Value of LM Dev CER Test CER SA-Ttis] 9.2110.46 0.2 8.91 10.47 LASI2周 10.56 0.3 8.80 10.34 DE3D1 15.17 17.31 13.78 15.92 11.85 13.52 0.4 8.89 10.45 DE4D1 13.70 15.84 12.78 14.80 11.21 12.95 DE5D1 15.92 18.38 1346 15.30 11.57 13.90 值得指出的是:综合表1、表2与表3实验结 DE4D2 11.2313.4510.6912.55 8.8010.34 果可得出,DL-T相较于本文RNN-T基线模型, 表2为实验具体结果,本文为得到最优DL-T 在验证集、测试集错误率分别相对降低3.61%和 声学模型,首先,DenseNet与解码网络层数不变, 2.94%,进一步验证了DL-T相较于RNN-T可显 分析编码网络中不同BLSTM层数对于DL-T的 著降低其预测错误率,其最优模型的具体训练过 影响,从表2可得出,“DE4D2”为最优的DL-T声 程曲线图如图6所示 学模型.然后固定编码网络不变,探索不同解码网 为进一步展示最优声学模型实验过程,图6(a)~ 络层数对模型的影响,从表2可得,当其层数为 6(d)展示了“E4D1”、“E4D2”、“DE4D2”三种不同 2时,模型达到最优,即为“DE4D2”模型,最终在 声学模型的不同实验结果,其中模型“DE4D2”为 测试集错误率可达13.45%.从表2可得以下结论: 本文最佳结果,模型的最终错误率降至10.34% (1)迁移学习对于DL-T效果显著,使得模型的错 图6(a)、6(c)表示初始训练结果,图6(b)、6(d)表 误率降低0.90%~3.08%,再次验证了其对于模型 示迁移学习结果.由图6(a)与图6(b)可以得出: 训练的优越性;(2)语言模型的线性插入可进一步 (1)随着迭代次数增加,模型趋于收敛,最终损失 降低声学模型的错误率,最优声学模型错误率降 值收敛在0.05~0.40范围内;(2)“DE4D2”模型在 低至10.34%;(3)必须指出的是:本文提出最优的 初始训练时相较于其他模型收敛速度最快,再次 DL-T声学模型相较于SA-T声学模型,在验证 验证了DL-T可有效解决RNN-T收敛速度较慢 集和测试集上的预测错误率分别降低4.45%、1.15%, 的问题 其相较于LAS声学模型P1在测试集上,错误率相 从图6(c)与图6(d)可以得出:(1)三种声学模 对降低2.08%,证明了DL-T擅长声学建模 型错误率总体呈下降趋势,其错误率最终降到 为分析RNN-T与DL-T的训练与识别复杂 10.0%~14.0%区间:(2)结合表1与表2结果可 度,分别选用“E4D2”与“DE4D2”两种代表性声学 知,“DE4D2”相较于“E4D1”、“E4D2”在测试集上 模型对其单轮训练时间与单句解码耗时进行实 错误率降低2.73%和0.31%,再次证明本文提出的 验分析.实验结果表明:(1)“E4D2”与“DE4D2” DL-T模型可显著降低模型错误率 单轮训练时间分别约为150s和155s,“DE4D2” 综合表1~表2、图5图6可得以下结论:
至 0.15 以下,证明了 DL–T 相较于 RNN–T 训练收 敛速度更快. 从图 5(c)与 5(d)可看出:(1)随着迭代次数的 增加,声学模型预测错误率逐渐降低,最终降至 12.0% ~ 15.0% 范围内;(2)初始训练阶段,RNN–T 与 DL–T 预测错误率曲线均呈下降趋势,但 DL–T 错 误率相较于 RNN–T 低;重训练阶段,RNN–T 预测 错误率降至 13.5% ~ 15.0% 范围内,DL–T 预测错 误率最低降至 13.0% 以下,该结果进一步验证了 DL–T 可显著降低声学模型预测错误率. 其具体 实验结果如表 2 所示. 表 2 DL-T 实验结果 Table 2 Experimental results of DL–T % Acoustic model Initial model TL TL+LM Dev CER Test CER Dev CER Test CER Dev CER Test CER SA–T[15] 9.21 10.46 LAS[28] 10.56 DE3D1 15.17 17.31 13.78 15.92 11.85 13.52 DE4D1 13.70 15.84 12.78 14.80 11.21 12.95 DE5D1 15.92 18.38 13.46 15.30 11.57 13.90 DE4D2 11.23 13.45 10.69 12.55 8.80 10.34 表 2 为实验具体结果,本文为得到最优 DL–T 声学模型. 首先,DenseNet 与解码网络层数不变, 分析编码网络中不同 BLSTM 层数对于 DL–T 的 影响,从表 2 可得出,“DE4D2”为最优的 DL–T 声 学模型. 然后固定编码网络不变,探索不同解码网 络层数对模型的影响,从表 2 可得,当其层数为 2 时,模型达到最优,即为“DE4D2”模型,最终在 测试集错误率可达 13.45%. 从表 2 可得以下结论: (1)迁移学习对于 DL–T 效果显著,使得模型的错 误率降低 0.90%~3.08%,再次验证了其对于模型 训练的优越性;(2)语言模型的线性插入可进一步 降低声学模型的错误率,最优声学模型错误率降 低至 10.34%;(3)必须指出的是:本文提出最优的 DL–T 声学模型相较于 SA–T 声学模型[15] ,在验证 集和测试集上的预测错误率分别降低 4.45%、1.15%, 其相较于 LAS 声学模型[28] 在测试集上,错误率相 对降低 2.08%,证明了 DL–T 擅长声学建模. 为分析 RNN–T 与 DL–T 的训练与识别复杂 度,分别选用“E4D2”与“DE4D2”两种代表性声学 模型对其单轮训练时间与单句解码耗时进行实 验分析. 实验结果表明:( 1)“E4D2”与“DE4D2” 单轮训练时间分别约为 150 s 和 155 s,“DE4D2” 相较于前者单轮训练时间只增加 约 5 s,说明 DL–T 对 RNN–T 训练时间影响较小;(2)“E4D2” 与 “ DE4D2” 单句解码耗时分别约 为 910 ms 与 915 ms,“DE4D2”相较于前者单句解码耗时仅相 对增加 0.55%,实验结果进一步验证了 DL–T 对于 识别复杂度的影响较小. 为进一步验证不同语言模型权重对于声学模 型结果的影响,表 3 给出了不同语言模型权重对 于模型“DE4D2”的影响,语言模型的权重分别设 置为 0.2、0.3 和 0.4. 从表 3 实验结果可得出,当权 重值为 0.3 时,声学模型的错误率最低,达到 10.34%, 声学模型结果为最优. 表 3 不同语言模型对声学模型的影响 Table 3 Effects of different language model weights on the acoustic model % Value of LM Dev CER Test CER 0.2 8.91 10.47 0.3 8.80 10.34 0.4 8.89 10.45 值得指出的是:综合表 1、表 2 与表 3 实验结 果可得出,DL–T 相较于本文 RNN–T 基线模型, 在验证集、测试集错误率分别相对降低 3.61% 和 2.94%,进一步验证了 DL–T 相较于 RNN–T 可显 著降低其预测错误率,其最优模型的具体训练过 程曲线图如图 6 所示. 为进一步展示最优声学模型实验过程,图 6(a)~ 6(d)展示了“E4D1”、“E4D2”、“DE4D2”三种不同 声学模型的不同实验结果,其中模型“DE4D2”为 本文最佳结果,模型的最终错误率降至 10.34%. 图 6(a)、6(c)表示初始训练结果,图 6(b)、6(d)表 示迁移学习结果. 由图 6(a)与图 6(b)可以得出: (1)随着迭代次数增加,模型趋于收敛,最终损失 值收敛在 0.05~0.40 范围内;(2)“DE4D2”模型在 初始训练时相较于其他模型收敛速度最快,再次 验证了 DL–T 可有效解决 RNN–T 收敛速度较慢 的问题. 从图 6(c)与图 6(d)可以得出:(1)三种声学模 型错误率总体呈下降趋势 ,其错误率最终降到 10.0%~14.0% 区间 ;( 2)结合表 1 与表 2 结果可 知,“DE4D2”相较于“E4D1”、“E4D2”在测试集上 错误率降低 2.73% 和 0.31%,再次证明本文提出的 DL–T 模型可显著降低模型错误率. 综合表 1~表 2、图 5~图 6 可得以下结论: 张 威等: 基于 DL-T 及迁移学习的语音识别研究 · 439 ·
440 工程科学学报,第43卷,第3期 (1)从表1与图5可得出:论文构建的RNN-T modeling in speech recognition:the shared views of four research 基线模型相较于文献[15]基线模型,其验证集与 groups.IEEE Signal Process Mag,2012,29(6):82 测试集预测错误率分别降低9.87%、9.90%,证明了 [2]Graves A,Mohamed A.Hinton G E.Speech recognition with deep recurrent neural networks /2013 IEEE International Conference 本文构建的基线模型的有效性: on Acoustics,Speech and Signal Processing.Vancouver,2013: (2)基于图5及图6可得出,DL-T模型收敛 6645 速度相较于RNN-T模型更快,其值收敛于0.01~0.4 [3] Seltzer M L,Ju Y C,Tashev I,et al.In-car media search./EEE 范围,验证了DL-T可有效改善RNN-T收敛速度; Signal Process Mag,2011,28(4):50 (3)从表1与表2可得出,DL-T相较于RNN-T [4] Yu D,Deng L.Analytical Deep Learning:Speech Recognition 基线模型在验证集及测试集错误率分别相对降低 Practice.Yu K,Qian Y M,Translated.5th ed.Beijing:Publishing 3.61%、2.94%,其最终错误率降至10.34%,表明 House of Electronic Industry,2016 (俞栋,邓力.解析深度学习:语音识别实践.俞凯,钱彦旻,译 DL-T可降低声学模型预测的错误率; 5版.北京:电子工业出版社,2016) (4)值得指出的是:“DE4D2(TL+LM)”模型相 [5]Peddinti V,Wang Y M.Povey D.et al.Low latency acoustic 较于SA-T模型吲,在验证集和测试集上分别相对 modeling using temporal convolution and LSTMs.IEEE Signal 降低4.45%、1.15%,且其相较于LAS模型1在测 Process Lett,2018,25(3):373 试集上预测错误率降低2.08%,进一步证明了 [6]Povey D.Cheng G F.Wang Y M,et al.Semi-orthogonal low-rank DL-T可显著降低声学模型错误率及其对于声学 matrix factorization for deep neural networks /Conference of the 建模的优越性 International Speech Communication Association.Hyderabad, 2018:3743 4结论 [7] Xing A H,Zhang P Y,Pan J L,et al.SVD-based DNN pruning and retraining.JTsinghua Univ Sci Technol,2016,56(7):772 以RNN-T端到端语音识别声学模型为研究 (刑安吴,张鹏远,潘接林,等.基于SVD的DNN裁剪方法和重训 对象,针对其在语音识别时存在预测错误率高、收 练.清华大学学报:自然科学版,2016,56(7):772) 敛速度慢的问题,提出了DL-T声学模型及适用 [8] Graves A,Fernandez S,Gomez F,et al.Connectionist temporal 于DL-T的迁移学习方法. classification:labelling unsegmented sequence data with recurrent (1)在研究RNN-T声学模型的基础上,搭建 neural networks ll Proceedings of the 23rd International 了该声学模型系统 Conference on Machine Learning.Pittsburgh,2006:369 [9] (2)提出了一种DL-T声学建模方法,通过在 Zhang Y,Pezeshki M,Brakel P.et al.Towards end-to-end speech recognition with deep convolutional neural networks /Conference 编码网络中融入DenseNet网络结构,其不仅能提 of the International Speech Communication Association 取语音高维特征便于序列建模,又可加快模型训 California,2016:410 练的收敛速度 [10]Zhang W,Zhai M H,Huang Z L,et al.Towards end-to-end speech (3)提出了一种适用于DL-T的迁移学习方 recognition with deep multipath convolutional neural networks / 法,该方法主要在初始模型上重训练得到更优声 12th International Conference on Intelligent Robotics and 学模型,其可显著地提升声学模型准确率 Applications.Shenyang,2019:332 [11]Zhang S L,Lei M.Acoustic modeling with DFSMN-CTC and (4)基于Aishell-1开展了语音识别的研究, joint CTC-CE learning /Conference of the International Speech 结果表明,相较于文献[I5]基线模型RNN-T, Communication Association.Hyderabad,2018:771 DL-T在验证集及测试集预测错误率分别相对降 [12]Dong L H,Xu S,Xu B.Speech-transformer:a no-recurrence 低13.13%、12.52%,且其相较于SA-T、LAS声学 sequence-to-sequence model for speech recognition /IEEE 模型测试集预测错误率分别相对降低115%、 International Conference on Acoustics.Speech and Signal 2.08%.进一步证明了DL-T可提升声学模型训练 Processing.Calgary,2018:5884 收敛速度 [13]Graves A.Sequence transduction with recurrent neural networks// 论文研究内容对以RNN-T构建的语音识别声 Proceedings of the 29th International Conference on Machine 学模型在模型优化、理论研究与工程应用等方面 Learning.Edinburgh,2012:235 [14]Rao K,Sak H,Prabhavalkar R.Exploring architectures,data and 均具有一定的指导意义 units for streaming end-to-end speech recognition with RNN- transducer /l 2017 IEEE Automatic Speech Recognition and 参考文献 Understanding Workshop (ASRU).Okinawa,2017 [1]Hinton G,Deng L,Yu D,et al.Deep neural networks for acoustic [15]Tian Z K,Yi J Y,Tao J H,et al.Self-attention transducers for end-
(1)从表 1 与图 5 可得出:论文构建的 RNN–T 基线模型相较于文献 [15] 基线模型,其验证集与 测试集预测错误率分别降低 9.87%、9.90%,证明了 本文构建的基线模型的有效性; (2)基于图 5 及图 6 可得出,DL–T 模型收敛 速度相较于 RNN–T 模型更快,其值收敛于 0.01~0.4 范围,验证了 DL–T 可有效改善 RNN–T 收敛速度; (3)从表 1 与表 2 可得出,DL–T 相较于 RNN–T 基线模型在验证集及测试集错误率分别相对降低 3.61%、 2.94%,其最终错误率降 至 10.34%, 表 明 DL–T 可降低声学模型预测的错误率; (4)值得指出的是:“DE4D2(TL+LM)”模型相 较于 SA–T 模型[15] ,在验证集和测试集上分别相对 降低 4.45%、1.15%,且其相较于 LAS 模型[28] 在测 试集上预测错误率降 低 2.08%,进一步证明 了 DL–T 可显著降低声学模型错误率及其对于声学 建模的优越性. 4 结论 以 RNN–T 端到端语音识别声学模型为研究 对象,针对其在语音识别时存在预测错误率高、收 敛速度慢的问题,提出了 DL–T 声学模型及适用 于 DL–T 的迁移学习方法. (1)在研究 RNN–T 声学模型的基础上,搭建 了该声学模型系统. (2)提出了一种 DL–T 声学建模方法,通过在 编码网络中融入 DenseNet 网络结构,其不仅能提 取语音高维特征便于序列建模,又可加快模型训 练的收敛速度. (3)提出了一种适用于 DL–T 的迁移学习方 法,该方法主要在初始模型上重训练得到更优声 学模型,其可显著地提升声学模型准确率. ( 4)基于 Aishell– 1 开展了语音识别的研究, 结果表明 ,相较于文 献 [15] 基线模 型 RNN –T, DL–T 在验证集及测试集预测错误率分别相对降 低 13.13%、12.52%,且其相较于 SA–T、LAS 声学 模型测试集预测错误率分别相对降 低 1.15%、 2.08%,进一步证明了 DL–T 可提升声学模型训练 收敛速度. 论文研究内容对以 RNN-T 构建的语音识别声 学模型在模型优化、理论研究与工程应用等方面 均具有一定的指导意义. 参 考 文 献 [1] Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups. IEEE Signal Process Mag, 2012, 29(6): 82 Graves A, Mohamed A, Hinton G E. Speech recognition with deep recurrent neural networks // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, 2013: 6645 [2] Seltzer M L, Ju Y C, Tashev I, et al. In-car media search. IEEE Signal Process Mag, 2011, 28(4): 50 [3] Yu D, Deng L. Analytical Deep Learning: Speech Recognition Practice. Yu K, Qian Y M, Translated. 5th ed. Beijing: Publishing House of Electronic Industry, 2016 (俞栋, 邓力. 解析深度学习: 语音识别实践. 俞凯, 钱彦旻, 译. 5版. 北京: 电子工业出版社, 2016) [4] Peddinti V, Wang Y M, Povey D, et al. Low latency acoustic modeling using temporal convolution and LSTMs. IEEE Signal Process Lett, 2018, 25(3): 373 [5] Povey D, Cheng G F, Wang Y M, et al. Semi-orthogonal low-rank matrix factorization for deep neural networks // Conference of the International Speech Communication Association. Hyderabad, 2018: 3743 [6] Xing A H, Zhang P Y, Pan J L, et al. SVD-based DNN pruning and retraining. J Tsinghua Univ Sci Technol, 2016, 56(7): 772 (刑安昊, 张鹏远, 潘接林, 等. 基于SVD的DNN裁剪方法和重训 练. 清华大学学报: 自然科学版, 2016, 56(7):772) [7] Graves A, Fernandez S, Gomez F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks // Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh, 2006: 369 [8] Zhang Y, Pezeshki M, Brakel P, et al. Towards end-to-end speech recognition with deep convolutional neural networks // Conference of the International Speech Communication Association. California, 2016: 410 [9] Zhang W, Zhai M H, Huang Z L, et al. Towards end-to-end speech recognition with deep multipath convolutional neural networks // 12th International Conference on Intelligent Robotics and Applications. Shenyang, 2019: 332 [10] Zhang S L, Lei M. Acoustic modeling with DFSMN-CTC and joint CTC-CE learning // Conference of the International Speech Communication Association. Hyderabad, 2018: 771 [11] Dong L H, Xu S, Xu B. Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition // IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, 2018: 5884 [12] Graves A. Sequence transduction with recurrent neural networks // Proceedings of the 29th International Conference on Machine Learning. Edinburgh, 2012: 235 [13] Rao K, Sak H, Prabhavalkar R. Exploring architectures, data and units for streaming end-to-end speech recognition with RNNtransducer // 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). Okinawa, 2017 [14] [15] Tian Z K, Yi J Y, Tao J H, et al. Self-attention transducers for end- · 440 · 工程科学学报,第 43 卷,第 3 期
张威等:基于DL-T及迁移学习的语音识别研究 441 to-end speech recognition /Conference of the International networks.Chin Comput,2017,40(6):1229 Speech Communication Association.Graz,2019:4395 (周飞燕,金林鹏,董军.卷积神经网络研究综述.计算机学报, [16]Bu H,Du J Y,Na X Y,et al.Aishell-1:an open-source mandarin 2017,40(6):1229) speech corpus and a speech recognition baseline[J/OL].arYiv [23]Yi J Y,Tao J H,Liu B,et al.Transfer learning for acoustic preprint(2017-09-16)[2019-10-10].http://arxiv..org/abs/17- modeling of noise robust speech recognition.J Tsinghua Univ Sci 09.05522 Technol,,2018,58(1):55 [17]Battenberg E,Chen J T.Child R,et al.Exploring neural (易江燕,陶建华,刘斌,等.基于迁移学习的噪声鲁棒性语音识 transducers for end-to-end speech recognition //2017 IEEE 别声学建模.清华大学学报:自然科学版,2018.58(1):55) Automatic Speech Recognition and Understanding Workshop [24]Xue J B,Han J Q,Zheng T R,et al.A multi-task learning (ASRU).Okinawa,2017:206 framework for overcoming the catastrophic forgetting in automatic [18]Williams R J,Zipser D.Gradient-based learning algorithms for speech recognition[J/OL].arXiv preprint (2019-04-17)[2019-10- recurrent networks and their computational complexity /Back- 101.https://arxiv.org/abs-/1904.08039 propagation:Theory,Architectures and Applications.1995:433 [25]Mikolov T,Sutskever I,Chen K,et al.Distributed representations [19]Huang G,Liu Z,Maaten L V D,et al.Densely connected of words and phrases and their compositionality /Proceedings of convolutional networks /IEEE Conference on Computer Vision the 26th International Conference on Neural Information and Pattern Recognition.Honolulu,2017:4700 [20]Cao Y,Huang Z L,Zhang W,et al.Urban sound event Processing Systems-Volume 2.Canada,2013:3111 classification with the N-order dense convolutional network.J [26]Povey D.Ghoshal A,Boulianne G,et al.The Kaldi speech Xidian Univ Nat Sci,2019,46(6):9 recognition toolkit IEEE 2011 Workshop on Automatic Speech (曹毅,黄子龙,张威,等.N-DenseNetl的城市声音事件分类模型 Recognition and Understanding.Big Island,2011 西安电子科技大学学报:自然科学版,2019,46(6):9) [27]Paszke A,Gross S,Chintala S,et al.Automatic differentiation in [21]Zhang S,Gong Y H,Wang J J.The development of deep PyTorch 31st Conference on Neural Information Processing convolutional neural networks and its application in computer Systems.Long Beach,2017 vision.ChinJ Comput,2019,42(3):453 [28]Shan C,Weng C,Wang G,et al.Component fusion:learning (张顺,龚怡宏,王进军.深度卷积神经网络的发展及其在计算 replaceable language model component for end-to-end speech 机视觉领域的应用.计算机学报,2019,42(3):453) recognition system IEEE International Conference on Acoustics. [22]Zhou F Y,Jin L P,Dong J.Review of convolutional neural Speech and Signal Processing.Brighton,2019:5361
to-end speech recognition // Conference of the International Speech Communication Association. Graz, 2019: 4395 Bu H, Du J Y, Na X Y, et al. Aishell-1: an open-source mandarin speech corpus and a speech recognition baseline[J/OL]. arXiv preprint (2017-09-16)[2019-10-10]. http://arxiv.org/abs/17- 09.05522 [16] Battenberg E, Chen J T, Child R, et al. Exploring neural transducers for end-to-end speech recognition // 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). Okinawa, 2017: 206 [17] Williams R J, Zipser D. Gradient-based learning algorithms for recurrent networks and their computational complexity // Backpropagation: Theory, Architectures and Applications. 1995: 433 [18] Huang G, Liu Z, Maaten L V D, et al. Densely connected convolutional networks // IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 4700 [19] Cao Y, Huang Z L, Zhang W, et al. Urban sound event classification with the N-order dense convolutional network. J Xidian Univ Nat Sci, 2019, 46(6): 9 (曹毅, 黄子龙, 张威, 等. N-DenseNet的城市声音事件分类模型. 西安电子科技大学学报: 自然科学版, 2019, 46(6):9) [20] Zhang S, Gong Y H, Wang J J. The development of deep convolutional neural networks and its application in computer vision. Chin J Comput, 2019, 42(3): 453 (张顺, 龚怡宏, 王进军. 深度卷积神经网络的发展及其在计算 机视觉领域的应用. 计算机学报, 2019, 42(3):453) [21] [22] Zhou F Y, Jin L P, Dong J. Review of convolutional neural networks. Chin J Comput, 2017, 40(6): 1229 (周飞燕, 金林鹏, 董军. 卷积神经网络研究综述. 计算机学报, 2017, 40(6):1229) Yi J Y, Tao J H, Liu B, et al. Transfer learning for acoustic modeling of noise robust speech recognition. J Tsinghua Univ Sci Technol, 2018, 58(1): 55 (易江燕, 陶建华, 刘斌, 等. 基于迁移学习的噪声鲁棒性语音识 别声学建模. 清华大学学报: 自然科学版, 2018, 58(1):55) [23] Xue J B, Han J Q, Zheng T R, et al. A multi-task learning framework for overcoming the catastrophic forgetting in automatic speech recognition[J/OL]. arXiv preprint (2019-04-17)[2019-10- 10]. https://arxiv.org/abs-/1904.08039 [24] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality // Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2.Canada, 2013: 3111 [25] Povey D, Ghoshal A, Boulianne G, et al. The Kaldi speech recognition toolkit // IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. Big Island, 2011 [26] Paszke A, Gross S, Chintala S, et al. Automatic differentiation in PyTorch // 31st Conference on Neural Information Processing Systems. Long Beach, 2017 [27] Shan C, Weng C, Wang G, et al. Component fusion: learning replaceable language model component for end-to-end speech recognition system // IEEE International Conference on Acoustics, Speech and Signal Processing. Brighton, 2019: 5361 [28] 张 威等: 基于 DL-T 及迁移学习的语音识别研究 · 441 ·