正在加载图片...
440 工程科学学报,第43卷,第3期 (1)从表1与图5可得出:论文构建的RNN-T modeling in speech recognition:the shared views of four research 基线模型相较于文献[15]基线模型,其验证集与 groups.IEEE Signal Process Mag,2012,29(6):82 测试集预测错误率分别降低9.87%、9.90%,证明了 [2]Graves A,Mohamed A.Hinton G E.Speech recognition with deep recurrent neural networks /2013 IEEE International Conference 本文构建的基线模型的有效性: on Acoustics,Speech and Signal Processing.Vancouver,2013: (2)基于图5及图6可得出,DL-T模型收敛 6645 速度相较于RNN-T模型更快,其值收敛于0.01~0.4 [3] Seltzer M L,Ju Y C,Tashev I,et al.In-car media search./EEE 范围,验证了DL-T可有效改善RNN-T收敛速度; Signal Process Mag,2011,28(4):50 (3)从表1与表2可得出,DL-T相较于RNN-T [4] Yu D,Deng L.Analytical Deep Learning:Speech Recognition 基线模型在验证集及测试集错误率分别相对降低 Practice.Yu K,Qian Y M,Translated.5th ed.Beijing:Publishing 3.61%、2.94%,其最终错误率降至10.34%,表明 House of Electronic Industry,2016 (俞栋,邓力.解析深度学习:语音识别实践.俞凯,钱彦旻,译 DL-T可降低声学模型预测的错误率; 5版.北京:电子工业出版社,2016) (4)值得指出的是:“DE4D2(TL+LM)”模型相 [5]Peddinti V,Wang Y M.Povey D.et al.Low latency acoustic 较于SA-T模型吲,在验证集和测试集上分别相对 modeling using temporal convolution and LSTMs.IEEE Signal 降低4.45%、1.15%,且其相较于LAS模型1在测 Process Lett,2018,25(3):373 试集上预测错误率降低2.08%,进一步证明了 [6]Povey D.Cheng G F.Wang Y M,et al.Semi-orthogonal low-rank DL-T可显著降低声学模型错误率及其对于声学 matrix factorization for deep neural networks /Conference of the 建模的优越性 International Speech Communication Association.Hyderabad, 2018:3743 4结论 [7] Xing A H,Zhang P Y,Pan J L,et al.SVD-based DNN pruning and retraining.JTsinghua Univ Sci Technol,2016,56(7):772 以RNN-T端到端语音识别声学模型为研究 (刑安吴,张鹏远,潘接林,等.基于SVD的DNN裁剪方法和重训 对象,针对其在语音识别时存在预测错误率高、收 练.清华大学学报:自然科学版,2016,56(7):772) 敛速度慢的问题,提出了DL-T声学模型及适用 [8] Graves A,Fernandez S,Gomez F,et al.Connectionist temporal 于DL-T的迁移学习方法. classification:labelling unsegmented sequence data with recurrent (1)在研究RNN-T声学模型的基础上,搭建 neural networks ll Proceedings of the 23rd International 了该声学模型系统 Conference on Machine Learning.Pittsburgh,2006:369 [9] (2)提出了一种DL-T声学建模方法,通过在 Zhang Y,Pezeshki M,Brakel P.et al.Towards end-to-end speech recognition with deep convolutional neural networks /Conference 编码网络中融入DenseNet网络结构,其不仅能提 of the International Speech Communication Association 取语音高维特征便于序列建模,又可加快模型训 California,2016:410 练的收敛速度 [10]Zhang W,Zhai M H,Huang Z L,et al.Towards end-to-end speech (3)提出了一种适用于DL-T的迁移学习方 recognition with deep multipath convolutional neural networks / 法,该方法主要在初始模型上重训练得到更优声 12th International Conference on Intelligent Robotics and 学模型,其可显著地提升声学模型准确率 Applications.Shenyang,2019:332 [11]Zhang S L,Lei M.Acoustic modeling with DFSMN-CTC and (4)基于Aishell-1开展了语音识别的研究, joint CTC-CE learning /Conference of the International Speech 结果表明,相较于文献[I5]基线模型RNN-T, Communication Association.Hyderabad,2018:771 DL-T在验证集及测试集预测错误率分别相对降 [12]Dong L H,Xu S,Xu B.Speech-transformer:a no-recurrence 低13.13%、12.52%,且其相较于SA-T、LAS声学 sequence-to-sequence model for speech recognition /IEEE 模型测试集预测错误率分别相对降低115%、 International Conference on Acoustics.Speech and Signal 2.08%.进一步证明了DL-T可提升声学模型训练 Processing.Calgary,2018:5884 收敛速度 [13]Graves A.Sequence transduction with recurrent neural networks// 论文研究内容对以RNN-T构建的语音识别声 Proceedings of the 29th International Conference on Machine 学模型在模型优化、理论研究与工程应用等方面 Learning.Edinburgh,2012:235 [14]Rao K,Sak H,Prabhavalkar R.Exploring architectures,data and 均具有一定的指导意义 units for streaming end-to-end speech recognition with RNN- transducer /l 2017 IEEE Automatic Speech Recognition and 参考文献 Understanding Workshop (ASRU).Okinawa,2017 [1]Hinton G,Deng L,Yu D,et al.Deep neural networks for acoustic [15]Tian Z K,Yi J Y,Tao J H,et al.Self-attention transducers for end-(1)从表 1 与图 5 可得出:论文构建的 RNN–T 基线模型相较于文献 [15] 基线模型,其验证集与 测试集预测错误率分别降低 9.87%、9.90%,证明了 本文构建的基线模型的有效性; (2)基于图 5 及图 6 可得出,DL–T 模型收敛 速度相较于 RNN–T 模型更快,其值收敛于 0.01~0.4 范围,验证了 DL–T 可有效改善 RNN–T 收敛速度; (3)从表 1 与表 2 可得出,DL–T 相较于 RNN–T 基线模型在验证集及测试集错误率分别相对降低 3.61%、 2.94%,其最终错误率降 至 10.34%, 表 明 DL–T 可降低声学模型预测的错误率; (4)值得指出的是:“DE4D2(TL+LM)”模型相 较于 SA–T 模型[15] ,在验证集和测试集上分别相对 降低 4.45%、1.15%,且其相较于 LAS 模型[28] 在测 试集上预测错误率降 低 2.08%,进一步证明 了 DL–T 可显著降低声学模型错误率及其对于声学 建模的优越性. 4    结论 以 RNN–T 端到端语音识别声学模型为研究 对象,针对其在语音识别时存在预测错误率高、收 敛速度慢的问题,提出了 DL–T 声学模型及适用 于 DL–T 的迁移学习方法. (1)在研究 RNN–T 声学模型的基础上,搭建 了该声学模型系统. (2)提出了一种 DL–T 声学建模方法,通过在 编码网络中融入 DenseNet 网络结构,其不仅能提 取语音高维特征便于序列建模,又可加快模型训 练的收敛速度. (3)提出了一种适用于 DL–T 的迁移学习方 法,该方法主要在初始模型上重训练得到更优声 学模型,其可显著地提升声学模型准确率. ( 4)基于 Aishell– 1 开展了语音识别的研究, 结果表明 ,相较于文 献 [15] 基线模 型 RNN –T, DL–T 在验证集及测试集预测错误率分别相对降 低 13.13%、12.52%,且其相较于 SA–T、LAS 声学 模型测试集预测错误率分别相对降 低 1.15%、 2.08%,进一步证明了 DL–T 可提升声学模型训练 收敛速度. 论文研究内容对以 RNN-T 构建的语音识别声 学模型在模型优化、理论研究与工程应用等方面 均具有一定的指导意义. 参    考    文    献 [1] Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups. IEEE Signal Process Mag, 2012, 29(6): 82 Graves A, Mohamed A, Hinton G E. Speech recognition with deep recurrent neural networks // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing.  Vancouver,  2013: 6645 [2] Seltzer  M  L,  Ju  Y  C,  Tashev  I,  et  al.  In-car  media  search. IEEE Signal Process Mag, 2011, 28(4): 50 [3] Yu  D,  Deng  L. Analytical Deep Learning: Speech Recognition Practice. Yu K, Qian Y M, Translated. 5th ed. Beijing: Publishing House of Electronic Industry, 2016 (俞栋, 邓力. 解析深度学习: 语音识别实践. 俞凯, 钱彦旻, 译. 5版. 北京: 电子工业出版社, 2016) [4] Peddinti  V,  Wang  Y  M,  Povey  D,  et  al.  Low  latency  acoustic modeling  using  temporal  convolution  and  LSTMs. IEEE Signal Process Lett, 2018, 25(3): 373 [5] Povey D, Cheng G F, Wang Y M, et al. Semi-orthogonal low-rank matrix factorization for deep neural networks // Conference of the International Speech Communication Association.  Hyderabad, 2018: 3743 [6] Xing A H, Zhang P Y, Pan J L, et al. SVD-based DNN pruning and retraining. J Tsinghua Univ Sci Technol, 2016, 56(7): 772 (刑安昊, 张鹏远, 潘接林, 等. 基于SVD的DNN裁剪方法和重训 练. 清华大学学报: 自然科学版, 2016, 56(7):772) [7] Graves  A,  Fernandez  S,  Gomez  F,  et  al.  Connectionist  temporal classification: labelling unsegmented sequence data with recurrent neural  networks  // Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh, 2006: 369 [8] Zhang Y, Pezeshki M, Brakel P, et al. Towards end-to-end speech recognition with deep convolutional neural networks // Conference of the International Speech Communication Association. California, 2016: 410 [9] Zhang W, Zhai M H, Huang Z L, et al. Towards end-to-end speech recognition  with  deep  multipath  convolutional  neural  networks  // 12th International Conference on Intelligent Robotics and Applications. Shenyang, 2019: 332 [10] Zhang  S  L,  Lei  M.  Acoustic  modeling  with  DFSMN-CTC  and joint  CTC-CE  learning  // Conference of the International Speech Communication Association. Hyderabad, 2018: 771 [11] Dong  L  H,  Xu  S,  Xu  B.  Speech-transformer:  a  no-recurrence sequence-to-sequence  model  for  speech  recognition  // IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, 2018: 5884 [12] Graves A. Sequence transduction with recurrent neural networks // Proceedings of the 29th International Conference on Machine Learning. Edinburgh, 2012: 235 [13] Rao K, Sak H, Prabhavalkar R. Exploring architectures, data and units  for  streaming  end-to-end  speech  recognition  with  RNN￾transducer  //  2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). Okinawa, 2017 [14] [15] Tian Z K, Yi J Y, Tao J H, et al. Self-attention transducers for end- · 440 · 工程科学学报,第 43 卷,第 3 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有