工程科学学报，第 37 卷，第 9 期: 1212--1217，2015

正在加载图片...

工程科学学报，第37卷，第9期：1212-1217,2015年9月 Chinese Journal of Engineering,Vol.37,No.9:1212-1217,September 2015 D0l:10.13374/j.issn2095-9389.2015.09.015:http://journals.ustb.edu.cn 基于卷积神经网络的连续语音识别张晴晴四，刘勇，潘接林，颜永红中国科学院语言声学与内容理解重点实验室，北京100190 ☒通信f作者，E-mail:changqingqing(@hccl.ioa.ac.cn 摘要在语音识别中，卷积神经网络(convolutional neural networks,CNNs)相比于目前广泛使用的深层神经网络(deep neural network,DNNs),能在保证性能的同时，大大压缩模型的尺寸.本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况，并与目前广泛使用的深层神经网络模型进行了对比.在标准语音识别库TMT以及大词表非特定人电话自然口语对话数据库上的实验结果证明，相比传统深层神经网络模型，卷积神经网络明显降低模型规模的同时，识别性能更好，且泛化能力更强关键词卷积神经网络：连续语音识别：权值共享：聚合；泛化性分类号TN912.34 Continuous speech recognition by convolutional neural networks ZHANG Qing-ging,LIU Yong,PAN Jie-in,YAN Yong-hong Key Laboratory of Speech Acoustics and Content Understanding,Chinese Academy of Sciences,Beijing 100190,China Corresponding author,E-mail:zhangqingqing@hcel.ioa.ac.cn ABSTRACT Convolutional neural networks (CNNs),which show success in achieving translation invariance for many image processing tasks,were investigated for continuous speech recognition.Compared to deep neural networks(DNNs),which are proven to be successful in many speech recognition tasks nowadays,CNNs can reduce the neural network model sizes significantly,and at the same time achieve even a better recognition accuracy.Experiments on standard speech corpus TIMIT and conversational speech corpus show that CNNs outperform DNNs in terms of the accuracy and the generalization ability. KEY WORDS convolutional neural networks:continuous speech recognition:weight sharing:pooling:generalization 语音识别是人机交互的一项关键技术，在过去的 neural network,CD-DNN)进行声学模型建模，并在大几十年里取得了飞速的进展.传统的声学建模方式基词汇连续语音识别上取得相对于经鉴别性训练于隐马尔科夫框架，采用混合高斯模型(Gaussian mix--HMM系统有句错误率相对下降23.2%的性能改 ture model,GMM)来描述语音声学特征的概率分布. 善四，掀起了深层神经网络在语音识别领域复兴的由于隐马尔科夫模型属于典型的浅层学习结构，仅含热潮.目前包括微软、IBM和Google在内的许多国际单个将原始输入信号转换到特定问题空间特征的简单知名语音研究机构都投入了大量的精力开展深层神结构，在海量数据下其性能受到限制.人工神经网络经网络的研究 (artificial neural network,ANN)是人们为模拟人类大实际上，人工神经网络的应用非常广泛，种类也多脑存储及处理信息的一种计算模型.近年来，微软利种多样.在文本、图像识别中，另一种更为有效的人工用上下文相关的深层神经网(context dependent deep 神经网络结构被普遍使用：卷积神经网络(convolution- 收稿日期：2014-0508 基金项目：国家自然科学基金资助项目(11161140319,91120001,61271426)：中国科学院战略性先导科技专项(XDA06030100, XDA06030500):国家高技术研究发展计划资助项目(2012AA012503):中国科学院重点部署项目(KGZD-EW-103-2)工程科学学报，第 37 卷，第 9 期: 1212--1217，2015 年 9 月 Chinese Journal of Engineering，Vol． 37，No． 9: 1212--1217，September 2015 DOI: 10． 13374 /j． issn2095--9389． 2015． 09． 015; http: / /journals． ustb． edu． cn 基于卷积神经网络的连续语音识别张晴晴，刘勇，潘接林，颜永红中国科学院语言声学与内容理解重点实验室，北京 100190  通信作者，E-mail: zhangqingqing@ hccl． ioa． ac． cn 摘要在语音识别中，卷积神经网络( convolutional neural networks，CNNs) 相比于目前广泛使用的深层神经网络( deep neural network，DNNs) ，能在保证性能的同时，大大压缩模型的尺寸．本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况，并与目前广泛使用的深层神经网络模型进行了对比．在标准语音识别库 TIMIT 以及大词表非特定人电话自然口语对话数据库上的实验结果证明，相比传统深层神经网络模型，卷积神经网络明显降低模型规模的同时，识别性能更好，且泛化能力更强．关键词卷积神经网络; 连续语音识别; 权值共享; 聚合; 泛化性分类号 TN912. 34 Continuous speech recognition by convolutional neural networks ZHANG Qing-qing ，LIU Yong，PAN Jie-lin，YAN Yong-hong Key Laboratory of Speech Acoustics and Content Understanding，Chinese Academy of Sciences，Beijing 100190，China  Corresponding author，E-mail: zhangqingqing@ hccl． ioa． ac． cn ABSTＲACT Convolutional neural networks ( CNNs) ，which show success in achieving translation invariance for many image processing tasks，were investigated for continuous speech recognition． Compared to deep neural networks ( DNNs) ，which are proven to be successful in many speech recognition tasks nowadays，CNNs can reduce the neural network model sizes significantly，and at the same time achieve even a better recognition accuracy． Experiments on standard speech corpus TIMIT and conversational speech corpus show that CNNs outperform DNNs in terms of the accuracy and the generalization ability． KEY WOＲDS convolutional neural networks; continuous speech recognition; weight sharing; pooling; generalization 收稿日期: 2014--05--08 基金项目: 国家自然科学基金资助项目 ( 11161140319，91120001，61271426 ) ; 中国科学院战略性先导科技专项 ( XDA06030100， XDA06030500) ; 国家高技术研究发展计划资助项目( 2012AA012503) ; 中国科学院重点部署项目( KGZD--EW--103--2) 语音识别是人机交互的一项关键技术，在过去的几十年里取得了飞速的进展．传统的声学建模方式基于隐马尔科夫框架，采用混合高斯模型( Gaussian mixture model，GMM) 来描述语音声学特征的概率分布．由于隐马尔科夫模型属于典型的浅层学习结构，仅含单个将原始输入信号转换到特定问题空间特征的简单结构，在海量数据下其性能受到限制．人工神经网络 ( artificial neural network，ANN) 是人们为模拟人类大脑存储及处理信息的一种计算模型．近年来，微软利用上下文相关的深层神经网( context dependent deep neural network，CD--DNN) 进行声学模型建模，并在大词汇连续语音识别上取得相对于经鉴别性训练 HMM 系统有句错误率相对下降 23. 2% 的性能改善［1］，掀起了深层神经网络在语音识别领域复兴的热潮．目前包括微软、IBM 和 Google 在内的许多国际知名语音研究机构都投入了大量的精力开展深层神经网络的研究［1 － 3］．实际上，人工神经网络的应用非常广泛，种类也多种多样．在文本、图像识别中，另一种更为有效的人工神经网络结构被普遍使用: 卷积神经网络( convolution-

向下翻页>>

点击下载：基于卷积神经网络的连续语音识别