第30卷第3期 南华大学学报(自然科学版 16年9月 Journal of University of South China( Science and Technology 文章编号:1673-0062(2016)03-0066-07 卷积神经网络的研究进展综述 杨斌,钟金英 (南华大学电气工程学院,湖南衡阳421001) 摘要:深度学习( deep learning,DL)强大的建模和表征能力很好地解决了特征表达 能力不足和维数灾难等模式识别方向的关键问题,受到各国学者的广泛关注而仿生 物视觉系统的卷积神经网络( convolutional neural network,CNN是DL中最先成功的 案例,其局部感受野、权值共享和降采样三个特点使之成为智能机器视觉领域的研究 热点对此,本文综述CN最新研究成果,介绍其发展历程、最新理论模型及其在语 音、图像和视频中的应用,并对CNN未来的发展潜力和发展方向进行了展望和总结 关键词:深度学习;卷积神经网络;特征提取;智能识别 中图分类号:TP412.14 文献标识码:A Review of convolution neural network YANG Bin, ZHONG Jin-ying School of Electrical Engineering, University of South China, Hengyang, Hunan 421001, China) Abstract: Deep learning theory has received extensive attention of scholars all over the orld because of its powerful modeling and high representational abilities. It solved the key problems of pattern recognition, such as the insufficiency of expression ability and dimen- sionality curse Convolutional neural network CNN) is a successful component of deep learning, which imitates the biological vision system. Local receptive field, sharing weights and down sampling are three important characteristics of Cnn which lead it to be the hots- pot in the field of intelligent machine vision. Therefore, this paper summarizes the latest re- earch works of CNN. Firstly, the history of CNN is introduced. Secondly, state-of-the-art odified models of CNN are reviewed. Then, the applications of CNN in speech, image and video processing are illustrated. Finally, the development trends of CNN are concluded 收稿日期:2016-04-05 基金项目:南华大学青年英才支持计划基金资助项目(聘字2014004号);国家自然科学基金资助项目(61102108); 南华大学校内博士启动基金资助项日(2011XQD29);湖南省优秀博士学位论文基金资助项 (YB2013B039) 作者简介:杨斌(1980-),男,河南平顶山人,南华大学电气工程学院副教授,博士主要研究方向:多传感器信息融 合理论、多分辨率表示理论、压缩传感理论、深度学习理论和模式识别理论
第 30 卷第 3 期 2016 年 9 月 南华大学学报(自然科学版) Journal of University of South China(Science and Technology) Vol 30 No 3 Sep 2016 收稿日期:2016-04-05 基金项目:南华大学青年英才支持计划基金资助项目(聘字 2014 ̄004 号)ꎻ国家自然科学基金资助项目(61102108)ꎻ 南华大学 校 内 博 士 启 动 基 金 资 助 项 目 ( 2011XQD29)ꎻ 湖 南 省 优 秀 博 士 学 位 论 文 基 金 资 助 项 目 (YB2013B039) 作者简介:杨 斌(1980-)ꎬ男ꎬ河南平顶山人ꎬ南华大学电气工程学院副教授ꎬ博士.主要研究方向:多传感器信息融 合理论、多分辨率表示理论、压缩传感理论、深度学习理论和模式识别理论. 文章编号:1673-0062(2016)03-0066-07 卷积神经网络的研究进展综述 杨 斌ꎬ钟金英 (南华大学 电气工程学院ꎬ湖南 衡阳 421001) 摘 要:深度学习(deep learningꎬDL)强大的建模和表征能力很好地解决了特征表达 能力不足和维数灾难等模式识别方向的关键问题ꎬ受到各国学者的广泛关注.而仿生 物视觉系统的卷积神经网络(convolutional neural networkꎬCNN)是 DL 中最先成功的 案例ꎬ其局部感受野、权值共享和降采样三个特点使之成为智能机器视觉领域的研究 热点.对此ꎬ本文综述 CNN 最新研究成果ꎬ介绍其发展历程、最新理论模型及其在语 音、图像和视频中的应用ꎬ并对 CNN 未来的发展潜力和发展方向进行了展望和总结. 关键词:深度学习ꎻ卷积神经网络ꎻ特征提取ꎻ智能识别 中图分类号:TP412.14 文献标识码:A Review of Convolution Neural Network YANG BinꎬZHONG Jin ̄ying (School of Electrical EngineeringꎬUniversity of South ChinaꎬHengyangꎬHunan 421001ꎬChina) Abstract:Deep learning theory has received extensive attention of scholars all over the world because of its powerful modeling and high representational abilities.It solved the key problems of pattern recognitionꎬsuch as the insufficiency of expression ability and dimen ̄ sionality curse.Convolutional neural network ( CNN) is a successful component of deep learningꎬwhich imitates the biological vision system.Local receptive fieldꎬsharing weights and down sampling are three important characteristics of CNN which lead it to be the hots ̄ pot in the field of intelligent machine vision.Thereforeꎬthis paper summarizes the latest re ̄ search works of CNN. Firstlyꎬthe history of CNN is introduced. Secondlyꎬ state ̄of ̄the ̄art modified models of CNN are reviewed.Thenꎬthe applications of CNN in speechꎬimage and video processing are illustrated.Finallyꎬthe development trends of CNN are concluded
30卷第3期 斌等:卷积神经网络的研究进展综述 key words: deep learning; convolutional neural network feature extraction; intelligent rec 1卷积神经网络模型 不能高效地学习数据深层次结构信息,导致神经 网络技术的发展停滞不前.CNN打破了原有全链 20世纪40年代末提出MP神经元模型,人接神经网络的技术瓶颈,获得了全球研究者的广 工神经网络的研究由此拉开序幕.1986年, Rumel-泛关注CNN受启发于猫的视觉系统结构,即以局 hat等学者提出反向传播网络学习算法(back部感受野来平铺覆盖整个视野区域.如图1所示 propagation,BP)1,神经网络开始在各领域得到若以10001000的输入图像为例,卷积层的节点 广泛应用继BP神经网络之后,一系列分类器如数为10°,则全连接方式a需要102个权值假设 支持向量机、 Boosting和最大熵等方法相继提出.图1b采用10×10的局部感受野,则其权值减少为 这些算法通常只含一个隐藏层,属于浅层学习 108个若系统有100个滤波器,在局部感受野的 人类大脑的深度层次结构相差较大2.且全连接基础上,CNN采用权值共享c可进一步将权值个 的神经网络训练时间长,参数依靠经验和技巧设数减少到104.由此可见,CNN的权值共享和局部 定,容易过拟合和陷入局部最优解由于缺乏深度感受野可以大幅度的减少网络参数. a全连接 b局部感受野 c权值共享 图1卷积神经网络减少参数的过程 Fig. 1 The process of reducing the parameters of convolutional neural network 与BP类似,CNN采用前向传播计算出输出采样处理,在减少数据量的同时保留有用的信息, 值,反向传播调整权重和偏置.如图2所示,经典也使CNN具有抗畸变的能力.全连接层(如 的CNN包括卷积层(C)、降采样层(S)和全连接 softmax层)一般位于网络尾端,对前面逐层变换 层(F)三部分3.卷积层的卷积核本质就是特征和映射提取的特征进行回归分类等处理,也可作 提取器,配合深度网络模型可以自动提取输入信输出层,把训练得到的特征图汇总成特征向量,为 号的深层信息.降采样层即池化层,实现特征图的输入图像的另一种信息表示 输入 C1:6 S4:16 32×32 28×28 5×5C5:120 14×14 高斯连接 f全连接 卷积 降采样 卷积 降采样全连接 图2 LeNet5模型 Fig. 2 The model of LeNet5
第 30 卷第 3 期 杨 斌等:卷积神经网络的研究进展综述 key words:deep learningꎻconvolutional neural networkꎻfeature extractionꎻintelligent rec ̄ ognition 1 卷积神经网络模型 20 世纪 40 年代末提出 M ̄P 神经元模型ꎬ人 工神经网络的研究由此拉开序幕.1986 年ꎬRumel ̄ hart 等学者提出反向传播网络学习算法 ( back propagationꎬBP) [1] ꎬ神经网络开始在各领域得到 广泛应用.继 BP 神经网络之后ꎬ一系列分类器如 支持向量机、Boosting 和最大熵等方法相继提出. 这些算法通常只含一个隐藏层ꎬ属于浅层学习ꎬ与 人类大脑的深度层次结构相差较大[2] .且全连接 的神经网络训练时间长ꎬ参数依靠经验和技巧设 定ꎬ容易过拟合和陷入局部最优解.由于缺乏深度 不能高效地学习数据深层次结构信息ꎬ导致神经 网络技术的发展停滞不前.CNN 打破了原有全链 接神经网络的技术瓶颈ꎬ获得了全球研究者的广 泛关注.CNN 受启发于猫的视觉系统结构ꎬ即以局 部感受野来平铺覆盖整个视野区域.如图 1 所示ꎬ 若以 1000×1000 的输入图像为例ꎬ卷积层的节点 数为 10 6 ꎬ则全连接方式 a 需要 10 12个权值.假设 图 1b 采用 10×10 的局部感受野ꎬ则其权值减少为 10 8 个.若系统有 100 个滤波器ꎬ在局部感受野的 基础上ꎬCNN 采用权值共享 c 可进一步将权值个 数减少到 10 4 .由此可见ꎬCNN 的权值共享和局部 感受野可以大幅度的减少网络参数. 图 1 卷积神经网络减少参数的过程 Fig.1 The process of reducing the parameters of convolutional neural network 与 BP 类似ꎬCNN 采用前向传播计算出输出 值ꎬ反向传播调整权重和偏置.如图 2 所示ꎬ经典 的 CNN 包括卷积层(C)、降采样层(S)和全连接 层(F)三部分[3] .卷积层的卷积核本质就是特征 提取器ꎬ配合深度网络模型可以自动提取输入信 号的深层信息.降采样层即池化层ꎬ实现特征图的 采样处理ꎬ在减少数据量的同时保留有用的信息ꎬ 也使 CNN 具 有 抗 畸 变 的 能 力. 全 连 接 层 ( 如 softmax 层)一般位于网络尾端ꎬ对前面逐层变换 和映射提取的特征进行回归分类等处理ꎬ也可作 输出层ꎬ把训练得到的特征图汇总成特征向量ꎬ为 输入图像的另一种信息表示. 图 2 LeNet5 模型 Fig.2 The model of LeNet5 67
南华大学学报(自然科学版) 016年9月 CNN可能是机器学习领域近十年最成功的式识别会议上关于DL和CNN的研究成果较往年 研究方向,因此本文拟对CNN最新研究成果进行有大幅的提升.2015年9月,微软亚洲研究院的 介绍,并对其预期研究方向进行展望 “深层残差网络”( deep residual networks)在 2卷积神经网络的发展历程 ISⅤRC中获得图像分类、定位以及检测全部项目 的冠军,如分类方面将错误率降低至494%,比人 人类身处大量的数据包围之中,却总能以一眼辨识(错误率5.1%)更精确 种灵巧的方式来获取自己想要的信息对于人工 在大数据时代,各领域争先占领DL的技术 智能领域来说,模仿人脑高效准确地从大量感知制高点,希望找出更强大的模型来揭示海量数据 数据中获得本质信息,一直是模式识别理论研究所承载的丰富信息,对未知事件更精准地预测 的核心挑战2006年,机器学习领域的泰斗 Hinton 指出多层的神经网络结构能够学习到更深刻更本3卷积神经网络模型的改进 质的特征,并通过“逐层初始化”的训练办法克服 近年,围绕CNN的卷积层、降采样层及全连 了传统神经网络训练瓶颈问题,引领了DL的发接层三部分,各国学者不断探索研究,提出了多种 展方向4.从此,深度学习受到了各国学者的广泛形式的改进 关注,谷歌、微软、IBM、百度等拥有大数据的高科31CNN卷积层的改进 技公司相继投入大量资源进行DL理论研究2011 在增加模型深度可以有效增加网络性能的理 年以来,微软研究院和谷歌的语音识别人员采用论基础上, Krichevsky等把CNN的卷积层数加至5 深度神经网络( deep neural network,DN)技术,层,构成了深度卷积神经网络( deep convolutional 使语音识别有了突破性进展,识别误差可降低 eural network,DCN)0. Szegedy等组成的 0%-30%2013年百度宣布成立百度研究院, GoogLeNet小组构建了22层深度网络H,该网络 而其第一个研究重点就是DL.同年10月,比2012ISⅤRC获胜者的网络参数少了12倍,却 Facebook试图通过启用DL这一新的人工智能技能更精确的分类和检测,在2014年的ISⅤRC 术来帮助理解它的用户和相关数据,DL甚至可以举夺冠如何构建更深网络一直是CNN的研究热 仅仅基于那些并未有明确暗示的帖子来理解用户点,2015 ILSVRO的152层“深层残差网络9采 的心情或者预测将要发生的事 用了一个全新的“残差学习”原则指导学习,并重 DL的基本思想是建立模拟人大脑的神经元新定向了深层CNN中的信息流,高效地解决了深 连接结构,在处理具有复杂的数据内部关系时,通层神经网络准确度与层数之间的矛盾 过多个变换分层对数据特征进行描述,进而得到 王冠皓提出了多级金字塔卷积神经网络 数据的本质表示.常见的DL模型有CNN、深( multi-level pyramid CNN)2),CNN每层先使用 度信任网络( deep belief networks,DBN)切和栈稀疏自编码器预训练,再使用金字塔卷积神经网 式自动编码器( stacked auto-encoder,SAE).其络对整个网络训练,将低层的滤波权值共享到高 中,CNN是DL中最成功的一个分支,是对著名的层,保证训练时的卷积滤波只在小尺寸图像上进 Hubel-Wiesel生物视觉模型的模拟,通过多网络行,大尺度图像只进行一次向前传播,加快训练速 结构、卷积运算和降采样来实现对信号深层信息度此外, Zhang在 Image Net上训练具有7层的快 提取CNN把特征提取归入模型学习,把特征学习速非线性卷积神经网络,对每层加速以达到对 和分类学习有机结合起来,更有效地实现对图像整个网络加速的目的,速度可达到与 的识别特别是近两年,卷积神经网络受到了更为“ AlexNet"一致的同时,分类精度也提高了 广泛地关注2014年的大型视觉辨识挑战赛(Ima-4.7%为了保证卷积特征不变性, Spangenberg等 geNet Large Scale visual Recognition Challenge,构造了 stride卷积层,省去最大池化层,该网络 ILSVRO)中,几乎所有的参赛队伍都采用了卷积结构相对简单,但其识别效果比常见的卷积层和 神经网络及其变形方法2015年国际机器学习大池化层组合模型更好 会上来自工业界和学术界的各位专家对DL展开3.2CNN降采样层的改进 激烈讨论,指出DL在人类擅长的领域已经取得 常规DCNN只能对尺度固定的图像进行处 了令人振奋的成功,未来的探索方向是人类并不理,对尺度不同的输入图像需人工裁剪或拉伸之 擅长的任务、数据集2015年国际计算机视觉与模后才输入网络,会造成图像失真而影响分类的准
南华大学学报(自然科学版) 2016 年 9 月 CNN 可能是机器学习领域近十年最成功的 研究方向ꎬ因此本文拟对 CNN 最新研究成果进行 介绍ꎬ并对其预期研究方向进行展望. 2 卷积神经网络的发展历程 人类身处大量的数据包围之中ꎬ却总能以一 种灵巧的方式来获取自己想要的信息.对于人工 智能领域来说ꎬ模仿人脑高效准确地从大量感知 数据中获得本质信息ꎬ一直是模式识别理论研究 的核心挑战.2006 年ꎬ机器学习领域的泰斗 Hinton 指出多层的神经网络结构能够学习到更深刻更本 质的特征ꎬ并通过“逐层初始化”的训练办法克服 了传统神经网络训练瓶颈问题ꎬ引领了 DL 的发 展方向[4] .从此ꎬ深度学习受到了各国学者的广泛 关注ꎬ谷歌、微软、IBM、百度等拥有大数据的高科 技公司相继投入大量资源进行 DL 理论研究.2011 年以来ꎬ微软研究院和谷歌的语音识别人员采用 深度神经网络( deep neural networkꎬDNN) 技术ꎬ 使语音识别有了突破性进展ꎬ识别误差可降低 20% ~ 30%.2013 年百度宣布成立百度研究院ꎬ 而其 第 一 个 研 究 重 点 就 是 DL. 同 年 10 月ꎬ Facebook 试图通过启用 DL 这一新的人工智能技 术来帮助理解它的用户和相关数据ꎬDL 甚至可以 仅仅基于那些并未有明确暗示的帖子来理解用户 的心情或者预测将要发生的事. DL 的基本思想是建立模拟人大脑的神经元 连接结构ꎬ在处理具有复杂的数据内部关系时ꎬ通 过多个变换分层对数据特征进行描述ꎬ进而得到 数据的本质表示[5] .常见的 DL 模型有 CNN [6] 、深 度信任网络 ( deep belief networksꎬDBN) [7]和栈 式自动编码器 (stacked auto ̄encoderꎬSAE) [8] .其 中ꎬCNN 是 DL 中最成功的一个分支ꎬ是对著名的 Hubel ̄Wiesel 生物视觉模型的模拟ꎬ通过多网络 结构、卷积运算和降采样来实现对信号深层信息 提取.CNN 把特征提取归入模型学习ꎬ把特征学习 和分类学习有机结合起来ꎬ更有效地实现对图像 的识别.特别是近两年ꎬ卷积神经网络受到了更为 广泛地关注.2014 年的大型视觉辨识挑战赛(Ima ̄ geNet Large Scale Visual Recognition Challengeꎬ ILSVRC)中ꎬ几乎所有的参赛队伍都采用了卷积 神经网络及其变形方法.2015 年国际机器学习大 会上来自工业界和学术界的各位专家对 DL 展开 激烈讨论ꎬ指出 DL 在人类擅长的领域已经取得 了令人振奋的成功ꎬ未来的探索方向是人类并不 擅长的任务、数据集.2015 年国际计算机视觉与模 式识别会议上关于 DL 和 CNN 的研究成果较往年 有大幅的提升.2015 年 9 月ꎬ微软亚洲研究院的 “深 层 残 差 网 络” ( deep residual networks ) 在 ILSVRC 中获得图像分类、定位以及检测全部项目 的冠军ꎬ如分类方面将错误率降低至 4.94%ꎬ比人 眼辨识(错误率 5.1%)更精确[9] . 在大数据时代ꎬ各领域争先占领 DL 的技术 制高点ꎬ希望找出更强大的模型来揭示海量数据 所承载的丰富信息ꎬ对未知事件更精准地预测. 3 卷积神经网络模型的改进 近年ꎬ围绕 CNN 的卷积层、降采样层及全连 接层三部分ꎬ各国学者不断探索研究ꎬ提出了多种 形式的改进. 3.1 CNN 卷积层的改进 在增加模型深度可以有效增加网络性能的理 论基础上ꎬKrizhevsky 等把 CNN 的卷积层数加至 5 层ꎬ构成了深度卷积神经网络(deep convolutional neural networkꎬ DCNN ) [10] . Szegedy 等 组 成 的 GoogLeNet 小组构建了 22 层深度网络 [11] ꎬ该网络 比 2012 ILSVRC 获胜者的网络参数少了 12 倍ꎬ却 能更精确的分类和检测ꎬ在 2014 年的 ILSVRC 一 举夺冠.如何构建更深网络一直是 CNN 的研究热 点ꎬ2015 ILSVRC 的 152 层“深层残差网络” [9] 采 用了一个全新的“残差学习”原则指导学习ꎬ并重 新定向了深层 CNN 中的信息流ꎬ高效地解决了深 层神经网络准确度与层数之间的矛盾. 王冠皓提出了多级金字塔卷积神经网络 (multi ̄level pyramid CNN) [12] ꎬCNN 每层先使用 稀疏自编码器预训练ꎬ再使用金字塔卷积神经网 络对整个网络训练ꎬ将低层的滤波权值共享到高 层ꎬ保证训练时的卷积滤波只在小尺寸图像上进 行ꎬ大尺度图像只进行一次向前传播ꎬ加快训练速 度.此外ꎬ Zhang 在 ImageNet 上训练具有 7 层的快 速非线性卷积神经网络[13] ꎬ对每层加速以达到对 整 个 网 络 加 速 的 目 的ꎬ 速 度 可 达 到 与 “AlexNet” [14] 一致的同时ꎬ 分类精度也提高了 4 7%.为了保证卷积特征不变性ꎬSpringenberg 等 构造了 stride 卷积层[15] ꎬ省去最大池化层ꎬ该网络 结构相对简单ꎬ但其识别效果比常见的卷积层和 池化层组合模型更好. 3.2 CNN 降采样层的改进 常规 DCNN 只能对尺度固定的图像进行处 理ꎬ对尺度不同的输入图像需人工裁剪或拉伸之 后才输入网络ꎬ会造成图像失真而影响分类的准 68
30卷第3 杨斌等:卷积神经网络的研究进展综述 确率He等在DCNN的卷积层尾端引入空间金字人进一步提出了 faster R-CNN,构建一个耗时极 塔降采样层去除固定尺度的约束,降采样获得与少且精确度高的全卷积层区域提取方案网络 全连接层相匹配的特征多尺度训练得到的空间( region proposal network,RPN),从提区域方案到 金字塔降采样网络( spatial pyramid pool 目标检测总共耗时198ms,在ⅤOC2007上mAP network,sPP-net)可处理任意尺度的图像也从FRCN的70%提高到73.2% Rippel等提出了频谱池化的方法{),将CNN进 无论卷积层的改进,还是降采样层及全连接 行傅里叶变换来把耗时的卷积操作替换为乘积操层的改进都是针对网络的学习能力及学习效率 作可加速网络训练,通过截取信号在频域特征表两方面的改进因为CN的学习能力可以通过调 示来降低维度,不仅可以保留更多的信息,还比其节网络的深度来增强,增加模型深度可以有效增 它的池化方法更灵活,提高了利用傅里叶变换计加网络性能为了使CNN更好地模拟大脑复杂的 算卷积效率 深层次神经网络,增加网络深度逐渐成为一种趋 zeiler等提出了反卷积神经网络( deconvolu-势另外,CNN的卷积核相当于特征提取器,可以 tional networks,DN),.用非监督方法对自然有效地提取输入信号的有用信息,但是耗时是卷 图像自顶向下进行卷积分解,再组合滤波器组学积操作必须重视的问题,针对这个问题,提出了 习到的卷积特征,获得一个特征丰富具有鲁棒性系列的加速方法,在一定程度上降低了训练和测 的图像表征但大量卷积操作也使DN比自底向试的时间但整体上,与传统的非神经网络方法相 上的编码模型耗时,因而zelr在DN每层之间采比,CN的耗时还是比较大,需要进一步改善如 用3D最大池化层,引入一组潜在开关变量,使得何在提高网络学习能力和减少耗时之间找到一个 模型可以根据多种输入模式自适应调整构建了平衡点依旧是CN面临的问题 由卷积稀疏编码层和最大降采样层交替的自适应 反卷积神经网络( adaptive deconvolutional4卷积神经网络算法的应用 networks,ADN)),在中间层和高层特征学习都 在 LeNet5成功的用于银行手写支票识别之 能取得不错的效果 后,关于CNN模型在不同的数据集和实际生产应 33CN全连接层的改进 用的研究越来越多,网络多样化决定其应用对象 为了克服过拟合问题, Krichevsky在CNN两 个全连接层采用了“ Dropout”策略则,每次送代各式各样 在语音识别方面,主流自动语音识别系统通 以0.5的概率使一些随机分布的节点不工作但权常使用隐形马尔科夫模型和混合高斯模型GMM 值保留,之后又可能参与训练该策略可以防止某 HMM,而DNN可以建模相关性复杂的语音特征, 些特征仅在其它特殊特征出现下才产生作用的情用 DNN-HMM模型2)比 GMM-HMM对说话方式 况,从而有效地避免了网络中特征之间的相互依 和环境具有更好的鲁棒性.O0sama等在DN 赖性孙艳丰提出了基于改进 Fisher准则的深度 HMM模型后面加上局部滤波层和最大采样 CNN识别算法( fisher-based convolution neural net wotk,FCNN),反向传播采用 Fisher的约束准层,获得更高性能的多个说话者语音识别系 则,加入判别准则的能量函数,在迭代求解权值的 统随后发现在处理语音特征时有限的权值共享 搜索空间受到判别条件约束影响,从全局搜索缩更具有优势,对于不同的频率通道使用单独的权 小到更有利于分类的局部空间,从而使权值更快值,学习不同的特征更适合语音识别 地逼近便于分类的最优值 在图像识别领域,Su等设计三层CNN用于 Girshick等提出基于区域卷积神经网络(Re估计脸部关键点的位置x1,利用了脸部的纹理环 gions with CNN features,RCNN){21),先找兴趣区域境信息来锁定关键点,训练网络时考虑了关键点 再进行检测和分割由于RCN兴趣区域中心点的几何位置分布,从而克服了传统人脸识别受遮 的运算量大而耗时,提出 fast E:CN挡姿势变换和光照等影响大的缺点闫鹏使用级 (FRCN)(21,把全连接层的矩阵进行SVD分解 速度提高了30%对于给定的图像和目标框方案 Q Ren S He K. Girshick R. et al. Faster R-CNN: towards real- FRCN进行目标检测耗时60~330ms,忽略了在区 time object detection with region proposal Networks [J].IEEE actions on Pattern Analysis and Machine Intelligence,2016.(已接收 域方案提取所需的时间(约1.51s).因此,Ren等还未发表)
第 30 卷第 3 期 杨 斌等:卷积神经网络的研究进展综述 确率.He 等在 DCNN 的卷积层尾端引入空间金字 塔降采样层去除固定尺度的约束ꎬ降采样获得与 全连接层相匹配的特征.多尺度训练得到的空间 金 字 塔 降 采 样 网 络 ( spatial pyramid pooling networkꎬSPP ̄net ) [16] 可 处 理 任 意 尺 度 的 图 像. Rippel 等提出了频谱池化的方法[17] ꎬ将 CNN 进 行傅里叶变换来把耗时的卷积操作替换为乘积操 作可加速网络训练ꎬ通过截取信号在频域特征表 示来降低维度ꎬ不仅可以保留更多的信息ꎬ还比其 它的池化方法更灵活ꎬ提高了利用傅里叶变换计 算卷积效率. Zeiler 等提出了反卷积神经网络( deconvolu ̄ tional networksꎬDN) [18] ꎬ采用非监督方法对自然 图像自顶向下进行卷积分解ꎬ再组合滤波器组学 习到的卷积特征ꎬ获得一个特征丰富具有鲁棒性 的图像表征.但大量卷积操作也使 DN 比自底向 上的编码模型耗时ꎬ因而 Zeiler 在 DN 每层之间采 用 3D 最大池化层ꎬ引入一组潜在开关变量ꎬ使得 模型可以根据多种输入模式自适应调整ꎬ构建了 由卷积稀疏编码层和最大降采样层交替的自适应 反 卷 积 神 经 网 络 ( adaptive deconvolutional networksꎬADN) [19] ꎬ在中间层和高层特征学习都 能取得不错的效果. 3.3 CNN 全连接层的改进 为了克服过拟合问题ꎬKrizhevsky 在 CNN 两 个全连接层采用了“Dropout” 策略[10] ꎬ每次迭代 以 0.5 的概率使一些随机分布的节点不工作但权 值保留ꎬ之后又可能参与训练.该策略可以防止某 些特征仅在其它特殊特征出现下才产生作用的情 况ꎬ从而有效地避免了网络中特征之间的相互依 赖性.孙艳丰提出了基于改进 Fisher 准则的深度 CNN 识别算法(fisher ̄based convolution neural net ̄ workꎬFCNN) [20] ꎬ反向传播采用 Fisher 的约束准 则ꎬ加入判别准则的能量函数ꎬ在迭代求解权值的 搜索空间受到判别条件约束影响ꎬ从全局搜索缩 小到更有利于分类的局部空间ꎬ从而使权值更快 地逼近便于分类的最优值. Girshick 等提出基于区域卷积神经网络(Re ̄ gions with CNN featuresꎬRCNN) [21] ꎬ先找兴趣区域 再进行检测和分割.由于 RCNN 兴趣区域中心点 的 运 算 量 大 而 耗 时ꎬ 提 出 fast R ̄CNN (FRCN) [22] ꎬ把全连接层的矩阵进行 SVD 分解ꎬ 速度提高了 30%.对于给定的图像和目标框方案ꎬ FRCN 进行目标检测耗时 60~330 msꎬ忽略了在区 域方案提取所需的时间(约 1.51 s).因此ꎬRen 等 人进一步提出了 faster R ̄CNN①ꎬ构建一个耗时极 少且精确度高的全卷积层区域提取方案网络 (region proposal networkꎬRPN)ꎬ从提区域方案到 目标检测总共耗时 198 msꎬ在 VOC2007 上 mAP 也从 FRCN 的 70%提高到 73.2%. 无论卷积层的改进ꎬ还是降采样层及全连接 层的改进ꎬ都是针对网络的学习能力及学习效率 两方面的改进.因为 CNN 的学习能力可以通过调 节网络的深度来增强ꎬ增加模型深度可以有效增 加网络性能.为了使 CNN 更好地模拟大脑复杂的 深层次神经网络ꎬ增加网络深度逐渐成为一种趋 势.另外ꎬCNN 的卷积核相当于特征提取器ꎬ可以 有效地提取输入信号的有用信息ꎬ但是耗时是卷 积操作必须重视的问题ꎬ针对这个问题ꎬ提出了一 系列的加速方法ꎬ在一定程度上降低了训练和测 试的时间.但整体上ꎬ与传统的非神经网络方法相 比ꎬCNN 的耗时还是比较大ꎬ需要进一步改善.如 何在提高网络学习能力和减少耗时之间找到一个 平衡点ꎬ依旧是 CNN 面临的问题. 4 卷积神经网络算法的应用 在 LeNet5 成功的用于银行手写支票识别之 后ꎬ关于 CNN 模型在不同的数据集和实际生产应 用的研究越来越多ꎬ网络多样化决定其应用对象 各式各样. 在语音识别方面ꎬ主流自动语音识别系统通 常使用隐形马尔科夫模型和混合高斯模型 GMM ̄ HMMꎬ而 DNN 可以建模相关性复杂的语音特征ꎬ 用 DNN ̄HMM 模型[23] 比 GMM ̄HMM 对说话方式 和环境具有更好的鲁棒性. Ossama 等在 DNN ̄ HMM 模 型 后 面 加 上 局 部 滤 波 层 和 最 大 采 样 层[24] ꎬ获得更高性能的多个说话者语音识别系 统.随后发现在处理语音特征时有限的权值共享 更具有优势ꎬ对于不同的频率通道使用单独的权 值ꎬ学习不同的特征更适合语音识别[25] . 在图像识别领域ꎬSun 等设计三层 CNN 用于 估计脸部关键点的位置[26] ꎬ利用了脸部的纹理环 境信息来锁定关键点ꎬ训练网络时考虑了关键点 的几何位置分布ꎬ从而克服了传统人脸识别受遮 挡、姿势变换和光照等影响大的缺点.闫鹏使用级 69 ① Ren SꎬHe KꎬGirshick Rꎬet al.Faster R ̄CNN:towards real ̄ time object detection with region proposal Networks [ J].IEEE Trans ̄ actions on Pattern Analysis and Machine Intelligenceꎬ2016.(已接收 还未发表)
南华大学学报(自然科学版) 2016年9月 联CNN实现车牌检测{2),通过引入级联结构,同人工设置类标号是非常费时和枯燥的然而,为了 时提高检测准确率和检测效率. Zhang等用基于贝使得监督卷积神经网络通过训练具有较高的泛化 叶斯优化的搜索策略,目标检测框依次通过候选能力,需要大量具有类标号的训练样本,这也是制 区域,把具有明显定位不准确的目标训练CNN,约临督卷积神经网络在实践中应用的主要因素. 处理定位问题[2 因此,研究非监督或者半监督卷积神经网络是进 CNN在视频识别还处于起步阶段,不过仍有步拓宽卷积神经网络应用的重要途径另外还 很多卓有成效的识别方法J等将3D的视频看成可以利用核函数等结构最优化方法提高网络全连 空域上的2D信号,学习时空域相关性来获得帧接层的泛化能力 之间的关联特征,从而获得多个相邻帧间的运动 3)神经网络的结构先验约束 信息,实现行为识别. Karpathy等用来自487类 CNN是仿生物视觉模型,其卷积核模拟视觉 的100万段 You Tube视频构建了 Sports M数据细胞的功能然而现有CN的结构与真实视觉结 集,并训练了基于CNN的大规模视频分类的经验构仍然有很大的不同现存的CNN模型的单个卷 评估模型,其分类准确率可达633%,比基于积核内部各元素在训练的时候视为相互独立的, 人工特征553%的识别率有明显提高.Li等基于如果能够将卷积核各像素之间的关系考虑进来 滤波器响应提出了对运动敏感的时空域深度卷积充分发挥卷积核的优势,则隐层可以捕获更多的 神经网络,可以很好的检测到视频的运动特征信息,应该可以更好地表达和理解图像,在图 特征 像重建及识别上可取得更好的效果论文[3也提 在低层图像处理方面CNN同样显示了其巨到,卷积层可视为具有非线性约束的特殊的稀疏 大的潜力Dong等提出的超分辨率卷积神经网络表示,利用CNN的卷积层能对图像局部凸信息进 ( super-resolution CNN,sRCN){,在低分辨率行特征提取,可以很好地解决图像融合的关键 图像和高分辨图像之间学习一个端对端映射,网问题 络结构简单却能提供优越的处理结果.此外,CNN 4)高层输出对低层输出的反馈 在图像去噪3、图像反卷积刈和图像修复[等 CNN的网络结构由多个不同作用的节点层 方向也展示了广阔的应用前景 构成,每个层次的输出特征图表示不同层次的源 5卷积神经网络研究展望 图像特征现有CNN的应用往往更注重最终的识 别结果,而没有充分用到不同层次抽象级别的图 深度卷积神经网络在图像处理和机器学习领像特征对于低层图像处理任务,综合利用不同层 域的应用,取得了突破性的进展,体现了深度次的图像特征可以有效改善处理效果,而利用高 CN处理图像数据的优势未来卷积神经网络将层信息对低层信息进行反馈也是低层图像处理的 会在以下五个方面进一步发展 一个潮流CNN的纵向多层结构为利用高层特征 1)多输入卷积神经网络 指导低层图像融合提供了方便的途径因此,研究 NN主要用来实现传统的模式识别任务,性深度CNN逐层特征之间的关系,制定高层信息对 能较传统模式有很大改进但依然没有突破单个低层信息的反馈指导是进一步提升图像处理质量 图像输人+特征提取+分类器的结构对于图像清的关键 晰度识别,视频异常判断等应用,需要多幅输人图 5)卷积神经网络应用的扩展 像综合分析才能得到识别结果.越来越多的视觉 近几年,CNN在目标检测、图像识别及处理 处理系统都采用多种具有互补特性的图像传感器等领域已经显示了巨大的优势然而,CNN的应用 来提高系统的可靠性和鲁棒性因此构造多图像领域还可以大大扩展正如2015年国际机器学习 输入的深度CN具有极高的理论和应用价值.另大会上的各国专家所指出的,CNN应用研究的中 外不同卷积层能够代表不同层次的图像特征信心未来将转移到模式识别以外的更广泛领域甚 息,通过构造不同层次的信息融合分层,可以方便至是探索一些人类难以完成的任务,继续研究新 地实现多传感视觉系统像素级特征级和决策级的理论和方法,突破存在的限制,更好的服务于各 的信息融合 行各业 2)提高卷积神经网络的泛化能力 实践中,具有类标号的数据较少,为每个数据
南华大学学报(自然科学版) 2016 年 9 月 联 CNN 实现车牌检测[27] ꎬ通过引入级联结构ꎬ同 时提高检测准确率和检测效率.Zhang 等用基于贝 叶斯优化的搜索策略ꎬ目标检测框依次通过候选 区域ꎬ把具有明显定位不准确的目标训练 CNNꎬ 处理定位问题[28] . CNN 在视频识别还处于起步阶段ꎬ不过仍有 很多卓有成效的识别方法.Ji 等将 3D 的视频看成 空域上的 2D 信号ꎬ学习时空域相关性来获得帧 之间的关联特征ꎬ从而获得多个相邻帧间的运动 信息ꎬ实现行为识别[29] .Karpathy 等用来自 487 类 的 100 万段 YouTube 视频构建了 Sports -1 M 数据 集ꎬ并训练了基于 CNN 的大规模视频分类的经验 评估模型[30] ꎬ其分类准确率可达 63.3%ꎬ比基于 人工特征 55.3%的识别率有明显提高.Liu 等基于 滤波器响应提出了对运动敏感的时空域深度卷积 神经网络[31] ꎬ 可 以 很 好 的 检 测 到 视 频 的 运 动 特征. 在低层图像处理方面 CNN 同样显示了其巨 大的潜力.Dong 等提出的超分辨率卷积神经网络 (super ̄resolution CNNꎬ SRCNN) [32] ꎬ在低分辨率 图像和高分辨图像之间学习一个端对端映射ꎬ网 络结构简单却能提供优越的处理结果.此外ꎬCNN 在图像去噪[33] 、图像反卷积[34] 和图像修复[35] 等 方向也展示了广阔的应用前景. 5 卷积神经网络研究展望 深度卷积神经网络在图像处理和机器学习领 域的应用ꎬ 取得了突破性的进展ꎬ 体现了深度 CNN 处理图像数据的优势.未来卷积神经网络将 会在以下五个方面进一步发展. 1)多输入卷积神经网络 CNN 主要用来实现传统的模式识别任务ꎬ性 能较传统模式有很大改进ꎬ但依然没有突破单个 图像输入+特征提取+分类器的结构.对于图像清 晰度识别ꎬ视频异常判断等应用ꎬ需要多幅输入图 像综合分析才能得到识别结果.越来越多的视觉 处理系统都采用多种具有互补特性的图像传感器 来提高系统的可靠性和鲁棒性.因此构造多图像 输入的深度 CNN 具有极高的理论和应用价值.另 外不同卷积层能够代表不同层次的图像特征信 息ꎬ通过构造不同层次的信息融合分层ꎬ可以方便 地实现多传感视觉系统像素级、特征级和决策级 的信息融合. 2)提高卷积神经网络的泛化能力 实践中ꎬ具有类标号的数据较少ꎬ为每个数据 人工设置类标号是非常费时和枯燥的.然而ꎬ为了 使得监督卷积神经网络通过训练具有较高的泛化 能力ꎬ需要大量具有类标号的训练样本ꎬ这也是制 约临督卷积神经网络在实践中应用的主要因素. 因此ꎬ研究非监督或者半监督卷积神经网络是进 一步拓宽卷积神经网络应用的重要途径.另外还 可以利用核函数等结构最优化方法提高网络全连 接层的泛化能力. 3)神经网络的结构先验约束 CNN 是仿生物视觉模型ꎬ其卷积核模拟视觉 细胞的功能.然而现有 CNN 的结构与真实视觉结 构仍然有很大的不同.现存的 CNN 模型的单个卷 积核内部各元素在训练的时候视为相互独立的ꎬ 如果能够将卷积核各像素之间的关系考虑进来ꎬ 充分发挥卷积核的优势ꎬ则隐层可以捕获更多的 特征信息ꎬ应该可以更好地表达和理解图像ꎬ在图 像重建及识别上可取得更好的效果.论文[33] 也提 到ꎬ卷积层可视为具有非线性约束的特殊的稀疏 表示ꎬ利用 CNN 的卷积层能对图像局部凸信息进 行特征提取ꎬ可以很好地解决图像融合的关键 问题. 4)高层输出对低层输出的反馈 CNN 的网络结构由多个不同作用的节点层 构成ꎬ每个层次的输出特征图表示不同层次的源 图像特征.现有 CNN 的应用往往更注重最终的识 别结果ꎬ而没有充分用到不同层次抽象级别的图 像特征.对于低层图像处理任务ꎬ综合利用不同层 次的图像特征可以有效改善处理效果ꎬ而利用高 层信息对低层信息进行反馈也是低层图像处理的 一个潮流.CNN 的纵向多层结构为利用高层特征 指导低层图像融合提供了方便的途径.因此ꎬ研究 深度 CNN 逐层特征之间的关系ꎬ制定高层信息对 低层信息的反馈指导是进一步提升图像处理质量 的关键. 5)卷积神经网络应用的扩展 近几年ꎬCNN 在目标检测、图像识别及处理 等领域已经显示了巨大的优势.然而ꎬCNN 的应用 领域还可以大大扩展.正如 2015 年国际机器学习 大会上的各国专家所指出的ꎬ CNN 应用研究的中 心未来将转移到模式识别以外的更广泛领域ꎬ甚 至是探索一些人类难以完成的任务ꎬ继续研究新 的理论和方法ꎬ突破存在的限制ꎬ更好的服务于各 行各业. 70
30卷第3 斌等:卷积神经网络的研究进展综述 6结论 image recognition[C]//Proceedings of the International Conference on Computer Vision and Pattern Recognitio 目前CN已成为机器学习领域中的一个研 Las Vegas, Nevada. IEEE, 2016: 770-778 究热点,其强大的建模和特征学习能力为模式识0 Krichevsky A,uner, linton G E Imagenet classi 别的瓶颈问题提供了高效的途径和思路,成功应 fication with deep convolutional neural networks[C/ 用于多种模式分类问题其本质是构建含有多隐 Proceeding of 26th annual conference on neural Infor- mation Processing System. Lake Tahoe, USA: MIT 层的网络模型,训练之后可以有效地捕获隐藏的 Press,20l2:1097-1105 数据内部结构得到大量更具代表性的特征信息,[1] Szegedy c,Limw,Jmy, et al. Going deeper with cor 从而对样本更高精度的分类和预测本文选择深 lutions[C// Proceedings of International Conferenc 度学习中最接近人类视觉系统的卷积神经网络, on Computer Vision and Pattern Recognition. Boston 介绍其基本原理,然后综述CNN最新的算法及应 USA: IEEE Computer Society, 2015: 1-9 用,最后结合自己的研究方向展望CNN用于多聚[12]王冠皓,徐军基于多级金字塔卷积神经网络 焦图像融合、多光谱图像融合等应用虽然CNN ( MLPCNN)的快速特征表示方法[J计算机应用研 还存在系统复杂欠稀疏性、训练时间长及依赖标 究,2015,32(8):2492-249 签数据等缺点,其强大的学习能力和巨大潜力表[13]mx.m, Ming x, et al. Efficient and a 明,如果能突破这一系列的难题,将大大加速推进 proximations of nonlinear convolutional networks[C]// Proceedings of the Conference on Computer Vision and 人工智能向前发展,更加广泛地应用在各个领域 Pattern Recognition. Columbus. USA. IEEE. 2014 1984-1992 参考文献: [14 Girshick R, Donahue J, Darrell T, et al. Rich feature hi- 1 Rumelhart D E, Hinton G E, Williams R J Learning rep- eparchies for accurate object detection and semantic resentations by back-propagating errors [J].Nature segmentation[ C]//Proceedings of the Conference on 1986,323(6088):533-536 Computer Vision and Pattern Recognition. Columbus [2] Bengio Y Deep Learning of Representations: looking for- USA:IEEE,2014:580-587 ard[J]. Lecture Notes in Computer Science, 2013, [15] Springenberg J T, Dosovitskiy A, Brox T, et al. Striving 7978 simplicity: the all convolutional net[C]/ [3]Bottou L, Bengio Y, Cun Y L Global training of document Proceedings of the 3rd International Conference on processing systems using grap Learning Representations ICLR ) San Diego, USA [C]//Proceedings of the IEEE Computer Society Con- IEEE- 2015. ference on Computer Vision and Pattern Recognition. San [16] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in Juan, Puerto Rico: IEEE, 1997: 489-494. deep convolutional networks for visual recognition[J] [4] HintonG E, Salakhutdinov RR. Reducing the dimension- IEEE Transactions on Pattern Analysis Machine In ality of data with neural networks[J].Science, 2006, 313 telligence,2015,37(9):1904-1916 (5786):504-507 [17]RippelO,Snoek J, Adams R PSpectral representations [5 Bengio Y Learning deep architectures for Al[M].Hano- convolutional neural networks [J]. Advances in ver: The Association for Computing Machinery, 2009 eural Information Processing Systems, 2015, 28(1) [6] Lecun Y, Bottou L, Bengio Y, et al. Gradient based arming applied to document recognition[ J] Proceedings [ 18] Zeiler M D, Krishnan D, Taylor G W, et al.Deconvolu of the Ieee,1998,86(11):2278-2324 tional networks[ C]//Proceedings of the IEEE Confer- [7 Hinton G E, Osindero S, Yw T A fast learning algorith ence on Computer Vision and Pattern Recognition. Cali- for deep belief nets [J]. Neural Computation, 2006, 18 fornia. USA. IEEE- 2010. 2528-2535 [19] Zeiler M D, Krishnan D, Taylor G W, et al. Adaptive de- [8] Deng L, Seltzer M, Yu D, et al. Binary coding of speech convolutional networks for mid and high level feature Proceedings of the 1lth Annual Conference on Interna on Computer Vision. Colorado Springs, USA: IEEE, 2011 tional Speech Communication Association. Chiba, Japan Makuhari,2010:1692-1695 [20]孙艳丰,齐光磊,胡永利基于改进 Fisher淮则的深 [9] He K M, Zhang X, Ren S, et al. Deep residual learning for 度卷积神经网络识别算法[J].北京工业大学学报
第 30 卷第 3 期 杨 斌等:卷积神经网络的研究进展综述 6 结 论 目前 CNN 已成为机器学习领域中的一个研 究热点ꎬ其强大的建模和特征学习能力为模式识 别的瓶颈问题提供了高效的途径和思路ꎬ成功应 用于多种模式分类问题.其本质是构建含有多隐 层的网络模型ꎬ训练之后可以有效地捕获隐藏的 数据内部结构ꎬ得到大量更具代表性的特征信息ꎬ 从而对样本更高精度的分类和预测.本文选择深 度学习中最接近人类视觉系统的卷积神经网络ꎬ 介绍其基本原理ꎬ然后综述 CNN 最新的算法及应 用ꎬ最后结合自己的研究方向展望 CNN 用于多聚 焦图像融合、多光谱图像融合等应用.虽然 CNN 还存在系统复杂欠稀疏性、训练时间长及依赖标 签数据等缺点ꎬ其强大的学习能力和巨大潜力表 明ꎬ如果能突破这一系列的难题ꎬ将大大加速推进 人工智能向前发展ꎬ更加广泛地应用在各个领域. 参考文献: [1] Rumelhart D EꎬHinton G EꎬWilliams R J.Learning rep ̄ resentations by back ̄propagating errors [ J ]. Natureꎬ 1986ꎬ323(6088):533 ̄536. [2] Bengio Y.Deep Learning of Representations:looking for ̄ ward [ J ]. Lecture Notes in Computer Scienceꎬ 2013ꎬ 7978:1 ̄37. [3] Bottou LꎬBengio YꎬCun Y L.Global training of document processing systems using graph transformer networks [C] / / Proceedings of the IEEE Computer Society Con ̄ ference on Computer Vision and Pattern Recognition.San JuanꎬPuerto Rico:IEEEꎬ1997:489 ̄494. [4] Hinton G EꎬSalakhutdinov R R.Reducing the dimension ̄ ality of data with neural networks[J].Scienceꎬ2006ꎬ313 (5786):504 ̄507. [5] Bengio Y.Learning deep architectures for AI[M].Hano ̄ ver:The Association for Computing Machineryꎬ2009. [6] Lecun Yꎬ Bottou Lꎬ Bengio Yꎬ et al. Gradient based learning applied to document recognition[J].Proceedings of the IEEEꎬ1998ꎬ86(11):2278 ̄2324. [7] Hinton G EꎬOsindero SꎬYw T.A fast learning algorithm for deep belief nets [ J]. Neural Computationꎬ 2006ꎬ 18 (7):1527 ̄1554. [8] Deng LꎬSeltzer MꎬYu Dꎬet al.Binary coding of speech spectrograms using a deep auto ̄encoder [ C ] / / Proceedings of the 11th Annual Conference on Interna ̄ tional Speech Communication Association.ChibaꎬJapan: Makuhariꎬ2010:1692 ̄1695. [9] He K MꎬZhang XꎬRen Sꎬet al.Deep residual learning for image recognition[C] / / Proceedings of the International Conference on Computer Vision and Pattern Recognition. Las VegasꎬNevada.IEEEꎬ2016:770 ̄778. [10] Krizhevsky AꎬSutskever IꎬHinton G E.Imagenet classi ̄ fication with deep convolutional neural networks[C] / / Proceeding of 26th Annual Conference on Neural Infor ̄ mation Processing System. Lake Tahoeꎬ USA: MIT Pressꎬ2012:1097 ̄1105. [11] Szegedy CꎬLiu WꎬJia Yꎬet al.Going deeper with convo ̄ lutions[ C] / / Proceedings of International Conference on Computer Vision and Pattern Recognition. Bostonꎬ USA:IEEE Computer Societyꎬ2015:1 ̄9. [12] 王 冠 皓ꎬ 徐 军. 基 于 多 级 金 字 塔 卷 积 神 经 网 络 (MLPCNN)的快速特征表示方法[J].计算机应用研 究ꎬ2015ꎬ32(8):2492 ̄2495. [13] Zhang XꎬZou JꎬMing Xꎬet al.Efficient and accurate ap ̄ proximations of nonlinear convolutional networks[C] / / Proceedings of the Conference on Computer Vision and Pattern Recognition. Columbusꎬ USA: IEEEꎬ 2014: 1984 ̄1992. [14] Girshick RꎬDonahue JꎬDarrell Tꎬet al.Rich feature hi ̄ erarchies for accurate object detection and semantic segmentation[ C] / / Proceedings of the Conference on Computer Vision and Pattern Recognition. Columbusꎬ USA:IEEEꎬ2014:580 ̄587. [15] Springenberg J TꎬDosovitskiy AꎬBrox Tꎬet al. Striving for simplicity: the all convolutional net [ C ] / / Proceedings of the 3rd International Conference on Learning Representations ( ICLR)ꎬ San Diegoꎬ USA: IEEEꎬ2015. [16] He KꎬZhang XꎬRen Sꎬet al.Spatial pyramid pooling in deep convolutional networks for visual recognition[ J]. IEEE Transactions on Pattern Analysis & Machine In ̄ telligenceꎬ2015ꎬ37(9):1904 ̄1916. [17] Rippel OꎬSnoek JꎬAdams R P.Spectral representations for convolutional neural networks [ J ]. Advances in Neural Information Processing Systemsꎬ2015ꎬ28 ( 1): 2440 ̄2448. [18] Zeiler M DꎬKrishnan DꎬTaylor G Wꎬet al.Deconvolu ̄ tional networks[C] / / Proceedings of the IEEE Confer ̄ ence on Computer Vision and Pattern Recognition.Cali ̄ forniaꎬUSA:IEEEꎬ2010:2528 ̄2535. [19] Zeiler M DꎬKrishnan DꎬTaylor G Wꎬet al.Adaptive de ̄ convolutional networks for mid and high level feature learning[C] / / Proceedings of the International Conference on Computer Vision.Colorado SpringsꎬUSA:IEEEꎬ2011: 2018 ̄2025. [20] 孙艳丰ꎬ齐光磊ꎬ胡永利.基于改进 Fisher 准则的深 度卷积神经网络识别算法[ J].北京工业大学学报ꎬ 71
南华大学学报(自然科学版) 016年9月 2015,41(6):835-841 optimizationandstructuredprediction[j].computer [21]Girshick R, Donahue J, Darrell T, et al. Rich feature hi- Sclence,2015,8(1):132-132. erarchies for accurate object detection and semantic [29]Ji S, Yang M, Yu K 3D convolutional neural networks tation[C]//Proceedings of the IEEE conference for human action recognition[J]. IEEE Transactions on on computer vision and pattern recognition, Columbus Pattern Analysis and Machine Intelligence, 2013, 35 Ohio. USA: IEEE- 2014. 580-587 (1):221-231. [22] Girshick R, Girshick R Fast R-CNN[ C]//Proceedings [30 Karpathy A, Toderici G, Shetty S, et al. Large-scale video of the International Conference on Computer Vision. Co- classification with convolutional neural Networks [C]// penhagen, Denmark: IEEE, 2015: 1440-1448 Proceedings of the IEEE Conference on Computer Vision [23Mohamed A R, Dahl G E, Hinton G Acoustic modelin and Pattern Recognition. Columbus. USA, IEEE. 2014 using deep belief networks [J]. IEEE Transactions on Audio Speech and Language Processing,2012,20(1):[31]刘琮,许维胜,吴启迪时空域深度卷积神经网络及 14-22. 其在行为识别上的应用[J].计算机科学,2015,42 [24]Ossama A H, Mohamedz A R, Jiang Hui, et al. Applying (7):245-249 convolutional neural networks concepts to hybrid NN- [32] Dong C, Chen C L, He K, et al. Learning a deep convo- HMM model for speech recognition[C]//Processings of ion[C]//P ceedings of the European Conference on Computer Vi Processing. Kyoto, Japan: IEEE, 2012: 4277-4280. sion.Zurich: Springer, 2014: 184-199 [25]Ossama A H, Mohamedz A R, Jiang Hui, et al. Convolu. [33] Jain V, Seung H S Natural image denoising with convo- tional neural networks for speech recognition[J].IEEE lutioanl networks[ C]//Proceedings of the 28th Annual Conference on Neural Information Processing Systen processing,2014,22(10):15331545. Montreal Canada. MIT Press. 2015 [26] Sun Y, Wang X, Tang X Deep convolutional network [34] Xu L, Ren S J, Liu Ce, et al. Deep convolutional neural cascade for facial point detection[ C]//Proceedings of network for image deconvolution[ C]//Proceedings of the the IEEE Conference on Computer Vision and Pattem 27th Annual Conference on Neural Information Processing Recognition Portland USA: IEEE. 2013. 3476-3483. Systems. Montreal, Canada: MIT, 2014: 1790-1798 [27]闫鹏,牛常勇,范明基于级联卷积网络的自然场景[35] Ren s j,xuL,YanQ,eta. Shepard convolutional 下的车牌检测[J]计算机工程与设计,2014,35 neural networks[ C]//Proceedings of the 28th Annual (12):4296-4301 Conference on Neural Information Processing Syster [28 Zhang Y, Sohn K, Villegas R, et al. Improving object de- Montreal Canada. MIT. 2015 ection with deep convolutional networks via Bayesian
南华大学学报(自然科学版) 2016 年 9 月 2015ꎬ41(6):835 ̄841. [21] Girshick RꎬDonahue JꎬDarrell Tꎬet al.Rich feature hi ̄ erarchies for accurate object detection and semantic segmentation[C] / / Proceedings of the IEEE conference on computer vision and pattern recognitionꎬColumbusꎬ OhioꎬUSA:IEEEꎬ2014:580 ̄587. [22] Girshick RꎬGirshick R.Fast R ̄CNN[C] / / Proceedings of the International Conference on Computer Vision.Co ̄ penhagenꎬDenmark:IEEEꎬ2015:1440 ̄1448. [23] Mohamed A RꎬDahl G EꎬHinton G.Acoustic modeling using deep belief networks [ J]. IEEE Transactions on Audio Speech and Language Processingꎬ2012ꎬ20(1): 14 ̄22. [24] Ossama A HꎬMohamedz A RꎬJiang Huiꎬet al.Applying convolutional neural networks concepts to hybrid NN ̄ HMM model for speech recognition[C] / / Processings of International Conference on AcousticsꎬSpeech and Signal Processing.KyotoꎬJapan:IEEEꎬ2012:4277 ̄4280. [25] Ossama A HꎬMohamedz A RꎬJiang Huiꎬet al.Convolu ̄ tional neural networks for speech recognition[ J].IEEE Transactions on Audioꎬ Speechꎬ and Language processingꎬ2014ꎬ22(10):1533 ̄1545. [26] Sun YꎬWang XꎬTang X. Deep convolutional network cascade for facial point detection[C] / / Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.PortlandꎬUSA:IEEEꎬ2013:3476 ̄3483. [27] 闫鹏ꎬ牛常勇ꎬ范明.基于级联卷积网络的自然场景 下的车牌检测 [ J]. 计算机工程与设计ꎬ 2014ꎬ 35 (12):4296 ̄4301. [28] Zhang YꎬSohn KꎬVillegas Rꎬet al.Improving object de ̄ tection with deep convolutional networks via Bayesian optimization and structured prediction [ J ]. Computer Scienceꎬ2015ꎬ8(1):132 ̄132. [29] Ji SꎬYang MꎬYu K.3D convolutional neural networks for human action recognition[ J].IEEE Transactions on Pattern Analysis and Machine Intelligenceꎬ 2013ꎬ 35 (1):221 ̄231. [30] Karpathy AꎬToderici GꎬShetty Sꎬet al.Large ̄scale video classification with convolutional neural Networks [C] / / Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbusꎬ USA: IEEEꎬ 2014: 1725 ̄1732. [31] 刘琮ꎬ许维胜ꎬ吴启迪.时空域深度卷积神经网络及 其在行为识别上的应用[ J].计算机科学ꎬ2015ꎬ42 (7):245 ̄249. [32] Dong CꎬChen C LꎬHe Kꎬet al.Learning a deep convo ̄ lutional network for image super ̄resolution [ C] / / Pro ̄ ceedings of the European Conference on Computer Vi ̄ sion.Zurich:Springerꎬ2014:184 ̄199. [33] Jain VꎬSeung H S.Natural image denoising with convo ̄ lutioanl networks[C] / / Proceedings of the 28th Annual Conference on Neural Information Processing Systems. Montreal Canada:MIT Pressꎬ2015. [34] Xu LꎬRen S JꎬLiu Ceꎬet al.Deep convolutional neural network for image deconvolution[C] / / Proceedings of the 27th Annual Conference on Neural Information Processing Systems.MontrealꎬCanada:MITꎬ2014:1790 ̄1798. [35] Ren S Jꎬ Xu Lꎬ Yan Qꎬ et al. Shepard convolutional neural networks[ C] / / Proceedings of the 28th Annual Conference on Neural Information Processing Systems. MontrealꎬCanada:MITꎬ2015. 72