第11卷第5期 智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201511028 网络出版地址:htp:/www.cmki.net/kcms/detail/23.1538.TP.20160715.1353.002.html 深度学习方法研究新进展 刘帅师,程曦,郭文燕,陈奇 (长春工业大学电气与电子工程学院,吉林长春130000) 摘要:本文依据模型结构对深度学习进行了归纳和总结,描述了不同模型的结构和特点。首先介绍了深度学习的 概念及意义,然后介绍了4种典型模型:卷积神经网络、深度信念网络、深度玻尔兹曼机和堆叠自动编码器,并对近3 年深度学习在语音处理、计算机视觉、自然语言处理以及医疗应用等方面的应用现状进行介绍,最后对现有深度学 习模型进行了总结,并且讨论了未来所面临的挑战。 关键词:深度学习:卷积神经网络:深度信念网铬:深度玻尔兹曼机:堆叠自动编码器 中图分类号:TP18文献标志码:A文章编号:1673-4785(2016)05-0567-10 中文引用格式:刘帅师,程曦,郭文慕,等.深度学习方法研究新进展[J].智能系统学报,2016,11(5):567-577, 英文引用格式:LIU Shuaishi,CHENG XI,GUO Wenyan,etal.Progress report on new research in deep learning[J].CAAI trans- actions on intelligent systems,2016,11(5):567-577. Progress report on new research in deep learning LIU Shuaishi,CHENG Xi,GUO Wenyan,CHEN Qi College of Electrical and Electronic Engineering,Changchun University of Technology,Changchun 130000,China) Abstract:Deep learning has recently received widespread attention.Using a model structure,this paper gives a summarization and analysis on deep learning by describing and reviewing the structure and characteristics of differ- ent models.The paper firstly introduces the concept and significance of deep learning,and then reviews four typical models:a convolutional neural network;deep belief networks;the deep Boltzmann machine;and an automatic stacking encoder.The paper then concludes by reviewing the applications of deep learning as regards speech pro- cessing,computer vision,natural language processing,medical science,and other aspects.Finally,the existing deep learning model is summarized and future challenges discussed. Keywords:deep learning;convolutional neural network;deep belief networks;deep Boltzmann machine;automat- ic stacking encoder 深度学习是机器学习的一个分支,属于人工智 究热点。 能的新领域。深度学习的本质是特征提取,即通过 2006年,机器学习大师Hinton等[)在《科学》 组合低层次的特征形成更加抽象的高层表示,以达 上发表的一篇论文,开启了深度学习的浪潮。他提 到获得最佳特征的目的。它主要通过神经网络 出了深度信念网的概念,成功地利用贪心策略逐层 来模拟人的大脑的学习过程,希望实现对现实对象 训练由限制玻尔兹曼机组成的深层架构,解决了以 或数据(图像、语音及文本等)的抽象表达,整合特 往深度网络训练困难的问题。此后,Hinton、Lecun、 征抽取和分类器到一个学习框架下)。目前,深度 Bengio等大量科研人员对深度学习的模型构建、训 学习在许多领域取得了广泛的关注,成为当今的研 练方式等做出了杰出的贡献。文献[4]对近几年新 兴的深度学习的初始化方法、模型结构、学习算法等 收稿日期:2015-11-27.网络出版日期:2016-07-15. 基金项目:吉林省科技厅青年科研基金项目(20140520065H 进行了详细的分析。2014年余滨等1从训练方式 20140520076H):长春工业大学科学研究发展基金自然科学 的角度对深度学习进行了总结。文献[6]依据数据 计划项目(2010XN07). 通信作者:.E-mail:刘帅师.E-mail:liu-shuaishi@126.com. 流向对深度学习进行不同分类,本文将重点放在模
第 11 卷第 5 期 智 能 系 统 学 报 Vol.11 №.5 2016 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2016 DOI:10.11992 / tis.201511028 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160715.1353.002.html 深度学习方法研究新进展 刘帅师,程曦,郭文燕,陈奇 (长春工业大学 电气与电子工程学院,吉林 长春 130000) 摘 要:本文依据模型结构对深度学习进行了归纳和总结,描述了不同模型的结构和特点。 首先介绍了深度学习的 概念及意义,然后介绍了 4 种典型模型:卷积神经网络、深度信念网络、深度玻尔兹曼机和堆叠自动编码器,并对近 3 年深度学习在语音处理、计算机视觉、自然语言处理以及医疗应用等方面的应用现状进行介绍,最后对现有深度学 习模型进行了总结,并且讨论了未来所面临的挑战。 关键词:深度学习;卷积神经网络;深度信念网络;深度玻尔兹曼机;堆叠自动编码器 中图分类号:TP18 文献标志码:A 文章编号:1673⁃4785(2016)05⁃0567⁃10 中文引用格式:刘帅师,程曦,郭文燕,等.深度学习方法研究新进展[J]. 智能系统学报, 2016, 11(5): 567⁃577. 英文引用格式:LIU Shuaishi, CHENG Xi, GUO Wenyan, et al. Progress report on new research in deep learning[J]. CAAI trans⁃ actions on intelligent systems, 2016,11(5):567⁃577. Progress report on new research in deep learning LIU Shuaishi, CHENG Xi, GUO Wenyan, CHEN Qi (College of Electrical and Electronic Engineering, Changchun University of Technology, Changchun 130000, China) Abstract:Deep learning has recently received widespread attention. Using a model structure, this paper gives a summarization and analysis on deep learning by describing and reviewing the structure and characteristics of differ⁃ ent models. The paper firstly introduces the concept and significance of deep learning, and then reviews four typical models: a convolutional neural network; deep belief networks; the deep Boltzmann machine; and an automatic stacking encoder. The paper then concludes by reviewing the applications of deep learning as regards speech pro⁃ cessing, computer vision, natural language processing, medical science, and other aspects. Finally, the existing deep learning model is summarized and future challenges discussed. Keywords:deep learning; convolutional neural network; deep belief networks; deep Boltzmann machine; automat⁃ ic stacking encoder 收稿日期:2015⁃11⁃27. 网络出版日期:2016⁃07⁃15. 基金项目: 吉 林 省 科 技 厅 青 年 科 研 基 金 项 目 ( 20140520065JH, 20140520076JH);长春工业大学科学研究发展基金自然科学 计划项目(2010XN07). 通信作者:. E⁃mail:刘帅师. E⁃mail:liu⁃shuaishi@ 126.com. 深度学习是机器学习的一个分支,属于人工智 能的新领域。 深度学习的本质是特征提取,即通过 组合低层次的特征形成更加抽象的高层表示,以达 到获得最佳特征的目的[1] 。 它主要通过神经网络 来模拟人的大脑的学习过程,希望实现对现实对象 或数据(图像、语音及文本等)的抽象表达,整合特 征抽取和分类器到一个学习框架下[2] 。 目前,深度 学习在许多领域取得了广泛的关注,成为当今的研 究热点。 2006 年,机器学习大师 Hinton 等[3] 在《科学》 上发表的一篇论文,开启了深度学习的浪潮。 他提 出了深度信念网的概念,成功地利用贪心策略逐层 训练由限制玻尔兹曼机组成的深层架构,解决了以 往深度网络训练困难的问题。 此后,Hinton、Lecun、 Bengio 等大量科研人员对深度学习的模型构建、训 练方式等做出了杰出的贡献。 文献[4]对近几年新 兴的深度学习的初始化方法、模型结构、学习算法等 进行了详细的分析。 2014 年余滨等[5] 从训练方式 的角度对深度学习进行了总结。 文献[6]依据数据 流向对深度学习进行不同分类,本文将重点放在模
·568 智能系统学报 第11卷 型结构,以深度学习的核心模型结构而展开。文献 使用。 [7]从深度学习结构进行展开,本文大量增加了近3 首先,为了降低网络的复杂性,卷积神经网络采 年新的研究成果,因此能够更准确地反映该领域的 用权重共享方式,即同一个特征图,卷积核是一样 最新研究进展。 的11:其次,对得到的特征输入给一个非线性函数, 本文依据模型结构,着重介绍4种典型的深度 比如RLU等;最后,再采取下采样方法,比如最大 学习模型,即卷积神经网络、深度信念网络、深度玻 池化等。下采样的作用是把语义上相似的特征合并 尔兹曼机、堆叠自动编码器。下面对这些模型进行 起来,这是因为形成一个主题的特征的相对位置不 描述。 太一样。 1.1.3训练方式 1深度学习典型模型 卷积神经网络的训练采用有监督训练方式。首 1.1卷积神经网络 先是向前传播,即输入X经过卷积神经网路后变为 1.1.1历史 输出0,再将0与标签进行比较,然后以向后传播的 卷积神经网络(convolutional neural networks,. 方式,到将所得误差传播到每个节点,根据权值更新 CNN)最早在20世纪80年代就已被提出,是由于在 公式,更新相应的卷积核权值4.6。 研究猫脑皮层时受到的启发。它的典型模型LeNet- 此外,以卷积神经网络为核心的深度学习网络 5[8]系统,在MNIST上得到了0.9%的错误率,并在 还有3-D卷积神经网络(3-D convolutional neural 20世纪90年代就已用于银行的手写支票识别)。 networks,3D-CNN)[,光谱网络(spectral net-- 但是,由于在大尺寸图像上没有好的效果,一度被人 works,SN)Ia),金字塔卷积神经网络(pyramid conv- 忽视。随着高效的GPU计算的兴起,直到2012年 olutional neural networks,PCNN)[],多级金字塔卷 Hinton在ImageNet问题的成功,才使它在近几年流 积神经网络(multi level pyamid convolutional neural 行起来[)。如今卷积神经网络已经成为众多科学 networks,MLPCNN)[4等。 领域的研究热点之一,特别是在图像识别领域。由 12受限制玻尔兹曼机为核心的深度网络 于该网络避免了对图像的复杂前期预处理,可以直 受限制玻尔兹曼机为核心的深度网络有2种: 接输入原始图像,因而得到了广泛的应用。 深度信念网和深度玻尔兹曼机。现简要分析二者的 1.1.2结构 区别 卷积神经网络是前馈神经网络的一种。卷积神 1.2.1受限制玻尔兹曼机 经网络的模型如图1所示,它是一个多层的神经网 受限制玻尔兹曼机(restricted Boltzmann ma- 络,每层由多个二维平面组成,而每个平面由多个独 chine,RBM)是一类无向图模型[a],由可视层和隐含 立神经元组成。传统的神经网络层与层之间神经元 层组成,与玻尔兹曼机(Boltzmann machine,BM)不 采取全连接方式,而卷积神经网络采用稀疏连接方 同,层内无连接,层间有连接。这种结构更易于计算 式,即每个特征图上的神经元只连接上一层的一个 隐含层单元与可视层单元的条件分布)。受限制 小区域的神经元连接。 玻尔兹曼机的训练方式通常采用对比散度方(cot- C,特征 ,特征层 rastive divergence,.CD)。常见的玻尔兹曼机的演变 C,特征层 输入层 特征层 特征层 特征层输出层 模型如图2所示。 输 BM 卷莲类 卷积 下采样L卷积下采样1接1器 RBM 图1卷积神经网络模型 CRBM SRBM SGRBM CRBM Fig.1 Convolutional neural network model 卷积神经网络的低隐含层是由卷积层和最大池 图2玻尔兹曼机演变模型 采样层交替组成,高层通常是全连接层作为分类器 Fig.2 The evolution model of boltzmann machine
型结构,以深度学习的核心模型结构而展开。 文献 [7]从深度学习结构进行展开,本文大量增加了近 3 年新的研究成果,因此能够更准确地反映该领域的 最新研究进展。 本文依据模型结构,着重介绍 4 种典型的深度 学习模型,即卷积神经网络、深度信念网络、深度玻 尔兹曼机、堆叠自动编码器。 下面对这些模型进行 描述。 1 深度学习典型模型 1.1 卷积神经网络 1.1.1 历史 卷积神经网络 ( convolutional neural networks, CNN)最早在 20 世纪 80 年代就已被提出,是由于在 研究猫脑皮层时受到的启发。 它的典型模型 LeNet⁃ 5 [8]系统,在 MNIST 上得到了 0.9%的错误率,并在 20 世纪 90 年代就已用于银行的手写支票识别[7] 。 但是,由于在大尺寸图像上没有好的效果,一度被人 忽视。 随着高效的 GPU 计算的兴起,直到 2012 年 Hinton 在 ImageNet 问题的成功,才使它在近几年流 行起来[9] 。 如今卷积神经网络已经成为众多科学 领域的研究热点之一,特别是在图像识别领域。 由 于该网络避免了对图像的复杂前期预处理,可以直 接输入原始图像,因而得到了广泛的应用。 1.1.2 结构 卷积神经网络是前馈神经网络的一种。 卷积神 经网络的模型如图 1 所示,它是一个多层的神经网 络,每层由多个二维平面组成,而每个平面由多个独 立神经元组成。 传统的神经网络层与层之间神经元 采取全连接方式,而卷积神经网络采用稀疏连接方 式,即每个特征图上的神经元只连接上一层的一个 小区域的神经元连接。 图 1 卷积神经网络模型 Fig.1 Convolutional neural network model 卷积神经网络的低隐含层是由卷积层和最大池 采样层交替组成,高层通常是全连接层作为分类器 使用。 首先,为了降低网络的复杂性,卷积神经网络采 用权重共享方式,即同一个特征图,卷积核是一样 的[10] ;其次,对得到的特征输入给一个非线性函数, 比如 ReLU 等;最后,再采取下采样方法,比如最大 池化等。 下采样的作用是把语义上相似的特征合并 起来,这是因为形成一个主题的特征的相对位置不 太一样[1] 。 1.1.3 训练方式 卷积神经网络的训练采用有监督训练方式。 首 先是向前传播,即输入 X 经过卷积神经网路后变为 输出 O,再将 O 与标签进行比较,然后以向后传播的 方式,到将所得误差传播到每个节点,根据权值更新 公式,更新相应的卷积核权值[4,6] 。 此外,以卷积神经网络为核心的深度学习网络 还有 3⁃D 卷积神经网络 ( 3⁃D convolutional neural networks, 3D⁃CNN)) [11] , 光 谱 网 络 ( spectral net⁃ works,SN) [12] ,金字塔卷积神经网络( pyramid conv⁃ olutional neural networks,PCNN) [13] ,多级金字塔卷 积神经网络(multi level pyamid convolutional neural networks,MLPCNN) [14]等。 1.2 受限制玻尔兹曼机为核心的深度网络 受限制玻尔兹曼机为核心的深度网络有 2 种: 深度信念网和深度玻尔兹曼机。 现简要分析二者的 区别。 1.2.1 受限制玻尔兹曼机 受限制玻尔兹曼机 ( restricted Boltzmann ma⁃ chine,RBM)是一类无向图模型[4] ,由可视层和隐含 层组成,与玻尔兹曼机(Boltzmann machine,BM) 不 同,层内无连接,层间有连接。 这种结构更易于计算 隐含层单元与可视层单元的条件分布[5] 。 受限制 玻尔兹曼机的训练方式通常采用对比散度方( cont⁃ rastive divergence,CD)。 常见的玻尔兹曼机的演变 模型如图 2 所示。 图 2 玻尔兹曼机演变模型 Fig.2 The evolution model of boltzmann machine ·568· 智 能 系 统 学 报 第 11 卷
第5期 刘帅师,等:深度学习方法研究新进展 ·569· 受限制玻尔滋曼机的演变模型有卷积受限制玻 DDBN)[2]等。 尔a兹曼机(convolutional restricted Boltzmann ma- 1.2.3深度玻尔兹曼机 chine,CRBM)【s]、稀疏受限制玻尔兹曼机(sparse 深度玻尔兹曼机(deep Boltzmann machine, restricted Boltzmann machine,SRBM)Iu6]、稀疏组受 DBM)与深度信念网络相似,都是以受限制玻尔滋 限制玻尔兹曼机(sparse group restricted Boltzmann 曼机叠加而成。但是,与深度信念网络不同,层间均 machine,SGRBM)【)、分类受限制玻尔兹曼机(class 为无向连接,省略了由上至下的反馈参数调节。训 restricted Boltzmann machine,CRBM)[u8]等。更详细 练方式也与深度信念网络相似,先采用无监督预训 的描述内容参见文献[19]。 练方法,得到初始权值,再运用场均值算法,最后采 1.2.2深度信念网络 用有监督微方式进行微调。 深度信念网络(deep belief networks,DBN)是由 1.3堆叠自动编码器 多个受限制玻尔兹曼机(RBM)叠加而成的深度网 1.3.1自动编码器 络。深度信念网络的典型结构如图3所示,它通过 自动编码器(auto encoder,AE)由编码器与解码 无监督预训练和有监督微调来训练整个深度信念网 器组成,其原理如图4所示。核心思想是将输入信 络)。预训练时用无标签数据单独训练每一层受 号进行编码,使用编码之后的信号重建原始信号,目 限制玻尔兹曼机,通过自下而上的方式,将下层受限 的是让重建信号与原始信号相比重建误差最小[2]。 制玻尔兹曼机输出作为上层受限制玻尔兹曼机输 编码器将输入数据映射到特征空间,解码器将特征 入。当预训练完成后,网络会获得一个较好的网络 映射回数据空间,完成对输入数据的重建。 初始值,但这还不是最优的20)。再采用有标签数据 oooooO代码层 去训练网络,误差自顶向下传播,一般采用梯度下降 编码 解码 法对网络进行微调。深度信念网络的出现是深度学 输入层ooooO oooooo输出层 习的转折点,目前深度信念网络已应用于语音、图像 处理等方面,尤其是在大数据方面[0]。 图4自动编码器原理图 Fig.4 The illustration of autoencoder 标签单位 自动编码器演化的模型如图5所示,自动编码 顶层单元 器演化的模型有去噪自动编码器(denoising auto en- coder,DAE)[2]、稀疏自动编码器(sparse auto en- 隐含层单元 coder,SAE)[2]、收缩自动编码器(contractive auto encoder,CAE)[2)]、卷积自动编码(convolutional auto 隐含层单元 encoder,.CAE)[2]等。更详细的描述内容参见文献 检测权值 生成权值 [29-31]。 隐含层单元 AE 隐含层 权值 RBM DAE 可视层 图5自动编码器的演变模型 输入 Fig.5 The evolution model of autoencoder 图3深度信念网络典型结构 1.3.2堆叠自动编码器原理 Fig.3 The illustration of deep belief network framework 堆叠自动编码器(stacked auto encoders,SAE) 深度信念网络的变种模型有卷积深度信念网 与深度信念网络类似,其结构如图6所示,都是由简 (convolutional deep belief networks,CDBN)[2)、稀疏 单结构叠加起来的深层网络。简单来说,就是将 深度信念网(sparse deep belief networks.,SDBN)Ia) DBN中的RBM替换成AE就得到了SAE。自动编 判别深度信念网(discriminative deep belief networks, 码器的训练过程也是使用贪心逐层预训练算法,但
受限制玻尔兹曼机的演变模型有卷积受限制玻 尔 兹 曼 机 ( convolutional restricted Boltzmann ma⁃ chine,CRBM) [15] 、稀疏受限制玻尔兹曼机( sparse restricted Boltzmann machine, SRBM) [16] 、稀疏组受 限制玻尔兹曼机( sparse group restricted Boltzmann machine,SGRBM) [17] 、分类受限制玻尔兹曼机(class restricted Boltzmann machine,CRBM) [18] 等。 更详细 的描述内容参见文献[19]。 1.2.2 深度信念网络 深度信念网络(deep belief networks,DBN)是由 多个受限制玻尔兹曼机(RBM)叠加而成的深度网 络。 深度信念网络的典型结构如图 3 所示,它通过 无监督预训练和有监督微调来训练整个深度信念网 络[7] 。 预训练时用无标签数据单独训练每一层受 限制玻尔兹曼机,通过自下而上的方式,将下层受限 制玻尔兹曼机输出作为上层受限制玻尔兹曼机输 入。 当预训练完成后,网络会获得一个较好的网络 初始值,但这还不是最优的[20] 。 再采用有标签数据 去训练网络,误差自顶向下传播,一般采用梯度下降 法对网络进行微调。 深度信念网络的出现是深度学 习的转折点,目前深度信念网络已应用于语音、图像 处理等方面,尤其是在大数据方面[10] 。 图 3 深度信念网络典型结构 Fig.3 The illustration of deep belief network framework 深度信念网络的变种模型有卷积深度信念网 (convolutional deep belief networks,CDBN) [21] 、稀疏 深度信念网(sparse deep belief networks,SDBN) [22] 、 判别深度信念网(discriminative deep belief networks, DDBN) [23]等。 1.2.3 深度玻尔兹曼机 深度 玻 尔 兹 曼 机 ( deep Boltzmann machine, DBM)与深度信念网络相似,都是以受限制玻尔兹 曼机叠加而成。 但是,与深度信念网络不同,层间均 为无向连接,省略了由上至下的反馈参数调节。 训 练方式也与深度信念网络相似,先采用无监督预训 练方法,得到初始权值,再运用场均值算法,最后采 用有监督微方式进行微调。 1.3 堆叠自动编码器 1.3.1 自动编码器 自动编码器(auto encoder,AE)由编码器与解码 器组成,其原理如图 4 所示。 核心思想是将输入信 号进行编码,使用编码之后的信号重建原始信号,目 的是让重建信号与原始信号相比重建误差最小[24] 。 编码器将输入数据映射到特征空间,解码器将特征 映射回数据空间,完成对输入数据的重建。 图 4 自动编码器原理图 Fig.4 The illustration of autoencoder 自动编码器演化的模型如图 5 所示,自动编码 器演化的模型有去噪自动编码器(denoising auto en⁃ coder,DAE) [25] 、稀疏自动编码器( sparse auto en⁃ coder,SAE) [26] 、收缩自动编码器 ( contractive auto encoder,CAE) [27] 、卷积自动编码( convolutional auto encoder,CAE) [28]等。 更详细的描述内容参见文献 [29⁃31]。 图 5 自动编码器的演变模型 Fig.5 The evolution model of autoencoder 1.3.2 堆叠自动编码器原理 堆叠自动编码器( stacked auto encoders,SAE) 与深度信念网络类似,其结构如图 6 所示,都是由简 单结构叠加起来的深层网络。 简单来说,就是将 DBN 中的 RBM 替换成 AE 就得到了 SAE。 自动编 码器的训练过程也是使用贪心逐层预训练算法,但 第 5 期 刘帅师,等:深度学习方法研究新进展 ·569·
·570 智能系统学报 第11卷 因为是通过重构误差来进行训练,相比较而言比受 语言模型时在谷歌语音搜索任务词错率达到 限制玻尔兹曼机训练容易[)。 14.2%,当结合语言模型时词错率达到11.2%。 以自动编码器及其变种模型的为核心的深度网 2.2计算机视觉 络称之为深度自动编码(deep auto encoders,DAE)。 2012年Hinton[39]和他的2个学生在著名的m- 文献[32]对深度自动编码器进行了详细的描述。 ageNet问题上用更深的卷积神经网络取得世界最好 堆叠自动编码器就是一种典型的深度自动编码。类 结果,赢得了冠军,使得图像识别大踏步前进。随 似的还有堆叠去噪自动编码器(stacked denoising 后,深度学习在图像处理方面取得突破性进展,如物 auto-encoders,SDAE)[2]、堆叠稀疏自动编码器 体定位[o]、脸部识别[4]和人体姿势估计[2]等。 (stacked sparse auto encoders,SSAE)[3]等。 2015年深海团队[4)利用卷积神经网络对3万个例 子进行121种浮游生物分类。Denton等[4]利用卷 第n层 000 重构 积神经网络通过用户的性别、年龄、城市和图片等特 AE 构造1 00 征进行整合。在Facebook上对用户上传的图片进 0000 行标签、分类。 第2层 构造 重构 2.2.1图像语义分割 AE ○OOO O0O 图像包括很多层信息,例如这幅图像是否有特 第1层 构造「 重构 定的物体(如汽车)。所谓的图像语义分割,就是描 AE OOO○ ○○OO 述图片中包含哪些物体、包括街头的场景分割、三维 扫描、对3-D人体解剖分割定位等。因为是基于像 图6堆叠自动编码器结构 Fig.6 The illustration of stacked Autoencoder framework 素分类方法,所以这个问题会带来巨大的计算量。 2015年Long等[4]提出了利用全卷积网络(fly 2深度学习应用 convolutional networks,FCN,)的概念去进行图像语 义分割。同年Behnke等[6]提出了语义RGB-D感 2.1语音处理 知器的概念,使得基于深度学习的图像语义分割得 长期以来,语音识别技术普遍采用的是声学模 型混合高斯模型。但这种混合高斯模型本质上是一 到进一步发展。 2.2.2人脸识别 种浅层网络建模,不能充分描述特征的状态空间分 Linkface开发了基于深度学习的人脸检测创新 布3)。2011年微软[3)将深度学习引入语音识别领 算法。无论场景中是单人还是多人,是侧脸、半遮 域,提出深度神经网络DNN,本质上是把混合高斯 挡还是模糊等情景中,均能进行精准检测。据全球 模型替换成了深度神经网络模型大大提高识别率。 最具权威的人脸检测评测平台FDDB最新数据, 该模型在Switchboard标准数据集上的识别错误率 Linkface的人脸检测算法达到了世界领先的水平。 比最低错误率降低了33%。2014年Van等6在网 2014年Facebook开发一种叫DeepFacet)技术。其 络音乐平台Spotify使用深度卷积神经网络做基于 贡献在于对人脸对齐和人脸表示环节的改进。通过 内容的音乐推荐,以及实现依靠音频信号预测听众 革新的3-D人脸建模勾勒出脸部特征,然后通过颜 的收听喜好,然后采用WMF(weighted matrix factori- 色过滤做出一个刻画特定脸部元素的平面模型。 zation)模型进行评分预测。百度的深度学习语音识 Facebook建立了一个来自于4030个人的440万张 别系统DeepSpeech[]可以在饭店等嘈杂环境下实 标签化的人脸池,Facebook称这是迄今为止最大规 现将近81%的辨识准确率。2015年Chan等38]提 模的人脸池。它是一个拥有9层的深度卷积神经网 出了LAS(listen,attend and spell)系统。该系统利 络,网络有超过1.2亿个参数。该技术在LFW数据 用金字塔式双向的RNN网络。不同于传统的模型, 集上取得了97.25%的平均精度.已经接近人类的识 不需要完整的端对端的CTC(connectionist temporal 别水平。2015年Google提出FaceNet!)]进行人脸 classification),实现跳过音素直接把语音识别为字 验证。它直接学习图像到欧式空间上点的映射,然 符,合成了约4万小时音频。当不依赖语音词典和 后基于这个编码再做人脸识别、人脸验证和人脸聚
因为是通过重构误差来进行训练,相比较而言比受 限制玻尔兹曼机训练容易[7] 。 以自动编码器及其变种模型的为核心的深度网 络称之为深度自动编码(deep auto encoders,DAE)。 文献[32] 对深度自动编码器进行了详细的描述。 堆叠自动编码器就是一种典型的深度自动编码。 类 似的还有堆叠去噪自动编码器( stacked denoising auto⁃encoders, SDAE ) [25] 、 堆 叠 稀 疏 自 动 编 码 器 (stacked sparse auto encoders,SSAE) [33]等。 图 6 堆叠自动编码器结构 Fig.6 The illustration of stacked Autoencoder framework 2 深度学习应用 2.1 语音处理 长期以来,语音识别技术普遍采用的是声学模 型混合高斯模型。 但这种混合高斯模型本质上是一 种浅层网络建模,不能充分描述特征的状态空间分 布[34] 。 2011 年微软[35]将深度学习引入语音识别领 域,提出深度神经网络 DNN,本质上是把混合高斯 模型替换成了深度神经网络模型大大提高识别率。 该模型在 Switchboard 标准数据集上的识别错误率 比最低错误率降低了 33%。 2014 年 Van 等[36] 在网 络音乐平台 Spotify 使用深度卷积神经网络做基于 内容的音乐推荐,以及实现依靠音频信号预测听众 的收听喜好,然后采用 WMF(weighted matrix factori⁃ zation)模型进行评分预测。 百度的深度学习语音识 别系统 DeepSpeech [37] 可以在饭店等嘈杂环境下实 现将近 81% 的辨识准确率。 2015 年 Chan 等[38] 提 出了 LAS( listen, attend and spell )系统。 该系统利 用金字塔式双向的 RNN 网络。 不同于传统的模型, 不需要完整的端对端的 CTC( connectionist temporal classification),实现跳过音素直接把语音识别为字 符,合成了约 4 万小时音频。 当不依赖语音词典和 语言 模 型 时 在 谷 歌 语 音 搜 索 任 务 词 错 率 达 到 14.2%,当结合语言模型时词错率达到11.2%。 2.2 计算机视觉 2012 年 Hinton [39]和他的 2 个学生在著名的 Im⁃ ageNet 问题上用更深的卷积神经网络取得世界最好 结果,赢得了冠军,使得图像识别大踏步前进。 随 后,深度学习在图像处理方面取得突破性进展,如物 体定位[40] 、 脸部识别[41] 和人体姿势估 计[42] 等。 2015 年深海团队[43]利用卷积神经网络对 3 万个例 子进行 121 种浮游生物分类。 Denton 等[44] 利用卷 积神经网络通过用户的性别、年龄、城市和图片等特 征进行整合。 在 Facebook 上对用户上传的图片进 行标签、分类。 2.2.1 图像语义分割 图像包括很多层信息,例如这幅图像是否有特 定的物体(如汽车)。 所谓的图像语义分割,就是描 述图片中包含哪些物体、包括街头的场景分割、三维 扫描、对 3⁃D 人体解剖分割定位等。 因为是基于像 素分类方法,所以这个问题会带来巨大的计算量。 2015 年 Long 等[45] 提出了利用全卷积网络 ( fully convolutional networks,FCN,) 的概念去进行图像语 义分割。 同年 Behnke 等[46] 提出了语义 RGB⁃D 感 知器的概念,使得基于深度学习的图像语义分割得 到进一步发展。 2.2.2 人脸识别 Linkface 开发了基于深度学习的人脸检测创新 算法 。 无论场景中是单人还是多人,是侧脸、半遮 挡还是模糊等情景中,均能进行精准检测。 据全球 最具权威的人脸检测评测平台 FDDB 最新数据, Linkface 的人脸检测算法达到了世界领先的水平。 2014 年 Facebook 开发一种叫 DeepFace [41]技术。 其 贡献在于对人脸对齐和人脸表示环节的改进。 通过 革新的 3⁃D 人脸建模勾勒出脸部特征,然后通过颜 色过滤做出一个刻画特定脸部元素的平面模型。 Facebook 建立了一个来自于 4 030 个人的 440 万张 标签化的人脸池,Facebook 称这是迄今为止最大规 模的人脸池。 它是一个拥有 9 层的深度卷积神经网 络,网络有超过 1.2 亿个参数。 该技术在 LFW 数据 集上取得了 97.25%的平均精度,已经接近人类的识 别水平。 2015 年 Google 提出 FaceNet [47] 进行人脸 验证。 它直接学习图像到欧式空间上点的映射,然 后基于这个编码再做人脸识别、人脸验证和人脸聚 ·570· 智 能 系 统 学 报 第 11 卷
第5期 刘帅师,等:深度学习方法研究新进展 ·571· 类等。其中两张图像所对应的特征欧式空间上的点 的数据集上准确率达到47.67%。 之间的距离直接对应着两个图像是否相似。 2.3自然语言处理 FaceNet并没有像DeepFace和DeepID那样需要对 Sashihithlu等eo]采用递归自编码方法(recur- 齐。FaceNet得到最终表示后不用像DeepID那样需 sive auto encoders,RAE)来解决较为复杂的情感分 要再训练模型进行分类,直接计算距离就可以,简单 析问题。Johnson等[6l]提出一种基于卷积神经网络 而有效。在Youtube数据集上测试准确率为95.12%。 直接在词袋模型(BoW)上用做文本分类任务。 目前,传统人脸识别技术主要集中在可见光谱 2015年谷歌的Good等利用深度神经网络开发了字 的范畴,对于跨模态人脸识别问题尚无好的解决方 镜头(word lens)实时视频翻译性能和通话实时翻译 法。2015年Sarfraz等[48]利用深度神经网络,成功 功能。它可以实现拿着手机摄像头对着实物,实物 将红外热图像与可见光图像进行匹配,实现了跨模 中的文字就可被即时识别出,并被翻译成目标语言, 态人脸匹配。该网络可以在短短35ms的时间内,能 目前该技术可支持20多种语言的即时视觉翻译。 够将红外热图像匹配到其可见光图像,可以实现实 更重要的是即使它在不联网的状态下也能进行工 时运行。 作,所有深度学习的庞大计算都是在手机上完成的。 2.2.3表情识别 李婷等[6]利用堆叠去噪自动编码器(stack denoising 目前,大部分研究者把卷积神经网络应用在表 auto encoder,SDAE)识别盲文。 情识别上。例如,2013年Liu等[4提出了构建一个 2.4、医疗应用 新的深层结构(AU-aware deep networks,AUDN),基 Deep Genomics公司开始把基因组和深度学习 于卷积神经网络进行特征提取,连接SVM做表情分 结合起来,Deep Genomics已经推出了他们的第一款 类器。2014年0 uellet等[so0]使用卷积神经网络对电 产品SPIDEX。只需将测试结果和细胞类型导入, 脑前的游戏玩家进行实时表情识别。Somg等[s)]利 SPIDEX便可分析出某一变异对RNA剪切的影响, 用了一种5层卷积神经网络,实现了每幅图像在服 并计算出该变异与疾病之间的关系。Koziol等[] 务器的预测时间为50ms,每个图像的往返时间小 利用一种受限玻尔兹曼机用于肝细胞癌的分类。 于100ms,在智能手机上实现实时表情识别。jia 2015年Fauw等[641利用20多层的卷积神经网络检 等[s2]用Kinect深度传感器得到的图片作为表情识 测糖尿病视网膜病变的眼底图像。 别的对象,并在卷积神经网络进行表情识别取得了 较好的效果。Byeon等s使用3D卷积神经网络去 3模型总结及面临的挑战 识别视频人脸表情。文献[54]证明在实时表情识 3.1深度学习模型 别系统,卷积神经网络比深层神经网络具有更好的 本文对深度学习模型进行分类、概括,在此以模 效果。 型的结构为序,对深度学习模型进行总结如表1~表 还有一部分研究者利用其他深度学习模型进行 3所示。 表情识别。例如,McLaughlin等[s提出一种基于深 1)模型结构。目前,大部分的深度学习模型都 度信念网络的实时表情识别系统,但只能检测4种 是以卷积神经网络、深度信念网络、深度玻尔滋曼 表情。2013年He等[]利用深度玻尔兹曼机对红 机、堆叠自动编码器等几种基本模型为基础演变而 外热图像进行表情识别。 来。除此之外,还有像递归神经网络(recurrentneu- 此外,一些研究者们将多种深度学习模型结合 ral networks,RNN)[、深度凸形网络(deep convex 起来进行表情识别。例如,2014年LYU等s)将深 net,DCN)【]等其他类型的新型深度模型。 度信念网络与自编码器相结合来进行识别。2015 2)训练方式。深度学习模型的训练方式主要 年Jung等s]将卷积神经网络与深度神经网络合起 有有监督学习和无监督学习2种。训练方式因模型 来。Kahou等s9提出一种视频表情识别系统 结构而异,一般以卷积神经网络为核心的模型一般 EmoNets。卷积神经网络捕捉视频信息,检测人脸。 采取有监督训练方式。而以受限制玻尔兹曼机与自 深度信念网络捕捉音频信息,自编码器捕捉人肢体 动编码器为核心的模型,大部分采用无监督学习方 行为。该理论赢得了2013 EmotiW挑战赛,在2014 式预训练,配合有监督微调模式进行参数训练
类等。 其中两张图像所对应的特征欧式空间上的点 之间 的 距 离 直 接 对 应 着 两 个 图 像 是 否 相 似。 FaceNet 并没有像 DeepFace 和 DeepID 那样需要对 齐。 FaceNet 得到最终表示后不用像 DeepID 那样需 要再训练模型进行分类,直接计算距离就可以,简单 而有效。 在 Youtube 数据集上测试准确率为95.12%。 目前,传统人脸识别技术主要集中在可见光谱 的范畴,对于跨模态人脸识别问题尚无好的解决方 法。 2015 年 Sarfraz 等[48] 利用深度神经网络,成功 将红外热图像与可见光图像进行匹配,实现了跨模 态人脸匹配。 该网络可以在短短35 ms的时间内,能 够将红外热图像匹配到其可见光图像,可以实现实 时运行。 2.2.3 表情识别 目前,大部分研究者把卷积神经网络应用在表 情识别上。 例如,2013 年 Liu 等[49]提出了构建一个 新的深层结构(AU⁃aware deep networks,AUDN),基 于卷积神经网络进行特征提取,连接 SVM 做表情分 类器。 2014 年 Ouellet 等[50]使用卷积神经网络对电 脑前的游戏玩家进行实时表情识别。 Song 等[51] 利 用了一种 5 层卷积神经网络,实现了每幅图像在服 务器的预测时间为 50 ms,每个图像的往返时间小 于 100 ms,在智能手机上实现实时表情识别。 Ijjina 等[52]用 Kinect 深度传感器得到的图片作为表情识 别的对象,并在卷积神经网络进行表情识别取得了 较好的效果。 Byeon 等[53] 使用 3D 卷积神经网络去 识别视频人脸表情。 文献[54] 证明在实时表情识 别系统,卷积神经网络比深层神经网络具有更好的 效果。 还有一部分研究者利用其他深度学习模型进行 表情识别。 例如,McLaughlin 等[55] 提出一种基于深 度信念网络的实时表情识别系统,但只能检测 4 种 表情。 2013 年 He 等[56] 利用深度玻尔兹曼机对红 外热图像进行表情识别。 此外,一些研究者们将多种深度学习模型结合 起来进行表情识别。 例如,2014 年 LYU 等[57] 将深 度信念网络与自编码器相结合来进行识别。 2015 年 Jung 等[58] 将卷积神经网络与深度神经网络合起 来。 Kahou 等[59] 提 出 一 种 视 频 表 情 识 别 系 统 EmoNets。 卷积神经网络捕捉视频信息,检测人脸。 深度信念网络捕捉音频信息,自编码器捕捉人肢体 行为。 该理论赢得了 2013 EmotiW 挑战赛,在 2014 的数据集上准确率达到 47.67%。 2.3 自然语言处理 Sashihithlu 等[60] 采用递归自编码方法( recur⁃ sive auto encoders,RAE) 来解决较为复杂的情感分 析问题。 Johnson 等[61]提出一种基于卷积神经网络 直接在词袋模型 ( BoW) 上用做文 本 分 类 任 务。 2015 年谷歌的 Good 等利用深度神经网络开发了字 镜头(word lens)实时视频翻译性能和通话实时翻译 功能。 它可以实现拿着手机摄像头对着实物,实物 中的文字就可被即时识别出,并被翻译成目标语言, 目前该技术可支持 20 多种语言的即时视觉翻译。 更重要的是即使它在不联网的状态下也能进行工 作,所有深度学习的庞大计算都是在手机上完成的。 李婷等[62]利用堆叠去噪自动编码器(stack denoising auto encoder,SDAE)识别盲文。 2.4 医疗应用 Deep Genomics 公司开始把基因组和深度学习 结合起来,Deep Genomics 已经推出了他们的第一款 产品 SPIDEX。 只需将测试结果和细胞类型导入, SPIDEX 便可分析出某一变异对 RNA 剪切的影响, 并计算出该变异与疾病之间的关系。 Koziol 等[63] 利用一种受限玻尔兹曼机用于肝细胞癌的分类。 2015 年 Fauw 等[64]利用 20 多层的卷积神经网络检 测糖尿病视网膜病变的眼底图像。 3 模型总结及面临的挑战 3.1 深度学习模型 本文对深度学习模型进行分类、概括,在此以模 型的结构为序,对深度学习模型进行总结如表 1~表 3 所示。 1)模型结构。 目前,大部分的深度学习模型都 是以卷积神经网络、深度信念网络、深度玻尔兹曼 机、堆叠自动编码器等几种基本模型为基础演变而 来。 除此之外,还有像递归神经网络( recurrentneu⁃ ral networks,RNN) [74] 、深度凸形网络( deep convex net,DCN) [75]等其他类型的新型深度模型。 2)训练方式。 深度学习模型的训练方式主要 有有监督学习和无监督学习 2 种。 训练方式因模型 结构而异,一般以卷积神经网络为核心的模型一般 采取有监督训练方式。 而以受限制玻尔兹曼机与自 动编码器为核心的模型,大部分采用无监督学习方 式预训练,配合有监督微调模式进行参数训练。 第 5 期 刘帅师,等:深度学习方法研究新进展 ·571·
·572. 智能系统学报 第11卷 表1典型深度学习模型 Table 1 Typical deep learing model 序号 模型名称 模型描述 常用训练方式 适用范围 作者,文献,年份 卷积神经网络 多个卷积层和下采样层交有监督,运用前向 图像处理,自然语 Lecun Y,[65],1990 (CNN) 替组成,以及一个全连接 传播和后向传播 言处理,视频分析 层 (BP)相结合方式 3D卷积神经网络 适用于视频中,通过堆叠有监督,通过随机 视频分析 JiS.[66],2013 (3D-CNN) 多个连续的帧组成一个立对角Levenberg- 方体,然后在立方体中运 Marquardt 用3D卷积核,捕捉在时间 法来优化训练 和空间维度都具有区分性 的特征 金字塔卷积神经网络与CNN不同,是Siamese 有监督逐层训练 图像处理 FamH.[13],2014 PCNN) 网络,由多个金字塔组成 深度信念网络 多个RBM累加而成的深 无监督贪婪逐层预语音识别,图像处Hinton G E,[67],2006 (DBN) 度网络 训练,有监督微调 理,自然语言处理 (BP) 卷积深度信念网络 将DBN中RBM替换成无监督贪婪逐层预 图像处理, LeeH.[21].2011 (CDBN) CRBM 训练,有监督微调 语音信号处理 稀疏深度信念网 将DBN中RBM替换成无监督贪婪逐层预 图像处理 Halkias X C.[22]2014 (SDBN) SRBM 训练,有监督微调 深度玻尔兹曼机 多个RBM累加而成,与无监督贪婪逐层预 图像处理 Salakhutdinov R. DBM) DBN不同层间均为无向连训练,再进行场均 [68],2009 接,省略了由上至下的反值算法,有监督微 馈参数调节 调(BP) 3 卷积深度玻尔兹曼机将DBM中RBM替换成无监督贪婪逐层预 图像处理 杜卷,[69]2014 (CDBM) CRBM 训练,再进行场均 值算法,有监督 微调 堆叠自动编码器 多个AE累加而成 无监督贪婪逐层预 图像处理 Bengio Y,70],2009 (SAE) 训练,再将网络展 开,有监督微调 (BP) 堆叠去噪自动编码器将SAE中AE替换成DAE无监督贪婪逐层预 图像处理, Vincent P,[25],2008 (SDAE) 训练,再将网络展 自然语言处理 开,有监督微调 (BP)
表 1 典型深度学习模型 Table 1 Typical deep learing model 序号 模型名称 模型描述 常用训练方式 适用范围 作者,文献,年份 1 卷积神经网络 (CNN) 多个卷积层和下采样层交 替组成,以及一个全连接 层 有监督,运用前向 传播和后向传播 (BP)相结合方式 图像处理,自然语 言处理,视频分析 Lecun Y,[65],1990 3D 卷积神经网络 (3D⁃CNN) 适用于视频中,通过堆叠 多个连续的帧组成一个立 方体,然后在立方体中运 用 3D 卷积核,捕捉在时间 和空间维度都具有区分性 的特征 有监督, 通过随机 对角 Levenberg⁃ Marquardt 法来优化训练 视频分析 Ji S,[66],2013 金字塔卷积神经网络 (PCNN) 与 CNN 不 同, 是 Siamese 网络,由多个金字塔组成 有监督逐层训练 图像处理 Fan H,[13],2014 2 深 度 信 念 网 络 (DBN) 多个 RBM 累加而成的深 度网络 无监督贪婪逐层预 训练,有监督微调 (BP) 语音识别,图像处 理,自然语言处理 Hinton G E,[67], 2006 卷积深度信念网络 (CDBN) 将 DBN 中 RBM 替换成 CRBM 无监督贪婪逐层预 训练,有监督微调 图像处理, 语音信号处理 Lee H,[21],2011 稀疏深度信念网 (SDBN) 将 DBN 中 RBM 替换成 SRBM 无监督贪婪逐层预 训练,有监督微调 图像处理 Halkias X C,[22] 2014 3 深度玻尔兹曼机 (DBM) 多个 RBM 累 加 而 成, 与 DBN 不同层间均为无向连 接,省略了由上至下的反 馈参数调节 无监督贪婪逐层预 训练, 再进行场均 值算法,有监督微 调(BP) 图像处理 Salakhutdinov R, [68],2009 卷积深度玻尔兹曼机 (CDBM) 将 DBM 中 RBM 替 换 成 CRBM 无监督贪婪逐层预 训练,再进行场均 值算法,有监督 微调 图像处理 杜骞,[69]2014 4 堆叠自动编码器 (SAE) 多个 AE 累加而成 无监督贪婪逐层预 训练,再将网络展 开,有监督微调 (BP) 图像处理 Bengio Y,[70],2009 堆叠去噪自动编码器 (SDAE) 将 SAE 中 AE 替换成 DAE 无监督贪婪逐层预 训练,再将网络展 开,有监督微调 (BP) 图像处理, 自然语言处理 Vincent P,[25],2008 ·572· 智 能 系 统 学 报 第 11 卷
第5期 刘帅师,等:深度学习方法研究新进展 ·573· 表2玻尔兹曼机及其演化模型 Table 2 Boltzmann machine and its evolution model 序号 模型名称 模型描述 作者,文献,年份 随机神经元组成的二值随机机器,一种 玻尔兹曼机(BM) Hinton G E,[71],1986 随机递归神经网络 2 受限制玻尔兹曼机(RBM) 与BM结果相同,只是没有层间的连接 Smolensky P,[72],1986 三层两部无向图模型,由可视层、 卷积受限制玻尔兹曼机(CRBM) LeeH.[15],2009 检测层、池层组成 在RBM的对数似然目标函数上, 稀疏受限制玻尔兹曼机(SRBM) LeeH.[16].2008 增加了一个稀疏惩罚项 5 稀疏租受限制玻尔兹曼机(SGRBM) 将组稀疏方法应用到RBM 罗恒,[17],2011 利用包含二值随机变量的隐单元来 6 分类受限制玻尔兹曼机(CRBM) Larochelle H,[18],2008 拟合输人特征与类标签的联合分布 表3自动编码器及其演化模型 Table 3 Automatic encoder and its evolution model 序号 模型名称 模型描述 作者,文献,年份 多层神经网络,从输入层到隐藏层为编码 1 自动编码器(AE) 器,从隐藏层到输出层为解码器 Rumelhart D E,[73],1986 去噪自动编码器(DAE) 在AE的输入层引人随机噪声 Vincent P,[25],2008 3 稀疏自动编码器(SAE) AE加入稀疏性限制 Bengio Y,[26],2007 4 收缩自动编码器(CAE) 对AE的升维和降维过程加以限制 Rifai S,[27],2011 5 卷积自动编码器(CAE) AE每个隐含层的节点都是用来做卷积 Masci J,[28],2011 3)应用领域。深度学习在语音处理、计算机视 上的无监督学习。因此,如何做到完全意义上的无 觉的应用已十分广泛,许多技术已用于商用。但是, 监督学习是未来研究的重点。 在自然语言处理的应用尚不成熟口。一些研究者 3)减少训练时间。当待解决的问题过于复杂, 尝试用递归神经网络去解决这一问题。文献[74- 使深度学习模型参数增加时,会导致模型的训练时 78]对递归神经网络在文本生成和机器翻译的应用 间逐渐上升,是否可以在不改变硬件性能的条件下, 做出了详细的描述。目前,递归神经网络的变种模 对算法进行改进,在保证精度的同时,提高训练速 型长短时记忆模型(long short-term memory,LSTM) 度。所以,减少训练时间,仍是深度学习需要努力的 被证明比传统的递归神经网络更加有效[]。 研究方向。 3.2面临的挑战 4)实现在线学习。目前,深度学习的算法大多 1)模型结构创新。自Hinton提出深度学习的 采用无监督预训练与有监督微调配合的方式进行。 思想以来,已经涌现出大量的深度学习模型,然而大 然而,一旦在线环境下引入全局微调,会使结果陷入 部分的模型的构建依旧停留在以简单模型(如AE, 局部最小值。因此,这种训练算法不利于在线学习。 RBM等)叠加而成的深度网络,或是几种深度学习 是否可以改进算法进而将深度学习应用于在线环 模型简单相叠加,来构建深度学习模型。这种形式 境,这是未来要思考的问题。 的模型往往不能发挥深度学习的优势,是否存在其 5)克服对抗样本。通过稍微修改实际样本,而 他有效的深度学习模型,是否可以让深度学习与其 构造出的合成样本,会使一个分类器以高置信度认 他方法进行融合,这是今后要研究的问题。 为它们属于错误的分类,这就是深度学习对抗样本 2)训练方式的改进。深度学习已经在各个领 问题02]。研究如何克服它们可以帮助我们避免 域取得了突破性的成果,大部分深度学习模型均采 潜在的安全问题。然而,目前为止并没有好的方法 用无监督学习方式。但是,离完全的无监督学习还 出现。一些研究人员尝试使用常见的正则化方法 有一定的距离。目前的深度学习模型在无监督预训 (包括均化多重模型、均化图像多采样观测等)去解 练后,仍然需要有监督的微调,并没有做到完全意义 决这一问题,但是并没有取得良好的进展。因此,深
表 2 玻尔兹曼机及其演化模型 Table 2 Boltzmann machine and its evolution model 序号 模型名称 模型描述 作者,文献,年份 1 玻尔兹曼机(BM) 随机神经元组成的二值随机机器,一种 随机递归神经网络 Hinton G E,[71],1986 2 受限制玻尔兹曼机(RBM) 与 BM 结果相同,只是没有层间的连接 Smolensky P ,[72],1986 3 卷积受限制玻尔兹曼机(CRBM) 三层两部无向图模型,由可视层、 检测层、池层组成 Lee H,[15],2009 4 稀疏受限制玻尔兹曼机(SRBM) 在 RBM 的对数似然目标函数上, 增加了一个稀疏惩罚项 Lee H,[16],2008 5 稀疏租受限制玻尔兹曼机(SGRBM) 将组稀疏方法应用到 RBM 罗恒,[17],2011 6 分类受限制玻尔兹曼机(CRBM) 利用包含二值随机变量的隐单元来 拟合输入特征与类标签的联合分布 Larochelle H,[18],2008 表 3 自动编码器及其演化模型 Table 3 Automatic encoder and its evolution model 序号 模型名称 模型描述 作者,文献,年份 1 自动编码器(AE) 多层神经网络,从输入层到隐藏层为编码 器,从隐藏层到输出层为解码器 Rumelhart D E,[73],1986 2 去噪自动编码器(DAE) 在 AE 的输入层引入随机噪声 Vincent P,[25],2008 3 稀疏自动编码器(SAE) AE 加入稀疏性限制 Bengio Y,[26],2007 4 收缩自动编码器(CAE) 对 AE 的升维和降维过程加以限制 Rifai S,[27],2011 5 卷积自动编码器(CAE) AE 每个隐含层的节点都是用来做卷积 Masci J,[28],2011 3)应用领域。 深度学习在语音处理、计算机视 觉的应用已十分广泛,许多技术已用于商用。 但是, 在自然语言处理的应用尚不成熟[1] 。 一些研究者 尝试用递归神经网络去解决这一问题。 文献[74⁃ 78]对递归神经网络在文本生成和机器翻译的应用 做出了详细的描述。 目前,递归神经网络的变种模 型长短时记忆模型 ( long short⁃term memory,LSTM) 被证明比传统的递归神经网络更加有效[79] 。 3.2 面临的挑战 1)模型结构创新。 自 Hinton 提出深度学习的 思想以来,已经涌现出大量的深度学习模型,然而大 部分的模型的构建依旧停留在以简单模型(如 AE, RBM 等)叠加而成的深度网络,或是几种深度学习 模型简单相叠加,来构建深度学习模型。 这种形式 的模型往往不能发挥深度学习的优势,是否存在其 他有效的深度学习模型,是否可以让深度学习与其 他方法进行融合,这是今后要研究的问题。 2)训练方式的改进。 深度学习已经在各个领 域取得了突破性的成果,大部分深度学习模型均采 用无监督学习方式。 但是,离完全的无监督学习还 有一定的距离。 目前的深度学习模型在无监督预训 练后,仍然需要有监督的微调,并没有做到完全意义 上的无监督学习。 因此,如何做到完全意义上的无 监督学习是未来研究的重点。 3)减少训练时间。 当待解决的问题过于复杂, 使深度学习模型参数增加时,会导致模型的训练时 间逐渐上升,是否可以在不改变硬件性能的条件下, 对算法进行改进,在保证精度的同时,提高训练速 度。 所以,减少训练时间,仍是深度学习需要努力的 研究方向。 4)实现在线学习。 目前,深度学习的算法大多 采用无监督预训练与有监督微调配合的方式进行。 然而,一旦在线环境下引入全局微调,会使结果陷入 局部最小值。 因此,这种训练算法不利于在线学习。 是否可以改进算法进而将深度学习应用于在线环 境,这是未来要思考的问题。 5)克服对抗样本。 通过稍微修改实际样本,而 构造出的合成样本,会使一个分类器以高置信度认 为它们属于错误的分类,这就是深度学习对抗样本 问题[80⁃82] 。 研究如何克服它们可以帮助我们避免 潜在的安全问题。 然而,目前为止并没有好的方法 出现。 一些研究人员尝试使用常见的正则化方法 (包括均化多重模型、均化图像多采样观测等)去解 决这一问题,但是并没有取得良好的进展。 因此,深 第 5 期 刘帅师,等:深度学习方法研究新进展 ·573·
·574· 智能系统学报 第11卷 度学习的对抗样本问题仍然是待解决的难题之一。 Jiangsu university:natural science editions,2015,36(2): 191-200. 4结束语 [8]LECUN Y,JACKEL L D,BOTTOU L,et al.Learning al- 本文详细描述了几种典型的深度学习模型的构 gorithms for classification:a comparison on handwritten digit 造原理,以及训练方法。并且,对近3年深度学习在 recognition[M]//OH J H,KWON C,CHO S.Neural Net- 各个领域的应用进行了概括。最后,在现有深度学 works:The Statistical Mechanics Perspective.Singapore: World Scientific,1995:261-276. 习模型的基础上讨论了深度学习面临的桃战。 [9]陈先昌.基于卷积神经网络的深度学习算法与应用研究 深度学习自提出以来已经在许多领域取得了突 [D].杭州:浙江工商大学,2014. 破性的进展。但是,在深度学习实际应用的过程中, CHEN Xianchang.Research on algorithm and application of 往往为了要构造合适的深度学习模型而大费周章。 deep learning based on convolutional neural network [D] 因为目前的深度学习模型大部分是为了解决某一特 Hangzhou,China:Zhejiang Gongshang University,2014. 定问题,而量身定做的。如果用于解决其他问题,效 [10]李卫.深度学习在图像识别中的研究及应用[D].武 果往往不尽如人意。今后研究者们能否通过改进结 汉:武汉理工大学,2014. 构与算法,研究出一种可以应对大部分问题深度学 LI Wei.The research and application of deep learning in 习算法,这是未来要思考的难题。 image recognition[D].Wuhan:Wuhan University of Tech- nology,2014. 参考文献: [11]JI Shuiwang,XU Wei,YANG Ming,et al.3D convolu- tional neural networks for human action recognition J]. [1]LECUN Y,BENGIO Y,HINTON G.Deep learning J]. IEEE transactions on pattern analysis and machine intelli- Nature,2015,521(7553):436-444. gence,2013,35(1):221-231. [2]林妙真.基于深度学习的人脸识别研究[D].大连:大连 [12]BRUNA J,ZAREMBA W,SZLAM A,et al.Spectral net- 理工大学,2013 works and locally connected networks on graphs[EB/OL]. LIN Miaozhen.Research on face recognition based on deep Eprint Arxiv:Aiv,2013.[2014-10-10]http:/120.52 learning[D].Dalian,China:Dalian University of Technol- 73.79/axiv.org/pdf/1312.6203v3.pdf. 0,2013. [13 FAN Haoqiang,CAO Zhimin,JIANG Yuning,et al. [3]HINTON G E,SALAKHUTDINOV RR.Reducing the di- Learning deep face representation[EB/OL].Eprint Arx- mensionality of data with neural networks J].Science, iw:Axiv,2014.[2014-10-10]http://120.52.73.80/ 2006,313(5786):504-507. arxiv.org/pdf/1403.2802v1.pdf. [4]刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机 [14]王冠皓,徐军.基于多级金字塔卷积神经网络的快速特 应用研究,2014,31(7):1921-1930,1942 征表示方法[J].计算机应用研究,2015,32(8):2492- LIU Jianwei,LIU Yuan,LUO Xionglin.Research and de- 2495. velopment on deep learning[J].Application research of WANG Guanhao,XU Jun.Fast feature representation computers,2014,31(7):1921-1930,1942. method based on multi-level pyramid convolution neural [5]余滨,李绍滋,徐素霞,等.深度学习:开启大数据时代 network[J].Application research of computers,2015,32 的钥匙[J].工程研究-跨学科视野中的工程,2014,6 (8):2492-2495. (3):233-243. [15]LEE H,GROSSE R,RANGANATH R,et al.Convolu- YU Bin,LI Shaozi,XU Suxia,et al.Deep learning:a key tional deep belief networks for scalable unsupervised learn- of stepping into the era of big data[]]Journal of engineer- ing of hierarchical representations[C]//Proceedings of the ing studies,.2014,6(3):233-243. 26th Annual International Conference on Machine Learn- [6]尹宝才,王文通,王立春.深度学习研究综述[J].北京 ing.New York,NY,USA,2009:609-616. 工业大学学报.2015,41(1):48-59. [16]LEE H,EKANADHAM C,NG A Y.Sparse deep belief YIN Biaocai,WANG Wentong,WANG Lichun.Review of net model for visual area V2[C]//Advances in Neural In- deep leaming[J].Journal of Beijing university of technolo- formation Processing Systems 20:21st Annual Conference ,2015,41(1):48-59. on Neural Information Processing Systems.Vancouver, [7]张建明,詹智财,成科扬,等.深度学习的研究与发展 British Columbia,Canada,2007:873-880. [J].江苏大学学报:自然科学版,2015,36(2):191- [17]罗恒.基于协同过滤视角的受限玻尔兹曼机研究[D]。 200. 上海:上海交通大学,2011. ZHANG Jianming,ZHAN Zhicai,CHENG Keyang,et al. LUO Heng.Restricted Boltzmann machines:a collaborative Review on development of deep learning [J].Journal of filtering perspective[D].Shanghai,China:Shanghai Jiao
度学习的对抗样本问题仍然是待解决的难题之一。 4 结束语 本文详细描述了几种典型的深度学习模型的构 造原理,以及训练方法。 并且,对近 3 年深度学习在 各个领域的应用进行了概括。 最后,在现有深度学 习模型的基础上讨论了深度学习面临的挑战。 深度学习自提出以来已经在许多领域取得了突 破性的进展。 但是,在深度学习实际应用的过程中, 往往为了要构造合适的深度学习模型而大费周章。 因为目前的深度学习模型大部分是为了解决某一特 定问题,而量身定做的。 如果用于解决其他问题,效 果往往不尽如人意。 今后研究者们能否通过改进结 构与算法,研究出一种可以应对大部分问题深度学 习算法,这是未来要思考的难题。 参考文献: [1] LECUN Y, BENGIO Y, HINTON G. Deep learning [ J]. Nature, 2015, 521(7553): 436⁃444. [2]林妙真. 基于深度学习的人脸识别研究[D]. 大连: 大连 理工大学, 2013. LIN Miaozhen. Research on face recognition based on deep learning[D]. Dalian, China: Dalian University of Technol⁃ ogy, 2013. [3] HINTON G E, SALAKHUTDINOV R R. Reducing the di⁃ mensionality of data with neural networks [ J ]. Science, 2006, 313(5786): 504⁃507. [4]刘建伟, 刘媛, 罗雄麟. 深度学习研究进展[ J]. 计算机 应用研究, 2014, 31(7): 1921⁃1930, 1942. LIU Jianwei, LIU Yuan, LUO Xionglin. Research and de⁃ velopment on deep learning [ J]. Application research of computers, 2014, 31(7): 1921⁃1930, 1942. [5]余滨, 李绍滋, 徐素霞, 等. 深度学习: 开启大数据时代 的钥匙[ J]. 工程研究⁃跨学科视野中的工程, 2014, 6 (3): 233⁃243. YU Bin, LI Shaozi, XU Suxia, et al. Deep learning: a key of stepping into the era of big data[J]. Journal of engineer⁃ ing studies, 2014, 6(3): 233⁃243. [6]尹宝才, 王文通, 王立春. 深度学习研究综述[ J]. 北京 工业大学学报, 2015, 41(1): 48⁃59. YIN Biaocai, WANG Wentong, WANG Lichun. Review of deep learning[J]. Journal of Beijing university of technolo⁃ gy, 2015, 41(1): 48⁃59. [7]张建明, 詹智财, 成科扬, 等. 深度学习的研究与发展 [J]. 江苏大学学报: 自然科学版, 2015, 36( 2): 191⁃ 200. ZHANG Jianming, ZHAN Zhicai, CHENG Keyang, et al. Review on development of deep learning [ J ]. Journal of Jiangsu university: natural science editions, 2015, 36(2): 191⁃200. [8]LECUN Y, JACKEL L D, BOTTOU L, et al. Learning al⁃ gorithms for classification: a comparison on handwritten digit recognition[M] / / OH J H, KWON C, CHO S. Neural Net⁃ works: The Statistical Mechanics Perspective. Singapore: World Scientific, 1995: 261⁃276. [9]陈先昌. 基于卷积神经网络的深度学习算法与应用研究 [D]. 杭州: 浙江工商大学, 2014. CHEN Xianchang. Research on algorithm and application of deep learning based on convolutional neural network [ D]. Hangzhou, China: Zhejiang Gongshang University, 2014. [10]李卫. 深度学习在图像识别中的研究及应用[D]. 武 汉: 武汉理工大学, 2014. LI Wei. The research and application of deep learning in image recognition[D]. Wuhan: Wuhan University of Tech⁃ nology, 2014. [11] JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolu⁃ tional neural networks for human action recognition [ J]. IEEE transactions on pattern analysis and machine intelli⁃ gence, 2013, 35(1): 221⁃231. [12]BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral net⁃ works and locally connected networks on graphs[EB/ OL]. Eprint Arxiv: Arxiv,2013. [ 2014⁃10⁃10] http: / / 120.52. 73.79 / arxiv.org / pdf / 1312.6203v3.pdf. [ 13 ] FAN Haoqiang, CAO Zhimin, JIANG Yuning, et al. Learning deep face representation[EB/ OL]. Eprint Arx⁃ iv: Arxiv, 2014. [2014-10-10] http: / / 120.52.73.80 / arxiv.org / pdf / 1403.2802v1.pdf. [14]王冠皓, 徐军. 基于多级金字塔卷积神经网络的快速特 征表示方法[J]. 计算机应用研究, 2015, 32(8): 2492⁃ 2495. WANG Guanhao, XU Jun. Fast feature representation method based on multi⁃level pyramid convolution neural network[J]. Application research of computers, 2015, 32 (8): 2492⁃2495. [15] LEE H, GROSSE R, RANGANATH R, et al. Convolu⁃ tional deep belief networks for scalable unsupervised learn⁃ ing of hierarchical representations[C] / / Proceedings of the 26th Annual International Conference on Machine Learn⁃ ing. New York, NY, USA, 2009: 609⁃616. [16]LEE H, EKANADHAM C, NG A Y. Sparse deep belief net model for visual area V2[C] / / Advances in Neural In⁃ formation Processing Systems 20: 21st Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2007: 873⁃880. [17]罗恒. 基于协同过滤视角的受限玻尔兹曼机研究[D]. 上海: 上海交通大学, 2011. LUO Heng. Restricted Boltzmann machines: a collaborative filtering perspective[D]. Shanghai, China: Shanghai Jiao ·574· 智 能 系 统 学 报 第 11 卷
第5期 刘帅师,等:深度学习方法研究新进展 ·575· Tong University,2011 Artificial Neural Networks,Part I.Berlin Heidelberg,Ger- [18]LAROCHELLE H,BENGIO Y.Classification using dis- many,2011:52.59. criminative restricted Boltzmann machines [Cl//Proceed- [29]王雅思.深度学习中的自编码器的表达能力研究[D] ings of the 25th International Conference on Machine 哈尔滨:哈尔滨工业大学,2014。 Learning.New York,NY,USA,2008:536-543 WANG Yasi.Representation ability research of auto-en- [19]张春霞,姬楠楠,王冠伟.受限波尔兹曼机[J].工程数 coders in deep learning[D].Harbin:Harbin Institute of 学学报,2015,32(2):159-173 Technology,2014. ZHANG Chunxia,JI Nannan,WANG Guanwei.Restricted [30]李远豪.基于深度自编码器的人脸美丽吸引力预测研 Boltzmann machines[J].Chinese journal of engineering 究[D].江门:五色大学,2014 mathematics,2015,32(2):159-173 LI Yuanhao.A study for facial beauty attractiveness predic- [20]刘银华.LBP和深度信念网络在非限制条件下人脸识 tion based on deep autoencoder[D].Jiangmen:Wuyi Uni- 别研究[D].江门:五邑大学,2014. versity,2014. LIU Yinhua.The research of face recognition under uncon- [31]林洲汉.基于自动编码机的高光谱图像特征提取及分 strained condition via LBP and deep belief network [D]. 类方法研究[D].哈尔滨:哈尔滨工业大学,2014. Jiangmen:Wuyi University,2014. LIN Zhouhan.Hyperspectral image feature extraction and [21]LEE H,GROSSE R,RANGANATH R,et al.Unsuper- classification based on autoencoders[D].Harbin:Harbin vised learning of hierarchical representations with convolu- Institute of Technology,2014. tional deep belief networks [J].Communications of the [32]曲建岭,杜辰飞,邸亚洲,等.深度自动编码器的研究 ACM.2011,54(10):95-103. 与展望[J].计算机与现代化.2014(8):128-134. [22]HALKIAS X C,PARIS S,GLOTIN H.Sparse penalty in QU Jianling,DU Chenfei,DI Yazhou,et al.Research and deep belief networks:using the mixed norm constraint prospect of deep auto-encoders[J].Jisuanji yu xiandaihua, [EB/oL].[2014-05-08].http://axiv.org/pdf/1301. 2014(8):128-134. 3533.pdf. [33]林少飞,盛惠兴,李庆武.基于堆叠稀疏自动编码器的 [23]LIU Yan,ZHOU Shusen,CHEN Qingcai.Discriminative 手写数字分类[J].微处理机,2015(1):47-51. deep belief networks for visual data classification[]].Pat- LIN Shaofei,SHENG Huixing,LI Qingwu.Handwritten tern recognition,2011,44(10/11):2287-2296. digital classification based on the stacked sparse autoencod- [24]郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识 ers[J].Microprocessors,2015(1):47-51. 别中的新进展[J].中国图象图形学报,2014,19(2): [34]陈硕.深度学习神经网络在语音识别中的应用研究 175-184. [D].广州:华南理工大学,2013. ZHENG Yin,CHEN Quanqi,ZHANG Yujin.Deep learn- CHEN Shuo.Research of deep learning neural networks ing and its new progress in object and behavior recognition applications in speech recognition[D].Guangzhou,Chi- [J].Journal of image and graphics,2014,19(2):175- na:South China University of Technology,2013. 184. [35]郭丽丽,丁世飞.深度学习研究进展[J刀].计算机科学, [25]VINCENT P,LAROCHELLE H,BENGIO Y,et al.Ex- 2015,42(5):28-33. tracting and composing robust features with denoising au- GOU Lili,DING Shifei.Research progress on deep learn- toencoders [C]//Proceedings of the 25th International ing[J].Computer science,2015,42(5):28-33. Conference on Machine Learning.New York,NY,USA, [36]VAN DEN OORD A,DIELEMAN S,SCHRAUWEN B. 2008:1096-1103. Deep content-based music recommendation M]//Ad- 26]BENGIO Y,LAMBLIN P,POPOVICI D,et al.Greedy vances in Neural Information Processing Systems 26:27th layer-wise training of deep networks [C]//Advances in Annual Conference on Neural Information Processing Sys- Neural Information Processing Systems 19:20th Annual tems.Lake Tahoe,2013:2643-2651. Conference on Neural Information Processing Systems. [37]HANNUN A,CASE C,CASPER J,et al.Deep speech: Vancouver,British Columbia,Canada,2006:153-160. scaling up end-to-end speech recognition[EB/OL].Eprint [27]RIFAI S,VINCENT P,MULLER X,et al.Contractive Arxiv:Arxiv,2014.[2014-12-19]https://arxiv.org/pdf/ auto-encoders:explicit invariance during feature extraction 1412.5567v2.pdf. [C]//Proceedings of the 28th Intemational Conference on [38]余凯,贾磊,陈雨强.深度学习的昨天、今天和明天 Machine Learning.Bellevue,WA,USA,2011. [J].计算机研究与发展,2013,50(9):1799-1804. [28]MASCI J,MEIER U,CIRESAN D,et al.Stacked convo- YU Kai,JIA Lei,CHEN Yuqiang.Deep learning:yester- lutional auto-encoders for hierarchical feature extraction day,today,and tomorrow[J ]Journal of computer re- [C]//Proceedings of the 21st International Conference on search and development,2013,50(9):1799-1804
Tong University, 2011. [18] LAROCHELLE H, BENGIO Y. Classification using dis⁃ criminative restricted Boltzmann machines[C] / / Proceed⁃ ings of the 25th International Conference on Machine Learning. New York, NY, USA, 2008: 536⁃543. [19]张春霞, 姬楠楠, 王冠伟. 受限波尔兹曼机[J]. 工程数 学学报, 2015, 32(2): 159⁃173. ZHANG Chunxia, JI Nannan, WANG Guanwei. Restricted Boltzmann machines [ J]. Chinese journal of engineering mathematics, 2015, 32(2): 159⁃173. [20]刘银华. LBP 和深度信念网络在非限制条件下人脸识 别研究[D]. 江门: 五邑大学, 2014. LIU Yinhua. The research of face recognition under uncon⁃ strained condition via LBP and deep belief network [ D]. Jiangmen: Wuyi University, 2014. [21]LEE H, GROSSE R, RANGANATH R, et al. Unsuper⁃ vised learning of hierarchical representations with convolu⁃ tional deep belief networks [ J]. Communications of the ACM, 2011, 54(10): 95⁃103. [22]HALKIAS X C, PARIS S, GLOTIN H. Sparse penalty in deep belief networks: using the mixed norm constraint [EB/ OL ]. [ 2014⁃05⁃08 ]. http: / / arxiv. org / pdf / 1301. 3533.pdf. [23]LIU Yan, ZHOU Shusen, CHEN Qingcai. Discriminative deep belief networks for visual data classification[ J]. Pat⁃ tern recognition, 2011, 44(10 / 11): 2287⁃2296. [24]郑胤, 陈权崎, 章毓晋. 深度学习及其在目标和行为识 别中的新进展[ J]. 中国图象图形学报, 2014, 19(2): 175⁃184. ZHENG Yin, CHEN Quanqi, ZHANG Yujin. Deep learn⁃ ing and its new progress in object and behavior recognition [J]. Journal of image and graphics, 2014, 19( 2): 175⁃ 184. [25] VINCENT P, LAROCHELLE H, BENGIO Y, et al. Ex⁃ tracting and composing robust features with denoising au⁃ toencoders [ C ] / / Proceedings of the 25th International Conference on Machine Learning. New York, NY, USA, 2008: 1096⁃1103. [26] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer⁃wise training of deep networks [ C] / / Advances in Neural Information Processing Systems 19: 20th Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2006: 153⁃160. [27] RIFAI S, VINCENT P, MULLER X, et al. Contractive auto⁃encoders: explicit invariance during feature extraction [C] / / Proceedings of the 28th International Conference on Machine Learning. Bellevue, WA, USA, 2011. [28]MASCI J, MEIER U, CIREŞAN D, et al. Stacked convo⁃ lutional auto⁃encoders for hierarchical feature extraction [C] / / Proceedings of the 21st International Conference on Artificial Neural Networks, Part I. Berlin Heidelberg, Ger⁃ many, 2011: 52⁃59. [29]王雅思. 深度学习中的自编码器的表达能力研究[D]. 哈尔滨: 哈尔滨工业大学, 2014. WANG Yasi. Representation ability research of auto⁃en⁃ coders in deep learning[D]. Harbin: Harbin Institute of Technology, 2014. [30]李远豪. 基于深度自编码器的人脸美丽吸引力预测研 究[D]. 江门: 五邑大学, 2014. LI Yuanhao. A study for facial beauty attractiveness predic⁃ tion based on deep autoencoder[D]. Jiangmen: Wuyi Uni⁃ versity, 2014. [31]林洲汉. 基于自动编码机的高光谱图像特征提取及分 类方法研究[D]. 哈尔滨: 哈尔滨工业大学, 2014. LIN Zhouhan. Hyperspectral image feature extraction and classification based on autoencoders[D]. Harbin: Harbin Institute of Technology, 2014. [32]曲建岭, 杜辰飞, 邸亚洲, 等. 深度自动编码器的研究 与展望[J]. 计算机与现代化, 2014(8): 128⁃134. QU Jianling, DU Chenfei, DI Yazhou, et al. Research and prospect of deep auto⁃encoders[J]. Jisuanji yu xiandaihua, 2014(8): 128⁃134. [33]林少飞, 盛惠兴, 李庆武. 基于堆叠稀疏自动编码器的 手写数字分类[J]. 微处理机, 2015(1): 47⁃51. LIN Shaofei, SHENG Huixing, LI Qingwu. Handwritten digital classification based on the stacked sparse autoencod⁃ ers[J]. Microprocessors, 2015(1): 47⁃51. [34]陈硕. 深度学习神经网络在语音识别中的应用研究 [D]. 广州: 华南理工大学, 2013. CHEN Shuo. Research of deep learning neural networks applications in speech recognition [ D]. Guangzhou, Chi⁃ na: South China University of Technology, 2013. [35]郭丽丽, 丁世飞. 深度学习研究进展[ J]. 计算机科学, 2015, 42(5): 28⁃33. GOU Lili, DING Shifei. Research progress on deep learn⁃ ing[J]. Computer science, 2015, 42(5): 28⁃33. [36] VAN DEN OORD A, DIELEMAN S, SCHRAUWEN B. Deep content⁃based music recommendation [ M ] / / Ad⁃ vances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Sys⁃ tems. Lake Tahoe, 2013: 2643⁃2651. [37]HANNUN A, CASE C, CASPER J, et al. Deep speech: scaling up end⁃to⁃end speech recognition[EB/ OL]. Eprint Arxiv: Arxiv, 2014.[2014⁃12⁃19] https: / / arxiv.org / pdf / 1412.5567v2.pdf. [38]余凯, 贾磊, 陈雨强. 深度学习的昨天、今天和明天 [J]. 计算机研究与发展, 2013, 50(9): 1799⁃1804. YU Kai, JIA Lei, CHEN Yuqiang. Deep learning: yester⁃ day, today, and tomorrow [ J]. Journal of computer re⁃ search and development, 2013, 50(9): 1799⁃1804. 第 5 期 刘帅师,等:深度学习方法研究新进展 ·575·
·576· 智能系统学报 第11卷 [39]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich Proceedings of the 2014 IEEE International Conference on feature hierarchies for accurate object detection and seman- Consumer Electronics.Las Vegas,NV,2014:564-567. tic segmentation[C]//Proceedings of the 2014 IEEE Con- [51]IJJINA E P,MOHAN C K.Facial expression recognition ference on Computer Vision and Pattern Recognition.Co- using kinect depth sensor and convolutional neural net- 1 umbus.0H.2014:580-587. works[C]//Proceedings of the 2014 13th International [40]TAIGMAN Y,YANG Ming,RANZATO M A,et al.Deep- Conference on Machine Learning and Applications.De- Face:closing the gap to human-level performance in face troit.Ml.2014:392-396. verification[C]//Proceedings of the 2014 IEEE Confer- [52]BYEON Y H,KWAK K C.Facial expression recognition ence on Computer Vision and Pattern Recognition.Colum- using 3D convolutional neural network[J].International bus,0H,2014:1701-1708. journal of advanced computer science and applications, [41]TOSHEV A,SZEGEdY C.DeepPose:human pose estima- 2014,5(12):107-112 tion via deep neural networks [C]//Proceedings of the [53]JUNG H,LEE S,PARK S.et al.Development of deep 2014 IEEE Conference on Computer Vision and Pattern learning-based facial expression recognition system[C]/ Recognition.Columbus,OH,2014:1653-1660. Frontiers of Computer Vision (FCV),2015 21st Korea- [42]DIELEMAN S.Classifying plankton with deep neural net- Japan Joint Workshop on 2015:1-4. works[EB/0L].(2015-03-17)[2015-05-30].htp://he [54]MCLAUGHLIN T,MAI L,BAYANBAT N.Emotionrecog- nanne.github.io/2015/03/17/plankton.html. nition with deep-belief networks[EB/OL ]2008 http:// [43]DENTON E,WESTON J,PALURI M,et al.User condi- cs229.stanford.edu/proj2010/MeLaughlinLeBayanbat-Rec- tional hashtag prediction for images[C]//Proceedings of ognizingEmotions WithDeepBeliefNets.pdf. the 21th ACM SIGKDD International Conference on Knowl- [55]HE Shan,WANG Shanfei,LAN Wuwei,et al.Facial ex- edge Discovery and Data Mining.New York,NY,USA, pression recognition using deep Boltzmann machine from 2015:1731-1740. thermal infrared images[C]//Proceedings of the 2013 Hu- [44]LONG J.SHELHAMER E.DARRELL T Fully convolu- maine Association Conference on Affective Computing and tional networks for semantic segmentation[J].IEEE Con- Intelligent Interaction.Geneva,2013:239-244. ference on Computer Vision Pattern Recognition.2015, [56]LV Yadan,FENG Zhiyong,XU Chao.Facial expression 79(10):1337-1342. recognition via deep learning C]//Proceedings of the [45]SCHWARA M,SCHULZ H,BEHNKE S.RGB-D object 2014 International Conference on Smart Computing.Hong recognition and pose estimation based on pre-trained conv- Kong,China,2014:303-308. olutional neural network features[C]//Proceedings of the [57]JUNG H,LEE S,PARK S,et al.Deep temporal appear- 2015IEEE International Conference on Robotics and Auto- ance-geometry network for facial expression recognition mation.Seattle,WA,2015:1329-1335. [EB/OL].Eprint Arxiv:Arxiv,2015.[2015-6-5].http:// [46]SCHROFF F,KALENICHENKO D,PHILBIN J.FaceNet: 120.52.73.75/axiv.org/pdf/1503.01532v1.pdf. A unified embedding for face recognition and clustering [58]KAHOU S E,BOUTHILLIER X,LAMBLIN P et al. [C]//Computer Vision and Pattern Recognition EmoNets:Multimodal deep learning approaches for emo- (CVPR),Boston,USA,2015:815-823. tion recognition in video[J].Journal on Multimodal User [47]SARFRAZ M S,STIEFELHAGEN R.Deep perceptual Interfaces,2015,10(2):1-13. mapping for thermal to visible face recognition.[EB/OL] [59]SASHIHITHLU S,SOMAN SS.Complex sentimentanalys- Eprint Arxiv:Aniv,2015.[2015-12-23].htp:/120.52. is using recursive autoencoders [EB/OL].Core.ac.Uk: 73.80/arxiv.org/pdf/1507.02879v1.pdf. CiteSeerX,2013.[2015-9-30].https://core.ac.uk/display/ [48]LIU Mengyi,LI Shaoxin,SHAN Shiguang,et al.Au-a- 23426251. ware deep networks for facial expression recognition[C] [60]JOHNSON R,ZHANG Tong.Effective use of word order Proceedings of the 2013 10th IEEE International Confer- for text categorization with convolutional neural networks ence and Workshops on Automatic Face and Gesture Rec- EB/OL].Eprint Arxiv:Arxiv,2014.2014-10-10].ht- ognition.Shanghai,China,2013:1-6. p:/120.52.73.79/aiv.org/pdf/1412.1058.pdf. [49]OUELLET S.Real-time emotion recognition for gaming u- [61]李婷.基于深度学习的盲文识别方法[J].计算机与现 sing deep convolutional network features[EB/OL].Eprint 代化,2015(6):37-40. Arxiv:Arxiv,2014.2014-7-16 ]https://arxiv.org/pdf/ LI Ting.A deep learing method for braille recognition[J]. 1408.3750v1.pdf. Jisuanji yu xiandaihua,2015(6):37-40. [50]SONG I,KIM H J,JEON P B.Deep learning for real-time [62]KOZIOL J A,TAN E M,DAI Liping,et al.Restricted robust facial expression recognition on a smartphone[C]// Boltzmann machines for classification of hepatocellular car-
[39] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and seman⁃ tic segmentation[C] / / Proceedings of the 2014 IEEE Con⁃ ference on Computer Vision and Pattern Recognition. Co⁃ lumbus, OH, 2014: 580⁃587. [ 40]TAIGMAN Y, YANG Ming, RANZATO M A, et al. Deep⁃ Face: closing the gap to human⁃level performance in face verification[ C] / / Proceedings of the 2014 IEEE Confer⁃ ence on Computer Vision and Pattern Recognition. Colum⁃ bus, OH, 2014: 1701⁃1708. [41]TOSHEV A, SZEGEdY C. DeepPose: human pose estima⁃ tion via deep neural networks [ C] / / Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, 2014: 1653⁃1660. [42]DIELEMAN S. Classifying plankton with deep neural net⁃ works[EB/ OL]. (2015⁃03⁃17)[2015⁃05⁃30]. http: / / be⁃ nanne.github.io / 2015 / 03 / 17 / plankton.html. [43]DENTON E, WESTON J, PALURI M, et al. User condi⁃ tional hashtag prediction for images [ C] / / Proceedings of the 21th ACM SIGKDD International Conference on Knowl⁃ edge Discovery and Data Mining. New York, NY, USA, 2015: 1731⁃1740. [44] LONG J, SHELHAMER E, DARRELL T Fully convolu⁃ tional networks for semantic segmentation[ J]. IEEE Con⁃ ference on Computer Vision & Pattern Recognition. 2015, 79(10):1337⁃1342. [45] SCHWARA M, SCHULZ H, BEHNKE S. RGB⁃D object recognition and pose estimation based on pre⁃trained conv⁃ olutional neural network features[C] / / Proceedings of the 2015IEEE International Conference on Robotics and Auto⁃ mation.Seattle, WA, 2015: 1329⁃1335. [46]SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: A unified embedding for face recognition and clustering [ C ] / / Computer Vision and Pattern Recognition (CVPR), Boston,USA,2015:815⁃823. [47] SARFRAZ M S, STIEFELHAGEN R. Deep perceptual mapping for thermal to visible face recognition.[EB/ OL] Eprint Arxiv: Arxiv,2015.[2015⁃12⁃23].http: / / 120.52. 73.80 / arxiv.org / pdf / 1507.02879v1.pdf. [48] LIU Mengyi, LI Shaoxin, SHAN Shiguang, et al. Au⁃a⁃ ware deep networks for facial expression recognition[C] / / Proceedings of the 2013 10th IEEE International Confer⁃ ence and Workshops on Automatic Face and Gesture Rec⁃ ognition. Shanghai, China, 2013: 1⁃6. [49]OUELLET S. Real⁃time emotion recognition for gaming u⁃ sing deep convolutional network features[EB/ OL]. Eprint Arxiv: Arxiv, 2014. [ 2014⁃7⁃16]. https: / / arxiv. org / pdf / 1408.3750v1.pdf. [50]SONG I, KIM H J, JEON P B. Deep learning for real⁃time robust facial expression recognition on a smartphone[C] / / Proceedings of the 2014 IEEE International Conference on Consumer Electronics. Las Vegas, NV, 2014: 564⁃567. [51] IJJINA E P, MOHAN C K. Facial expression recognition using kinect depth sensor and convolutional neural net⁃ works [ C] / / Proceedings of the 2014 13th International Conference on Machine Learning and Applications. De⁃ troit, MI, 2014: 392⁃396. [52] BYEON Y H, KWAK K C. Facial expression recognition using 3D convolutional neural network [ J]. International journal of advanced computer science and applications, 2014, 5(12): 107⁃112. [53] JUNG H, LEE S, PARK S, et al. Development of deep learning⁃based facial expression recognition system[ C] / / Frontiers of Computer Vision ( FCV), 2015 21st Korea- Japan Joint Workshop on 2015:1⁃4. [54]MCLAUGHLIN T, MAI L, BAYANBAT N. Emotionrecog⁃ nition with deep⁃belief networks [ EB/ OL]. 2008 http: / / cs229.stanford. edu / proj2010 / McLaughlinLeBayanbat⁃Rec⁃ ognizingEmotionsWithDeepBeliefNets.pdf. [55]HE Shan, WANG Shanfei, LAN Wuwei, et al. Facial ex⁃ pression recognition using deep Boltzmann machine from thermal infrared images[C] / / Proceedings of the 2013 Hu⁃ maine Association Conference on Affective Computing and Intelligent Interaction. Geneva, 2013: 239⁃244. [56] LV Yadan, FENG Zhiyong, XU Chao. Facial expression recognition via deep learning [ C ] / / Proceedings of the 2014 International Conference on Smart Computing. Hong Kong, China, 2014: 303⁃308. [57]JUNG H, LEE S, PARK S, et al. Deep temporal appear⁃ ance⁃geometry network for facial expression recognition [EB/ OL] .Eprint Arxiv: Arxiv,2015.[2015⁃6⁃5].http: / / 120.52.73.75 / arxiv.org / pdf / 1503.01532v1.pdf. [58] KAHOU S E, BOUTHILLIER X, LAMBLIN P et al. EmoNets: Multimodal deep learning approaches for emo⁃ tion recognition in video[ J]. Journal on Multimodal User Interfaces, 2015, 10(2):1⁃13. [59]SASHIHITHLU S, SOMAN S S. Complex sentimentanalys⁃ is using recursive autoencoders [ EB/ OL]. Core. ac. Uk: CiteSeerX,2013.[2015⁃9⁃30].https: / / core.ac.uk / display / 23426251. [60]JOHNSON R, ZHANG Tong. Effective use of word order for text categorization with convolutional neural networks [EB/ OL]. Eprint Arxiv: Arxiv,2014. [ 2014⁃10⁃10]. ht⁃ tp: / / 120.52.73.79 / arxiv.org / pdf / 1412.1058.pdf. [61]李婷. 基于深度学习的盲文识别方法[ J]. 计算机与现 代化, 2015(6): 37⁃40. LI Ting. A deep learing method for braille recognition[J]. Jisuanji yu xiandaihua, 2015(6): 37⁃40. [62]KOZIOL J A, TAN E M, DAI Liping, et al. Restricted Boltzmann machines for classification of hepatocellular car⁃ ·576· 智 能 系 统 学 报 第 11 卷