《期智能系统学报》：深度学习方法研究新进展（长春工业大学：刘帅师，程曦，郭文燕，陈奇）

团购合买资源类别：文库，文档格式：PDF，文档页数：11，文件大小：0.99MB

第11卷第5期智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201511028 网络出版地址：htp:/www.cmki.net/kcms/detail/23.1538.TP.20160715.1353.002.html 深度学习方法研究新进展刘帅师，程曦，郭文燕，陈奇 (长春工业大学电气与电子工程学院，吉林长春130000) 摘要：本文依据模型结构对深度学习进行了归纳和总结，描述了不同模型的结构和特点。首先介绍了深度学习的概念及意义，然后介绍了4种典型模型：卷积神经网络、深度信念网络、深度玻尔兹曼机和堆叠自动编码器，并对近3 年深度学习在语音处理、计算机视觉、自然语言处理以及医疗应用等方面的应用现状进行介绍，最后对现有深度学习模型进行了总结，并且讨论了未来所面临的挑战。关键词：深度学习：卷积神经网络：深度信念网铬：深度玻尔兹曼机：堆叠自动编码器中图分类号：TP18文献标志码：A文章编号：1673-4785(2016)05-0567-10 中文引用格式：刘帅师，程曦，郭文慕，等.深度学习方法研究新进展[J].智能系统学报，2016,11(5)：567-577，英文引用格式：LIU Shuaishi,CHENG XI,GUO Wenyan,etal.Progress report on new research in deep learning[J].CAAI trans- actions on intelligent systems,2016,11(5):567-577. Progress report on new research in deep learning LIU Shuaishi,CHENG Xi,GUO Wenyan,CHEN Qi College of Electrical and Electronic Engineering,Changchun University of Technology,Changchun 130000,China) Abstract:Deep learning has recently received widespread attention.Using a model structure,this paper gives a summarization and analysis on deep learning by describing and reviewing the structure and characteristics of differ- ent models.The paper firstly introduces the concept and significance of deep learning,and then reviews four typical models:a convolutional neural network;deep belief networks;the deep Boltzmann machine;and an automatic stacking encoder.The paper then concludes by reviewing the applications of deep learning as regards speech pro- cessing,computer vision,natural language processing,medical science,and other aspects.Finally,the existing deep learning model is summarized and future challenges discussed. Keywords:deep learning;convolutional neural network;deep belief networks;deep Boltzmann machine;automat- ic stacking encoder 深度学习是机器学习的一个分支，属于人工智究热点。能的新领域。深度学习的本质是特征提取，即通过 2006年，机器学习大师Hinton等[)在《科学》组合低层次的特征形成更加抽象的高层表示，以达上发表的一篇论文，开启了深度学习的浪潮。他提到获得最佳特征的目的。它主要通过神经网络出了深度信念网的概念，成功地利用贪心策略逐层来模拟人的大脑的学习过程，希望实现对现实对象训练由限制玻尔兹曼机组成的深层架构，解决了以或数据（图像、语音及文本等）的抽象表达，整合特往深度网络训练困难的问题。此后，Hinton、Lecun、征抽取和分类器到一个学习框架下)。目前，深度 Bengio等大量科研人员对深度学习的模型构建、训学习在许多领域取得了广泛的关注，成为当今的研练方式等做出了杰出的贡献。文献[4]对近几年新兴的深度学习的初始化方法、模型结构、学习算法等收稿日期：2015-11-27.网络出版日期：2016-07-15. 基金项目：吉林省科技厅青年科研基金项目(20140520065H 进行了详细的分析。2014年余滨等1从训练方式 20140520076H):长春工业大学科学研究发展基金自然科学的角度对深度学习进行了总结。文献[6]依据数据计划项目(2010XN07). 通信作者：.E-mail:刘帅师.E-mail:liu-shuaishi@126.com. 流向对深度学习进行不同分类，本文将重点放在模

第１１卷第５期智能系统学报Ｖｏｌ．１１ №．５２０１６年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５１１０２８网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０７１５．１３５３．００２．ｈｔｍｌ深度学习方法研究新进展刘帅师，程曦，郭文燕，陈奇（长春工业大学电气与电子工程学院，吉林长春１３００００）摘要：本文依据模型结构对深度学习进行了归纳和总结，描述了不同模型的结构和特点。首先介绍了深度学习的概念及意义，然后介绍了４种典型模型：卷积神经网络、深度信念网络、深度玻尔兹曼机和堆叠自动编码器，并对近３年深度学习在语音处理、计算机视觉、自然语言处理以及医疗应用等方面的应用现状进行介绍，最后对现有深度学习模型进行了总结，并且讨论了未来所面临的挑战。关键词：深度学习；卷积神经网络；深度信念网络；深度玻尔兹曼机；堆叠自动编码器中图分类号：ＴＰ１８文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０５⁃０５６７⁃１０中文引用格式：刘帅师，程曦，郭文燕，等．深度学习方法研究新进展［Ｊ］．智能系统学报，２０１６，１１（５）：５６７⁃５７７．英文引用格式：ＬＩＵＳｈｕａｉｓｈｉ，ＣＨＥＮＧＸｉ，ＧＵＯＷｅｎｙａｎ，ｅｔａｌ．Ｐｒｏｇｒｅｓｓｒｅｐｏｒｔｏｎｎｅｗｒｅｓｅａｒｃｈｉｎｄｅｅｐｌｅａｒｎｉｎｇ［Ｊ］．ＣＡＡＩｔｒａｎｓ⁃ ａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（５）：５６７⁃５７７．ＰｒｏｇｒｅｓｓｒｅｐｏｒｔｏｎｎｅｗｒｅｓｅａｒｃｈｉｎｄｅｅｐｌｅａｒｎｉｎｇＬＩＵＳｈｕａｉｓｈｉ，ＣＨＥＮＧＸｉ，ＧＵＯＷｅｎｙａｎ，ＣＨＥＮＱｉ（ＣｏｌｌｅｇｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃＥｎｇｉｎｅｅｒｉｎｇ，ＣｈａｎｇｃｈｕｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｃｈａｎｇｃｈｕｎ１３００００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｄｅｅｐｌｅａｒｎｉｎｇｈａｓｒｅｃｅｎｔｌｙｒｅｃｅｉｖｅｄｗｉｄｅｓｐｒｅａｄａｔｔｅｎｔｉｏｎ．Ｕｓｉｎｇａｍｏｄｅｌｓｔｒｕｃｔｕｒｅ，ｔｈｉｓｐａｐｅｒｇｉｖｅｓａｓｕｍｍａｒｉｚａｔｉｏｎａｎｄａｎａｌｙｓｉｓｏｎｄｅｅｐｌｅａｒｎｉｎｇｂｙｄｅｓｃｒｉｂｉｎｇａｎｄｒｅｖｉｅｗｉｎｇｔｈｅｓｔｒｕｃｔｕｒｅａｎｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｄｉｆｆｅｒ⁃ ｅｎｔｍｏｄｅｌｓ．Ｔｈｅｐａｐｅｒｆｉｒｓｔｌｙｉｎｔｒｏｄｕｃｅｓｔｈｅｃｏｎｃｅｐｔａｎｄｓｉｇｎｉｆｉｃａｎｃｅｏｆｄｅｅｐｌｅａｒｎｉｎｇ，ａｎｄｔｈｅｎｒｅｖｉｅｗｓｆｏｕｒｔｙｐｉｃａｌｍｏｄｅｌｓ：ａｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ；ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ；ｔｈｅｄｅｅｐＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅ；ａｎｄａｎａｕｔｏｍａｔｉｃｓｔａｃｋｉｎｇｅｎｃｏｄｅｒ．Ｔｈｅｐａｐｅｒｔｈｅｎｃｏｎｃｌｕｄｅｓｂｙｒｅｖｉｅｗｉｎｇｔｈｅａｐｐｌｉｃａｔｉｏｎｓｏｆｄｅｅｐｌｅａｒｎｉｎｇａｓｒｅｇａｒｄｓｓｐｅｅｃｈｐｒｏ⁃ ｃｅｓｓｉｎｇ，ｃｏｍｐｕｔｅｒｖｉｓｉｏｎ，ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，ｍｅｄｉｃａｌｓｃｉｅｎｃｅ，ａｎｄｏｔｈｅｒａｓｐｅｃｔｓ．Ｆｉｎａｌｌｙ，ｔｈｅｅｘｉｓｔｉｎｇｄｅｅｐｌｅａｒｎｉｎｇｍｏｄｅｌｉｓｓｕｍｍａｒｉｚｅｄａｎｄｆｕｔｕｒｅｃｈａｌｌｅｎｇｅｓｄｉｓｃｕｓｓｅｄ．Ｋｅｙｗｏｒｄｓ：ｄｅｅｐｌｅａｒｎｉｎｇ；ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ；ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ；ｄｅｅｐＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅ；ａｕｔｏｍａｔ⁃ ｉｃｓｔａｃｋｉｎｇｅｎｃｏｄｅｒ收稿日期：２０１５⁃１１⁃２７．网络出版日期：２０１６⁃０７⁃１５．基金项目：吉林省科技厅青年科研基金项目（２０１４０５２００６５ＪＨ，２０１４０５２００７６ＪＨ）；长春工业大学科学研究发展基金自然科学计划项目（２０１０ＸＮ０７）．通信作者：．Ｅ⁃ｍａｉｌ：刘帅师．Ｅ⁃ｍａｉｌ：ｌｉｕ⁃ｓｈｕａｉｓｈｉ＠１２６．ｃｏｍ．深度学习是机器学习的一个分支，属于人工智能的新领域。深度学习的本质是特征提取，即通过组合低层次的特征形成更加抽象的高层表示，以达到获得最佳特征的目的［１］。它主要通过神经网络来模拟人的大脑的学习过程，希望实现对现实对象或数据（图像、语音及文本等）的抽象表达，整合特征抽取和分类器到一个学习框架下［２］。目前，深度学习在许多领域取得了广泛的关注，成为当今的研究热点。２００６年，机器学习大师Ｈｉｎｔｏｎ等［３］在《科学》上发表的一篇论文，开启了深度学习的浪潮。他提出了深度信念网的概念，成功地利用贪心策略逐层训练由限制玻尔兹曼机组成的深层架构，解决了以往深度网络训练困难的问题。此后，Ｈｉｎｔｏｎ、Ｌｅｃｕｎ、Ｂｅｎｇｉｏ等大量科研人员对深度学习的模型构建、训练方式等做出了杰出的贡献。文献［４］对近几年新兴的深度学习的初始化方法、模型结构、学习算法等进行了详细的分析。２０１４年余滨等［５］从训练方式的角度对深度学习进行了总结。文献［６］依据数据流向对深度学习进行不同分类，本文将重点放在模

·568 智能系统学报第11卷型结构，以深度学习的核心模型结构而展开。文献使用。 [7]从深度学习结构进行展开，本文大量增加了近3 首先，为了降低网络的复杂性，卷积神经网络采年新的研究成果，因此能够更准确地反映该领域的用权重共享方式，即同一个特征图，卷积核是一样最新研究进展。的11：其次，对得到的特征输入给一个非线性函数，本文依据模型结构，着重介绍4种典型的深度比如RLU等；最后，再采取下采样方法，比如最大学习模型，即卷积神经网络、深度信念网络、深度玻池化等。下采样的作用是把语义上相似的特征合并尔兹曼机、堆叠自动编码器。下面对这些模型进行起来，这是因为形成一个主题的特征的相对位置不描述。太一样。 1.1.3训练方式 1深度学习典型模型卷积神经网络的训练采用有监督训练方式。首 1.1卷积神经网络先是向前传播，即输入X经过卷积神经网路后变为 1.1.1历史输出0，再将0与标签进行比较，然后以向后传播的卷积神经网络(convolutional neural networks,. 方式，到将所得误差传播到每个节点，根据权值更新 CNN)最早在20世纪80年代就已被提出，是由于在公式，更新相应的卷积核权值4.6。研究猫脑皮层时受到的启发。它的典型模型LeNet- 此外，以卷积神经网络为核心的深度学习网络 5[8]系统，在MNIST上得到了0.9%的错误率，并在还有3-D卷积神经网络(3-D convolutional neural 20世纪90年代就已用于银行的手写支票识别)。 networks,3D-CNN)[,光谱网络(spectral net-- 但是，由于在大尺寸图像上没有好的效果，一度被人 works,SN)Ia),金字塔卷积神经网络(pyramid conv- 忽视。随着高效的GPU计算的兴起，直到2012年 olutional neural networks,PCNN)[],多级金字塔卷 Hinton在ImageNet问题的成功，才使它在近几年流积神经网络(multi level pyamid convolutional neural 行起来[)。如今卷积神经网络已经成为众多科学 networks,MLPCNN)[4等。领域的研究热点之一，特别是在图像识别领域。由 12受限制玻尔兹曼机为核心的深度网络于该网络避免了对图像的复杂前期预处理，可以直受限制玻尔兹曼机为核心的深度网络有2种：接输入原始图像，因而得到了广泛的应用。深度信念网和深度玻尔兹曼机。现简要分析二者的 1.1.2结构区别卷积神经网络是前馈神经网络的一种。卷积神 1.2.1受限制玻尔兹曼机经网络的模型如图1所示，它是一个多层的神经网受限制玻尔兹曼机(restricted Boltzmann ma- 络，每层由多个二维平面组成，而每个平面由多个独 chine,RBM)是一类无向图模型[a],由可视层和隐含立神经元组成。传统的神经网络层与层之间神经元层组成，与玻尔兹曼机(Boltzmann machine,BM)不采取全连接方式，而卷积神经网络采用稀疏连接方同，层内无连接，层间有连接。这种结构更易于计算式，即每个特征图上的神经元只连接上一层的一个隐含层单元与可视层单元的条件分布)。受限制小区域的神经元连接。玻尔兹曼机的训练方式通常采用对比散度方(cot- C,特征 ,特征层 rastive divergence,.CD)。常见的玻尔兹曼机的演变 C,特征层输入层特征层特征层特征层输出层模型如图2所示。输 BM 卷莲类卷积下采样L卷积下采样1接1器 RBM 图1卷积神经网络模型 CRBM SRBM SGRBM CRBM Fig.1 Convolutional neural network model 卷积神经网络的低隐含层是由卷积层和最大池图2玻尔兹曼机演变模型采样层交替组成，高层通常是全连接层作为分类器 Fig.2 The evolution model of boltzmann machine

型结构，以深度学习的核心模型结构而展开。文献［７］从深度学习结构进行展开，本文大量增加了近３年新的研究成果，因此能够更准确地反映该领域的最新研究进展。本文依据模型结构，着重介绍４种典型的深度学习模型，即卷积神经网络、深度信念网络、深度玻尔兹曼机、堆叠自动编码器。下面对这些模型进行描述。１深度学习典型模型１．１卷积神经网络１．１．１历史卷积神经网络（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＣＮＮ）最早在２０世纪８０年代就已被提出，是由于在研究猫脑皮层时受到的启发。它的典型模型ＬｅＮｅｔ⁃ ５［８］系统，在ＭＮＩＳＴ上得到了０．９％的错误率，并在２０世纪９０年代就已用于银行的手写支票识别［７］。但是，由于在大尺寸图像上没有好的效果，一度被人忽视。随着高效的ＧＰＵ计算的兴起，直到２０１２年Ｈｉｎｔｏｎ在ＩｍａｇｅＮｅｔ问题的成功，才使它在近几年流行起来［９］。如今卷积神经网络已经成为众多科学领域的研究热点之一，特别是在图像识别领域。由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了广泛的应用。１．１．２结构卷积神经网络是前馈神经网络的一种。卷积神经网络的模型如图１所示，它是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。传统的神经网络层与层之间神经元采取全连接方式，而卷积神经网络采用稀疏连接方式，即每个特征图上的神经元只连接上一层的一个小区域的神经元连接。图１卷积神经网络模型Ｆｉｇ．１Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌ卷积神经网络的低隐含层是由卷积层和最大池采样层交替组成，高层通常是全连接层作为分类器使用。首先，为了降低网络的复杂性，卷积神经网络采用权重共享方式，即同一个特征图，卷积核是一样的［１０］；其次，对得到的特征输入给一个非线性函数，比如ＲｅＬＵ等；最后，再采取下采样方法，比如最大池化等。下采样的作用是把语义上相似的特征合并起来，这是因为形成一个主题的特征的相对位置不太一样［１］。１．１．３训练方式卷积神经网络的训练采用有监督训练方式。首先是向前传播，即输入Ｘ经过卷积神经网路后变为输出Ｏ，再将Ｏ与标签进行比较，然后以向后传播的方式，到将所得误差传播到每个节点，根据权值更新公式，更新相应的卷积核权值［４，６］。此外，以卷积神经网络为核心的深度学习网络还有３⁃Ｄ卷积神经网络（３⁃Ｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，３Ｄ⁃ＣＮＮ））［１１］，光谱网络（ｓｐｅｃｔｒａｌｎｅｔ⁃ ｗｏｒｋｓ，ＳＮ）［１２］，金字塔卷积神经网络（ｐｙｒａｍｉｄｃｏｎｖ⁃ ｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＰＣＮＮ）［１３］，多级金字塔卷积神经网络（ｍｕｌｔｉｌｅｖｅｌｐｙａｍｉｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＭＬＰＣＮＮ）［１４］等。１．２受限制玻尔兹曼机为核心的深度网络受限制玻尔兹曼机为核心的深度网络有２种：深度信念网和深度玻尔兹曼机。现简要分析二者的区别。１．２．１受限制玻尔兹曼机受限制玻尔兹曼机（ｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａ⁃ ｃｈｉｎｅ，ＲＢＭ）是一类无向图模型［４］，由可视层和隐含层组成，与玻尔兹曼机（Ｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ，ＢＭ）不同，层内无连接，层间有连接。这种结构更易于计算隐含层单元与可视层单元的条件分布［５］。受限制玻尔兹曼机的训练方式通常采用对比散度方（ｃｏｎｔ⁃ ｒａｓｔｉｖｅｄｉｖｅｒｇｅｎｃｅ，ＣＤ）。常见的玻尔兹曼机的演变模型如图２所示。图２玻尔兹曼机演变模型Ｆｉｇ．２Ｔｈｅｅｖｏｌｕｔｉｏｎｍｏｄｅｌｏｆｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ ·５６８· 智能系统学报第１１卷

第5期刘帅师，等：深度学习方法研究新进展 ·569· 受限制玻尔滋曼机的演变模型有卷积受限制玻 DDBN)[2]等。尔a兹曼机(convolutional restricted Boltzmann ma- 1.2.3深度玻尔兹曼机 chine,CRBM)【s]、稀疏受限制玻尔兹曼机(sparse 深度玻尔兹曼机(deep Boltzmann machine, restricted Boltzmann machine,SRBM)Iu6]、稀疏组受 DBM)与深度信念网络相似，都是以受限制玻尔滋限制玻尔兹曼机(sparse group restricted Boltzmann 曼机叠加而成。但是，与深度信念网络不同，层间均 machine,SGRBM)【)、分类受限制玻尔兹曼机(class 为无向连接，省略了由上至下的反馈参数调节。训 restricted Boltzmann machine,CRBM)[u8]等。更详细练方式也与深度信念网络相似，先采用无监督预训的描述内容参见文献[19]。练方法，得到初始权值，再运用场均值算法，最后采 1.2.2深度信念网络用有监督微方式进行微调。深度信念网络(deep belief networks,DBN)是由 1.3堆叠自动编码器多个受限制玻尔兹曼机(RBM)叠加而成的深度网 1.3.1自动编码器络。深度信念网络的典型结构如图3所示，它通过自动编码器(auto encoder,AE)由编码器与解码无监督预训练和有监督微调来训练整个深度信念网器组成，其原理如图4所示。核心思想是将输入信络)。预训练时用无标签数据单独训练每一层受号进行编码，使用编码之后的信号重建原始信号，目限制玻尔兹曼机，通过自下而上的方式，将下层受限的是让重建信号与原始信号相比重建误差最小[2]。制玻尔兹曼机输出作为上层受限制玻尔兹曼机输编码器将输入数据映射到特征空间，解码器将特征入。当预训练完成后，网络会获得一个较好的网络映射回数据空间，完成对输入数据的重建。初始值，但这还不是最优的20)。再采用有标签数据 oooooO代码层去训练网络，误差自顶向下传播，一般采用梯度下降编码解码法对网络进行微调。深度信念网络的出现是深度学输入层ooooO oooooo输出层习的转折点，目前深度信念网络已应用于语音、图像处理等方面，尤其是在大数据方面[0]。图4自动编码器原理图 Fig.4 The illustration of autoencoder 标签单位自动编码器演化的模型如图5所示，自动编码顶层单元器演化的模型有去噪自动编码器(denoising auto en- coder,DAE)[2]、稀疏自动编码器(sparse auto en- 隐含层单元 coder,SAE)[2]、收缩自动编码器(contractive auto encoder,CAE)[2)]、卷积自动编码(convolutional auto 隐含层单元 encoder,.CAE)[2]等。更详细的描述内容参见文献检测权值生成权值 [29-31]。隐含层单元 AE 隐含层权值 RBM DAE 可视层图5自动编码器的演变模型输入 Fig.5 The evolution model of autoencoder 图3深度信念网络典型结构 1.3.2堆叠自动编码器原理 Fig.3 The illustration of deep belief network framework 堆叠自动编码器(stacked auto encoders,SAE) 深度信念网络的变种模型有卷积深度信念网与深度信念网络类似，其结构如图6所示，都是由简 (convolutional deep belief networks,CDBN)[2)、稀疏单结构叠加起来的深层网络。简单来说，就是将深度信念网(sparse deep belief networks.,SDBN)Ia) DBN中的RBM替换成AE就得到了SAE。自动编判别深度信念网(discriminative deep belief networks, 码器的训练过程也是使用贪心逐层预训练算法，但

受限制玻尔兹曼机的演变模型有卷积受限制玻尔兹曼机（ｃｏｎｖｏｌｕｔｉｏｎａｌｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａ⁃ ｃｈｉｎｅ，ＣＲＢＭ）［１５］、稀疏受限制玻尔兹曼机（ｓｐａｒｓｅｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅ，ＳＲＢＭ）［１６］、稀疏组受限制玻尔兹曼机（ｓｐａｒｓｅｇｒｏｕｐｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅ，ＳＧＲＢＭ）［１７］、分类受限制玻尔兹曼机（ｃｌａｓｓｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅ，ＣＲＢＭ）［１８］等。更详细的描述内容参见文献［１９］。１．２．２深度信念网络深度信念网络（ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ，ＤＢＮ）是由多个受限制玻尔兹曼机（ＲＢＭ）叠加而成的深度网络。深度信念网络的典型结构如图３所示，它通过无监督预训练和有监督微调来训练整个深度信念网络［７］。预训练时用无标签数据单独训练每一层受限制玻尔兹曼机，通过自下而上的方式，将下层受限制玻尔兹曼机输出作为上层受限制玻尔兹曼机输入。当预训练完成后，网络会获得一个较好的网络初始值，但这还不是最优的［２０］。再采用有标签数据去训练网络，误差自顶向下传播，一般采用梯度下降法对网络进行微调。深度信念网络的出现是深度学习的转折点，目前深度信念网络已应用于语音、图像处理等方面，尤其是在大数据方面［１０］。图３深度信念网络典型结构Ｆｉｇ．３Ｔｈｅｉｌｌｕｓｔｒａｔｉｏｎｏｆｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｆｒａｍｅｗｏｒｋ深度信念网络的变种模型有卷积深度信念网（ｃｏｎｖｏｌｕｔｉｏｎａｌｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ，ＣＤＢＮ）［２１］、稀疏深度信念网（ｓｐａｒｓｅｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ，ＳＤＢＮ）［２２］、判别深度信念网（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ，ＤＤＢＮ）［２３］等。１．２．３深度玻尔兹曼机深度玻尔兹曼机（ｄｅｅｐＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅ，ＤＢＭ）与深度信念网络相似，都是以受限制玻尔兹曼机叠加而成。但是，与深度信念网络不同，层间均为无向连接，省略了由上至下的反馈参数调节。训练方式也与深度信念网络相似，先采用无监督预训练方法，得到初始权值，再运用场均值算法，最后采用有监督微方式进行微调。１．３堆叠自动编码器１．３．１自动编码器自动编码器（ａｕｔｏｅｎｃｏｄｅｒ，ＡＥ）由编码器与解码器组成，其原理如图４所示。核心思想是将输入信号进行编码，使用编码之后的信号重建原始信号，目的是让重建信号与原始信号相比重建误差最小［２４］。编码器将输入数据映射到特征空间，解码器将特征映射回数据空间，完成对输入数据的重建。图４自动编码器原理图Ｆｉｇ．４Ｔｈｅｉｌｌｕｓｔｒａｔｉｏｎｏｆａｕｔｏｅｎｃｏｄｅｒ自动编码器演化的模型如图５所示，自动编码器演化的模型有去噪自动编码器（ｄｅｎｏｉｓｉｎｇａｕｔｏｅｎ⁃ ｃｏｄｅｒ，ＤＡＥ）［２５］、稀疏自动编码器（ｓｐａｒｓｅａｕｔｏｅｎ⁃ ｃｏｄｅｒ，ＳＡＥ）［２６］、收缩自动编码器（ｃｏｎｔｒａｃｔｉｖｅａｕｔｏｅｎｃｏｄｅｒ，ＣＡＥ）［２７］、卷积自动编码（ｃｏｎｖｏｌｕｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒ，ＣＡＥ）［２８］等。更详细的描述内容参见文献［２９⁃３１］。图５自动编码器的演变模型Ｆｉｇ．５Ｔｈｅｅｖｏｌｕｔｉｏｎｍｏｄｅｌｏｆａｕｔｏｅｎｃｏｄｅｒ１．３．２堆叠自动编码器原理堆叠自动编码器（ｓｔａｃｋｅｄａｕｔｏｅｎｃｏｄｅｒｓ，ＳＡＥ）与深度信念网络类似，其结构如图６所示，都是由简单结构叠加起来的深层网络。简单来说，就是将ＤＢＮ中的ＲＢＭ替换成ＡＥ就得到了ＳＡＥ。自动编码器的训练过程也是使用贪心逐层预训练算法，但第５期刘帅师，等：深度学习方法研究新进展 ·５６９·

·570 智能系统学报第11卷因为是通过重构误差来进行训练，相比较而言比受语言模型时在谷歌语音搜索任务词错率达到限制玻尔兹曼机训练容易[)。 14.2%,当结合语言模型时词错率达到11.2%。以自动编码器及其变种模型的为核心的深度网 2.2计算机视觉络称之为深度自动编码(deep auto encoders,DAE)。 2012年Hinton[39]和他的2个学生在著名的m- 文献[32]对深度自动编码器进行了详细的描述。 ageNet问题上用更深的卷积神经网络取得世界最好堆叠自动编码器就是一种典型的深度自动编码。类结果，赢得了冠军，使得图像识别大踏步前进。随似的还有堆叠去噪自动编码器(stacked denoising 后，深度学习在图像处理方面取得突破性进展，如物 auto-encoders,SDAE)[2]、堆叠稀疏自动编码器体定位[o]、脸部识别[4]和人体姿势估计[2]等。 (stacked sparse auto encoders,SSAE)[3]等。 2015年深海团队[4)利用卷积神经网络对3万个例子进行121种浮游生物分类。Denton等[4]利用卷第n层 000 重构积神经网络通过用户的性别、年龄、城市和图片等特 AE 构造1 00 征进行整合。在Facebook上对用户上传的图片进 0000 行标签、分类。第2层构造重构 2.2.1图像语义分割 AE ○OOO O0O 图像包括很多层信息，例如这幅图像是否有特第1层构造「重构定的物体（如汽车）。所谓的图像语义分割，就是描 AE OOO○ ○○OO 述图片中包含哪些物体、包括街头的场景分割、三维扫描、对3-D人体解剖分割定位等。因为是基于像图6堆叠自动编码器结构 Fig.6 The illustration of stacked Autoencoder framework 素分类方法，所以这个问题会带来巨大的计算量。 2015年Long等[4]提出了利用全卷积网络(fly 2深度学习应用 convolutional networks,FCN,)的概念去进行图像语义分割。同年Behnke等[6]提出了语义RGB-D感 2.1语音处理知器的概念，使得基于深度学习的图像语义分割得长期以来，语音识别技术普遍采用的是声学模型混合高斯模型。但这种混合高斯模型本质上是一到进一步发展。 2.2.2人脸识别种浅层网络建模，不能充分描述特征的状态空间分 Linkface开发了基于深度学习的人脸检测创新布3)。2011年微软[3)将深度学习引入语音识别领算法。无论场景中是单人还是多人，是侧脸、半遮域，提出深度神经网络DNN,本质上是把混合高斯挡还是模糊等情景中，均能进行精准检测。据全球模型替换成了深度神经网络模型大大提高识别率。最具权威的人脸检测评测平台FDDB最新数据，该模型在Switchboard标准数据集上的识别错误率 Linkface的人脸检测算法达到了世界领先的水平。比最低错误率降低了33%。2014年Van等6在网 2014年Facebook开发一种叫DeepFacet)技术。其络音乐平台Spotify使用深度卷积神经网络做基于贡献在于对人脸对齐和人脸表示环节的改进。通过内容的音乐推荐，以及实现依靠音频信号预测听众革新的3-D人脸建模勾勒出脸部特征，然后通过颜的收听喜好，然后采用WMF(weighted matrix factori- 色过滤做出一个刻画特定脸部元素的平面模型。 zation)模型进行评分预测。百度的深度学习语音识 Facebook建立了一个来自于4030个人的440万张别系统DeepSpeech[]可以在饭店等嘈杂环境下实标签化的人脸池，Facebook称这是迄今为止最大规现将近81%的辨识准确率。2015年Chan等38]提模的人脸池。它是一个拥有9层的深度卷积神经网出了LAS(listen,attend and spell)系统。该系统利络，网络有超过1.2亿个参数。该技术在LFW数据用金字塔式双向的RNN网络。不同于传统的模型，集上取得了97.25%的平均精度.已经接近人类的识不需要完整的端对端的CTC(connectionist temporal 别水平。2015年Google提出FaceNet!)]进行人脸 classification),实现跳过音素直接把语音识别为字验证。它直接学习图像到欧式空间上点的映射，然符，合成了约4万小时音频。当不依赖语音词典和后基于这个编码再做人脸识别、人脸验证和人脸聚

因为是通过重构误差来进行训练，相比较而言比受限制玻尔兹曼机训练容易［７］。以自动编码器及其变种模型的为核心的深度网络称之为深度自动编码（ｄｅｅｐａｕｔｏｅｎｃｏｄｅｒｓ，ＤＡＥ）。文献［３２］对深度自动编码器进行了详细的描述。堆叠自动编码器就是一种典型的深度自动编码。类似的还有堆叠去噪自动编码器（ｓｔａｃｋｅｄｄｅｎｏｉｓｉｎｇａｕｔｏ⁃ｅｎｃｏｄｅｒｓ，ＳＤＡＥ）［２５］、堆叠稀疏自动编码器（ｓｔａｃｋｅｄｓｐａｒｓｅａｕｔｏｅｎｃｏｄｅｒｓ，ＳＳＡＥ）［３３］等。图６堆叠自动编码器结构Ｆｉｇ．６ＴｈｅｉｌｌｕｓｔｒａｔｉｏｎｏｆｓｔａｃｋｅｄＡｕｔｏｅｎｃｏｄｅｒｆｒａｍｅｗｏｒｋ２深度学习应用２．１语音处理长期以来，语音识别技术普遍采用的是声学模型混合高斯模型。但这种混合高斯模型本质上是一种浅层网络建模，不能充分描述特征的状态空间分布［３４］。２０１１年微软［３５］将深度学习引入语音识别领域，提出深度神经网络ＤＮＮ，本质上是把混合高斯模型替换成了深度神经网络模型大大提高识别率。该模型在Ｓｗｉｔｃｈｂｏａｒｄ标准数据集上的识别错误率比最低错误率降低了３３％。２０１４年Ｖａｎ等［３６］在网络音乐平台Ｓｐｏｔｉｆｙ使用深度卷积神经网络做基于内容的音乐推荐，以及实现依靠音频信号预测听众的收听喜好，然后采用ＷＭＦ（ｗｅｉｇｈｔｅｄｍａｔｒｉｘｆａｃｔｏｒｉ⁃ ｚａｔｉｏｎ）模型进行评分预测。百度的深度学习语音识别系统ＤｅｅｐＳｐｅｅｃｈ［３７］可以在饭店等嘈杂环境下实现将近８１％的辨识准确率。２０１５年Ｃｈａｎ等［３８］提出了ＬＡＳ（ｌｉｓｔｅｎ，ａｔｔｅｎｄａｎｄｓｐｅｌｌ）系统。该系统利用金字塔式双向的ＲＮＮ网络。不同于传统的模型，不需要完整的端对端的ＣＴＣ（ｃｏｎｎｅｃｔｉｏｎｉｓｔｔｅｍｐｏｒａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ），实现跳过音素直接把语音识别为字符，合成了约４万小时音频。当不依赖语音词典和语言模型时在谷歌语音搜索任务词错率达到１４．２％，当结合语言模型时词错率达到１１．２％。２．２计算机视觉２０１２年Ｈｉｎｔｏｎ［３９］和他的２个学生在著名的Ｉｍ⁃ ａｇｅＮｅｔ问题上用更深的卷积神经网络取得世界最好结果，赢得了冠军，使得图像识别大踏步前进。随后，深度学习在图像处理方面取得突破性进展，如物体定位［４０］、脸部识别［４１］和人体姿势估计［４２］等。２０１５年深海团队［４３］利用卷积神经网络对３万个例子进行１２１种浮游生物分类。Ｄｅｎｔｏｎ等［４４］利用卷积神经网络通过用户的性别、年龄、城市和图片等特征进行整合。在Ｆａｃｅｂｏｏｋ上对用户上传的图片进行标签、分类。２．２．１图像语义分割图像包括很多层信息，例如这幅图像是否有特定的物体（如汽车）。所谓的图像语义分割，就是描述图片中包含哪些物体、包括街头的场景分割、三维扫描、对３⁃Ｄ人体解剖分割定位等。因为是基于像素分类方法，所以这个问题会带来巨大的计算量。２０１５年Ｌｏｎｇ等［４５］提出了利用全卷积网络（ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ，ＦＣＮ，）的概念去进行图像语义分割。同年Ｂｅｈｎｋｅ等［４６］提出了语义ＲＧＢ⁃Ｄ感知器的概念，使得基于深度学习的图像语义分割得到进一步发展。２．２．２人脸识别Ｌｉｎｋｆａｃｅ开发了基于深度学习的人脸检测创新算法。无论场景中是单人还是多人，是侧脸、半遮挡还是模糊等情景中，均能进行精准检测。据全球最具权威的人脸检测评测平台ＦＤＤＢ最新数据，Ｌｉｎｋｆａｃｅ的人脸检测算法达到了世界领先的水平。２０１４年Ｆａｃｅｂｏｏｋ开发一种叫ＤｅｅｐＦａｃｅ［４１］技术。其贡献在于对人脸对齐和人脸表示环节的改进。通过革新的３⁃Ｄ人脸建模勾勒出脸部特征，然后通过颜色过滤做出一个刻画特定脸部元素的平面模型。Ｆａｃｅｂｏｏｋ建立了一个来自于４０３０个人的４４０万张标签化的人脸池，Ｆａｃｅｂｏｏｋ称这是迄今为止最大规模的人脸池。它是一个拥有９层的深度卷积神经网络，网络有超过１．２亿个参数。该技术在ＬＦＷ数据集上取得了９７．２５％的平均精度，已经接近人类的识别水平。２０１５年Ｇｏｏｇｌｅ提出ＦａｃｅＮｅｔ［４７］进行人脸验证。它直接学习图像到欧式空间上点的映射，然后基于这个编码再做人脸识别、人脸验证和人脸聚 ·５７０· 智能系统学报第１１卷

第5期刘帅师，等：深度学习方法研究新进展 ·571· 类等。其中两张图像所对应的特征欧式空间上的点的数据集上准确率达到47.67%。之间的距离直接对应着两个图像是否相似。 2.3自然语言处理 FaceNet并没有像DeepFace和DeepID那样需要对 Sashihithlu等eo]采用递归自编码方法(recur- 齐。FaceNet得到最终表示后不用像DeepID那样需 sive auto encoders,RAE)来解决较为复杂的情感分要再训练模型进行分类，直接计算距离就可以，简单析问题。Johnson等[6l]提出一种基于卷积神经网络而有效。在Youtube数据集上测试准确率为95.12%。直接在词袋模型(BoW)上用做文本分类任务。目前，传统人脸识别技术主要集中在可见光谱 2015年谷歌的Good等利用深度神经网络开发了字的范畴，对于跨模态人脸识别问题尚无好的解决方镜头(word lens)实时视频翻译性能和通话实时翻译法。2015年Sarfraz等[48]利用深度神经网络，成功功能。它可以实现拿着手机摄像头对着实物，实物将红外热图像与可见光图像进行匹配，实现了跨模中的文字就可被即时识别出，并被翻译成目标语言，态人脸匹配。该网络可以在短短35ms的时间内，能目前该技术可支持20多种语言的即时视觉翻译。够将红外热图像匹配到其可见光图像，可以实现实更重要的是即使它在不联网的状态下也能进行工时运行。作，所有深度学习的庞大计算都是在手机上完成的。 2.2.3表情识别李婷等[6]利用堆叠去噪自动编码器(stack denoising 目前，大部分研究者把卷积神经网络应用在表 auto encoder,SDAE)识别盲文。情识别上。例如，2013年Liu等[4提出了构建一个 2.4、医疗应用新的深层结构(AU-aware deep networks,AUDN),基 Deep Genomics公司开始把基因组和深度学习于卷积神经网络进行特征提取，连接SVM做表情分结合起来，Deep Genomics已经推出了他们的第一款类器。2014年0 uellet等[so0]使用卷积神经网络对电产品SPIDEX。只需将测试结果和细胞类型导入，脑前的游戏玩家进行实时表情识别。Somg等[s)]利 SPIDEX便可分析出某一变异对RNA剪切的影响，用了一种5层卷积神经网络，实现了每幅图像在服并计算出该变异与疾病之间的关系。Koziol等[] 务器的预测时间为50ms,每个图像的往返时间小利用一种受限玻尔兹曼机用于肝细胞癌的分类。于100ms,在智能手机上实现实时表情识别。jia 2015年Fauw等[641利用20多层的卷积神经网络检等[s2]用Kinect深度传感器得到的图片作为表情识测糖尿病视网膜病变的眼底图像。别的对象，并在卷积神经网络进行表情识别取得了较好的效果。Byeon等s使用3D卷积神经网络去 3模型总结及面临的挑战识别视频人脸表情。文献[54]证明在实时表情识 3.1深度学习模型别系统，卷积神经网络比深层神经网络具有更好的本文对深度学习模型进行分类、概括，在此以模效果。型的结构为序，对深度学习模型进行总结如表1~表还有一部分研究者利用其他深度学习模型进行 3所示。表情识别。例如，McLaughlin等[s提出一种基于深 1)模型结构。目前，大部分的深度学习模型都度信念网络的实时表情识别系统，但只能检测4种是以卷积神经网络、深度信念网络、深度玻尔滋曼表情。2013年He等[]利用深度玻尔兹曼机对红机、堆叠自动编码器等几种基本模型为基础演变而外热图像进行表情识别。来。除此之外，还有像递归神经网络(recurrentneu- 此外，一些研究者们将多种深度学习模型结合 ral networks,RNN)[、深度凸形网络(deep convex 起来进行表情识别。例如，2014年LYU等s)将深 net,DCN)【]等其他类型的新型深度模型。度信念网络与自编码器相结合来进行识别。2015 2)训练方式。深度学习模型的训练方式主要年Jung等s]将卷积神经网络与深度神经网络合起有有监督学习和无监督学习2种。训练方式因模型来。Kahou等s9提出一种视频表情识别系统结构而异，一般以卷积神经网络为核心的模型一般 EmoNets。卷积神经网络捕捉视频信息，检测人脸。采取有监督训练方式。而以受限制玻尔兹曼机与自深度信念网络捕捉音频信息，自编码器捕捉人肢体动编码器为核心的模型，大部分采用无监督学习方行为。该理论赢得了2013 EmotiW挑战赛，在2014 式预训练，配合有监督微调模式进行参数训练

类等。其中两张图像所对应的特征欧式空间上的点之间的距离直接对应着两个图像是否相似。ＦａｃｅＮｅｔ并没有像ＤｅｅｐＦａｃｅ和ＤｅｅｐＩＤ那样需要对齐。ＦａｃｅＮｅｔ得到最终表示后不用像ＤｅｅｐＩＤ那样需要再训练模型进行分类，直接计算距离就可以，简单而有效。在Ｙｏｕｔｕｂｅ数据集上测试准确率为９５．１２％。目前，传统人脸识别技术主要集中在可见光谱的范畴，对于跨模态人脸识别问题尚无好的解决方法。２０１５年Ｓａｒｆｒａｚ等［４８］利用深度神经网络，成功将红外热图像与可见光图像进行匹配，实现了跨模态人脸匹配。该网络可以在短短３５ｍｓ的时间内，能够将红外热图像匹配到其可见光图像，可以实现实时运行。２．２．３表情识别目前，大部分研究者把卷积神经网络应用在表情识别上。例如，２０１３年Ｌｉｕ等［４９］提出了构建一个新的深层结构（ＡＵ⁃ａｗａｒｅｄｅｅｐｎｅｔｗｏｒｋｓ，ＡＵＤＮ），基于卷积神经网络进行特征提取，连接ＳＶＭ做表情分类器。２０１４年Ｏｕｅｌｌｅｔ等［５０］使用卷积神经网络对电脑前的游戏玩家进行实时表情识别。Ｓｏｎｇ等［５１］利用了一种５层卷积神经网络，实现了每幅图像在服务器的预测时间为５０ｍｓ，每个图像的往返时间小于１００ｍｓ，在智能手机上实现实时表情识别。Ｉｊｊｉｎａ等［５２］用Ｋｉｎｅｃｔ深度传感器得到的图片作为表情识别的对象，并在卷积神经网络进行表情识别取得了较好的效果。Ｂｙｅｏｎ等［５３］使用３Ｄ卷积神经网络去识别视频人脸表情。文献［５４］证明在实时表情识别系统，卷积神经网络比深层神经网络具有更好的效果。还有一部分研究者利用其他深度学习模型进行表情识别。例如，ＭｃＬａｕｇｈｌｉｎ等［５５］提出一种基于深度信念网络的实时表情识别系统，但只能检测４种表情。２０１３年Ｈｅ等［５６］利用深度玻尔兹曼机对红外热图像进行表情识别。此外，一些研究者们将多种深度学习模型结合起来进行表情识别。例如，２０１４年ＬＹＵ等［５７］将深度信念网络与自编码器相结合来进行识别。２０１５年Ｊｕｎｇ等［５８］将卷积神经网络与深度神经网络合起来。Ｋａｈｏｕ等［５９］提出一种视频表情识别系统ＥｍｏＮｅｔｓ。卷积神经网络捕捉视频信息，检测人脸。深度信念网络捕捉音频信息，自编码器捕捉人肢体行为。该理论赢得了２０１３ＥｍｏｔｉＷ挑战赛，在２０１４的数据集上准确率达到４７．６７％。２．３自然语言处理Ｓａｓｈｉｈｉｔｈｌｕ等［６０］采用递归自编码方法（ｒｅｃｕｒ⁃ ｓｉｖｅａｕｔｏｅｎｃｏｄｅｒｓ，ＲＡＥ）来解决较为复杂的情感分析问题。Ｊｏｈｎｓｏｎ等［６１］提出一种基于卷积神经网络直接在词袋模型（ＢｏＷ）上用做文本分类任务。２０１５年谷歌的Ｇｏｏｄ等利用深度神经网络开发了字镜头（ｗｏｒｄｌｅｎｓ）实时视频翻译性能和通话实时翻译功能。它可以实现拿着手机摄像头对着实物，实物中的文字就可被即时识别出，并被翻译成目标语言，目前该技术可支持２０多种语言的即时视觉翻译。更重要的是即使它在不联网的状态下也能进行工作，所有深度学习的庞大计算都是在手机上完成的。李婷等［６２］利用堆叠去噪自动编码器（ｓｔａｃｋｄｅｎｏｉｓｉｎｇａｕｔｏｅｎｃｏｄｅｒ，ＳＤＡＥ）识别盲文。２．４医疗应用ＤｅｅｐＧｅｎｏｍｉｃｓ公司开始把基因组和深度学习结合起来，ＤｅｅｐＧｅｎｏｍｉｃｓ已经推出了他们的第一款产品ＳＰＩＤＥＸ。只需将测试结果和细胞类型导入，ＳＰＩＤＥＸ便可分析出某一变异对ＲＮＡ剪切的影响，并计算出该变异与疾病之间的关系。Ｋｏｚｉｏｌ等［６３］利用一种受限玻尔兹曼机用于肝细胞癌的分类。２０１５年Ｆａｕｗ等［６４］利用２０多层的卷积神经网络检测糖尿病视网膜病变的眼底图像。３模型总结及面临的挑战３．１深度学习模型本文对深度学习模型进行分类、概括，在此以模型的结构为序，对深度学习模型进行总结如表１～表３所示。１）模型结构。目前，大部分的深度学习模型都是以卷积神经网络、深度信念网络、深度玻尔兹曼机、堆叠自动编码器等几种基本模型为基础演变而来。除此之外，还有像递归神经网络（ｒｅｃｕｒｒｅｎｔｎｅｕ⁃ ｒａｌｎｅｔｗｏｒｋｓ，ＲＮＮ）［７４］、深度凸形网络（ｄｅｅｐｃｏｎｖｅｘｎｅｔ，ＤＣＮ）［７５］等其他类型的新型深度模型。２）训练方式。深度学习模型的训练方式主要有有监督学习和无监督学习２种。训练方式因模型结构而异，一般以卷积神经网络为核心的模型一般采取有监督训练方式。而以受限制玻尔兹曼机与自动编码器为核心的模型，大部分采用无监督学习方式预训练，配合有监督微调模式进行参数训练。第５期刘帅师，等：深度学习方法研究新进展 ·５７１·

·572. 智能系统学报第11卷表1典型深度学习模型 Table 1 Typical deep learing model 序号模型名称模型描述常用训练方式适用范围作者，文献，年份卷积神经网络多个卷积层和下采样层交有监督，运用前向图像处理，自然语 Lecun Y,[65],1990 (CNN) 替组成，以及一个全连接传播和后向传播言处理，视频分析层 (BP)相结合方式 3D卷积神经网络适用于视频中，通过堆叠有监督，通过随机视频分析 JiS.[66],2013 (3D-CNN) 多个连续的帧组成一个立对角Levenberg- 方体，然后在立方体中运 Marquardt 用3D卷积核，捕捉在时间法来优化训练和空间维度都具有区分性的特征金字塔卷积神经网络与CNN不同，是Siamese 有监督逐层训练图像处理 FamH.[13],2014 PCNN) 网络，由多个金字塔组成深度信念网络多个RBM累加而成的深无监督贪婪逐层预语音识别，图像处Hinton G E,[67],2006 (DBN) 度网络训练，有监督微调理，自然语言处理 (BP) 卷积深度信念网络将DBN中RBM替换成无监督贪婪逐层预图像处理， LeeH.[21].2011 (CDBN) CRBM 训练，有监督微调语音信号处理稀疏深度信念网将DBN中RBM替换成无监督贪婪逐层预图像处理 Halkias X C.[22]2014 (SDBN) SRBM 训练，有监督微调深度玻尔兹曼机多个RBM累加而成，与无监督贪婪逐层预图像处理 Salakhutdinov R. DBM) DBN不同层间均为无向连训练，再进行场均 [68],2009 接，省略了由上至下的反值算法，有监督微馈参数调节调(BP) 3 卷积深度玻尔兹曼机将DBM中RBM替换成无监督贪婪逐层预图像处理杜卷，[69]2014 (CDBM) CRBM 训练，再进行场均值算法，有监督微调堆叠自动编码器多个AE累加而成无监督贪婪逐层预图像处理 Bengio Y,70],2009 (SAE) 训练，再将网络展开，有监督微调 (BP) 堆叠去噪自动编码器将SAE中AE替换成DAE无监督贪婪逐层预图像处理， Vincent P,[25],2008 (SDAE) 训练，再将网络展自然语言处理开，有监督微调 (BP)

表１典型深度学习模型Ｔａｂｌｅ１Ｔｙｐｉｃａｌｄｅｅｐｌｅａｒｉｎｇｍｏｄｅｌ序号模型名称模型描述常用训练方式适用范围作者，文献，年份１卷积神经网络（ＣＮＮ）多个卷积层和下采样层交替组成，以及一个全连接层有监督，运用前向传播和后向传播（ＢＰ）相结合方式图像处理，自然语言处理，视频分析ＬｅｃｕｎＹ，［６５］，１９９０３Ｄ卷积神经网络（３Ｄ⁃ＣＮＮ）适用于视频中，通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用３Ｄ卷积核，捕捉在时间和空间维度都具有区分性的特征有监督，通过随机对角Ｌｅｖｅｎｂｅｒｇ⁃ Ｍａｒｑｕａｒｄｔ法来优化训练视频分析ＪｉＳ，［６６］，２０１３金字塔卷积神经网络（ＰＣＮＮ）与ＣＮＮ不同，是Ｓｉａｍｅｓｅ网络，由多个金字塔组成有监督逐层训练图像处理ＦａｎＨ，［１３］，２０１４２深度信念网络（ＤＢＮ）多个ＲＢＭ累加而成的深度网络无监督贪婪逐层预训练，有监督微调（ＢＰ）语音识别，图像处理，自然语言处理ＨｉｎｔｏｎＧＥ，［６７］，２００６卷积深度信念网络（ＣＤＢＮ）将ＤＢＮ中ＲＢＭ替换成ＣＲＢＭ无监督贪婪逐层预训练，有监督微调图像处理，语音信号处理ＬｅｅＨ，［２１］，２０１１稀疏深度信念网（ＳＤＢＮ）将ＤＢＮ中ＲＢＭ替换成ＳＲＢＭ无监督贪婪逐层预训练，有监督微调图像处理ＨａｌｋｉａｓＸＣ，［２２］２０１４３深度玻尔兹曼机（ＤＢＭ）多个ＲＢＭ累加而成，与ＤＢＮ不同层间均为无向连接，省略了由上至下的反馈参数调节无监督贪婪逐层预训练，再进行场均值算法，有监督微调（ＢＰ）图像处理ＳａｌａｋｈｕｔｄｉｎｏｖＲ，［６８］，２００９卷积深度玻尔兹曼机（ＣＤＢＭ）将ＤＢＭ中ＲＢＭ替换成ＣＲＢＭ无监督贪婪逐层预训练，再进行场均值算法，有监督微调图像处理杜骞，［６９］２０１４４堆叠自动编码器（ＳＡＥ）多个ＡＥ累加而成无监督贪婪逐层预训练，再将网络展开，有监督微调（ＢＰ）图像处理ＢｅｎｇｉｏＹ，［７０］，２００９堆叠去噪自动编码器（ＳＤＡＥ）将ＳＡＥ中ＡＥ替换成ＤＡＥ无监督贪婪逐层预训练，再将网络展开，有监督微调（ＢＰ）图像处理，自然语言处理ＶｉｎｃｅｎｔＰ，［２５］，２００８ ·５７２· 智能系统学报第１１卷

第5期刘帅师，等：深度学习方法研究新进展 ·573· 表2玻尔兹曼机及其演化模型 Table 2 Boltzmann machine and its evolution model 序号模型名称模型描述作者，文献，年份随机神经元组成的二值随机机器，一种玻尔兹曼机(BM) Hinton G E,[71],1986 随机递归神经网络 2 受限制玻尔兹曼机(RBM) 与BM结果相同，只是没有层间的连接 Smolensky P,[72],1986 三层两部无向图模型，由可视层、卷积受限制玻尔兹曼机(CRBM) LeeH.[15],2009 检测层、池层组成在RBM的对数似然目标函数上，稀疏受限制玻尔兹曼机(SRBM) LeeH.[16].2008 增加了一个稀疏惩罚项 5 稀疏租受限制玻尔兹曼机(SGRBM) 将组稀疏方法应用到RBM 罗恒，[17]，2011 利用包含二值随机变量的隐单元来 6 分类受限制玻尔兹曼机(CRBM) Larochelle H,[18],2008 拟合输人特征与类标签的联合分布表3自动编码器及其演化模型 Table 3 Automatic encoder and its evolution model 序号模型名称模型描述作者，文献，年份多层神经网络，从输入层到隐藏层为编码 1 自动编码器(AE) 器，从隐藏层到输出层为解码器 Rumelhart D E,[73],1986 去噪自动编码器(DAE) 在AE的输入层引人随机噪声 Vincent P,[25],2008 3 稀疏自动编码器(SAE) AE加入稀疏性限制 Bengio Y,[26],2007 4 收缩自动编码器(CAE) 对AE的升维和降维过程加以限制 Rifai S,[27],2011 5 卷积自动编码器(CAE) AE每个隐含层的节点都是用来做卷积 Masci J,[28],2011 3)应用领域。深度学习在语音处理、计算机视上的无监督学习。因此，如何做到完全意义上的无觉的应用已十分广泛，许多技术已用于商用。但是，监督学习是未来研究的重点。在自然语言处理的应用尚不成熟口。一些研究者 3)减少训练时间。当待解决的问题过于复杂，尝试用递归神经网络去解决这一问题。文献[74- 使深度学习模型参数增加时，会导致模型的训练时 78]对递归神经网络在文本生成和机器翻译的应用间逐渐上升，是否可以在不改变硬件性能的条件下，做出了详细的描述。目前，递归神经网络的变种模对算法进行改进，在保证精度的同时，提高训练速型长短时记忆模型(long short-term memory,LSTM) 度。所以，减少训练时间，仍是深度学习需要努力的被证明比传统的递归神经网络更加有效[]。研究方向。 3.2面临的挑战 4)实现在线学习。目前，深度学习的算法大多 1)模型结构创新。自Hinton提出深度学习的采用无监督预训练与有监督微调配合的方式进行。思想以来，已经涌现出大量的深度学习模型，然而大然而，一旦在线环境下引入全局微调，会使结果陷入部分的模型的构建依旧停留在以简单模型（如AE, 局部最小值。因此，这种训练算法不利于在线学习。 RBM等)叠加而成的深度网络，或是几种深度学习是否可以改进算法进而将深度学习应用于在线环模型简单相叠加，来构建深度学习模型。这种形式境，这是未来要思考的问题。的模型往往不能发挥深度学习的优势，是否存在其 5)克服对抗样本。通过稍微修改实际样本，而他有效的深度学习模型，是否可以让深度学习与其构造出的合成样本，会使一个分类器以高置信度认他方法进行融合，这是今后要研究的问题。为它们属于错误的分类，这就是深度学习对抗样本 2)训练方式的改进。深度学习已经在各个领问题02]。研究如何克服它们可以帮助我们避免域取得了突破性的成果，大部分深度学习模型均采潜在的安全问题。然而，目前为止并没有好的方法用无监督学习方式。但是，离完全的无监督学习还出现。一些研究人员尝试使用常见的正则化方法有一定的距离。目前的深度学习模型在无监督预训 (包括均化多重模型、均化图像多采样观测等)去解练后，仍然需要有监督的微调，并没有做到完全意义决这一问题，但是并没有取得良好的进展。因此，深

表２玻尔兹曼机及其演化模型Ｔａｂｌｅ２Ｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅａｎｄｉｔｓｅｖｏｌｕｔｉｏｎｍｏｄｅｌ序号模型名称模型描述作者，文献，年份１玻尔兹曼机（ＢＭ）随机神经元组成的二值随机机器，一种随机递归神经网络ＨｉｎｔｏｎＧＥ，［７１］，１９８６２受限制玻尔兹曼机（ＲＢＭ）与ＢＭ结果相同，只是没有层间的连接ＳｍｏｌｅｎｓｋｙＰ，［７２］，１９８６３卷积受限制玻尔兹曼机（ＣＲＢＭ）三层两部无向图模型，由可视层、检测层、池层组成ＬｅｅＨ，［１５］，２００９４稀疏受限制玻尔兹曼机（ＳＲＢＭ）在ＲＢＭ的对数似然目标函数上，增加了一个稀疏惩罚项ＬｅｅＨ，［１６］，２００８５稀疏租受限制玻尔兹曼机（ＳＧＲＢＭ）将组稀疏方法应用到ＲＢＭ罗恒，［１７］，２０１１６分类受限制玻尔兹曼机（ＣＲＢＭ）利用包含二值随机变量的隐单元来拟合输入特征与类标签的联合分布ＬａｒｏｃｈｅｌｌｅＨ，［１８］，２００８表３自动编码器及其演化模型Ｔａｂｌｅ３Ａｕｔｏｍａｔｉｃｅｎｃｏｄｅｒａｎｄｉｔｓｅｖｏｌｕｔｉｏｎｍｏｄｅｌ序号模型名称模型描述作者，文献，年份１自动编码器（ＡＥ）多层神经网络，从输入层到隐藏层为编码器，从隐藏层到输出层为解码器ＲｕｍｅｌｈａｒｔＤＥ，［７３］，１９８６２去噪自动编码器（ＤＡＥ）在ＡＥ的输入层引入随机噪声ＶｉｎｃｅｎｔＰ，［２５］，２００８３稀疏自动编码器（ＳＡＥ）ＡＥ加入稀疏性限制ＢｅｎｇｉｏＹ，［２６］，２００７４收缩自动编码器（ＣＡＥ）对ＡＥ的升维和降维过程加以限制ＲｉｆａｉＳ，［２７］，２０１１５卷积自动编码器（ＣＡＥ）ＡＥ每个隐含层的节点都是用来做卷积ＭａｓｃｉＪ，［２８］，２０１１３）应用领域。深度学习在语音处理、计算机视觉的应用已十分广泛，许多技术已用于商用。但是，在自然语言处理的应用尚不成熟［１］。一些研究者尝试用递归神经网络去解决这一问题。文献［７４⁃ ７８］对递归神经网络在文本生成和机器翻译的应用做出了详细的描述。目前，递归神经网络的变种模型长短时记忆模型（ｌｏｎｇｓｈｏｒｔ⁃ｔｅｒｍｍｅｍｏｒｙ，ＬＳＴＭ）被证明比传统的递归神经网络更加有效［７９］。３．２面临的挑战１）模型结构创新。自Ｈｉｎｔｏｎ提出深度学习的思想以来，已经涌现出大量的深度学习模型，然而大部分的模型的构建依旧停留在以简单模型（如ＡＥ，ＲＢＭ等）叠加而成的深度网络，或是几种深度学习模型简单相叠加，来构建深度学习模型。这种形式的模型往往不能发挥深度学习的优势，是否存在其他有效的深度学习模型，是否可以让深度学习与其他方法进行融合，这是今后要研究的问题。２）训练方式的改进。深度学习已经在各个领域取得了突破性的成果，大部分深度学习模型均采用无监督学习方式。但是，离完全的无监督学习还有一定的距离。目前的深度学习模型在无监督预训练后，仍然需要有监督的微调，并没有做到完全意义上的无监督学习。因此，如何做到完全意义上的无监督学习是未来研究的重点。３）减少训练时间。当待解决的问题过于复杂，使深度学习模型参数增加时，会导致模型的训练时间逐渐上升，是否可以在不改变硬件性能的条件下，对算法进行改进，在保证精度的同时，提高训练速度。所以，减少训练时间，仍是深度学习需要努力的研究方向。４）实现在线学习。目前，深度学习的算法大多采用无监督预训练与有监督微调配合的方式进行。然而，一旦在线环境下引入全局微调，会使结果陷入局部最小值。因此，这种训练算法不利于在线学习。是否可以改进算法进而将深度学习应用于在线环境，这是未来要思考的问题。５）克服对抗样本。通过稍微修改实际样本，而构造出的合成样本，会使一个分类器以高置信度认为它们属于错误的分类，这就是深度学习对抗样本问题［８０⁃８２］。研究如何克服它们可以帮助我们避免潜在的安全问题。然而，目前为止并没有好的方法出现。一些研究人员尝试使用常见的正则化方法（包括均化多重模型、均化图像多采样观测等）去解决这一问题，但是并没有取得良好的进展。因此，深第５期刘帅师，等：深度学习方法研究新进展 ·５７３·

·574· 智能系统学报第11卷度学习的对抗样本问题仍然是待解决的难题之一。 Jiangsu university:natural science editions,2015,36(2): 191-200. 4结束语 [8]LECUN Y,JACKEL L D,BOTTOU L,et al.Learning al- 本文详细描述了几种典型的深度学习模型的构 gorithms for classification:a comparison on handwritten digit 造原理，以及训练方法。并且，对近3年深度学习在 recognition[M]//OH J H,KWON C,CHO S.Neural Net- 各个领域的应用进行了概括。最后，在现有深度学 works:The Statistical Mechanics Perspective.Singapore: World Scientific,1995:261-276. 习模型的基础上讨论了深度学习面临的桃战。 [9]陈先昌.基于卷积神经网络的深度学习算法与应用研究深度学习自提出以来已经在许多领域取得了突 [D].杭州：浙江工商大学，2014. 破性的进展。但是，在深度学习实际应用的过程中， CHEN Xianchang.Research on algorithm and application of 往往为了要构造合适的深度学习模型而大费周章。 deep learning based on convolutional neural network [D] 因为目前的深度学习模型大部分是为了解决某一特 Hangzhou,China:Zhejiang Gongshang University,2014. 定问题，而量身定做的。如果用于解决其他问题，效 [10]李卫.深度学习在图像识别中的研究及应用[D].武果往往不尽如人意。今后研究者们能否通过改进结汉：武汉理工大学，2014. 构与算法，研究出一种可以应对大部分问题深度学 LI Wei.The research and application of deep learning in 习算法，这是未来要思考的难题。 image recognition[D].Wuhan:Wuhan University of Tech- nology,2014. 参考文献： [11]JI Shuiwang,XU Wei,YANG Ming,et al.3D convolu- tional neural networks for human action recognition J]. [1]LECUN Y,BENGIO Y,HINTON G.Deep learning J]. IEEE transactions on pattern analysis and machine intelli- Nature,2015,521(7553):436-444. gence,2013,35(1):221-231. [2]林妙真.基于深度学习的人脸识别研究[D].大连：大连 [12]BRUNA J,ZAREMBA W,SZLAM A,et al.Spectral net- 理工大学，2013 works and locally connected networks on graphs[EB/OL]. LIN Miaozhen.Research on face recognition based on deep Eprint Arxiv:Aiv,2013.[2014-10-10]http:/120.52 learning[D].Dalian,China:Dalian University of Technol- 73.79/axiv.org/pdf/1312.6203v3.pdf. 0,2013. [13 FAN Haoqiang,CAO Zhimin,JIANG Yuning,et al. [3]HINTON G E,SALAKHUTDINOV RR.Reducing the di- Learning deep face representation[EB/OL].Eprint Arx- mensionality of data with neural networks J].Science, iw:Axiv,2014.[2014-10-10]http://120.52.73.80/ 2006,313(5786)：504-507. arxiv.org/pdf/1403.2802v1.pdf. [4]刘建伟，刘媛，罗雄麟.深度学习研究进展[J].计算机 [14]王冠皓，徐军.基于多级金字塔卷积神经网络的快速特应用研究，2014,31(7)：1921-1930,1942 征表示方法[J].计算机应用研究，2015,32(8)：2492- LIU Jianwei,LIU Yuan,LUO Xionglin.Research and de- 2495. velopment on deep learning[J].Application research of WANG Guanhao,XU Jun.Fast feature representation computers,2014,31(7):1921-1930,1942. method based on multi-level pyramid convolution neural [5]余滨，李绍滋，徐素霞，等.深度学习：开启大数据时代 network[J].Application research of computers,2015,32 的钥匙[J].工程研究-跨学科视野中的工程，2014,6 (8):2492-2495. (3):233-243. [15]LEE H,GROSSE R,RANGANATH R,et al.Convolu- YU Bin,LI Shaozi,XU Suxia,et al.Deep learning:a key tional deep belief networks for scalable unsupervised learn- of stepping into the era of big data[]]Journal of engineer- ing of hierarchical representations[C]//Proceedings of the ing studies,.2014,6(3):233-243. 26th Annual International Conference on Machine Learn- [6]尹宝才，王文通，王立春.深度学习研究综述[J].北京 ing.New York,NY,USA,2009:609-616. 工业大学学报.2015,41(1)：48-59. [16]LEE H,EKANADHAM C,NG A Y.Sparse deep belief YIN Biaocai,WANG Wentong,WANG Lichun.Review of net model for visual area V2[C]//Advances in Neural In- deep leaming[J].Journal of Beijing university of technolo- formation Processing Systems 20:21st Annual Conference ,2015,41(1):48-59. on Neural Information Processing Systems.Vancouver, [7]张建明，詹智财，成科扬，等.深度学习的研究与发展 British Columbia,Canada,2007:873-880. [J].江苏大学学报：自然科学版，2015,36(2)：191- [17]罗恒.基于协同过滤视角的受限玻尔兹曼机研究[D]。 200. 上海：上海交通大学，2011. ZHANG Jianming,ZHAN Zhicai,CHENG Keyang,et al. LUO Heng.Restricted Boltzmann machines:a collaborative Review on development of deep learning [J].Journal of filtering perspective[D].Shanghai,China:Shanghai Jiao

度学习的对抗样本问题仍然是待解决的难题之一。４结束语本文详细描述了几种典型的深度学习模型的构造原理，以及训练方法。并且，对近３年深度学习在各个领域的应用进行了概括。最后，在现有深度学习模型的基础上讨论了深度学习面临的挑战。深度学习自提出以来已经在许多领域取得了突破性的进展。但是，在深度学习实际应用的过程中，往往为了要构造合适的深度学习模型而大费周章。因为目前的深度学习模型大部分是为了解决某一特定问题，而量身定做的。如果用于解决其他问题，效果往往不尽如人意。今后研究者们能否通过改进结构与算法，研究出一种可以应对大部分问题深度学习算法，这是未来要思考的难题。参考文献：［１］ＬＥＣＵＮＹ，ＢＥＮＧＩＯＹ，ＨＩＮＴＯＮＧ．Ｄｅｅｐｌｅａｒｎｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１５，５２１（７５５３）：４３６⁃４４４．［２］林妙真．基于深度学习的人脸识别研究［Ｄ］．大连：大连理工大学，２０１３．ＬＩＮＭｉａｏｚｈｅｎ．Ｒｅｓｅａｒｃｈｏｎｆａｃｅｒｅｃｏｇｎｉｔｉｏｎｂａｓｅｄｏｎｄｅｅｐｌｅａｒｎｉｎｇ［Ｄ］．Ｄａｌｉａｎ，Ｃｈｉｎａ：ＤａｌｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌ⁃ ｏｇｙ，２０１３．［３］ＨＩＮＴＯＮＧＥ，ＳＡＬＡＫＨＵＴＤＩＮＯＶＲＲ．Ｒｅｄｕｃｉｎｇｔｈｅｄｉ⁃ ｍｅｎｓｉｏｎａｌｉｔｙｏｆｄａｔａｗｉｔｈｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｊ］．Ｓｃｉｅｎｃｅ，２００６，３１３（５７８６）：５０４⁃５０７．［４］刘建伟，刘媛，罗雄麟．深度学习研究进展［Ｊ］．计算机应用研究，２０１４，３１（７）：１９２１⁃１９３０，１９４２．ＬＩＵＪｉａｎｗｅｉ，ＬＩＵＹｕａｎ，ＬＵＯＸｉｏｎｇｌｉｎ．Ｒｅｓｅａｒｃｈａｎｄｄｅ⁃ ｖｅｌｏｐｍｅｎｔｏｎｄｅｅｐｌｅａｒｎｉｎｇ［Ｊ］．Ａｐｐｌｉｃａｔｉｏｎｒｅｓｅａｒｃｈｏｆｃｏｍｐｕｔｅｒｓ，２０１４，３１（７）：１９２１⁃１９３０，１９４２．［５］余滨，李绍滋，徐素霞，等．深度学习：开启大数据时代的钥匙［Ｊ］．工程研究⁃跨学科视野中的工程，２０１４，６（３）：２３３⁃２４３．ＹＵＢｉｎ，ＬＩＳｈａｏｚｉ，ＸＵＳｕｘｉａ，ｅｔａｌ．Ｄｅｅｐｌｅａｒｎｉｎｇ：ａｋｅｙｏｆｓｔｅｐｐｉｎｇｉｎｔｏｔｈｅｅｒａｏｆｂｉｇｄａｔａ［Ｊ］．Ｊｏｕｒｎａｌｏｆｅｎｇｉｎｅｅｒ⁃ ｉｎｇｓｔｕｄｉｅｓ，２０１４，６（３）：２３３⁃２４３．［６］尹宝才，王文通，王立春．深度学习研究综述［Ｊ］．北京工业大学学报，２０１５，４１（１）：４８⁃５９．ＹＩＮＢｉａｏｃａｉ，ＷＡＮＧＷｅｎｔｏｎｇ，ＷＡＮＧＬｉｃｈｕｎ．Ｒｅｖｉｅｗｏｆｄｅｅｐｌｅａｒｎｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＢｅｉｊｉｎｇｕｎｉｖｅｒｓｉｔｙｏｆｔｅｃｈｎｏｌｏ⁃ ｇｙ，２０１５，４１（１）：４８⁃５９．［７］张建明，詹智财，成科扬，等．深度学习的研究与发展［Ｊ］．江苏大学学报：自然科学版，２０１５，３６（２）：１９１⁃ ２００．ＺＨＡＮＧＪｉａｎｍｉｎｇ，ＺＨＡＮＺｈｉｃａｉ，ＣＨＥＮＧＫｅｙａｎｇ，ｅｔａｌ．Ｒｅｖｉｅｗｏｎｄｅｖｅｌｏｐｍｅｎｔｏｆｄｅｅｐｌｅａｒｎｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＪｉａｎｇｓｕｕｎｉｖｅｒｓｉｔｙ：ｎａｔｕｒａｌｓｃｉｅｎｃｅｅｄｉｔｉｏｎｓ，２０１５，３６（２）：１９１⁃２００．［８］ＬＥＣＵＮＹ，ＪＡＣＫＥＬＬＤ，ＢＯＴＴＯＵＬ，ｅｔａｌ．Ｌｅａｒｎｉｎｇａｌ⁃ ｇｏｒｉｔｈｍｓｆｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎ：ａｃｏｍｐａｒｉｓｏｎｏｎｈａｎｄｗｒｉｔｔｅｎｄｉｇｉｔｒｅｃｏｇｎｉｔｉｏｎ［Ｍ］／／ＯＨＪＨ，ＫＷＯＮＣ，ＣＨＯＳ．ＮｅｕｒａｌＮｅｔ⁃ ｗｏｒｋｓ：ＴｈｅＳｔａｔｉｓｔｉｃａｌＭｅｃｈａｎｉｃｓＰｅｒｓｐｅｃｔｉｖｅ．Ｓｉｎｇａｐｏｒｅ：ＷｏｒｌｄＳｃｉｅｎｔｉｆｉｃ，１９９５：２６１⁃２７６．［９］陈先昌．基于卷积神经网络的深度学习算法与应用研究［Ｄ］．杭州：浙江工商大学，２０１４．ＣＨＥＮＸｉａｎｃｈａｎｇ．Ｒｅｓｅａｒｃｈｏｎａｌｇｏｒｉｔｈｍａｎｄａｐｐｌｉｃａｔｉｏｎｏｆｄｅｅｐｌｅａｒｎｉｎｇｂａｓｅｄｏｎｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ［Ｄ］．Ｈａｎｇｚｈｏｕ，Ｃｈｉｎａ：ＺｈｅｊｉａｎｇＧｏｎｇｓｈａｎｇＵｎｉｖｅｒｓｉｔｙ，２０１４．［１０］李卫．深度学习在图像识别中的研究及应用［Ｄ］．武汉：武汉理工大学，２０１４．ＬＩＷｅｉ．Ｔｈｅｒｅｓｅａｒｃｈａｎｄａｐｐｌｉｃａｔｉｏｎｏｆｄｅｅｐｌｅａｒｎｉｎｇｉｎｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ［Ｄ］．Ｗｕｈａｎ：ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈ⁃ ｎｏｌｏｇｙ，２０１４．［１１］ＪＩＳｈｕｉｗａｎｇ，ＸＵＷｅｉ，ＹＡＮＧＭｉｎｇ，ｅｔａｌ．３Ｄｃｏｎｖｏｌｕ⁃ ｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｈｕｍａｎａｃｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉ⁃ ｇｅｎｃｅ，２０１３，３５（１）：２２１⁃２３１．［１２］ＢＲＵＮＡＪ，ＺＡＲＥＭＢＡＷ，ＳＺＬＡＭＡ，ｅｔａｌ．Ｓｐｅｃｔｒａｌｎｅｔ⁃ ｗｏｒｋｓａｎｄｌｏｃａｌｌｙｃｏｎｎｅｃｔｅｄｎｅｔｗｏｒｋｓｏｎｇｒａｐｈｓ［ＥＢ／ＯＬ］．ＥｐｒｉｎｔＡｒｘｉｖ：Ａｒｘｉｖ，２０１３．［２０１４⁃１０⁃１０］ｈｔｔｐ：／／１２０．５２．７３．７９／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１３１２．６２０３ｖ３．ｐｄｆ．［１３］ＦＡＮＨａｏｑｉａｎｇ，ＣＡＯＺｈｉｍｉｎ，ＪＩＡＮＧＹｕｎｉｎｇ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｄｅｅｐｆａｃｅｒｅｐｒｅｓｅｎｔａｔｉｏｎ［ＥＢ／ＯＬ］．ＥｐｒｉｎｔＡｒｘ⁃ ｉｖ：Ａｒｘｉｖ，２０１４．［２０１４－１０－１０］ｈｔｔｐ：／／１２０．５２．７３．８０／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１４０３．２８０２ｖ１．ｐｄｆ．［１４］王冠皓，徐军．基于多级金字塔卷积神经网络的快速特征表示方法［Ｊ］．计算机应用研究，２０１５，３２（８）：２４９２⁃ ２４９５．ＷＡＮＧＧｕａｎｈａｏ，ＸＵＪｕｎ．Ｆａｓｔｆｅａｔｕｒｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｍｕｌｔｉ⁃ｌｅｖｅｌｐｙｒａｍｉｄｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋ［Ｊ］．Ａｐｐｌｉｃａｔｉｏｎｒｅｓｅａｒｃｈｏｆｃｏｍｐｕｔｅｒｓ，２０１５，３２（８）：２４９２⁃２４９５．［１５］ＬＥＥＨ，ＧＲＯＳＳＥＲ，ＲＡＮＧＡＮＡＴＨＲ，ｅｔａｌ．Ｃｏｎｖｏｌｕ⁃ ｔｉｏｎａｌｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓｆｏｒｓｃａｌａｂｌｅｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎ⁃ ｉｎｇｏｆｈｉｅｒａｒｃｈｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２６ｔｈＡｎｎｕａｌＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎ⁃ ｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００９：６０９⁃６１６．［１６］ＬＥＥＨ，ＥＫＡＮＡＤＨＡＭＣ，ＮＧＡＹ．ＳｐａｒｓｅｄｅｅｐｂｅｌｉｅｆｎｅｔｍｏｄｅｌｆｏｒｖｉｓｕａｌａｒｅａＶ２［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎ⁃ ｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２０：２１ｓｔＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｖａｎｃｏｕｖｅｒ，ＢｒｉｔｉｓｈＣｏｌｕｍｂｉａ，Ｃａｎａｄａ，２００７：８７３⁃８８０．［１７］罗恒．基于协同过滤视角的受限玻尔兹曼机研究［Ｄ］．上海：上海交通大学，２０１１．ＬＵＯＨｅｎｇ．ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅｓ：ａｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｐｅｒｓｐｅｃｔｉｖｅ［Ｄ］．Ｓｈａｎｇｈａｉ，Ｃｈｉｎａ：ＳｈａｎｇｈａｉＪｉａｏ ·５７４· 智能系统学报第１１卷

第5期刘帅师，等：深度学习方法研究新进展 ·575· Tong University,2011 Artificial Neural Networks,Part I.Berlin Heidelberg,Ger- [18]LAROCHELLE H,BENGIO Y.Classification using dis- many,2011:52.59. criminative restricted Boltzmann machines [Cl//Proceed- [29]王雅思.深度学习中的自编码器的表达能力研究[D] ings of the 25th International Conference on Machine 哈尔滨：哈尔滨工业大学，2014。 Learning.New York,NY,USA,2008:536-543 WANG Yasi.Representation ability research of auto-en- [19]张春霞，姬楠楠，王冠伟.受限波尔兹曼机[J].工程数 coders in deep learning[D].Harbin:Harbin Institute of 学学报，2015,32(2)：159-173 Technology,2014. ZHANG Chunxia,JI Nannan,WANG Guanwei.Restricted [30]李远豪.基于深度自编码器的人脸美丽吸引力预测研 Boltzmann machines[J].Chinese journal of engineering 究[D].江门：五色大学，2014 mathematics,2015,32(2):159-173 LI Yuanhao.A study for facial beauty attractiveness predic- [20]刘银华.LBP和深度信念网络在非限制条件下人脸识 tion based on deep autoencoder[D].Jiangmen:Wuyi Uni- 别研究[D].江门：五邑大学，2014. versity,2014. LIU Yinhua.The research of face recognition under uncon- [31]林洲汉.基于自动编码机的高光谱图像特征提取及分 strained condition via LBP and deep belief network [D]. 类方法研究[D].哈尔滨：哈尔滨工业大学，2014. Jiangmen:Wuyi University,2014. LIN Zhouhan.Hyperspectral image feature extraction and [21]LEE H,GROSSE R,RANGANATH R,et al.Unsuper- classification based on autoencoders[D].Harbin:Harbin vised learning of hierarchical representations with convolu- Institute of Technology,2014. tional deep belief networks [J].Communications of the [32]曲建岭，杜辰飞，邸亚洲，等.深度自动编码器的研究 ACM.2011,54(10):95-103. 与展望[J].计算机与现代化.2014(8)：128-134. [22]HALKIAS X C,PARIS S,GLOTIN H.Sparse penalty in QU Jianling,DU Chenfei,DI Yazhou,et al.Research and deep belief networks:using the mixed norm constraint prospect of deep auto-encoders[J].Jisuanji yu xiandaihua, [EB/oL].[2014-05-08].http://axiv.org/pdf/1301. 2014(8):128-134. 3533.pdf. [33]林少飞，盛惠兴，李庆武.基于堆叠稀疏自动编码器的 [23]LIU Yan,ZHOU Shusen,CHEN Qingcai.Discriminative 手写数字分类[J].微处理机，2015(1)：47-51. deep belief networks for visual data classification[]].Pat- LIN Shaofei,SHENG Huixing,LI Qingwu.Handwritten tern recognition,2011,44(10/11):2287-2296. digital classification based on the stacked sparse autoencod- [24]郑胤，陈权崎，章毓晋.深度学习及其在目标和行为识 ers[J].Microprocessors,2015(1):47-51. 别中的新进展[J].中国图象图形学报，2014,19(2)： [34]陈硕.深度学习神经网络在语音识别中的应用研究 175-184. [D].广州：华南理工大学，2013. ZHENG Yin,CHEN Quanqi,ZHANG Yujin.Deep learn- CHEN Shuo.Research of deep learning neural networks ing and its new progress in object and behavior recognition applications in speech recognition[D].Guangzhou,Chi- [J].Journal of image and graphics,2014,19(2):175- na:South China University of Technology,2013. 184. [35]郭丽丽，丁世飞.深度学习研究进展[J刀].计算机科学， [25]VINCENT P,LAROCHELLE H,BENGIO Y,et al.Ex- 2015,42(5):28-33. tracting and composing robust features with denoising au- GOU Lili,DING Shifei.Research progress on deep learn- toencoders [C]//Proceedings of the 25th International ing[J].Computer science,2015,42(5):28-33. Conference on Machine Learning.New York,NY,USA, [36]VAN DEN OORD A,DIELEMAN S,SCHRAUWEN B. 2008:1096-1103. Deep content-based music recommendation M]//Ad- 26]BENGIO Y,LAMBLIN P,POPOVICI D,et al.Greedy vances in Neural Information Processing Systems 26:27th layer-wise training of deep networks [C]//Advances in Annual Conference on Neural Information Processing Sys- Neural Information Processing Systems 19:20th Annual tems.Lake Tahoe,2013:2643-2651. Conference on Neural Information Processing Systems. [37]HANNUN A,CASE C,CASPER J,et al.Deep speech: Vancouver,British Columbia,Canada,2006:153-160. scaling up end-to-end speech recognition[EB/OL].Eprint [27]RIFAI S,VINCENT P,MULLER X,et al.Contractive Arxiv:Arxiv,2014.[2014-12-19]https://arxiv.org/pdf/ auto-encoders:explicit invariance during feature extraction 1412.5567v2.pdf. [C]//Proceedings of the 28th Intemational Conference on [38]余凯，贾磊，陈雨强.深度学习的昨天、今天和明天 Machine Learning.Bellevue,WA,USA,2011. [J].计算机研究与发展，2013,50(9)：1799-1804. [28]MASCI J,MEIER U,CIRESAN D,et al.Stacked convo- YU Kai,JIA Lei,CHEN Yuqiang.Deep learning:yester- lutional auto-encoders for hierarchical feature extraction day,today,and tomorrow[J ]Journal of computer re- [C]//Proceedings of the 21st International Conference on search and development,2013,50(9):1799-1804

ＴｏｎｇＵｎｉｖｅｒｓｉｔｙ，２０１１．［１８］ＬＡＲＯＣＨＥＬＬＥＨ，ＢＥＮＧＩＯＹ．Ｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｄｉｓ⁃ ｃｒｉｍｉｎａｔｉｖｅｒｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅ２５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００８：５３６⁃５４３．［１９］张春霞，姬楠楠，王冠伟．受限波尔兹曼机［Ｊ］．工程数学学报，２０１５，３２（２）：１５９⁃１７３．ＺＨＡＮＧＣｈｕｎｘｉａ，ＪＩＮａｎｎａｎ，ＷＡＮＧＧｕａｎｗｅｉ．ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅｓ［Ｊ］．Ｃｈｉｎｅｓｅｊｏｕｒｎａｌｏｆｅｎｇｉｎｅｅｒｉｎｇｍａｔｈｅｍａｔｉｃｓ，２０１５，３２（２）：１５９⁃１７３．［２０］刘银华．ＬＢＰ和深度信念网络在非限制条件下人脸识别研究［Ｄ］．江门：五邑大学，２０１４．ＬＩＵＹｉｎｈｕａ．Ｔｈｅｒｅｓｅａｒｃｈｏｆｆａｃｅｒｅｃｏｇｎｉｔｉｏｎｕｎｄｅｒｕｎｃｏｎ⁃ ｓｔｒａｉｎｅｄｃｏｎｄｉｔｉｏｎｖｉａＬＢＰａｎｄｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ［Ｄ］．Ｊｉａｎｇｍｅｎ：ＷｕｙｉＵｎｉｖｅｒｓｉｔｙ，２０１４．［２１］ＬＥＥＨ，ＧＲＯＳＳＥＲ，ＲＡＮＧＡＮＡＴＨＲ，ｅｔａｌ．Ｕｎｓｕｐｅｒ⁃ ｖｉｓｅｄｌｅａｒｎｉｎｇｏｆｈｉｅｒａｒｃｈｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｗｉｔｈｃｏｎｖｏｌｕ⁃ ｔｉｏｎａｌｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ［Ｊ］．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ，２０１１，５４（１０）：９５⁃１０３．［２２］ＨＡＬＫＩＡＳＸＣ，ＰＡＲＩＳＳ，ＧＬＯＴＩＮＨ．Ｓｐａｒｓｅｐｅｎａｌｔｙｉｎｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ：ｕｓｉｎｇｔｈｅｍｉｘｅｄｎｏｒｍｃｏｎｓｔｒａｉｎｔ［ＥＢ／ＯＬ］．［２０１４⁃０５⁃０８］．ｈｔｔｐ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１３０１．３５３３．ｐｄｆ．［２３］ＬＩＵＹａｎ，ＺＨＯＵＳｈｕｓｅｎ，ＣＨＥＮＱｉｎｇｃａｉ．Ｄｉｓｃｒｉｍｉｎａｔｉｖｅｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓｆｏｒｖｉｓｕａｌｄａｔａｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．Ｐａｔ⁃ ｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２０１１，４４（１０／１１）：２２８７⁃２２９６．［２４］郑胤，陈权崎，章毓晋．深度学习及其在目标和行为识别中的新进展［Ｊ］．中国图象图形学报，２０１４，１９（２）：１７５⁃１８４．ＺＨＥＮＧＹｉｎ，ＣＨＥＮＱｕａｎｑｉ，ＺＨＡＮＧＹｕｊｉｎ．Ｄｅｅｐｌｅａｒｎ⁃ ｉｎｇａｎｄｉｔｓｎｅｗｐｒｏｇｒｅｓｓｉｎｏｂｊｅｃｔａｎｄｂｅｈａｖｉｏｒｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｉｍａｇｅａｎｄｇｒａｐｈｉｃｓ，２０１４，１９（２）：１７５⁃ １８４．［２５］ＶＩＮＣＥＮＴＰ，ＬＡＲＯＣＨＥＬＬＥＨ，ＢＥＮＧＩＯＹ，ｅｔａｌ．Ｅｘ⁃ ｔｒａｃｔｉｎｇａｎｄｃｏｍｐｏｓｉｎｇｒｏｂｕｓｔｆｅａｔｕｒｅｓｗｉｔｈｄｅｎｏｉｓｉｎｇａｕ⁃ ｔｏｅｎｃｏｄｅｒｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００８：１０９６⁃１１０３．［２６］ＢＥＮＧＩＯＹ，ＬＡＭＢＬＩＮＰ，ＰＯＰＯＶＩＣＩＤ，ｅｔａｌ．Ｇｒｅｅｄｙｌａｙｅｒ⁃ｗｉｓｅｔｒａｉｎｉｎｇｏｆｄｅｅｐｎｅｔｗｏｒｋｓ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ１９：２０ｔｈＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｖａｎｃｏｕｖｅｒ，ＢｒｉｔｉｓｈＣｏｌｕｍｂｉａ，Ｃａｎａｄａ，２００６：１５３⁃１６０．［２７］ＲＩＦＡＩＳ，ＶＩＮＣＥＮＴＰ，ＭＵＬＬＥＲＸ，ｅｔａｌ．Ｃｏｎｔｒａｃｔｉｖｅａｕｔｏ⁃ｅｎｃｏｄｅｒｓ：ｅｘｐｌｉｃｉｔｉｎｖａｒｉａｎｃｅｄｕｒｉｎｇｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｂｅｌｌｅｖｕｅ，ＷＡ，ＵＳＡ，２０１１．［２８］ＭＡＳＣＩＪ，ＭＥＩＥＲＵ，ＣＩＲＥŞＡＮＤ，ｅｔａｌ．Ｓｔａｃｋｅｄｃｏｎｖｏ⁃ ｌｕｔｉｏｎａｌａｕｔｏ⁃ｅｎｃｏｄｅｒｓｆｏｒｈｉｅｒａｒｃｈｉｃａｌｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＰａｒｔＩ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ，Ｇｅｒ⁃ ｍａｎｙ，２０１１：５２⁃５９．［２９］王雅思．深度学习中的自编码器的表达能力研究［Ｄ］．哈尔滨：哈尔滨工业大学，２０１４．ＷＡＮＧＹａｓｉ．Ｒｅｐｒｅｓｅｎｔａｔｉｏｎａｂｉｌｉｔｙｒｅｓｅａｒｃｈｏｆａｕｔｏ⁃ｅｎ⁃ ｃｏｄｅｒｓｉｎｄｅｅｐｌｅａｒｎｉｎｇ［Ｄ］．Ｈａｒｂｉｎ：ＨａｒｂｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，２０１４．［３０］李远豪．基于深度自编码器的人脸美丽吸引力预测研究［Ｄ］．江门：五邑大学，２０１４．ＬＩＹｕａｎｈａｏ．Ａｓｔｕｄｙｆｏｒｆａｃｉａｌｂｅａｕｔｙａｔｔｒａｃｔｉｖｅｎｅｓｓｐｒｅｄｉｃ⁃ ｔｉｏｎｂａｓｅｄｏｎｄｅｅｐａｕｔｏｅｎｃｏｄｅｒ［Ｄ］．Ｊｉａｎｇｍｅｎ：ＷｕｙｉＵｎｉ⁃ ｖｅｒｓｉｔｙ，２０１４．［３１］林洲汉．基于自动编码机的高光谱图像特征提取及分类方法研究［Ｄ］．哈尔滨：哈尔滨工业大学，２０１４．ＬＩＮＺｈｏｕｈａｎ．Ｈｙｐｅｒｓｐｅｃｔｒａｌｉｍａｇｅｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎａｕｔｏｅｎｃｏｄｅｒｓ［Ｄ］．Ｈａｒｂｉｎ：ＨａｒｂｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，２０１４．［３２］曲建岭，杜辰飞，邸亚洲，等．深度自动编码器的研究与展望［Ｊ］．计算机与现代化，２０１４（８）：１２８⁃１３４．ＱＵＪｉａｎｌｉｎｇ，ＤＵＣｈｅｎｆｅｉ，ＤＩＹａｚｈｏｕ，ｅｔａｌ．Ｒｅｓｅａｒｃｈａｎｄｐｒｏｓｐｅｃｔｏｆｄｅｅｐａｕｔｏ⁃ｅｎｃｏｄｅｒｓ［Ｊ］．Ｊｉｓｕａｎｊｉｙｕｘｉａｎｄａｉｈｕａ，２０１４（８）：１２８⁃１３４．［３３］林少飞，盛惠兴，李庆武．基于堆叠稀疏自动编码器的手写数字分类［Ｊ］．微处理机，２０１５（１）：４７⁃５１．ＬＩＮＳｈａｏｆｅｉ，ＳＨＥＮＧＨｕｉｘｉｎｇ，ＬＩＱｉｎｇｗｕ．Ｈａｎｄｗｒｉｔｔｅｎｄｉｇｉｔａｌｃｌａｓｓｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎｔｈｅｓｔａｃｋｅｄｓｐａｒｓｅａｕｔｏｅｎｃｏｄ⁃ ｅｒｓ［Ｊ］．Ｍｉｃｒｏｐｒｏｃｅｓｓｏｒｓ，２０１５（１）：４７⁃５１．［３４］陈硕．深度学习神经网络在语音识别中的应用研究［Ｄ］．广州：华南理工大学，２０１３．ＣＨＥＮＳｈｕｏ．Ｒｅｓｅａｒｃｈｏｆｄｅｅｐｌｅａｒｎｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋｓａｐｐｌｉｃａｔｉｏｎｓｉｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［Ｄ］．Ｇｕａｎｇｚｈｏｕ，Ｃｈｉ⁃ ｎａ：ＳｏｕｔｈＣｈｉｎａＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，２０１３．［３５］郭丽丽，丁世飞．深度学习研究进展［Ｊ］．计算机科学，２０１５，４２（５）：２８⁃３３．ＧＯＵＬｉｌｉ，ＤＩＮＧＳｈｉｆｅｉ．Ｒｅｓｅａｒｃｈｐｒｏｇｒｅｓｓｏｎｄｅｅｐｌｅａｒｎ⁃ ｉｎｇ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２０１５，４２（５）：２８⁃３３．［３６］ＶＡＮＤＥＮＯＯＲＤＡ，ＤＩＥＬＥＭＡＮＳ，ＳＣＨＲＡＵＷＥＮＢ．Ｄｅｅｐｃｏｎｔｅｎｔ⁃ｂａｓｅｄｍｕｓｉｃｒｅｃｏｍｍｅｎｄａｔｉｏｎ［Ｍ］／／Ａｄ⁃ ｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２６：２７ｔｈＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓ⁃ ｔｅｍｓ．ＬａｋｅＴａｈｏｅ，２０１３：２６４３⁃２６５１．［３７］ＨＡＮＮＵＮＡ，ＣＡＳＥＣ，ＣＡＳＰＥＲＪ，ｅｔａｌ．Ｄｅｅｐｓｐｅｅｃｈ：ｓｃａｌｉｎｇｕｐｅｎｄ⁃ｔｏ⁃ｅｎｄｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ［ＥＢ／ＯＬ］．ＥｐｒｉｎｔＡｒｘｉｖ：Ａｒｘｉｖ，２０１４．［２０１４⁃１２⁃１９］ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１４１２．５５６７ｖ２．ｐｄｆ．［３８］余凯，贾磊，陈雨强．深度学习的昨天、今天和明天［Ｊ］．计算机研究与发展，２０１３，５０（９）：１７９９⁃１８０４．ＹＵＫａｉ，ＪＩＡＬｅｉ，ＣＨＥＮＹｕｑｉａｎｇ．Ｄｅｅｐｌｅａｒｎｉｎｇ：ｙｅｓｔｅｒ⁃ ｄａｙ，ｔｏｄａｙ，ａｎｄｔｏｍｏｒｒｏｗ［Ｊ］．Ｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒｒｅ⁃ ｓｅａｒｃｈａｎｄｄｅｖｅｌｏｐｍｅｎｔ，２０１３，５０（９）：１７９９⁃１８０４．第５期刘帅师，等：深度学习方法研究新进展 ·５７５·

·576· 智能系统学报第11卷 [39]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich Proceedings of the 2014 IEEE International Conference on feature hierarchies for accurate object detection and seman- Consumer Electronics.Las Vegas,NV,2014:564-567. tic segmentation[C]//Proceedings of the 2014 IEEE Con- [51]IJJINA E P,MOHAN C K.Facial expression recognition ference on Computer Vision and Pattern Recognition.Co- using kinect depth sensor and convolutional neural net- 1 umbus.0H.2014:580-587. works[C]//Proceedings of the 2014 13th International [40]TAIGMAN Y,YANG Ming,RANZATO M A,et al.Deep- Conference on Machine Learning and Applications.De- Face:closing the gap to human-level performance in face troit.Ml.2014:392-396. verification[C]//Proceedings of the 2014 IEEE Confer- [52]BYEON Y H,KWAK K C.Facial expression recognition ence on Computer Vision and Pattern Recognition.Colum- using 3D convolutional neural network[J].International bus,0H,2014:1701-1708. journal of advanced computer science and applications, [41]TOSHEV A,SZEGEdY C.DeepPose:human pose estima- 2014,5(12):107-112 tion via deep neural networks [C]//Proceedings of the [53]JUNG H,LEE S,PARK S.et al.Development of deep 2014 IEEE Conference on Computer Vision and Pattern learning-based facial expression recognition system[C]/ Recognition.Columbus,OH,2014:1653-1660. Frontiers of Computer Vision (FCV),2015 21st Korea- [42]DIELEMAN S.Classifying plankton with deep neural net- Japan Joint Workshop on 2015:1-4. works[EB/0L].(2015-03-17)[2015-05-30].htp://he [54]MCLAUGHLIN T,MAI L,BAYANBAT N.Emotionrecog- nanne.github.io/2015/03/17/plankton.html. nition with deep-belief networks[EB/OL ]2008 http:// [43]DENTON E,WESTON J,PALURI M,et al.User condi- cs229.stanford.edu/proj2010/MeLaughlinLeBayanbat-Rec- tional hashtag prediction for images[C]//Proceedings of ognizingEmotions WithDeepBeliefNets.pdf. the 21th ACM SIGKDD International Conference on Knowl- [55]HE Shan,WANG Shanfei,LAN Wuwei,et al.Facial ex- edge Discovery and Data Mining.New York,NY,USA, pression recognition using deep Boltzmann machine from 2015:1731-1740. thermal infrared images[C]//Proceedings of the 2013 Hu- [44]LONG J.SHELHAMER E.DARRELL T Fully convolu- maine Association Conference on Affective Computing and tional networks for semantic segmentation[J].IEEE Con- Intelligent Interaction.Geneva,2013:239-244. ference on Computer Vision Pattern Recognition.2015, [56]LV Yadan,FENG Zhiyong,XU Chao.Facial expression 79(10):1337-1342. recognition via deep learning C]//Proceedings of the [45]SCHWARA M,SCHULZ H,BEHNKE S.RGB-D object 2014 International Conference on Smart Computing.Hong recognition and pose estimation based on pre-trained conv- Kong,China,2014:303-308. olutional neural network features[C]//Proceedings of the [57]JUNG H,LEE S,PARK S,et al.Deep temporal appear- 2015IEEE International Conference on Robotics and Auto- ance-geometry network for facial expression recognition mation.Seattle,WA,2015:1329-1335. [EB/OL].Eprint Arxiv:Arxiv,2015.[2015-6-5].http:// [46]SCHROFF F,KALENICHENKO D,PHILBIN J.FaceNet: 120.52.73.75/axiv.org/pdf/1503.01532v1.pdf. A unified embedding for face recognition and clustering [58]KAHOU S E,BOUTHILLIER X,LAMBLIN P et al. [C]//Computer Vision and Pattern Recognition EmoNets:Multimodal deep learning approaches for emo- (CVPR),Boston,USA,2015:815-823. tion recognition in video[J].Journal on Multimodal User [47]SARFRAZ M S,STIEFELHAGEN R.Deep perceptual Interfaces,2015,10(2):1-13. mapping for thermal to visible face recognition.[EB/OL] [59]SASHIHITHLU S,SOMAN SS.Complex sentimentanalys- Eprint Arxiv:Aniv,2015.[2015-12-23].htp:/120.52. is using recursive autoencoders [EB/OL].Core.ac.Uk: 73.80/arxiv.org/pdf/1507.02879v1.pdf. CiteSeerX,2013.[2015-9-30].https://core.ac.uk/display/ [48]LIU Mengyi,LI Shaoxin,SHAN Shiguang,et al.Au-a- 23426251. ware deep networks for facial expression recognition[C] [60]JOHNSON R,ZHANG Tong.Effective use of word order Proceedings of the 2013 10th IEEE International Confer- for text categorization with convolutional neural networks ence and Workshops on Automatic Face and Gesture Rec- EB/OL].Eprint Arxiv:Arxiv,2014.2014-10-10].ht- ognition.Shanghai,China,2013:1-6. p:/120.52.73.79/aiv.org/pdf/1412.1058.pdf. [49]OUELLET S.Real-time emotion recognition for gaming u- [61]李婷.基于深度学习的盲文识别方法[J].计算机与现 sing deep convolutional network features[EB/OL].Eprint 代化，2015(6)：37-40. Arxiv:Arxiv,2014.2014-7-16 ]https://arxiv.org/pdf/ LI Ting.A deep learing method for braille recognition[J]. 1408.3750v1.pdf. Jisuanji yu xiandaihua,2015(6):37-40. [50]SONG I,KIM H J,JEON P B.Deep learning for real-time [62]KOZIOL J A,TAN E M,DAI Liping,et al.Restricted robust facial expression recognition on a smartphone[C]// Boltzmann machines for classification of hepatocellular car-

［３９］ＧＩＲＳＨＩＣＫＲ，ＤＯＮＡＨＵＥＪ，ＤＡＲＲＥＬＬＴ，ｅｔａｌ．Ｒｉｃｈｆｅａｔｕｒｅｈｉｅｒａｒｃｈｉｅｓｆｏｒａｃｃｕｒａｔｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎａｎｄｓｅｍａｎ⁃ ｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１４ＩＥＥＥＣｏｎ⁃ ｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｃｏ⁃ ｌｕｍｂｕｓ，ＯＨ，２０１４：５８０⁃５８７．［４０］ＴＡＩＧＭＡＮＹ，ＹＡＮＧＭｉｎｇ，ＲＡＮＺＡＴＯＭＡ，ｅｔａｌ．Ｄｅｅｐ⁃ Ｆａｃｅ：ｃｌｏｓｉｎｇｔｈｅｇａｐｔｏｈｕｍａｎ⁃ｌｅｖｅｌｐｅｒｆｏｒｍａｎｃｅｉｎｆａｃｅｖｅｒｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１４ＩＥＥＥＣｏｎｆｅｒ⁃ ｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｃｏｌｕｍ⁃ ｂｕｓ，ＯＨ，２０１４：１７０１⁃１７０８．［４１］ＴＯＳＨＥＶＡ，ＳＺＥＧＥｄＹＣ．ＤｅｅｐＰｏｓｅ：ｈｕｍａｎｐｏｓｅｅｓｔｉｍａ⁃ ｔｉｏｎｖｉａｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１４ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｃｏｌｕｍｂｕｓ，ＯＨ，２０１４：１６５３⁃１６６０．［４２］ＤＩＥＬＥＭＡＮＳ．Ｃｌａｓｓｉｆｙｉｎｇｐｌａｎｋｔｏｎｗｉｔｈｄｅｅｐｎｅｕｒａｌｎｅｔ⁃ ｗｏｒｋｓ［ＥＢ／ＯＬ］．（２０１５⁃０３⁃１７）［２０１５⁃０５⁃３０］．ｈｔｔｐ：／／ｂｅ⁃ ｎａｎｎｅ．ｇｉｔｈｕｂ．ｉｏ／２０１５／０３／１７／ｐｌａｎｋｔｏｎ．ｈｔｍｌ．［４３］ＤＥＮＴＯＮＥ，ＷＥＳＴＯＮＪ，ＰＡＬＵＲＩＭ，ｅｔａｌ．Ｕｓｅｒｃｏｎｄｉ⁃ ｔｉｏｎａｌｈａｓｈｔａｇｐｒｅｄｉｃｔｉｏｎｆｏｒｉｍａｇｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌ⁃ ｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２０１５：１７３１⁃１７４０．［４４］ＬＯＮＧＪ，ＳＨＥＬＨＡＭＥＲＥ，ＤＡＲＲＥＬＬＴＦｕｌｌｙｃｏｎｖｏｌｕ⁃ ｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ［Ｊ］．ＩＥＥＥＣｏｎ⁃ ｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ＆ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２０１５，７９（１０）：１３３７⁃１３４２．［４５］ＳＣＨＷＡＲＡＭ，ＳＣＨＵＬＺＨ，ＢＥＨＮＫＥＳ．ＲＧＢ⁃Ｄｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎａｎｄｐｏｓｅｅｓｔｉｍａｔｉｏｎｂａｓｅｄｏｎｐｒｅ⁃ｔｒａｉｎｅｄｃｏｎｖ⁃ ｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｅａｔｕｒｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１５ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｂｏｔｉｃｓａｎｄＡｕｔｏ⁃ ｍａｔｉｏｎ．Ｓｅａｔｔｌｅ，ＷＡ，２０１５：１３２９⁃１３３５．［４６］ＳＣＨＲＯＦＦＦ，ＫＡＬＥＮＩＣＨＥＮＫＯＤ，ＰＨＩＬＢＩＮＪ．ＦａｃｅＮｅｔ：Ａｕｎｉｆｉｅｄｅｍｂｅｄｄｉｎｇｆｏｒｆａｃｅｒｅｃｏｇｎｉｔｉｏｎａｎｄｃｌｕｓｔｅｒｉｎｇ［Ｃ］／／ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），Ｂｏｓｔｏｎ，ＵＳＡ，２０１５：８１５⁃８２３．［４７］ＳＡＲＦＲＡＺＭＳ，ＳＴＩＥＦＥＬＨＡＧＥＮＲ．Ｄｅｅｐｐｅｒｃｅｐｔｕａｌｍａｐｐｉｎｇｆｏｒｔｈｅｒｍａｌｔｏｖｉｓｉｂｌｅｆａｃｅｒｅｃｏｇｎｉｔｉｏｎ．［ＥＢ／ＯＬ］ＥｐｒｉｎｔＡｒｘｉｖ：Ａｒｘｉｖ，２０１５．［２０１５⁃１２⁃２３］．ｈｔｔｐ：／／１２０．５２．７３．８０／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１５０７．０２８７９ｖ１．ｐｄｆ．［４８］ＬＩＵＭｅｎｇｙｉ，ＬＩＳｈａｏｘｉｎ，ＳＨＡＮＳｈｉｇｕａｎｇ，ｅｔａｌ．Ａｕ⁃ａ⁃ ｗａｒｅｄｅｅｐｎｅｔｗｏｒｋｓｆｏｒｆａｃｉａｌｅｘｐｒｅｓｓｉｏｎｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１３１０ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒ⁃ ｅｎｃｅａｎｄＷｏｒｋｓｈｏｐｓｏｎＡｕｔｏｍａｔｉｃＦａｃｅａｎｄＧｅｓｔｕｒｅＲｅｃ⁃ ｏｇｎｉｔｉｏｎ．Ｓｈａｎｇｈａｉ，Ｃｈｉｎａ，２０１３：１⁃６．［４９］ＯＵＥＬＬＥＴＳ．Ｒｅａｌ⁃ｔｉｍｅｅｍｏｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎｆｏｒｇａｍｉｎｇｕ⁃ ｓｉｎｇｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｆｅａｔｕｒｅｓ［ＥＢ／ＯＬ］．ＥｐｒｉｎｔＡｒｘｉｖ：Ａｒｘｉｖ，２０１４．［２０１４⁃７⁃１６］．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１４０８．３７５０ｖ１．ｐｄｆ．［５０］ＳＯＮＧＩ，ＫＩＭＨＪ，ＪＥＯＮＰＢ．Ｄｅｅｐｌｅａｒｎｉｎｇｆｏｒｒｅａｌ⁃ｔｉｍｅｒｏｂｕｓｔｆａｃｉａｌｅｘｐｒｅｓｓｉｏｎｒｅｃｏｇｎｉｔｉｏｎｏｎａｓｍａｒｔｐｈｏｎｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１４ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｎｓｕｍｅｒＥｌｅｃｔｒｏｎｉｃｓ．ＬａｓＶｅｇａｓ，ＮＶ，２０１４：５６４⁃５６７．［５１］ＩＪＪＩＮＡＥＰ，ＭＯＨＡＮＣＫ．Ｆａｃｉａｌｅｘｐｒｅｓｓｉｏｎｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｋｉｎｅｃｔｄｅｐｔｈｓｅｎｓｏｒａｎｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔ⁃ ｗｏｒｋｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１４１３ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ．Ｄｅ⁃ ｔｒｏｉｔ，ＭＩ，２０１４：３９２⁃３９６．［５２］ＢＹＥＯＮＹＨ，ＫＷＡＫＫＣ．Ｆａｃｉａｌｅｘｐｒｅｓｓｉｏｎｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇ３Ｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｌｊｏｕｒｎａｌｏｆａｄｖａｎｃｅｄｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅａｎｄａｐｐｌｉｃａｔｉｏｎｓ，２０１４，５（１２）：１０７⁃１１２．［５３］ＪＵＮＧＨ，ＬＥＥＳ，ＰＡＲＫＳ，ｅｔａｌ．Ｄｅｖｅｌｏｐｍｅｎｔｏｆｄｅｅｐｌｅａｒｎｉｎｇ⁃ｂａｓｅｄｆａｃｉａｌｅｘｐｒｅｓｓｉｏｎｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍ［Ｃ］／／ＦｒｏｎｔｉｅｒｓｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＦＣＶ），２０１５２１ｓｔＫｏｒｅａ－ＪａｐａｎＪｏｉｎｔＷｏｒｋｓｈｏｐｏｎ２０１５：１⁃４．［５４］ＭＣＬＡＵＧＨＬＩＮＴ，ＭＡＩＬ，ＢＡＹＡＮＢＡＴＮ．Ｅｍｏｔｉｏｎｒｅｃｏｇ⁃ ｎｉｔｉｏｎｗｉｔｈｄｅｅｐ⁃ｂｅｌｉｅｆｎｅｔｗｏｒｋｓ［ＥＢ／ＯＬ］．２００８ｈｔｔｐ：／／ｃｓ２２９．ｓｔａｎｆｏｒｄ．ｅｄｕ／ｐｒｏｊ２０１０／ＭｃＬａｕｇｈｌｉｎＬｅＢａｙａｎｂａｔ⁃Ｒｅｃ⁃ ｏｇｎｉｚｉｎｇＥｍｏｔｉｏｎｓＷｉｔｈＤｅｅｐＢｅｌｉｅｆＮｅｔｓ．ｐｄｆ．［５５］ＨＥＳｈａｎ，ＷＡＮＧＳｈａｎｆｅｉ，ＬＡＮＷｕｗｅｉ，ｅｔａｌ．Ｆａｃｉａｌｅｘ⁃ ｐｒｅｓｓｉｏｎｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｄｅｅｐＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅｆｒｏｍｔｈｅｒｍａｌｉｎｆｒａｒｅｄｉｍａｇｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１３Ｈｕ⁃ ｍａｉｎｅＡｓｓｏｃｉａｔｉｏｎＣｏｎｆｅｒｅｎｃｅｏｎＡｆｆｅｃｔｉｖｅＣｏｍｐｕｔｉｎｇａｎｄＩｎｔｅｌｌｉｇｅｎｔＩｎｔｅｒａｃｔｉｏｎ．Ｇｅｎｅｖａ，２０１３：２３９⁃２４４．［５６］ＬＶＹａｄａｎ，ＦＥＮＧＺｈｉｙｏｎｇ，ＸＵＣｈａｏ．Ｆａｃｉａｌｅｘｐｒｅｓｓｉｏｎｒｅｃｏｇｎｉｔｉｏｎｖｉａｄｅｅｐｌｅａｒｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１４ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｍａｒｔＣｏｍｐｕｔｉｎｇ．ＨｏｎｇＫｏｎｇ，Ｃｈｉｎａ，２０１４：３０３⁃３０８．［５７］ＪＵＮＧＨ，ＬＥＥＳ，ＰＡＲＫＳ，ｅｔａｌ．Ｄｅｅｐｔｅｍｐｏｒａｌａｐｐｅａｒ⁃ ａｎｃｅ⁃ｇｅｏｍｅｔｒｙｎｅｔｗｏｒｋｆｏｒｆａｃｉａｌｅｘｐｒｅｓｓｉｏｎｒｅｃｏｇｎｉｔｉｏｎ［ＥＢ／ＯＬ］．ＥｐｒｉｎｔＡｒｘｉｖ：Ａｒｘｉｖ，２０１５．［２０１５⁃６⁃５］．ｈｔｔｐ：／／１２０．５２．７３．７５／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１５０３．０１５３２ｖ１．ｐｄｆ．［５８］ＫＡＨＯＵＳＥ，ＢＯＵＴＨＩＬＬＩＥＲＸ，ＬＡＭＢＬＩＮＰｅｔａｌ．ＥｍｏＮｅｔｓ：Ｍｕｌｔｉｍｏｄａｌｄｅｅｐｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｅｓｆｏｒｅｍｏ⁃ ｔｉｏｎｒｅｃｏｇｎｉｔｉｏｎｉｎｖｉｄｅｏ［Ｊ］．ＪｏｕｒｎａｌｏｎＭｕｌｔｉｍｏｄａｌＵｓｅｒＩｎｔｅｒｆａｃｅｓ，２０１５，１０（２）：１⁃１３．［５９］ＳＡＳＨＩＨＩＴＨＬＵＳ，ＳＯＭＡＮＳＳ．Ｃｏｍｐｌｅｘｓｅｎｔｉｍｅｎｔａｎａｌｙｓ⁃ ｉｓｕｓｉｎｇｒｅｃｕｒｓｉｖｅａｕｔｏｅｎｃｏｄｅｒｓ［ＥＢ／ＯＬ］．Ｃｏｒｅ．ａｃ．Ｕｋ：ＣｉｔｅＳｅｅｒＸ，２０１３．［２０１５⁃９⁃３０］．ｈｔｔｐｓ：／／ｃｏｒｅ．ａｃ．ｕｋ／ｄｉｓｐｌａｙ／２３４２６２５１．［６０］ＪＯＨＮＳＯＮＲ，ＺＨＡＮＧＴｏｎｇ．Ｅｆｆｅｃｔｉｖｅｕｓｅｏｆｗｏｒｄｏｒｄｅｒｆｏｒｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎｗｉｔｈｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ［ＥＢ／ＯＬ］．ＥｐｒｉｎｔＡｒｘｉｖ：Ａｒｘｉｖ，２０１４．［２０１４⁃１０⁃１０］．ｈｔ⁃ ｔｐ：／／１２０．５２．７３．７９／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１４１２．１０５８．ｐｄｆ．［６１］李婷．基于深度学习的盲文识别方法［Ｊ］．计算机与现代化，２０１５（６）：３７⁃４０．ＬＩＴｉｎｇ．Ａｄｅｅｐｌｅａｒｉｎｇｍｅｔｈｏｄｆｏｒｂｒａｉｌｌｅｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．Ｊｉｓｕａｎｊｉｙｕｘｉａｎｄａｉｈｕａ，２０１５（６）：３７⁃４０．［６２］ＫＯＺＩＯＬＪＡ，ＴＡＮＥＭ，ＤＡＩＬｉｐｉｎｇ，ｅｔａｌ．ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅｓｆｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｈｅｐａｔｏｃｅｌｌｕｌａｒｃａｒ⁃ ·５７６· 智能系统学报第１１卷

点击进入文档下载页（PDF格式）

共11页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录