类等。其中两张图像所对应的特征欧式空间上的点之间的距离直接

点击下载：《期智能系统学报》：深度学习方法研究新进展（长春工业大学：刘帅师，程曦，郭文燕，陈奇）

正在加载图片...

第5期刘帅师，等：深度学习方法研究新进展 ·571· 类等。其中两张图像所对应的特征欧式空间上的点的数据集上准确率达到47.67%。之间的距离直接对应着两个图像是否相似。 2.3自然语言处理 FaceNet并没有像DeepFace和DeepID那样需要对 Sashihithlu等eo]采用递归自编码方法(recur- 齐。FaceNet得到最终表示后不用像DeepID那样需 sive auto encoders,RAE)来解决较为复杂的情感分要再训练模型进行分类，直接计算距离就可以，简单析问题。Johnson等[6l]提出一种基于卷积神经网络而有效。在Youtube数据集上测试准确率为95.12%。直接在词袋模型(BoW)上用做文本分类任务。目前，传统人脸识别技术主要集中在可见光谱 2015年谷歌的Good等利用深度神经网络开发了字的范畴，对于跨模态人脸识别问题尚无好的解决方镜头(word lens)实时视频翻译性能和通话实时翻译法。2015年Sarfraz等[48]利用深度神经网络，成功功能。它可以实现拿着手机摄像头对着实物，实物将红外热图像与可见光图像进行匹配，实现了跨模中的文字就可被即时识别出，并被翻译成目标语言，态人脸匹配。该网络可以在短短35ms的时间内，能目前该技术可支持20多种语言的即时视觉翻译。够将红外热图像匹配到其可见光图像，可以实现实更重要的是即使它在不联网的状态下也能进行工时运行。作，所有深度学习的庞大计算都是在手机上完成的。 2.2.3表情识别李婷等[6]利用堆叠去噪自动编码器(stack denoising 目前，大部分研究者把卷积神经网络应用在表 auto encoder,SDAE)识别盲文。情识别上。例如，2013年Liu等[4提出了构建一个 2.4、医疗应用新的深层结构(AU-aware deep networks,AUDN),基 Deep Genomics公司开始把基因组和深度学习于卷积神经网络进行特征提取，连接SVM做表情分结合起来，Deep Genomics已经推出了他们的第一款类器。2014年0 uellet等[so0]使用卷积神经网络对电产品SPIDEX。只需将测试结果和细胞类型导入，脑前的游戏玩家进行实时表情识别。Somg等[s)]利 SPIDEX便可分析出某一变异对RNA剪切的影响，用了一种5层卷积神经网络，实现了每幅图像在服并计算出该变异与疾病之间的关系。Koziol等[] 务器的预测时间为50ms,每个图像的往返时间小利用一种受限玻尔兹曼机用于肝细胞癌的分类。于100ms,在智能手机上实现实时表情识别。jia 2015年Fauw等[641利用20多层的卷积神经网络检等[s2]用Kinect深度传感器得到的图片作为表情识测糖尿病视网膜病变的眼底图像。别的对象，并在卷积神经网络进行表情识别取得了较好的效果。Byeon等s使用3D卷积神经网络去 3模型总结及面临的挑战识别视频人脸表情。文献[54]证明在实时表情识 3.1深度学习模型别系统，卷积神经网络比深层神经网络具有更好的本文对深度学习模型进行分类、概括，在此以模效果。型的结构为序，对深度学习模型进行总结如表1~表还有一部分研究者利用其他深度学习模型进行 3所示。表情识别。例如，McLaughlin等[s提出一种基于深 1)模型结构。目前，大部分的深度学习模型都度信念网络的实时表情识别系统，但只能检测4种是以卷积神经网络、深度信念网络、深度玻尔滋曼表情。2013年He等[]利用深度玻尔兹曼机对红机、堆叠自动编码器等几种基本模型为基础演变而外热图像进行表情识别。来。除此之外，还有像递归神经网络(recurrentneu- 此外，一些研究者们将多种深度学习模型结合 ral networks,RNN)[、深度凸形网络(deep convex 起来进行表情识别。例如，2014年LYU等s)将深 net,DCN)【]等其他类型的新型深度模型。度信念网络与自编码器相结合来进行识别。2015 2)训练方式。深度学习模型的训练方式主要年Jung等s]将卷积神经网络与深度神经网络合起有有监督学习和无监督学习2种。训练方式因模型来。Kahou等s9提出一种视频表情识别系统结构而异，一般以卷积神经网络为核心的模型一般 EmoNets。卷积神经网络捕捉视频信息，检测人脸。采取有监督训练方式。而以受限制玻尔兹曼机与自深度信念网络捕捉音频信息，自编码器捕捉人肢体动编码器为核心的模型，大部分采用无监督学习方行为。该理论赢得了2013 EmotiW挑战赛，在2014 式预训练，配合有监督微调模式进行参数训练。类等。其中两张图像所对应的特征欧式空间上的点之间的距离直接对应着两个图像是否相似。ＦａｃｅＮｅｔ并没有像ＤｅｅｐＦａｃｅ和ＤｅｅｐＩＤ那样需要对齐。ＦａｃｅＮｅｔ得到最终表示后不用像ＤｅｅｐＩＤ那样需要再训练模型进行分类，直接计算距离就可以，简单而有效。在Ｙｏｕｔｕｂｅ数据集上测试准确率为９５．１２％。目前，传统人脸识别技术主要集中在可见光谱的范畴，对于跨模态人脸识别问题尚无好的解决方法。２０１５年Ｓａｒｆｒａｚ等［４８］利用深度神经网络，成功将红外热图像与可见光图像进行匹配，实现了跨模态人脸匹配。该网络可以在短短３５ｍｓ的时间内，能够将红外热图像匹配到其可见光图像，可以实现实时运行。２．２．３表情识别目前，大部分研究者把卷积神经网络应用在表情识别上。例如，２０１３年Ｌｉｕ等［４９］提出了构建一个新的深层结构（ＡＵ⁃ａｗａｒｅｄｅｅｐｎｅｔｗｏｒｋｓ，ＡＵＤＮ），基于卷积神经网络进行特征提取，连接ＳＶＭ做表情分类器。２０１４年Ｏｕｅｌｌｅｔ等［５０］使用卷积神经网络对电脑前的游戏玩家进行实时表情识别。Ｓｏｎｇ等［５１］利用了一种５层卷积神经网络，实现了每幅图像在服务器的预测时间为５０ｍｓ，每个图像的往返时间小于１００ｍｓ，在智能手机上实现实时表情识别。Ｉｊｊｉｎａ等［５２］用Ｋｉｎｅｃｔ深度传感器得到的图片作为表情识别的对象，并在卷积神经网络进行表情识别取得了较好的效果。Ｂｙｅｏｎ等［５３］使用３Ｄ卷积神经网络去识别视频人脸表情。文献［５４］证明在实时表情识别系统，卷积神经网络比深层神经网络具有更好的效果。还有一部分研究者利用其他深度学习模型进行表情识别。例如，ＭｃＬａｕｇｈｌｉｎ等［５５］提出一种基于深度信念网络的实时表情识别系统，但只能检测４种表情。２０１３年Ｈｅ等［５６］利用深度玻尔兹曼机对红外热图像进行表情识别。此外，一些研究者们将多种深度学习模型结合起来进行表情识别。例如，２０１４年ＬＹＵ等［５７］将深度信念网络与自编码器相结合来进行识别。２０１５年Ｊｕｎｇ等［５８］将卷积神经网络与深度神经网络合起来。Ｋａｈｏｕ等［５９］提出一种视频表情识别系统ＥｍｏＮｅｔｓ。卷积神经网络捕捉视频信息，检测人脸。深度信念网络捕捉音频信息，自编码器捕捉人肢体行为。该理论赢得了２０１３ＥｍｏｔｉＷ挑战赛，在２０１４的数据集上准确率达到４７．６７％。２．３自然语言处理Ｓａｓｈｉｈｉｔｈｌｕ等［６０］采用递归自编码方法（ｒｅｃｕｒ⁃ ｓｉｖｅａｕｔｏｅｎｃｏｄｅｒｓ，ＲＡＥ）来解决较为复杂的情感分析问题。Ｊｏｈｎｓｏｎ等［６１］提出一种基于卷积神经网络直接在词袋模型（ＢｏＷ）上用做文本分类任务。２０１５年谷歌的Ｇｏｏｄ等利用深度神经网络开发了字镜头（ｗｏｒｄｌｅｎｓ）实时视频翻译性能和通话实时翻译功能。它可以实现拿着手机摄像头对着实物，实物中的文字就可被即时识别出，并被翻译成目标语言，目前该技术可支持２０多种语言的即时视觉翻译。更重要的是即使它在不联网的状态下也能进行工作，所有深度学习的庞大计算都是在手机上完成的。李婷等［６２］利用堆叠去噪自动编码器（ｓｔａｃｋｄｅｎｏｉｓｉｎｇａｕｔｏｅｎｃｏｄｅｒ，ＳＤＡＥ）识别盲文。２．４医疗应用ＤｅｅｐＧｅｎｏｍｉｃｓ公司开始把基因组和深度学习结合起来，ＤｅｅｐＧｅｎｏｍｉｃｓ已经推出了他们的第一款产品ＳＰＩＤＥＸ。只需将测试结果和细胞类型导入，ＳＰＩＤＥＸ便可分析出某一变异对ＲＮＡ剪切的影响，并计算出该变异与疾病之间的关系。Ｋｏｚｉｏｌ等［６３］利用一种受限玻尔兹曼机用于肝细胞癌的分类。２０１５年Ｆａｕｗ等［６４］利用２０多层的卷积神经网络检测糖尿病视网膜病变的眼底图像。３模型总结及面临的挑战３．１深度学习模型本文对深度学习模型进行分类、概括，在此以模型的结构为序，对深度学习模型进行总结如表１～表３所示。１）模型结构。目前，大部分的深度学习模型都是以卷积神经网络、深度信念网络、深度玻尔兹曼机、堆叠自动编码器等几种基本模型为基础演变而来。除此之外，还有像递归神经网络（ｒｅｃｕｒｒｅｎｔｎｅｕ⁃ ｒａｌｎｅｔｗｏｒｋｓ，ＲＮＮ）［７４］、深度凸形网络（ｄｅｅｐｃｏｎｖｅｘｎｅｔ，ＤＣＮ）［７５］等其他类型的新型深度模型。２）训练方式。深度学习模型的训练方式主要有有监督学习和无监督学习２种。训练方式因模型结构而异，一般以卷积神经网络为核心的模型一般采取有监督训练方式。而以受限制玻尔兹曼机与自动编码器为核心的模型，大部分采用无监督学习方式预训练，配合有监督微调模式进行参数训练。第５期刘帅师，等：深度学习方法研究新进展 ·５７１·

<<向上翻页向下翻页>>

点击下载：《期智能系统学报》：深度学习方法研究新进展（长春工业大学：刘帅师，程曦，郭文燕，陈奇）