第12卷第6期 智能系统学报 Vol.12 No.6 2017年12月 CAAI Transactions on Intelligent Systems Dec.2017 D0:10.11992/tis.201706037 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20171109.1250.012.html 基于自编码器的特征迁移算法 杨梦铎,栾咏红,刘文军,李凡长2 (1.苏州工业职业技术学院软件与服务外包学院,江苏苏州215104:2.苏州大学计算机科学与技术学院,江苏苏州 215006) 摘要:近年来,栈式自编码网络(stacked auto-encoder,SAE)在大规模数据集上表现出优异的图像分类性能。相对 于其他图像分类方法中手工设计的低级特征,SAE的成功归因于深度网络能够学习到丰富的中级图像特征。然而. 估计上百万个网络参数需要非常庞大的带标签的图像样本数据集。这样的性质阻止了SAE在小规模训练数据上的 许多应用。在这篇文章中,提出的算法展示如何将SAE在大规模数据集上学习到的图像表示有效地迁移到只有有 限训练数据的视觉识别任务中。实验部分设计了一个方法来复用在MNST数据集上训练得到的隐藏层,以此计算 在MNIST-variations数据集上的中级图像表示。实验结果展示了尽管两个数据集之间存在差异,但是被迁移的图像 特征能够使得模型的分类性能得到极大的提升。 关键词:自编码器;特征迁移:深度网络:深度学习:图像分类;中级图像特征;视觉识别;大规模数据集 中图分类号:TP181文献标志码:A文章编号:1673-4785(201706-0894-05 中文引用格式:杨梦铎,栾咏红,刘文军,等.基于自编码器的特征迁移算法J小.智能系统学报,2017,12(6):894-898. 英文引用格式:YANG Mengduo,.LUAN Yonghong,LIU Wenjun,etal.Feature transfer algorithm based on an auto-encoder[J. CAAI transactions on intelligent systems,2017,12(6):894-898. Feature transfer algorithm based on an auto-encoder YANG Mengduo',LUAN Yonghong',LIU Wenjun',LI Fanzhang (1.Department of Software and Service Outsourcing,Suzhou Vocational Institute of Industrial Technology,Suzhou 215104,China; 2.School of Computer Science and Technology,Soochow University,Suzhou 215006,China) Abstract:The stacked auto-encoder(SAE)has recently shown outstanding image classification performance in large- scale datasets.Relative to the low-level features of artificial design in other image classification methods,the success of SAE is its deep network that can learn rich mid-level image features.However,estimating millions of parameters re- quires a very large number of annotated image samples,and this prevents many SAE applications to small-scale training data.In this paper,the proposed algorithm shows how to efficiently transfer image representation learned by SAE on a large-scale dataset to other visual recognition tasks with limited training data.In the experimental section,a method is designed to reuse the hidden layers trained on MNIST datasets to compute the mid-level image representation of MNIST-variation datasets.Experimental results show that,despite differences in image datasets,the transferred image features can significantly improve the classification performance of the model. Keywords:auto-encoder;feature transfer;deep network;deep learning;image classification;mid-level image represent- ation;visual recognition;large-scale datasets 相比于浅层网络,由单层模块堆叠形成的深度 微调过程,深度网络能够学习到高度非线性函数的 网络具有更加有效的函数表征能力。通过预训练与 一种更加紧凑的表示,并且同时具备优秀的泛化能 力。无监督的预训练过程往往涉及某种特征检测模 收稿日期:2017-06-10.网络出版日期:2017-11-19. 基金项目:国家自然科学基金项目(61672364). 型,常用的有自编码器(auto-encoder,.AE)1和受限 通信作者:杨梦锋.E-mail:mengduoyang@163.com 玻尔兹曼机(restricted Boltzmann machine,.RBM)s
DOI: 10.11992/tis.201706037 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20171109.1250.012.html 基于自编码器的特征迁移算法 杨梦铎1 ,栾咏红1 ,刘文军1 ,李凡长2 (1. 苏州工业职业技术学院 软件与服务外包学院,江苏 苏州 215104; 2. 苏州大学 计算机科学与技术学院,江苏 苏州 215006) 摘 要:近年来,栈式自编码网络(stacked auto-encoder,SAE)在大规模数据集上表现出优异的图像分类性能。相对 于其他图像分类方法中手工设计的低级特征,SAE 的成功归因于深度网络能够学习到丰富的中级图像特征。然而, 估计上百万个网络参数需要非常庞大的带标签的图像样本数据集。这样的性质阻止了 SAE 在小规模训练数据上的 许多应用。在这篇文章中,提出的算法展示如何将 SAE 在大规模数据集上学习到的图像表示有效地迁移到只有有 限训练数据的视觉识别任务中。实验部分设计了一个方法来复用在 MNIST 数据集上训练得到的隐藏层,以此计算 在 MNIST-variations 数据集上的中级图像表示。实验结果展示了尽管两个数据集之间存在差异,但是被迁移的图像 特征能够使得模型的分类性能得到极大的提升。 关键词:自编码器;特征迁移;深度网络;深度学习;图像分类;中级图像特征;视觉识别;大规模数据集 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2017)06−0894−05 中文引用格式:杨梦铎, 栾咏红, 刘文军, 等. 基于自编码器的特征迁移算法[J]. 智能系统学报, 2017, 12(6): 894–898. 英文引用格式:YANG Mengduo, LUAN Yonghong, LIU Wenjun, et al. Feature transfer algorithm based on an auto-encoder[J]. CAAI transactions on intelligent systems, 2017, 12(6): 894–898. Feature transfer algorithm based on an auto-encoder YANG Mengduo1 ,LUAN Yonghong1 ,LIU Wenjun1 ,LI Fanzhang2 (1. Department of Software and Service Outsourcing, Suzhou Vocational Institute of Industrial Technology, Suzhou 215104, China; 2. School of Computer Science and Technology, Soochow University, Suzhou 215006, China) Abstract: The stacked auto-encoder (SAE) has recently shown outstanding image classification performance in largescale datasets. Relative to the low-level features of artificial design in other image classification methods, the success of SAE is its deep network that can learn rich mid-level image features. However, estimating millions of parameters requires a very large number of annotated image samples, and this prevents many SAE applications to small-scale training data. In this paper, the proposed algorithm shows how to efficiently transfer image representation learned by SAE on a large-scale dataset to other visual recognition tasks with limited training data. In the experimental section, a method is designed to reuse the hidden layers trained on MNIST datasets to compute the mid-level image representation of MNIST-variation datasets. Experimental results show that, despite differences in image datasets, the transferred image features can significantly improve the classification performance of the model. Keywords: auto-encoder; feature transfer; deep network; deep learning; image classification; mid-level image representation; visual recognition; large-scale datasets 相比于浅层网络,由单层模块堆叠形成的深度 网络具有更加有效的函数表征能力。通过预训练与 微调过程,深度网络能够学习到高度非线性函数的 一种更加紧凑的表示,并且同时具备优秀的泛化能 力。无监督的预训练过程往往涉及某种特征检测模 型,常用的有自编码器(auto-encoder, AE) [1-3]和受限 玻尔兹曼机(restricted Boltzmann machine, RBM) [4-8]。 收稿日期:2017−06−10. 网络出版日期:2017−11−19. 基金项目:国家自然科学基金项目 (61672364). 通信作者:杨梦铎. E-mail: mengduoyang@163.com. 第 12 卷第 6 期 智 能 系 统 学 报 Vol.12 No.6 2017 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2017
第6期 杨梦铎,等:基于自编码器的特征迁移算法 ·895· 堆叠自编码器得到的深度网络与堆叠受限玻尔兹曼 的权值(weight)参数和偏置参数(bias),x,表示x的 机得到的深度网络具有相近的性能。相较而言,自 第i特征,n表示样本的维度,+1表示输入层和隐藏 编码器深度网络作为深度学习中更为简单的模型, 层的偏置结点。在输出层,hwbx)由神经网络的激 拥有更易于理解的理论基础与实现过程。 活函数(activation function)给出了网络的输出。 近年来,自编码器及其改善的版本(如降噪自 hd=f0wx+b)=f0∑Wx+b) 编码器9.21、收缩自编码器31)在模式识别领域中 常用的激活函数包括逻辑函数(logistic)以及双 展现出优异的性能。相对于手工设计的低层次特 曲正切函数(tanh): 征,这些深度网络的成功归因于它们学习丰富的中 fiogistie(Wx+b)= 间层特征表示的能力。然而为了估计上百万的参 1+e-(WTx+b) 数,有监督的微调过程需要大量的带标签的样本。 eWTx+b-e-(WTx-b) fumh(Wx+b)= eWTx+b+e-(wTr+b 于是,在深度网络强有力的模型表达能力下,如果 在神经网络训练过程中,需要最小化网络输入 提供的有标签样本数量太少就非常容易造成过拟合 输出差值。由于自编码器的无监督性,需要将损失 的问题。这样的性质就阻止了堆叠的自编码器在有 函数(loss function)J(W,b)由最小化输出值和对应 限训练数据下的施展应用。 标签值之间的差异替换为最小化输入值和输出值之 为了解决这个问题,我们提取栈式自编码器在 间的差异。改变后的损失函数公式为 大数据集上学到的图像特征并迁移到只有有限训练 数据的视觉识别任务中。设计的方法复用MNIST Jwb=品∑h(-+wm 数据集上训练的隐藏层,为小型MNIST变体数据 2栈式自编码网络 集来计算中间层的图像表示。实验结果表明,尽管 源任务与目标任务中的两组数据存在差异,迁移的 栈式自编码网络是将多个自编码器堆叠而成的 表示能够导致更加高效和更加准确的识别结果。 深度网络,也是深度学习的一个典型模型。当将原 始数据输入到首个训练好的自编码器后,它的隐藏 1自编码器 层就学习到了一阶特征表示。然后这层隐藏层特征 就作为另一个自编码器的输入,用来学习二阶特征 自编码器属于一种特殊的人工神经网络(artifi- cial neural network,ANN),采用反向传播算法(back 表示。以此类推,原始数据的多阶特征表示便可以 逐一得到。在构建深度网络的时候,各个自编码器 propagation,BP)进行优化。作为无监督的特征检测 需要去除输出层,只保留各阶学习到的特征表示。 模型,自编码器能够学习到输入数据的另一种特征 图2给出了包含两个隐藏层和一个最终分类器输出 表示。典型的模型由输入层、隐藏层和输出层构 层的栈式自编码网络。 成,并且输入层和输出层具有相同个数的神经元。 自编码器的目标是尽可能地让输入等于输出,那么 中间的隐藏层就必须捕捉能够代表输入的最重要因 素,以此给出输入的另一种表示。图1给出了一个 典型自编码器的示意图。 图2栈式自编码器示意图 Fig.2 Stacked auto-encoder diagram 3特征迁移模型 ma(x) 通常,含有多个隐藏层的栈式自编码网络包含 数以百万个模型参数。要训练这样的深度网络,需 图1自编码器示意图 要大量的带标签的训练数据集。然而,现实中这样 Fig.1 Auto-encoder diagram 规模庞大的有标签数据集并不多见,直接从几百个 wb(x)定义了一个复杂且非线性的函数以对每 或者几千个训练图像中学习如此众多的参数是一件 个训练样本x∈R进行拟合,其中W和b是网络 十分困难的事情。现有的解决方式包括手工标注数
堆叠自编码器得到的深度网络与堆叠受限玻尔兹曼 机得到的深度网络具有相近的性能。相较而言,自 编码器深度网络作为深度学习中更为简单的模型, 拥有更易于理解的理论基础与实现过程。 近年来,自编码器及其改善的版本(如降噪自 编码器[9-12] 、收缩自编码器[13-14] )在模式识别领域中 展现出优异的性能。相对于手工设计的低层次特 征,这些深度网络的成功归因于它们学习丰富的中 间层特征表示的能力。然而为了估计上百万的参 数,有监督的微调过程需要大量的带标签的样本。 于是,在深度网络强有力的模型表达能力下,如果 提供的有标签样本数量太少就非常容易造成过拟合 的问题。这样的性质就阻止了堆叠的自编码器在有 限训练数据下的施展应用。 为了解决这个问题,我们提取栈式自编码器在 大数据集上学到的图像特征并迁移到只有有限训练 数据的视觉识别任务中。设计的方法复用 MNIST 数据集上训练的隐藏层,为小型 MNIST 变体数据 集来计算中间层的图像表示。实验结果表明,尽管 源任务与目标任务中的两组数据存在差异,迁移的 表示能够导致更加高效和更加准确的识别结果。 1 自编码器 自编码器属于一种特殊的人工神经网络(artificial neural network, ANN),采用反向传播算法(back propagation, BP)进行优化。作为无监督的特征检测 模型,自编码器能够学习到输入数据的另一种特征 表示。典型的模型由输入层、隐藏层和输出层构 成,并且输入层和输出层具有相同个数的神经元。 自编码器的目标是尽可能地让输入等于输出,那么 中间的隐藏层就必须捕捉能够代表输入的最重要因 素,以此给出输入的另一种表示。图 1 给出了一个 典型自编码器的示意图。 hW,b(x) x ∈ R n 定义了一个复杂且非线性的函数以对每 一个训练样本 进行拟合,其中 W 和 b 是网络 hW,b(x) 的权值(weight)参数和偏置参数(bias),xi 表示 x 的 第 i 特征,n 表示样本的维度,+1 表示输入层和隐藏 层的偏置结点。在输出层, 由神经网络的激 活函数(activation function)给出了网络的输出。 hW,b(x) = f(WT x+ b) = f( ∑n i=1 Wixi +b) 常用的激活函数包括逻辑函数(logistic)以及双 曲正切函数(tanh) [15] : flogistic(WT x+ b) = 1 1+e −(WT x+b) ftanh(WT x+ b) = e WT x+b −e −(WT x+b) e WT x+b +e −(WT x+b) J(W, b) 在神经网络训练过程中,需要最小化网络输入 输出差值。由于自编码器的无监督性,需要将损失 函数(loss function) 由最小化输出值和对应 标签值之间的差异替换为最小化输入值和输出值之 间的差异。改变后的损失函数公式为 J(W, b) = 1 m ∑m i=1 1 2 hW,b ( x (i) ) − x (i) 2 2 + λ 2 ∥W∥ 2 2 2 栈式自编码网络 栈式自编码网络是将多个自编码器堆叠而成的 深度网络,也是深度学习的一个典型模型。当将原 始数据输入到首个训练好的自编码器后,它的隐藏 层就学习到了一阶特征表示。然后这层隐藏层特征 就作为另一个自编码器的输入,用来学习二阶特征 表示。以此类推,原始数据的多阶特征表示便可以 逐一得到。在构建深度网络的时候,各个自编码器 需要去除输出层,只保留各阶学习到的特征表示。 图 2 给出了包含两个隐藏层和一个最终分类器输出 层的栈式自编码网络。 3 特征迁移模型 通常,含有多个隐藏层的栈式自编码网络包含 数以百万个模型参数。要训练这样的深度网络,需 要大量的带标签的训练数据集。然而,现实中这样 规模庞大的有标签数据集并不多见,直接从几百个 或者几千个训练图像中学习如此众多的参数是一件 十分困难的事情。现有的解决方式包括手工标注数 x1 x2 xn xˆ n xˆ 2 xˆ 1 +1 +1 hW,b (x) 图 1 自编码器示意图 Fig. 1 Auto-encoder diagram +1 +1 +1 . . . . . . . . . . . . 图 2 栈式自编码器示意图 Fig. 2 Stacked auto-encoder diagram 第 6 期 杨梦铎,等:基于自编码器的特征迁移算法 ·895·
·896· 智能系统学报 第12卷 据集或者进行数据扩充,不仅需要繁复的工作,而 增加两层随机初始化的隐藏层,以此获得目标任务 且极大地增加了任务的执行时间。那么,需要每次 的栈式自编码网络结构。通过这样的设置,模型既 都为新的识别任务寻找上万个有标签的数据集吗? 保留了MNIST数据集的中级图像特征,又为MNIST 特征迁移模型的关键思想是将栈式自编码网络 variations上进行训练时留有调整的余地。 的内部隐藏层当作一个通用的中间级图像特征提取 特征迁移模型具有能够通过实验证明的理论依 器。在源任务(source task)数据集(如MNIST)上预 据,即尽管不同图像的表现形式不同,但它们共享 训练得到的图像特征能够被复用在其他的目标任务 低中级层次的图像特征6。图像低级特征通常代表 (target task)数据集(如MNIST variations)上。模型 图像中特定的方向和位置上的边缘,通过发现边缘 如图3所示,图中省略了偏置结点。 的特定排列来检测图形:中级特征能够集合这些图 形到更大的组合,一般对应于熟悉的物体部件。而 源任务 新网络模型所增加的两层隐藏层,作为适应层,能 MNIST 够检测到由部件组合而成的完整物体,在手写体数 字的例子中即对应于完整的字符。 特征迁移 网络模型的输出层采用Softmax分类器来解决 目标任务 多分类问题,输出层的神经元个数k代表样本类标 MNIST 签的k个可取值。因此,对于m个训练样本《x,y Variations 有y0∈{1,2,…,k。输出层第i个神经元的输出值表 示输入样本x属于第i类的概率p0y=x),ie{l,2,… 适应层 k。Softmax分类器对应的假设函数为 图3特征迁移模型示意图 p(y=1x:0) Fig.3 Feature transfer model diagram ho(x)= ∑e呀 对于源任务,我们采用含有4层隐藏层的栈式 p(y=kx;0) 自编码网络。图3中第1个神经网络模型中最左 式中:0=[0,02…0J表示最后一层隐藏层与输出层 层L,为网络的输入层(input layer),中间L2、L、L4、 之间连接的权重向量, 1 是保证最后概率值总 Ls是4个隐藏层(hidden layer),最后一层Ls为输出 1e 层(output layer)。记a表示第i层第j个神经元的 和为1的归一化项。Softmax分类器的目标函数采 输出值,当层数是1时有a)=x。在整个栈式自编 用交叉嫡(cross entropy)的形式。 码网络中,将上一层的输出作为下一层的输入。在 e吧r 第1层,W心和b分别表示网络中该层上的权重向量 @=品∑∑6=l i,eir 和偏置向量,z0表示该层的输入。那么,第+1层的 式中:指示函数(indicator function)lbo=的定 输出可由式(1)、(2)获得: 义为 z+)=W0a0+b0 (1) 6=={ 1 y0≠ a=f(z+) (2) 利用式(1)(2),可以依次计算出图3中第1个神经 4 实验比较 网络的L2、L,、L4、Ls的输出值,从而可以以前向传 播(forward propagation)的方式得到整个栈式自编 MNIST数据集由0~9的手写体数字组成, 码网络的输出hwb(x)。 10种数字构成了10类数据。MNIST包含60000张 目标任务旨在为MNIST-variations数据集输出 训练图像和10000张测试图像。图4给出了MNIST 正确的数字标签。由于手工标注数据集费时费力, 数据集的一些示例样本。 因此在一定程度上限制了MNIST-variations的规 MNIST variations包含MNIST的4种变体数 模。为了在小规模数据集上顺利地训练深度网络并 据集,包括:MNIST-rot,即在手写体数字上施加一 获得正确的识别结果,特征迁移模型保留在大规模 些随机旋转;MNIST-back-rand,即在数字图像中插 数据集上训练的网络模型参数,作为中间级特征迁 入随机的背景;MNIST-back-image,一小块黑白图 移到新的识别任务中。在上述含有4层隐藏层的栈 像被用作数字图像的背景;MNIST-rot-back-image, 式自编码网络的基础上,保持前三层隐藏层的网络 即MNIST-rot与MNIST-back-image相结合。图5 参数不变,移除最后一层隐藏层,并在靠近输出层 给出了MNIST-variations数据集的一些示例样本
据集或者进行数据扩充,不仅需要繁复的工作,而 且极大地增加了任务的执行时间。那么,需要每次 都为新的识别任务寻找上万个有标签的数据集吗? 特征迁移模型的关键思想是将栈式自编码网络 的内部隐藏层当作一个通用的中间级图像特征提取 器。在源任务(source task)数据集(如 MNIST)上预 训练得到的图像特征能够被复用在其他的目标任务 (target task)数据集(如 MNIST variations)上。模型 如图 3 所示,图中省略了偏置结点。 a (i) j a (1) = x W(l) b (l) z (l) 对于源任务,我们采用含有 4 层隐藏层的栈式 自编码网络。图 3 中第 1 个神经网络模型中最左 层 L1 为网络的输入层(input layer),中间 L2、L3、L4、 L5 是 4 个隐藏层(hidden layer),最后一层 L6 为输出 层(output layer)。记 表示第 i 层第 j 个神经元的 输出值,当层数是 1 时有 。在整个栈式自编 码网络中,将上一层的输出作为下一层的输入。在 第 l 层, 和 分别表示网络中该层上的权重向量 和偏置向量, 表示该层的输入。那么,第 l+1 层的 输出可由式 (1)、(2) 获得: z (l+1) = W(l) a (l) + b (l) (1) a (l+1) = f ( z (l+1)) (2) hW,b(x) 利用式 (1)~(2),可以依次计算出图 3 中第 1 个神经 网络的 L2、L3、L4、L5 的输出值,从而可以以前向传 播(forward propagation)的方式得到整个栈式自编 码网络的输出 。 目标任务旨在为 MNIST-variations 数据集输出 正确的数字标签。由于手工标注数据集费时费力, 因此在一定程度上限制了 MNIST-variations 的规 模。为了在小规模数据集上顺利地训练深度网络并 获得正确的识别结果,特征迁移模型保留在大规模 数据集上训练的网络模型参数,作为中间级特征迁 移到新的识别任务中。在上述含有 4 层隐藏层的栈 式自编码网络的基础上,保持前三层隐藏层的网络 参数不变,移除最后一层隐藏层,并在靠近输出层 增加两层随机初始化的隐藏层,以此获得目标任务 的栈式自编码网络结构。通过这样的设置,模型既 保留了 MNIST 数据集的中级图像特征,又为 MNISTvariations 上进行训练时留有调整的余地。 特征迁移模型具有能够通过实验证明的理论依 据,即尽管不同图像的表现形式不同,但它们共享 低中级层次的图像特征[16]。图像低级特征通常代表 图像中特定的方向和位置上的边缘,通过发现边缘 的特定排列来检测图形;中级特征能够集合这些图 形到更大的组合,一般对应于熟悉的物体部件。而 新网络模型所增加的两层隐藏层,作为适应层,能 够检测到由部件组合而成的完整物体,在手写体数 字的例子中即对应于完整的字符。 {(x (i) , y (i) )}m i=1 y (i) ∈ {1,2,··· , k} p(y = i|x) i ∈ {1,2,··· , 网络模型的输出层采用 Softmax 分类器来解决 多分类问题,输出层的神经元个数 k 代表样本类标 签的 k 个可取值。因此,对于 m 个训练样本 , 有 。输出层第 i 个神经元的输出值表 示输入样本 x 属于第 i 类的概率 , k}。Softmax 分类器对应的假设函数为 hθ(x) = p(y = 1|x;θ) . . . p(y = k|x;θ) = 1 ∑k i=1 e θ T i x e θ T 1 x . . . e θ T k x θ = [θ1 θ2 ··· θk] T 1 ∑k i=1 e θ T i x 式中: 表示最后一层隐藏层与输出层 之间连接的权重向量, 是保证最后概率值总 和为 1 的归一化项。Softmax 分类器的目标函数采 用交叉熵(cross entropy)的形式。 J(θ) = − 1 m ∑m i=1 ∑k j=1 1 { y (i) = j } log e θ T l x (i) ∑k l=1 e θ T l x (i) { y (i) = j } 式中:指示函数(indicator function)1 的定 义为 1 { y (i) = j } = { 1, y (i) = j 0, y (i) , j 4 实验比较 MNIST 数据集由 0~9 的手写体数字组成, 10 种数字构成了 10 类数据。MNIST 包含 60 000 张 训练图像和 10 000 张测试图像。图 4 给出了 MNIST 数据集的一些示例样本。 MNIST variations 包含 MNIST 的 4 种变体数 据集,包括:MNIST-rot,即在手写体数字上施加一 些随机旋转;MNIST-back-rand,即在数字图像中插 入随机的背景;MNIST-back-image,一小块黑白图 像被用作数字图像的背景;MNIST-rot-back-image, 即 MNIST-rot 与 MNIST-back-image 相结合。图 5 给出了 MNIST-variations 数据集的一些示例样本。 ➥ᒭ䓭⼧ ߍЧ⎼ ߍⰚᴳЧ 䔮Ꮐᅮ MNIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MNIST Variations 图 3 特征迁移模型示意图 Fig. 3 Feature transfer model diagram ·896· 智 能 系 统 学 报 第 12 卷
第6期 杨梦铎,等:基于自编码器的特征迁移算法 ·897· 借助中级图像特征的迁移,在MNIST-varia- tions数据集上同样获得了不错的中级图像特征,如 图7所示。 图4 MNIST示例样本 Fig.4 MNIST samples 图7 MNIST-variations中级特征 Fig.7 MNIST-variations mid-level features 为了验证特征迁移模型的识别效果,输出层全 部采用Softmax分类器进行分类,我们在MNIST. variations数据集上利用栈式自编码网络(stacked auto-encoder,SAE)、受限玻尔兹曼机(restricted Boltzmann machine,RBM)、降噪自编码器(denois- 图5 MNIST-variations示例样本 ing auto-encoder,DAE)、收缩自编码器(contracting Fig.5 MNIST-variations samples auto-encoder,.CAE)分别与特征迁移模型的分类错 特征迁移模型所使用的两个栈式自编码网络的 误率进行实验比较,比较结果如表1所示。 表1分类错误率 网铬结构中神经元结点的分布如下:第1个网络隐 Table 1 Classification error rate % 藏层结点数依次为[784,200,100,50,100,10],第 方法 SAE RBM DAE CAE FTM 2个网络依次为[784,200,100,50,100,200,10]。 MNIST-rot 2.172.042.05 1821.26 在MNIST数据集上训练得到的中级图像特征如 MNIST-back-image 1.781.37 1.181.14 1.04 图6。 MNIST-rot-back-image 2.87 2.712.652.59 2.46 MNIST-back-rand 1.97 1.83 1.791.761.68 5结束语 作为深度学习模型的一种,栈式自编码网络在 模式识别领域已然卓有成效。相对于手工设计的低 级特征而言,深度网络的成功主要归因于它们学习 丰富的中间级特征的能力。然而在现实应用中,带 有标签的大规模数据集通常是稀缺的。在深度神经 网络强大的表征能力下,数据不充足往往会使模型 陷入过拟合的尴尬情形。为了解决在小规模数据样 本下训练深度神经网络的问题,我们提出一个特征 图6 MNIST中级特征 迁移模型。我们展示了如何将学习到的中级图像特 Fig.6 MNIST mid-level features 征有效地迁移到新的视觉识别任务中。实验结果表
特征迁移模型所使用的两个栈式自编码网络的 网络结构中神经元结点的分布如下:第 1 个网络隐 藏层结点数依次为[784, 200, 100, 50, 100, 10],第 2 个网络依次为[784, 200, 100, 50, 100, 200, 10]。 在 MNIST 数据集上训练得到的中级图像特征如 图 6。 借助中级图像特征的迁移,在 MNIST-variations 数据集上同样获得了不错的中级图像特征,如 图 7 所示。 为了验证特征迁移模型的识别效果,输出层全 部采用 Softmax 分类器进行分类,我们在 MNISTvariations 数据集上利用栈式自编码网络(stacked auto-encoder,SAE)、受限玻尔兹曼机(restricted Boltzmann machine, RBM)、降噪自编码器(denoising auto-encoder,DAE)、收缩自编码器(contracting auto-encoder,CAE)分别与特征迁移模型的分类错 误率进行实验比较,比较结果如表 1 所示。 5 结束语 作为深度学习模型的一种,栈式自编码网络在 模式识别领域已然卓有成效。相对于手工设计的低 级特征而言,深度网络的成功主要归因于它们学习 丰富的中间级特征的能力。然而在现实应用中,带 有标签的大规模数据集通常是稀缺的。在深度神经 网络强大的表征能力下,数据不充足往往会使模型 陷入过拟合的尴尬情形。为了解决在小规模数据样 本下训练深度神经网络的问题,我们提出一个特征 迁移模型。我们展示了如何将学习到的中级图像特 征有效地迁移到新的视觉识别任务中。实验结果表 表 1 分类错误率 Table 1 Classification error rate % 方法 SAE RBM DAE CAE FTM MNIST-rot 2.17 2.04 2.05 1.82 1.26 MNIST-back-image 1.78 1.37 1.18 1.14 1.04 MNIST-rot-back-image 2.87 2.71 2.65 2.59 2.46 MNIST-back-rand 1.97 1.83 1.79 1.76 1.68 图 4 MNIST 示例样本 Fig. 4 MNIST samples 图 5 MNIST-variations 示例样本 Fig. 5 MNIST-variations samples 图 6 MNIST 中级特征 Fig. 6 MNIST mid-level features 图 7 MNIST-variations 中级特征 Fig. 7 MNIST-variations mid-level features 第 6 期 杨梦铎,等:基于自编码器的特征迁移算法 ·897·
·898· 智能系统学报 第12卷 明,尽管源任务与目标任务采用的数据集之间存在 chine learning research,2010,11:3371-3408. 差异,但是特征迁移模型仍然能够训练出目标数据 [11]CHEN M,XU Z,WINBERGER K Q,et al.Marginalized 集的图像特征,并且在目标任务的识别过程中能够 denoising autoencoders for domain adaptation[Cl//Interna- 达到优于经典深度学习模型的分类效果。 tional Conference on Machine Learning.Edinburgh,Scot- land,2012:1206-1214. 参考文献: [12]VINCENT P.A connection between score matching and [1]HINTON G E,ZEMEL R S.Autoencoder minimum de- denoising autoencoders[J].Neural computation,2011, scription length and helmholtz free energy[C]//Conference 23(7):1661-1674 on Neural Information Processing Systems(NIPS).Denver, [13]RIFAI S.Contractive auto-encoders:explicit invariance USA.1993:3-10 during feature extraction[Cl//Proceedings of the Twenty- [2]SOCHER R,HUANG E H,PENNINGTON J,et al.Dy- eight International Conference on Machine Learning.Bel- namic pooling and unfolding recursive autoencoders for levue,USA,2011:833-840 paraphrase detection[C]//Proc Neural Information and Pro- [14]RIFAI S,BENGIO Y,DAUPHIN Y,et al.A generative cessing Systems.Granada,Spain,2011:801-809. process for sampling contractive auto-encoders[C]//Proc [3]SWERSKY K,RANZATO M,BUCHMAN D,et al.On Int'l Conf Machine Learning.Edinburgh,Scotland,UK. score matching for energy based models:generalizing au- 2012:1206-1214. toencoders and simplifying deep learning[C]//Proc Int'l [15]LECUN Y.Neural networks:tricks of the trade(2nd ed.) Conf Machine Learning Bellevue.Washington,USA,2011: [M].Germany:Springer,2012:9-48 1201-1208. [16]ZEILER M D.TAYLOR G W.FERGUS R.Adaptive de- [4]FISCHER A,IGEL C.An introduction to restricted convolutional networks for mid and high level feature Boltzmann machines[Cl//Progress in Pattern Recognition. learning[C]//IEEE International Conference on Computer Image Analysis,Computer Vision,and Applications. Vision.Barcelona,Spain,2011:2013-2025. Guadalajara,Mexico,2012:14-36. [5]BREULEUX O,BENGIO Y,VINCENT P.Quickly gener- 作者简介: ating representative samples from an RBM-derived 杨梦铎,女,1989年生,讲师,博 process[J].Neural computation,2011,23(8):2053-2073. 土,主要研究方向为模式识别与机器 6]COURVILLE A,BERGSTRA J,BENGIO Y.Unsuper- 学习。 vised models of images by spike-and-slab RBMs[C]//Proc Int'l Conf Machine Learning.Bellevue,Washington,USA, 2011:1145-1152. [7]SCHMAH T,HINTON G E,ZEMEL R,et al.Generative versus discriminative training of RBMs for classification of 栾咏红,女,1968年生,副教授 fMRI images[C]//Proc Neural Information and Processing 主要研究方向为强化学习。 Systems.Vancouver,Canada.2008:1409-1416. [8]ERHAN D,BENGIO Y,COURVILLE A,et al.Why does unsupervised pre-training help deep learning?[J].Machine learning research,2010,11:625-660. [9]VINCENT P.Extracting and composing robust features 刘文军,男.1981年生,讲师,博 with denoising auto-encoders[C]//International Conference 士,主要研究方向为无线传感网络与 on Machine Learning(ICML).Helsinki,Finland,2008: 算法分析。 1096-1103 [10]VINCENT P,LAROCHELLE H,LAJOIE I,et al.Stacked denoising autoencoders:learning useful representations in a deep network with a local denoising criterion[J].Ma-
明,尽管源任务与目标任务采用的数据集之间存在 差异,但是特征迁移模型仍然能够训练出目标数据 集的图像特征,并且在目标任务的识别过程中能够 达到优于经典深度学习模型的分类效果。 参考文献: HINTON G E, ZEMEL R S. Autoencoder minimum description length and helmholtz free energy[C]//Conference on Neural Information Processing Systems(NIPS). Denver, USA, 1993: 3–10. [1] SOCHER R, HUANG E H, PENNINGTON J, et al. Dynamic pooling and unfolding recursive autoencoders for paraphrase detection[C]//Proc Neural Information and Processing Systems. Granada, Spain, 2011: 801–809. [2] SWERSKY K, RANZATO M, BUCHMAN D, et al. On score matching for energy based models: generalizing autoencoders and simplifying deep learning[C]//Proc Int’l Conf Machine Learning Bellevue. Washington, USA, 2011: 1201–1208. [3] FISCHER A, IGEL C. An introduction to restricted Boltzmann machines[C]//Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications. Guadalajara, Mexico, 2012: 14–36. [4] BREULEUX O, BENGIO Y, VINCENT P. Quickly generating representative samples from an RBM-derived process[J]. Neural computation, 2011, 23(8): 2053–2073. [5] COURVILLE A, BERGSTRA J, BENGIO Y. Unsupervised models of images by spike-and-slab RBMs[C]//Proc Int’l Conf Machine Learning. Bellevue, Washington, USA, 2011: 1145–1152. [6] SCHMAH T, HINTON G E, ZEMEL R, et al. Generative versus discriminative training of RBMs for classification of fMRI images[C]//Proc Neural Information and Processing Systems. Vancouver, Canada, 2008: 1409–1416. [7] ERHAN D, BENGIO Y, COURVILLE A, et al. Why does unsupervised pre-training help deep learning?[J]. Machine learning research, 2010, 11: 625–660. [8] VINCENT P. Extracting and composing robust features with denoising auto-encoders[C]//International Conference on Machine Learning(ICML). Helsinki, Finland, 2008: 1096–1103. [9] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J]. Ma- [10] chine learning research, 2010, 11: 3371–3408. CHEN M, XU Z, WINBERGER K Q, et al. Marginalized denoising autoencoders for domain adaptation[C]//International Conference on Machine Learning. Edinburgh, Scotland, 2012: 1206–1214. [11] VINCENT P. A connection between score matching and denoising autoencoders[J]. Neural computation, 2011, 23(7): 1661–1674. [12] RIFAI S. Contractive auto-encoders: explicit invariance during feature extraction[C]//Proceedings of the Twentyeight International Conference on Machine Learning. Bellevue, USA, 2011: 833–840 [13] RIFAI S, BENGIO Y, DAUPHIN Y, et al. A generative process for sampling contractive auto-encoders[C]//Proc Int’l Conf Machine Learning. Edinburgh, Scotland, UK, 2012: 1206–1214. [14] LECUN Y. Neural networks: tricks of the trade (2nd ed.) [M]. Germany: Springer, 2012: 9–48 [15] ZEILER M D, TAYLOR G W, FERGUS R. Adaptive deconvolutional networks for mid and high level feature learning[C]//IEEE International Conference on Computer Vision. Barcelona, Spain, 2011: 2013–2025. [16] 作者简介: 杨梦铎,女,1989 年生,讲师,博 士,主要研究方向为模式识别与机器 学习。 栾咏红,女,1968 年生,副教授, 主要研究方向为强化学习。 刘文军,男,1981 年生,讲师,博 士,主要研究方向为无线传感网络与 算法分析。 ·898· 智 能 系 统 学 报 第 12 卷