堆叠自编码器得到的深度网络与堆叠受限玻尔兹曼机得到的深度网络具有相近的性

正在加载图片...

第6期杨梦铎，等：基于自编码器的特征迁移算法 ·895· 堆叠自编码器得到的深度网络与堆叠受限玻尔兹曼的权值(weight)参数和偏置参数(bias),x,表示x的机得到的深度网络具有相近的性能。相较而言，自第i特征，n表示样本的维度，+1表示输入层和隐藏编码器深度网络作为深度学习中更为简单的模型，层的偏置结点。在输出层，hwbx)由神经网络的激拥有更易于理解的理论基础与实现过程。活函数(activation function)给出了网络的输出。近年来，自编码器及其改善的版本（如降噪自 hd=f0wx+b)=f0∑Wx+b) 编码器9.21、收缩自编码器31)在模式识别领域中常用的激活函数包括逻辑函数(logistic)以及双展现出优异的性能。相对于手工设计的低层次特曲正切函数(tanh): 征，这些深度网络的成功归因于它们学习丰富的中 fiogistie(Wx+b)= 间层特征表示的能力。然而为了估计上百万的参 1+e-(WTx+b) 数，有监督的微调过程需要大量的带标签的样本。 eWTx+b-e-(WTx-b) fumh(Wx+b)= eWTx+b+e-(wTr+b 于是，在深度网络强有力的模型表达能力下，如果在神经网络训练过程中，需要最小化网络输入提供的有标签样本数量太少就非常容易造成过拟合输出差值。由于自编码器的无监督性，需要将损失的问题。这样的性质就阻止了堆叠的自编码器在有函数(loss function)J(W,b)由最小化输出值和对应限训练数据下的施展应用。标签值之间的差异替换为最小化输入值和输出值之为了解决这个问题，我们提取栈式自编码器在间的差异。改变后的损失函数公式为大数据集上学到的图像特征并迁移到只有有限训练数据的视觉识别任务中。设计的方法复用MNIST Jwb=品∑h(-+wm 数据集上训练的隐藏层，为小型MNIST变体数据 2栈式自编码网络集来计算中间层的图像表示。实验结果表明，尽管源任务与目标任务中的两组数据存在差异，迁移的栈式自编码网络是将多个自编码器堆叠而成的表示能够导致更加高效和更加准确的识别结果。深度网络，也是深度学习的一个典型模型。当将原始数据输入到首个训练好的自编码器后，它的隐藏 1自编码器层就学习到了一阶特征表示。然后这层隐藏层特征就作为另一个自编码器的输入，用来学习二阶特征自编码器属于一种特殊的人工神经网络(artifi- cial neural network,ANN),采用反向传播算法(back 表示。以此类推，原始数据的多阶特征表示便可以逐一得到。在构建深度网络的时候，各个自编码器 propagation,BP)进行优化。作为无监督的特征检测需要去除输出层，只保留各阶学习到的特征表示。模型，自编码器能够学习到输入数据的另一种特征图2给出了包含两个隐藏层和一个最终分类器输出表示。典型的模型由输入层、隐藏层和输出层构层的栈式自编码网络。成，并且输入层和输出层具有相同个数的神经元。自编码器的目标是尽可能地让输入等于输出，那么中间的隐藏层就必须捕捉能够代表输入的最重要因素，以此给出输入的另一种表示。图1给出了一个典型自编码器的示意图。图2栈式自编码器示意图 Fig.2 Stacked auto-encoder diagram 3特征迁移模型 ma(x) 通常，含有多个隐藏层的栈式自编码网络包含数以百万个模型参数。要训练这样的深度网络，需图1自编码器示意图要大量的带标签的训练数据集。然而，现实中这样 Fig.1 Auto-encoder diagram 规模庞大的有标签数据集并不多见，直接从几百个 wb(x)定义了一个复杂且非线性的函数以对每或者几千个训练图像中学习如此众多的参数是一件个训练样本x∈R进行拟合，其中W和b是网络十分困难的事情。现有的解决方式包括手工标注数堆叠自编码器得到的深度网络与堆叠受限玻尔兹曼机得到的深度网络具有相近的性能。相较而言，自编码器深度网络作为深度学习中更为简单的模型，拥有更易于理解的理论基础与实现过程。近年来，自编码器及其改善的版本（如降噪自编码器[9-12] 、收缩自编码器[13-14] ）在模式识别领域中展现出优异的性能。相对于手工设计的低层次特征，这些深度网络的成功归因于它们学习丰富的中间层特征表示的能力。然而为了估计上百万的参数，有监督的微调过程需要大量的带标签的样本。于是，在深度网络强有力的模型表达能力下，如果提供的有标签样本数量太少就非常容易造成过拟合的问题。这样的性质就阻止了堆叠的自编码器在有限训练数据下的施展应用。为了解决这个问题，我们提取栈式自编码器在大数据集上学到的图像特征并迁移到只有有限训练数据的视觉识别任务中。设计的方法复用 MNIST 数据集上训练的隐藏层，为小型 MNIST 变体数据集来计算中间层的图像表示。实验结果表明，尽管源任务与目标任务中的两组数据存在差异，迁移的表示能够导致更加高效和更加准确的识别结果。 1 自编码器自编码器属于一种特殊的人工神经网络（artificial neural network, ANN），采用反向传播算法（back propagation, BP）进行优化。作为无监督的特征检测模型，自编码器能够学习到输入数据的另一种特征表示。典型的模型由输入层、隐藏层和输出层构成，并且输入层和输出层具有相同个数的神经元。自编码器的目标是尽可能地让输入等于输出，那么中间的隐藏层就必须捕捉能够代表输入的最重要因素，以此给出输入的另一种表示。图 1 给出了一个典型自编码器的示意图。 hW,b(x) x ∈ R n 定义了一个复杂且非线性的函数以对每一个训练样本进行拟合，其中 W 和 b 是网络 hW,b(x) 的权值（weight）参数和偏置参数（bias），xi 表示 x 的第 i 特征，n 表示样本的维度，+1 表示输入层和隐藏层的偏置结点。在输出层，由神经网络的激活函数（activation function）给出了网络的输出。 hW,b(x) = f(WT x+ b) = f( ∑n i=1 Wixi +b) 常用的激活函数包括逻辑函数（logistic）以及双曲正切函数（tanh） [15] ： flogistic(WT x+ b) = 1 1+e −(WT x+b) ftanh(WT x+ b) = e WT x+b −e −(WT x+b) e WT x+b +e −(WT x+b) J(W, b) 在神经网络训练过程中，需要最小化网络输入输出差值。由于自编码器的无监督性，需要将损失函数（loss function）由最小化输出值和对应标签值之间的差异替换为最小化输入值和输出值之间的差异。改变后的损失函数公式为 J(W, b) = 1 m ∑m i=1 1 2 hW,b ( x (i) ) − x (i) 2 2 + λ 2 ∥W∥ 2 2 2 栈式自编码网络栈式自编码网络是将多个自编码器堆叠而成的深度网络，也是深度学习的一个典型模型。当将原始数据输入到首个训练好的自编码器后，它的隐藏层就学习到了一阶特征表示。然后这层隐藏层特征就作为另一个自编码器的输入，用来学习二阶特征表示。以此类推，原始数据的多阶特征表示便可以逐一得到。在构建深度网络的时候，各个自编码器需要去除输出层，只保留各阶学习到的特征表示。图 2 给出了包含两个隐藏层和一个最终分类器输出层的栈式自编码网络。 3 特征迁移模型通常，含有多个隐藏层的栈式自编码网络包含数以百万个模型参数。要训练这样的深度网络，需要大量的带标签的训练数据集。然而，现实中这样规模庞大的有标签数据集并不多见，直接从几百个或者几千个训练图像中学习如此众多的参数是一件十分困难的事情。现有的解决方式包括手工标注数 x1 x2 xn xˆ n xˆ 2 xˆ 1 +1 +1 hW,b (x) 图 1 自编码器示意图 Fig. 1 Auto-encoder diagram +1 +1 +1 . . . . . . . . . . . . 图 2 栈式自编码器示意图 Fig. 2 Stacked auto-encoder diagram 第 6 期杨梦铎，等：基于自编码器的特征迁移算法 ·895·

<<向上翻页向下翻页>>

点击下载：【机器学习】基于自编码器的特征迁移算法