据集或者进行数据扩充，不仅需要繁复的工作，而且极大地增加了任务的执行时间

正在加载图片...

·896· 智能系统学报第12卷据集或者进行数据扩充，不仅需要繁复的工作，而增加两层随机初始化的隐藏层，以此获得目标任务且极大地增加了任务的执行时间。那么，需要每次的栈式自编码网络结构。通过这样的设置，模型既都为新的识别任务寻找上万个有标签的数据集吗？保留了MNIST数据集的中级图像特征，又为MNIST 特征迁移模型的关键思想是将栈式自编码网络 variations上进行训练时留有调整的余地。的内部隐藏层当作一个通用的中间级图像特征提取特征迁移模型具有能够通过实验证明的理论依器。在源任务(source task)数据集（如MNIST)上预据，即尽管不同图像的表现形式不同，但它们共享训练得到的图像特征能够被复用在其他的目标任务低中级层次的图像特征6。图像低级特征通常代表 (target task)数据集（如MNIST variations)上。模型图像中特定的方向和位置上的边缘，通过发现边缘如图3所示，图中省略了偏置结点。的特定排列来检测图形：中级特征能够集合这些图形到更大的组合，一般对应于熟悉的物体部件。而源任务新网络模型所增加的两层隐藏层，作为适应层，能 MNIST 够检测到由部件组合而成的完整物体，在手写体数字的例子中即对应于完整的字符。特征迁移网络模型的输出层采用Softmax分类器来解决目标任务多分类问题，输出层的神经元个数k代表样本类标 MNIST 签的k个可取值。因此，对于m个训练样本《x,y Variations 有y0∈{1,2，…，k。输出层第i个神经元的输出值表示输入样本x属于第i类的概率p0y=x),ie{l,2,… 适应层 k。Softmax分类器对应的假设函数为图3特征迁移模型示意图 p(y=1x:0) Fig.3 Feature transfer model diagram ho(x)= ∑e呀对于源任务，我们采用含有4层隐藏层的栈式 p(y=kx;0) 自编码网络。图3中第1个神经网络模型中最左式中：0=[0,02…0J表示最后一层隐藏层与输出层层L,为网络的输入层(input layer),中间L2、L、L4、之间连接的权重向量， 1 是保证最后概率值总 Ls是4个隐藏层(hidden layer),最后一层Ls为输出 1e 层(output layer)。记a表示第i层第j个神经元的和为1的归一化项。Softmax分类器的目标函数采输出值，当层数是1时有a)=x。在整个栈式自编用交叉嫡(cross entropy)的形式。码网络中，将上一层的输出作为下一层的输入。在 e吧r 第1层，W心和b分别表示网络中该层上的权重向量 @=品∑∑6=l i,eir 和偏置向量，z0表示该层的输入。那么，第+1层的式中：指示函数(indicator function)lbo=的定输出可由式(1)、(2)获得：义为 z+)=W0a0+b0 (1) 6=={ 1 y0≠ a=f(z+） (2) 利用式(1)(2)，可以依次计算出图3中第1个神经 4 实验比较网络的L2、L,、L4、Ls的输出值，从而可以以前向传播(forward propagation)的方式得到整个栈式自编 MNIST数据集由0~9的手写体数字组成，码网络的输出hwb(x)。 10种数字构成了10类数据。MNIST包含60000张目标任务旨在为MNIST-variations数据集输出训练图像和10000张测试图像。图4给出了MNIST 正确的数字标签。由于手工标注数据集费时费力，数据集的一些示例样本。因此在一定程度上限制了MNIST-variations的规 MNIST variations包含MNIST的4种变体数模。为了在小规模数据集上顺利地训练深度网络并据集，包括：MNIST-rot,即在手写体数字上施加一获得正确的识别结果，特征迁移模型保留在大规模些随机旋转；MNIST-back-rand,即在数字图像中插数据集上训练的网络模型参数，作为中间级特征迁入随机的背景；MNIST-back-image,一小块黑白图移到新的识别任务中。在上述含有4层隐藏层的栈像被用作数字图像的背景；MNIST-rot-back-image, 式自编码网络的基础上，保持前三层隐藏层的网络即MNIST-rot与MNIST-back-image相结合。图5 参数不变，移除最后一层隐藏层，并在靠近输出层给出了MNIST-variations数据集的一些示例样本。据集或者进行数据扩充，不仅需要繁复的工作，而且极大地增加了任务的执行时间。那么，需要每次都为新的识别任务寻找上万个有标签的数据集吗？特征迁移模型的关键思想是将栈式自编码网络的内部隐藏层当作一个通用的中间级图像特征提取器。在源任务（source task）数据集（如 MNIST）上预训练得到的图像特征能够被复用在其他的目标任务（target task）数据集（如 MNIST variations）上。模型如图 3 所示，图中省略了偏置结点。 a (i) j a (1) = x W(l) b (l) z (l) 对于源任务，我们采用含有 4 层隐藏层的栈式自编码网络。图 3 中第 1 个神经网络模型中最左层 L1 为网络的输入层（input layer），中间 L2、L3、L4、 L5 是 4 个隐藏层（hidden layer），最后一层 L6 为输出层（output layer）。记表示第 i 层第 j 个神经元的输出值，当层数是 1 时有。在整个栈式自编码网络中，将上一层的输出作为下一层的输入。在第 l 层，和分别表示网络中该层上的权重向量和偏置向量，表示该层的输入。那么，第 l+1 层的输出可由式 (1)、(2) 获得： z (l+1) = W(l) a (l) + b (l) (1) a (l+1) = f ( z (l+1)) (2) hW,b(x) 利用式 (1)~(2)，可以依次计算出图 3 中第 1 个神经网络的 L2、L3、L4、L5 的输出值，从而可以以前向传播（forward propagation）的方式得到整个栈式自编码网络的输出。目标任务旨在为 MNIST-variations 数据集输出正确的数字标签。由于手工标注数据集费时费力，因此在一定程度上限制了 MNIST-variations 的规模。为了在小规模数据集上顺利地训练深度网络并获得正确的识别结果，特征迁移模型保留在大规模数据集上训练的网络模型参数，作为中间级特征迁移到新的识别任务中。在上述含有 4 层隐藏层的栈式自编码网络的基础上，保持前三层隐藏层的网络参数不变，移除最后一层隐藏层，并在靠近输出层增加两层随机初始化的隐藏层，以此获得目标任务的栈式自编码网络结构。通过这样的设置，模型既保留了 MNIST 数据集的中级图像特征，又为 MNISTvariations 上进行训练时留有调整的余地。特征迁移模型具有能够通过实验证明的理论依据，即尽管不同图像的表现形式不同，但它们共享低中级层次的图像特征[16]。图像低级特征通常代表图像中特定的方向和位置上的边缘，通过发现边缘的特定排列来检测图形；中级特征能够集合这些图形到更大的组合，一般对应于熟悉的物体部件。而新网络模型所增加的两层隐藏层，作为适应层，能够检测到由部件组合而成的完整物体，在手写体数字的例子中即对应于完整的字符。 {(x (i) , y (i) )}m i=1 y (i) ∈ {1,2,··· , k} p(y = i|x) i ∈ {1,2,··· , 网络模型的输出层采用 Softmax 分类器来解决多分类问题，输出层的神经元个数 k 代表样本类标签的 k 个可取值。因此，对于 m 个训练样本，有。输出层第 i 个神经元的输出值表示输入样本 x 属于第 i 类的概率， k}。Softmax 分类器对应的假设函数为 hθ(x) =   p(y = 1|x;θ) . . . p(y = k|x;θ)   = 1 ∑k i=1 e θ T i x   e θ T 1 x . . . e θ T k x   θ = [θ1 θ2 ··· θk] T 1 ∑k i=1 e θ T i x 式中：表示最后一层隐藏层与输出层之间连接的权重向量，是保证最后概率值总和为 1 的归一化项。Softmax 分类器的目标函数采用交叉熵（cross entropy）的形式。 J(θ) = − 1 m ∑m i=1 ∑k j=1 1 { y (i) = j } log e θ T l x (i) ∑k l=1 e θ T l x (i) { y (i) = j } 式中：指示函数（indicator function）1 的定义为 1 { y (i) = j } = { 1, y (i) = j 0, y (i) , j 4 实验比较 MNIST 数据集由 0～9 的手写体数字组成， 10 种数字构成了 10 类数据。MNIST 包含 60 000 张训练图像和 10 000 张测试图像。图 4 给出了 MNIST 数据集的一些示例样本。 MNIST variations 包含 MNIST 的 4 种变体数据集，包括：MNIST-rot，即在手写体数字上施加一些随机旋转；MNIST-back-rand，即在数字图像中插入随机的背景；MNIST-back-image，一小块黑白图像被用作数字图像的背景；MNIST-rot-back-image，即 MNIST-rot 与 MNIST-back-image 相结合。图 5 给出了 MNIST-variations 数据集的一些示例样本。 ➥ᒭ䓭⼧ ߍЧ⎼ ߍⰚᴳЧ 䔮Ꮐᅮ MNIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MNIST Variations 图 3 特征迁移模型示意图 Fig. 3 Feature transfer model diagram ·896· 智能系统学报第 12 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】基于自编码器的特征迁移算法