·896· 智能系统学报 第12卷 据集或者进行数据扩充,不仅需要繁复的工作,而 增加两层随机初始化的隐藏层,以此获得目标任务 且极大地增加了任务的执行时间。那么,需要每次 的栈式自编码网络结构。通过这样的设置,模型既 都为新的识别任务寻找上万个有标签的数据集吗? 保留了MNIST数据集的中级图像特征,又为MNIST 特征迁移模型的关键思想是将栈式自编码网络 variations上进行训练时留有调整的余地。 的内部隐藏层当作一个通用的中间级图像特征提取 特征迁移模型具有能够通过实验证明的理论依 器。在源任务(source task)数据集(如MNIST)上预 据,即尽管不同图像的表现形式不同,但它们共享 训练得到的图像特征能够被复用在其他的目标任务 低中级层次的图像特征6。图像低级特征通常代表 (target task)数据集(如MNIST variations)上。模型 图像中特定的方向和位置上的边缘,通过发现边缘 如图3所示,图中省略了偏置结点。 的特定排列来检测图形:中级特征能够集合这些图 形到更大的组合,一般对应于熟悉的物体部件。而 源任务 新网络模型所增加的两层隐藏层,作为适应层,能 MNIST 够检测到由部件组合而成的完整物体,在手写体数 字的例子中即对应于完整的字符。 特征迁移 网络模型的输出层采用Softmax分类器来解决 目标任务 多分类问题,输出层的神经元个数k代表样本类标 MNIST 签的k个可取值。因此,对于m个训练样本《x,y Variations 有y0∈{1,2,…,k。输出层第i个神经元的输出值表 示输入样本x属于第i类的概率p0y=x),ie{l,2,… 适应层 k。Softmax分类器对应的假设函数为 图3特征迁移模型示意图 p(y=1x:0) Fig.3 Feature transfer model diagram ho(x)= ∑e呀 对于源任务,我们采用含有4层隐藏层的栈式 p(y=kx;0) 自编码网络。图3中第1个神经网络模型中最左 式中:0=[0,02…0J表示最后一层隐藏层与输出层 层L,为网络的输入层(input layer),中间L2、L、L4、 之间连接的权重向量, 1 是保证最后概率值总 Ls是4个隐藏层(hidden layer),最后一层Ls为输出 1e 层(output layer)。记a表示第i层第j个神经元的 和为1的归一化项。Softmax分类器的目标函数采 输出值,当层数是1时有a)=x。在整个栈式自编 用交叉嫡(cross entropy)的形式。 码网络中,将上一层的输出作为下一层的输入。在 e吧r 第1层,W心和b分别表示网络中该层上的权重向量 @=品∑∑6=l i,eir 和偏置向量,z0表示该层的输入。那么,第+1层的 式中:指示函数(indicator function)lbo=的定 输出可由式(1)、(2)获得: 义为 z+)=W0a0+b0 (1) 6=={ 1 y0≠ a=f(z+) (2) 利用式(1)(2),可以依次计算出图3中第1个神经 4 实验比较 网络的L2、L,、L4、Ls的输出值,从而可以以前向传 播(forward propagation)的方式得到整个栈式自编 MNIST数据集由0~9的手写体数字组成, 码网络的输出hwb(x)。 10种数字构成了10类数据。MNIST包含60000张 目标任务旨在为MNIST-variations数据集输出 训练图像和10000张测试图像。图4给出了MNIST 正确的数字标签。由于手工标注数据集费时费力, 数据集的一些示例样本。 因此在一定程度上限制了MNIST-variations的规 MNIST variations包含MNIST的4种变体数 模。为了在小规模数据集上顺利地训练深度网络并 据集,包括:MNIST-rot,即在手写体数字上施加一 获得正确的识别结果,特征迁移模型保留在大规模 些随机旋转;MNIST-back-rand,即在数字图像中插 数据集上训练的网络模型参数,作为中间级特征迁 入随机的背景;MNIST-back-image,一小块黑白图 移到新的识别任务中。在上述含有4层隐藏层的栈 像被用作数字图像的背景;MNIST-rot-back-image, 式自编码网络的基础上,保持前三层隐藏层的网络 即MNIST-rot与MNIST-back-image相结合。图5 参数不变,移除最后一层隐藏层,并在靠近输出层 给出了MNIST-variations数据集的一些示例样本。据集或者进行数据扩充,不仅需要繁复的工作,而 且极大地增加了任务的执行时间。那么,需要每次 都为新的识别任务寻找上万个有标签的数据集吗? 特征迁移模型的关键思想是将栈式自编码网络 的内部隐藏层当作一个通用的中间级图像特征提取 器。在源任务(source task)数据集(如 MNIST)上预 训练得到的图像特征能够被复用在其他的目标任务 (target task)数据集(如 MNIST variations)上。模型 如图 3 所示,图中省略了偏置结点。 a (i) j a (1) = x W(l) b (l) z (l) 对于源任务,我们采用含有 4 层隐藏层的栈式 自编码网络。图 3 中第 1 个神经网络模型中最左 层 L1 为网络的输入层(input layer),中间 L2、L3、L4、 L5 是 4 个隐藏层(hidden layer),最后一层 L6 为输出 层(output layer)。记 表示第 i 层第 j 个神经元的 输出值,当层数是 1 时有 。在整个栈式自编 码网络中,将上一层的输出作为下一层的输入。在 第 l 层, 和 分别表示网络中该层上的权重向量 和偏置向量, 表示该层的输入。那么,第 l+1 层的 输出可由式 (1)、(2) 获得: z (l+1) = W(l) a (l) + b (l) (1) a (l+1) = f ( z (l+1)) (2) hW,b(x) 利用式 (1)~(2),可以依次计算出图 3 中第 1 个神经 网络的 L2、L3、L4、L5 的输出值,从而可以以前向传 播(forward propagation)的方式得到整个栈式自编 码网络的输出 。 目标任务旨在为 MNIST-variations 数据集输出 正确的数字标签。由于手工标注数据集费时费力, 因此在一定程度上限制了 MNIST-variations 的规 模。为了在小规模数据集上顺利地训练深度网络并 获得正确的识别结果,特征迁移模型保留在大规模 数据集上训练的网络模型参数,作为中间级特征迁 移到新的识别任务中。在上述含有 4 层隐藏层的栈 式自编码网络的基础上,保持前三层隐藏层的网络 参数不变,移除最后一层隐藏层,并在靠近输出层 增加两层随机初始化的隐藏层,以此获得目标任务 的栈式自编码网络结构。通过这样的设置,模型既 保留了 MNIST 数据集的中级图像特征,又为 MNISTvariations 上进行训练时留有调整的余地。 特征迁移模型具有能够通过实验证明的理论依 据,即尽管不同图像的表现形式不同,但它们共享 低中级层次的图像特征[16]。图像低级特征通常代表 图像中特定的方向和位置上的边缘,通过发现边缘 的特定排列来检测图形;中级特征能够集合这些图 形到更大的组合,一般对应于熟悉的物体部件。而 新网络模型所增加的两层隐藏层,作为适应层,能 够检测到由部件组合而成的完整物体,在手写体数 字的例子中即对应于完整的字符。 {(x (i) , y (i) )}m i=1 y (i) ∈ {1,2,··· , k} p(y = i|x) i ∈ {1,2,··· , 网络模型的输出层采用 Softmax 分类器来解决 多分类问题,输出层的神经元个数 k 代表样本类标 签的 k 个可取值。因此,对于 m 个训练样本 , 有 。输出层第 i 个神经元的输出值表 示输入样本 x 属于第 i 类的概率 , k}。Softmax 分类器对应的假设函数为 hθ(x) = p(y = 1|x;θ) . . . p(y = k|x;θ) = 1 ∑k i=1 e θ T i x e θ T 1 x . . . e θ T k x θ = [θ1 θ2 ··· θk] T 1 ∑k i=1 e θ T i x 式中: 表示最后一层隐藏层与输出层 之间连接的权重向量, 是保证最后概率值总 和为 1 的归一化项。Softmax 分类器的目标函数采 用交叉熵(cross entropy)的形式。 J(θ) = − 1 m ∑m i=1 ∑k j=1 1 { y (i) = j } log e θ T l x (i) ∑k l=1 e θ T l x (i) { y (i) = j } 式中:指示函数(indicator function)1 的定 义为 1 { y (i) = j } = { 1, y (i) = j 0, y (i) , j 4 实验比较 MNIST 数据集由 0~9 的手写体数字组成, 10 种数字构成了 10 类数据。MNIST 包含 60 000 张 训练图像和 10 000 张测试图像。图 4 给出了 MNIST 数据集的一些示例样本。 MNIST variations 包含 MNIST 的 4 种变体数 据集,包括:MNIST-rot,即在手写体数字上施加一 些随机旋转;MNIST-back-rand,即在数字图像中插 入随机的背景;MNIST-back-image,一小块黑白图 像被用作数字图像的背景;MNIST-rot-back-image, 即 MNIST-rot 与 MNIST-back-image 相结合。图 5 给出了 MNIST-variations 数据集的一些示例样本。 ➥ᒭ䓭⼧ ߍЧ⎼ ߍⰚᴳЧ 䔮Ꮐᅮ MNIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . MNIST Variations 图 3 特征迁移模型示意图 Fig. 3 Feature transfer model diagram ·896· 智 能 系 统 学 报 第 12 卷