第11卷第1期 智能系统学报 Vol.11 No.1 2016年2月 CAAI Transactions on Intelligent Systems Feb.2016 D0I:10.11992/is.201509018 网络出版地址:htp:/www.cmki.net/kcms/detail/23.1538.TP.20160105.1532.004.html 一种卷积神经网络的图像矩正则化策略 般瑞12,苏松志12,李绍滋12 (1.厦门大学信息科学与技术学院,福建厦门361005:2.厦门大学福建省仿脑智能系统重点实验室,福建厦门361005) 摘要:卷积神经网络的池化策略包含极大池化和平均池化,极大池化选择池化区域中的最大值,极易出现过抑合 现象:平均池化对池化区域中所有元素赋予相同权重,降低了高频分量的权重。本文提出将矩池化作为卷积神经网 络的正则化策略,矩池化将几何矩概念引入到卷积神经网络的池化过程中,首先计算池化区域的中心矩,然后根据 类插值法依概率随机地从中心矩的4个邻域中选择响应值。在数据集MNIST,CFAR10、CIFAR1O0上的实验结果表 明随着训练迭代次数的增加,矩池化的训练误差和测试误差最低,矩池化的高差别性和强鲁棒性使其获得了比极大 池化和平均池化更好的泛化能力。 关键词:中心矩:随机选择:池化:卷积神经网络:过抑合 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2016)01-0043-06 中文引用格式:殷瑞,苏松志,李绍滋.一种卷积神经网络的图像矩正则化策略[J].智能系统学报,2016,11(1):43-48. 英文引用格式:YIN Rui,SU Songzhi,LI Shaozi..Convolutional neural network's image moment regularizing strategy[J].CAAl Transactions on Intelligent Systems,2016,11(1):43-48. Convolutional neural network's image moment regularizing strategy YIN Rui2,SU Songzhi2,LI Shaozi (1.School of Information Science and Technology,Xiamen University,Xiamen 361005,China;2.Fujian Key Laboratory of the Brain- Like Intelligent System,Xiamen University,Xiamen 361005,China) Abstract:There are two kinds of pooling strategies for convolutional neural network(CNN)as follows:max pooling and average pooling.Max pooling simply chooses the maximum element,which makes this strategy extremely prone to overfitting.Average pooling endows all elements with the same weight,which lowers the weight of the high-fre- quency components.In this study,we propose moment pooling as a regularization strategy for CNN.First,we intro- duce the geometric moment to CNN pooling and calculate the central moment of the pooling region.Then,we ran- domly select the response values based on the probability-like interpolation method from the four neighbors of the moment as per their probability.Experiments on the MNIST,CIFAR10,and CIFAR100 datasets show that moment pooling obtains the fewest training and test errors with training iteration increments.This strategy's robustness and strong discrimination capability yield better generalization results than those from the max and average pooling meth- ods. Keywords:central moment;random selection;pooling;convolutional neural network;overfitting 卷积神经网络模型训练过程中存在一个共同的 数,根据图像变换扩增训练数据等。虽然上述方法 问题,即当模型复杂度比较高时,由于训练数据相对 可以在一定程度上抑制过拟合,训练出比未正则化 不足而产生过抑合现象,导致模型泛化能力比较差。 模型泛化性更强的模型,但是由于以上方法是基于 一系列正则化技术被用来解决该问题,如L,正则 参数的方法,在解决过抑合问题的同时却增加了模 化,L2正则化,即对损失函数增加L,范数或L2范 型训练复杂度,在一定程度上弱化了其效果。 Hinton等2)提出的dropout是另外一种正则化 收稿日期:2015-09-16.网络出版日期:2016-01-05. 方法,它在训练过程中以0.5的概率随机将网络中 基金项目:国家自然科学基金资助项目(61202143,61572409):福建省 自然科学基金资助项目(2013J05100). 神经元的响应值置为0。该方法在计算机视觉的多 通信作者:李绍滋.E-mail:szig@xmu.cdu.cn. 个问题中都取得了不错的成绩,然而目前仍不能完
第 11 卷第 1 期 智 能 系 统 学 报 Vol.11 №.1 2016 年 2 月 CAAI Transactions on Intelligent Systems Feb. 2016 DOI:10.11992 / tis.201509018 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160105.1532.004.html 一种卷积神经网络的图像矩正则化策略 殷瑞1,2 ,苏松志1,2 ,李绍滋1,2 (1.厦门大学 信息科学与技术学院,福建 厦门 361005; 2. 厦门大学 福建省仿脑智能系统重点实验室,福建 厦门 361005) 摘 要:卷积神经网络的池化策略包含极大池化和平均池化,极大池化选择池化区域中的最大值,极易出现过抑合 现象;平均池化对池化区域中所有元素赋予相同权重,降低了高频分量的权重。 本文提出将矩池化作为卷积神经网 络的正则化策略,矩池化将几何矩概念引入到卷积神经网络的池化过程中,首先计算池化区域的中心矩,然后根据 类插值法依概率随机地从中心矩的 4 个邻域中选择响应值。 在数据集 MNIST、CIFAR10、CIFAR100 上的实验结果表 明随着训练迭代次数的增加,矩池化的训练误差和测试误差最低,矩池化的高差别性和强鲁棒性使其获得了比极大 池化和平均池化更好的泛化能力。 关键词:中心矩;随机选择;池化;卷积神经网络;过抑合 中图分类号:TP391.4 文献标志码:A 文章编号:1673⁃4785(2016)01⁃0043⁃06 中文引用格式:殷瑞,苏松志,李绍滋.一种卷积神经网络的图像矩正则化策略[J]. 智能系统学报, 2016, 11(1): 43⁃48. 英文引用格式:YIN Rui, SU Songzhi, LI Shaozi. Convolutional neural network’ s image moment regularizing strategy[ J]. CAAI Transactions on Intelligent Systems, 2016, 11(1): 43⁃48. Convolutional neural network’ s image moment regularizing strategy YIN Rui 1,2 , SU Songzhi 1,2 , LI Shaozi 1,2 (1. School of Information Science and Technology, Xiamen University, Xiamen 361005, China; 2. Fujian Key Laboratory of the Brain⁃ Like Intelligent System, Xiamen University, Xiamen 361005, China) Abstract:There are two kinds of pooling strategies for convolutional neural network (CNN) as follows: max pooling and average pooling. Max pooling simply chooses the maximum element, which makes this strategy extremely prone to overfitting. Average pooling endows all elements with the same weight, which lowers the weight of the high⁃fre⁃ quency components. In this study, we propose moment pooling as a regularization strategy for CNN. First, we intro⁃ duce the geometric moment to CNN pooling and calculate the central moment of the pooling region. Then, we ran⁃ domly select the response values based on the probability⁃like interpolation method from the four neighbors of the moment as per their probability. Experiments on the MNIST, CIFAR10, and CIFAR100 datasets show that moment pooling obtains the fewest training and test errors with training iteration increments. This strategy’s robustness and strong discrimination capability yield better generalization results than those from the max and average pooling meth⁃ ods. Keywords:central moment; random selection; pooling; convolutional neural network; overfitting 收稿日期:2015⁃09⁃16. 网络出版日期:2016⁃01⁃05. 基金项目:国家自然科学基金资助项目( 61202143, 61572409);福建省 自然科学基金资助项目(2013J05100). 通信作者:李绍滋. E⁃mail: szlig@ xmu.edu.cn. 卷积神经网络模型训练过程中存在一个共同的 问题,即当模型复杂度比较高时,由于训练数据相对 不足而产生过抑合现象,导致模型泛化能力比较差。 一系列正则化技术被用来解决该问题,如 L1 正则 化,L2 正则化,即对损失函数增加 L1 范数或 L2 范 数,根据图像变换扩增训练数据等。 虽然上述方法 可以在一定程度上抑制过拟合,训练出比未正则化 模型泛化性更强的模型,但是由于以上方法是基于 参数的方法,在解决过抑合问题的同时却增加了模 型训练复杂度,在一定程度上弱化了其效果。 Hinton 等[2]提出的 dropout 是另外一种正则化 方法,它在训练过程中以 0.5 的概率随机将网络中 神经元的响应值置为 0。 该方法在计算机视觉的多 个问题中都取得了不错的成绩,然而目前仍不能完
·44. 智能系统学报 第11卷 全解释它的有效性。Dropout并不能在神经网络的 tanh和logistic泛化能力更强。 每一层都提高模型的泛化能力,甚至会起反作用,因 此dropout在网络中的位置选择非常重要,然而目前 并没有特定的标准,依赖于个人经验。 池化方法是一种无参的正则化方法。极大池化 (max pooling)简单地从池化区域中选择最大值作为 最终响应值,虽然保留了高频分量,如图像的边缘等 信息,但它对噪声信息非常敏感,并且在训练中极易 图1CNN网络第一卷积层学习到的部分边缘特征 出现过抑合。平均池化(average pooling)对池化区 Fig.1 The part of edge features learned by the first 域的所有值取平均,该方法虽然考虑了区域中所有 convolution layer of CNN 信息,有效地降低了噪声信息的影响,然而它平滑了 1.2池化层 图像,从而导致非常重要的高频信息丢失。 池化层通过池化函数pool(·)将图像中一个 为确保模型的判别性及鲁棒性,池化策略必须 较小的子区域R的信息集合起来,其作用是通过降 保留高频分量以提高判别性,同时通过一定的随机 低分辨率获得模型对图像平移及旋转变换的不 性以增强鲁棒性。本文从全新的角度提出了一项卷 变性。 积神经网络池化策略:矩池化。首先,计算池化区域 s:=pool(fc)Hj∈R (1) 的中心矩(即图像灰度重心),一般情况下中心矩是 式中:R表示特征图c中池化区域,ij是该区域每 一个浮点值,并不指向图像中一个确定的像素位置, 个元素的索引。 本文根据概率随机地从中心矩的4个邻域中选择一 Pool有2种常用函数:max和ave)。前者取 个作为最终的响应值。该策略应用中心矩方法在保 池化区域的最大值: 留高响应值的同时弱化了噪声信息的影响,随机性 si max d (2) jek 避免了训练过程中的过抑合现象。 后者取池化区域的平均值: 1卷积神经网络 4风A 1 (3) 人类的视觉系统对外界的认识是从局部到全局 在深度卷积神经网络中,上述2种池化方法都 的过程,因而卷积神经网络(convolutional neural net- 有其不可避免的缺点。由于max仅简单地选择最 work CNN)认为图像的局部像素联系比较远距离的 大值,因此对噪声非常敏感,并且实验发现该方法极 像素联系更紧密。因此卷积神经网络在高分辨率提 易过抑合。ave考虑了池化区域中所有元素,避免 取局部特征,然后在低分辨率将局部特征组合形成 了噪声的影响,然而在CNN中我们期望池化层尽可 更加复杂的特征。CNN通过增加较高层特征图的 能保留强响应值,但ave考虑了池化区域中的所有 数量来补偿空间信息的丢失。CNN的基础框架由 元素,并且赋予了相同权重。当选择RLU函数作 卷积层和池化层组成,卷积层类似于简单细胞,池化 为非线性变换函数时,ave考虑了大量的0值,间接 层使图像特征具有平移不变性。 地降低了强响应值的权重。假如非线性变换函数选 1.1卷积层 择anh,ave会抵消掉正负强响应值(梯度方向相 卷积层是实现图像局部联系的一种途径,它通 反),返回一个完全不具代表性的响应值。 过参数共享学习适用于所有数据的底层特征。图1 1.3全连接层 是第一个卷积层学习到通用的边缘特征,更高的卷 全连接层一般在网络的最后几层,与卷积层不 积层可以提取更加具体的特征如轮廓。卷积层将整 同,它感知全局信息,将卷积层学习到的局部特征聚 个图片与卷积核卷积,然后计算卷积核在图片每个 集起来形成全局特征用于特定的图像处理任务,如 位置的内积,将输出作为特征图c,c可以用来评价 分类、检测、识别等。 图像的每一个部分与卷积核的匹配度。 然后将非线性变换函数应用于特征图c,即: 2矩池化 a=f(c)。非线性变换函数f有很多种选择,最常用的 矩不变性是图像处理中一个经典问题,自1962 是tanh和logistic函数。本文选择受限线性单元 年H.Ming et..al将矩特征应用于模式识别中后,该 (ReLU)f(c)=max(0,c),V.Nair)证明ReLU比 方法被广泛应用到计算机视觉中的多个邻域。由于
全解释它的有效性。 Dropout 并不能在神经网络的 每一层都提高模型的泛化能力,甚至会起反作用,因 此 dropout 在网络中的位置选择非常重要,然而目前 并没有特定的标准,依赖于个人经验。 池化方法是一种无参的正则化方法。 极大池化 (max pooling)简单地从池化区域中选择最大值作为 最终响应值,虽然保留了高频分量,如图像的边缘等 信息,但它对噪声信息非常敏感,并且在训练中极易 出现过抑合。 平均池化(average pooling) 对池化区 域的所有值取平均,该方法虽然考虑了区域中所有 信息,有效地降低了噪声信息的影响,然而它平滑了 图像,从而导致非常重要的高频信息丢失。 为确保模型的判别性及鲁棒性,池化策略必须 保留高频分量以提高判别性,同时通过一定的随机 性以增强鲁棒性。 本文从全新的角度提出了一项卷 积神经网络池化策略:矩池化。 首先,计算池化区域 的中心矩(即图像灰度重心),一般情况下中心矩是 一个浮点值,并不指向图像中一个确定的像素位置, 本文根据概率随机地从中心矩的 4 个邻域中选择一 个作为最终的响应值。 该策略应用中心矩方法在保 留高响应值的同时弱化了噪声信息的影响,随机性 避免了训练过程中的过抑合现象。 1 卷积神经网络 人类的视觉系统对外界的认识是从局部到全局 的过程,因而卷积神经网络(convolutional neural net⁃ work CNN)认为图像的局部像素联系比较远距离的 像素联系更紧密。 因此卷积神经网络在高分辨率提 取局部特征,然后在低分辨率将局部特征组合形成 更加复杂的特征。 CNN 通过增加较高层特征图的 数量来补偿空间信息的丢失。 CNN 的基础框架由 卷积层和池化层组成,卷积层类似于简单细胞,池化 层使图像特征具有平移不变性。 1.1 卷积层 卷积层是实现图像局部联系的一种途径,它通 过参数共享学习适用于所有数据的底层特征。 图 1 是第一个卷积层学习到通用的边缘特征,更高的卷 积层可以提取更加具体的特征如轮廓。 卷积层将整 个图片与卷积核卷积,然后计算卷积核在图片每个 位置的内积,将输出作为特征图 c,c 可以用来评价 图像的每一个部分与卷积核的匹配度。 然后将非线性变换函数应用于特征图 c,即: a = f(c)。非线性变换函数 f 有很多种选择,最常用的 是 tanh 和 logistic 函数。 本文选择受限线性单元 (ReLU)f( c) = max ( 0,c),V.Nair [3] 证明 ReLU 比 tanh 和 logistic 泛化能力更强。 图 1 CNN 网络第一卷积层学习到的部分边缘特征 Fig.1 The part of edge features learned by the first convolution layer of CNN 1.2 池化层 池化层通过池化函数 pool(·) 将图像中一个 较小的子区域 R 的信息集合起来,其作用是通过降 低分辨率获得模型对图像平移及旋转变换的不 变性。 si = pool(f(cj))∀j ∈ Ri (1) 式中:Ri 表示特征图 c 中池化区域,i、j 是该区域每 个元素的索引。 Pool 有 2 种常用函数:max [4] 和 ave [5] 。 前者取 池化区域的最大值: si = max j∈Ri aj (2) 后者取池化区域的平均值: si = 1 Ri ∑ j∈Ri aj (3) 在深度卷积神经网络中,上述 2 种池化方法都 有其不可避免的缺点。 由于 max 仅简单地选择最 大值,因此对噪声非常敏感,并且实验发现该方法极 易过抑合。 ave 考虑了池化区域中所有元素,避免 了噪声的影响,然而在 CNN 中我们期望池化层尽可 能保留强响应值,但 ave 考虑了池化区域中的所有 元素,并且赋予了相同权重。 当选择 ReLU 函数作 为非线性变换函数时,ave 考虑了大量的 0 值,间接 地降低了强响应值的权重。 假如非线性变换函数选 择 tanh,ave 会抵消掉正负强响应值(梯度方向相 反),返回一个完全不具代表性的响应值。 1.3 全连接层 全连接层一般在网络的最后几层,与卷积层不 同,它感知全局信息,将卷积层学习到的局部特征聚 集起来形成全局特征用于特定的图像处理任务,如 分类、检测、识别等。 2 矩池化 矩不变性是图像处理中一个经典问题,自 1962 年 H.Ming et.al [6]将矩特征应用于模式识别中后,该 方法被广泛应用到计算机视觉中的多个邻域。 由于 ·44· 智 能 系 统 学 报 第 11 卷
第1期 殷瑞,等:一种卷积神经网络的图像矩正则化策略 ·45 矩特征具有平移不变性、相似变换不变性、旋转不变 最近邻插值法[选择与插入点最近的像素作 性以及正交变换不变性,因此它被成功地应用于图 为中心矩的像素值,虽然该方法插值速度快,但它容 像分类中。P.Rosin]认为局部区域的灰度值分布 易出现棋盘格效应。且在池化操作中,中心矩与最 相对于其中心具有偏移性,因此他利用图像中心到 大值像素位置非常接近,最近邻插值法几乎等价于 中心矩的向量来表示局部区域的主方向。E. 极大池化法。 Rublee[]在提取二值特征时,将矩特征应用于估计 双线性插值法[o]用待插入点的2×2区域的4 主方向以提高特征的鲁棒性。本文将中心矩与随机 个邻近像素的值通过加权平均计算得到。其核心思 选择结合起来,将其应用于CNN的池化操作中,为 想是在x、y方向上分别进行一次线性插值,距离待 了不增加CNN模型的计算复杂性,本文采用一 插入点越近,权值越高。在池化操作中双线性内插 阶矩。 算法不会出现像素值不连续的情况,然而此算法和 灰度矩定义如下: 平均池化类似,具有低通滤波器的性质,使高频分量 mm=∑y1(x,y) (4) 受损,所以可能会使轮廓信息在一定程度上变得模 I.Y 糊。除此之外,双线性插值法要分别在2个方向上 式中:I(x,y)表示图像位置(x,y)处的灰度值,P、q 取值为1. 插值,增加了模型的计算复杂度。 中心矩定义如下: 本文在2个方向上以概率PxP,随机选择x、y, 式(7)、(8)所示距离中心矩越近,被选择的可能性 c= mio mo (5) 越大。最后根据选择的(x,y)坐标从四邻域中选择 moo moo 池化区域的响应值。矩池化的随机性使每次选择都 根据式(4)、(5)计算池化区域的中心矩 c(x,y),一般情况下c为浮点值,不指向任何一个确 不相同,因此可以有效地达到预防过抑合的效果。 在计算复杂度上,该策略只需要随机生成2个概率, 定的离散值,如图2所示,其上下边界具有4个确定 位置(Q,Q2,Q2,Q),称其为c的四邻域。在 远小于双线性插值法,与最近邻插值法接近。 图像放大中采用插值法计算插入点的像素值,本文 P1=(x2-x) 借鉴该思想通过中心矩的四邻域计算其响应值。 P2=(y2-y) (7) x1Px≤P1 y x= 0. R 0 (x2 p:>Pi y1P≤P1 (8) (y2 P,P 3实验 实验部分将矩池化、极大池化、平均池化分别在 MNIST,CIFAR-10,CIFAR-1O0数据集上进行比较, 图3代表3个数据集的部分数据。实验采用深度学 习框架cafe】,cafe是一个清晰而高效的深度学 习框架,它具有上手快、速度快、模块化、开放性及社 区好的特点,并且支持命令行、python和matlab接 x 口,可以在CPU和GPU间无缝切换,大大提高了模 图2矩池化选择方法 型的学习效率。 Fig.2 The moment pooling's selection strategy 50 x1=(int)x y=(int)y x2=x1+1y2=y1+1 Q1=(x1,y1) Q2=(x2y1)) Q3=(x2,y2) (a)mnist (b)cifar10 (c)cifar100 Q4=(x1,y2) (6) 图3实验中用到的部分数据 式中x1x2分别表示xy向下取整。 Fig.3 The part experiments data
矩特征具有平移不变性、相似变换不变性、旋转不变 性以及正交变换不变性,因此它被成功地应用于图 像分类中。 P.Rosin [7] 认为局部区域的灰度值分布 相对于其中心具有偏移性,因此他利用图像中心到 中心 矩 的 向 量 来 表 示 局 部 区 域 的 主 方 向。 E. Rublee [8]在提取二值特征时,将矩特征应用于估计 主方向以提高特征的鲁棒性。 本文将中心矩与随机 选择结合起来,将其应用于 CNN 的池化操作中,为 了不增加 CNN 模型的计算复杂性, 本文采用一 阶矩。 灰度矩定义如下: mpq = ∑x,y x p y q I(x,y) (4) 式中:I(x,y)表示图像位置( x,y) 处的灰度值,p、q 取值为 1. 中心矩定义如下: c = m10 m00 m01 m00 é ë ê ê ù û ú ú (5) 根 据 式 ( 4 )、 ( 5 ) 计 算 池 化 区 域 的 中 心 矩 c(x,y),一般情况下 c 为浮点值,不指向任何一个确 定的离散值,如图 2 所示,其上下边界具有 4 个确定 位置(Q11 , Q12 , Q22 , Q21 ),称其为 c 的四邻域。 在 图像放大中采用插值法计算插入点的像素值,本文 借鉴该思想通过中心矩的四邻域计算其响应值。 图 2 矩池化选择方法 Fig.2 The moment pooling’s selection strategy x1 = (int)x y1 = (int)y x2 = x1 + 1 y2 = y1 + 1 Q1 = (x1 ,y1 ) Q2 = (x2 ,y1 ) Q3 = (x2 ,y2 ) Q4 = (x1 ,y2 ) (6) 式中 x1 、x2 分别表示 x、y 向下取整。 最近邻插值法[9] 选择与插入点最近的像素作 为中心矩的像素值,虽然该方法插值速度快,但它容 易出现棋盘格效应。 且在池化操作中,中心矩与最 大值像素位置非常接近,最近邻插值法几乎等价于 极大池化法。 双线性插值法[10] 用待插入点的 2×2 区域的 4 个邻近像素的值通过加权平均计算得到。 其核心思 想是在 x、y 方向上分别进行一次线性插值,距离待 插入点越近,权值越高。 在池化操作中双线性内插 算法不会出现像素值不连续的情况,然而此算法和 平均池化类似,具有低通滤波器的性质,使高频分量 受损,所以可能会使轮廓信息在一定程度上变得模 糊。 除此之外,双线性插值法要分别在 2 个方向上 插值,增加了模型的计算复杂度。 本文在 2 个方向上以概率 px、py 随机选择 x、y, 式(7)、(8)所示距离中心矩越近,被选择的可能性 越大。 最后根据选择的(x,y) 坐标从四邻域中选择 池化区域的响应值。 矩池化的随机性使每次选择都 不相同,因此可以有效地达到预防过抑合的效果。 在计算复杂度上,该策略只需要随机生成 2 个概率, 远小于双线性插值法,与最近邻插值法接近。 p1 = (x2 - x) p2 = (y2 - y) (7) x = x1 px ≤ p1 x2 px > p1 { y = y1 py ≤ p1 y2 py > p1 { (8) 3 实验 实验部分将矩池化、极大池化、平均池化分别在 MNIST,CIFAR⁃10,CIFAR⁃100 数据集上进行比较, 图 3 代表 3 个数据集的部分数据。 实验采用深度学 习框架 caffe [11] ,caffe 是一个清晰而高效的深度学 习框架,它具有上手快、速度快、模块化、开放性及社 区好的特点,并且支持命令行、python 和 matlab 接 口,可以在 CPU 和 GPU 间无缝切换,大大提高了模 型的学习效率。 (a)mnist (b)cifar10 (c)cifar100 图 3 实验中用到的部分数据 Fig.3 The part experiments data 第 1 期 殷瑞,等:一种卷积神经网络的图像矩正则化策略 ·45·
·46. 智能系统学报 第11卷 模型优化采用随机梯度下降法(stochastic gradient descent),通过损失函数的负梯度VL(W,)与t时刻 100 +一矩池化(训练):步长=20 权重更新值),的线性组合来更新权重。学习率α代 ·一矩池化(测试):步长=20 80 a-矩池化(训练):步长=100 表负梯度的权重,势4代表,的权重。形式上,在 矩池化(测试):步长=100 给定t时刻的,、心,时,通过式(9)更新t+1时刻的 60 权重。这两个参数需要通过调整来得到最好的结 40 果[],一般经过stepsize个训练回合,将a更新为原 来的Yh。 20 4449444年年44件464009 训练中需要优化的参数有训练的回合数(ep mm cho),学习率,势u,权重衰减入,a的变化步长 20 406080100120 stepsize和变化率y,本文中u=0.9,y=0.0l,其他 训练轮数 参数设置与具体任务有关。 图4学习率心的迭代步长对实验结果的影响 v+1=,-aVL(w,) Fig.4 The effect of learning rate to a's iteration step- 0+1=0,+D+i (9) size 3.1圳练集CIFAR-10 100 CIFAR-10)包含6万个32×32的RGB图片, ·一平均池化(训练) 80 平均池化(测试) 共分为10种类型。训练数据50000张图片,测试 最大池化(训练) 60 最大池化(测试) 数据10000张图片。实验采用Hinton等提出的 矩池化(训练) dropout模型2,该模型包含3个卷积层,每个卷积层 40 一矩池化(测试 由64个5×5的卷积核构成,卷积层将非线性变换 彩 函数RLU的结果作为它的输出。池化层选择大小 2D-一A 0 为3的池化区域,以步长为2实施池化操作,然后通 20 过局部响应归一化层(LRN:local response normaliza- 0 50 100150200250300 tion)对池化结果进行局部归一化以抑止非常大的 训练轮数 ReLU的输出值。最后一层是全连接层,它的sof 图5数据集CIFAR-10上的实验结果 max输出是整个网络的分类预测结果。 Fig.5 Experiments result on dataset CIFAR-10 实验中a的调整步长stepsize的大小非常重 使用上述CNN模型,在池化层分别采用极大池 要,其太小将会导致模型迟迟不能跳出局部最优;反 化,平均池化以及本文提出的矩池化方法,并比较它 之由于学习率太大,模型一直在全局最优附近徘徊, 们的分类结果。如图5所示,最大池化曲线训练过 前者会降低模型泛化能力,后者延缓了模型的训练 程中快速下降到0,平均池化的训练误差及测试误 速度。图4是stepsize=20、100时矩池化的误差曲 差都比较高。矩池化在有效避免过抑合的同时,又 线,第一次学习率调整后,误差曲线都会加速下降。 能保证最低的预测误差,这与矩特征的2个特性 后续调整仅降低训练误差,对测试误差影响甚微,因 息息相关。表2比较3种池化方法在CIFAR-10 此最大迭代次数不超过2×stepsize。由图4可看出 数据集上的训练误差及预测误差,矩池化预测误差 选1.2~1.5倍即可。当stepsize=20时,曲线仍保持 最低。 比较大的下降趋势,即模型还未达到全局最优附近, 表2不同池化方法在CFAR-10数据集上的训练误差与测 此时降低学习率,使模型在后面的迭代过程中极易 试误差 陷入局部最优,测试误差为20.57%:当stepsize=100 Table 2 Pooling methods'training errors and test errors 时,曲线变化已趋平缓,此时降低学习率可使模型趋 on dataset CIFAR-10 于全局最优,测试误差降低至17.24%,后续实验参 方法 训练误差/% 预测误差/% 数设置如表1所示。 表1CFAR-10数据集上的参数设置 平均池化 10.40 19.11 Table 1 The parameter settings on dataset CIFAR-10 最大池化 0.00 19.38 epoch stepsize A 120 0.001 100 0.01 0.004 矩池化 6.00 17.24
模型优化采用随机梯度下降法( stochastic gradient descent),通过损失函数的负梯度ÑL(Wt )与 t 时刻 权重更新值 vt 的线性组合来更新权重。 学习率 α 代 表负梯度的权重,势 μ 代表 vt 的权重。 形式上,在 给定 t 时刻的 vt、wt 时,通过式(9)更新 t+1 时刻的 权重。 这两个参数需要通过调整来得到最好的结 果[12] ,一般经过 stepsize 个训练回合,将 α 更新为原 来的 γth 。 训练中需要优化的参数有训练的回合数( ep⁃ cho),学习率 α,势 μ,权重衰减 λ,α 的变化步长 stepsize 和变化率 γ,本文中 μ = 0.9 , γ = 0.01,其他 参数设置与具体任务有关。 vt+1 = μvt - α ÑL(wt) wt+1 = wt + vt+1 (9) 3.1 训练集 CIFAR⁃10 CIFAR⁃10 [13]包含 6 万个 32×32 的 RGB 图片, 共分为 10 种类型。 训练数据 50 000 张图片,测试 数据 10 000 张图片。 实验采用 Hinton 等提出的 dropout 模型 2,该模型包含 3 个卷积层,每个卷积层 由 64 个 5×5 的卷积核构成,卷积层将非线性变换 函数 ReLU 的结果作为它的输出。 池化层选择大小 为 3 的池化区域,以步长为 2 实施池化操作,然后通 过局部响应归一化层(LRN:local response normaliza⁃ tion)对池化结果进行局部归一化以抑止非常大的 ReLU 的输出值。 最后一层是全连接层,它的 soft⁃ max 输出是整个网络的分类预测结果。 实验中 α 的调整步长 stepsize 的大小非常重 要,其太小将会导致模型迟迟不能跳出局部最优;反 之由于学习率太大,模型一直在全局最优附近徘徊, 前者会降低模型泛化能力,后者延缓了模型的训练 速度。 图 4 是 stepsize = 20 、100 时矩池化的误差曲 线,第一次学习率调整后,误差曲线都会加速下降。 后续调整仅降低训练误差,对测试误差影响甚微,因 此最大迭代次数不超过 2×stepsize。 由图 4 可看出 选 1.2~1.5 倍即可。 当 stepsize = 20 时,曲线仍保持 比较大的下降趋势,即模型还未达到全局最优附近, 此时降低学习率,使模型在后面的迭代过程中极易 陷入局部最优,测试误差为 20.57%;当 stepsize = 100 时,曲线变化已趋平缓,此时降低学习率可使模型趋 于全局最优,测试误差降低至 17.24%,后续实验参 数设置如表 1 所示。 表 1 CIFAR⁃10 数据集上的参数设置 Table 1 The parameter settings on dataset CIFAR⁃10 epoch α stepsize γ λ 120 0.001 100 0.01 0.004 图 4 学习率 α 的迭代步长对实验结果的影响 Fig.4 The effect of learning rate to α’ s iteration step⁃ size 图 5 数据集 CIFAR⁃10 上的实验结果 Fig.5 Experiments result on dataset CIFAR⁃10 使用上述 CNN 模型,在池化层分别采用极大池 化,平均池化以及本文提出的矩池化方法,并比较它 们的分类结果。 如图 5 所示,最大池化曲线训练过 程中快速下降到 0,平均池化的训练误差及测试误 差都比较高。 矩池化在有效避免过抑合的同时,又 能保证最低的预测误差,这与矩特征的 2 个特性 息息相关。 表 2 比较 3 种池化方法在 CIFAR⁃10 数据集上的训练误差及预测误差,矩池化预测误差 最低。 表 2 不同池化方法在 CIFAR⁃10 数据集上的训练误差与测 试误差 Table 2 Pooling methods’ training errors and test errors on dataset CIFAR⁃10 方法 训练误差/ % 预测误差/ % 平均池化 10.40 19.11 最大池化 0.00 19.38 矩池化 6.00 17.24 ·46· 智 能 系 统 学 报 第 11 卷
第1期 殷瑞,等:一种卷积神经网络的图像矩正则化策略 ·47 3.2训练集MNIST 表5CFAR-100数据集上的参数设置 MNIST4由大小为28×28的手写体0~9组成. Table 5 The parameter settings on dataset CIFAR-100 数据集中包含60000张训练图片和10000张测试 epoch stepsize 入 数据,实验中预处理时将图片归一化到[0,1]。 300 0.001 100 0.01 0.004 Lecun Y提出的LeNet--5模型在数字分类任 表6不同池化方法在CFAR-100数据集上的训练误差与 务中取得了非常好的效果,本文采用的模型与 测试误差 LeNet-5略有不同,将原来的非线性变换函数sig Table 6 Pooling methods'training errors and test errors moid替换为ReLU。实验中参数设置如表3所示, on dataset CIFAR-100 % stepsize=fixed表示学习率在学习过程中不变,实验 方法 训练误差 预测误差 中为20。 平均池化 27.00 47.03 表3 MNIST数据集上的参数设置 Table 3 The parameter settings on dataset MNIST 最大池化 1.00 49.64 矩池化 14.00 45.38 epoch stepsize 2 入 100: 平均池化(训练) 100 0.01 fixed null 0.0005 平均池化(测试) 80 ·一最大池化(训练) 最大池化(测试) 训练过程中,3种池化方法几乎都完全过度抑 矩池化(训练) 合训练数据,权重衰减虽然可以预防过抑合,但在该 矩池化(测试) 数据集上效果甚微,表4比较各个池化方法在 40 MNIST数据集上的结果。矩池化方法只是一种正 则化方法,因此可以与其他方法结合提高模型泛化 能力。 50 100150200250300 表4不同池化方法在MNST数据集上的训练误差与测试 训练轮数 误差 Table 4 Pooling methods'training errors and test errors 图6数据集CFAR-100上的实验结果 on dataset MNIST % Fig.6 Experiments result on dataset CIFAR-100 方法 训练误差 预测误差 4 结束语 平均池化 0.05 1.51 本文在卷积神经网络的框架上提出了一种可以 最大池化 0.02 1.07 与其他正则化方法结合使用的池化策略,如drop- out、权重衰减、数据扩增等。矩池化将中心矩与随 矩池化 0.10 0.93 机选择应用于CNN的池化层中,中心矩选择池化区 3.3训练集CIFAR-100 域的灰度重心而非最大值,在保持模型判别性的同 CFAR-100[]数据集与CIFAR-10类似,不同之 时有效地消除噪声的影响:而选择的随机性,使每次 处在于它增加了图片类别数到100,包含50000张 选择具有一定的不确定性,从而更好地避免过抑合, 训练数据(每类500张)及10000张测试数据。C1- 提高模型鲁棒性。除此之外,矩池化是一种无参的 FAR-100的训练模型以及参数设置如表5所示,与 正则化方法,不会影响模型复杂度,可以与任何已有 CIFAR-I00的基本一致,为提高准确率将第3个卷 的CNN模型相结合。实验表明该方法可以有效地 积层数增加到128。相较于CIFAR-10,CIFAR-100 预防过抑合,提高模型的泛化能力。 的训练数据相当有限,而模型却更加复杂。如 参考文献: 表6所示有限的训练数据下传统的池化方法并没有 很好的泛化能力,而矩池化方法有效地降低了分类 [1]MONTAVON G,ORR G,MULLER K R.Neural networks: 误差。 tricks of the trade[M].2nd ed.Berlin Heidelberg:Spring- er,2012. 数据集CIFAR-100上的实验结果如图6所示, [2]HINTON G E,SRIVASTAVE N,KRIZHEVSKY A,et al. 可以看出,第1次调整学习率前,曲线已趋平缓,调 Improving neural networks by preventing co-adaptation of 整后曲线迅速下降,与CIFAR-I0实验结果一致。 feature detectors EB/OL].2012-07-03 ]http://arxiv
3.2 训练集 MNIST MNIST [14]由大小为 28×28 的手写体 0~9 组成, 数据集中包含 60 000 张训练图片和 10 000 张测试 数据,实验中预处理时将图片归一化到[0,1]。 Lecun Y [15]提出的 LeNet⁃5 模型在数字分类任 务中取 得 了 非 常 好 的 效 果, 本 文 采 用 的 模 型 与 LeNet⁃5 略有不同,将原来的非线性变换函数 sig⁃ moid 替换为 ReLU。 实验中参数设置如表 3 所示, stepsize = fixed 表示学习率在学习过程中不变,实验 中为 20。 表 3 MNIST 数据集上的参数设置 Table 3 The parameter settings on dataset MNIST epoch α stepsize γ λ 100 0.01 fixed null 0.000 5 训练过程中,3 种池化方法几乎都完全过度抑 合训练数据,权重衰减虽然可以预防过抑合,但在该 数据集上效果甚微, 表 4 比较各个池化方法在 MNIST 数据集上的结果。 矩池化方法只是一种正 则化方法,因此可以与其他方法结合提高模型泛化 能力。 表 4 不同池化方法在 MNIST 数据集上的训练误差与测试 误差 Table 4 Pooling methods’ training errors and test errors on dataset MNIST % 方法 训练误差 预测误差 平均池化 0.05 1.51 最大池化 0.02 1.07 矩池化 0.10 0.93 3.3 训练集 CIFAR⁃100 CIFAR⁃100 [8]数据集与 CIFAR⁃10 类似,不同之 处在于它增加了图片类别数到 100,包含 50 000 张 训练数据(每类 500 张)及 10 000 张测试数据。 CI⁃ FAR-100 的训练模型以及参数设置如表 5 所示,与 CIFAR⁃100 的基本一致,为提高准确率将第 3 个卷 积层数增加到 128。 相较于 CIFAR⁃10,CIFAR⁃100 的训 练 数 据 相 当 有 限, 而 模 型 却 更 加 复 杂。 如 表 6 所示有限的训练数据下传统的池化方法并没有 很好的泛化能力,而矩池化方法有效地降低了分类 误差。 数据集 CIFAR⁃100 上的实验结果如图 6 所示, 可以看出,第 1 次调整学习率前,曲线已趋平缓,调 整后曲线迅速下降,与 CIFAR⁃10 实验结果一致。 表 5 CIFAR⁃100 数据集上的参数设置 Table 5 The parameter settings on dataset CIFAR⁃100 epoch α stepsize γ λ 300 0.001 100 0.01 0.004 表 6 不同池化方法在 CIFAR⁃100 数据集上的训练误差与 测试误差 Table 6 Pooling methods’ training errors and test errors on dataset CIFAR⁃100 % 方法 训练误差 预测误差 平均池化 27.00 47.03 最大池化 1.00 49.64 矩池化 14.00 45.38 图 6 数据集 CIFAR⁃100 上的实验结果 Fig.6 Experiments result on dataset CIFAR⁃100 4 结束语 本文在卷积神经网络的框架上提出了一种可以 与其他正则化方法结合使用的池化策略,如 drop⁃ out、权重衰减、数据扩增等。 矩池化将中心矩与随 机选择应用于 CNN 的池化层中,中心矩选择池化区 域的灰度重心而非最大值,在保持模型判别性的同 时有效地消除噪声的影响;而选择的随机性,使每次 选择具有一定的不确定性,从而更好地避免过抑合, 提高模型鲁棒性。 除此之外,矩池化是一种无参的 正则化方法,不会影响模型复杂度,可以与任何已有 的 CNN 模型相结合。 实验表明该方法可以有效地 预防过抑合,提高模型的泛化能力。 参考文献: [1]MONTAVON G, ORR G, MÜLLER K R. Neural networks: tricks of the trade[M]. 2nd ed. Berlin Heidelberg: Spring⁃ er, 2012. [2]HINTON G E, SRIVASTAVE N, KRIZHEVSKY A, et al. Improving neural networks by preventing co⁃adaptation of feature detectors [ EB/ OL]. [ 2012⁃07⁃03]. http: / / arxiv. 第 1 期 殷瑞,等:一种卷积神经网络的图像矩正则化策略 ·47·
·48. 智能系统学报 第11卷 org/pdf/1207.0580.pdf. [13]KRIZHEVSKY A.The CIFAR-10,CIFAR-100 database [3]NAIR V,HINTON G E.Rectified linear units improve re- [EB/OL].http://www.cs.toronto.edu/-kriz/cifar.html. stricted boltzmann machines[C]//Proceedings of the 27th LECUN Y,CORTES C.BURGES C J C.The MNIST da- International Conference on Machine Learning.Haifa,Isra- tabase of handwritten digits[EB/OL].http://yann.lecun. el.2010. com/exdb/mnist/. [4]RANZATO M,BOUREAU Y L,LECUN Y.Sparse feature [14]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient- learning for deep belief networks C//Proceedings of Ad- based learning applied to document recognition[J].Pro- vances in Neural Information Processing Systems NIPS). ceedings of the IEEE,1998,86(11):2278-2324. Cambridge,MA,2007. 作者简介: [5]LECUN Y,BOSER B E,DENKER J S,et al.Handwritten 殷瑞,女,1993年生,硕士研究生, digit Recognition with a back-propagation network [C]/ 主要研究方向为图像特征表示、计算机 Proceedings of Advances in Neural Information Processing 视觉、深度学习。 Systems (NIPS).Cambridge,MA,1989. [6]HU M K.Visual pattern recognition by moment invariants [J].IRE Transactions on Information Theory,1962,8 (2):179-187. [7]ROSIN P L.Measuring comner properties[J].Computer vi- sion and image understanding,1999,73(2):291-307. 苏松志,男,1982年生,讲师,博 [8]RUBLEE E,RABAUD V,KONOLIGE K,et al.ORB:an 士。主要研究方向为行人检测和人体 efficient alternative to SIFT or SURF[C]//Proceedings of 行为分析。 IEEE International Conference on Computer Vision (ICCV). Barcelona,2011:2564-2571. [9]EVANS O D,KIM Y.Efficientimplementation of image war- ping on a multimedia processor[J].Real-time imaging, 1998.4(6):417-428. [10]GONZALEZ R C,WOODS R E.Digital image processing 李绍滋,男,1963年生,教授,博士 [M].2nd ed.New Jersey:Prentice-Hall,2002. 生导师,福建省人工智能学会副理事 [11]JIA Y,SHEHAMER E,DONAHUE J,et al.Caffe:convo- 长。主要研究方向为人工智能及其应 lutional architecture for fast feature emibedding C//Pro- 用、计算机视觉与机器学习、运动目标 ceedings of the ACM International conference on Multime- 检测与识别等。主持过多项国家、省市 dia.ACM,2014:625-678. 级项目研究,获得省科学技术三等奖2 [12 BOTTOU L.Stochastic gradient descent tricks M]// 项,发表学术论文200余篇,其中SCI MONTAVON G.ORR G B.MULLER K R.Neural Net- 检索27篇、EI检索171篇。 works:Tricks of the Trade.2nd ed.Berlin Heidelberg: Springer,2012:421-436
org / pdf / 1207.0580.pdf. [3]NAIR V, HINTON G E. Rectified linear units improve re⁃ stricted boltzmann machines[C] / / Proceedings of the 27th International Conference on Machine Learning. Haifa, Isra⁃ el, 2010. [4]RANZATO M, BOUREAU Y L, LECUN Y. Sparse feature learning for deep belief networks[C] / / Proceedings of Ad⁃ vances in Neural Information Processing Systems (NIPS). Cambridge, MA, 2007. [5]LECUN Y, BOSER B E, DENKER J S, et al. Handwritten digit Recognition with a back⁃propagation network [ C] / / Proceedings of Advances in Neural Information Processing Systems (NIPS). Cambridge, MA, 1989. [6] HU M K. Visual pattern recognition by moment invariants [J]. IRE Transactions on Information Theory, 1962, 8 (2): 179⁃187. [7]ROSIN P L. Measuring corner properties[ J]. Computer vi⁃ sion and image understanding, 1999, 73(2): 291⁃307. [8]RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[ C] / / Proceedings of IEEE International Conference on Computer Vision (ICCV). Barcelona, 2011: 2564⁃2571. [9]EVANS O D, KIM Y. Efficientimplementation of image war⁃ ping on a multimedia processor [ J ]. Real⁃time imaging, 1998, 4(6): 417⁃428. [10]GONZALEZ R C, WOODS R E. Digital image processing [M]. 2nd ed.New Jersey: Prentice⁃Hall, 2002. [11]JIA Y, SHEHAMER E, DONAHUE J,et al.Caffe:convo⁃ lutional architecture for fast feature emibedding[C] / / Pro⁃ ceedings of the ACM International conference on Multime⁃ dia. ACM, 2014:625⁃678. [ 12 ] BOTTOU L. Stochastic gradient descent tricks [ M ] / / MONTAVON G, ORR G B, MÜLLER K R. Neural Net⁃ works: Tricks of the Trade. 2nd ed. Berlin Heidelberg: Springer, 2012: 421⁃436. [13] KRIZHEVSKY A. The CIFAR⁃10, CIFAR⁃100 database [EB/ OL]. http: / / www. cs. toronto. edu / ~ kriz/ cifar. html. LECUN Y, CORTES C, BURGES C J C. The MNIST da⁃ tabase of handwritten digits[EB/ OL]. http: / / yann.lecun. com/ exdb / mnist / . [14] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient - based learning applied to document recognition [ J]. Pro⁃ ceedings of the IEEE, 1998, 86(11): 2278⁃2324. 作者简介: 殷瑞,女,1993 年生,硕士研究生, 主要研究方向为图像特征表示、计算机 视觉、深度学习。 苏松志, 男, 1982 年生, 讲师, 博 士。 主要研究方向为行人检测和人体 行为分析。 李绍滋,男,1963 年生,教授,博士 生导师,福建省人工智能学会副理事 长。 主要研究方向为人工智能及其应 用、计算机视觉与机器学习、运动目标 检测与识别等。 主持过多项国家、省市 级项目研究,获得省科学技术三等奖 2 项,发表学术论文 200 余篇,其中 SCI 检索 27 篇、EI 检索 171 篇。 ·48· 智 能 系 统 学 报 第 11 卷