第16卷第1期 智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0:10.11992/tis.202012034 改进MobileNet的图像分类方法研究 高淑萍,赵清源,齐小刚,程孟菲 (西安电子科技大学数学与统计学院,陕西西安710126) 摘要:针对神经网络结构的特征提取能力不足以及在包含复杂图像特征的数据集上分类准确率不高的问题, 本文提出了一种对MobileNet神经网络的改进策略(L-MobileNet)。将原标准卷积形式替换为深度可分离卷积 形式,并将深度卷积层得到的特征图执行取反操作,通过深度卷积融合层传递至下一层;采用Leaky ReLU激活 函数代替原RLU激活函数来保留图像中更多的正负特征信息,并加入类残差结构避免梯度弥散现象。与6种 方法进行对比,实验结果表明:L-MobileNet在数据集Cifar--l0、Cifar--l00(coarse))、Cifar-l00(fine)和Dogs vs Cats上 平均准确率和最高准确率都取得了最佳结果。 关键词:卷积神经网络;图像分类;特征提取;MobileNet::深度可分离卷积:激活函数;Leaky ReLU;残差结构 中图分类号:TP391;TP181文献标志码:A文章编号:1673-4785(2021)01-0011-10 中文引用格式:高淑萍,赵清源,齐小刚,等.改进MobileNet的图像分类方法研究.智能系统学报,2021,16(1):11-20. 英文引用格式:GAO Shuping,.ZHAO Qingyuan,,QI Xiaogang,.etal.Research on the improved image classification method of Mo- bileNetJ.CAAI transactions on intelligent systems,2021,16(1):11-20. Research on the improved image classification method of MobileNet GAO Shuping,ZHAO Qingyuan,QI Xiaogang,CHENG Mengfei (School of Mathematics and Statistics,Xidian University,Xi'an 710126,China) Abstract:This paper proposes an improved strategy for the MobileNet neural network(L-MobileNet)because the fea- ture extraction ability of a neural network structure is insufficient,and the classification accuracy is not high on the data- set containing complex image features.First,the original standard convolution form is replaced by the depth separable convolution form,and the feature map obtained from the deep convolution layer is reversed and transferred to the next layer through the deep convolution fusion layer.Second,the leaky ReLU activation function is used to replace the ori- ginal ReLU activation function to retain more positive and negative feature information in the image,and residual struc- ture is added to avoid the gradient diffusion phenomenon.Finally,the experimental results showed that when compared with six methods,L-MobileNet achieved the best results in the datasets of Cifar-10,Cifar-100(coarse),Cifar-100(fine), and Dogs vs Cats. Keywords:convolutional neural network;image classification;feature extraction;MobileNet;depth separable convolu- tion;activation function;Leaky ReLU;residual structure 图像分类是通过涵盖在图像里的不同特征信 后发展为特征表达的学习,首先是利用尺度不变 息来对图像集进行归类,它是目前计算机视觉领 特征转换(scale-invariant feature transform,SIFT)、 域的基本问题之一,也是行为检测、目标识别、图 方向梯度直方图(histogram of oriented gradient, 像修复、图像切割等复杂视觉任务的基础。图像 HOG)等方法进行底层特征提取;其次是利用核 分类广泛应用于诸多领域,包括医学影像识别 词典编码、Fisher向量编码等进行特征编码:然后 等。早期图像分类技术以人工提取特征为主,而 是将编码后的特征进行汇聚;最后利用支持向量 收稿日期:2020-12-31 机等分类器进行图像分类。虽然特征表达的学习 基金项目:国家自然科学基金项目(91338115):高等学校学科 方式能够提取一部分图像特征,但这种方式容易 创新引智基地“111”计划(B08038). 通信作者:赵清源.E-mail:zqy353364144@163.com 出现特征丢失、泛化性能差的问题,最终难以达
DOI: 10.11992/tis.202012034 改进 MobileNet 的图像分类方法研究 高淑萍,赵清源,齐小刚,程孟菲 (西安电子科技大学 数学与统计学院,陕西 西安 710126) 摘 要:针对神经网络结构的特征提取能力不足以及在包含复杂图像特征的数据集上分类准确率不高的问题, 本文提出了一种对 MobileNet 神经网络的改进策略 (L-MobileNet)。将原标准卷积形式替换为深度可分离卷积 形式,并将深度卷积层得到的特征图执行取反操作,通过深度卷积融合层传递至下一层;采用 Leaky ReLU 激活 函数代替原 ReLU 激活函数来保留图像中更多的正负特征信息,并加入类残差结构避免梯度弥散现象。与 6 种 方法进行对比,实验结果表明:L-MobileNet 在数据集 Cifar-10、Cifar-100(coarse)、Cifar-100(fine) 和 Dogs vs Cats 上 平均准确率和最高准确率都取得了最佳结果。 关键词:卷积神经网络;图像分类;特征提取;MobileNet;深度可分离卷积;激活函数;Leaky ReLU;残差结构 中图分类号:TP391; TP181 文献标志码:A 文章编号:1673−4785(2021)01−0011−10 中文引用格式:高淑萍, 赵清源, 齐小刚, 等. 改进 MobileNet 的图像分类方法研究 [J]. 智能系统学报, 2021, 16(1): 11–20. 英文引用格式:GAO Shuping, ZHAO Qingyuan, QI Xiaogang, et al. Research on the improved image classification method of MobileNet[J]. CAAI transactions on intelligent systems, 2021, 16(1): 11–20. Research on the improved image classification method of MobileNet GAO Shuping,ZHAO Qingyuan,QI Xiaogang,CHENG Mengfei (School of Mathematics and Statistics, Xidian University, Xi’an 710126, China) Abstract: This paper proposes an improved strategy for the MobileNet neural network (L-MobileNet) because the feature extraction ability of a neural network structure is insufficient, and the classification accuracy is not high on the dataset containing complex image features. First, the original standard convolution form is replaced by the depth separable convolution form, and the feature map obtained from the deep convolution layer is reversed and transferred to the next layer through the deep convolution fusion layer. Second, the leaky ReLU activation function is used to replace the original ReLU activation function to retain more positive and negative feature information in the image, and residual structure is added to avoid the gradient diffusion phenomenon. Finally, the experimental results showed that when compared with six methods, L-MobileNet achieved the best results in the datasets of Cifar-10, Cifar-100 (coarse), Cifar-100 (fine), and Dogs vs Cats. Keywords: convolutional neural network; image classification; feature extraction; MobileNet; depth separable convolution; activation function; Leaky ReLU; residual structure 图像分类是通过涵盖在图像里的不同特征信 息来对图像集进行归类,它是目前计算机视觉领 域的基本问题之一,也是行为检测、目标识别、图 像修复、图像切割等复杂视觉任务的基础。图像 分类广泛应用于诸多领域,包括医学影像识别 等。早期图像分类技术以人工提取特征为主,而 后发展为特征表达的学习,首先是利用尺度不变 特征转换 (scale-invariant feature transform, SIFT)、 方向梯度直方图 (histogram of oriented gradient, HOG) 等方法进行底层特征提取;其次是利用核 词典编码、Fisher 向量编码等进行特征编码;然后 是将编码后的特征进行汇聚;最后利用支持向量 机等分类器进行图像分类。虽然特征表达的学习 方式能够提取一部分图像特征,但这种方式容易 出现特征丢失、泛化性能差的问题,最终难以达 收稿日期:2020−12−31. 基金项目:国家自然科学基金项目 (91338115);高等学校学科 创新引智基地“111”计划 (B08038). 通信作者:赵清源. E-mail:zqy353364144@163.com. 第 16 卷第 1 期 智 能 系 统 学 报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021
·12· 智能系统学报 第16卷 到理想图像分类精度的要求。 1相关预备知识 深度学习中卷积神经网络(convolutional neur-. al network,.CNN)能够完成输入信息从浅层学习 1.1经典的CNN网络结构 到深层学习的逐级表达,提取更加准确的特征, 经典的CNN属于前馈神经网络类型,其结构 降低在图像分类技术上的操作难度并取得显著效 组件有标准卷积层、池化层、全连接层、激活函数 果。在图像分类领域,最初是由Yann LeCun)将 和分类器,如图1所示。该网络主要通过标准卷 CNN部署在手写体识别上,取得了良好的识别效 积层进行图像特征提取,在该层中通常包括若干 果;2012年后,相继出现了AlexNet、GoogLeNet 特征图,每个特征图由神经元节点排列成矩形形 ResNet!)等具有代表性的深度网络结构;近几年, 状,相同特征图中神经元节点之间进行权值共 国内外提出轻量化版本的网络结构,如GhostNet 享。通过权值共享可以减少神经元节点之间的连 ShuffleNetV1、MobileNetV1151、MobileNetV2m ShuffleNetV22、SqueezeNet!9和IGCV3o,其中 接数量,避免过拟合现象。池化层能够降低计算 MobileNet系列更具代表性。在MobileNetV1中, 维度,进而提升网络结构的泛化性能。激活函数 以深度可分离卷积替换标准卷积的方式降低了网 用来增强网络结构的非线性学习能力。经过多次 络结构的大小和计算复杂度,而MobileNetV2在 特征提取过程后,把最后的特征图进行拼接,得 保持深度可分离卷积的基础上,加入多个逐点卷 到一维矩阵。最后由全连接层输人到分类器进而 积,进一步提升网络结构性能和降低计算复杂 输出分类结果。 度。但MobileNet系列的网络结构在应用于图像 分类任务时,因其网络内部设计、优化策略和激 全 RELU 活函数的原因,导致会不断地忽略输入信息中的 输入图像 卷积层 池化层 分类器 k×k m×n 程×h 连接层 负值特征信息,而这些负值特征信息却可能是图 像分类的关键点。近3年对MobileNet网络结构 图1经典的CNN网络结构 在图像分类领域的改进方法被相继提出。如2019 Fig.1 Classical CNN network structure 年,黄跃珍等l利用Squeeze-and-Excitation模块 对MobileNet网络结构进行改进,提高了车型识 经典的CNN网络结构利用卷积核提取图像 别精度;刘鸿智l在MobileNet网络结构的基础 中的特征,对局部进行感知并且通过权值共享降 上,采用新的混合链接结构,提高了在数据集Ci- 低参数计算量。但经典的CNN反向传播过程中 far-l0和Cifar--100的分类精度;2020年,Guo等 容易出现参数不更新现象,和池化层丢失图像中 提出在MobileNet网络结构中插人八度卷积和中 特征信息的问题。 心损失函数的方法,提升了多国人脸分类识别率。 1.2 MobileNet网络结构 本文在前人工作的基础上,提出一种改进的 MobileNet网络系列在近几年被广泛应用,更 MobileNet网络结构,即L-MobileNet。其主要思 是轻量级网络的典型代表。MobileNet网络结构 想为 在经典的CNN网络结构基础上,将池化层、部分 1)用深度可分离卷积形式代替标准卷积形 全连接层用卷积层来代替,其突出特点是引入了 式,并将深度卷积得到的特征图执行取反操作, 深度可分离卷积的卷积形式。标准卷积是将一组 通过深度卷积融合层传递至下一层; 卷积核与输入数据作用后组合成单通道特征的输 2)卷积层中使用Leaky ReLU激活函数以保 出,而深度可分离卷积是因式分解的卷积形式, 留图像更多的正负特征信息,并加入类残差结构側 将标准卷积分解为深度卷积和1×1逐点卷积2部 避免梯度弥散现象,降低网络参数计算量。 分,深度卷积是把单个固定大小的卷积核作用到 为了提高网络结构的泛化能力,在数据输入 每个输入通道,然后逐点卷积通过1×1的卷积核 时采用数据预处理技术。通过将本文L-MobileN- et与经典的CNN、MobileNetVI、MobileNetV2、经 来进行通道信息融合并输出。图2显示标准卷 典的CNN+Leaky ReLU41、MobileNetV1-+Leaky 积(图2(a)分解为深度卷积(图2(b)和1×1逐点 ReLU和MobileNetV:2+Leaky ReLUS进行对比 卷积(图2(c)的过程。 实验,结果表明L-MobileNet在Cifar-.l0、Cifar- 图2中M表示输入通道数量,N表示输出通 100(coarse)61、Cifar-100(fine)16和Dogs vs 道数量,Dx×Dx表示卷积核大小的乘积,DF×D Cats切数据集上具有更好的图像分类效果。 表示特征映射图大小的乘积
到理想图像分类精度的要求。 深度学习中卷积神经网络 (convolutional neural network, CNN) 能够完成输入信息从浅层学习 到深层学习的逐级表达,提取更加准确的特征, 降低在图像分类技术上的操作难度并取得显著效 果。在图像分类领域,最初是由 Yann LeCun[1] 将 CNN 部署在手写体识别上,取得了良好的识别效 果;2012 年后,相继出现了 AlexNet、GoogLeNet[2] 、 ResNet[3] 等具有代表性的深度网络结构;近几年, 国内外提出轻量化版本的网络结构,如 GhostNet[4] 、 ShuffleNetV1[5] 、MobileNetV1[6] 、MobileNetV2[7] 、 ShuffleNetV2[8] 、SqueezeNet[9] 和 IGCV3[10] ,其中 MobileNet 系列更具代表性。在 MobileNetV1 中, 以深度可分离卷积替换标准卷积的方式降低了网 络结构的大小和计算复杂度,而 MobileNetV2 在 保持深度可分离卷积的基础上,加入多个逐点卷 积,进一步提升网络结构性能和降低计算复杂 度。但 MobileNet 系列的网络结构在应用于图像 分类任务时,因其网络内部设计、优化策略和激 活函数的原因,导致会不断地忽略输入信息中的 负值特征信息,而这些负值特征信息却可能是图 像分类的关键点。近 3 年对 MobileNet 网络结构 在图像分类领域的改进方法被相继提出。如 2019 年,黄跃珍等[11] 利用 Squeeze-and-Excitation 模块 对 MobileNet 网络结构进行改进,提高了车型识 别精度;刘鸿智[12] 在 MobileNet网络结构的基础 上,采用新的混合链接结构,提高了在数据集 Cifar-10 和 Cifar-100 的分类精度;2020 年,Guo 等 [13] 提出在 MobileNet 网络结构中插入八度卷积和中 心损失函数的方法,提升了多国人脸分类识别率。 本文在前人工作的基础上,提出一种改进的 MobileNet 网络结构,即 L-MobileNet。其主要思 想为 1) 用深度可分离卷积形式代替标准卷积形 式,并将深度卷积得到的特征图执行取反操作, 通过深度卷积融合层传递至下一层; 2) 卷积层中使用 Leaky ReLU 激活函数以保 留图像更多的正负特征信息,并加入类残差结构[3] 避免梯度弥散现象,降低网络参数计算量。 为了提高网络结构的泛化能力,在数据输入 时采用数据预处理技术。通过将本文 L-MobileNet 与经典的 CNN、MobileNetV1、MobileNetV2、经 典的 CNN+Leaky ReLU[14] 、MobileNetV1+Leaky ReLU[15] 和 MobileNetV2+Leaky ReLU[15] 进行对比 实验,结果表明 L-MobileNet 在 Cifar-10[16] 、Cifar- 100 (coarse)[ 1 6 ] 、Cifar-100 (fine)[ 1 6 ] 和 Dogs vs Cats[17] 数据集上具有更好的图像分类效果。 1 相关预备知识 1.1 经典的 CNN 网络结构 经典的 CNN 属于前馈神经网络类型,其结构 组件有标准卷积层、池化层、全连接层、激活函数 和分类器,如图 1 所示。该网络主要通过标准卷 积层进行图像特征提取,在该层中通常包括若干 特征图,每个特征图由神经元节点排列成矩形形 状,相同特征图中神经元节点之间进行权值共 享。通过权值共享可以减少神经元节点之间的连 接数量,避免过拟合现象。池化层能够降低计算 维度,进而提升网络结构的泛化性能。激活函数 用来增强网络结构的非线性学习能力。经过多次 特征提取过程后,把最后的特征图进行拼接,得 到一维矩阵。最后由全连接层输入到分类器进而 输出分类结果。 输入图像 卷积层 池化层 RELU k×k m×n w×h … 全 连 接 层 分 类 器 图 1 经典的 CNN 网络结构 Fig. 1 Classical CNN network structure 经典的 CNN 网络结构利用卷积核提取图像 中的特征,对局部进行感知并且通过权值共享降 低参数计算量。但经典的 CNN 反向传播过程中 容易出现参数不更新现象,和池化层丢失图像中 特征信息的问题。 1.2 MobileNet 网络结构 MobileNet 网络系列在近几年被广泛应用,更 是轻量级网络的典型代表。MobileNet 网络结构 在经典的 CNN 网络结构基础上,将池化层、部分 全连接层用卷积层来代替,其突出特点是引入了 深度可分离卷积的卷积形式。标准卷积是将一组 卷积核与输入数据作用后组合成单通道特征的输 出,而深度可分离卷积是因式分解的卷积形式, 将标准卷积分解为深度卷积和 1×1 逐点卷积 2 部 分,深度卷积是把单个固定大小的卷积核作用到 每个输入通道,然后逐点卷积通过 1×1 的卷积核 来进行通道信息融合并输出。图 2 显示标准卷 积 (图 2(a)) 分解为深度卷积 (图 2(b)) 和 1×1 逐点 卷积 (图 2(c)) 的过程。 M N DK × DK DF × DF 图 2 中 表示输入通道数量, 表示输出通 道数量, 表示卷积核大小的乘积, 表示特征映射图大小的乘积。 ·12· 智 能 系 统 学 报 第 16 卷
第1期 高淑萍,等:改进MobileNet的图像分类方法研究 ·13· x:≥0 y:= <0 (4) a 式中:代表第i层的输出;代表第i层经过非 线性变换后的输出;a:是第i层中的固定参数,其 (a)标准卷积 范围是(1,+o)。Leaky ReLU激活函数如图3所 示。由于Leaky ReLU激活函数负半轴是一个较 D 小斜率的函数,可以来初始化神经元,避免神经 D 元死亡的同时增加了负值特征信息的提取。由文 M (b)深度卷积 献[18]可知,当Leaky ReLU激活函数中a=5.5 时,Leaky ReLU激活函数的分类效果要优于ReLU 激活函数。 10 8 6 (c)逐点卷积 4 图2标准卷积分解过程 2 Fig.2 Standard convolution decomposition process 0 深度卷积计算成本为 -2 -10.0 -5.0 5.010.0 DkXDkXMXDEXDE (1) 0 逐点卷积计算成本为 图3 Leaky ReL激活函数(a=5.5 MXNXDEXDE (2) Fig.3 Leaky ReLU activation function(a;=5.5) 深度可分离卷积计算成本占标准卷积计算成 本的比例为 2L-MobileNet网络结构 DxXDkXMXDEXDE+MXNXDEXDE 11 DxXDKXMXNXDEXDE =N+D 针对经典的CNN网络结构和MobileNet网络 (3) 结构特征提取能力不足和易忽略负值特征信息的 实验表明,当使用3×3的深度可分离卷积 问题,本文提出一种改进的MobileNet网络结构 时,其计算量比标准卷积少8~9倍,而精度只有很 的图像分类方法,即L-MobileNet。首先,研究了 小的损失。MobileNet网络系列在尽可能保证图 基于MobileNet网络中存在特征信息的各个局部 像分类精度稳定的前提下,极大缩短网络训练的 区域:其次,设计了深度卷积取反层和深度卷积 时间与减少参数更新过程中的计算成本,也为后 融合层,将原图像特征和其取反特征进行融合提 续网络结构的优化提供了方向。但MobileNet网 取;最后,加入类残差结构,组合卷积块,通过损 络结构中仍存在着特征信息提取能力不足导致分 失函数优化整个网络进行分类。 类精度不高和网络层中激活函数丢失负值特征信 L-MobileNet网络结构如图4所示,参数设置 息的现象。 如表1所示。深度卷积层得到的特征图通过深度 1.3 Leaky ReLU激活函数 卷积取反层进行取反操作,并将其与原特征图的 激活函数是神经网铬结构中非线性学习能力 特征信息一起通过深度卷积融合层进行特征相 的关键点,RLU激活函数可以有效缓解梯度弥 加,传递至下一个逐点卷积层,然后传递至下一 散现象,成为大多数激活函数的主流选择。但随 个卷积块,以此类推。其中的卷积块中采用 着网络训练轮数的增加,部分神经元对应权重得 Leaky ReLU激活函数,将其作用于每一个卷积块 不到更新,出现神经元死亡现象,并且RLU在特 中的每一个卷积层。为了防止出现梯度弥散现 征提取过程中会丢弃特征图内的负值特征信息。 象,在卷积块中加入了类残差结构,先进行信息 RLU输出值的均值始终大于零,也不利于网络 通道的扩展再进行信息通道的压缩。通过交叉嫡 学习能力的表达。Leaky ReLU激活函数的特性 损失函数优化整个网络,直至收敛。最终经过全 解决了RLU的问题,有效提取负值特征信息,数 局平均池化层和逐点卷积层来达到分类数目要 学形式为 求,通过Softmax分类器进行输入样本的分类
M DK DK DK DK N M 1 1 1 (a) 标准卷积 N (c) 逐点卷积 (b) 深度卷积 M 图 2 标准卷积分解过程 Fig. 2 Standard convolution decomposition process 深度卷积计算成本为 DK × DK × M × DF × DF (1) 逐点卷积计算成本为 M ×N × DF × DF (2) 深度可分离卷积计算成本占标准卷积计算成 本的比例为 DK × DK × M × DF × DF + M ×N × DF × DF DK × DK × M ×N × DF × DF = 1 N + 1 D2 K (3) 实验表明[6] ,当使用 3×3 的深度可分离卷积 时,其计算量比标准卷积少 8~9 倍,而精度只有很 小的损失。MobileNet 网络系列在尽可能保证图 像分类精度稳定的前提下,极大缩短网络训练的 时间与减少参数更新过程中的计算成本,也为后 续网络结构的优化提供了方向。但 MobileNet 网 络结构中仍存在着特征信息提取能力不足导致分 类精度不高和网络层中激活函数丢失负值特征信 息的现象。 1.3 Leaky ReLU 激活函数[18] 激活函数是神经网络结构中非线性学习能力 的关键点,ReLU 激活函数可以有效缓解梯度弥 散现象,成为大多数激活函数的主流选择。但随 着网络训练轮数的增加,部分神经元对应权重得 不到更新,出现神经元死亡现象,并且 ReLU 在特 征提取过程中会丢弃特征图内的负值特征信息。 ReLU 输出值的均值始终大于零,也不利于网络 学习能力的表达。Leaky ReLU 激活函数的特性 解决了 ReLU 的问题,有效提取负值特征信息,数 学形式为 yi = xi , xi ⩾ 0 xi ai , xi < 0 (4) xi i yi i ai i (1,+∞) ai = 5.5 式中: 代表第 层的输出; 代表第 层经过非 线性变换后的输出; 是第 层中的固定参数,其 范围是 。Leaky ReLU 激活函数如图 3 所 示。由于 Leaky ReLU 激活函数负半轴是一个较 小斜率的函数,可以来初始化神经元,避免神经 元死亡的同时增加了负值特征信息的提取。由文 献 [18] 可知,当 Leaky ReLU 激活函数中 时,Leaky ReLU 激活函数的分类效果要优于 ReLU 激活函数。 10 8 6 4 2 0 −2 y −10.0 −5.0 0 5.0 10.0 x 图 3 Leaky ReLU 激活函数 (ai = 5.5 ) Fig. 3 Leaky ReLU activation function(ai = 5.5 ) 2 L-MobileNet 网络结构 针对经典的 CNN 网络结构和 MobileNet 网络 结构特征提取能力不足和易忽略负值特征信息的 问题,本文提出一种改进的 MobileNet 网络结构 的图像分类方法,即 L-MobileNet。首先,研究了 基于 MobileNet 网络中存在特征信息的各个局部 区域;其次,设计了深度卷积取反层和深度卷积 融合层,将原图像特征和其取反特征进行融合提 取;最后,加入类残差结构,组合卷积块,通过损 失函数优化整个网络进行分类。 L-MobileNet 网络结构如图 4 所示,参数设置 如表 1 所示。深度卷积层得到的特征图通过深度 卷积取反层进行取反操作,并将其与原特征图的 特征信息一起通过深度卷积融合层进行特征相 加,传递至下一个逐点卷积层,然后传递至下一 个卷积块,以此类推。其中的卷积块中采 用 Leaky ReLU 激活函数,将其作用于每一个卷积块 中的每一个卷积层。为了防止出现梯度弥散现 象,在卷积块中加入了类残差结构,先进行信息 通道的扩展再进行信息通道的压缩。通过交叉熵 损失函数优化整个网络,直至收敛。最终经过全 局平均池化层和逐点卷积层来达到分类数目要 求,通过 Softmax 分类器进行输入样本的分类。 第 1 期 高淑萍,等:改进 MobileNet 的图像分类方法研究 ·13·
14 智能系统学报 第16卷 相加 取反 相加 相加 取反 取反 ■逐点卷积层 全局平局池化层 ■深度卷积取反层 ■深度卷积层■深度卷积融合层 分类器 图4L-MobileNet网络结构 Fig.4 L-MobileNet network structure 表1L-MobileNet参数设置 Table 1 L-MobileNet parameters setting 卷积核 层名称 步长 填充 层名称 卷积核 步长 填充 大小 个数 大小 个数 输入层 逐点卷积层8 1×1 64 有 逐点卷积层1 1×1 32 1 有 逐点卷积层9 1×1 384 有 深度卷积1 3×3 32 1 有 深度卷积5 3×3 384 有 逐点卷积层2 1×1 24 1 有 逐点卷积层10 1×1 64 有 逐点卷积层3 1×1 144 1 有 逐点卷积层11 1×1 384 有 深度卷积2 3×3 144 2 有 深度卷积6 3×3 384 1 有 逐点卷积层4 1×1 32 1 有 逐点卷积层12 1×1 64 1 有 逐点卷积层5 1×1 196 1 有 逐点卷积层13 1×1 384 1 有 深度卷积3 3×3 196 1 有 全局平均池化 逐点卷积层6 1×1 32 有 逐点卷积层14 1×1 有 逐点卷积层7 1×1 196 有 深度卷积4 3×3 196 有 输出层 2.1特征信息的融合 深度卷积取反层同步对输入进行处理为 如图4所示,本文对特征信息的融合采用的 是在深度卷积层提取了原始图像局部特征后,同 (6) 步进行深度卷积取反层,然后利用深度卷积融合 深度卷积融合层将前2步提取的信息进行融 层对2层特征信息进行处理。符号说明如下:对 合为 于给定的图像,其中1表示当前层,1-1表示前一 =fo,++f-(o,+bieM(⑦) 层,x丈表示当前层第j个特征图,。代表深度卷积 深度卷积融合层所提取出的特征,不仅包含 运算,表示前一层第i个特征图,表示该层 了原始深度卷积层中的特征信息,而且对潜在的 第i个特征图和前一层第j个特征图所作用的卷 图像局部区域的特征进行提取,融合后的特征随 积核,b表示偏置值,M表示产生该层第j个特 着网络训练的进行,不断学习出识别效果优秀的 征图相关的前一层特征图累计值,f()表示Leaky 高维特征信息。 ReLU激活函数。 2.2负值特征信息的提取 深度卷积层对输入的处理为 如图4可知,L-MobileNet网络结构中有6个 o+ (5) 大卷积块,为了提高MobileNet网络中对负值特 征信息的敏感度和负值特征信息传播过程中的完
取反 取反 取反 取反 融 取反 取反 合 融 合 融 合 融 合 融 合 融 合 相加 相加 相加 逐点卷积层 全局平局池化层 深度卷积取反层 深度卷积层 深度卷积融合层 分类器 图 4 L-MobileNet 网络结构 Fig. 4 L-MobileNet network structure 表 1 L-MobileNet 参数设置 Table 1 L-MobileNet parameters setting 层名称 卷积核 步长 填充 层名称 卷积核 步长 填充 大小 个数 大小 个数 输入层 ― ― ― ― 逐点卷积层8 1×1 64 1 有 逐点卷积层1 1×1 32 1 有 逐点卷积层9 1×1 384 1 有 深度卷积1 3×3 32 1 有 深度卷积5 3×3 384 1 有 逐点卷积层2 1×1 24 1 有 逐点卷积层10 1×1 64 1 有 逐点卷积层3 1×1 144 1 有 逐点卷积层11 1×1 384 1 有 深度卷积2 3×3 144 2 有 深度卷积6 3×3 384 1 有 逐点卷积层4 1×1 32 1 有 逐点卷积层12 1×1 64 1 有 逐点卷积层5 1×1 196 1 有 逐点卷积层13 1×1 384 1 有 深度卷积3 3×3 196 1 有 全局平均池化 ― ― ― ― 逐点卷积层6 1×1 32 1 有 逐点卷积层14 1×1 ― 1 有 逐点卷积层7 1×1 196 1 有 ― ― ― ― ― 深度卷积4 3×3 196 2 有 输出层 ― ― ― ― 2.1 特征信息的融合 l l−1 x l j j ◦ x l−1 i i k l i j i j b l j Mj j f (·) 如图 4 所示,本文对特征信息的融合采用的 是在深度卷积层提取了原始图像局部特征后,同 步进行深度卷积取反层,然后利用深度卷积融合 层对 2 层特征信息进行处理。符号说明如下:对 于给定的图像,其中 表示当前层, 表示前一 层, 表示当前层第 个特征图, 代表深度卷积 运算, 表示前一层第 个特征图, 表示该层 第 个特征图和前一层第 个特征图所作用的卷 积核, 表示偏置值, 表示产生该层第 个特 征图相关的前一层特征图累计值, 表示 Leaky ReLU 激活函数。 深度卷积层对输入的处理为 x l j = f ∑ i∈Mj x l−1 i ◦ k l i j +b l j (5) 深度卷积取反层同步对输入进行处理为 x l j = f − ∑ i∈Mj x l−1 i ◦ k l i j +b l j (6) 深度卷积融合层将前 2 步提取的信息进行融 合为 x l j = f [ x l−1 i ◦ k l i j +b l j ] +f [ − ( x l−1 i ◦ k l i j +b l j )], i ∈ Mj (7) 深度卷积融合层所提取出的特征,不仅包含 了原始深度卷积层中的特征信息,而且对潜在的 图像局部区域的特征进行提取,融合后的特征随 着网络训练的进行,不断学习出识别效果优秀的 高维特征信息。 2.2 负值特征信息的提取 如图 4 可知,L-MobileNet 网络结构中有 6 个 大卷积块,为了提高 MobileNet 网络中对负值特 征信息的敏感度和负值特征信息传播过程中的完 ·14· 智 能 系 统 学 报 第 16 卷
第1期 高淑萍,等:改进MobileNet的图像分类方法研究 ·15· 整度,本文将原始的ReLU激活函数替换为Leaky min s(W.b:0)= ,明 ReLU激活函数,并引人类残差结构。经典的 CNN受限于固定的卷积核大小和激活函数的选 y(yn p)log P(y=plx,0p) +R( 取,影响了负值特征信息的提取和传播,而Mobi- (10) leNet网络虽对卷积核形式有所改变但对负值特 式中:C表示类别;W表示样本数;y表示Dirich- 征信息量仍提取不足。由于Leaky ReLU激活函 let函数;参数6=(0,,…,e);R)表示正则化约 数自身特性对负值敏感,能够保障神经元不死 束项;入表示正则化系数。 亡,并且类残差结构可以防止梯度弥散,利于负 损失函数ε对输入c的导数为 值特征信息的传播,所以本文在每一个卷积层后 ds as of(c) (11) 使用Leaky ReLU(a,=5.5)激活函数和在第3、5及 第6卷积块使用类残差结构。 afc)」 1. c≥0 (12) 由于前向传播过程中前面网络层中梯度的计 c<0 算尚可保持较大值,而越靠后的网络层中梯度值 式中:ε表示损失函数;c表示前一网络层的输 会越来越小,导致反向传播过程中极易出现梯度 出;f(c)表示前一网络层经过非线性变换后的输 弥散现象,所以本文将类残差结构放置在网络中 出:a是(L,+o)的固定参数:石表示从网络深 ds 后端位置。以其中一个卷积块为例,如果特征向 量的维度越低,卷积层中的计算量越小,导致网 层传播来的梯度:表示当前层输人值的梯 络结构整体计算速度越快,但这并不能够提取出 度。当增大前向传播中对特征信息的存储后,将 输入图像全面且有效的特征信息。为了达到网络 减小训练样本的误差,再通过反向传播算法进一 结构平衡的目的,本文采取含有高维特征向量的 步影响了网络结构中的参数更新。 设计:卷积块的输入端采用1×1的逐点卷积结构, 参数的更新规则为 目的是将特征信息从低维空间映射到高维空间, 同时受文献[7]的启发,将其中负责维度扩展的 Ac←uac+oac+ae (13) c 超参数的默认值设置为6。卷积块的输出端同样 c←c+△c (14) 采用1×1的逐点卷积结构,在没有超参数的设定 式中:c表示前一网络层的输出;ε表示损失函 下,可以将特征信息从高维空间映射到低维空间。 数;μ表示动量系数;α表示学习率;ω表示权重衰 逐点卷积计算为 减系数。本文L-MobileNet:通过影响网络中参数 c和更新,最终影响到网络结构的分类结果。 图+ (8) 网模型的参数量(空间复杂度)的计算为 式中:()代表逐点卷积运算;其余符号与式(5)相 ExCE-XC+xC (15) 同。为了保证负值特征信息的完整度,在卷积块 F=1 中每一个卷积层后,摒弃掉可能会造成信息丢失 网络模型的计算量(时间复杂度)的计算为 的ReLU激活函数,使用Leaky ReLU激活函数。 卷积块以逐点卷积、深度卷积、逐点卷积交错的 Time De3xkxCr-1+De3xCrxCr- (16 r=l 方式排列。 式中:Cr为第r层卷积核个数;C-1为上一层的输 2.3传播过程中的参数更新原理 出通道数;k为卷积核尺寸;M为输出特征映射 在反向传播的参数更新中,L-MobileNet网络 的边长;D为所有卷积层数;O()为所需要的空间 结构使用Tensorflow框架下tf average_pooling2d 资源量。由于本文使用的激活函数是Leaky 进行全局平均池化,根据输入信息的类别数目由 RLU函数,因此可以通过原位运算完成从输入 逐点卷积层输出。 到输出的非线性映射,排除输出特征映射的参数 用Softmax分类器来进行输出分类为 量。根据式(15)、(I6)计算表明,L-MobileNet参 Y(p)=P(y=plx,0p) (9) 数总量为280万、计算量为320百万次,与Mobi- leNetV1的420万个参数、575百万次计算量和 p=1 MobileNetV2m的340万个参数、300百万次计算 采用交叉熵优化的损失函数为 量相比,本文方法参数量更少
ai = 5.5 整度,本文将原始的 ReLU 激活函数替换为 Leaky ReLU 激活函数,并引入类残差结构。经典的 CNN 受限于固定的卷积核大小和激活函数的选 取,影响了负值特征信息的提取和传播,而 MobileNet 网络虽对卷积核形式有所改变但对负值特 征信息量仍提取不足。由于 Leaky ReLU 激活函 数自身特性对负值敏感,能够保障神经元不死 亡,并且类残差结构可以防止梯度弥散,利于负 值特征信息的传播,所以本文在每一个卷积层后 使用 Leaky ReLU( ) 激活函数和在第 3、5 及 第 6 卷积块使用类残差结构。 由于前向传播过程中前面网络层中梯度的计 算尚可保持较大值,而越靠后的网络层中梯度值 会越来越小,导致反向传播过程中极易出现梯度 弥散现象,所以本文将类残差结构放置在网络中 后端位置。以其中一个卷积块为例,如果特征向 量的维度越低,卷积层中的计算量越小,导致网 络结构整体计算速度越快,但这并不能够提取出 输入图像全面且有效的特征信息。为了达到网络 结构平衡的目的,本文采取含有高维特征向量的 设计:卷积块的输入端采用 1×1 的逐点卷积结构, 目的是将特征信息从低维空间映射到高维空间, 同时受文献 [7] 的启发,将其中负责维度扩展的 超参数的默认值设置为 6。卷积块的输出端同样 采用 1×1 的逐点卷积结构,在没有超参数的设定 下,可以将特征信息从高维空间映射到低维空间。 逐点卷积计算为 x l j = f ∑ i∈Mj x l−1 i · k l i j +b l j (8) 式中: (·) 代表逐点卷积运算;其余符号与式 (5) 相 同。为了保证负值特征信息的完整度,在卷积块 中每一个卷积层后,摒弃掉可能会造成信息丢失 的 ReLU 激活函数,使用 Leaky ReLU 激活函数。 卷积块以逐点卷积、深度卷积、逐点卷积交错的 方式排列。 2.3 传播过程中的参数更新原理 在反向传播的参数更新中,L-MobileNet 网络 结构使用 Tensorflow 框架下 tf.average_pooling2d 进行全局平均池化,根据输入信息的类别数目由 逐点卷积层输出。 用 Softmax 分类器来进行输出分类为 Y (p) = P ( y = p|x , θp ) = e x T θp ∑C p=1 e x Tθp (9) 采用交叉熵优化的损失函数为 min {W,b;θ} ε(W,b; θ) = 1 N ∑N n=1 − ∑C p=1 γ(yn = p)logP ( y = p| x, θp ) +λR(θ) (10) C N γ θ = (θ1, θ2,··· , θk) R(·) λ 式中: 表示类别; 表示样本数; 表示 Dirichlet 函数;参数 ; 表示正则化约 束项; 表示正则化系数。 损失函数 ε 对输入 c 的导数为 ∂ε ∂c = ∂ε ∂ f(c) ∂ f(c) ∂c (11) ∂ f(c) ∂c = 1, c ⩾ 0 1 ai , c < 0 (12) ε c f(c) ai (1,+∞) ∂ε ∂ f(c) ∂ f(c) ∂c 式中: 表示损失函数; 表示前一网络层的输 出; 表示前一网络层经过非线性变换后的输 出; 是 的固定参数; 表示从网络深 层传播来的梯度; 表示当前层输入值的梯 度。当增大前向传播中对特征信息的存储后,将 减小训练样本的误差,再通过反向传播算法进一 步影响了网络结构中的参数更新。 参数的更新规则为 ∆c ← µ∆c+ωαc+α ∂ε ∂c (13) c ← c+∆c (14) c ε µ α ω c ∂ε ∂c 式中: 表示前一网络层的输出; 表示损失函 数; 表示动量系数; 表示学习率; 表示权重衰 减系数。本文 L-MobileNet 通过影响网络中参数 和 更新,最终影响到网络结构的分类结果。 网络模型的参数量 (空间复杂度) 的计算为 CSpace ∼ O ∑D l ′=1 k 3 l ′ ×Cl ′−1 ×Cl ′ + ∑D l ′=1 M3 ×Cl ′ (15) 网络模型的计算量(时间复杂度)的计算为 Time ∼ O ∑B l ′=1 DF 3 ×k 3 l ′ ×Cl ′−1 + DF 3 ×Cl ′ ×Cl ′−1 (16) Cl ′ l ′ Cl ′−1 kl ′ M D O(·) 式中: 为第 层卷积核个数; 为上一层的输 出通道数; 为卷积核尺寸; 为输出特征映射 的边长; 为所有卷积层数; 为所需要的空间 资源量。由于本文使用的激活函数 是 Leaky ReLU 函数,因此可以通过原位运算完成从输入 到输出的非线性映射,排除输出特征映射的参数 量。根据式 (15)、(16) 计算表明,L-MobileNet 参 数总量为 280 万、计算量为 320 百万次,与 MobileNetV1[6] 的 420 万个参数、575 百万次计算量和 MobileNetV2[7] 的 340 万个参数、300 百万次计算 量相比,本文方法参数量更少。 第 1 期 高淑萍,等:改进 MobileNet 的图像分类方法研究 ·15·
·16· 智能系统学报 第16卷 2.4算法步骤 类另取400张图片用于测试验证。在实验前将 L-MobileNet网络结构的初始学习率设置为 4个数据集进行了左右翻转、上下翻转、调整图 0.1,随着训练轮数增加和训练误差变小,学习率 片亮度、调整图片对比度和白化的数据预处理 呈自适应状态且衰减系数为0.96,直到达到最大 技术。 训练轮数时停止训练。对于数据集D={(x,y)心, Airplane L-MobileNet网络算法步骤为 Automobile Bird 输入训练数据集D={(cayn)%,L-MobileN- Cat et网络结构,图像分类数,每一批的数量,自适应 Deer Dog 学习率的初始值和衰减系数。 Frog Horse 1)利用预处理技术将数据集D={(xy) Ship 中的训练集与测试集进行处理,转换为符合L Truck MobileNet网络结构输入的四维数组即每一批输 图5 Cifar-10数据集的部分图例 入的图片数和每一批次输入的标签数。 Fig.5 Partial legend of Cifar-10 dataset 2)将每一批输入的图片数和每一批次输入的 标签数导入网络架构文件中,并初始化L-Mobile-. Net网络中所有的权值k和偏置b。 3)令1=1。 4)用L-MobileNet网络对输入进行训练,计算 训练样本的实际输出值及每一网络层所产生的误 33 34 35 36 37 差总和。 5)用RMSProp算法优化器计算网络中权值 图6 Dogs vs Cats数据集的部分图例 和偏置的偏导数以此更新相应参数值。 Fig.6 Partial legend of Dogs vs Cats dataset 6)判断I>Epoch训练轮数是否成立,成立则 3.2实验仿真环境 停止训练:不成立,则返回4)。 为验证L-MobileNet网络结构有效性,本文将 输出参数(权值k和偏置b)已知的L-Mo 其与经典的CNN、MobileNetV1、MobileNetV2、经 bileNet网络结构。 典的CNN+Leaky ReLU,MobileNetVI+Leaky ReLU和MobileNetV2+Leaky ReLU进行对比实 3实验与结果分析 验,并评价各网络结构,所有对比实验均采用相 同卷积层设置,且每层参数设置也相同。 3.1实验数据集 实验仿真环境采用tensorflowl.14框架,编程 实验数据取自Cifar-.10、Cifar-100和Dogs vs 语言为Python3.7,框架平台为PyCharm2019.1.1, Cats。Cifar--10数据集中有10种类别,由60000 使用Windos10,64位操作系统,CPU使用Intel 张32×32彩色图片组成,每种类别包含6000张图 Core i7-7700K,GPU使用NVDIA GTX10808G,内 片,总计有10000张测试图片和50000张训练图 存为32G以实现所有实验。 片。Cifar-.10数据集分为1个测试批次和5个训 3.3训练过程及实验对比 练批次,测试批次是由每种类别中随机选择的 在L-MobileNet网络输入层中,按照数据集中 1000张图片组成,其余5个训练批次是由每种类 图片大小输入即可,训练及测试样本batch size 别中随机的剩余图片组成(某个训练批次可能包 为128。卷积层中,逐点卷积使用1×1卷积核,深 含某个类别的图片数量多于另一个类别的图片数 度卷积使用3×3卷积核,并对每次卷积操作进行 量)。图5显示Cifar-l0数据集中部分样本。Ci- Leaky ReLU激活函数的非线性特征提取,利用深 far-100数据集与Cifar-10数据集结构类似,但有 度卷积融合层来产生更多的特征,使得模型增强 coarse和fine2种数据构成。图6显示Dogs vs 数据分类学习过程中的控制力。训练过程中使 Cats数据集中部分样本。实验采用的Cifar-.l0、 用RMSPropOptimizer优化策略,decay为0.9,mo- Cifar--l00(coarse)和Cifar-l00(fine)数据集划分采 mentum为0.9。学习率采用自适应学习率,decay_ 取5:1的比例,在60000张图片中,50000张图片 rate为0.96。对于Cifar-l0、Cifar-l00(fine)、Cifar- 用于训练,10000张图片用于测试验证。Dogs vs I00(coarse)和Dogs vs Cats数据集,经典的CNN、 Cats数据集各类取前2000张图片用于训练,各 MobileMetV1、MobileNetV2以及L-MobileNet4种
2.4 算法步骤 D = {(xn, yn)} N n=1 L-MobileNet 网络结构的初始学习率设置为 0.1,随着训练轮数增加和训练误差变小,学习率 呈自适应状态且衰减系数为 0.96,直到达到最大 训练轮数时停止训练。对于数据集 , L-MobileNet 网络算法步骤为 D = {(xn, yn)} N 输入 训练数据集 n=1,L-MobileNet 网络结构,图像分类数,每一批的数量,自适应 学习率的初始值和衰减系数。 D = {(xn, yn)} N 1) 利用预处理技术将数据集 n=1 中的训练集与测试集进行处理,转换为符合 LMobileNet 网络结构输入的四维数组即每一批输 入的图片数和每一批次输入的标签数。 k b 2) 将每一批输入的图片数和每一批次输入的 标签数导入网络架构文件中,并初始化 L-MobileNet 网络中所有的权值 和偏置 。 3) 令 l = 1。 4) 用 L-MobileNet 网络对输入进行训练,计算 训练样本的实际输出值及每一网络层所产生的误 差总和。 5) 用 RMSProp 算法优化器计算网络中权值 和偏置的偏导数以此更新相应参数值。 6) 判断 l > Epoch 训练轮数是否成立,成立则 停止训练;不成立,则返回 4)。 输出 参数 (权值 k 和偏置 b ) 已知的 L-MobileNet 网络结构。 3 实验与结果分析 3.1 实验数据集 实验数据取自 Cifar-10、Cifar-100 和 Dogs vs Cats。Cifar-10 数据集中有 10 种类别,由 60 000 张 32×32 彩色图片组成,每种类别包含 6 000 张图 片,总计有 10 000 张测试图片和 50 000 张训练图 片。Cifar-10 数据集分为 1 个测试批次和 5 个训 练批次,测试批次是由每种类别中随机选择的 1 000 张图片组成,其余 5 个训练批次是由每种类 别中随机的剩余图片组成 (某个训练批次可能包 含某个类别的图片数量多于另一个类别的图片数 量)。图 5 显示 Cifar-10 数据集中部分样本。Cifar-100 数据集与 Cifar-10 数据集结构类似,但有 coarse 和 fine 2 种数据构成。图 6 显示 Dogs vs Cats 数据集中部分样本。实验采用的 Cifar-10、 Cifar-100(coarse) 和 Cifar-100(fine) 数据集划分采 取 5:1 的比例,在 60 000 张图片中,50 000 张图片 用于训练,10 000 张图片用于测试验证。Dogs vs Cats 数据集各类取前 2 000 张图片用于训练,各 类另取 400 张图片用于测试验证。在实验前将 4 个数据集进行了左右翻转、上下翻转、调整图 片亮度、调整图片对比度和白化的数据预处理 技术。 Airplane Automobile Bird Cat Deer Dog Frog Horse Ship Truck 图 5 Cifar-10 数据集的部分图例 Fig. 5 Partial legend of Cifar-10 dataset 1 2 3 4 5 17 18 19 20 21 33 34 35 36 37 图 6 Dogs vs Cats 数据集的部分图例 Fig. 6 Partial legend of Dogs vs Cats dataset 3.2 实验仿真环境 为验证 L-MobileNet 网络结构有效性,本文将 其与经典的 CNN、MobileNetV1、MobileNetV2、经 典的 CNN+Leaky ReLU,MobileNetV1+Leaky ReLU 和 MobileNetV2+Leaky ReLU 进行对比实 验,并评价各网络结构,所有对比实验均采用相 同卷积层设置,且每层参数设置也相同。 实验仿真环境采用 tensorflow1.14 框架,编程 语言为 Python3.7,框架平台为 PyCharm2019.1.1, 使用 Windos10,64 位操作系统,CPU 使用 Intel Core i7-7700K,GPU 使用 NVDIA GTX1080 8 G,内 存为 32 G 以实现所有实验。 3.3 训练过程及实验对比 在 L-MobileNet 网络输入层中,按照数据集中 图片大小输入即可,训练及测试样本 batch_size 为 128。卷积层中,逐点卷积使用 1×1 卷积核,深 度卷积使用 3×3 卷积核,并对每次卷积操作进行 Leaky ReLU 激活函数的非线性特征提取,利用深 度卷积融合层来产生更多的特征,使得模型增强 数据分类学习过程中的控制力。训练过程中使 用 RMSPropOptimizer 优化策略,decay 为 0.9,momentum 为 0.9。学习率采用自适应学习率,decay_ rate 为 0.96。对于 Cifar-10、Cifar-100(fine)、Cifar- 100(coarse) 和 Dogs vs Cats 数据集,经典的 CNN、 MobileMetV1、MobileNetV2 以及 L-MobileNet 4 种 ·16· 智 能 系 统 学 报 第 16 卷
第1期 高淑萍,等:改进MobileNet的图像分类方法研究 ·17· 模型分别通过50、50、50和200个Epoch训练,每 记录,所有网络模型均达到收敛状态,4种模型随 经过一个Epoch,用测试集进行准确率的验证和 Epoch的准确率变化曲线如图7所示。 100 80t 60 -Classical CNN 40 Classical CNN -MobilenetVI MobilenetVI 20 20 一本文方法 10 20 30 40 50 10 20 30 4050 Epoch Epoch (a)Cifr-10准确率变化曲线 (b)Cifar--100(coarse)准确率变化曲线 70 100 60 0 80 0 -Classical CNN 二 本文方法 10 20 30 4050 0 50 100 150200 Epoch Epoch (c)Cifar-100(Gne)准确率变化曲线 (d)Dogs vs Cats准确率变化曲线 图7不同数据集下准确率变化曲线 Fig.7 Accuracy curve under different datasets 在相同的参数设置和卷积层设置下,本文还 far-l00(coarse)和Dogs vs Cats数据集上,分别经 将经典的CNN、MobileNetV1以及MobileNetV2 过50、50、50和200个Epoch训练,所有网络模型 分别作用于Leaky ReLU激活函数同L-MobileN- 均达到收敛状态,其准确率随Epoch的变化曲线 et进行对比实验,在Cifar-l0、Cifar-l00(fine)、Ci- 如图8所示。 100 80 80 40 -Classical CNN+Leaky ReLU Classical CNN+Leaky ReLU -MobilenetV1+Leaky ReLU MobilenetV1+Leaky ReLU MobilenetV2+Leaky ReLU 20 MobilenetV2+Leaky ReLU 。本文方法 本文方法 10 2030 40 50 0 10 2030 40 50 Epoch Epoch (a)Cifar--l0准确率变化曲线 (b)Cifar-l00(coarse)准确率变化曲线 0 100 60 80 50 40 % 30 Classical CNN+Leaky ReLU Classical CNN+Leaky ReLU MobilenetV1+Leaky ReLU % -MobilenetV1+Leaky ReLU -MobilenetV2+Leaky ReLU 20 -MobilenetV2+Leaky ReLU 一本文方法 一本文方法 10 2030 4050 0 100 150 200 Epoch Epoch (c)Cifar--l00(fine)准确率变化曲线 (d)Dogs vs Cats准确率变化曲线 图8不同数据集下准确率变化曲线 Fig.8 Accuracy curve under different datasets 可以看出,对于经典的CNN、MobileNetV1以 bileNet是有效的。 及MobileNetV2网络结构中使用Leaky ReLU激 3.4实验结果及分析 活函数时,虽然分类准确率有所提升,但仍然低 本文使用的评价指标是最高准确率和平均准 于L-MobileNet的分类准确率,这表明本文L-Mo- 确率。最高准确率是在所有训练轮数中正确分类
模型分别通过 50、50、50 和 200 个 Epoch 训练,每 经过一个 Epoch,用测试集进行准确率的验证和 记录,所有网络模型均达到收敛状态,4 种模型随 Epoch 的准确率变化曲线如图 7 所示。 准确率/% 100 80 60 40 20 0 准确率/% 100 80 60 40 20 0 准确率/% 80 60 40 20 10 20 30 40 50 10 20 30 0 50 100 150 200 40 50 Epoch Epoch Classical CNN MobilenetV1 MobilenetV2 本文方法 Classical CNN MobilenetV1 MobilenetV2 本文方法 准确率/% 70 60 50 40 30 20 10 0 10 20 30 40 50 Epoch Epoch Classical CNN MobilenetV1 MobilenetV2 本文方法 Classical CNN MobilenetV1 MobilenetV2 本文方法 (a) Cifar-10 准确率变化曲线 (b) Cifar-100 (coarse) 准确率变化曲线 (c) Cifar-100 (fine) 准确率变化曲线 (d) Dogs vs Cats 准确率变化曲线 图 7 不同数据集下准确率变化曲线 Fig. 7 Accuracy curve under different datasets 在相同的参数设置和卷积层设置下,本文还 将经典的 CNN、MobileNetV1 以及 MobileNetV2 分别作用于 Leaky ReLU 激活函数同 L-MobileNet 进行对比实验,在 Cifar-10、Cifar-100(fine)、Cifar-100(coarse) 和 Dogs vs Cats 数据集上,分别经 过 50、50、50 和 200 个 Epoch 训练,所有网络模型 均达到收敛状态,其准确率随 Epoch的变化曲线 如图 8 所示。 准确率/% 100 80 60 40 20 0 准确率/% 80 60 40 20 10 20 30 40 50 10 20 30 40 50 0 Epoch Epoch (a) Cifar-10 准确率变化曲线 (b) Cifar-100 (coarse) 准确率变化曲线 Classical CNN+Leaky ReLU MobilenetV1+Leaky ReLU MobilenetV2+Leaky ReLU 本文方法 Classical CNN+Leaky ReLU MobilenetV1+Leaky ReLU MobilenetV2+Leaky ReLU 本文方法 准确率/% 100 80 60 40 20 0 50 100 150 200 准确率/% 70 60 50 40 30 20 10 0 10 20 30 40 50 Epoch Epoch (c) Cifar-100 (fine) 准确率变化曲线 (d) Dogs vs Cats 准确率变化曲线 Classical CNN+Leaky ReLU MobilenetV1+Leaky ReLU MobilenetV2+Leaky ReLU 本文方法 Classical CNN+Leaky ReLU MobilenetV1+Leaky ReLU MobilenetV2+Leaky ReLU 本文方法 图 8 不同数据集下准确率变化曲线 Fig. 8 Accuracy curve under different datasets 可以看出,对于经典的 CNN、MobileNetV1 以 及 MobileNetV2 网络结构中使用 Leaky ReLU 激 活函数时,虽然分类准确率有所提升,但仍然低 于 L-MobileNet 的分类准确率,这表明本文 L-MobileNet 是有效的。 3.4 实验结果及分析 本文使用的评价指标是最高准确率和平均准 确率。最高准确率是在所有训练轮数中正确分类 第 1 期 高淑萍,等:改进 MobileNet 的图像分类方法研究 ·17·
·18 智能系统学报 第16卷 的样本数占样本总数的比例最大值,平均准确率 好结果,在最高准确率方面,相较于MobileNetVI 是所有训练轮数的准确率平均值。在Cifar-l0、 分别提升了4.56%和2.84%,比MobileNetV2分别 Cifar-100(fine),Cifar-100(coarse)Dogs vs Cats 提升了3.26%和1.84%。在Dogs vs Cats数据集的 4个数据集中所有网络结构的平均准确率数据和 实验结果中,因类别数较少,整体分类精度较 最高准确率数据如表2所示。 高。MobileNetV1和MobileNetV2在平均准确率 从图7和表2可知,在4个数据集分类实验 和最高准确率上的结果相较于经典的CNN提升 中,本文提出的L-MobileNet的分类准确率要明显 明显,MobileNetV1分别达到了78.48%和84.96%, 高于经典的CNN、MobileNetV1以及MobileNetV2。 而MobileNetV:2分别达到了80.87%和88.81%,本 在Cifar-.l0数据集的实验结果中,经典的CNN的 文提出的L-MobileNet比经典的CNN在平均准确 平均准确率为70.31%,MobileNet系列的准确率 率上提升了10.23%,最高准确率上提升了14.08% 相比经典的CNN有较大提升,平均准确率分别达 分别达到了85.51%和93.94%的分类精度。出现 到了74.31%和75.65%。在最高准确率方面,M0 这样结果的原因是MobileNet系列使用了改进的 bileNetV1和MobileNetV2也比经典的CNN分别 深度可分离卷积结构,改善了经典的CNN网络 提升了4.57%和5.67%,但仍然低于L-MobileN- 结构中的池化等丢失特征信息的问题,而本文方 et中83.11%的平均准确率和87.36%的最高准确 法在MobileNet的基础上,利用深度卷积融合层 率。在Cifar-l00(coarse)和Cifar-l00(fine)数据集 和Leaky ReLU激活函数可以更全面的提取特征 的实验结果中,可以看出L-MobileNet仍是达到最 信息。 表27种网络结构在4种数据集中准确率统计 Table 2 Accuracy statistics of seven network structures in four datasets % Cifar-10 Cifar-100(coarse) Cifar-100(fine) Dogs vs Cats 模型结构 平均 最高 平均 最高 平均 最高 平均 最高 准确率 准确率 准确率 准确率 准确率 准确率 准确率 准确率 经典CNN 70.31 75.69 54.69 62.97 43.92 49.86 75.28 79.86 经典CNN+Leaky ReLU 73.42 78.86 57.28 64.85 44.97 50.96 76.92 80.98 MobileNetV1 74.31 80.26 56.38 64.58 49.21 56.12 78.48 84.96 MobileNetV1+Leaky ReLU 75.54 81.54 57.51 65.86 50.17 57.19 79.88 85.87 MobileNetV2 75.65 81.36 57.47 65.88 50.24 57.12 80.87 88.81 MobileNetV2+Leaky ReLU 77.11 82.36 58.51 66.78 51.19 58.33 81.65 89.96 L-MobileNet 83.11 87.36 61.63 69.14 53.61 58.96 85.51 93.94 从图8和表2可知,将经典的CNN、MobileN- 数对潜在局部区域的负值特征信息更敏感。 etVI以及MobileNetV2分别作用于Leaky ReLU 综合以上实验结果表明,本文对MobileNet的 激活函数后,实验结果均不及本文提出的L-Mobi- 改进是有效的,所提出的L-MobileNet网络结构具 leNet。.经典的CNN+Leaky ReLU在4个数据集中 有较好的分类效果。L-MobileNet在不同的数据 都处于最差水平,L-MobileNet在4个数据集的平 集上表现出优秀的泛化能力,具有良好的推广应 均准确率和最高准确率都处于最好水平。在C- 用前景。 far-l0、Cifar-l00(fine)、Cifar-l00(coarse)和Dogs vs 为了进一步验证本文方法的有效性,在Cifar- Cats4个数据集的最高准确率方面,L-MobileN- l0数据集上将L-MobileNet网络结构与近几年图 et比MobileNetVI+Leaky ReLU分别提升了 像分类上具有代表性的8种方法进行分类精度的 5.82%、3.28%、1.77%和8.07%,并且改进的Mobi- 对比,比较结果如表3所示。 leNet比MobileNetV2+Leaky ReLU分别提升了 由表3可以得出,与传统学习方法(Mean-co- 5%、2.36%、0.63%和3.98%。实验结果说明了网 variance RBM、Improved local coord、PCANet)相 络结构与Leaky ReLU激活函数的结合的确可以 比,本文提出的L-MobileNet优势明显,且有较大 提高图像分类准确率,原因是Leaky ReLU激活函 提升。但与其他基于深度学习的方法(Highway~
的样本数占样本总数的比例最大值,平均准确率 是所有训练轮数的准确率平均值。在 Cifar-10、 Cifar-100(fine)、Cifar-100(coarse) 和 Dogs vs Cats 4 个数据集中所有网络结构的平均准确率数据和 最高准确率数据如表 2 所示。 从图 7 和表 2 可知,在 4 个数据集分类实验 中,本文提出的 L-MobileNet 的分类准确率要明显 高于经典的 CNN、MobileNetV1 以及 MobileNetV2。 在 Cifar-10 数据集的实验结果中,经典的 CNN 的 平均准确率为 70.31%,MobileNet 系列的准确率 相比经典的 CNN 有较大提升,平均准确率分别达 到了 74.31% 和 75.65%。在最高准确率方面,MobileNetV1 和 MobileNetV2 也比经典的 CNN 分别 提升了 4.57% 和 5.67%,但仍然低于 L-MobileNet 中 83.11% 的平均准确率和 87.36% 的最高准确 率。在 Cifar-100(coarse) 和 Cifar-100(fine) 数据集 的实验结果中,可以看出 L-MobileNet 仍是达到最 好结果,在最高准确率方面,相较于 MobileNetV1 分别提升了 4.56% 和 2.84%,比 MobileNetV2 分别 提升了 3.26% 和 1.84%。在 Dogs vs Cats 数据集的 实验结果中,因类别数较少,整体分类精度较 高。MobileNetV1 和 MobileNetV2 在平均准确率 和最高准确率上的结果相较于经典的 CNN 提升 明显,MobileNetV1 分别达到了 78.48% 和 84.96%, 而 MobileNetV2 分别达到了 80.87% 和 88.81%,本 文提出的 L-MobileNet 比经典的 CNN 在平均准确 率上提升了 10.23%,最高准确率上提升了 14.08%, 分别达到了 85.51% 和 93.94% 的分类精度。出现 这样结果的原因是 MobileNet 系列使用了改进的 深度可分离卷积结构,改善了经典的 CNN 网络 结构中的池化等丢失特征信息的问题,而本文方 法在 MobileNet 的基础上,利用深度卷积融合层 和 Leaky ReLU 激活函数可以更全面的提取特征 信息。 表 2 7 种网络结构在 4 种数据集中准确率统计 Table 2 Accuracy statistics of seven network structures in four datasets % 模型结构 Cifar-10 Cifar-100(coarse) Cifar-100(fine) Dogs vs Cats 平均 准确率 最高 准确率 平均 准确率 最高 准确率 平均 准确率 最高 准确率 平均 准确率 最高 准确率 经典 CNN 70.31 75.69 54.69 62.97 43.92 49.86 75.28 79.86 经典 CNN+Leaky ReLU 73.42 78.86 57.28 64.85 44.97 50.96 76.92 80.98 MobileNetV1 74.31 80.26 56.38 64.58 49.21 56.12 78.48 84.96 MobileNetV1+Leaky ReLU 75.54 81.54 57.51 65.86 50.17 57.19 79.88 85.87 MobileNetV2 75.65 81.36 57.47 65.88 50.24 57.12 80.87 88.81 MobileNetV2+Leaky ReLU 77.11 82.36 58.51 66.78 51.19 58.33 81.65 89.96 L-MobileNet 83.11 87.36 61.63 69.14 53.61 58.96 85.51 93.94 从图 8 和表 2 可知,将经典的 CNN、MobileNetV1 以及 MobileNetV2 分别作用于 Leaky ReLU 激活函数后,实验结果均不及本文提出的 L-MobileNet。经典的 CNN+Leaky ReLU 在 4 个数据集中 都处于最差水平,L-MobileNet 在 4 个数据集的平 均准确率和最高准确率都处于最好水平。在 Cifar-10、Cifar-100(fine)、Cifar-100(coarse) 和 Dogs vs Cats 4 个数据集的最高准确率方面,L-MobileNet 比 MobileNetV1+Leaky ReLU 分别提升了 5.82%、3.28%、1.77% 和 8.07%,并且改进的 MobileNet 比 MobileNetV2+Leaky ReLU 分别提升了 5%、2.36%、0.63% 和 3.98%。实验结果说明了网 络结构与 Leaky ReLU 激活函数的结合的确可以 提高图像分类准确率,原因是 Leaky ReLU 激活函 数对潜在局部区域的负值特征信息更敏感。 综合以上实验结果表明,本文对 MobileNet 的 改进是有效的,所提出的 L-MobileNet 网络结构具 有较好的分类效果。L-MobileNet 在不同的数据 集上表现出优秀的泛化能力,具有良好的推广应 用前景。 为了进一步验证本文方法的有效性,在 Cifar- 10 数据集上将 L-MobileNet 网络结构与近几年图 像分类上具有代表性的 8 种方法进行分类精度的 对比,比较结果如表 3 所示。 由表 3 可以得出,与传统学习方法 (Mean-covariance RBM、Improved local coord 、PCANet) 相 比,本文提出的 L-MobileNet 优势明显,且有较大 提升。但与其他基于深度学习的方法 (Highway、 ·18· 智 能 系 统 学 报 第 16 卷
第1期 高淑萍,等:改进MobileNet的图像分类方法研究 。19· Maxout-+Dropout、NIN)相比较,分类精度尚有不 image recognition[C]//Proceedings of the IEEE Confer- 足,主要原因是NN网络结构在卷积层后加入了 ence on Computer Vision and Pattern Recognition.Las Ve- BN和Dropout技术,而Maxout网络结构和High- gas,USA,2016:770-778. way网络结构使用了更多的网络层数,属于深度 [4]HAN K.WANG Y.TIAN Q.et al.GhostNet:More fea- 网络。本文提出的L-MobileNet网络结构在低网 tures from cheap operations[J].arXiv preprint arXiv: 络结构中具有一定的优势。 1911.11907.2019. 表39种不同方法在Cifar-10数据集上的分类精度 [5]ZHANG X.ZHOU X.LIN M.et al.Shufflenet:an ex- Table 3 Classification accuracy of 9 different methods on tremely efficient convolutional neural network for mobile Cifar-10 dataset devic-es[Cl//Proceedings of the IEEE Conference on Com- 方法 分类精度/% puter Vision and Pattern Recognition.Salt Lake City, Mean-covariance RBM(3 layers) 71.00 USA.2018:6848-6856. Improved Local Coord.Coding 74.50 [6]HOWARD A G,ZHU Menglong,CHEN Bo,et al.Mobi- PCANetRI leNets:efficient convolutional neural networks for mobile 78.67 Stochastic pooling ConvNet221 vision applications[J].arXiv:1704.04861,2017. 84.87 [7]SANDLER M,HOWARD A,ZHU Menglong,et al.Mobi- Improved LeNet-5231 86.78 leNetv2:inverted residuals and linear bottlenecks[Cl//Pro- Conv.Maxout+Dropou 88.32 ceedings of 2018 IEEE/CVF Conference on Computer Vis- NINPsI 89.59 ion and Pattern Recognition.Salt Lake City,USA,2018: Highway(19 layers) 92.46 4510-4520 L-MobileNet 87.36 [8]MA Ningning,ZHANG Xiangyu,ZHENG Haitao,et al. ShuffleNet V2:practical guidelines for efficient CNN ar- 4结束语 chitecture design[C]//Proceedings of the 15th European Conference on Computer Vision.Munich,Germany,2018: 为了解决具有复杂特征图像分类中由于特征 116-131. 信息提取能力不足,尤其是对负值特征信息不敏 [9]IANDOLA F N,HAN Song,MOSKEWICZ M W,et al. 感而造成图像分类精度下降的问题,本文提出了 SqueezeNet:AlexNet-level accuracy with 50x fewer para- 一个改进的MobileNet网络结构(L-MobileNet)o meters and <0.5MB model size[J].arXiv:1602.07360, 通过在4个公开数据集上进行的实验结果表明, 2016. 与其他6种神经网络图像分类方法相比,L-Mobi- [10]SUN Ke,LI Mingjie,LIU Dong,et al.IGCV3:inter- leNet分类精度高,在轻量级网络中具有优势,可 leaved low-rank group convolutions for efficient deep 复制能力强,可方便移植到移动端设备,使相关 neural networks[J].arXiv:1806.00178,2018 设备在包含复杂特征图像场景下,具有良好的分 [1l]黄跃珍,王乃洲,梁添才,等.基于改进型MobileNet网 类能力。进一步的研究工作内容:1)验证本文改 络的车型识别方法[.电子技术与软件工程,2019(1): 进方法在更深网络结构下的有效性,进一步提升 22-24 模型分类性能;2)进一步优化网络模型结构,以 HUANG Yuezhen,WANG Naizhou,LIANG Tiancai,et 适应没有标签样本的数据集。 al.Vehicle identification method based on improved mo- 参考文献: bilenet network[J].Electronic technology and software engineering,2019(1):22-24. [1]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based [12]刘鸿智.面向移动设备的轻型神经网络的改进与实现 learning applied to document recognition[J].Proceedings D]呼和浩特:内蒙古大学,2019。 of the IEEE,1998.86(11):2278-2324 LIU Hongzhi.Improvement and implementation of light- [2]SZEGEDY C.LIU Wei,JIA Yangqing,et al.Going deep- weight neural network for mobile devices[D].Hohhot:In- er with con-volutions[C]/Proceedings of 2015 IEEE Con- ner Mongolia University,2019. ference on Computer Vision and Pattern Recognition.Bo- [13]郭奕君,努尔毕亚·亚地卡尔,朱亚俐,等.基于Mobile- ston,USA,2015:1-9. Net网络多国人脸分类识别).图像与信号处理,2020, [3]HE K,ZHANG X,REN S,et al.Deep residual learing for 9(3):146-155
Maxout+Dropout、NIN) 相比较,分类精度尚有不 足,主要原因是 NIN 网络结构在卷积层后加入了 BN 和 Dropout 技术,而 Maxout 网络结构和 Highway 网络结构使用了更多的网络层数,属于深度 网络。本文提出的 L-MobileNet 网络结构在低网 络结构中具有一定的优势。 表 3 9 种不同方法在 Cifar-10 数据集上的分类精度 Table 3 Classification accuracy of 9 different methods on Cifar-10 dataset 方法 分类精度/% Mean-covariance RBM(3 layers)[19] 71.00 Improved Local Coord. Coding[20] 74.50 PCANet[21] 78.67 Stochastic pooling ConvNet[22] 84.87 Improved LeNet-5[23] 86.78 Conv. Maxout+Dropout[24] 88.32 NIN[25] 89.59 Highway(19 layers)[26] 92.46 L-MobileNet 87.36 4 结束语 为了解决具有复杂特征图像分类中由于特征 信息提取能力不足,尤其是对负值特征信息不敏 感而造成图像分类精度下降的问题,本文提出了 一个改进的 MobileNet 网络结构 (L-MobileNet)。 通过在 4 个公开数据集上进行的实验结果表明, 与其他 6 种神经网络图像分类方法相比,L-MobileNet 分类精度高,在轻量级网络中具有优势,可 复制能力强,可方便移植到移动端设备,使相关 设备在包含复杂特征图像场景下,具有良好的分 类能力。进一步的研究工作内容:1) 验证本文改 进方法在更深网络结构下的有效性,进一步提升 模型分类性能;2) 进一步优化网络模型结构,以 适应没有标签样本的数据集。 参考文献: LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [1] SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with con-volutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1–9. [2] [3] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. HAN K, WANG Y, TIAN Q, et al. GhostNet: More features from cheap operations[J]. arXiv preprint arXiv: 1911.11907, 2019. [4] ZHANG X, ZHOU X, LIN M, et al. Shufflenet: an extremely efficient convolutional neural network for mobile devic-es[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 6848–6856. [5] HOWARD A G, ZHU Menglong, CHEN Bo, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[J]. arXiv: 1704.04861, 2017. [6] SANDLER M, HOWARD A, ZHU Menglong, et al. MobileNetv2: inverted residuals and linear bottlenecks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 4510–4520. [7] MA Ningning, ZHANG Xiangyu, ZHENG Haitao, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany, 2018: 116–131. [8] IANDOLA F N, HAN Song, MOSKEWICZ M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size[J]. arXiv: 1602.07360, 2016. [9] SUN Ke, LI Mingjie, LIU Dong, et al. IGCV3: interleaved low-rank group convolutions for efficient deep neural networks[J]. arXiv: 1806.00178, 2018. [10] 黄跃珍, 王乃洲, 梁添才, 等. 基于改进型 MobileNet 网 络的车型识别方法 [J]. 电子技术与软件工程, 2019(1): 22–24. HUANG Yuezhen, WANG Naizhou, LIANG Tiancai, et al. Vehicle identification method based on improved mobilenet network[J]. Electronic technology and software engineering, 2019(1): 22–24. [11] 刘鸿智. 面向移动设备的轻型神经网络的改进与实现 [D]. 呼和浩特: 内蒙古大学, 2019. LIU Hongzhi. Improvement and implementation of lightweight neural network for mobile devices[D]. Hohhot: Inner Mongolia University, 2019. [12] 郭奕君, 努尔毕亚·亚地卡尔, 朱亚俐, 等. 基于 MobileNet 网络多国人脸分类识别 [J]. 图像与信号处理, 2020, 9(3): 146–155. [13] 第 1 期 高淑萍,等:改进 MobileNet 的图像分类方法研究 ·19·
·20· 智能系统学报 第16卷 GUO Yijun,ABUDIRIYIMU A,YADIKAR N,et al. larization of deep convolutional neural networks[J].arX- Multinational face classification and recognition based on iv:1301.3557.2013 MobileNet network[J].Journal of image and signal pro- [23]刘金利,张培玲.改进LeNet-5网络在图像分类中的应 cessing,2020,93:146-155. 用).计算机工程与应用,2019,55(15):32-37,95. [14]DUBEY A K,JAIN V.Comparative study of convolu- LIU Jinli,ZHANG Peiling.Application of improved Le- tion neural network's relu and leaky-relu activation func- Net-5 network in image classification[J].Computer engin- tions[M].MISHRA S,SOOD Y R,TOMAR A.Applica- eering and applications,2019 (15):5. tions of Computing,Automation and Wireless Systems in [24]GOODFELLOW I J,WARDE FARLEY D,MIRZA M. Electrical Engineering.Singapore:Springer,2019: et al.Maxout networks[J].arXiv preprint arXiv: 873-880 1302.4389,2013 [15]CHEN Yinpeng,DAI Xiyang,LIU Mengchen,et al.Dy- [25]LIN Min,CHEN Qiang,YAN Shuicheng.Network in namic ReLU[J].ar Xiv:2003.10027,2020. network[J].arXiv:1312.4400,2013. [16]KRIZHEVSKY A.Learning multiple layers of features [26]SRIVASTAVA R K,GREFF K,SCHMIDHUBER J. from tiny images[R].Toronto:University of Toronto, Highway networks[J].arXiv:1505.00387,2015 2009 作者简介: [17]DUGAN P,CUKIERSKI W.SHIU Y,et al.Kaggle com- 高淑萍,教授,主要研究方向为多 petition[J].Cornell University,the ICML,2013 目标优化理论与应用、数学与信息科 [18]XU Bing,WANG Naiyan,CHEN Tianqi,et al.Empirical 学交叉研究、大数据处理与分析。主 持、参与国家级和省自然科学基金项 evaluation of rectified activations in convolutional net- 目及横向项目多项。发表学术论文 work[0.arXiv:1505.00853,2015. 30余篇。 [19]RANZATO MA,HINTON G E.Modeling pixel means and covariances using factorized third-order Boltzmann 赵清源,硕士研究生,主要研究方 machines[C]//Proceedings of 2010 IEEE Computer Soci- 向为深度学习、图像分类、算法优化。 ety Conference on Computer Vision and Pattern Recogni- tion.San Francisco,USA.2010:2551-2558. [20]YU Kai,ZHANG Tong.Improved local coordinate Cod- ing using local tangents[C]//Proceedings of the 27th Inter- national Conference on Machine Learning.Haifa,Israel, 2010. 齐小刚,教授,博士生导师.主要 [21]CHAN T H,JIA Kui,GAO Shenghua,et al.PCANet:a 研究方向为复杂系统建模与仿真、网 络算法设计与应用。申请专利47项 simple deep learning baseline for image classification?. (授权19项),登记软件著作权4项。 IEEE transactions on image processing,2015,24(12): 发表学术论文100余篇。 5017-5032, [22]ZEILER M D,FERGUS R.Stochastic pooling for regu-
GUO Yijun, ABUDIRIYIMU A, YADIKAR N, et al. Multinational face classification and recognition based on MobileNet network[J]. Journal of image and signal processing, 2020, 9(3): 146–155. DUBEY A K, JAIN V. Comparative study of convolution neural network’s relu and leaky-relu activation functions[M]. MISHRA S, SOOD Y R, TOMAR A. Applications of Computing, Automation and Wireless Systems in Electrical Engineering. Singapore: Springer, 2019: 873–880. [14] CHEN Yinpeng, DAI Xiyang, LIU Mengchen, et al. Dynamic ReLU[J]. arXiv: 2003.10027, 2020. [15] KRIZHEVSKY A. Learning multiple layers of features from tiny images[R]. Toronto: University of Toronto, 2009. [16] DUGAN P, CUKIERSKI W, SHIU Y, et al. Kaggle competition[J]. Cornell University, the ICML, 2013. [17] XU Bing, WANG Naiyan, CHEN Tianqi, et al. Empirical evaluation of rectified activations in convolutional network[J]. arXiv: 1505.00853, 2015. [18] RANZATO M A, HINTON G E. Modeling pixel means and covariances using factorized third-order Boltzmann machines[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 2551–2558. [19] YU Kai, ZHANG Tong. Improved local coordinate Coding using local tangents[C]//Proceedings of the 27th International Conference on Machine Learning. Haifa, Israel, 2010. [20] CHAN T H, JIA Kui, GAO Shenghua, et al. PCANet: a simple deep learning baseline for image classification?[J]. IEEE transactions on image processing, 2015, 24(12): 5017–5032. [21] [22] ZEILER M D, FERGUS R. Stochastic pooling for regularization of deep convolutional neural networks[J]. arXiv: 1301.3557, 2013. 刘金利, 张培玲. 改进 LeNet-5 网络在图像分类中的应 用 [J]. 计算机工程与应用, 2019, 55(15): 32–37, 95. LIU Jinli, ZHANG Peiling. Application of improved LeNet-5 network in image classification[J]. Computer engineering and applications, 2019 (15): 5. [23] GOODFELLOW I J, WARDE FARLEY D, MIRZA M, et al. Maxout networks[J]. arXiv preprint arXiv: 1302.4389, 2013. [24] LIN Min, CHEN Qiang, YAN Shuicheng. Network in network[J]. arXiv: 1312.4400, 2013. [25] SRIVASTAVA R K, GREFF K, SCHMIDHUBER J. Highway networks[J]. arXiv: 1505.00387, 2015. [26] 作者简介: 高淑萍,教授,主要研究方向为多 目标优化理论与应用、数学与信息科 学交叉研究、大数据处理与分析。主 持、参与国家级和省自然科学基金项 目及横向项目多项。发表学术论文 30 余篇。 赵清源,硕士研究生,主要研究方 向为深度学习、图像分类、算法优化。 齐小刚,教授,博士生导师,主要 研究方向为复杂系统建模与仿真、网 络算法设计与应用。申请专利 47 项 (授权 19 项),登记软件著作权 4 项。 发表学术论文 100 余篇。 ·20· 智 能 系 统 学 报 第 16 卷