第17卷第2期 智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0:10.11992/tis.202012012 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20210622.1126.006.html 基于部件关注DenseNet的细粒度车型识别 陈立潮,朝昕,潘理虎',曹建芳2,张睿 (1.太原科技大学计算机科学与技术学院,山西太原030024:2.忻州师范学院计算机科学与技术系,山西析 州034000) 摘要:针对细粒度车型识别率低,车型区别主要集中在鉴别性部件上以及深度学习不能有效对部件进行关注 的问题,提出一种基于部件关注DenseNet(part-focused DenseNet,PF-DenseNet)的细粒度车型识别模型。该模型 可以基于细粒度车型的车灯、车标等区分性部件进行有效分类,通过处理层(process layer)对车型部件信息反 复加强提取并进行最大池化下采样,获取更多的车型部件信息,然后通过密集卷积对特征通道进一步复用提 取,密集卷积前嵌入独立组件(independent component,.IC)层,获得相对独立的神经元,增强网络独立性,提高模 型的收敛极限。实验结果表明,该模型在Stanford cars-I96数据集上的识别准确率、查全率和F,分别达到 95.0%、94.9%和94.8%,高于经典卷积神经网络,并具有较小的参数量,与其他方法相比实现了最高准确率,验 证了该车型识别模型的有效性。 关键词:细粒度车型识别:部件关注:密集连接网络:独立组件:数据增强:深度学习:特征提取;特征复用 中图分类号:TP391文献标志码:A文章编号:1673-4785(2022)02-0402-09 中文引用格式:陈立潮,朝昕,潘理虎,等.基于部件关注DenseNet的细粒度车型识别.智能系统学报,2022,17(2): 402-410. 英文引用格式:CHEN Lichao,.CHAO Xin,,PAN Lihu,.et al Fine-grained vehicle-type identification based on partially--focused DenseNet [J].CAAI transactions on intelligent systems,2022,17(2):402-410. Fine-grained vehicle-type identification based on partially-focused DenseNet CHEN Lichao',CHAO Xin',PAN Lihu',CAO Jianfang,ZHANG Rui' (1.School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024,China;2.Depart- ment of Computer Science and Technology,Xinzhou Teachers University,Xinzhou 034000,China) Abstract:Given that fine-grained model recognition rates are low and are mainly concentrated in the diagnostic model difference between parts and that deep learning cannot effectively concern parts,we put forward a fine-grained recogni- tion model-the partially-focused DenseNet.The model can be classified effectively based on its discriminative parts, such as lights and marks of fine-grained vehicle models.First,through the Process Layer,the vehicle part information is repeatedly extracted,and the maximum pool sampling is carried out to obtain more vehicle part information.Then,fea- ture channels are further extracted by multiplexing through dense convolution,and the independent component layer is embedded before dense convolution to obtain relatively independent neurons.This enhances network independence and improves the convergence limit of the model.Experiments show that the model's recognition accuracy,recall rate,and F on the Stanford cars-196 data set reach 95.0%,94.9%,and 94.8%,respectively,which are higher than the classic con- volutional neural network and have a smaller number of parameters.Compared with other methods,the highest accur- acy rate is achieved,verifying the effectiveness of the vehicle recognition model. Keywords:fine-grained vehicle type identification;part focus;dense connection network;independent component;data enhancement:deep learning:feature extraction:reuse of characteristics 细粒度车型识别是智能交通领域的重要组成 车辆型号、制造商、生产年份等精准有用的车辆 部分,旨在通过任意角度和光线环境下,识别出 信息。通常粗粒度车型识别提供的车辆信息不充 收稿日期:2020-12-03.网络出版日期:2021-06-22. 足,识别出的大类别数据,无法做到对车辆的有 基金项目:山西省自然科学基金项目(201901D111258):山西省 效标识和追踪,细粒度车型识别区别于一般车型 应用基础研究项目(201801D221179). 通信作者:潘理虎.E-mail:panlh@tyust.edu..cn 识别,能够对粗粒度的大类别车型进行精细的子
DOI: 10.11992/tis.202012012 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210622.1126.006.html 基于部件关注 DenseNet 的细粒度车型识别 陈立潮1 ,朝昕1 ,潘理虎1 ,曹建芳1,2,张睿1 (1. 太原科技大学 计算机科学与技术学院,山西 太原 030024; 2. 忻州师范学院 计算机科学与技术系,山西 忻 州 034000) 摘 要:针对细粒度车型识别率低,车型区别主要集中在鉴别性部件上以及深度学习不能有效对部件进行关注 的问题,提出一种基于部件关注 DenseNet(part-focused DenseNet, PF-DenseNet) 的细粒度车型识别模型。该模型 可以基于细粒度车型的车灯、车标等区分性部件进行有效分类,通过处理层 (process layer) 对车型部件信息反 复加强提取并进行最大池化下采样,获取更多的车型部件信息,然后通过密集卷积对特征通道进一步复用提 取,密集卷积前嵌入独立组件 (independent component, IC) 层,获得相对独立的神经元,增强网络独立性,提高模 型的收敛极限。实验结果表明,该模型在 Stanford cars-196 数据集上的识别准确率、查全率和 F1 分别达到 95.0%、94.9% 和 94.8%,高于经典卷积神经网络,并具有较小的参数量,与其他方法相比实现了最高准确率,验 证了该车型识别模型的有效性。 关键词:细粒度车型识别;部件关注;密集连接网络;独立组件;数据增强;深度学习;特征提取;特征复用 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2022)02−0402−09 中文引用格式:陈立潮, 朝昕, 潘理虎, 等. 基于部件关注 DenseNet 的细粒度车型识别 [J]. 智能系统学报, 2022, 17(2): 402–410. 英文引用格式:CHEN Lichao, CHAO Xin, PAN Lihu, et al. Fine-grained vehicle-type identification based on partially-focused DenseNet [J]. CAAI transactions on intelligent systems, 2022, 17(2): 402–410. Fine-grained vehicle-type identification based on partially-focused DenseNet CHEN Lichao1 ,CHAO Xin1 ,PAN Lihu1 ,CAO Jianfang1,2 ,ZHANG Rui1 (1. School of Computer Science and Technology, Taiyuan University of Science and Technology, Taiyuan 030024, China; 2. Department of Computer Science and Technology, Xinzhou Teachers University, Xinzhou 034000, China) Abstract: Given that fine-grained model recognition rates are low and are mainly concentrated in the diagnostic model difference between parts and that deep learning cannot effectively concern parts, we put forward a fine-grained recognition model—the partially-focused DenseNet. The model can be classified effectively based on its discriminative parts, such as lights and marks of fine-grained vehicle models. First, through the Process Layer, the vehicle part information is repeatedly extracted, and the maximum pool sampling is carried out to obtain more vehicle part information. Then, feature channels are further extracted by multiplexing through dense convolution, and the independent component layer is embedded before dense convolution to obtain relatively independent neurons. This enhances network independence and improves the convergence limit of the model. Experiments show that the model’s recognition accuracy, recall rate, and F1 on the Stanford cars-196 data set reach 95.0%, 94.9%, and 94.8%, respectively, which are higher than the classic convolutional neural network and have a smaller number of parameters. Compared with other methods, the highest accuracy rate is achieved, verifying the effectiveness of the vehicle recognition model. Keywords: fine-grained vehicle type identification; part focus; dense connection network; independent component; data enhancement; deep learning; feature extraction; reuse of characteristics 细粒度车型识别是智能交通领域的重要组成 部分,旨在通过任意角度和光线环境下,识别出 车辆型号、制造商、生产年份等精准有用的车辆 信息。通常粗粒度车型识别提供的车辆信息不充 足,识别出的大类别数据,无法做到对车辆的有 效标识和追踪,细粒度车型识别区别于一般车型 识别,能够对粗粒度的大类别车型进行精细的子 收稿日期:2020−12−03. 网络出版日期:2021−06−22. 基金项目:山西省自然科学基金项目 (201901D111258);山西省 应用基础研究项目 (201801D221179). 通信作者:潘理虎. E-mail:panlh@tyust.edu.cn. 第 17 卷第 2 期 智 能 系 统 学 报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022
第2期 陈立潮,等:基于部件关注DenseNet的细粒度车型识别 ·403· 类别识别,精确标识车辆,在交通视频中有效地 DenseNet-l61获得较好的识别精度,DenseNet密 进行车辆监控,不仅节省了人力资源,提高交通 集连接]是2017年Huang等提出的一种全新的 执法效率,而且能够快速分析套牌车辆和外观改 卷积网铬连接模式,以密集连接的方式实现特征 装车辆,在车牌信息无法获取时,细粒度的车型 复用,使网络学习到更具鉴别性的特征,并通过 信息尤其重要,提高了有关车辆刑事案件的侦破 网络特征复用最大程度上降低参数的冗余,降低 效率,在智能交通、交通数据分析、安防等领域具 了网络随深度增加出现的网络退化等问题。相比 有重要意义"。 基于部件的方法,基于深度学习的方法操作简 针对细粒度车型识别问题,国内外学者已经 单,能够直接对二维图像进行处理,从大量训练 做了大量研究,运用不同的方法提高细粒度车型 样本中有效地学习到相应特征,避免了复杂的特 识别准确率。主要有2种方法:基于车辆部件的 征提取过程。但细粒度车型分类集中在微小但 方法和基于深度学习的方法。 重要的车型部件特征上,上述方法无法对部件特 目前已经有许多基于车型部件的细粒度车型 征进行有效关注。 识别方法,Liao等四分析了车辆部件在细粒度车 根据以上问题,结合部件和深度学习的方法, 型分类中的辨别能力,提出了一种新的将各部件 提出一种基于部件关注DenseNet的细粒度车型 的区分能力整合到分类框架中的模型。Krause等) 识别网络。通过提出的处理层(Process Layer)对 在局部特征外观和位置的层面上,将两种最先进 车型部件信息进行重复加强提取关注,获取更多的 的2D目标建模表示提升到3D,实现对车型精细 部件信息,然后利用嵌人独立组件的密集连接网络 识别。Fang等刊从整个车辆图像和检测区域中提 进行特征复用,提取高维特征,独立组件降低模型 取全局特征和局部部件特征,基于整体线索和局 过拟合风险,有效提高模型的收敛极限。提出的 部部件特征的隶属层次变化,采用一对一的支持 PF-DenseNet深度学习网络,能够有效获取细粒度 向量机分类器进行分类。车型部件方法的分类效 车型的鉴别性部件信息,利用部件特征进行分类。 果主要取决于对车型鉴别性部件的提取能力,上 述方法的部件提取能力有限,成为了制约识别性 1细粒度车型识别网络 能提升的主要瓶颈。 在细粒度车型识别领域,深度学习也得到广 细粒度车型识别网络模型如图1所示,主体 泛的研究与应用。Shi等提出GLM(generalized 框架采用DenseNet的密集卷积结构,并在框架前 large-margin)损失,并与Softmax损失级联训练明 加入Process Layer,.利用Process Layer直接对输入 显地减少了类间相似性和类内方差,增强模型对 图像进行下采样处理,相对于一般DenseNet对输 车型的表征能力。Ke等提出一种密集关注网 入图像的处理,Process Layer首先通过步长为l 络(dense attention network,DA-Net),通过其密集的 的卷积核对图像车辆细节特征重复提取加强,获 连接和关注单元,使网络对车型的分类能力集中 取更加清晰的车型图像特征,保留足够多的车型部 在重要区域和特征,提高了模型的识别能力。u 件特征细节信息,然后用最大池化进行下采样, 等)基于区域检测和细粒度特征学习的关联性, 降低后续计算量。Process Layer后主体框架采用 提出一种递归注意力卷积神经网络(recurrent at-. 密集连接网络中的密集卷积(Dense Block)和过渡 tention convolutional neural network,RA-CNN), 层(Transition Layer)),对图像特征进一步提取和复 多尺度上以相互增强的方式递归学习区分区域注 用,获得更加抽象高维的特征,Transition Layer引 意力和基于区域的特征表示。马力等提出稀疏 用在每一层Dense Block后面,对图像进一步下采 化B-CNN,通过训练在特征通道中引入比例因子 样,并在Dense Block和Transition Layer中嵌入 的B-CNN,并采用正则化按比例因子大小对其稀 IC层,提高模型收敛极限。最后通过输出层(Out 疏,将不重要特征通道按比例裁剪,消除网络过 put Layer)和全连接层(fully connected layers,FC), 拟合提高关键特征的显著性。王阳等提出双线 对图像进行分类,FC通过softmax激活函数对输 性残差注意网络,用残差网络替换B-CNN的特征 出作类别概率预测,模型训练采用交叉嫡损失函 函数,并在残差单元间添加通道注意力和空间注 数进行参数更新优化。部件关注DenseNet(part- 意力模块,获取更为丰富的注意力特征。Valev等o focused DenseNet,PF-DenseNet)的具体结构参数 系统比较和总结了现有深度学习方法在细粒度车 和输出大小如表1PF-DenseNet的具体网络结构 型识别上的应用,在细粒度车型数据集Stanford 所示,层结构显示其对应名称的具体网络结构, Cars-196上进行训练测试,经典深度卷积网络 如Process Layer的结构为7x7x96-BN-ReLu加上 (deep convolutional neural networks,DCNN) MaxPool(2×2/s=2),7×7×96表示一个核大小为
类别识别,精确标识车辆,在交通视频中有效地 进行车辆监控,不仅节省了人力资源,提高交通 执法效率,而且能够快速分析套牌车辆和外观改 装车辆,在车牌信息无法获取时,细粒度的车型 信息尤其重要,提高了有关车辆刑事案件的侦破 效率,在智能交通、交通数据分析、安防等领域具 有重要意义[1]。 针对细粒度车型识别问题,国内外学者已经 做了大量研究,运用不同的方法提高细粒度车型 识别准确率。主要有 2 种方法:基于车辆部件的 方法和基于深度学习的方法。 目前已经有许多基于车型部件的细粒度车型 识别方法,Liao 等 [2] 分析了车辆部件在细粒度车 型分类中的辨别能力,提出了一种新的将各部件 的区分能力整合到分类框架中的模型。Krause 等 [3] 在局部特征外观和位置的层面上,将两种最先进 的 2D 目标建模表示提升到 3D,实现对车型精细 识别。Fang 等 [4] 从整个车辆图像和检测区域中提 取全局特征和局部部件特征,基于整体线索和局 部部件特征的隶属层次变化,采用一对一的支持 向量机分类器进行分类。车型部件方法的分类效 果主要取决于对车型鉴别性部件的提取能力,上 述方法的部件提取能力有限,成为了制约识别性 能提升的主要瓶颈。 在细粒度车型识别领域,深度学习也得到广 泛的研究与应用。Shi 等 [5] 提出 GLM(generalized large-margin) 损失,并与 Softmax 损失级联训练明 显地减少了类间相似性和类内方差,增强模型对 车型的表征能力。Ke 等 [6] 提出一种密集关注网 络 (dense attention network, DA-Net),通过其密集的 连接和关注单元,使网络对车型的分类能力集中 在重要区域和特征,提高了模型的识别能力。Fu 等 [7] 基于区域检测和细粒度特征学习的关联性, 提出一种递归注意力卷积神经网络 (recurrent attention convolutional neural network, RA-CNN),在 多尺度上以相互增强的方式递归学习区分区域注 意力和基于区域的特征表示。马力等[8] 提出稀疏 化 B-CNN,通过训练在特征通道中引入比例因子 的 B-CNN,并采用正则化按比例因子大小对其稀 疏,将不重要特征通道按比例裁剪,消除网络过 拟合提高关键特征的显著性。王阳等[9] 提出双线 性残差注意网络,用残差网络替换 B-CNN 的特征 函数,并在残差单元间添加通道注意力和空间注 意力模块,获取更为丰富的注意力特征。Valev 等 [10] 系统比较和总结了现有深度学习方法在细粒度车 型识别上的应用,在细粒度车型数据集 Stanford Cars-196 上进行训练测试,经典深度卷积网络 (deep convolutional neural networks, DCNN) 中 DenseNet-161 获得较好的识别精度,DenseNet 密 集连接[11] 是 2017 年 Huang 等提出的一种全新的 卷积网络连接模式,以密集连接的方式实现特征 复用,使网络学习到更具鉴别性的特征,并通过 网络特征复用最大程度上降低参数的冗余,降低 了网络随深度增加出现的网络退化等问题。相比 基于部件的方法,基于深度学习的方法操作简 单,能够直接对二维图像进行处理,从大量训练 样本中有效地学习到相应特征,避免了复杂的特 征提取过程[12]。但细粒度车型分类集中在微小但 重要的车型部件特征上,上述方法无法对部件特 征进行有效关注。 根据以上问题,结合部件和深度学习的方法, 提出一种基于部件关注 DenseNet 的细粒度车型 识别网络。通过提出的处理层 (Process Layer) 对 车型部件信息进行重复加强提取关注,获取更多的 部件信息,然后利用嵌入独立组件的密集连接网络 进行特征复用,提取高维特征,独立组件降低模型 过拟合风险,有效提高模型的收敛极限。提出的 PF-DenseNet 深度学习网络,能够有效获取细粒度 车型的鉴别性部件信息,利用部件特征进行分类。 1 细粒度车型识别网络 × × × × × 细粒度车型识别网络模型如图 1 所示,主体 框架采用 DenseNet 的密集卷积结构,并在框架前 加入 Process Layer,利用 Process Layer 直接对输入 图像进行下采样处理,相对于一般 DenseNet 对输 入图像的处理,Process Layer 首先通过步长为 1 的卷积核对图像车辆细节特征重复提取加强,获 取更加清晰的车型图像特征,保留足够多的车型部 件特征细节信息,然后用最大池化进行下采样, 降低后续计算量。Process Layer 后主体框架采用 密集连接网络中的密集卷积 (Dense Block) 和过渡 层 (Transition Layer),对图像特征进一步提取和复 用,获得更加抽象高维的特征,Transition Layer 引 用在每一层 Dense Block 后面,对图像进一步下采 样,并在 Dense Block 和 Transition Layer 中嵌入 IC 层,提高模型收敛极限。最后通过输出层 (Output Layer) 和全连接层 (fully connected layers, FC), 对图像进行分类,FC 通过 softmax 激活函数对输 出作类别概率预测,模型训练采用交叉熵损失函 数进行参数更新优化。部件关注 DenseNet(partfocused DenseNet,PF-DenseNet) 的具体结构参数 和输出大小如表 1 PF-DenseNet 的具体网络结构 所示,层结构显示其对应名称的具体网络结构, 如 Process Layer 的结构为 7 7 96-BN-ReLu 加上 MaxPool (2 2/s=2),7 7 96 表示一个核大小为 第 2 期 陈立潮,等:基于部件关注 DenseNet 的细粒度车型识别 ·403·
·404· 智能系统学报 第17卷 7×7通道数为96的卷积核,然后进行一个批归一 Dense Block x:Dense Block 1,Dense Block 2 化ul(batch normalization,.BN)和ReLu激活处 Dense Block3和Dense Block4,分别由6、12 理,最后经过一个核大小为2×2步长为2的最大 36和24个基础层结构块构成,如Dense 池化,输出(96,111,111)表示通道数为96、宽高尺 Block1由6个连续的基础层结构:IC-ReLu- 寸为111×111的输出特征图。表1中有4个 1×1x192加上IC-ReLu-3x3×48构成。 密集卷积 过渡层 层 层 输出层 处理层 全连接层 图1细粒度车型识别网络模型 Fig.1 Fine-grained vehicle identification network model 表1PF-DenseNet具体网络结构 cess Layer主要由一个核大小为7x7,步长为1的 Table 1 PF-DenseNet specific network structure 卷积层以及尺度为2×2,步长为2的最大池化层 名称 层结构 输出 组成,卷积层后面进行BN和ReLu激活处理。 7×7×96-BN-ReLu 图2所示为卷积层操作,输入特征图通过卷积核, Process Layer (96,111,111) MaxPool(2×2/s=2) 每次对特征图上卷积核大小区域进行卷积操作输 IC-ReLu-1×1×192 Dense Block 1 (384,111,111) 出一个像素值,每次操作移动一步,使特征图中 IC-ReLu-3×3×48 心部位车辆的9/10像素被重复卷积提取7次,加 IC-ReLu-1×1x192 Transition Layer (192,55,55) 强了对车型部件的特征提取。然后经过BN和 AvgPool(2×2/s=2) ReLu层处理,BN对数据归一化加快网络收敛, IC-ReLu-1×1×192 Dense Block 2 ×12 (768,55,55) ReLu激活函数增加网络稀疏性。最后利用最大 IC-ReLu-3×3×48 池化层进行下采样,特征图大小变为原来的1/2, IC-ReLu-1×1×384 Transition Layer (384,27,27) 降低后续网络计算量。 AvgPool(2×2/s=2) IC-ReLu-1×1×192 Dense Block 3 ×36 (2112,27,27) 输入特征图 IC-ReLu-3×3×48 卷积核 IC-ReLu-1×1×1056 Transition Layer (1056,13,13) AvgPool(2×2Is=2) fC-ReLu-1×1×192 Dense Block 4 ×24 (2208,13,13) 输出 1C-ReLu-3×3×48 Output Layer BN-ReLu-AvgPool(13x13) (2208,1,1) FC Softmax 196 图2卷积操作示意 l.1 Process Layer卷积特征 Fig.2 Convolution operation diagram 细粒度车型分类中,类别间的差异极其微小, 如图3所示为不同DenseNet对同一车型图片 相比粗粒度车型分类,更关注图像中微小但十分 输入的不同特征提取效果图,图3(a)为PF-DenseNet 重要的局部特征,PF-DenseNet通过Process Lay- 中密集卷积前经过Process Layer提取的特征图, er对车型特征重复提取加强,获取了更加有效清 图3(b)、3(c)分别为DenseNet201和DenseNetI61 晰的部件信息,使得网络能够基于车型部件像素 密集卷积前对图像的特征提取图。图3(a)通过 信息进行类别预测。 Process Layer对图像同一区域的重复卷积提取,特 Process Layer的组成结构如表1所示,Pro- 征图更加清晰,保存了更多的部件细节,车标、车
× × × 7 7 通道数为 96 的卷积核,然后进行一个批归一 化 [13] (batch normalization, BN) 和 ReLu[14] 激活处 理,最后经过一个核大小为 2 2 步长为 2 的最大 池化,输出 (96,111,111) 表示通道数为 96、宽高尺 寸 为 111 111 的输出特征图。 表 1 中 有 4 个 × × × × Dense Block_x:Dense Block_1、Dense Block_2、 Dense Block_3 和 Dense Block_4,分别由 6、12、 3 6 和 2 4 个基础层结构块构成, 如 Dense Block_1 由 6 个连续的基础层结构: IC-ReLu- 1 1 192 加上 IC-ReLu-3 3 48 构成。 密集卷积 ... 输出层 处理层 全连接层 过 渡 层 过 渡 层 过 渡 层 过 渡 层 图 1 细粒度车型识别网络模型 Fig. 1 Fine-grained vehicle identification network model 表 1 PF-DenseNet 具体网络结构 Table 1 PF-DenseNet specific network structure 名称 层结构 输出 Process Layer 7×7×96-BN-ReLu MaxPool(2×2/s=2) (96,111,111) Dense Block_1 IC-ReLu-1×1×192 IC-ReLu-3×3×48 ×6 (384,111,111) Transition Layer IC-ReLu-1×1×192 AvgPool(2×2/s=2) (192,55,55) Dense Block_2 IC-ReLu-1×1×192 IC-ReLu-3×3×48 ×12 (768,55,55) Transition Layer IC-ReLu-1×1×384 AvgPool(2×2/s=2) (384,27,27) Dense Block_3 IC-ReLu-1×1×192 IC-ReLu-3×3×48 ×36 (2112,27,27) Transition Layer IC-ReLu-1×1×1056 AvgPool(2×2/s=2) (1056,13,13) Dense Block_4 IC-ReLu-1×1×192 IC-ReLu-3×3×48 ×24 (2208,13,13) Output Layer BN-ReLu-AvgPool(13×13) (2208,1,1) FC Softmax 196 1.1 Process Layer 卷积特征 细粒度车型分类中,类别间的差异极其微小, 相比粗粒度车型分类,更关注图像中微小但十分 重要的局部特征,PF-DenseNet 通过 Process Layer 对车型特征重复提取加强,获取了更加有效清 晰的部件信息,使得网络能够基于车型部件像素 信息进行类别预测。 Process Layer 的组成结构如表 1 所示,Pro- × × cess Layer 主要由一个核大小为 7 7,步长为 1 的 卷积层以及尺度为 2 2,步长为 2 的最大池化层 组成,卷积层后面进行 BN 和 ReLu 激活处理。 图 2 所示为卷积层操作,输入特征图通过卷积核, 每次对特征图上卷积核大小区域进行卷积操作输 出一个像素值,每次操作移动一步,使特征图中 心部位车辆的 9/10 像素被重复卷积提取 7 次,加 强了对车型部件的特征提取。然后经过 BN 和 ReLu 层处理,BN 对数据归一化加快网络收敛, ReLu 激活函数增加网络稀疏性。最后利用最大 池化层进行下采样,特征图大小变为原来的 1/2, 降低后续网络计算量。 输入特征图 卷积核 输出 图 2 卷积操作示意 Fig. 2 Convolution operation diagram 如图 3 所示为不同 DenseNet 对同一车型图片 输入的不同特征提取效果图,图 3(a) 为 PF-DenseNet 中密集卷积前经过 Process Layer 提取的特征图, 图 3(b)、3(c) 分别为 DenseNet201 和 DenseNet161 密集卷积前对图像的特征提取图。图 3(a) 通过 Process Layer 对图像同一区域的重复卷积提取,特 征图更加清晰,保存了更多的部件细节,车标、车 ·404· 智 能 系 统 学 报 第 17 卷
第2期 陈立潮,等:基于部件关注DenseNet的细粒度车型识别 ·405· 灯等鉴别性部件信息被有效的提取出来,使网络模 所示,在密集卷积前嵌入独立组件IC:{BN-Dro- 型最后能够有效地根据车型部件像素进行分类。 pout),获得相对独立的网络模型,提高模型收敛 极限,增加识别准确率。 IC-Relu- IC-。Relu -Cat 图4独立密集连接网络 Fig.4 Independent dense connection network IC中,BN通过降低内部协变量偏移,减少内 (a)PF-DenseNet特征图 部神经元分布的改变,加速网络的收敛,BN公式 如式(1(4)所示: (1) =1- m (2) 首先通过式(1)求均值4,式(1)中x为第i 个神经元的输入,m表示神经元数目,然后通过 式(2)得到方差2。 (b)DenseNet201特征图 =专u (3) vo2+s y:=y元+B (4) 然后式(3)将输入进行标准化处理,使输入服 从均值为0,方差为1的正态分布,最后通过式 (4)对标准化后的值进行平移缩放处理,数据经过 式(2)和式(3)的处理后,上一层网络所学习到的 特征分布被破坏,式(4)引入可学习重构参数y 和B,让网络在训练时恢复出原始网络所要学习 (c)DenseNet166l特征图 的特征分布。 图3特征提取图 Dropout以概率P线性减弱任何一对神经元 Fig.3 Feature extraction diagram 之间的相关性,降低网络每次训练时的参数量, 1.2独立密集连接 增强网络稀疏性,构造相对独立的神经元激活。 密集连接基于跨层连接连通网络中前后层使 将IC嵌入到Dense Block中以及Transition 得信号可以在输入层和输出层之间高速流通的思 Layer中,采用{IC-ReL-Conv的形式,能够有效 想,将所有层都进行两两通道连接(Cat),使得网 提取车型的高层次信息,提高模型收敛极限,获 络中的每一层都接收前面所有层的特征作为输 得更好的识别准确率。 入,尽可能地提取到车型的细节信息,不仅大幅 2实验与分析 度减少了网络的参数量,而且在一定程度上降低 梯度消失的风险。神经科学家发现,神经系统的 2.1数据集 表征能力与系统中独立神经元的数量呈正比,独 Stanford Cars-.l96数据集是目前最常用的细 立神经元构成的独立神经网络具有更好的特征表 粒度车型识别数据集,图像数据包含196类共16185 达能力和更高的收敛极限,在CNN中引入IC层 张汽车图片,其中训练集8144张,测试集8041 是获得独立神经网络最快速有效的方式,通过在 张。每张图片的标签有制造商、车辆型号和生产 密集连接中嵌入C层构造独立密集连接,获得更 年份3个信息。 好的收敛极限。 训练前对数据集进行了预处理,将所有图像 独立密集连接的Dense Block基本结构如图4 裁剪为224×224大小,训练时对训练集做了顺时
灯等鉴别性部件信息被有效的提取出来,使网络模 型最后能够有效地根据车型部件像素进行分类。 (a) PF-DenseNet 特征图 (b) DenseNet201 特征图 (c) DenseNet161 特征图 图 3 特征提取图 Fig. 3 Feature extraction diagram 1.2 独立密集连接 密集连接基于跨层连接连通网络中前后层使 得信号可以在输入层和输出层之间高速流通的思 想,将所有层都进行两两通道连接 (Cat),使得网 络中的每一层都接收前面所有层的特征作为输 入,尽可能地提取到车型的细节信息,不仅大幅 度减少了网络的参数量,而且在一定程度上降低 梯度消失的风险。神经科学家发现,神经系统的 表征能力与系统中独立神经元的数量呈正比,独 立神经元构成的独立神经网络具有更好的特征表 达能力和更高的收敛极限,在 CNN 中引入 IC 层 是获得独立神经网络最快速有效的方式,通过在 密集连接中嵌入 IC 层构造独立密集连接,获得更 好的收敛极限。 独立密集连接的 Dense Block 基本结构如图 4 所示,在密集卷积前嵌入独立组件 IC:{BN-Dropout},获得相对独立的网络模型,提高模型收敛 极限,增加识别准确率[15]。 输入 IC Relu IC Relu Cat 图 4 独立密集连接网络 Fig. 4 Independent dense connection network IC 中,BN 通过降低内部协变量偏移,减少内 部神经元分布的改变,加速网络的收敛,BN 公式 如式 (1)~(4) 所示: µ = 1 m ∑m i=1 xi (1) σ 2 = 1 m ∑m i=1 (xi −µ) 2 (2) µ xi i m σ 2 首先通过式 (1) 求均值 ,式 (1) 中 为第 个神经元的输入, 表示神经元数目,然后通过 式 (2) 得到方差 。 xˆ = xi −µ √ σ2 +ε (3) yi = γxˆi +β (4)γ β 然后式 (3) 将输入进行标准化处理,使输入服 从均值为 0,方差为 1 的正态分布,最后通过式 (4) 对标准化后的值进行平移缩放处理,数据经过 式 (2) 和式 (3) 的处理后,上一层网络所学习到的 特征分布被破坏,式 (4) 引入可学习重构参数 和 ,让网络在训练时恢复出原始网络所要学习 的特征分布。 Dropout 以概率 P 线性减弱任何一对神经元 之间的相关性,降低网络每次训练时的参数量, 增强网络稀疏性,构造相对独立的神经元激活[16]。 将 IC 嵌入到 Dense Block 中以及 Transition Layer 中,采用{IC-ReLu-Conv}的形式,能够有效 提取车型的高层次信息,提高模型收敛极限,获 得更好的识别准确率。 2 实验与分析 2.1 数据集 Stanford Cars-196[3] 数据集是目前最常用的细 粒度车型识别数据集,图像数据包含 196 类共 16185 张汽车图片,其中训练集 8 144 张,测试集 8 041 张。每张图片的标签有制造商、车辆型号和生产 年份 3 个信息。 训练前对数据集进行了预处理,将所有图像 裁剪为 224×224 大小,训练时对训练集做了顺时 第 2 期 陈立潮,等:基于部件关注 DenseNet 的细粒度车型识别 ·405·
·406· 智能系统学报 第17卷 针20°的角度旋转、水平翻转的在线数据增强,原的训练集为20360张,通过数据增强提升模型的 图和增强后的图像样例分别如图5所示,扩充后 泛化能力,增强网络的鲁棒性。 (a)原图 (b)角度旋转 (c)水平翻转 图5数据增强示例 Fig.5 Sample data enhancement diagram 2.2实验细节 {IC-ReLu-Conv;,融合了独立组件,为了验证独立 硬件环境:Intel((R)Xeon(R)Silver41l0CP处 组件对提出的基于部件关注DenseNet在细粒度 理器,内核数32,GeForce GTX1080Ti10GB显 车型识别上的影响,对PF-DenseNet控制单一变量 卡,单精度浮点数为11.34 TFLOPS,双精度浮点数 IC,在同一训练环境下,观察PF-DenseNet包含IC 为0.33 TFLOPS。软件环境:Ubuntu16操作系统, 和不含C时,测试准确率随训练周期变化的情况。 Python3.6程序设计语言,PyTorch深度学习框架。 如图6所示为独立组件对模型的影响,初始 实验网络训练使用随机梯度下降(stochastic 阶段,两种模型的测试准确率变化基本相同,随 gradient descent,SGD)方法,在lamgeNet预训练权 着训练周期不断增加,迭代10次后包含IC的模 重上进行微调,每训练一个周期测试一次准确 型具有更高的测试准确率,60次迭代后,不含 率,批次大小为4,初始学习率(learning rate,Lr) IC的模型测试准确率基本稳定不再上升,而包含 为0.001,10个训练周期测试准确率不再上升时, IC的模型依然缓慢上升,分析可知独立组件嵌入 Lr下降为原来的0.1,采用早停策略,50个训练周 文中模型后,能够有效提高网络的收敛极限,增 期测试准确率没有上升,训练自动结束。模型评 加识别准确率。 价指标为准确率(accuracy)、查全率(recall)和 F1。准确率公式如式(⑤)所示: accuracy=R (5) 蓝90 式中:T表示测试集中预测正确的样本数;R表示 测试集样本总数。 85 包含IC 一不含IC 1TP recall n合R (6) 80L 0 4060 100 式中:TP表示第i类预测正确的样本数;R:表示 训练周期/次 第i类测试样本总数;n为样本类别数。查全率表 图6独立组件对PF-DenseNet的影响 示了样本类别的平均准确率。 Fig.6 Impact of individual components on the model 1 TP 2.3.2与普通密集连接网络的对比 precision = n名TP,+FE, (7) 图7给出了车型3种不同姿态下(侧面、正面 F1= 2xrecall x precision 和背面)的3种DenseNet热力图,观察不同密集 (8) recall +precision 连接网络DenseNet20l、DenseNet161和PF- 式中:precision表示查准率;FP,表示预测为第i类 DenseNet的热力图,图7(b)、7(c)分别为DenseN- 的非i类样本数。式(8)中F,是accuracy和recall et201、DenseNet161的热力图,通过训练关注车型 的调和平均。 的整体特征,无法对鉴别性部件进行有效的关 2.3实验与结果分析 注,提出的基于部件关注的密集卷积网络模型能 2.3.1独立组件对实验的影响 够关注车辆的车灯、车标等鉴别性部位,如图7() 提出的PF-DenseNet的密集卷积结构采用: 所示,图7(d)侧面图中,热力图深红色区域主要
针 20°的角度旋转、水平翻转的在线数据增强,原 图和增强后的图像样例分别如图 5 所示,扩充后 的训练集为 20 360 张,通过数据增强提升模型的 泛化能力,增强网络的鲁棒性。 (a) 原图 (b) 角度旋转 (c) 水平翻转 图 5 数据增强示例 Fig. 5 Sample data enhancement diagram 2.2 实验细节 硬件环境:Intel(R) Xeon(R) Silver 4 110 CP 处 理器,内核数 32,GeForce GTX 1080Ti 10 GB 显 卡,单精度浮点数为 11.34TFLOPS,双精度浮点数 为 0.33TFLOPS。软件环境:Ubuntu 16 操作系统, Python3.6 程序设计语言,PyTorch 深度学习框架。 F1 实验网络训练使用随机梯度下降 (stochastic gradient descent, SGD) 方法,在 IamgeNet 预训练权 重上进行微调,每训练一个周期测试一次准确 率,批次大小为 4,初始学习率 (learning rate, Lr) 为 0.001,10 个训练周期测试准确率不再上升时, Lr 下降为原来的 0.1,采用早停策略,50 个训练周 期测试准确率没有上升,训练自动结束。模型评 价指标为准确率 (accuracy)、查全率 (recall) 和 。准确率公式如式 (5) 所示: accuracy = T R (5) 式中: T 表示测试集中预测正确的样本数; R 表示 测试集样本总数。 recall = 1 n ∑n i=1 TPi Ri (6) TP i Ri i n 式中: 表示第 类预测正确的样本数; 表示 第 类测试样本总数; 为样本类别数。查全率表 示了样本类别的平均准确率。 precision = 1 n ∑n i=1 TPi TPi +FPi (7) F1 = 2×recall×precision recall+precision (8) FPi i i F1 式中:precision 表示查准率; 表示预测为第 类 的非 类样本数。式 (8) 中 是 accuracy 和 recall 的调和平均。 2.3 实验与结果分析 2.3.1 独立组件对实验的影响 提出的 PF-DenseNet 的密集卷积结构采用: {IC-ReLu-Conv},融合了独立组件,为了验证独立 组件对提出的基于部件关注 DenseNet 在细粒度 车型识别上的影响,对 PF-DenseNet 控制单一变量 IC,在同一训练环境下,观察 PF-DenseNet 包含 IC 和不含 IC 时,测试准确率随训练周期变化的情况。 如图 6 所示为独立组件对模型的影响,初始 阶段,两种模型的测试准确率变化基本相同,随 着训练周期不断增加,迭代 10 次后包含 IC 的模 型具有更高的测试准确率,60 次迭代后,不含 IC 的模型测试准确率基本稳定不再上升,而包含 IC 的模型依然缓慢上升,分析可知独立组件嵌入 文中模型后,能够有效提高网络的收敛极限,增 加识别准确率。 0 20 40 60 80 100 80 85 90 95 测试准确度/% 训练周期/次 不含 IC 包含 IC 图 6 独立组件对 PF-DenseNet 的影响 Fig. 6 Impact of individual components on the model 2.3.2 与普通密集连接网络的对比 图 7 给出了车型 3 种不同姿态下 (侧面、正面 和背面) 的 3 种 DenseNet 热力图,观察不同密集 连接网络 DenseNet201、 DenseNet161 和 PFDenseNet 的热力图,图 7(b)、7(c) 分别为 DenseNet201、DenseNet161 的热力图,通过训练关注车型 的整体特征,无法对鉴别性部件进行有效的关 注,提出的基于部件关注的密集卷积网络模型能 够关注车辆的车灯、车标等鉴别性部位,如图 7(d) 所示,图 7(d) 侧面图中,热力图深红色区域主要 ·406· 智 能 系 统 学 报 第 17 卷
第2期 陈立潮,等:基于部件关注DenseNet的细粒度车型识别 ·407· 集中在车灯和车标,说明车灯、车标区域像素对 从图7比较可看出,提出的模型能够基于这些关 最后分类结果的贡献最大,图7(d)正面和背面热 键性车型部件,对车辆进行分类,进而实现对细 力图中,车灯部件特征对分类起到了最大作用。 粒度车型的有效识别。 侧面 背面 (a)原图 (b)DenseNet2.0l热力图(c)DenseNet1661热力图(dPF-DenseNet热力图 图7不同DenseNet热力图 Fig.7 Different DenseNet heat maps 图8为3种DenseNet网络在Cars-196上的训 测试准确率都趋于稳定,PF-DenseNet的最终测试 练和测试准确率随训练周期变化的折线图。 准确率分别比DenseNet201和DenseNet16l提高 图8(a)为3种DenseNet测试准确率变化图, 了1.2%、1%。在训练过程中相较于原始DenseN- 图中显示训练周期在I5次以后PF-DenseNet的测 et201和DenseNet161网络,PF-DenseNet的训练准 试准确率提升速度明显高于DenseNet:201和 确率和测试准确率的差距更小,具有更好的拟合 DenseNet16l,在训练40次以后3种DenseNet的 效果。 100 100 95 9 90 % 85 85 80 ........PF-DenseNet -DenseNet201 ……训练准确率 -DenseNet161 75 测试准确率 70 70 20 4060 80 100 0 20 4060 80100 训练迭代次数 训练迭代次数 (a)3种DenseNet测试 (b)PF-DenseNet
集中在车灯和车标,说明车灯、车标区域像素对 最后分类结果的贡献最大,图 7(d) 正面和背面热 力图中,车灯部件特征对分类起到了最大作用。 从图 7 比较可看出,提出的模型能够基于这些关 键性车型部件,对车辆进行分类,进而实现对细 粒度车型的有效识别。 正面 侧面 背面 (a) 原图 (b) DenseNet201 热力图 (c) DenseNet161 热力图 (d) PF-DenseNet 热力图 图 7 不同 DenseNet 热力图 Fig. 7 Different DenseNet heat maps 图 8 为 3 种 DenseNet 网络在 Cars-196 上的训 练和测试准确率随训练周期变化的折线图。 图 8(a) 为 3 种 DenseNet 测试准确率变化图, 图中显示训练周期在 15 次以后 PF-DenseNet 的测 试准确率提升速度明显高于 DenseNet201 和 DenseNet161,在训练 40 次以后 3 种 DenseNet 的 测试准确率都趋于稳定,PF-DenseNet 的最终测试 准确率分别比 DenseNet201 和 DenseNet161 提高 了 1.2%、1%。在训练过程中相较于原始 DenseNet201 和 DenseNet161 网络,PF-DenseNet 的训练准 确率和测试准确率的差距更小,具有更好的拟合 效果。 训练迭代次数 0 40 60 80 100 20 70 75 80 85 90 95 100 测试准确率/% 训练迭代次数 PF-DenseNet DenseNet201 DenseNet161 (a) 3 种 DenseNet 测试 0 20 40 60 80 100 70 75 80 85 90 95 100 准确率/% 训练准确率 测试准确率 (b) PF-DenseNet 第 2 期 陈立潮,等:基于部件关注 DenseNet 的细粒度车型识别 ·407·
·408· 智能系统学报 第17卷 100 100 95 号 90 90 85 85 80 80 ……训练准确率 …训练准确率 75 测试准确率 75 测试准确率 70 70 0 20 40 60 0 100 20 40 60 80 100 训练迭代次数 训练迭代次数 (c)DenseNet201 (d)DenseNet161 图8不同DenseNet准确率变化图 Fig.8 Diagrams of DenseNet accuracy variation 2.3.3不同方法对比 DenseNet较于Inception-ResNet-v2、ResNet1.52、 PF-DenseNet和在本实验数据集Cars-l96上 DenseNet201和DenseNet161查全率分别提升了 的其他方法进行比较,如表2所示,Zhao等)提 3.7%、2.4%、1.1%和1%,F1分别提升了3.7%、 出一个多样化的视觉注意力网络(diversified visu- 2.3%、1%和0.9%0 al attention networks,.DVAN)来解决细粒度车型分 表2不同方法在Cars-196数据集上的准确率对比 类的问题,在学习定位区分区域时大大减少了对 Table 2 Comparisons of accuracy of different meth- 强监督信息的依赖,追求注意力的多样性,最大 ods in Cars-196 data set olo 限度地收集有区别的信息,但精度只有87.1%,远 方法 准确率 查全率 F 低于本文方法。马力等提出Sparse B-CNN,通 DVANI7 87.1 过在每个特征通道引入比例因子,按比例因子的 91.0 大小判别特征通道的重要性并进行剪枝,减弱过 Sparse B-CNNI 拟合提高特征的显著性,准确率为91.0%,由于网 RA-CNNI7T 92.5 络训练中需要进行剪枝,操作较为复杂。Fu等可 iSQRT-COV with ResNet101 93.3 采用3种尺度作为输入,以相互增强的方式递归 文献1叨 94.4 学习车型区域注意力和区域的特征表示,准确率 Inception-ResNet-v2 91.3 91.2 91.1 为92.5%.比本文方法低2.5%。Li等1提出了一 ResNet152 92.6 92.5 92.5 种迭代矩阵平方根归一化方法用于全局协方差共 用网络的快速端到端训练,并运用在ResNet101 DenseNet201 93.8 93.8 93.8 上,获得了93.3%的精度,但该方法大大增加了网 DenseNet161 94.0 93.9 93.9 络参数,训练时间也过长。文献[19]提出互通道 PF-DenseNet 95.0 94.9 94.8 损失(mutual channel loss,.MC-Loss),由鉴别分量和 多样性分量两个特定信道的分量组成,训练每个 图9所示为PF-DenseNet与其他DCNN准确 特征通道反映针对特定类的不同局部区分区域, 率和参数量的对比,PF-DenseNet的参数量远小 以B-CNN为基础框架,获得了94.4%的准确率, FResNet152 Inception-ResNet-v2,DenseNet161 准确率较高,但在分量中引入了需要额外寻优的 和DenseNet220I的参数量略小于PF-DenseNet,.但 超参数,模型训练较繁琐。PF-DenseNet通过对车 精度远小于PF-DenseNet,Inception-ResNet-v2、 型区域特征反复提取,获得足够多的部件信息, ResNetl52、DenseNet201和DenseNet161准确率分 使模型能够基于部件信息分类,再通过独立密集 别为91.3%、92.6%、93.8%和94.0%,分别比本文 卷积得到抽象特征,提高收敛极限,获得了95.0% 方法降低3.7%、2.4%、1.2%和1%,综合准确率、 的准确率。表2还显示了PF-DenseNet与其他经 查全率、F,和参数量来看,文中方法获得了较好 典DCNN在Cars-l96上查全率和F,对比,PF- 的效果
训练迭代次数 准确率/% 0 20 40 60 80 100 70 75 80 85 90 95 100 训练准确率 测试准确率 (c) DenseNet201 训练迭代次数 准确率/% 0 20 40 60 80 100 70 75 80 85 90 95 100 训练准确率 测试准确率 (d) DenseNet161 图 8 不同 DenseNet 准确率变化图 Fig. 8 Diagrams of DenseNet accuracy variation 2.3.3 不同方法对比 PF-DenseNet 和在本实验数据集 Cars-196 上 的其他方法进行比较,如表 2 所示,Zhao 等 [17] 提 出一个多样化的视觉注意力网络 (diversified visual attention networks, DVAN) 来解决细粒度车型分 类的问题,在学习定位区分区域时大大减少了对 强监督信息的依赖,追求注意力的多样性,最大 限度地收集有区别的信息,但精度只有 87.1%,远 低于本文方法。马力等提出 Sparse B-CNN[8] ,通 过在每个特征通道引入比例因子,按比例因子的 大小判别特征通道的重要性并进行剪枝,减弱过 拟合提高特征的显著性,准确率为 91.0%,由于网 络训练中需要进行剪枝,操作较为复杂。Fu 等 [7] 采用 3 种尺度作为输入,以相互增强的方式递归 学习车型区域注意力和区域的特征表示,准确率 为 92.5%,比本文方法低 2.5%。Li 等 [18] 提出了一 种迭代矩阵平方根归一化方法用于全局协方差共 用网络的快速端到端训练,并运用在 ResNet101 上,获得了 93.3% 的精度,但该方法大大增加了网 络参数,训练时间也过长。文献 [19] 提出互通道 损失 (mutual channel loss, MC-Loss),由鉴别分量和 多样性分量两个特定信道的分量组成,训练每个 特征通道反映针对特定类的不同局部区分区域, 以 B-CNN 为基础框架,获得了 94.4% 的准确率, 准确率较高,但在分量中引入了需要额外寻优的 超参数,模型训练较繁琐。PF-DenseNet 通过对车 型区域特征反复提取,获得足够多的部件信息, 使模型能够基于部件信息分类,再通过独立密集 卷积得到抽象特征,提高收敛极限,获得了 95.0% 的准确率。表 2 还显示了 PF-DenseNet 与其他经 典 DCNN 在 Cars-196 上查全率和 F1 对比,PFDenseNet 较于 Inception-ResNet-v2、ResNet152、 DenseNet201 和 DenseNet161 查全率分别提升了 3.7%、2.4%、1.1% 和 1%,F1 分别提升了 3.7%、 2.3%、1% 和 0.9%。 表 2 不同方法在 Cars-196 数据集上的准确率对比 Table 2 Comparisons of accuracy of different methods in Cars-196 data set % 方法 准确率 查全率 F1 DVAN[17] 87.1 — — Sparse B-CNN[8] 91.0 — — RA-CNN[7] 92.5 — — iSQRT-COV with ResNet101[18] 93.3 — — 文献[19] 94.4 — — Inception-ResNet-v2 91.3 91.2 91.1 ResNet152 92.6 92.5 92.5 DenseNet201 93.8 93.8 93.8 DenseNet161 94.0 93.9 93.9 PF-DenseNet 95.0 94.9 94.8 图 9 所示为 PF-DenseNet 与其他 DCNN 准确 率和参数量的对比,PF-DenseNet 的参数量远小 于 ResNet152 和 Inception-ResNet-v2,DenseNet161 和 DenseNet201 的参数量略小于 PF-DenseNet,但 精度远小于 PF-DenseNet,Inception-ResNet-v2、 ResNet152、DenseNet201 和 DenseNet161 准确率分 别为 91.3%、92.6%、93.8% 和 94.0%,分别比本文 方法降低 3.7%、2.4%、1.2% 和 1%,综合准确率、 查全率、F1 和参数量来看,文中方法获得了较好 的效果。 ·408· 智 能 系 统 学 报 第 17 卷
第2期 陈立潮,等:基于部件关注DenseNet的细粒度车型识别 ·409· 95.0 Inception-ResNet-v2 vehicle model recognition using a coarse-to-fine convolu- ResNet152 tional neural network architecture[J].IEEE transactions DenseNet161 DenseNet201 on intelligent transportation systems,2017,18(7): ◆PF-DenseNet 1782-1792. [5]SHI Weiwei,GONG Yihong,TAO Xiaoyu,et al.Fine- grained image classification using modified DCNNs 92.0 trained by cascaded softmax and generalized large-mar- 91. gin losses[J].IEEE transactions on neural networks and 1520 30 40 50 60 参数量/百万 learning systems,2019,30(3):683-694. [6]KE Xiao.ZHANG Yufeng.Fine-grained vehicle type de- 图9PF-DenseNet与其他DCNN准确率和参数数量对比 tection and recognition based on dense attention network Fig.9 Comparison of PF-PenseNet and other DCNN ac- curacy and number of parameters [J].Neurocomputing,2020,399:247-257. [7]FU Jianlong,ZHENG Heliang,MEI Tao.Look closer to 3结束语 see better:recurrent attention convolutional neural net- work for fine-grained image recognition[C]//Proceedings 为了实现细粒度车型识别,提高细粒度车型 of 2017 IEEE Conference on Computer Vision and Pat- 识别准确率,提出一种基于部件关注的DenseN- tern Recognition.Honolulu,USA,2017:4438-4446 et细粒度车型识别网络模型,通过Process Lay- [8]马力,王永雄.基于稀疏化双线性卷积神经网络的细粒 er对车型部件特征反复提取加强,获取更多的部 度图像分类[J.模式识别与人工智能,2019,32(4): 件细节信息,然后通过融合独立组件的密集卷积 336-344. 网络,进一步提取高维特征,嵌入独立组件提高 MA Li,WANG Yongxiong.Fine-grained visual classific- 模型收敛极限。该模型能够对细粒度车型的车 ation based on sparse bilinear convolutional neural network 灯、车标等鉴别性部件进行有效关注,根据车型 [J].Pattern recognition and artificial intelligence,2019, 部件像素信息进行分类,在Stanford Cars--196公开 32(4):336-344 数据集上获得了目前最优的识别准确率、查全率 [9]王阳,刘立波.面向细粒度图像分类的双线性残差注意 和F,验证了本文模型在细粒度车型识别上的有 力网络[).激光与光电子学进展,2020,57(12):121011. 效性。但文中方法着重关注车型细节信息,忽视 WANG Yang,LIU Libo.Bilinear residual attention net- 了全局特征对车型分类的作用,因此下一步工作 works for fine-grained image classification[J].Laser 是在关注车型鉴别性部件的基础上结合车型全局 optoelectronics progress,2020,57(12):121011. 特征,进一步提高模型的识别准确率。 [10]VALEV K,SCHUMANN A,SOMMER L,et al.A sys- 参考文献: tematic evaluation of recent deep learning architectures for fine-grained vehicle classification[Cl//Proceedings of [1]杨娟,曹浩字,汪荣贵,等.区域建议网络的细粒度车型 SPIE 10649,Pattern Recognition and Tracking XXIX. 识别).中国图象图形学报,2018,23(6:837-845. Orlando,USA,2018:1064902. YANG Juan,CAO Haoyu,WANG Ronggui,et al.Fine- [11]HUANG Gao,LIU Zhuang,VAN DER MAATEN L,et al. grained car recognition method based on region proposal Densely connected convolutional networks[C]//Proceed- networks[J].Journal of image and graphics,2018,23(6): ings of 2017 IEEE Conference on Computer Vision and 837-845 Pattern Recognition.Honolulu,USA,2017:4700-4708. [2]LIAO Liang,HU Ruimin,XIAO Jun,et al.Exploiting ef- [12]白踪,黄玲,陈佳楠,等.面向大规模图像分类的深度 fects of parts in fine-grained categorization of vehicles[Cl/ 卷积神经网络优化[J].软件学报,2018,29(4): Proceedings of 2015 IEEE International Conference on 1029-1038 Image Processing.Quebec City,Canada,2015:745-749. BAI Cong,HUANG Ling,CHEN Jianan,et al.Optimiz- [3]KRAUSE J,STARK M,DENG Jia,et al.3D object rep- ation of deep convolutional neural network for large resentations for fine-grained categorization[C]//Proceed- scale image classification[J].Journal of software,2018, ings of 2013 IEEE International Conference on Com- 29(4:1029-1038 puter Vision Workshops.Sydney,Australia,2014: [13]IOFFE S,SZEGEDY C.Batch normalization:accelerat- 554-561. ing deep network training by reducing internal covariate [4]FANG Jie,ZHOU Yu,YU Yao,et al.Fine-grained shift[J/OL].(2020-01-01)[2020-07-01]htps:/arxiv.org
15 30 40 50 60 20 91.0 92.0 93.0 94.0 95.0 Inception-ResNet-v2 ResNet152 DenseNet161 DenseNet201 PF-DenseNet 测试准确率/% 参数量/百万 图 9 PF-DenseNet 与其他 DCNN 准确率和参数数量对比 Fig. 9 Comparison of PF-PenseNet and other DCNN accuracy and number of parameters 3 结束语 为了实现细粒度车型识别,提高细粒度车型 识别准确率,提出一种基于部件关注的 DenseNet 细粒度车型识别网络模型,通过 Process Layer 对车型部件特征反复提取加强,获取更多的部 件细节信息,然后通过融合独立组件的密集卷积 网络,进一步提取高维特征,嵌入独立组件提高 模型收敛极限。该模型能够对细粒度车型的车 灯、车标等鉴别性部件进行有效关注,根据车型 部件像素信息进行分类,在 Stanford Cars-196 公开 数据集上获得了目前最优的识别准确率、查全率 和 F1,验证了本文模型在细粒度车型识别上的有 效性。但文中方法着重关注车型细节信息,忽视 了全局特征对车型分类的作用,因此下一步工作 是在关注车型鉴别性部件的基础上结合车型全局 特征,进一步提高模型的识别准确率。 参考文献: 杨娟, 曹浩宇, 汪荣贵, 等. 区域建议网络的细粒度车型 识别 [J]. 中国图象图形学报, 2018, 23(6): 837–845. YANG Juan, CAO Haoyu, WANG Ronggui, et al. Finegrained car recognition method based on region proposal networks[J]. Journal of image and graphics, 2018, 23(6): 837–845. [1] LIAO Liang, HU Ruimin, XIAO Jun, et al. Exploiting effects of parts in fine-grained categorization of vehicles[C]// Proceedings of 2015 IEEE International Conference on Image Processing. Quebec City, Canada, 2015: 745−749. [2] KRAUSE J, STARK M, DENG Jia, et al. 3D object representations for fine-grained categorization[C]//Proceedings of 2013 IEEE International Conference on Computer Vision Workshops. Sydney, Australia, 2014: 554−561. [3] [4] FANG Jie, ZHOU Yu, YU Yao, et al. Fine-grained vehicle model recognition using a coarse-to-fine convolutional neural network architecture[J]. IEEE transactions on intelligent transportation systems, 2017, 18(7): 1782–1792. SHI Weiwei, GONG Yihong, TAO Xiaoyu, et al. Finegrained image classification using modified DCNNs trained by cascaded softmax and generalized large-margin losses[J]. IEEE transactions on neural networks and learning systems, 2019, 30(3): 683–694. [5] KE Xiao, ZHANG Yufeng. Fine-grained vehicle type detection and recognition based on dense attention network [J]. Neurocomputing, 2020, 399: 247–257. [6] FU Jianlong, ZHENG Heliang, MEI Tao. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 4438−4446. [7] 马力, 王永雄. 基于稀疏化双线性卷积神经网络的细粒 度图像分类 [J]. 模式识别与人工智能, 2019, 32(4): 336–344. MA Li, WANG Yongxiong. Fine-grained visual classification based on sparse bilinear convolutional neural network [J]. Pattern recognition and artificial intelligence, 2019, 32(4): 336–344. [8] 王阳, 刘立波. 面向细粒度图像分类的双线性残差注意 力网络 [J]. 激光与光电子学进展, 2020, 57(12): 121011. WANG Yang, LIU Libo. Bilinear residual attention networks for fine-grained image classification[J]. Laser & optoelectronics progress, 2020, 57(12): 121011. [9] VALEV K, SCHUMANN A, SOMMER L, et al. A systematic evaluation of recent deep learning architectures for fine-grained vehicle classification[C]//Proceedings of SPIE 10649, Pattern Recognition and Tracking XXIX. Orlando, USA, 2018: 1064902. [10] HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 4700−4708. [11] 白琮, 黄玲, 陈佳楠, 等. 面向大规模图像分类的深度 卷积神经网络优化 [J]. 软件学报, 2018, 29(4): 1029–1038. BAI Cong, HUANG Ling, CHEN Jianan, et al. Optimization of deep convolutional neural network for large scale image classification[J]. Journal of software, 2018, 29(4): 1029–1038. [12] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[J/OL]. (2020−01−01)[2020-07-01]https://arxiv.org/ [13] 第 2 期 陈立潮,等:基于部件关注 DenseNet 的细粒度车型识别 ·409·
·410· 智能系统学报 第17卷 abs/1502.03167 19(6):1245-1256 [14]YAROTSKY D.Error bounds for approximations with [18]LI Peihua,XIE Jiangtao,WANG Qilong,et al.Towards deep ReLU networks[J].Neural networks,2017,94: faster training of global covariance pooling networks by 103-114. iterative matrix square root normalization[C]//Proceed- [15]陈立潮,朝昕,曹建芳,等.融合独立组件的ResNet在 ings of 2018 IEEE/CVF Conference on Computer Vis- 细粒度车型识别中的应用[.计算机工程与应用, ion and Pattern Recognition.Salt Lake City,USA,2018: 2021,5711):248-253. 47-955. CHEN Lichao,CHAO Xin,CAO Jianfang,et al.Applic- [19]CHANG Dongliang,DING Yifeng,XIE Jiyang,et al. ation of ResNet with independent components in fine- The devil is in the channels:mutual-channel loss for fine-grained image classification[J].IEEE transactions grained vehicle recognition[J].Computer engineering and applications,2021,57(11):248-253. on image processing,2020,29:4683-4695. [16]周安众,罗可.一种卷积神经网络的稀疏性Dropout正 作者简介: 则化方法[J】.小型微型计算机系统,2018,39(8): 陈立潮,教授,主要研究方向为人工智能、图像信息处 1674-1679 理。主持山西省自然科学基金等项目12项,获山西省科学 ZHOU Anzhong,LUO Ke.Sparse Dropout regulariza- 技术奖二等奖2项。发表学术论文180余篇。 tion method for convolutional neural networks[J].Journ- al of Chinese computer systems,2018,39(8):1674- 朝昕,硕士研究生,主要研究方向为智能图像信息处 理。 1679. [17]ZHAO Bo,WU Xiao,FENG Jiashi,et al.Diversified 潘理虎,教授,主要研究方向为智能软件工程理论与应 visual attention networks for fine-grained object classi- 用、人工智能、复杂系统仿真。主持省部级科研项目10余 fication[J].IEEE transactions on multimedia,2017, 项。发表学术论文60余篇,出版专著1部
abs/1502.03167. YAROTSKY D. Error bounds for approximations with deep ReLU networks[J]. Neural networks, 2017, 94: 103–114. [14] 陈立潮, 朝昕, 曹建芳, 等. 融合独立组件的 ResNet 在 细粒度车型识别中的应用 [J]. 计算机工程与应用, 2021, 57(11): 248–253. CHEN Lichao, CHAO Xin, CAO Jianfang, et al. Application of ResNet with independent components in finegrained vehicle recognition[J]. Computer engineering and applications, 2021, 57(11): 248–253. [15] 周安众, 罗可. 一种卷积神经网络的稀疏性 Dropout 正 则化方法 [J]. 小型微型计算机系统, 2018, 39(8): 1674–1679. ZHOU Anzhong, LUO Ke. Sparse Dropout regularization method for convolutional neural networks[J]. Journal of Chinese computer systems, 2018, 39(8): 1674– 1679. [16] ZHAO Bo, WU Xiao, FENG Jiashi, et al. Diversified visual attention networks for fine-grained object classification[J]. IEEE transactions on multimedia, 2017, [17] 19(6): 1245–1256. LI Peihua, XIE Jiangtao, WANG Qilong, et al. Towards faster training of global covariance pooling networks by iterative matrix square root normalization[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 47−955. [18] CHANG Dongliang, DING Yifeng, XIE Jiyang, et al. The devil is in the channels: mutual-channel loss for fine-grained image classification[J]. IEEE transactions on image processing, 2020, 29: 4683–4695. [19] 作者简介: 陈立潮,教授,主要研究方向为人工智能、图像信息处 理。主持山西省自然科学基金等项目 12 项,获山西省科学 技术奖二等奖 2 项。发表学术论文 180 余篇。 朝昕,硕士研究生,主要研究方向为智能图像信息处 理。 潘理虎,教授,主要研究方向为智能软件工程理论与应 用、人工智能、复杂系统仿真。主持省部级科研项目 10 余 项。发表学术论文 60 余篇,出版专著 1 部。 ·410· 智 能 系 统 学 报 第 17 卷