第16卷第6期 智能系统学报 Vol.16 No.6 2021年11月 CAAI Transactions on Intelligent Systems Nov.2021 D0:10.11992/tis.202012029 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20210903.1028.002.html 双向特征融合与注意力机制结合的目标检测 赵文清2,杨盼盼 (1.华北电力大学控制与计算机工程学院,河北保定071003;2.复杂能源系统智能计算教育部工程研究中心, 河北保定071003) 摘要:目标检测使用特征金字塔检测不同尺度的物体时,忽略了高层信息和低层信息之间的关系,导致检测 效果差:此外,针对某些尺度的目标,检测中容易出现漏检。本文提出双向特征融合与注意力机制结合的方法 进行目标检测。首先,对SSD(single shot multibox detector)模型深层特征层与浅层特征层进行特征融合,然后将 得到的特征与深层特征层进行融合。其次,在双向融合中加入了通道注意力机制,增强了语义信息。最后,提 出了一种改进的正负样本判定策略,降低目标的漏检率。将本文提出的算法与当前主流算法在VOC数据集上 进行了比较,结果表明,本文提出的算法在对目标进行检测时,目标平均准确率有较大提高。 关键词:特征金字塔;双向融合;特征提取;SNet注意力机制:样本;语义信息;目标检测;深度学习 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2021)06-1098-08 中文引用格式:赵文清,杨盼盼.双向特征融合与注意力机制结合的目标检测.智能系统学报,2021,16(6):1098-1105. 英文引用格式:ZHAO Wenqing,YANG Panpan.Target detection based on bidirectional feature fusion and an attention mechan- ismJI.CAAI transactions on intelligent systems,2021,16(6):1098-1105. Target detection based on bidirectional feature fusion and an attention mechanism ZHAO Wenqing,YANG Panpan' (1.School of Control and Computer Engineering,North China Electric Power University,Baoding 071003,China;2.Engineering Re- search Center of the Ministry of education for Intelligent Computing of Complex Energy System,Baoding 071003,China) Abstract:When using a feature pyramid to detect objects of different dimensions,the relationship between high-and low-level information is ignored,resulting in a poor detection effect;in addition,for targets of a certain scale,detection is easily missed.In this paper,a method combining bidirectional feature fusion and an attention mechanism is proposed for target detection.First,the deep and shallow feature layers of the single-shot multibox detector(SSD)model are fused,then the obtained features are fused with the deep feature layer.Second,the channel attention mechanism is ad- ded to the two-way fusion to enhance semantic information.Finally,an improved positive and negative sample decision strategy is proposed to reduce the target misdetection rate.The algorithm proposed in this paper is compared with the current mainstream algorithms in the VOC dataset.The results show that the average accuracy of the proposed al- gorithm is greatly improved when detecting targets. Keywords:feature pyramid;bidirectional fusion;feature extraction;SeNet attention mechanism;sample;semantic in- formation;target detection;deep learning 目标检测是计算机视觉领域的重要研究方向。现阶段的目标检测方法主要有2种:一种是 基于分类的两阶段法,另一种是基于回归的单阶 收稿日期:2020-12-17.网络出版日期:2021-09-03. 段法。20l4年Girshick等四首次提出R-CNN(re- 基金项目:河北省自然科学基金项目(F2021502013):中央高校 基本科研业务费面上项目(2020MS153,2021PT018). gion convolutional neural networ,R-CNN)使用选择 通信作者:赵文清.E-mail:zhaowenqing(@ncepu.edu..cn 性搜索生成的区域建议。该算法相比传统算法
DOI: 10.11992/tis.202012029 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210903.1028.002.html 双向特征融合与注意力机制结合的目标检测 赵文清1,2,杨盼盼1 (1. 华北电力大学 控制与计算机工程学院,河北 保定 071003; 2. 复杂能源系统智能计算教育部工程研究中心, 河北 保定 071003) 摘 要:目标检测使用特征金字塔检测不同尺度的物体时,忽略了高层信息和低层信息之间的关系,导致检测 效果差;此外,针对某些尺度的目标,检测中容易出现漏检。本文提出双向特征融合与注意力机制结合的方法 进行目标检测。首先,对 SSD(single shot multibox detector) 模型深层特征层与浅层特征层进行特征融合,然后将 得到的特征与深层特征层进行融合。其次,在双向融合中加入了通道注意力机制,增强了语义信息。最后,提 出了一种改进的正负样本判定策略,降低目标的漏检率。将本文提出的算法与当前主流算法在 VOC 数据集上 进行了比较,结果表明,本文提出的算法在对目标进行检测时,目标平均准确率有较大提高。 关键词:特征金字塔;双向融合;特征提取;SeNet 注意力机制;样本;语义信息;目标检测;深度学习 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)06−1098−08 中文引用格式:赵文清, 杨盼盼. 双向特征融合与注意力机制结合的目标检测 [J]. 智能系统学报, 2021, 16(6): 1098–1105. 英文引用格式:ZHAO Wenqing, YANG Panpan. Target detection based on bidirectional feature fusion and an attention mechanism[J]. CAAI transactions on intelligent systems, 2021, 16(6): 1098–1105. Target detection based on bidirectional feature fusion and an attention mechanism ZHAO Wenqing1,2 ,YANG Panpan1 (1. School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, China; 2. Engineering Research Center of the Ministry of education for Intelligent Computing of Complex Energy System, Baoding 071003, China) Abstract: When using a feature pyramid to detect objects of different dimensions, the relationship between high- and low-level information is ignored, resulting in a poor detection effect; in addition, for targets of a certain scale, detection is easily missed. In this paper, a method combining bidirectional feature fusion and an attention mechanism is proposed for target detection. First, the deep and shallow feature layers of the single-shot multibox detector (SSD) model are fused, then the obtained features are fused with the deep feature layer. Second, the channel attention mechanism is added to the two-way fusion to enhance semantic information. Finally, an improved positive and negative sample decision strategy is proposed to reduce the target misdetection rate. The algorithm proposed in this paper is compared with the current mainstream algorithms in the VOC dataset. The results show that the average accuracy of the proposed algorithm is greatly improved when detecting targets. Keywords: feature pyramid; bidirectional fusion; feature extraction; SeNet attention mechanism; sample; semantic information; target detection; deep learning 目标检测是计算机视觉领域的重要研究方 向。现阶段的目标检测方法主要有 2 种:一种是 基于分类的两阶段法,另一种是基于回归的单阶 段法。2014 年 Girshick 等 [1] 首次提出 R-CNN(region convolutional neural networ,R-CNN) 使用选择 性搜索[2] 生成的区域建议。该算法相比传统算法 收稿日期:2020−12−17. 网络出版日期:2021−09−03. 基金项目:河北省自然科学基金项目 (F2021502013);中央高校 基本科研业务费面上项目 (2020MS153,2021PT018). 通信作者:赵文清. E-mail:zhaowenqing@ncepu.edu.cn. 第 16 卷第 6 期 智 能 系 统 学 报 Vol.16 No.6 2021 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2021
第6期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1099· 得到了很大的提升,但是不能满足实时性要求。 征融合,然后将得到的特征通过降采样的方式与 在20l5年,Girshick等IB-I在R-CNN和SPPNet 深层信息进行融合,这样可以充分结合深层和浅 (spatial pyramid pooling net)网络的基础上提出了 层信息以提升浅层特征网络对小目标的表达能 Fast-RCNN网络。Fast R-CNN比R-CNN快,但是 力,同时,引入通道注意力机制SeNet结构对特征 这个网络还是不能实现端到端的训练,因此 融合后的特征图进行更新,提取出更有利于检测 H等就端到端的问题提出了解决方法,提出了 特征的通道。最后,针对目标检测中小目标漏检的 Faster--RCNN网络。Faster-RCNN将区域建议阶 情况,优化了正负样本的判定策略,使得筛选出的 段和分类阶段结合到一个模型中,允许端到端学 框的数量增加,进一步提高小目标检测的精度。 习。从R-CNN到Faster--RCNN的发展过程,都是 先得到候选框,对候选框做处理之后再进入分类 1相关技术和理论 器做处理,这种类型的方法统称为两阶段目标检 SSD对目标进行分类和回归的过程:首先,输 测法。两阶段方法不能满足实时性要求,基于回 入大小为300像素×300像素的图片,然后使用卷 归的单阶段检测法应运而生。在单阶段检测方法 积神经网络提取同卷积层中目标的特征,本文采 中最具代表性的是YOLO6-刀系列和SSD劉系列。 用的是VGG作为特征提取网络:其次,提取到的 YOLO算法检测速度快,但是容易出漏检。为了 特征根据不同特征层anchor的数目,对anchor进 改善YOLO算法中的缺陷,Liu等图提出SSD算 行分类,利用边界框回归对其进行位置调整,得 法,SSD使用多尺度特征进行分类和回归任务, 到最终的建议框:然后,再使用非极大抑制算法 但是其效果仍有待提高。为了提高目标检测的准 对这些建议框进行筛选,得到检测结果。 确率,DSSD将反卷积技术应用于SSD的所有特 特征金字塔网络(feature pyramid networks, 征图,以获得放大的特征图。但是,由于将反卷 FPN)对高层特征图进行上采样,然后与浅层特征 积模块应用于所有特征图,因此存在模型复杂度 进行加法合并操作,得到新的表达能力更强的特 增加和速度降低的局限性。此外,针对尺度较小 征图,这种多尺度的特征图在面对不同尺寸的物 的目标在检测中存在的问题,相关学者提出了一 体时,具有更好的鲁棒性517。此外,这种特征金 系列改进算法。Singh等io提出SNIP(scale nor- 字塔结构是一种通用的特征提取结构,可以应用 malization for image pyramids)算法,该算法主要思 到不同的网络框架中,例如Faster-RCNN、SSD 想是对特征图进行不同倍数采样,通过实验给出 等。针对小目标的检测,可以检测出更加丰富的 相对最优的检测小目标的特征图尺寸,最后通过 特征,进而提升其准确度。 Soft-NMS融合不同分辨率下的检测结果。Wen 等山通过融合多尺度和反卷积获得了更高的准 2基于改进SSD算法的目标检测 确性。Li等使用生成对抗网络(GAN)1和低 本模型采用VGG16作为骨干网络,使用双向 分辨率特征作为GAN的输人来生成高分辨率特 特征网络完成特征提取,首先,从骨干网络中提 征。但是这些方法在检测中仍然存在不能有效提 取出Conv33、Conv43、Conv53、FC7、Conv82 取目标特征的缺陷。 和Conv92特征图,然后分两个部分进行双向特 特征金字塔网络(feature pyramid networks, 征融合,如图1所示。 FPN)将高层特征图进行上采样,然后与浅层特 2.1双向特征融合过程 征进行加法合并操作,得到新的表达能力更强 2.1.1自顶向下特征融合 的特征图。但是FPN在融合之前,不同的特征 图1中自顶向下的特征融合分为6个步骤: 之间存在的语义信息差距较大,直接进行融合会 1)对256通道的特征图Conv92使用1×1卷 降低多尺度特征的表达能力;其次,在融合过程 积升维成512通道的特征图P1: 中,信息自高层向低层进行传播时会丢失一些信 2)对P,进行2倍上采样后与Conv82进行融 息,而且FPN在进行特征提取时,忽略了高层信 合,对融合结果使用一个3×3的卷积层消除上采 息与低层信息之间的关系,导致检测的精确度有 样过程中的混叠效应,使用SeNet对消除混叠效 所降低。 应后的特征图进行通道更新得到特征图P2: 本文提出了双向特征融合与注意力机制结合 3)对1024通道的特征图FC7使用1×1卷积 的目标检测方法。该方法首先对S$D模型深层 降维成512通道,对P2进行2倍上采样后与降维 特征层进行双线性插值放大与浅层特征层进行特 后的FC7进行融合,使用3×3卷积层消除混叠
得到了很大的提升,但是不能满足实时性要求。 在 2015 年,Girshick 等 [3-4] 在 R-CNN 和 SPPNet (spatial pyramid pooling net) 网络的基础上提出了 Fast-RCNN 网络。Fast R-CNN比 R-CNN 快,但是 这个网络还是不能实现端到端的训练,因 此 He 等 [5] 就端到端的问题提出了解决方法,提出了 Faster-RCNN 网络。Faster-RCNN 将区域建议阶 段和分类阶段结合到一个模型中,允许端到端学 习。从 R-CNN 到 Faster-RCNN 的发展过程,都是 先得到候选框,对候选框做处理之后再进入分类 器做处理,这种类型的方法统称为两阶段目标检 测法。两阶段方法不能满足实时性要求,基于回 归的单阶段检测法应运而生。在单阶段检测方法 中最具代表性的是 YOLO[6-7] 系列和 SSD[8] 系列。 YOLO 算法检测速度快,但是容易出漏检。为了 改善 YOLO 算法中的缺陷,Liu 等 [8] 提出 SSD 算 法,SSD 使用多尺度特征进行分类和回归任务, 但是其效果仍有待提高。为了提高目标检测的准 确率,DSSD[9] 将反卷积技术应用于 SSD的所有特 征图,以获得放大的特征图。但是,由于将反卷 积模块应用于所有特征图,因此存在模型复杂度 增加和速度降低的局限性。此外,针对尺度较小 的目标在检测中存在的问题,相关学者提出了一 系列改进算法。Singh 等 [10] 提出 SNIP(scale normalization for image pyramids) 算法,该算法主要思 想是对特征图进行不同倍数采样,通过实验给出 相对最优的检测小目标的特征图尺寸,最后通过 Soft-NMS 融合不同分辨率下的检测结果。Wen 等 [11] 通过融合多尺度和反卷积获得了更高的准 确性。Li 等 [12] 使用生成对抗网络 (GAN)[13] 和低 分辨率特征作为 GAN 的输入来生成高分辨率特 征。但是这些方法在检测中仍然存在不能有效提 取目标特征的缺陷。 特征金字塔网络 (feature pyramid networks, FPN) 将高层特征图进行上采样,然后与浅层特 征进行加法合并操作,得到新的表达能力更强 的特征图。但是 FPN[14] 在融合之前,不同的特征 之间存在的语义信息差距较大,直接进行融合会 降低多尺度特征的表达能力;其次,在融合过程 中,信息自高层向低层进行传播时会丢失一些信 息,而且 FPN 在进行特征提取时,忽略了高层信 息与低层信息之间的关系,导致检测的精确度有 所降低。 本文提出了双向特征融合与注意力机制结合 的目标检测方法。该方法首先对 SSD 模型深层 特征层进行双线性插值放大与浅层特征层进行特 征融合,然后将得到的特征通过降采样的方式与 深层信息进行融合,这样可以充分结合深层和浅 层信息以提升浅层特征网络对小目标的表达能 力,同时,引入通道注意力机制 SeNet 结构对特征 融合后的特征图进行更新,提取出更有利于检测 特征的通道。最后,针对目标检测中小目标漏检的 情况,优化了正负样本的判定策略,使得筛选出的 框的数量增加,进一步提高小目标检测的精度。 1 相关技术和理论 SSD 对目标进行分类和回归的过程:首先,输 入大小为 300 像素×300 像素的图片,然后使用卷 积神经网络提取同卷积层中目标的特征,本文采 用的是 VGG 作为特征提取网络;其次,提取到的 特征根据不同特征层 anchor 的数目,对 anchor 进 行分类,利用边界框回归对其进行位置调整,得 到最终的建议框;然后,再使用非极大抑制算法 对这些建议框进行筛选,得到检测结果。 特征金字塔网络 (feature pyramid networks, FPN) 对高层特征图进行上采样,然后与浅层特征 进行加法合并操作,得到新的表达能力更强的特 征图,这种多尺度的特征图在面对不同尺寸的物 体时,具有更好的鲁棒性[15-17]。此外,这种特征金 字塔结构是一种通用的特征提取结构,可以应用 到不同的网络框架中,例如 Faster-RCNN、SSD 等。针对小目标的检测,可以检测出更加丰富的 特征,进而提升其准确度。 2 基于改进 SSD 算法的目标检测 本模型采用 VGG16 作为骨干网络,使用双向 特征网络完成特征提取,首先,从骨干网络中提 取出 Conv3_3、Conv4_3、Conv5_3、FC7、Conv8_2 和 Conv9_2 特征图,然后分两个部分进行双向特 征融合,如图 1 所示。 2.1 双向特征融合过程 2.1.1 自顶向下特征融合 图 1 中自顶向下的特征融合分为 6 个步骤: 1) 对 256 通道的特征图 Conv9_2 使用 1×1 卷 积升维成 512 通道的特征图 P1; 2) 对 P1 进行 2 倍上采样后与 Conv8_2 进行融 合,对融合结果使用一个 3×3 的卷积层消除上采 样过程中的混叠效应,使用 SeNet 对消除混叠效 应后的特征图进行通道更新得到特征图 P2; 3) 对 1 024 通道的特征图 FC7 使用 1×1 卷积 降维成 512 通道,对 P2 进行 2 倍上采样后与降维 后的 FC7 进行融合,使用 3×3 卷积层消除混叠 第 6 期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1099·
·1100· 智能系统学报 第16卷 效应,接着,使用SeNet进行通道更新,得到特征 图尺寸为38×38比较大,因此在进行P4与Conv43 图P; 的特征融合时需要先对P4进行归一化,接着使用 4)由于特征图Conv53通道数为512,并且 3x3的卷积和SeNet得到特征图Ps; 特征图尺寸与P,大小一致,因此直接对Conv53 6)对P,进行2倍上采样,Conv33特征图尺 和P3进行相加融合,对融合结果同样使用3×3的 寸为75×75,先对P,进行归一化,再与Conv33 卷积和SeNet得到特征图Pa; 特征相加融合,接着使用3×3的卷积和SeNet得 5)对P,进行2倍上采样,由于Conv43特征 到特征图P6。 Conv11 2 Conv10 2 Conv9 2 Conv8 2 目标位 FC7 Conv5 3 置与类别预测层 非极大抑制算法 自底向上融合 ⑨:注意力机制 ):自顶向下的特征融合 原始图像 自顶向下融合 ①:自底向上的特征融合 图1双向特征融合与注意力机制结合的模型 Fig.1 Target model based on the combination of bidirectional feature fusion and an attention mechanism 2.1.2自底向上特征融合 2.1.3双向特征融合模块 图1中自底向上的特征融合分为5个步骤: 文献[18-22]中提出了不同的特征融合的方 1)将自顶向下融合中步骤6)中的P。作为起 法可以增强语义信息的表达能力,本文提出的双 始特征图B,然后,对B1进行2倍降采样,接着对 向特征融合机制首先将深层特征层进行双线性插 降采样后的特征图进行归一化,对Cov43、P,和 值放大与浅层特征层进行特征融合,然后将得到 归一化后的特征图进行相加融合,对融合后的结 的特征通过降采样的方式与深层信息进行融合, 果使用3×3的卷积和SeNet得到特征图B2; 这样可以充分结合深层和浅层信息进行特征提 2)对B2进行2倍降采样,由于Conv43特征 取,进而提升浅层特征网络对目标语义信息的表 图尺寸为38×38,比较大,因此,在B2与Conv5_3、 达能力。双向特征融合过程细节如图2所示,图1 P,融合时,需要先对B2进行L2归一化,接着使用 中的自顶向下的方式进行特征融合如图(a)所示, 3×3的卷积和SeNet得到特征图B; 自底向上的方式进行特征融合如图(b)所示,图 3)由于特征图Conv53通道数为512,并且 中以Conv82和Conv92为例进行特征融合的表 特征图尺寸与B,大小一致,因此直接对B,与 示。如图2所示,首先,将SSD提取到的高层特 FC7、P,进行相加融合,对融合后的结果同样使 征Conv92使用双线性插值的方法与SSD提取 用3×3的卷积和SeNet得到特征图B: 的原始特征Cov82通过自顶向下的方式进行融 4)对B,进行2倍降采样,然后与Conv82、 合得到P;然后将B,通过降采样的方式与P2进 P2进行相加融合,对融合后的结果同样使用 行融合。在进行自底向上的特征融合过程中,为了 3×3的卷积和SeNet得到特征图Bs: 得到表征能力更强的特征,同时融合了S$D提取 5)对B,进行2倍降采样,然后与Conv92 的原始Conv82特征。为了防止出现梯度爆炸问题, P,进行相加融合,对融合后的结果同样使用 在进行双向特征融合中,在自顶向下和自底向上 3x3的卷积和SeNet得到特征图B6o 都加入了BN层,经过ReLU激活函数和SeNet注
效应,接着,使用 SeNet 进行通道更新,得到特征 图 P3; 4) 由于特征图 Conv5_3 通道数为 512,并且 特征图尺寸与 P3 大小一致,因此直接对 Conv5_3 和 P3 进行相加融合,对融合结果同样使用 3×3 的 卷积和 SeNet 得到特征图 P4; 5) 对 P4 进行 2 倍上采样,由于 Conv4_3 特征 图尺寸为 38×38 比较大,因此在进行 P4 与 Conv4_3 的特征融合时需要先对 P4 进行归一化,接着使用 3×3 的卷积和 SeNet 得到特征图 P5; 6) 对 P5 进行 2 倍上采样,Conv3_3 特征图尺 寸为 75×75,先对 P4 进行归一化,再与 Conv3_3 特征相加融合,接着使用 3×3 的卷积和 SeNet 得 到特征图 P6。 Conv4_3 Conv5_3 FC7 Conv8_2 Conv9_2 目 标 位 置 与 类 别 预 测 层 P1 P2 P3 P4 P5 P6 B1 B2 B3 B4 B5 B6 非 极 大 抑 制 算 法 原始图像 f S S S S S f f f S F F F F F F S S S S S f f Conv10_2 Conv11_2 自顶向下融合 自底向上融合 : 注意力机制 : 自顶向下的特征融合 : 自底向上的特征融合 Conv3_3 图 1 双向特征融合与注意力机制结合的模型 Fig. 1 Target model based on the combination of bidirectional feature fusion and an attention mechanism 2.1.2 自底向上特征融合 图 1 中自底向上的特征融合分为 5 个步骤: 1) 将自顶向下融合中步骤 6) 中的 P6 作为起 始特征图 B1,然后,对 B1 进行 2 倍降采样,接着对 降采样后的特征图进行归一化,对 Conv4_3、P5 和 归一化后的特征图进行相加融合,对融合后的结 果使用 3×3 的卷积和 SeNet 得到特征图 B2; 2) 对 B2 进行 2 倍降采样,由于 Conv4_3 特征 图尺寸为 38×38,比较大,因此,在 B2 与 Conv5_3、 P4 融合时,需要先对 B2 进行 L2 归一化,接着使用 3×3 的卷积和 SeNet 得到特征图 B3; 3) 由于特征图 Conv5_3 通道数为 512,并且 特征图尺寸与 B3 大小一致,因此直接对 B3 与 FC7、P3 进行相加融合,对融合后的结果同样使 用 3×3 的卷积和 SeNet 得到特征图 B4; 4) 对 B4 进行 2 倍降采样,然后与 Conv8_2、 P2 进行相加融合,对融合后的结果同样使 用 3×3 的卷积和 SeNet 得到特征图 B5; 5) 对 B5 进行 2 倍降采样,然后与 Conv9_2、 P1 进行相加融合,对融合后的结果同样使 用 3×3 的卷积和 SeNet 得到特征图 B6。 2.1.3 双向特征融合模块 文献 [18-22] 中提出了不同的特征融合的方 法可以增强语义信息的表达能力,本文提出的双 向特征融合机制首先将深层特征层进行双线性插 值放大与浅层特征层进行特征融合,然后将得到 的特征通过降采样的方式与深层信息进行融合, 这样可以充分结合深层和浅层信息进行特征提 取,进而提升浅层特征网络对目标语义信息的表 达能力。双向特征融合过程细节如图 2 所示,图 1 中的自顶向下的方式进行特征融合如图 (a) 所示, 自底向上的方式进行特征融合如图 (b) 所示,图 中以 Conv8_2 和 Conv9_2 为例进行特征融合的表 示。如图 2 所示,首先,将 SSD 提取到的高层特 征 Conv9_2 使用双线性插值的方法与 SSD 提取 的原始特征 Conv8_2 通过自顶向下的方式进行融 合得到 P3;然后将 B4 通过降采样的方式与 P2 进 行融合。在进行自底向上的特征融合过程中,为了 得到表征能力更强的特征,同时融合了 SSD 提取 的原始 Conv8_2 特征。为了防止出现梯度爆炸问题, 在进行双向特征融合中,在自顶向下和自底向上 都加入了 BN 层,经过 ReLU 激活函数和 SeNet 注 ·1100· 智 能 系 统 学 报 第 16 卷
第6期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1101· 意力机制,得到最终的B特征,最后送入检测层。 两个全连接层,第一个全连接层神经元个数是 Conv8 2 Conv9 2 c/16,第二个全连接层神经元个数为c。然后,再 接一个Sigmod层输出1×1×c,得到各个通道对 应的权重系数,最后与输入的特征图元素相乘。 2.2目标位置与类别预测层 BN层 首先,将提取到的特征层输入到预测层,然 ReLU函数 后,根据不同特征层anchor的数目和类别,对an- SeNet层 chor进行分类,利用边界框回归对其进行位置的 调整,得到最终的建议框。 P. 2.2.1对anchor进行的改进 (a)自顶向下融合过程 在网络模型划分正负样本阶段,anchor和真 B5 实框的交并比(intersection over union.IoU)值作为 正负样本划分的依据。低于通常使用的阈值作为 SeNet层 负样本,高于通常使用的阈值作为正样本。当 ReLU函数 IoU低于通常使用的阈值时存在两种情况。第 4 BN层 1种情况,anchor大于真实框。但是,anchor中的 上下文信息在目标检测中也有很大的作用,通过 上下文信息可以有效地检测目标的信息,进而改 善目标的漏检情况。第2种情况,anchor小于真 Conv8 2 实框,但是这些anchor包含被检测目标更多的局 (b)自底向上融合过程 部特征。针对这两种情况,本文提出了一种改进 图2双向特征融合过程 的正负样本判定策略,保留低于IoU阈值但与目 Fig.2 Bidirectional features fusion process 标相关的anchor作为正样本。将式(I)用于正负 2.1.4注意力机制模块 样本的判断中: 注意力机制是一种资源分配的策略,广泛应用 在计算机视觉各个方向22。注意力机制让神经 a=-Srnst min(Sr.Sr) (1) 网络更多地去关注与特征相关的细节信息,这样 式中:Sp代表先验框集合;S,代表真实框集合; 可以加快信息的处理时间,进而一定程度上提高 SPOST代表先验框和真实框的交集;min(Sp,Sr)代 计算机处理信息的效率,最终提高特征的表达能 表先验框和真实框中面积较小的一个。由经验可 力。本文选用的是SeNet注意力机制,该机制通过 得a的值为0.9。第一种情况下若a>0.9,表示 学习通道之间的关系,然后对卷积得到的特征图 anchor覆盖住90%以上的真实目标,就判断为正 进行相应地处理,最终得到一个与通道数相同维 样本。第2种情况下,表示anchor有90%以上和 度的向量,并且将此向量作为一个权重数,加到相 目标真实框覆盖,就判定为正样本。 应的通道上。注意力机制模型如图3所示。 2.2.2损失函数 输人特征图 网络的损失函数由两部分组成,分别是置信 全局平均池化两层全连接层 度损失和位置损失,如式(2)(⑤)所示: +0 111 N L(t.c)=- (2) 对应元素相乘 L(t,c,1,g)= NLr,c)+aLt,lg》 (3) = exp(c) (4) ∑exp() 注意力机制模块 图3注意力机制模块 L4al8)=∑∑mootk.- (5) iEp me(xy.w.h) Fig.3 Attention mechanism module 式中:1为输入图像;L表示置信度损失;L表示位 首先,对输入的特征图进行全局池化,再连接 置损失;i表示属于正样本的个数;j表示属于负
意力机制,得到最终的 B5 特征,最后送入检测层。 + P2 BN 层 BN 层 ReLU 函数 ReLU 函数 SeNet 层 SeNet 层 上采样 Conv8_2 Conv9_2 (a) 自顶向下融合过程 s + Conv8_2 P2 B4 B5 降采样 (b) 自底向上融合过程 图 2 双向特征融合过程 Fig. 2 Bidirectional features fusion process 2.1.4 注意力机制模块 注意力机制是一种资源分配的策略,广泛应用 在计算机视觉各个方向[23-24]。注意力机制让神经 网络更多地去关注与特征相关的细节信息,这样 可以加快信息的处理时间,进而一定程度上提高 计算机处理信息的效率,最终提高特征的表达能 力。本文选用的是 SeNet 注意力机制,该机制通过 学习通道之间的关系,然后对卷积得到的特征图 进行相应地处理,最终得到一个与通道数相同维 度的向量,并且将此向量作为一个权重数,加到相 应的通道上。注意力机制模型如图 3 所示。 × 输入特征图 全局平均池化 注意力机制模块 对应元素相乘 两层全连接层 图 3 注意力机制模块 Fig. 3 Attention mechanism module 首先,对输入的特征图进行全局池化,再连接 两个全连接层,第一个全连接层神经元个数是 c/16,第二个全连接层神经元个数为 c。然后,再 接一个 Sigmod 层输出 1 ×1 ×c,得到各个通道对 应的权重系数,最后与输入的特征图元素相乘。 2.2 目标位置与类别预测层 首先,将提取到的特征层输入到预测层,然 后,根据不同特征层 anchor 的数目和类别,对 anchor 进行分类,利用边界框回归对其进行位置的 调整,得到最终的建议框。 2.2.1 对 anchor 进行的改进 在网络模型划分正负样本阶段,anchor 和真 实框的交并比 (intersection over union,IoU) 值作为 正负样本划分的依据。低于通常使用的阈值作为 负样本,高于通常使用的阈值作为正样本。当 IoU 低于通常使用的阈值时存在两种情况。第 1 种情况,anchor 大于真实框。但是,anchor 中的 上下文信息在目标检测中也有很大的作用,通过 上下文信息可以有效地检测目标的信息,进而改 善目标的漏检情况。第 2 种情况,anchor 小于真 实框,但是这些 anchor 包含被检测目标更多的局 部特征。针对这两种情况,本文提出了一种改进 的正负样本判定策略,保留低于 IoU 阈值但与目 标相关的 anchor 作为正样本。将式 (1) 用于正负 样本的判断中: a = S P ∩S T min(S P,S T ) (1) S P ∩S T min(S P,S T ) 式中:SP 代表先验框集合;ST 代表真实框集合; 代表先验框和真实框的交集; 代 表先验框和真实框中面积较小的一个。由经验可 得 a 的值为 0.9。第一种情况下若 a > 0.9,表示 anchor 覆盖住 90% 以上的真实目标,就判断为正 样本。第 2 种情况下,表示 anchor 有 90% 以上和 目标真实框覆盖,就判定为正样本。 2.2.2 损失函数 网络的损失函数由两部分组成,分别是置信 度损失和位置损失,如式 (2)~(5) 所示: Lf(t, c) = − ∑N i∈p ti j log(ˆc p i )− ∑ i∈n log(ˆc 0 i ) (2) L(t, c,l,g) = 1 N (Lf(t, c)+αLl(t,l,g)) (3) cˆ p i = exp(c p i ∑ ) p exp(ˆc p i ) (4) Ll(t,l,g) = ∑N i∈p ∑ m∈(x,y,w,h) t k i jsmoothL1(l m i −gˆ m j ) (5) 式中:t 为输入图像; Lf 表示置信度损失; Ll表示位 置损失;i 表示属于正样本的个数;j 表示属于负 第 6 期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1101·
·1102· 智能系统学报 第16卷 样本的个数;x表示所选框的横坐标;y表示所选 小为321像素×321像素时,平均准确率为81.5%, 框的纵坐标;w表示所选框的宽;h表示所选框的 召回率为91.7%,速度为30s,当输人大小为512像 高;m是框的位置的集合;N为匹配成功的先验框 素×512像素时,平均准确率为82.5%,召回率为 个数。 93.5%.速度为12fs。 2.3非极大抑制算法 为了进一步验证本文算法的有效性,进行了 非极大抑制算法实现步骤:首先根据设定的 消融实验,其结果如表2所示。 目标框的置信度阈值排列候选框列表,然后选取 表2不同方法对精度的影响 置信度最高的框添加到输出列表,并将其从候选 Table 2 Influence of different improvement methods on 框列表中删除。最后计算置信度最高的框与候选 accuracy 框列表中的所有框的IoU值,删除大于阈值的候 网络类型 mAP/ 速度fs 选框。重复上述过程,直到候选框列表为空。 原始SSD算法 77.5 46 3实验以及结果分析 SSD+双向特征融合 79.3 42 SSD+双向特征融合+SeNet 79.7 40 3.1实验设备以及参数设置 SSD+anchori改进 77.9 37 本实验GPU使用的是NVIDIA GeForce GTX SSD+双向特征融合+anchor+- 1080Ti。Batch-size设置的是16,防止模型过拟合 80.6 33 anchori改进+SeNet 和模型收敛,先将学习率设置为0.001,训练8万 次,再将学习率降低10倍设置为0.0001训练2万 由表2可知,本文所改进的方法中,在双向特 次,最后再降低10倍设置为0.00001训练2万 征融合的基础上加入注意力机制可以使平均准确 次,共12万次。实验中的深度学习框架使用的 率提高2.2%,anchor的改进可以使平均准确率提 是pytorch1.1. 高0.4%,整体的平均准确率可以提高3.1%。 VOC数据集有20类,包括训练集、验证集和 本文模型在VOC2007和VOC2012训练集上 测试集。为了防止过拟合,本文采用VOC2007+ 训练,在VOC2007测试集上的结果与主流算法 VOC2012数据集进行训练,然后再采用VOC2007 Faster--RCNN、YOLOV2、DSSD321等实验结果对 测试集进行测试。 比如表3所示。 3.2实验评价指标 表3VOC2007测试结果对比 本文实验采用平均准确率(average precision, Table 3 Comparison of test results of VOC2007 AP)、召回率(average recall,,AR)和所有类别的均 尺寸/ 值平均精度mAP(mean average precision)作为精 算法 基础网络 像素×像素 mAP/%速度Es 度评价指标;fis(frame per second)作为速度评价指 Faster-RCNNIS1 VGGNet 600×1000 73.2 7 标,代表每秒内可以处理的图片数量。其中,AP Faster-RCNNI5] ResNet-101600×1000 76.4 2.4 代表正确检测为正占全部检测为正的比例。 YOLOV216 Darknet-19 352×352 73.7 81 3.3实验结果及对比 SSD300m7 VGGNet 300×300 77.5 46 通过改进SSD模型,本文模型在VOC2007和 Ours300 VGGNet 300×300 80.6 33 VOC2012训练集上训练,在不同尺度上的平均准 DSSD321剧 ResNet-101321×321 79.5 9.5 确率和召回率值如表1所示。 Ours321 VGGNet 321×321 81.5 30 表1不同尺度的检测结果 SSD512m VGGNet 512×512 78.5 19 Table 1 Test results of different scales YOLOV2161 Darknet-19 544×544 78.6 40 算法 平均准确率mAP/%召回率AR/%速度fs DSSD512181 ResNet--101512×512 81.5 6.6 本文SSD300 80.6 90.2 33 Ours512 VGGNet 512×512 82.5 12 本文SSD321 81.5 91.7 30 由表3可知,输人图像尺寸为300像素×300 本文SSD512 82.5 93.5 12 像素时,本文提出的模型平均准确率较YOLOV2、 由表1可知,在本文所提出的算法中,当输入 SSD300、DSSD321分别提高了6.9%、3.1%、1.1%。 尺寸大小为300像素×300像素时,平均准确率为 同时,SSD模型每秒检测46张图像,而本文改进 80.6%,召回率为90.2%,速度为33fs:当输入大 后SSD模型每秒检测33张图像,相比于SSD模
样本的个数;x 表示所选框的横坐标;y 表示所选 框的纵坐标;w 表示所选框的宽;h 表示所选框的 高;m 是框的位置的集合;N 为匹配成功的先验框 个数。 2.3 非极大抑制算法 非极大抑制算法实现步骤:首先根据设定的 目标框的置信度阈值排列候选框列表,然后选取 置信度最高的框添加到输出列表,并将其从候选 框列表中删除。最后计算置信度最高的框与候选 框列表中的所有框的 IoU 值,删除大于阈值的候 选框。重复上述过程,直到候选框列表为空。 3 实验以及结果分析 3.1 实验设备以及参数设置 本实验 GPU 使用的是 NVIDIA GeForce GTX 1080Ti。Batch-size 设置的是 16,防止模型过拟合 和模型收敛,先将学习率设置为 0.001,训练 8 万 次,再将学习率降低 10 倍设置为 0.000 1 训练 2 万 次,最后再降低 10 倍设置为 0.000 01 训练 2 万 次,共 12 万次。实验中的深度学习框架使用的 是 pytorch1.1。 VOC 数据集有 20 类,包括训练集、验证集和 测试集。为了防止过拟合,本文采用 VOC2007+ VOC2012 数据集进行训练,然后再采用 VOC2007 测试集进行测试。 3.2 实验评价指标 本文实验采用平均准确率 (average precision, AP)、召回率 (average recall,AR) 和所有类别的均 值平均精度 mAP (mean average precision) 作为精 度评价指标;f/s(frame per second) 作为速度评价指 标,代表每秒内可以处理的图片数量。其中,AP 代表正确检测为正占全部检测为正的比例[25]。 3.3 实验结果及对比 通过改进 SSD 模型,本文模型在 VOC2007 和 VOC2012 训练集上训练,在不同尺度上的平均准 确率和召回率值如表 1 所示。 表 1 不同尺度的检测结果 Table 1 Test results of different scales 算法 平均准确率mAP/% 召回率AR/% 速度/f·s−1 本文SSD300 80.6 90.2 33 本文SSD321 81.5 91.7 30 本文SSD512 82.5 93.5 12 由表 1 可知,在本文所提出的算法中,当输入 尺寸大小为 300 像素×300 像素时,平均准确率为 80.6%,召回率为 90.2%,速度为 33 f/s;当输入大 小为 321 像素×321 像素时,平均准确率为 81.5%, 召回率为 91.7%,速度为 30 f/s,当输入大小为 512 像 素×512 像素时,平均准确率为 82.5%,召回率为 93.5%,速度为 12 f/s。 为了进一步验证本文算法的有效性,进行了 消融实验,其结果如表 2 所示。 表 2 不同方法对精度的影响 Table 2 Influence of different improvement methods on accuracy 网络类型 mAP/% 速度/f·s−1 原始SSD算法 77.5 46 SSD+双向特征融合 79.3 42 SSD+双向特征融合+SeNet 79.7 40 SSD+anchor改进 77.9 37 SSD+双向特征融合+anchor+ anchor改进+SeNet 80.6 33 由表 2 可知,本文所改进的方法中,在双向特 征融合的基础上加入注意力机制可以使平均准确 率提高 2.2%,anchor 的改进可以使平均准确率提 高 0.4%,整体的平均准确率可以提高 3.1%。 本文模型在 VOC2007 和 VOC2012 训练集上 训练,在 VOC 2007 测试集上的结果与主流算法 Faster-RCNN、YOLOV2、DSSD321 等实验结果对 比如表 3 所示。 表 3 VOC2007 测试结果对比 Table 3 Comparison of test results of VOC2007 算法 基础网络 尺寸/ 像素×像素 mAP/% 速度/f·s−1 Faster-RCNN[5] VGGNet 600×1 000 73.2 7 Faster-RCNN[5] ResNet-101 600×1 000 76.4 2.4 YOLOV2[6] Darknet-19 352×352 73.7 81 SSD300[7] VGGNet 300×300 77.5 46 Ours300 VGGNet 300×300 80.6 33 DSSD321[8] ResNet-101 321×321 79.5 9.5 Ours321 VGGNet 321×321 81.5 30 SSD512[7] VGGNet 512×512 78.5 19 YOLOV2[6] Darknet-19 544×544 78.6 40 DSSD512[8] ResNet-101 512×512 81.5 6.6 Ours512 VGGNet 512×512 82.5 12 由表 3 可知,输入图像尺寸为 300 像素×300 像素时,本文提出的模型平均准确率较 YOLOV2、 SSD300、DSSD321 分别提高了 6.9%、3.1%、1.1%。 同时,SSD 模型每秒检测 46 张图像,而本文改进 后 SSD 模型每秒检测 33 张图像,相比于 SSD 模 ·1102· 智 能 系 统 学 报 第 16 卷
第6期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1103· 型,改进模型的检测速度略有下降,这是由于改 V0C2007具有20类目标,其中每一类别目标 进双向特征融合时模型计算量有所增加,从而影 与主流的目标检测算法的AP的对比结果如表4 响模型的检测速度。 所示。 表4V0C2007测试结果详细比较 Table 4 Detailed comparison of test results of VOC2007 m AP/% 类别方法 Faster-Renn5] SSD300m1 SSD512m DSSD321图 DSSD513 Ours300 Ours321 Ours512 飞机 76.5 79.5 84.8 81.9 86.6 84.4 85.5 87.8 自行车 79.0 83.9 85.1 84.9 86.2 85.7 86.7 88.0 鸟 70.9 76.0 81.5 80.5 82.6 78.2 81.5 84.0 船 66.5 69.6 73.0 68.4 74.9 76.3 77.5 81.1 瓶 52.1 50.5 57.8 53.9 52.5 61.8 58.9 61.5 公共汽车 83.1 87.0 87.8 85.6 89.0 87.9 85.8 82.1 小汽车 84.7 85.7 88.3 86.2 88.1 87.2 88.3 88.8 猫 86.4 88. 87.4 88.9 88.8 88.8 89.0 89.5 椅子 52.0 60.3 63.5 61.1 65. 65.9 67.6 68.9 奶牛 81.9 81.5 85.4 83.5 87.0 85.9 86.2 86.8 桌子 65.7 77.0 73.2 78.7 78.7 77.1 80.4 80.3 狗 84.8 86.1 86.2 86.7 88.2 86.2 87.6 87.4 马 84.6 87.5 86.7 88.7 89.0 88.5 87.6 87.7 摩托车 7.5 83.9 83.9 86.7 87.5 87.0 87.0 87.8 人 76.7 79.4 82.5 79.7 83.7 81.5 84.1 84.7 植物 38.8 52.3 55.6 51.7 51.5 59.1 60.3 62.0 山羊 73.6 77.9 81.7 78.0 86.3 78.5 83.3 83.3 沙发 73.9 79.5 79.0 80.9 81.6 81.2 82.3 82.3 火车 83.0 87.6 86.6 87.2 85.7 88.9 89.3 89.2 电视 72.6 76.8 80.0 79.4 83.7 80.6 81.2 80.2 由表4可知本文算法平均精度有一定的提 高,尤其对小目标的提升更为显著。 为了验证本文算法的有效性,对原始SSD算 法和本文算法的目标检测结果进行了可视化展 示,如图4、5所示。本文算法检测框和目标贴合 (a)识别出较小 (b)识别出被遮 (c)识别出密集 得更为紧密,同时对小目标的漏检和误检情况有 尺寸目标 挡目标 场景目标 一定程度的改善。 图5改进的SSD检测效果 Fig.5 Improved SSD detection results 4结束语 针对SSD目标检测中存在的问题,提出了双 (a)较小尺寸目标(b)被遮挡的目标(c)密集场景的小尺 向特征融合和注意力机制结合的目标检测方法。 识别结果 识别结果 寸目标识别结果 与传统的特征金字塔不同,该方法引入双向融合 图4SSD检测效果 特征金字塔,充分考虑高层与低层信息之间的关 Fig.4 SSD detection results 系,进一步得到了语义信息更丰富的多尺度特征
型,改进模型的检测速度略有下降,这是由于改 进双向特征融合时模型计算量有所增加,从而影 响模型的检测速度。 VOC2007 具有 20 类目标,其中每一类别目标 与主流的目标检测算法的 AP 的对比结果如表 4 所示。 表 4 VOC2007 测试结果详细比较 Table 4 Detailed comparison of test results of VOC2007 m AP/% 类别方法 Faster-Rcnn[5] SSD300[7] SSD512[7] DSSD321[8] DSSD513[8] Ours300 Ours321 Ours512 飞机 76.5 79.5 84.8 81.9 86.6 84.4 85.5 87.8 自行车 79.0 83.9 85.1 84.9 86.2 85.7 86.7 88.0 鸟 70.9 76.0 81.5 80.5 82.6 78.2 81.5 84.0 船 66.5 69.6 73.0 68.4 74.9 76.3 77.5 81.1 瓶 52.1 50.5 57.8 53.9 52.5 61.8 58.9 61.5 公共汽车 83.1 87.0 87.8 85.6 89.0 87.9 85.8 82.1 小汽车 84.7 85.7 88.3 86.2 88.7 87.2 88.3 88.8 猫 86.4 88.1 87.4 88.9 88.8 88.8 89.0 89.5 椅子 52.0 60.3 63.5 61.1 65.2 65.9 67.6 68.9 奶牛 81.9 81.5 85.4 83.5 87.0 85.9 86.2 86.8 桌子 65.7 77.0 73.2 78.7 78.7 77.7 80.4 80.3 狗 84.8 86.1 86.2 86.7 88.2 86.2 87.6 87.4 马 84.6 87.5 86.7 88.7 89.0 88.5 87.6 87.7 摩托车 77.5 83.9 83.9 86.7 87.5 87.0 87.0 87.8 人 76.7 79.4 82.5 79.7 83.7 81.5 84.1 84.7 植物 38.8 52.3 55.6 51.7 51.5 59.1 60.3 62.0 山羊 73.6 77.9 81.7 78.0 86.3 78.5 83.3 83.3 沙发 73.9 79.5 79.0 80.9 81.6 81.2 82.3 82.3 火车 83.0 87.6 86.6 87.2 85.7 88.9 89.3 89.2 电视 72.6 76.8 80.0 79.4 83.7 80.6 81.2 80.2 由表 4 可知本文算法平均精度有一定的提 高,尤其对小目标的提升更为显著。 为了验证本文算法的有效性,对原始 SSD 算 法和本文算法的目标检测结果进行了可视化展 示,如图 4、5 所示。本文算法检测框和目标贴合 得更为紧密,同时对小目标的漏检和误检情况有 一定程度的改善。 (a) 较小尺寸目标 识别结果 (b) 被遮挡的目标 识别结果 (c) 密集场景的小尺 寸目标识别结果 图 4 SSD 检测效果 Fig. 4 SSD detection results (a) 识别出较小 尺寸目标 (b) 识别出被遮 挡目标 (c) 识别出密集 场景目标 图 5 改进的 SSD 检测效果 Fig. 5 Improved SSD detection results 4 结束语 针对 SSD 目标检测中存在的问题,提出了双 向特征融合和注意力机制结合的目标检测方法。 与传统的特征金字塔不同,该方法引入双向融合 特征金字塔,充分考虑高层与低层信息之间的关 系,进一步得到了语义信息更丰富的多尺度特征 第 6 期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1103·
·1104· 智能系统学报 第16卷 图。同时,在自顶向下和自底向上的双向融合中 [10]SINGH B.DAVIS L S.An analysis of scale invariance 加入了通道注意力机制,提高了特征融合的效 in object detection-SNIP[C]//Proceedings of 2018 率。最后,针对目标的漏检情况,本文提出了一 IEEE/CVF Conference on Computer Vision and Pattern 种改进的正负样本判定策略,提取到被检测目标 Recognition.Salt Lake City,USA,2018:3578-3587. 更多的局部特征。经过实验对比,本文所提出的 [11]温静,李雨萌.基于多尺度反卷积深度学习的显著性 算法模型相较于传统S$D算法,平均准确率方面 检测)计算机科学,2020,4711):179-185 提高3.1%.表明了本文所提算法的有效性。 WEN Jing,LI Yumeng.Salient object detection based 参考文献: on multi-scale deconvolution deep learning[J].Com- puter science,2020,47(11):179-185. [1]GIRSHICK R.DONAHUE J.DARRELL T.et al.Rich [12]LI Jianan,LIANG Xiaodan,WEI Yunchao,et al.Per- feature hierarchies for accurate object detection and se- ceptual generative adversarial networks for small object mantic segmentation[C]//Proceedings of the IEEE Con- detection[C]//Proceedings of the IEEE Conference on ference on Computer Vision and Pattern Recognition. Computer Vision and Pattern Recognition.Honolulu, Columbus,USA,2014:580-587. USA.2017:1951-1959 [2]UIJLINGS J RR.VAN DE SANDE K EA.GEVERS T. [13]GOODFELLOW I J,POUGET-ABADIE J,MIRZA M. et al.Selective search for object recognition[J].Interna- et al.Generative adversarial nets[Cl/Proceedings of the tional journal of computer vision,2013,104(2):154-171. 27th International Conference on Neural Information [3]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Processing Systems.Montreal,Canada,2014: Spatial pyramid pooling in deep convolutional networks 2672-2680 for visual recognition[J].IEEE transactions on pattern [14]LIN T Y,DOLLAR P,GIRSHICK R,et al.Feature pyr- analysis and machine intelligence,2015,37(9): amid networks for object detection[C]//Proceedings of 19041916. the IEEE Conference on Computer Vision and Pattern [4]GIRSHICK R.Fast R-CNN[C]//Proceedings of the IEEE Recognition.Honolulu,USA,2017:936-944 International Conference on Computer Vision.Santiago, [15]刘涛,汪西莉.采用卷积核金字塔和空洞卷积的单阶 Chile,.2015:1440-1448. 段目标检测[].中国图象图形学报,2020,25(1) [5]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster 102-112. R-CNN:towards real-time object detection with region LIU Tao,WANG Xili.Single-stage object detection us- proposal networks[J].IEEE transactions on pattern ana- ing filter pyramid and atrous convolution[J].Journal of lysis and machine intelligence,2017,39(6):1137-1149. image and graphics,2020,25(1):102-112. [6]REDMON J.DIVVALA S,GIRSHICK R,et al.You [16]陈景明,金杰,王伟锋.基于特征金字塔网络的改进算 only look once:unified,real-time object detection[C]// 法[).激光与光电子学进展,2019,56(21):211505. Proceedings of 2016 IEEE Conference on Computer Vis- CHEN Jingming,JIN Jie,WANG Weifeng.Improved ion and Pattern Recognition.Las Vegas,USA,2016: algorithm based on feature pyramid networks[J].Laser 779-788. &optoelectronics progress,2019,56(21):211505 [7]REDMON J.FARHADI A.YOLO9000:better,faster, [17刀张涛,张乐.一种基于多尺度特征融合的目标检测算 stronger[C]//Proceedings of 2017 IEEE Conference on 法[J.激光与光电子学进展,2021.58(2):0215003 Computer Vision and Pattern Recognition.Honolulu, ZHANG Tao,ZHANG Le.Multiscale feature fusion- USA.2017:6517-6525 based object detection algorithm[J].Laser optoelec- [8]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single tronics progress,2021,58(2):0215003. shot multibox detector[C]//Proceedings of the 14th [18]和超,张印辉,何自芬.多尺度特征融合工件目标语义 European Conference on Computer Vision.Amsterdam, 分割[J.中国图象图形学报,2020,25(3):476-485. The Netherland,2016:21-37. HE Chao,ZHANG Yinhui,HE Zifen.Semantic seg- [9]FU Chengyang,LIU Wei,RANGA A,et al.DSSD:de- mentation of workpiece target based on multiscale fea- convolutional single shot detector[Cl//Proceedings of the ture fusion[J].Journal of image and graphics,2020, IEEE Conference on Computer Vision and Pattern Recog- 25(3:476-485. nition.Hawaii,USA.2017:2881-2890. [19]鞠默然,罗江宁,王仲博,等.融合注意力机制的多尺
图。同时,在自顶向下和自底向上的双向融合中 加入了通道注意力机制,提高了特征融合的效 率。最后,针对目标的漏检情况,本文提出了一 种改进的正负样本判定策略,提取到被检测目标 更多的局部特征。经过实验对比,本文所提出的 算法模型相较于传统 SSD 算法,平均准确率方面 提高 3.1%,表明了本文所提算法的有效性。 参考文献: GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 580−587. [1] UIJLINGS J R R, VAN DE SANDE K E A, GEVERS T, et al. Selective search for object recognition[J]. International journal of computer vision, 2013, 104(2): 154–171. [2] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904–1916. [3] GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1440−1448. [4] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137–1149. [5] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 779−788. [6] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 6517−6525. [7] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherland, 2016: 21−37. [8] FU Chengyang, LIU Wei, RANGA A, et al. DSSD: deconvolutional single shot detector[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA, 2017: 2881−2890. [9] SINGH B, DAVIS L S. An analysis of scale invariance in object detection-SNIP[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 3578−3587. [10] 温静, 李雨萌. 基于多尺度反卷积深度学习的显著性 检测 [J]. 计算机科学, 2020, 47(11): 179–185. WEN Jing, LI Yumeng. Salient object detection based on multi-scale deconvolution deep learning[J]. Computer science, 2020, 47(11): 179–185. [11] LI Jianan, LIANG Xiaodan, WEI Yunchao, et al. Perceptual generative adversarial networks for small object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 1951−1959. [12] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada, 2014: 2672−2680. [13] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 936−944. [14] 刘涛, 汪西莉. 采用卷积核金字塔和空洞卷积的单阶 段目标检测 [J]. 中国图象图形学报, 2020, 25(1): 102–112. LIU Tao, WANG Xili. Single-stage object detection using filter pyramid and atrous convolution[J]. Journal of image and graphics, 2020, 25(1): 102–112. [15] 陈景明, 金杰, 王伟锋. 基于特征金字塔网络的改进算 法 [J]. 激光与光电子学进展, 2019, 56(21): 211505. CHEN Jingming, JIN Jie, WANG Weifeng. Improved algorithm based on feature pyramid networks[J]. Laser & optoelectronics progress, 2019, 56(21): 211505. [16] 张涛, 张乐. 一种基于多尺度特征融合的目标检测算 法 [J]. 激光与光电子学进展, 2021, 58(2): 0215003. ZHANG Tao, ZHANG Le. Multiscale feature fusionbased object detection algorithm[J]. Laser & optoelectronics progress, 2021, 58(2): 0215003. [17] 和超, 张印辉, 何自芬. 多尺度特征融合工件目标语义 分割 [J]. 中国图象图形学报, 2020, 25(3): 476–485. HE Chao, ZHANG Yinhui, HE Zifen. Semantic segmentation of workpiece target based on multiscale feature fusion[J]. Journal of image and graphics, 2020, 25(3): 476–485. [18] [19] 鞠默然, 罗江宁, 王仲博, 等. 融合注意力机制的多尺 ·1104· 智 能 系 统 学 报 第 16 卷
第6期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1105· 度日标检测算法[J.光学学报,2020,40(13):1315002 and faster RCNN[J].CAAI transactions on intelligent JU Moran,LUO Jiangning,WANG Zhongbo,et al. systems,2020,15(1:92-98 Multi-scale target detection algorithm based on attention [24徐诚极,王晓峰,杨亚东.Attention-YOLO:引入注意 mechanism[J].Acta optica sinica,2020,40(13): 力机制的YOLO检测算法「J].计算机工程与应用 1315002. 2019,556):13-23. [20]张筱晗,姚力波,吕亚飞,等.双向特征融合的数据自 XU Chengji,WANG Xiaofeng,YANG yadong.Atten- 适应SAR图像舰船目标检测模型.中国图象图形 tion-YOLO:YOLO detection algorithm that introduces 学报,2020,25(9:1943-1952. attention mechanism[J].Computer engineering and ap- ZHANG Xiaohan,YAO Libo,LV Yafei,et al.Data-ad- plications,2019,55(6):13-23. aptive single-shot ship detector with a bidirectional fea- [25]单义,杨金福,武随烁,等.基于跳跃连接金字塔模型 ture fusion module for SAR images[J].Journal of image 的小目标检测[J].智能系统学报,2019,14(6): and graphics,2020,25(9):1943-1952. 1144-1151. [21]高杨,肖迪.基于多层特征融合的小目标检测算法). SHAN Yi,YANG Jinfu,WU Suishuo,et al.Skip fea- 计算机工程与设计,2020,41(7):1905-1909 ture pyramid network with a global receptive field for GAO Yang,XIAO Di.Small object detection algorithm small object detection[J].CAAI transactions on intelli- based on multi-feature fusion[J].Computer engineering gent systems,2019,14(6):1144-1151. and design,2020,41(7):1905-1909 作者简介: [22]杨锐,张宝华,张艳月,等.基于深度特征自适应融合 赵文清.教授,博士,主要研究方 的运动目标跟踪算法激光与光电子学进展,2020, 向为人工智能与图像处理。获河北省 科技进步二等奖、三等奖各1项。发 57(18):181501. 表学术论文50余篇。 YANG Rui,ZHANG Baohua,ZHANG Yanyue,et al. Moving object tracking algorithm based on depth fea- ture adaptive fusion[J].Laser optoelectronics pro- gress,2020,57(18):181501. 杨盼盼,硕士研究生,主要研究方 [23]赵文清,程幸福,赵振兵,等.注意力机制和Faster 向为深度学习和目标检测。 RCNN相结合的绝缘子识别[).智能系统学报,2020, 151):92-98. ZHAO Wenqing,CHENG Xingfu,ZHAO Zhenbing,et al.Insulator recognition based on attention mechanism
度目标检测算法 [J]. 光学学报, 2020, 40(13): 1315002. JU Moran, LUO Jiangning, WANG Zhongbo, et al. Multi-scale target detection algorithm based on attention mechanism[J]. Acta optica sinica, 2020, 40(13): 1315002. 张筱晗, 姚力波, 吕亚飞, 等. 双向特征融合的数据自 适应 SAR 图像舰船目标检测模型 [J]. 中国图象图形 学报, 2020, 25(9): 1943–1952. ZHANG Xiaohan, YAO Libo, LV Yafei, et al. Data-adaptive single-shot ship detector with a bidirectional feature fusion module for SAR images[J]. Journal of image and graphics, 2020, 25(9): 1943–1952. [20] 高杨, 肖迪. 基于多层特征融合的小目标检测算法 [J]. 计算机工程与设计, 2020, 41(7): 1905–1909. GAO Yang, XIAO Di. Small object detection algorithm based on multi-feature fusion[J]. Computer engineering and design, 2020, 41(7): 1905–1909. [21] 杨锐, 张宝华, 张艳月, 等. 基于深度特征自适应融合 的运动目标跟踪算法 [J]. 激光与光电子学进展, 2020, 57(18): 181501. YANG Rui, ZHANG Baohua, ZHANG Yanyue, et al. Moving object tracking algorithm based on depth feature adaptive fusion[J]. Laser & optoelectronics progress, 2020, 57(18): 181501. [22] 赵文清, 程幸福, 赵振兵, 等. 注意力机制和 Faster RCNN 相结合的绝缘子识别 [J]. 智能系统学报, 2020, 15(1): 92–98. ZHAO Wenqing, CHENG Xingfu, ZHAO Zhenbing, et al. Insulator recognition based on attention mechanism [23] and faster RCNN[J]. CAAI transactions on intelligent systems, 2020, 15(1): 92–98. 徐诚极, 王晓峰, 杨亚东. Attention-YOLO: 引入注意 力机制的 YOLO 检测算法 [J]. 计算机工程与应用, 2019, 55(6): 13–23. XU Chengji, WANG Xiaofeng, YANG yadong. Attention-YOLO: YOLO detection algorithm that introduces attention mechanism[J]. Computer engineering and applications, 2019, 55(6): 13–23. [24] 单义, 杨金福, 武随烁, 等. 基于跳跃连接金字塔模型 的小目标检测 [J]. 智能系统学报, 2019, 14(6): 1144–1151. SHAN Yi, YANG Jinfu, WU Suishuo, et al. Skip feature pyramid network with a global receptive field for small object detection[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1144–1151. [25] 作者简介: 赵文清,教授,博士,主要研究方 向为人工智能与图像处理。获河北省 科技进步二等奖、三等奖各 1 项。发 表学术论文 50 余篇。 杨盼盼,硕士研究生,主要研究方 向为深度学习和目标检测。 第 6 期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1105·