正在加载图片...
第6期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1099· 得到了很大的提升,但是不能满足实时性要求。 征融合,然后将得到的特征通过降采样的方式与 在20l5年,Girshick等IB-I在R-CNN和SPPNet 深层信息进行融合,这样可以充分结合深层和浅 (spatial pyramid pooling net)网络的基础上提出了 层信息以提升浅层特征网络对小目标的表达能 Fast-RCNN网络。Fast R-CNN比R-CNN快,但是 力,同时,引入通道注意力机制SeNet结构对特征 这个网络还是不能实现端到端的训练,因此 融合后的特征图进行更新,提取出更有利于检测 H等就端到端的问题提出了解决方法,提出了 特征的通道。最后,针对目标检测中小目标漏检的 Faster--RCNN网络。Faster-RCNN将区域建议阶 情况,优化了正负样本的判定策略,使得筛选出的 段和分类阶段结合到一个模型中,允许端到端学 框的数量增加,进一步提高小目标检测的精度。 习。从R-CNN到Faster--RCNN的发展过程,都是 先得到候选框,对候选框做处理之后再进入分类 1相关技术和理论 器做处理,这种类型的方法统称为两阶段目标检 SSD对目标进行分类和回归的过程:首先,输 测法。两阶段方法不能满足实时性要求,基于回 入大小为300像素×300像素的图片,然后使用卷 归的单阶段检测法应运而生。在单阶段检测方法 积神经网络提取同卷积层中目标的特征,本文采 中最具代表性的是YOLO6-刀系列和SSD劉系列。 用的是VGG作为特征提取网络:其次,提取到的 YOLO算法检测速度快,但是容易出漏检。为了 特征根据不同特征层anchor的数目,对anchor进 改善YOLO算法中的缺陷,Liu等图提出SSD算 行分类,利用边界框回归对其进行位置调整,得 法,SSD使用多尺度特征进行分类和回归任务, 到最终的建议框:然后,再使用非极大抑制算法 但是其效果仍有待提高。为了提高目标检测的准 对这些建议框进行筛选,得到检测结果。 确率,DSSD将反卷积技术应用于SSD的所有特 特征金字塔网络(feature pyramid networks, 征图,以获得放大的特征图。但是,由于将反卷 FPN)对高层特征图进行上采样,然后与浅层特征 积模块应用于所有特征图,因此存在模型复杂度 进行加法合并操作,得到新的表达能力更强的特 增加和速度降低的局限性。此外,针对尺度较小 征图,这种多尺度的特征图在面对不同尺寸的物 的目标在检测中存在的问题,相关学者提出了一 体时,具有更好的鲁棒性517。此外,这种特征金 系列改进算法。Singh等io提出SNIP(scale nor- 字塔结构是一种通用的特征提取结构,可以应用 malization for image pyramids)算法,该算法主要思 到不同的网络框架中,例如Faster-RCNN、SSD 想是对特征图进行不同倍数采样,通过实验给出 等。针对小目标的检测,可以检测出更加丰富的 相对最优的检测小目标的特征图尺寸,最后通过 特征,进而提升其准确度。 Soft-NMS融合不同分辨率下的检测结果。Wen 等山通过融合多尺度和反卷积获得了更高的准 2基于改进SSD算法的目标检测 确性。Li等使用生成对抗网络(GAN)1和低 本模型采用VGG16作为骨干网络,使用双向 分辨率特征作为GAN的输人来生成高分辨率特 特征网络完成特征提取,首先,从骨干网络中提 征。但是这些方法在检测中仍然存在不能有效提 取出Conv33、Conv43、Conv53、FC7、Conv82 取目标特征的缺陷。 和Conv92特征图,然后分两个部分进行双向特 特征金字塔网络(feature pyramid networks, 征融合,如图1所示。 FPN)将高层特征图进行上采样,然后与浅层特 2.1双向特征融合过程 征进行加法合并操作,得到新的表达能力更强 2.1.1自顶向下特征融合 的特征图。但是FPN在融合之前,不同的特征 图1中自顶向下的特征融合分为6个步骤: 之间存在的语义信息差距较大,直接进行融合会 1)对256通道的特征图Conv92使用1×1卷 降低多尺度特征的表达能力;其次,在融合过程 积升维成512通道的特征图P1: 中,信息自高层向低层进行传播时会丢失一些信 2)对P,进行2倍上采样后与Conv82进行融 息,而且FPN在进行特征提取时,忽略了高层信 合,对融合结果使用一个3×3的卷积层消除上采 息与低层信息之间的关系,导致检测的精确度有 样过程中的混叠效应,使用SeNet对消除混叠效 所降低。 应后的特征图进行通道更新得到特征图P2: 本文提出了双向特征融合与注意力机制结合 3)对1024通道的特征图FC7使用1×1卷积 的目标检测方法。该方法首先对S$D模型深层 降维成512通道,对P2进行2倍上采样后与降维 特征层进行双线性插值放大与浅层特征层进行特 后的FC7进行融合,使用3×3卷积层消除混叠得到了很大的提升,但是不能满足实时性要求。 在 2015 年,Girshick 等 [3-4] 在 R-CNN 和 SPPNet (spatial pyramid pooling net) 网络的基础上提出了 Fast-RCNN 网络。Fast R-CNN比 R-CNN 快,但是 这个网络还是不能实现端到端的训练,因 此 He 等 [5] 就端到端的问题提出了解决方法,提出了 Faster-RCNN 网络。Faster-RCNN 将区域建议阶 段和分类阶段结合到一个模型中,允许端到端学 习。从 R-CNN 到 Faster-RCNN 的发展过程,都是 先得到候选框,对候选框做处理之后再进入分类 器做处理,这种类型的方法统称为两阶段目标检 测法。两阶段方法不能满足实时性要求,基于回 归的单阶段检测法应运而生。在单阶段检测方法 中最具代表性的是 YOLO[6-7] 系列和 SSD[8] 系列。 YOLO 算法检测速度快,但是容易出漏检。为了 改善 YOLO 算法中的缺陷,Liu 等 [8] 提出 SSD 算 法,SSD 使用多尺度特征进行分类和回归任务, 但是其效果仍有待提高。为了提高目标检测的准 确率,DSSD[9] 将反卷积技术应用于 SSD的所有特 征图,以获得放大的特征图。但是,由于将反卷 积模块应用于所有特征图,因此存在模型复杂度 增加和速度降低的局限性。此外,针对尺度较小 的目标在检测中存在的问题,相关学者提出了一 系列改进算法。Singh 等 [10] 提出 SNIP(scale nor￾malization for image pyramids) 算法,该算法主要思 想是对特征图进行不同倍数采样,通过实验给出 相对最优的检测小目标的特征图尺寸,最后通过 Soft-NMS 融合不同分辨率下的检测结果。Wen 等 [11] 通过融合多尺度和反卷积获得了更高的准 确性。Li 等 [12] 使用生成对抗网络 (GAN)[13] 和低 分辨率特征作为 GAN 的输入来生成高分辨率特 征。但是这些方法在检测中仍然存在不能有效提 取目标特征的缺陷。 特征金字塔网络 (feature pyramid networks, FPN) 将高层特征图进行上采样,然后与浅层特 征进行加法合并操作,得到新的表达能力更强 的特征图。但是 FPN[14] 在融合之前,不同的特征 之间存在的语义信息差距较大,直接进行融合会 降低多尺度特征的表达能力;其次,在融合过程 中,信息自高层向低层进行传播时会丢失一些信 息,而且 FPN 在进行特征提取时,忽略了高层信 息与低层信息之间的关系,导致检测的精确度有 所降低。 本文提出了双向特征融合与注意力机制结合 的目标检测方法。该方法首先对 SSD 模型深层 特征层进行双线性插值放大与浅层特征层进行特 征融合,然后将得到的特征通过降采样的方式与 深层信息进行融合,这样可以充分结合深层和浅 层信息以提升浅层特征网络对小目标的表达能 力,同时,引入通道注意力机制 SeNet 结构对特征 融合后的特征图进行更新,提取出更有利于检测 特征的通道。最后,针对目标检测中小目标漏检的 情况,优化了正负样本的判定策略,使得筛选出的 框的数量增加,进一步提高小目标检测的精度。 1 相关技术和理论 SSD 对目标进行分类和回归的过程:首先,输 入大小为 300 像素×300 像素的图片,然后使用卷 积神经网络提取同卷积层中目标的特征,本文采 用的是 VGG 作为特征提取网络;其次,提取到的 特征根据不同特征层 anchor 的数目,对 anchor 进 行分类,利用边界框回归对其进行位置调整,得 到最终的建议框;然后,再使用非极大抑制算法 对这些建议框进行筛选,得到检测结果。 特征金字塔网络 (feature pyramid networks, FPN) 对高层特征图进行上采样,然后与浅层特征 进行加法合并操作,得到新的表达能力更强的特 征图,这种多尺度的特征图在面对不同尺寸的物 体时,具有更好的鲁棒性[15-17]。此外,这种特征金 字塔结构是一种通用的特征提取结构,可以应用 到不同的网络框架中,例如 Faster-RCNN、SSD 等。针对小目标的检测,可以检测出更加丰富的 特征,进而提升其准确度。 2 基于改进 SSD 算法的目标检测 本模型采用 VGG16 作为骨干网络,使用双向 特征网络完成特征提取,首先,从骨干网络中提 取出 Conv3_3、Conv4_3、Conv5_3、FC7、Conv8_2 和 Conv9_2 特征图,然后分两个部分进行双向特 征融合,如图 1 所示。 2.1 双向特征融合过程 2.1.1 自顶向下特征融合 图 1 中自顶向下的特征融合分为 6 个步骤: 1) 对 256 通道的特征图 Conv9_2 使用 1×1 卷 积升维成 512 通道的特征图 P1; 2) 对 P1 进行 2 倍上采样后与 Conv8_2 进行融 合,对融合结果使用一个 3×3 的卷积层消除上采 样过程中的混叠效应,使用 SeNet 对消除混叠效 应后的特征图进行通道更新得到特征图 P2; 3) 对 1 024 通道的特征图 FC7 使用 1×1 卷积 降维成 512 通道,对 P2 进行 2 倍上采样后与降维 后的 FC7 进行融合,使用 3×3 卷积层消除混叠 第 6 期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1099·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有