正在加载图片...
第6期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1101· 意力机制,得到最终的B特征,最后送入检测层。 两个全连接层,第一个全连接层神经元个数是 Conv8 2 Conv9 2 c/16,第二个全连接层神经元个数为c。然后,再 接一个Sigmod层输出1×1×c,得到各个通道对 应的权重系数,最后与输入的特征图元素相乘。 2.2目标位置与类别预测层 BN层 首先,将提取到的特征层输入到预测层,然 ReLU函数 后,根据不同特征层anchor的数目和类别,对an- SeNet层 chor进行分类,利用边界框回归对其进行位置的 调整,得到最终的建议框。 P. 2.2.1对anchor进行的改进 (a)自顶向下融合过程 在网络模型划分正负样本阶段,anchor和真 B5 实框的交并比(intersection over union.IoU)值作为 正负样本划分的依据。低于通常使用的阈值作为 SeNet层 负样本,高于通常使用的阈值作为正样本。当 ReLU函数 IoU低于通常使用的阈值时存在两种情况。第 4 BN层 1种情况,anchor大于真实框。但是,anchor中的 上下文信息在目标检测中也有很大的作用,通过 上下文信息可以有效地检测目标的信息,进而改 善目标的漏检情况。第2种情况,anchor小于真 Conv8 2 实框,但是这些anchor包含被检测目标更多的局 (b)自底向上融合过程 部特征。针对这两种情况,本文提出了一种改进 图2双向特征融合过程 的正负样本判定策略,保留低于IoU阈值但与目 Fig.2 Bidirectional features fusion process 标相关的anchor作为正样本。将式(I)用于正负 2.1.4注意力机制模块 样本的判断中: 注意力机制是一种资源分配的策略,广泛应用 在计算机视觉各个方向22。注意力机制让神经 a=-Srnst min(Sr.Sr) (1) 网络更多地去关注与特征相关的细节信息,这样 式中:Sp代表先验框集合;S,代表真实框集合; 可以加快信息的处理时间,进而一定程度上提高 SPOST代表先验框和真实框的交集;min(Sp,Sr)代 计算机处理信息的效率,最终提高特征的表达能 表先验框和真实框中面积较小的一个。由经验可 力。本文选用的是SeNet注意力机制,该机制通过 得a的值为0.9。第一种情况下若a>0.9,表示 学习通道之间的关系,然后对卷积得到的特征图 anchor覆盖住90%以上的真实目标,就判断为正 进行相应地处理,最终得到一个与通道数相同维 样本。第2种情况下,表示anchor有90%以上和 度的向量,并且将此向量作为一个权重数,加到相 目标真实框覆盖,就判定为正样本。 应的通道上。注意力机制模型如图3所示。 2.2.2损失函数 输人特征图 网络的损失函数由两部分组成,分别是置信 全局平均池化两层全连接层 度损失和位置损失,如式(2)(⑤)所示: +0 111 N L(t.c)=- (2) 对应元素相乘 L(t,c,1,g)= NLr,c)+aLt,lg》 (3) = exp(c) (4) ∑exp() 注意力机制模块 图3注意力机制模块 L4al8)=∑∑mootk.- (5) iEp me(xy.w.h) Fig.3 Attention mechanism module 式中:1为输入图像;L表示置信度损失;L表示位 首先,对输入的特征图进行全局池化,再连接 置损失;i表示属于正样本的个数;j表示属于负意力机制,得到最终的 B5 特征,最后送入检测层。 + P2 BN 层 BN 层 ReLU 函数 ReLU 函数 SeNet 层 SeNet 层 上采样 Conv8_2 Conv9_2 (a) 自顶向下融合过程 s + Conv8_2 P2 B4 B5 降采样 (b) 自底向上融合过程 图 2 双向特征融合过程 Fig. 2 Bidirectional features fusion process 2.1.4 注意力机制模块 注意力机制是一种资源分配的策略,广泛应用 在计算机视觉各个方向[23-24]。注意力机制让神经 网络更多地去关注与特征相关的细节信息,这样 可以加快信息的处理时间,进而一定程度上提高 计算机处理信息的效率,最终提高特征的表达能 力。本文选用的是 SeNet 注意力机制,该机制通过 学习通道之间的关系,然后对卷积得到的特征图 进行相应地处理,最终得到一个与通道数相同维 度的向量,并且将此向量作为一个权重数,加到相 应的通道上。注意力机制模型如图 3 所示。 × 输入特征图 全局平均池化 注意力机制模块 对应元素相乘 两层全连接层 图 3 注意力机制模块 Fig. 3 Attention mechanism module 首先,对输入的特征图进行全局池化,再连接 两个全连接层,第一个全连接层神经元个数是 c/16,第二个全连接层神经元个数为 c。然后,再 接一个 Sigmod 层输出 1 ×1 ×c,得到各个通道对 应的权重系数,最后与输入的特征图元素相乘。 2.2 目标位置与类别预测层 首先,将提取到的特征层输入到预测层,然 后,根据不同特征层 anchor 的数目和类别,对 an￾chor 进行分类,利用边界框回归对其进行位置的 调整,得到最终的建议框。 2.2.1 对 anchor 进行的改进 在网络模型划分正负样本阶段,anchor 和真 实框的交并比 (intersection over union,IoU) 值作为 正负样本划分的依据。低于通常使用的阈值作为 负样本,高于通常使用的阈值作为正样本。当 IoU 低于通常使用的阈值时存在两种情况。第 1 种情况,anchor 大于真实框。但是,anchor 中的 上下文信息在目标检测中也有很大的作用,通过 上下文信息可以有效地检测目标的信息,进而改 善目标的漏检情况。第 2 种情况,anchor 小于真 实框,但是这些 anchor 包含被检测目标更多的局 部特征。针对这两种情况,本文提出了一种改进 的正负样本判定策略,保留低于 IoU 阈值但与目 标相关的 anchor 作为正样本。将式 (1) 用于正负 样本的判断中: a = S P ∩S T min(S P,S T ) (1) S P ∩S T min(S P,S T ) 式中:SP 代表先验框集合;ST 代表真实框集合; 代表先验框和真实框的交集; 代 表先验框和真实框中面积较小的一个。由经验可 得 a 的值为 0.9。第一种情况下若 a > 0.9,表示 anchor 覆盖住 90% 以上的真实目标,就判断为正 样本。第 2 种情况下,表示 anchor 有 90% 以上和 目标真实框覆盖,就判定为正样本。 2.2.2 损失函数 网络的损失函数由两部分组成,分别是置信 度损失和位置损失,如式 (2)~(5) 所示: Lf(t, c) = − ∑N i∈p ti j log(ˆc p i )− ∑ i∈n log(ˆc 0 i ) (2) L(t, c,l,g) = 1 N (Lf(t, c)+αLl(t,l,g)) (3) cˆ p i = exp(c p i ∑ ) p exp(ˆc p i ) (4) Ll(t,l,g) = ∑N i∈p ∑ m∈(x,y,w,h) t k i jsmoothL1(l m i −gˆ m j ) (5) 式中:t 为输入图像; Lf 表示置信度损失; Ll表示位 置损失;i 表示属于正样本的个数;j 表示属于负 第 6 期 赵文清,等:双向特征融合与注意力机制结合的目标检测 ·1101·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有