正在加载图片...
第5期 王凯诚,等:基于注意力机制的显著性目标检测方法 ·959· 满足以下2个条件:1)是连续可导的非线性变 C'×HW,进行矩阵乘法操作和Softmax归一化后 换,保证可以使用反向传播方法进行训练;2)能 就能获得相关矩阵E。 够学习各个通道之间非互斥的关系,允许同时强 通过上述操作,使得网络能够根据输入x动 调多个通道上的信息。在此,与文献[19]相同, 态调整各个通道上和空间位置上的值,兼顾了空 使用1×1卷积层和Sigmoid激活函数来对通道表 间信息和特征本身的信息,提高网络对特征的辨 示器z进行非线性映射,将值限定在[0,1]之间, 别力。 获得通道注意力向量s∈RIxIxC为 2.2多尺度特征融合 s=o(W1z) (2) 为了整合低级和高级特征,把注意力精炼模 式中:W1为1×1卷积层的权重;函数σ代表Sig 块与ResNet-50的输出特征图逐级相连,网络结 moid函数。与文献[19]不同的是,为了减少模块 构如图1所示。使用的ResNet--50结构与文献[21] 的参数量,不使用瓶颈结构(bottleneck)对特征通 中一致,其最后一级特征图ress是输入图像的 道进行压缩。得到通道注意力向量s后,将s与 32倍下采样。将其输入到ARM1模块,得到输出 原始的输入特征图x在每个通道上进行相乘,得 精炼特征图arm,接着对arm1进行2倍上采样, 到通道注意力精炼后的特征图元为 使其尺寸与res特征图相同。 Xe=Sexc (3) 为了将低层特征与高层特征融合,使用 式中:S和x∈RW分别为s和x在第c个通道 res.特征图和ARM2模块对arm1特征图进一步精 上的值。 炼。首先使用1×1卷积层将res4特征图通道数压 进一步,参考文献[20]中非局部操作(non- 缩到256,然后与am1进行拼接,将其作为ARM2 local operation,考虑特征图上其他像素对某像素 模块的输入,得到输出精炼特征图arm2。重复这 的影响,以此得到空间注意力特征。如果输入特 一步骤,进一步整合res和res2特征图,产生 征图x尺寸为H×W×C,对于输出Y上某一位置 arm3和arm,精炼特征图。这样,实现了低级和高 级特征的融合,使用底层特征优化富有语义信息 的特征向量y,ERIxIxC,非局部操作定义为 的高层特征,对预测显著图进行了多级精修。 y= 国人f,x)8gx) (4) 2.3损失函数计算 把相关矩阵E的训练定义为回归问题,根据 式中:x,∈RxxC是该位置的输入特征向量;x,∈ 计算出的注意力真值图A,使用均方误差损失函 Rxxc是其他位置的输入特征向量:C是归一化函 数来计算Loss: 数;∫是2个位置之间的相关函数;函数g计算x 的非线性映射。在这个操作中,输出考虑了空间 4=∑(E6,D-A,0 (6) 中所有位置对该位置特征向量的影响,这与卷积 式中,C为计算出的均方损失;E(i,)和A(i)分别 操作只考虑该点邻域对其的影响不同。本文方法 为第k模块的E和A在(1,)位置上的值。这样, 与文献[20]不同的是,使用训练样本的真值图 实现了特征图上空间注意力的监督,更加准确地 (ground truth)来有监督地学习不同位置之间的相 刻画了不同位置像素间的相关性。 关矩阵E∈RHWxHW,与经过通道注意力提炼后的 对arm2、arm,、arm4精炼特征图分别进行 特征图。进行矩阵乘法,得到空间注意力精炼后 16倍、8倍和4倍上采样,如图1中所示,使用 的最终模块输出Y。根据训练样本的真值图,将 Sigmoid计算每级预测显著图P.为 其缩放到H×W,就可以计算出对应的注意力真值 P=Sigmoid(arm) (7) 图A∈RtWxiw(attention-GT)。如果某两个像素同 选择交叉熵损失函数计算第n模块的P。与 时都属于显著目标所在区域,那么它们的相关度 真值图G之间的Loss: 就为1,否则是0。根据定义,可以得到A为 6.=-∑G.)=logP.6,0+ 1,i.jeT (8) Au=0.i.jeT (5) [G (i,j)=0]log(1-P(i,j)) 式中:(亿,)为特征图上某个像素的坐标;T为真值 式中(n为计算出的交叉嫡损失。将每个模块的相 图中显著目标所在像素位置序号的集合。与文 关矩阵E和每级预测显著图P.的损失函数相 献[20]中方法相似,使用2个3×3卷积层在输人 加,得到最终的Loss为 特征图上提取2个尺寸为H×W×C'的特征矩阵, Los=.+∑4 (9) 其中C'=C/2,将其尺寸分别重塑为HW×C和 m=2z s ∈ R 1×1×C 满足以下 2 个条件:1) 是连续可导的非线性变 换,保证可以使用反向传播方法进行训练;2) 能 够学习各个通道之间非互斥的关系,允许同时强 调多个通道上的信息。在此,与文献 [19] 相同, 使用 1×1 卷积层和 Sigmoid 激活函数来对通道表 示器 进行非线性映射,将值限定在 [0,1] 之间, 获得通道注意力向量 为 s=σ(W1z) (2) W1 σ s s x x˜ c 式中: 为 1×1 卷积层的权重;函数 代表 Sig￾moid 函数。与文献 [19] 不同的是,为了减少模块 的参数量,不使用瓶颈结构 (bottleneck) 对特征通 道进行压缩。得到通道注意力向量 后,将 与 原始的输入特征图 在每个通道上进行相乘,得 到通道注意力精炼后的特征图 为 x˜ c = scxc (3) sc xc ∈ R H×W 式中: 和 分别为 s 和 x 在第 c 个通道 上的值。 x H × W ×C Y ∈ R 1×1×C 进一步,参考文献 [20] 中非局部操作 (non￾local operation),考虑特征图上其他像素对某像素 的影响,以此得到空间注意力特征。如果输入特 征图 尺寸为 ,对于输出 上某一位置 的特征向量 yi ,非局部操作定义为 yi = 1 C(x) ∑ ∀ j f(xi , xj)g(xj) (4) xi ∈ R 1×1×C xj ∈ R 1×1×C xj E ∈ R HW×HW x˜ c Y H × W A ∈ R HW×HW A 式中: 是该位置的输入特征向量; 是其他位置的输入特征向量;C 是归一化函 数;f 是 2 个位置之间的相关函数;函数 g 计算 的非线性映射。在这个操作中,输出考虑了空间 中所有位置对该位置特征向量的影响,这与卷积 操作只考虑该点邻域对其的影响不同。本文方法 与文献 [20] 不同的是,使用训练样本的真值图 (ground truth) 来有监督地学习不同位置之间的相 关矩阵 ,与经过通道注意力提炼后的 特征图 进行矩阵乘法,得到空间注意力精炼后 的最终模块输出 。根据训练样本的真值图,将 其缩放到 ,就可以计算出对应的注意力真值 图 (attention-GT)。如果某两个像素同 时都属于显著目标所在区域,那么它们的相关度 就为 1,否则是 0。根据定义,可以得到 为 Ai j= { 1, i, j ∈ T 0, i, j < T (5) T H × W ×C ′ C ′ = C/2 HW ×C ′ 式中:(i, j) 为特征图上某个像素的坐标; 为真值 图中显著目标所在像素位置序号的集合。与文 献 [20] 中方法相似,使用 2 个 3×3 卷积层在输入 特征图上提取 2 个尺寸为 的特征矩阵, 其中 ,将其尺寸分别重塑为 和 C ′ × HW E ,进行矩阵乘法操作和 Softmax 归一化后 就能获得相关矩阵 。 通过上述操作,使得网络能够根据输入 x 动 态调整各个通道上和空间位置上的值,兼顾了空 间信息和特征本身的信息,提高网络对特征的辨 别力。 2.2 多尺度特征融合 为了整合低级和高级特征,把注意力精炼模 块与 ResNet-50 的输出特征图逐级相连,网络结 构如图 1 所示。使用的 ResNet-50 结构与文献 [21] 中一致,其最后一级特征图 res 5 是输入图像的 32 倍下采样。将其输入到 ARM1 模块,得到输出 精炼特征图 arm1,接着对 arm1 进行 2 倍上采样, 使其尺寸与 res4 特征图相同。 为了将低层特征与高层特征融合,使 用 res4 特征图和 ARM2 模块对 arm1 特征图进一步精 炼。首先使用 1×1 卷积层将 res4 特征图通道数压 缩到 256,然后与 arm1 进行拼接,将其作为 ARM2 模块的输入,得到输出精炼特征图 arm2。重复这 一步骤,进一步整合 res 3 和 res 2 特征图,产生 arm3 和 arm4 精炼特征图。这样,实现了低级和高 级特征的融合,使用底层特征优化富有语义信息 的高层特征,对预测显著图进行了多级精修。 2.3 损失函数计算 E A Loss 把相关矩阵 的训练定义为回归问题,根据 计算出的注意力真值图 ,使用均方误差损失函 数来计算 : ℓk = ∑ i, j (Ek(i, j)− A(i, j))2 (6) ℓk E A 式中, 为计算出的均方损失;Ek (i,j) 和 A(i,j) 分别 为第 k 模块的 和 在 (i,j) 位置上的值。这样, 实现了特征图上空间注意力的监督,更加准确地 刻画了不同位置像素间的相关性。 Pn 对 arm2、arm3、arm4 精炼特征图分别进行 16 倍、8 倍和 4 倍上采样,如图 1 中所示,使用 Sigmoid 计算每级预测显著图 为 Pn = Sigmoid(armn) (7) Pn G Loss 选择交叉熵损失函数计算第 n 模块的 与 真值图 之间的 : ℓn = − ∑ i, j [ Gn(i, j) = 1 ] log(Pn(i, j))+ [ Gn(i, j) = 0 ] log(1− Pn(i, j)) (8) ℓn E Pn Loss 式中 为计算出的交叉熵损失。将每个模块的相 关矩阵 和每级预测显著图 的损失函数相 加,得到最终的 为 Loss = ∑4 n=2 ℓn + ∑4 k=1 ℓk (9) 第 5 期 王凯诚,等:基于注意力机制的显著性目标检测方法 ·959·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有