z s ∈ R 1×1×C 满足以下 2 个条件：1)

正在加载图片...

第5期王凯诚，等：基于注意力机制的显著性目标检测方法 ·959· 满足以下2个条件：1)是连续可导的非线性变 C'×HW,进行矩阵乘法操作和Softmax归一化后换，保证可以使用反向传播方法进行训练；2)能就能获得相关矩阵E。够学习各个通道之间非互斥的关系，允许同时强通过上述操作，使得网络能够根据输入x动调多个通道上的信息。在此，与文献[19]相同，态调整各个通道上和空间位置上的值，兼顾了空使用1×1卷积层和Sigmoid激活函数来对通道表间信息和特征本身的信息，提高网络对特征的辨示器z进行非线性映射，将值限定在[0,1]之间，别力。获得通道注意力向量s∈RIxIxC为 2.2多尺度特征融合 s=o(W1z) (2) 为了整合低级和高级特征，把注意力精炼模式中：W1为1×1卷积层的权重；函数σ代表Sig 块与ResNet-50的输出特征图逐级相连，网络结 moid函数。与文献[19]不同的是，为了减少模块构如图1所示。使用的ResNet--50结构与文献[21] 的参数量，不使用瓶颈结构(bottleneck)对特征通中一致，其最后一级特征图ress是输入图像的道进行压缩。得到通道注意力向量s后，将s与 32倍下采样。将其输入到ARM1模块，得到输出原始的输入特征图x在每个通道上进行相乘，得精炼特征图arm,接着对arm1进行2倍上采样，到通道注意力精炼后的特征图元为使其尺寸与res特征图相同。 Xe=Sexc (3) 为了将低层特征与高层特征融合，使用式中：S和x∈RW分别为s和x在第c个通道 res.特征图和ARM2模块对arm1特征图进一步精上的值。炼。首先使用1×1卷积层将res4特征图通道数压进一步，参考文献[20]中非局部操作(non- 缩到256，然后与am1进行拼接，将其作为ARM2 local operation,考虑特征图上其他像素对某像素模块的输入，得到输出精炼特征图arm2。重复这的影响，以此得到空间注意力特征。如果输入特一步骤，进一步整合res和res2特征图，产生征图x尺寸为H×W×C,对于输出Y上某一位置 arm3和arm,精炼特征图。这样，实现了低级和高级特征的融合，使用底层特征优化富有语义信息的特征向量y,ERIxIxC,非局部操作定义为的高层特征，对预测显著图进行了多级精修。 y= 国人f,x)8gx) (4) 2.3损失函数计算把相关矩阵E的训练定义为回归问题，根据式中：x,∈RxxC是该位置的输入特征向量；x,∈ 计算出的注意力真值图A,使用均方误差损失函 Rxxc是其他位置的输入特征向量：C是归一化函数来计算Loss: 数；∫是2个位置之间的相关函数；函数g计算x 的非线性映射。在这个操作中，输出考虑了空间 4=∑(E6,D-A,0 (6) 中所有位置对该位置特征向量的影响，这与卷积式中，C为计算出的均方损失；E(i,)和A(i)分别操作只考虑该点邻域对其的影响不同。本文方法为第k模块的E和A在(1，)位置上的值。这样，与文献[20]不同的是，使用训练样本的真值图实现了特征图上空间注意力的监督，更加准确地 (ground truth)来有监督地学习不同位置之间的相刻画了不同位置像素间的相关性。关矩阵E∈RHWxHW,与经过通道注意力提炼后的对arm2、arm,、arm4精炼特征图分别进行特征图。进行矩阵乘法，得到空间注意力精炼后 16倍、8倍和4倍上采样，如图1中所示，使用的最终模块输出Y。根据训练样本的真值图，将 Sigmoid计算每级预测显著图P.为其缩放到H×W,就可以计算出对应的注意力真值 P=Sigmoid(arm) (7) 图A∈RtWxiw(attention-GT)。如果某两个像素同选择交叉熵损失函数计算第n模块的P。与时都属于显著目标所在区域，那么它们的相关度真值图G之间的Loss: 就为1，否则是0。根据定义，可以得到A为 6.=-∑G.)=logP.6,0+ 1,i.jeT (8) Au=0.i.jeT (5) [G (i,j)=0]log(1-P(i,j)) 式中：（亿，）为特征图上某个像素的坐标；T为真值式中(n为计算出的交叉嫡损失。将每个模块的相图中显著目标所在像素位置序号的集合。与文关矩阵E和每级预测显著图P.的损失函数相献[20]中方法相似，使用2个3×3卷积层在输人加，得到最终的Loss为特征图上提取2个尺寸为H×W×C'的特征矩阵， Los=.+∑4 (9) 其中C'=C/2,将其尺寸分别重塑为HW×C和 m=2z s ∈ R 1×1×C 满足以下 2 个条件：1) 是连续可导的非线性变换，保证可以使用反向传播方法进行训练；2) 能够学习各个通道之间非互斥的关系，允许同时强调多个通道上的信息。在此，与文献 [19] 相同，使用 1×1 卷积层和 Sigmoid 激活函数来对通道表示器进行非线性映射，将值限定在 [0,1] 之间，获得通道注意力向量为 s=σ(W1z) (2) W1 σ s s x x˜ c 式中：为 1×1 卷积层的权重；函数代表 Sigmoid 函数。与文献 [19] 不同的是，为了减少模块的参数量，不使用瓶颈结构 (bottleneck) 对特征通道进行压缩。得到通道注意力向量后，将与原始的输入特征图在每个通道上进行相乘，得到通道注意力精炼后的特征图为 x˜ c = scxc (3) sc xc ∈ R H×W 式中：和分别为 s 和 x 在第 c 个通道上的值。 x H × W ×C Y ∈ R 1×1×C 进一步，参考文献 [20] 中非局部操作 (nonlocal operation)，考虑特征图上其他像素对某像素的影响，以此得到空间注意力特征。如果输入特征图尺寸为，对于输出上某一位置的特征向量 yi ，非局部操作定义为 yi = 1 C(x) ∑ ∀ j f(xi , xj)g(xj) (4) xi ∈ R 1×1×C xj ∈ R 1×1×C xj E ∈ R HW×HW x˜ c Y H × W A ∈ R HW×HW A 式中：是该位置的输入特征向量；是其他位置的输入特征向量；C 是归一化函数；f 是 2 个位置之间的相关函数；函数 g 计算的非线性映射。在这个操作中，输出考虑了空间中所有位置对该位置特征向量的影响，这与卷积操作只考虑该点邻域对其的影响不同。本文方法与文献 [20] 不同的是，使用训练样本的真值图 (ground truth) 来有监督地学习不同位置之间的相关矩阵，与经过通道注意力提炼后的特征图进行矩阵乘法，得到空间注意力精炼后的最终模块输出。根据训练样本的真值图，将其缩放到 ,就可以计算出对应的注意力真值图 (attention-GT)。如果某两个像素同时都属于显著目标所在区域，那么它们的相关度就为 1，否则是 0。根据定义，可以得到为 Ai j= { 1, i, j ∈ T 0, i, j < T (5) T H × W ×C ′ C ′ = C/2 HW ×C ′ 式中：(i, j) 为特征图上某个像素的坐标；为真值图中显著目标所在像素位置序号的集合。与文献 [20] 中方法相似，使用 2 个 3×3 卷积层在输入特征图上提取 2 个尺寸为的特征矩阵，其中，将其尺寸分别重塑为和 C ′ × HW E ，进行矩阵乘法操作和 Softmax 归一化后就能获得相关矩阵。通过上述操作，使得网络能够根据输入 x 动态调整各个通道上和空间位置上的值，兼顾了空间信息和特征本身的信息，提高网络对特征的辨别力。 2.2 多尺度特征融合为了整合低级和高级特征，把注意力精炼模块与 ResNet-50 的输出特征图逐级相连，网络结构如图 1 所示。使用的 ResNet-50 结构与文献 [21] 中一致，其最后一级特征图 res 5 是输入图像的 32 倍下采样。将其输入到 ARM1 模块，得到输出精炼特征图 arm1，接着对 arm1 进行 2 倍上采样，使其尺寸与 res4 特征图相同。为了将低层特征与高层特征融合，使用 res4 特征图和 ARM2 模块对 arm1 特征图进一步精炼。首先使用 1×1 卷积层将 res4 特征图通道数压缩到 256，然后与 arm1 进行拼接，将其作为 ARM2 模块的输入，得到输出精炼特征图 arm2。重复这一步骤，进一步整合 res 3 和 res 2 特征图，产生 arm3 和 arm4 精炼特征图。这样，实现了低级和高级特征的融合，使用底层特征优化富有语义信息的高层特征，对预测显著图进行了多级精修。 2.3 损失函数计算 E A Loss 把相关矩阵的训练定义为回归问题，根据计算出的注意力真值图，使用均方误差损失函数来计算： ℓk = ∑ i, j (Ek(i, j)− A(i, j))2 (6) ℓk E A 式中，为计算出的均方损失；Ek (i,j) 和 A(i,j) 分别为第 k 模块的和在 (i,j) 位置上的值。这样，实现了特征图上空间注意力的监督，更加准确地刻画了不同位置像素间的相关性。 Pn 对 arm2、arm3、arm4 精炼特征图分别进行 16 倍、8 倍和 4 倍上采样，如图 1 中所示，使用 Sigmoid 计算每级预测显著图为 Pn = Sigmoid(armn) (7) Pn G Loss 选择交叉熵损失函数计算第 n 模块的与真值图之间的： ℓn = − ∑ i, j [ Gn(i, j) = 1 ] log(Pn(i, j))+ [ Gn(i, j) = 0 ] log(1− Pn(i, j)) (8) ℓn E Pn Loss 式中为计算出的交叉熵损失。将每个模块的相关矩阵和每级预测显著图的损失函数相加，得到最终的为 Loss = ∑4 n=2 ℓn + ∑4 k=1 ℓk (9) 第 5 期王凯诚，等：基于注意力机制的显著性目标检测方法 ·959·

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】基于注意力机制的显著性目标检测方法