【机器感知与模式识别】基于注意力机制的显著性目标检测方法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.28MB

第15卷第5期智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992tis.201903001 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20200320.0957.008.html 基于注意力机制的显著性目标检测方法王凯诚2，鲁华祥，龚国良'，陈刚 (1.中国科学院半导体研究所，北京100083,2.中国科学院大学未来技术学院，北京100089：3.中国科学院脑科学与智能技术卓越创新中心，上海200031：4.半导体神经网络智能感知与计算技术北京市重点实验室，北京 100083) 摘要：针对目前主流的基于全卷积神经网络的显著性目标检测方法，受限于卷积层感受野大小，低层特征缺少全局性的信息，而高层特征由于多次池化操作分辨率较低，无法准确地预测目标边缘等细节的问题，本文提出了基于注意力的显著性目标检测方法。在ResNet-.50网络中加入注意力精炼模块，利用训练样本的显著真值图对空间注意力进行有监督的学习，使得不同像素位置的相关性更准确。通过深度融合多尺度的特征，用低层特征优化高层特征，精修网络的预测结果使其更加准确。在DUT-OMRON和ECSSD数据集上的测试结果显示，本文方法能显著提升检测效果，F-measure和平均绝对误差都优于其他同类方法。关键词：显著性目标检测：深度学习：全卷积神经网络：视觉注意力：多尺度特征：图像处理：人工智能：计算机视觉中图分类号：TP391文献标志码：A文章编号：1673-4785(2020)05-0956-08 中文引用格式：王凯诚，鲁华样，龚国良，等.基于注意力机制的显著性目标检测方法.智能系统学报，2020,15(5)： 956-963. 英文引用格式：VANG Kaicheng,LU Huaxiang,GONG Guoliang,etal.Salient object detection method based on the attention mechanismIJl.CAAI transactions on intelligent systems,2020,15(5):956-963. Salient object detection method based on the attention mechanism WANG Kaicheng2,LU Huaxiang',GONG Guoliang',CHEN Gang' (1.Institute of Semiconductors,Chinese Academy of Sciences,Beijing 100083,China;2.School of Future Technology,University of Chinese Academy of Sciences,Beijing 100089,China;3.Center for Excellence in Brain Science and Intelligence Technology, Chinese Academy of Sciences,Shanghai 200031,China;4.Semiconductor Neural Network Intelligent Perception and Computing Technology Beijing Key Lab,Beijing 100083,China) Abstract:Salient object detection simulates human visual mechanism.At present,the mainstream methods are based on fully convolutional neural networks.Limited by the receptive fields of convolution layers,low-level features lack a global description of images,whereas high-level features are too coarse to accurately segment details of objects,such as edges,because of multi-stage downsampling operations.To solve this problem,we propose a salient object detection method based on the attention mechanism.We introduce novel attention refinement modules.The ground-truth atten- tion calculated from the training datasets is employed to supervise spatial attention.Through this method,the network learns more accurate position relevance between different pixels.In addition,to refine the output salient maps,we gradually combine the multi-scale features and optimize low-layer features with high-layer features.Sufficient experi- ments on DUT-OMRON and ECSSD datasets have demonstrated that the proposed method outperforms the others in terms of the value of the F measure and mean absolute error. Keywords:salient object detection;deep learning;fully convolutional neural network;visual attention;multi-scale fea- tures;image processing;artificial intelligence;computer vision 收稿日期：2019-03-02.网络出版日期：2020-03-20. 基金项目：国家自然科学基金项目(61701473)：中国科学院作为计算机视觉领域基础的任务之一，显著 STS计划项目(KF-STS-ZDTP-070):北京市科技计划项目（亿I81100001518006):中国科学院国防科技创性目标检测模拟人类能够分辨不同目标重要程度新基金项目(CXJ小17-M152):中国科学院战略性先导科技专项(A类)XDA18040400). 的视觉机制，提取出图像或视频中感兴趣的信通信作者：龚国良.E-mail:gongmianjie@semi.ac.cn 息。利用这一视觉机制可以帮助找到图片中代表

DOI: 10.11992/tis.201903001 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20200320.0957.008.html 基于注意力机制的显著性目标检测方法王凯诚1,2，鲁华祥1,3,4，龚国良1 ，陈刚1 （1. 中国科学院半导体研究所，北京 100083; 2. 中国科学院大学未来技术学院，北京 100089; 3. 中国科学院脑科学与智能技术卓越创新中心，上海 200031; 4. 半导体神经网络智能感知与计算技术北京市重点实验室，北京 100083）摘要：针对目前主流的基于全卷积神经网络的显著性目标检测方法，受限于卷积层感受野大小，低层特征缺少全局性的信息，而高层特征由于多次池化操作分辨率较低，无法准确地预测目标边缘等细节的问题，本文提出了基于注意力的显著性目标检测方法。在 ResNet-50 网络中加入注意力精炼模块，利用训练样本的显著真值图对空间注意力进行有监督的学习，使得不同像素位置的相关性更准确。通过深度融合多尺度的特征，用低层特征优化高层特征，精修网络的预测结果使其更加准确。在 DUT-OMRON 和 ECSSD 数据集上的测试结果显示，本文方法能显著提升检测效果，F-measure 和平均绝对误差都优于其他同类方法。关键词：显著性目标检测；深度学习；全卷积神经网络；视觉注意力；多尺度特征；图像处理；人工智能；计算机视觉中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2020)05−0956−08 中文引用格式：王凯诚, 鲁华祥, 龚国良, 等. 基于注意力机制的显著性目标检测方法 [J]. 智能系统学报, 2020, 15(5): 956–963. 英文引用格式：WANG Kaicheng, LU Huaxiang, GONG Guoliang, et al. Salient object detection method based on the attention mechanism[J]. CAAI transactions on intelligent systems, 2020, 15(5): 956–963. Salient object detection method based on the attention mechanism WANG Kaicheng1,2 ，LU Huaxiang1,3,4 ，GONG Guoliang1 ，CHEN Gang1 (1. Institute of Semiconductors, Chinese Academy of Sciences, Beijing 100083, China; 2. School of Future Technology, University of Chinese Academy of Sciences, Beijing 100089, China; 3. Center for Excellence in Brain Science and Intelligence Technology, Chinese Academy of Sciences, Shanghai 200031, China; 4. Semiconductor Neural Network Intelligent Perception and Computing Technology Beijing Key Lab, Beijing 100083, China) Abstract: Salient object detection simulates human visual mechanism. At present, the mainstream methods are based on fully convolutional neural networks. Limited by the receptive fields of convolution layers, low-level features lack a global description of images, whereas high-level features are too coarse to accurately segment details of objects, such as edges, because of multi-stage downsampling operations. To solve this problem, we propose a salient object detection method based on the attention mechanism. We introduce novel attention refinement modules. The ground-truth attention calculated from the training datasets is employed to supervise spatial attention. Through this method, the network learns more accurate position relevance between different pixels. In addition, to refine the output salient maps, we gradually combine the multi-scale features and optimize low-layer features with high-layer features. Sufficient experiments on DUT-OMRON and ECSSD datasets have demonstrated that the proposed method outperforms the others in terms of the value of the F measure and mean absolute error. Keywords: salient object detection; deep learning; fully convolutional neural network; visual attention; multi-scale features; image processing; artificial intelligence; computer vision 作为计算机视觉领域基础的任务之一，显著性目标检测模拟人类能够分辨不同目标重要程度的视觉机制，提取出图像或视频中感兴趣的信息。利用这一视觉机制可以帮助找到图片中代表收稿日期：2019−03−02. 网络出版日期：2020−03−20. 基金项目：国家自然科学基金项目 (61701473)；中国科学院 STS 计划项目 (KFJ-STS-ZDTP-070)；北京市科技计划项目 (Z181100001518006)；中国科学院国防科技创新基金项目 (CXJJ-17-M152)；中国科学院战略性先导科技专项 (A 类)(XDA18040400). 通信作者：龚国良. E-mail：gongmianjie@semi.ac.cn. 第 15 卷第 5 期智能系统学报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020

第5期王凯诚，等：基于注意力机制的显著性目标检测方法 ·957· 场景语义的重要目标或区域，而被广泛应用于图割显著目标边缘等细节。针对上述问题，本文提像理解、场景解析、目标追踪]等各类计算机出了一种基于注意力机制的显著性目标检测方视觉任务。显著性目标检测任务一般包含2个步法，引入注意力精炼模块来改进网络结构，提高骤：1)检测出图像或视频中的显著目标：2)准确网络对特征图中空间与通道上信息的利用能力，地分割出目标的区域。优秀的模型应当能够准确并对低层与高层特征进行融合。在主流的显著性地检测和分割出显著目标，以最大化地保留原始目标检测数据集上进行对比，结果表明本文方法图片信息。同时，作为其他算法的预处理过程，效果优于同类方法。显著性目标检测模型的复杂度需要尽可能的低，从而提高计算效率。 1相关工作在显著性目标检测任务的发展历史中，首先 1.1显著性目标检测网络被提出的是自下而上的计算模型4将任务定义得益于多层级和多尺度特征的提取能力，为寻找图像中的视觉注视点。人的注意力通常会 CNN无需任何先验知识即可检测出显著目标，能被对比度、颜色和边缘等特征吸引，因此基于中够更好地定位目标的边缘实现精准分割。H© 心-周围机制就可以由低级特征计算出视觉注视等1使用一维卷积和池化层学习基于区域的超点。这些方法通常包括3个步骤：1)提取多种低像素特征，计算出各个区域的显著性。Wang等四级视觉特征；2)计算显著图；3)检测少数关键点，设计2个子网络来单独对低级与高级特征编码，从中找出视觉注视点。由于缺乏对图片全文信息并对2个子网络提取的特征进行拼接，使用2层的利用，单纯依靠低级特征难以在复杂图片中检的多层感知器来判断图像中每个区域的显著性。测出显著目标。为了改进自下而上的计算模型的 Wang等]设计了基于图像掩模的多尺度R 不足，科研人员提出基于学习的检测方法，引入 CNN框架计算各个区域的显著性，使用低级特征高级视觉特征如语义一致性来判断目标的显著对照和背景先验来补充语义特征，同时利用超像性。Li山等m将显著性目标检测任务定义为二元素信息来精修目标边缘分割结果。上述几种方法检测问题，使用类别边框来标记显著目标，建立高度依赖分割级的区域信息例如超像素、感兴趣了第一个大规模图像数据集。对于基于学习的检区(region of interest)等，使用图像分类网络来决测方法，算法的关键在于如何从数据中有效地学定每个像素块的显著性。同时由于网络存在最后习出显著目标与背景之间的语义关系。由于提取的全连接层，空间信息和高级语义特征无法得到高级和多尺度特征的能力，卷积神经网络(convo- 有效利用，导致全局信息损失。而基于FCN的方 lutional neural network,CNN)消除了对手工提取法则通过像素级的操作避免了使用全连接层所带特征的依赖，近年来被广泛应用于各种计算机视来的不足，克服了显著目标边缘检测模糊与不准觉任务中。基于CNN的显著性目标检测方法相确的问题。Wang等)设计了递归全卷积网络结比传统方法具有更加优异的性能，已成为了主流构，并引入低级参照特征和中心先验知识作为显研究方向。Long等提出全卷积神经网络模型著性先验图到训练和预测过程中。Lu等提出 (fully convolutional network,FCN),端到端地解决了DHSNet,在GV-CNN网络输出的全局显著图了语义分割问题。如果将显著性目标检测视为二后，加人分层递归网络来精修显著图。为了避免元密集预测任务，则可以使用FCN在数据集上端多级池化造成特征图分辨率较低的问题，Wang 到端地训练，标记图片中每个像素点的显著性预等)设计金字塔池化模块和多阶段提炼机制来测结果。如何进一步地提高CNN的网络性能，就改进网络结构。这些方法改进了传统FCN方法成为了显著性目标检测领域的研究热点所在。的不足，考虑了全局信息和局部信息的整合，逐 CNN通过堆叠卷积层来对图像进行多层级层级利用特征图来精修目标边缘等细节。这说明的视觉抽象，较低的卷积层提取例如边缘、角等利用像素间的相关信息，对不同尺度的特征进行低级特征，较高的卷积层提取高级语义模式。各融合能有效地改善网络性能，取得更好的预测级特征图包含了空间上和通道上的信息，但由于结果。卷积核的尺寸限制，往往只有局部的信息得到利 1.2注意力机制用。此外，多级池化操作导致提取特征图分辨率为了合理利用有限的视觉信息处理能力，人较低，缺乏局部区域的细节特征，无法准确地分类需要选择整个视觉区域中特定的部分来集中关

场景语义的重要目标或区域，而被广泛应用于图像理解[1] 、场景解析[2] 、目标追踪[3] 等各类计算机视觉任务。显著性目标检测任务一般包含 2 个步骤：1) 检测出图像或视频中的显著目标；2) 准确地分割出目标的区域。优秀的模型应当能够准确地检测和分割出显著目标，以最大化地保留原始图片信息。同时，作为其他算法的预处理过程，显著性目标检测模型的复杂度需要尽可能的低，从而提高计算效率。在显著性目标检测任务的发展历史中，首先被提出的是自下而上的计算模型[4-6] ，将任务定义为寻找图像中的视觉注视点。人的注意力通常会被对比度、颜色和边缘等特征吸引，因此基于中心-周围机制就可以由低级特征计算出视觉注视点。这些方法通常包括 3 个步骤：1) 提取多种低级视觉特征；2) 计算显著图；3) 检测少数关键点，从中找出视觉注视点。由于缺乏对图片全文信息的利用，单纯依靠低级特征难以在复杂图片中检测出显著目标。为了改进自下而上的计算模型的不足，科研人员提出基于学习的检测方法，引入高级视觉特征如语义一致性来判断目标的显著性。Liu 等 [7] 将显著性目标检测任务定义为二元检测问题，使用类别边框来标记显著目标，建立了第一个大规模图像数据集。对于基于学习的检测方法，算法的关键在于如何从数据中有效地学习出显著目标与背景之间的语义关系。由于提取高级和多尺度特征的能力，卷积神经网络 (convolutional neural network, CNN)[8] 消除了对手工提取特征的依赖，近年来被广泛应用于各种计算机视觉任务中。基于 CNN 的显著性目标检测方法相比传统方法具有更加优异的性能，已成为了主流研究方向。Long 等 [9] 提出全卷积神经网络模型 (fully convolutional network, FCN)，端到端地解决了语义分割问题。如果将显著性目标检测视为二元密集预测任务，则可以使用 FCN 在数据集上端到端地训练，标记图片中每个像素点的显著性预测结果。如何进一步地提高 CNN 的网络性能，就成为了显著性目标检测领域的研究热点所在。 CNN 通过堆叠卷积层来对图像进行多层级的视觉抽象，较低的卷积层提取例如边缘、角等低级特征，较高的卷积层提取高级语义模式。各级特征图包含了空间上和通道上的信息，但由于卷积核的尺寸限制，往往只有局部的信息得到利用。此外，多级池化操作导致提取特征图分辨率较低，缺乏局部区域的细节特征，无法准确地分割显著目标边缘等细节。针对上述问题，本文提出了一种基于注意力机制的显著性目标检测方法，引入注意力精炼模块来改进网络结构，提高网络对特征图中空间与通道上信息的利用能力，并对低层与高层特征进行融合。在主流的显著性目标检测数据集上进行对比，结果表明本文方法效果优于同类方法。 1 相关工作 1.1 显著性目标检测网络得益于多层级和多尺度特征的提取能力， CNN 无需任何先验知识即可检测出显著目标，能够更好地定位目标的边缘实现精准分割。He 等 [10] 使用一维卷积和池化层学习基于区域的超像素特征，计算出各个区域的显著性。Wang 等 [11] 设计 2 个子网络来单独对低级与高级特征编码，并对 2 个子网络提取的特征进行拼接，使用 2 层的多层感知器来判断图像中每个区域的显著性。 Wang 等 [ 1 2 ] 设计了基于图像掩模的多尺度 RCNN 框架计算各个区域的显著性，使用低级特征对照和背景先验来补充语义特征，同时利用超像素信息来精修目标边缘分割结果。上述几种方法高度依赖分割级的区域信息例如超像素、感兴趣区 (region of interest) 等，使用图像分类网络来决定每个像素块的显著性。同时由于网络存在最后的全连接层，空间信息和高级语义特征无法得到有效利用，导致全局信息损失。而基于 FCN 的方法则通过像素级的操作避免了使用全连接层所带来的不足，克服了显著目标边缘检测模糊与不准确的问题。Wang 等 [13] 设计了递归全卷积网络结构，并引入低级参照特征和中心先验知识作为显著性先验图到训练和预测过程中。Liu 等 [14] 提出了 DHSNet，在 GV-CNN 网络输出的全局显著图后，加入分层递归网络来精修显著图。为了避免多级池化造成特征图分辨率较低的问题，Wang 等 [15] 设计金字塔池化模块和多阶段提炼机制来改进网络结构。这些方法改进了传统 FCN 方法的不足，考虑了全局信息和局部信息的整合，逐层级利用特征图来精修目标边缘等细节。这说明利用像素间的相关信息，对不同尺度的特征进行融合能有效地改善网络性能，取得更好的预测结果。 1.2 注意力机制为了合理利用有限的视觉信息处理能力，人类需要选择整个视觉区域中特定的部分来集中关第 5 期王凯诚，等：基于注意力机制的显著性目标检测方法 ·957·

·958 智能系统学报第15卷注，这一机制称为注意力机制6。视觉的注意力提出了压缩-激活模块，使用全局池化来获得通道机制在人类处理复杂的场景信息时起到了至关重上的注意力，提高了网络提取并利用特征的能要的作用。当面对一个复杂场景时，人类首先快力。从上述方法中可以看到，在神经网络中引入速地浏览场景中的全部内容，利用全局的空间信注意力机制可以更好地引导网络关注重点区域，息寻找场景中最重要的部分。然后集中注意力针提高网络对信息的提取和利用能力。对这一部分进行深度感知，实现对场景视觉结构 2网络结构的理解。这一机制可以引入到卷积层对输人信息进行编码输出特征图的过程中。如果卷积层的输本文在ResNet-50网络2o的基础上，加入注入图像尺寸为H×W×3,输出为H×W×C。那意力精炼模块(attention refinement module,ARM), 么图片中空间位置的相对信息存储在H×W维网络结构如图1所示。将4个注意力精炼模块逐度上，而某一像素所包含的信息则存储在通道C 级相连，上一级的输出与ResNet-50的特征图拼维度上。Fu等m使用APN结构，从整个图片出接，作为下一级模块的输入。通过对特征图的多发，迭代地生成子区域，并对子区域进行预测和级精炼，融合高级和低级特征精修网络预测显著整合，从而得到整张图片的预测。Chen等1通过图的细节。图1中的实线箭头代表着模块输出作堆叠空间注意力模块来整合图像的区域特征，用为下一级的输入，虚线箭头代表模块的输出用于于视觉问答任务中，取得了较好的效果。Hu等计算损失训练网络。损失上采样上采样上采样酒道通道注意力注意力空间注意力注意力 ARM ARM ARM 1×1卷积 1×1卷积 1×1卷积损失 Attention-GT 图1网络结构 Fig.1 Network structure 2.1注意力精炼模块图2为本文的注意力精炼模块，用于处理 A ResNet-50提取的特征图。注意力精炼模块能够引导网络针对性地处理各个通道上的信息，集中 Loss E HWxC Softmax 重组关注空间上更有意义的部分。在网络较低的卷积 HWxHW HxWxC 层中，受限于感受野大小，往往无法利用感受野 HWxC C'xHW Sigmoid 之外的上下文信息。因此使用全局均匀池化重组重组 1×1xC (global average pooling)来得到各个通道上的统计 Hx WxC"个 HxWxC 3×3卷积 Z1×I×C 量？，将全局空间信息压缩到一个通道表示器 3×3卷积 3×3卷积平均池化中。如图2中所示，如果输入特征图x尺寸为H×W×C, 通道统计量z在第c个通道上的值z为 1 = (1) 图2注意力精炼模块示意 11 Fig.2 Attention refinement module 式中x.(i,)为在第c个通道上(i,)位置的特征对特征图的通道信息整合后，需要基于通道值。这一操作整合特征图上各个通道中的信息。统计量z对原始特征图进行精炼。这一操作应当

H × W ×3 H ′ × W′ ×C ′ H ′ × W′ C ′ 注，这一机制称为注意力机制[16]。视觉的注意力机制在人类处理复杂的场景信息时起到了至关重要的作用。当面对一个复杂场景时，人类首先快速地浏览场景中的全部内容，利用全局的空间信息寻找场景中最重要的部分。然后集中注意力针对这一部分进行深度感知，实现对场景视觉结构的理解。这一机制可以引入到卷积层对输入信息进行编码输出特征图的过程中。如果卷积层的输入图像尺寸为，输出为。那么图片中空间位置的相对信息存储在维度上，而某一像素所包含的信息则存储在通道维度上。Fu 等 [17] 使用 APN 结构，从整个图片出发，迭代地生成子区域，并对子区域进行预测和整合，从而得到整张图片的预测。Chen 等 [18] 通过堆叠空间注意力模块来整合图像的区域特征，用于视觉问答任务中，取得了较好的效果。Hu 等 [19] 提出了压缩-激活模块，使用全局池化来获得通道上的注意力，提高了网络提取并利用特征的能力。从上述方法中可以看到，在神经网络中引入注意力机制可以更好地引导网络关注重点区域，提高网络对信息的提取和利用能力。 2 网络结构本文在 ResNet-50 网络[20] 的基础上，加入注意力精炼模块 (attention refinement module，ARM)，网络结构如图 1 所示。将 4 个注意力精炼模块逐级相连，上一级的输出与 ResNet-50 的特征图拼接，作为下一级模块的输入。通过对特征图的多级精炼，融合高级和低级特征精修网络预测显著图的细节。图 1 中的实线箭头代表着模块输出作为下一级的输入，虚线箭头代表模块的输出用于计算损失训练网络。损失损失 1×1 卷积 1×1 卷积 1×1 卷积 Attention-GT 上采样 ARM1 ARM2 ARM3 ARM4 res2 res3 res4 res5 上采样上采样空间注意力空间注意力空间注意力空间注意力通道注意力通道注意力通道注意力通道注意力图 1 网络结构 Fig. 1 Network structure 2.1 注意力精炼模块 z x H × W ×C z c zc 图 2 为本文的注意力精炼模块，用于处理 ResNet-50 提取的特征图。注意力精炼模块能够引导网络针对性地处理各个通道上的信息，集中关注空间上更有意义的部分。在网络较低的卷积层中，受限于感受野大小，往往无法利用感受野之外的上下文信息。因此使用全局均匀池化 (global average pooling) 来得到各个通道上的统计量，将全局空间信息压缩到一个通道表示器中。如图2中所示，如果输入特征图尺寸为，通道统计量在第个通道上的值为 zc = 1 H × W ∑H i=1 ∑W j=1 xc(i, j) (1) 式中 x c c (i, j) 为在第个通道上 (i, j) 位置的特征值。这一操作整合特征图上各个通道中的信息。 x 3×3卷积 3×3卷积 3×3卷积 Loss 平均池化 × × 重组重组重组重组 Y Sigmoid S Z X ~ A E H×W×C′ H×W×C′ 1×1×C 1×1×C H×W×C HW×C HW×HW HW×C′ C′×HW × Softmax 图 2 注意力精炼模块示意 Fig. 2 Attention refinement module z 对特征图的通道信息整合后，需要基于通道统计量对原始特征图进行精炼。这一操作应当 ·958· 智能系统学报第 15 卷

第5期王凯诚，等：基于注意力机制的显著性目标检测方法 ·959· 满足以下2个条件：1)是连续可导的非线性变 C'×HW,进行矩阵乘法操作和Softmax归一化后换，保证可以使用反向传播方法进行训练；2)能就能获得相关矩阵E。够学习各个通道之间非互斥的关系，允许同时强通过上述操作，使得网络能够根据输入x动调多个通道上的信息。在此，与文献[19]相同，态调整各个通道上和空间位置上的值，兼顾了空使用1×1卷积层和Sigmoid激活函数来对通道表间信息和特征本身的信息，提高网络对特征的辨示器z进行非线性映射，将值限定在[0,1]之间，别力。获得通道注意力向量s∈RIxIxC为 2.2多尺度特征融合 s=o(W1z) (2) 为了整合低级和高级特征，把注意力精炼模式中：W1为1×1卷积层的权重；函数σ代表Sig 块与ResNet-50的输出特征图逐级相连，网络结 moid函数。与文献[19]不同的是，为了减少模块构如图1所示。使用的ResNet--50结构与文献[21] 的参数量，不使用瓶颈结构(bottleneck)对特征通中一致，其最后一级特征图ress是输入图像的道进行压缩。得到通道注意力向量s后，将s与 32倍下采样。将其输入到ARM1模块，得到输出原始的输入特征图x在每个通道上进行相乘，得精炼特征图arm,接着对arm1进行2倍上采样，到通道注意力精炼后的特征图元为使其尺寸与res特征图相同。 Xe=Sexc (3) 为了将低层特征与高层特征融合，使用式中：S和x∈RW分别为s和x在第c个通道 res.特征图和ARM2模块对arm1特征图进一步精上的值。炼。首先使用1×1卷积层将res4特征图通道数压进一步，参考文献[20]中非局部操作(non- 缩到256，然后与am1进行拼接，将其作为ARM2 local operation,考虑特征图上其他像素对某像素模块的输入，得到输出精炼特征图arm2。重复这的影响，以此得到空间注意力特征。如果输入特一步骤，进一步整合res和res2特征图，产生征图x尺寸为H×W×C,对于输出Y上某一位置 arm3和arm,精炼特征图。这样，实现了低级和高级特征的融合，使用底层特征优化富有语义信息的特征向量y,ERIxIxC,非局部操作定义为的高层特征，对预测显著图进行了多级精修。 y= 国人f,x)8gx) (4) 2.3损失函数计算把相关矩阵E的训练定义为回归问题，根据式中：x,∈RxxC是该位置的输入特征向量；x,∈ 计算出的注意力真值图A,使用均方误差损失函 Rxxc是其他位置的输入特征向量：C是归一化函数来计算Loss: 数；∫是2个位置之间的相关函数；函数g计算x 的非线性映射。在这个操作中，输出考虑了空间 4=∑(E6,D-A,0 (6) 中所有位置对该位置特征向量的影响，这与卷积式中，C为计算出的均方损失；E(i,)和A(i)分别操作只考虑该点邻域对其的影响不同。本文方法为第k模块的E和A在(1，)位置上的值。这样，与文献[20]不同的是，使用训练样本的真值图实现了特征图上空间注意力的监督，更加准确地 (ground truth)来有监督地学习不同位置之间的相刻画了不同位置像素间的相关性。关矩阵E∈RHWxHW,与经过通道注意力提炼后的对arm2、arm,、arm4精炼特征图分别进行特征图。进行矩阵乘法，得到空间注意力精炼后 16倍、8倍和4倍上采样，如图1中所示，使用的最终模块输出Y。根据训练样本的真值图，将 Sigmoid计算每级预测显著图P.为其缩放到H×W,就可以计算出对应的注意力真值 P=Sigmoid(arm) (7) 图A∈RtWxiw(attention-GT)。如果某两个像素同选择交叉熵损失函数计算第n模块的P。与时都属于显著目标所在区域，那么它们的相关度真值图G之间的Loss: 就为1，否则是0。根据定义，可以得到A为 6.=-∑G.)=logP.6,0+ 1,i.jeT (8) Au=0.i.jeT (5) [G (i,j)=0]log(1-P(i,j)) 式中：（亿，）为特征图上某个像素的坐标；T为真值式中(n为计算出的交叉嫡损失。将每个模块的相图中显著目标所在像素位置序号的集合。与文关矩阵E和每级预测显著图P.的损失函数相献[20]中方法相似，使用2个3×3卷积层在输人加，得到最终的Loss为特征图上提取2个尺寸为H×W×C'的特征矩阵， Los=.+∑4 (9) 其中C'=C/2,将其尺寸分别重塑为HW×C和 m=2

z s ∈ R 1×1×C 满足以下 2 个条件：1) 是连续可导的非线性变换，保证可以使用反向传播方法进行训练；2) 能够学习各个通道之间非互斥的关系，允许同时强调多个通道上的信息。在此，与文献 [19] 相同，使用 1×1 卷积层和 Sigmoid 激活函数来对通道表示器进行非线性映射，将值限定在 [0,1] 之间，获得通道注意力向量为 s=σ(W1z) (2) W1 σ s s x x˜ c 式中：为 1×1 卷积层的权重；函数代表 Sigmoid 函数。与文献 [19] 不同的是，为了减少模块的参数量，不使用瓶颈结构 (bottleneck) 对特征通道进行压缩。得到通道注意力向量后，将与原始的输入特征图在每个通道上进行相乘，得到通道注意力精炼后的特征图为 x˜ c = scxc (3) sc xc ∈ R H×W 式中：和分别为 s 和 x 在第 c 个通道上的值。 x H × W ×C Y ∈ R 1×1×C 进一步，参考文献 [20] 中非局部操作 (nonlocal operation)，考虑特征图上其他像素对某像素的影响，以此得到空间注意力特征。如果输入特征图尺寸为，对于输出上某一位置的特征向量 yi ，非局部操作定义为 yi = 1 C(x) ∑ ∀ j f(xi , xj)g(xj) (4) xi ∈ R 1×1×C xj ∈ R 1×1×C xj E ∈ R HW×HW x˜ c Y H × W A ∈ R HW×HW A 式中：是该位置的输入特征向量；是其他位置的输入特征向量；C 是归一化函数；f 是 2 个位置之间的相关函数；函数 g 计算的非线性映射。在这个操作中，输出考虑了空间中所有位置对该位置特征向量的影响，这与卷积操作只考虑该点邻域对其的影响不同。本文方法与文献 [20] 不同的是，使用训练样本的真值图 (ground truth) 来有监督地学习不同位置之间的相关矩阵，与经过通道注意力提炼后的特征图进行矩阵乘法，得到空间注意力精炼后的最终模块输出。根据训练样本的真值图，将其缩放到 ,就可以计算出对应的注意力真值图 (attention-GT)。如果某两个像素同时都属于显著目标所在区域，那么它们的相关度就为 1，否则是 0。根据定义，可以得到为 Ai j= { 1, i, j ∈ T 0, i, j < T (5) T H × W ×C ′ C ′ = C/2 HW ×C ′ 式中：(i, j) 为特征图上某个像素的坐标；为真值图中显著目标所在像素位置序号的集合。与文献 [20] 中方法相似，使用 2 个 3×3 卷积层在输入特征图上提取 2 个尺寸为的特征矩阵，其中，将其尺寸分别重塑为和 C ′ × HW E ，进行矩阵乘法操作和 Softmax 归一化后就能获得相关矩阵。通过上述操作，使得网络能够根据输入 x 动态调整各个通道上和空间位置上的值，兼顾了空间信息和特征本身的信息，提高网络对特征的辨别力。 2.2 多尺度特征融合为了整合低级和高级特征，把注意力精炼模块与 ResNet-50 的输出特征图逐级相连，网络结构如图 1 所示。使用的 ResNet-50 结构与文献 [21] 中一致，其最后一级特征图 res 5 是输入图像的 32 倍下采样。将其输入到 ARM1 模块，得到输出精炼特征图 arm1，接着对 arm1 进行 2 倍上采样，使其尺寸与 res4 特征图相同。为了将低层特征与高层特征融合，使用 res4 特征图和 ARM2 模块对 arm1 特征图进一步精炼。首先使用 1×1 卷积层将 res4 特征图通道数压缩到 256，然后与 arm1 进行拼接，将其作为 ARM2 模块的输入，得到输出精炼特征图 arm2。重复这一步骤，进一步整合 res 3 和 res 2 特征图，产生 arm3 和 arm4 精炼特征图。这样，实现了低级和高级特征的融合，使用底层特征优化富有语义信息的高层特征，对预测显著图进行了多级精修。 2.3 损失函数计算 E A Loss 把相关矩阵的训练定义为回归问题，根据计算出的注意力真值图，使用均方误差损失函数来计算： ℓk = ∑ i, j (Ek(i, j)− A(i, j))2 (6) ℓk E A 式中，为计算出的均方损失；Ek (i,j) 和 A(i,j) 分别为第 k 模块的和在 (i,j) 位置上的值。这样，实现了特征图上空间注意力的监督，更加准确地刻画了不同位置像素间的相关性。 Pn 对 arm2、arm3、arm4 精炼特征图分别进行 16 倍、8 倍和 4 倍上采样，如图 1 中所示，使用 Sigmoid 计算每级预测显著图为 Pn = Sigmoid(armn) (7) Pn G Loss 选择交叉熵损失函数计算第 n 模块的与真值图之间的： ℓn = − ∑ i, j [ Gn(i, j) = 1 ] log(Pn(i, j))+ [ Gn(i, j) = 0 ] log(1− Pn(i, j)) (8) ℓn E Pn Loss 式中为计算出的交叉熵损失。将每个模块的相关矩阵和每级预测显著图的损失函数相加，得到最终的为 Loss = ∑4 n=2 ℓn + ∑4 k=1 ℓk (9) 第 5 期王凯诚，等：基于注意力机制的显著性目标检测方法 ·959·

·960· 智能系统学报第15卷这样深度监督的训练策略可以使得网络的训与文献[27刀相同，本文使用不固定的阈值来计算练过程更容易收敛，降低训练所需的时间。这准确率和召回率，设置该阈值为显著图平均值的2倍。有了MAE和F-measure这2个评价 3实验与结果指标，就可以将本文方法与其他主流方法进行 3.1实验数据集对比。目前主流的显著性目标检测数据集包括 3.4实验结果与性能对比 MSRA1OKP、DUT-OMRON21和ECSSD等。对比本文方法和其他11种主流的显著性目这些数据集都包含大量的图片，并且样本分布广标检测方法，包括SRMs)、DRFI2I、BL2 泛（动物、植物和生活物体等），因此被当前显著性 LEGSTI、MDF3oI、MCDLII、DSIB2I、DHSU41 目标检测算法用于效果对比中。MSRA1OK数据 ELDB、DCLB、KSR1351和RFCNU1。使用作者文集包含10000张图片，本文选用其作为模型的训章中方法和参数设置训练网络，测试得到显著图练集。DUT-OMRON数据集包含5158张拥有复或者直接使用其提供的显著图，再根据显著图计杂背景的图片，考验模型检测内容复杂场景的能算在不同测试集上的结果，如表1所示。力。ECSSD数据集包含1000张不同尺寸目标的表1本文方法与其他方法效果的对比 Table 1 Comparison between our method and the others 复杂图像。本文选择DUT-OMRON和ECSSD数 on performance 据集作为测试集，对比本文模型与其他模型的效果。 DUT-OMRON ECSSD 3.2网络训练方法 F-measure MAE F-measure MAE 本文选择“MXNET”深度学习框架，在2块 SRM 0.707 0.069 0.892 0.056 Titan Xp Pascal GPU上进行网络的训练和测试。 DHS 0.871 0.063 首先将MSRA10K训练集中的图片填充到416× RFCN 0.627 0.111 0.834 0.109 416的大小，然后进行原尺寸2/3到3/2之间的随 DCL 0.684 0.157 0.827 0.151 机尺度放缩。最后将图片随机裁剪到416×416像 ELD 0.611 0.092 0.810 0.082 素，减去像素均值，送入网络中进行训练。 DS 0.603 0.120 0.821 0.124 本文使用在ImageNet数据集2上训练的 MDF 0.644 0.092 0.805 0.108 ResNet-50模型作为网络的初始权重，再在 MCDL 0.625 0.089 0.796 0.102 MSRA10K数据集上进行微调(finetune)。本文选 LEGS 0.592 0.133 0.785 0.119 择带有冲量(momentum)的随机梯度下降 BL 0.499 0.239 0.684 0.217 (stochastic gradient descent)作为梯度更新算法，使 DRFI 0.550 0.138 0.733 0.166 用文献[26]中的“Poly”学习率调整策略。mini- 本文方法 0.720 0.064 0.906 0.049 batch的值设置为16，训练共45000个迭代。基准从表1可以看到，本文方法表现好过当前主学习率设置为0.01，下降率指数为0.9。设置冲量流的显著性检测方法。对于F-measure指标，本文值为0.9，权重衰减0.0001。在DUT-OMRON和ECSSD数据集上分别超过表 3.3评价标准现最佳的SRM方法0.013和0.014。同样，对于本文使用平均绝对误差(MAE)和F-meas- MAE指标，本文分别超过SRM方法0.005和0.007。 ure值来评价算法在数据集上的测试结果。MAE 为了研究注意力精炼模块的效果，在EC 定义为输出预测结果P与二元真实值G在每个 SSD数据集上测试了网络处于不同多尺度特征融像素上错误率平均值，为合阶段时的表现，结果如表2所示。表2中Baseline H MAE= P(x,y)-G(x,y) (10) 代表直接使用res特征图进行32倍上采样得到显著图。可以看到，随着多尺度特征的融合，注式中W和H分别为预测结果P的宽和高。MAE 意力精炼模块大幅度地提升了网络的表现，F- 越低意味着网络预测的准确率越高。 measure指标提高了0.057，MAE指标降低了接近 F-measure是对算法的综合评价指标一半到达了0.049。如图3所示，在ECSSD数据 F=(1+B)-P.R 集上的预测结果图说明网络能够成功检测出植 (11) B2.P+R 物、动物和人等显著目标，并对目标边缘进行准式中：P和R分别为平均准确率和平均召回率；确分割。上述结果证明本文方法提高了网络对特 B设置为0.3。为了强调准确率的重要性。F- 征的利用能力，融合了多尺度的特征精修了预测 measure指标越高意味着网络预测的效果越好。结果，大幅度提高了网络的性能表现

这样深度监督的训练策略可以使得网络的训练过程更容易收敛，降低训练所需的时间。 3 实验与结果 3.1 实验数据集目前主流的显著性目标检测数据集包括 MSRA10K[22] 、DUT-OMRON[23] 和 ECSSD[24] 等。这些数据集都包含大量的图片，并且样本分布广泛 (动物、植物和生活物体等)，因此被当前显著性目标检测算法用于效果对比中。MSRA10K 数据集包含 10 000 张图片，本文选用其作为模型的训练集。DUT-OMRON 数据集包含 5 158 张拥有复杂背景的图片，考验模型检测内容复杂场景的能力。ECSSD 数据集包含 1 000 张不同尺寸目标的复杂图像。本文选择 DUT-OMRON 和 ECSSD 数据集作为测试集，对比本文模型与其他模型的效果。 3.2 网络训练本文选择“MXNET”深度学习框架，在 2 块 Titan Xp Pascal GPU 上进行网络的训练和测试。首先将 MSRA10K 训练集中的图片填充到 416× 416 的大小，然后进行原尺寸 2/3 到 3/2 之间的随机尺度放缩。最后将图片随机裁剪到 416×416 像素，减去像素均值，送入网络中进行训练。本文使用在 ImageNet 数据集[ 2 5 ] 上训练的 ResNet-5 0 模型作为网络的初始权重，再在 MSRA10K 数据集上进行微调 (finetune)。本文选择带有冲量 (momentum ) 的随机梯度下降 (stochastic gradient descent) 作为梯度更新算法，使用文献 [26] 中的“Poly”学习率调整策略。minibatch 的值设置为 16，训练共 45 000 个迭代。基准学习率设置为 0.01，下降率指数为 0.9。设置冲量值为 0.9，权重衰减 0.0001。 3.3 评价标准 P G 本文使用平均绝对误差 (MAE) 和 F-measure 值来评价算法在数据集上的测试结果。MAE 定义为输出预测结果与二元真实值在每个像素上错误率平均值，为 MAE = 1 HW ∑H x=1 ∑W y=1 |P(x, y)−G(x, y)| (10) 式中 W 和 H 分别为预测结果 P 的宽和高。MAE 越低意味着网络预测的准确率越高。 F-measure 是对算法的综合评价指标: Fβ = (1+β 2 )· P·R β 2 · P+R (11) 式中: P 和 R 分别为平均准确率和平均召回率； β 设置为 0.3。为了强调准确率的重要性。Fmeasure 指标越高意味着网络预测的效果越好。与文献 [27] 相同，本文使用不固定的阈值来计算这准确率和召回率，设置该阈值为显著图平均值的 2 倍。有了 MAE 和 F-measure 这 2 个评价指标，就可以将本文方法与其他主流方法进行对比。 3.4 实验结果与性能对比对比本文方法和其他 11 种主流的显著性目标检测方法，包括 SRM[ 1 5 ] 、 DRFI[ 2 8 ] 、BL[ 2 9 ] 、 LEGS[ 1 1 ] 、MDF[ 3 0 ] 、MCDL[ 3 1 ] 、DS[ 3 2 ] 、DHS[ 1 4 ] 、 ELD[33] 、DCL[34] 、KSR[35] 和 RFCN[13]。使用作者文章中方法和参数设置训练网络，测试得到显著图或者直接使用其提供的显著图，再根据显著图计算在不同测试集上的结果，如表 1 所示。表 1 本文方法与其他方法效果的对比 Table 1 Comparison between our method and the others on performance 方法 DUT-OMRON ECSSD F-measure MAE F-measure MAE SRM 0.707 0.069 0.892 0.056 DHS — — 0.871 0.063 RFCN 0.627 0.111 0.834 0.109 DCL 0.684 0.157 0.827 0.151 ELD 0.611 0.092 0.810 0.082 DS 0.603 0.120 0.821 0.124 MDF 0.644 0.092 0.805 0.108 MCDL 0.625 0.089 0.796 0.102 LEGS 0.592 0.133 0.785 0.119 BL 0.499 0.239 0.684 0.217 DRFI 0.550 0.138 0.733 0.166 本文方法 0.720 0.064 0.906 0.049 从表 1 可以看到，本文方法表现好过当前主流的显著性检测方法。对于 F-measure 指标，本文在 DUT-OMRON 和 ECSSD 数据集上分别超过表现最佳的 SRM 方法 0.013 和 0.014。同样，对于 MAE 指标，本文分别超过 SRM 方法 0.005 和 0.007。为了研究注意力精炼模块的效果，在 ECSSD 数据集上测试了网络处于不同多尺度特征融合阶段时的表现，结果如表 2 所示。表 2 中 Baseline 代表直接使用 res5 特征图进行 32 倍上采样得到显著图。可以看到，随着多尺度特征的融合，注意力精炼模块大幅度地提升了网络的表现，Fmeasure 指标提高了 0.057，MAE 指标降低了接近一半到达了 0.049。如图 3 所示，在 ECSSD 数据集上的预测结果图说明网络能够成功检测出植物、动物和人等显著目标，并对目标边缘进行准确分割。上述结果证明本文方法提高了网络对特征的利用能力，融合了多尺度的特征精修了预测结果，大幅度提高了网络的性能表现。 ·960· 智能系统学报第 15 卷

第5期王凯诚，等：基于注意力机制的显著性目标检测方法 ·961· 表2不同尺度融合阶段网络性能差异进一步，对比其他文章中上下文提取模块方 Table 2 Performance of our network in different stages 法，分析本文提出的注意力精炼模块对空间注意 ECSSD 力特征的利用情况，如表4所示。其中DeepLab 阶段上采样率 F-measure MAE V2指文献26]中提出的使用全连接的条件随机场来整合空间信息，PSP-Net为文献[37]中提出 Baseline 0.849 0.097 32× 的特征金字塔方法，DeepLab V3B使用空洞卷积 arm2 0.878 0.060 16× 提高网络的感受野，提高网络对多尺度信息的获 arm3 0.890 0.057 8× 取能力。根据结果可以发现，本文方法相较性能 arm4 0.906 0.049 4× 最好的DeepLab V3方法提高了0.016的F-meas ure指标，降低了O.O08的MAE指标，取得了更加优异的空间注意力精炼效果。表4空间注意力精炼效果对比 Table 4 Comparison on spatial attention refinement per- formance ECSSD 使用方法 F-measure MAE DeepLab V2 0.866 0.083 PSP-Net 0.889 0.058 DeepLab V3 0.882 0.057 本文方法 0.906 0.049 原始图片预测结果真值图 4 结束语图3在ECSSD数据集上的预测结果 Fig.3 Predicted results on ECSSD dataset 本文提出了一种基于注意力机制的显著性目为了分析本文提出的注意力精炼模块对通道标检测方法，设计注意力精炼模块融合通道和空注意力的整合效果，对比了文献[36]中的通道注间注意力，使得网络能够根据输入特征图选取其意力模块(channel attention block)与本文方法在中重要的信息。使用训练样本的真值图有监督地 ECSSD数据集上测试的结果，结果如表3所示，训练空间注意力，提高了像素间相关关系的准确其中CAB表示使用通道注意力模块整合通道上性。最后，本文将注意力精炼模块逐级连接，使的信息，ARM表示使用本文的注意力精炼模块中用低级特征精修高级语义特征，修正预测显著图的通道注意力对特征图进行精炼，而不使用空间细节，实现了多尺度特征的融合。在MSRA1OK 注意力。ARM+AS表示使用训练样本真值图对数据集上训练模型后，在DUT-OMRON和EC 只使用通道注意力的注意力精炼模块进行额外监 SSD数据集上进行测试，并在ECSSD数据集上与督。结果可以发现，本文方法相较文章中的方其他主流通道和空间特征提取方法对比。实现结法，F-measure指标提高了0.027，MAE指标降低果表明，与目前主流的显著性目标检测方法相了0.011，展示出更加优异的通道全局信息整合能力。比，本文提出的方法能够更有效地精炼特征图上表3通道注意力精炼效果对比的通道和空间信息，因此取得了更加优异的效果。 Table 3 Comparison on channel attention refinement per- formance 参考文献： ECSSD 使用方法 [1]ZHANG Fan,DU Bo,ZHANG Liangpei.Salien-cy-guided F-measure MAE unsupervised feature learning for scene classi-fication[J] Baseline 0.849 0.097 IEEE transactions on geoscience and remote sensing,2015, CAB 0.879 0.06 53(4):2175-2184. ARM 0.89 0.057 [2]ITTI L,KOCH C.NIEBUR E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE transac- ARM+AS 0.906 0.049 tions on pattern analysis and machine intelligence,1998

表 2 不同尺度融合阶段网络性能差异 Table 2 Performance of our network in different stages 阶段 ECSSD 上采样率 F-measure MAE Baseline 0.849 0.097 32× arm2 0.878 0.060 16× arm3 0.890 0.057 8× arm4 0.906 0.049 4× 原始图片预测结果真值图图 3 在 ECSSD 数据集上的预测结果 Fig. 3 Predicted results on ECSSD dataset 为了分析本文提出的注意力精炼模块对通道注意力的整合效果，对比了文献 [36] 中的通道注意力模块 (channel attention block) 与本文方法在 ECSSD 数据集上测试的结果，结果如表 3 所示，其中 CAB 表示使用通道注意力模块整合通道上的信息，ARM 表示使用本文的注意力精炼模块中的通道注意力对特征图进行精炼，而不使用空间注意力。ARM+AS 表示使用训练样本真值图对只使用通道注意力的注意力精炼模块进行额外监督。结果可以发现，本文方法相较文章中的方法，F-measure 指标提高了 0.027，MAE 指标降低了 0.011，展示出更加优异的通道全局信息整合能力。表 3 通道注意力精炼效果对比 Table 3 Comparison on channel attention refinement performance 使用方法 ECSSD F-measure MAE Baseline 0.849 0.097 CAB 0.879 0.06 ARM 0.89 0.057 ARM+AS 0.906 0.049 进一步，对比其他文章中上下文提取模块方法，分析本文提出的注意力精炼模块对空间注意力特征的利用情况，如表 4 所示。其中 DeepLab V2 指文献 [26] 中提出的使用全连接的条件随机场来整合空间信息，PSP-Net 为文献 [37] 中提出的特征金字塔方法，DeepLab V3[38] 使用空洞卷积提高网络的感受野，提高网络对多尺度信息的获取能力。根据结果可以发现，本文方法相较性能最好的 DeepLab V3 方法提高了 0.016 的 F-measure 指标，降低了 0.008 的 MAE 指标，取得了更加优异的空间注意力精炼效果。表 4 空间注意力精炼效果对比 Table 4 Comparison on spatial attention refinement performance 使用方法 ECSSD F-measure MAE DeepLab V2 0.866 0.083 PSP-Net 0.889 0.058 DeepLab V3 0.882 0.057 本文方法 0.906 0.049 4 结束语本文提出了一种基于注意力机制的显著性目标检测方法，设计注意力精炼模块融合通道和空间注意力，使得网络能够根据输入特征图选取其中重要的信息。使用训练样本的真值图有监督地训练空间注意力，提高了像素间相关关系的准确性。最后，本文将注意力精炼模块逐级连接，使用低级特征精修高级语义特征，修正预测显著图细节，实现了多尺度特征的融合。在 MSRA10K 数据集上训练模型后，在 DUT-OMRON 和 ECSSD 数据集上进行测试，并在 ECSSD 数据集上与其他主流通道和空间特征提取方法对比。实现结果表明，与目前主流的显著性目标检测方法相比，本文提出的方法能够更有效地精炼特征图上的通道和空间信息，因此取得了更加优异的效果。参考文献： ZHANG Fan, DU Bo, ZHANG Liangpei. Salien-cy-guided unsupervised feature learning for scene classi-fication[J]. IEEE transactions on geoscience and remote sensing, 2015, 53(4): 2175–2184. [1] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE transactions on pattern analysis and machine intelligence, 1998, [2] 第 5 期王凯诚，等：基于注意力机制的显著性目标检测方法 ·961·

·962· 智能系统学报第15卷 20(11):1254-1259 [15]WANG Tiantian,BORJI A,ZHANG Lihe,et al.A stage- [3]HONG S,YOU T,KWAK S,et al.Online tracking by wise refinement model for detecting salient objects in im- learning discriminative saliency map with convolutional ages[C]//Proceedings of 2017 IEEE International Confer- neural network[Cl//Proceedings of the 32nd International ence on Computer Vision.Venice,Italy,2017: Conference on International Conference on Machine 4039-4048. Learning.Lille,France,2015:597-606. [16]LAROCHELLE H.HINTON G.Learning to combine fo- [4]TREISMAN A M.GELADE G.A feature-integration the- veal glimpses with a third-order Boltzmann ma- ory of attention[J].Cognitive psychology,1980,12(1): chine[C]//Proceedings of the 23rd International Confer- 97-136. ence on Neural Information Processing Systems.Van- [5]KOCH C.ULLMAN S.Shifts in selective visual attention: couver,Canada,2010:1243-1251. towards the underlying neural circuitry[J].Human neurobi- [17]FU Jianlong,ZHENG Heliang,MEI Tao.Look closer to ology,1985,4(4):219-227. see better:recurrent attention convolutional neural net- [6]WOLFE J M,CAVE K R,FRANZEL S L.Guided search: work for fine-grained image recognition[C]//Proceedings an alternative to the feature integration model for visual of 2017 IEEE Conference on Computer Vision and Pat- search[J].Journal of experimental psychology:human per- tern Recognition (CVPR).Honolulu,USA,2017: ception and performance,1989,15(3):419-433. 4476-4484. [7]LIU Tie,SUN Jian,ZHENG Nanning,et al.Learning to [18]CHEN Long,ZHANG Hanwang,XIAO Jun,et al.SCA- detect a salient object[Cl//Proceedings of 2007 IEEE Con- CNN:spatial and channel-wise attention in convo-lution- ference on Computer Vision and Pattern Recognition.Min- al networks for image captioning[C]//Proceedings of 2017 neapolis,USA,2007:1-8. IEEE Conference on Computer Vision and Pattern Recog- [8]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradi-ent- nition (CVPR).Honolulu,USA,2017:6298-6306 based learning applied to document recognition[J].Pro- [19]HU Jie,SHEN Li,SUN Gang.Squeeze-and-excitation ceedings of the IEEE,1998,86(11):2278-2324. networks[C]//Proceedings of 2018 IEEE/CVF Confer- [9]LONG J,SHELHAMER E,DARRELL T.Fully convo-lu- ence on Computer Vision and Pattern Recognition.Salt tional networks for semantic segmenta-tion[C]//Proceed- Lake City,USA.2018:7132-7141. ings of 2015 IEEE Conference on Com-puter Vision and [20]WANG Xiaolong,GIRSHICK R B,GUPTA A,et al. Pattern Recognition.Boston.USA,2015:3431-3440. Non-local neural networks[Cl//Proceedings of 2018 IEEE [10]HE Shengfeng,LAU R W,LIU Wenxi,et al.Supercnn:a Conference on Computer Vision and Pattern Recognition. superpixelwise convolutional neural network for salient Salt Lake City,USA,2018:7794-7803. object detection[J].International journal of computer vis- [21]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. ion,2015,115(3):330-344. Deep residual learning for image recognition[C]//Proceed- [11]WANG Lijun,LU Huchuan,RUAN Xiang,et al.Deep ings of 2016 IEEE Conference on Computer Vision and networks for saliency detection via local estimation and Pattern Recognition.Las Vegas,USA,2016:770-778. global search[C]//Proceedings of 2015 IEEE Conference [22]CHENG Mingming,MITRA N J,HUANG Xiaolei,et al. on Computer Vision and Pattern Recognition.Boston, Global contrast based salient region detection[J].IEEE USA.2015:3183-3192 transactions on pattern analysis and machine intelligence, [12]WANG Xiang,MA Huimin,CHEN Xiaozhi.Salient ob- 2015,37(3569-582. ject detection via fast R-CNN and low-level cues[Cl//Pro- [23]YANG Chuan,ZHANG Lihe,LU Huchuan,et al.Sali-en- ceedings of 2016 IEEE International Con-ference on Im- cy detection via graph-based manifold rank-ing[C]//Pro- age Processing (ICIP).Phoenix,USA,2016:1042-1046. ceedings of 2013 IEEE Conference on Com-puter Vision [13]WANG Linzhao,WANG Lijun,LU Huchuan,et al.Sa-li- and Pattern Recognition.Portland,USA,2013: ency detection with recurrent fully convolutional net- 3166-3173. works[C]//Proceedings of the 14th European Conference [24]YAN Qiong,XU Li,SHI Jianping,et al.Hierarchical sali- on Computer Vision.Amsterdam,the Netherlands,2016: ency detection[C]//Proceedings of 2013 IEEE Con-fer- 825-841 ence on Computer Vision and Pattern Recognition.Port- [14]LIU Nian,HAN Junwei.Dhsnet:deep hierarchical sali- land,USA.2013:1155-1162 ency network for salient object detection[Cl//Proceedings [25]DENG J,DONG W,SOCHER R,et al.ImageNet:a of 2016 IEEE Conference on Computer Vision and Pat- large-scale hierarchical image database[C]//Proceedings tern Recognition.Las Vegas,USA,2016:678-686. of 2009 IEEE Conference on Computer Vision and Pat-

20(11): 1254–1259. HONG S, YOU T, KWAK S, et al. Online tracking by learning discriminative saliency map with convolutional neural network[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France, 2015: 597−606. [3] TREISMAN A M, GELADE G. A feature-integration theory of attention[J]. Cognitive psychology, 1980, 12(1): 97–136. [4] KOCH C, ULLMAN S. Shifts in selective visual attention: towards the underlying neural circuitry[J]. Human neurobiology, 1985, 4(4): 219–227. [5] WOLFE J M, CAVE K R, FRANZEL S L. Guided search: an alternative to the feature integration model for visual search[J]. Journal of experimental psychology: human perception and performance, 1989, 15(3): 419–433. [6] LIU Tie, SUN Jian, ZHENG Nanning, et al. Learning to detect a salient object[C]//Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, USA, 2007: 1−8. [7] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradi-entbased learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [8] LONG J, SHELHAMER E, DARRELL T. Fully convo-lutional networks for semantic segmenta-tion[C]//Proceedings of 2015 IEEE Conference on Com-puter Vision and Pattern Recognition. Boston, USA, 2015: 3431−3440. [9] HE Shengfeng, LAU R W, LIU Wenxi, et al. Supercnn: a superpixelwise convolutional neural network for salient object detection[J]. International journal of computer vision, 2015, 115(3): 330–344. [10] WANG Lijun, LU Huchuan, RUAN Xiang, et al. Deep networks for saliency detection via local estimation and global search[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3183−3192. [11] WANG Xiang, MA Huimin, CHEN Xiaozhi. Salient object detection via fast R-CNN and low-level cues[C]//Proceedings of 2016 IEEE International Con-ference on Image Processing (ICIP). Phoenix, USA, 2016: 1042−1046. [12] WANG Linzhao, WANG Lijun, LU Huchuan, et al. Sa-liency detection with recurrent fully convolutional networks[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands, 2016: 825−841. [13] LIU Nian, HAN Junwei. Dhsnet: deep hierarchical saliency network for salient object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 678−686. [14] WANG Tiantian, BORJI A, ZHANG Lihe, et al. A stagewise refinement model for detecting salient objects in images[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 4039−4048. [15] LAROCHELLE H, HINTON G. Learning to combine foveal glimpses with a third-order Boltzmann machine[C]//Proceedings of the 23rd International Conference on Neural Information Processing Systems. Vancouver, Canada, 2010: 1243−1251. [16] FU Jianlong, ZHENG Heliang, MEI Tao. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA, 2017: 4476−4484. [17] CHEN Long, ZHANG Hanwang, XIAO Jun, et al. SCACNN: spatial and channel-wise attention in convo-lutional networks for image captioning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA, 2017: 6298−6306. [18] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 7132−7141. [19] WANG Xiaolong, GIRSHICK R B, GUPTA A, et al. Non-local neural networks[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 7794−7803. [20] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [21] CHENG Mingming, MITRA N J, HUANG Xiaolei, et al. Global contrast based salient region detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(3): 569–582. [22] YANG Chuan, ZHANG Lihe, LU Huchuan, et al. Sali-ency detection via graph-based manifold rank-ing[C]//Proceedings of 2013 IEEE Conference on Com-puter Vision and Pattern Recognition. Portland, USA, 2013: 3166−3173. [23] YAN Qiong, XU Li, SHI Jianping, et al. Hierarchical saliency detection[C]//Proceedings of 2013 IEEE Con-ference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 1155−1162. [24] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pat- [25] ·962· 智能系统学报第 15 卷

第5期王凯诚，等：基于注意力机制的显著性目标检测方法 ·963· tern Recognition.Miami,USA,2009:248-255. Vegas,USA,2016:478-487 [26]CHEN L C,PAPANDREOU G,KOKKINOS I,et al. [35]WANG Tiantian,ZHANG Lihe,LU Huchuan,et al.Ker- DeepLab:semantic image segmentation with deep con- nelized subspace ranking for saliency detec-tion[C]//Pro- volutional nets,atrous convolution,and fully connected ceedings of the 14th European Conference on Computer CRFs[J].IEEE transactions on pattern analysis and ma- Vision.Amsterdam,the Netherlands,2016:450-466. chine intelligence,2018,40(4):834-848. [36]YU Changqian,WANG Jingbo,PENG Chao,et al.Learn- [27]ACHANTA R,HEMAMI S,ESTRADA F,et al.Fre- ing a discriminative feature network for semantic seg- quency-tuned salient region detection[C]//Proceedings of mentation[Cl//Proceedings of 2018 IEEE/CVF Con-fer- 2009 IEEE Conference on Computer Vision and Pattern ence on Computer Vision and Pattern Recognition.Salt Recognition.Miami,USA,2009:1597-1604 Lake City,USA,2018:1857-1866. [28]JIANG Huaizu,WANG Jingdong,YUAN Zejian,et al. [37]ZHAO Hengshuang,SHI Jianping,QI Xiaojuan,et al. Salient object detection:a discriminative regional feature Pyramid scene parsing network[C]//Proceedings of 2017 integration approach[C]//Proceedings of 2013 IEEE Con- IEEE Conference on Computer Vision and Pattern Recog- ference on Computer Vision and Pattern Recognition. nition.Honolulu,USA,2017:6230-6239. Portland,USA,2013:2083-2090. [38]CHEN L C,PAPANDREOU G,SCHROFF F,et al.Re- [29]TONG Na.LU Huchuan,RUAN Xiang,et al.Salient ob- thinking atrous convolution for semantic image segmen- ject detection via bootstrap learning[C]//Proceedings of tation[J].arXiv:1706.05587,2017. 2015 IEEE Conference on Computer Vision and Pattern 作者简介： Recognition.Boston,USA,2015:1884-1892. 王凯诚，硕士研究生，主要研究方 [30]LI Guanbin,YU Yizhou.Visual saliency based on mul- 向为神经网络芯片、机器学习。 tiscale deep features[Cl//Proceedings of 2015 IEEE Con- ference on Computer Vision and Pattern Recognition.Bo- ston,USA,2015:5455-5463. [31]ZHAO Rui,OUYANG Wanli,LI Hongsheng,et al.Sali- ency detection by multi-context deep learn-ing[C]//Pro- ceedings of 2015 IEEE Conference on Com-puter Vision 鲁华祥，研究员，博士生导师，主 and Pattern Recognition.Boston,USA,2015:1265-1274. 要研究方向为类神经计算芯片、类脑 [32]LI Xi,ZHAO Liming,WEI Lina,et al.DeepSaliency: 神经计算技术和应用系统、信息与信号处理。出版专著1部，授权发明专 multi-task deep neural network model for salient object 利10项。发表学术论文40余篇。 detection[J].IEEE transactions on image processing, 2016,25(8:3919-3930. [33]LEE G,TAI Y,KIM J.Deep saliency with encoded low 龚国良，副研究员，主要研究方向 level distance map and high level features[C]//Proceed- 为智能算法与类脑计算系统、图像处 ings of 2016 IEEE Conference on Computer Vision and 理芯片、AI芯片、神经网络算法及其 Pattern Recognition.Las Vegas,USA,2016:660-668. 应用研究。授权发明专利4项。发表 [34]LI Guanbin,YU Yizhou.Deep contrast learning for sali- 学术论文6篇。 ent object detection[C]//Proceedings of 2016 IEEE Con- ference on Computer Vision and Pattern Recognition.Las

tern Recognition. Miami, USA, 2009: 248−255. CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(4): 834–848. [26] ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 1597−1604. [27] JIANG Huaizu, WANG Jingdong, YUAN Zejian, et al. Salient object detection: a discriminative regional feature integration approach[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 2083−2090. [28] TONG Na, LU Huchuan, RUAN Xiang, et al. Salient object detection via bootstrap learning[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1884−1892. [29] LI Guanbin, YU Yizhou. Visual saliency based on multiscale deep features[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 5455−5463. [30] ZHAO Rui, OUYANG Wanli, LI Hongsheng, et al. Saliency detection by multi-context deep learn-ing[C]//Proceedings of 2015 IEEE Conference on Com-puter Vision and Pattern Recognition. Boston, USA, 2015: 1265−1274. [31] LI Xi, ZHAO Liming, WEI Lina, et al. DeepSaliency: multi-task deep neural network model for salient object detection[J]. IEEE transactions on image processing, 2016, 25(8): 3919–3930. [32] LEE G, TAI Y, KIM J. Deep saliency with encoded low level distance map and high level features[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 660−668. [33] LI Guanbin, YU Yizhou. Deep contrast learning for salient object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las [34] Vegas, USA, 2016: 478−487. WANG Tiantian, ZHANG Lihe, LU Huchuan, et al. Kernelized subspace ranking for saliency detec-tion[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands, 2016: 450−466. [35] YU Changqian, WANG Jingbo, PENG Chao, et al. Learning a discriminative feature network for semantic segmentation[C]//Proceedings of 2018 IEEE/CVF Con-ference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 1857−1866. [36] ZHAO Hengshuang, SHI Jianping, QI Xiaojuan, et al. Pyramid scene parsing network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 6230−6239. [37] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv: 1706.05587, 2017. [38] 作者简介：王凯诚，硕士研究生，主要研究方向为神经网络芯片、机器学习。鲁华祥，研究员，博士生导师，主要研究方向为类神经计算芯片、类脑神经计算技术和应用系统、信息与信号处理。出版专著 1 部，授权发明专利 10 项。发表学术论文 40 余篇。龚国良，副研究员，主要研究方向为智能算法与类脑计算系统、图像处理芯片、AI 芯片、神经网络算法及其应用研究。授权发明专利 4 项。发表学术论文 6 篇。第 5 期王凯诚，等：基于注意力机制的显著性目标检测方法 ·963·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录