第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992tis.201903001 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20200320.0957.008.html 基于注意力机制的显著性目标检测方法 王凯诚2,鲁华祥,龚国良',陈刚 (1.中国科学院半导体研究所,北京100083,2.中国科学院大学未来技术学院,北京100089:3.中国科学院脑 科学与智能技术卓越创新中心,上海200031:4.半导体神经网络智能感知与计算技术北京市重点实验室,北京 100083) 摘要:针对目前主流的基于全卷积神经网络的显著性目标检测方法,受限于卷积层感受野大小,低层特征缺 少全局性的信息,而高层特征由于多次池化操作分辨率较低,无法准确地预测目标边缘等细节的问题,本文提 出了基于注意力的显著性目标检测方法。在ResNet-.50网络中加入注意力精炼模块,利用训练样本的显著真值 图对空间注意力进行有监督的学习,使得不同像素位置的相关性更准确。通过深度融合多尺度的特征,用低层 特征优化高层特征,精修网络的预测结果使其更加准确。在DUT-OMRON和ECSSD数据集上的测试结果显 示,本文方法能显著提升检测效果,F-measure和平均绝对误差都优于其他同类方法。 关键词:显著性目标检测:深度学习:全卷积神经网络:视觉注意力:多尺度特征:图像处理:人工智能:计算机视觉 中图分类号:TP391文献标志码:A文章编号:1673-4785(2020)05-0956-08 中文引用格式:王凯诚,鲁华样,龚国良,等.基于注意力机制的显著性目标检测方法.智能系统学报,2020,15(5): 956-963. 英文引用格式:VANG Kaicheng,LU Huaxiang,GONG Guoliang,etal.Salient object detection method based on the attention mechanismIJl.CAAI transactions on intelligent systems,2020,15(5):956-963. Salient object detection method based on the attention mechanism WANG Kaicheng2,LU Huaxiang',GONG Guoliang',CHEN Gang' (1.Institute of Semiconductors,Chinese Academy of Sciences,Beijing 100083,China;2.School of Future Technology,University of Chinese Academy of Sciences,Beijing 100089,China;3.Center for Excellence in Brain Science and Intelligence Technology, Chinese Academy of Sciences,Shanghai 200031,China;4.Semiconductor Neural Network Intelligent Perception and Computing Technology Beijing Key Lab,Beijing 100083,China) Abstract:Salient object detection simulates human visual mechanism.At present,the mainstream methods are based on fully convolutional neural networks.Limited by the receptive fields of convolution layers,low-level features lack a global description of images,whereas high-level features are too coarse to accurately segment details of objects,such as edges,because of multi-stage downsampling operations.To solve this problem,we propose a salient object detection method based on the attention mechanism.We introduce novel attention refinement modules.The ground-truth atten- tion calculated from the training datasets is employed to supervise spatial attention.Through this method,the network learns more accurate position relevance between different pixels.In addition,to refine the output salient maps,we gradually combine the multi-scale features and optimize low-layer features with high-layer features.Sufficient experi- ments on DUT-OMRON and ECSSD datasets have demonstrated that the proposed method outperforms the others in terms of the value of the F measure and mean absolute error. Keywords:salient object detection;deep learning;fully convolutional neural network;visual attention;multi-scale fea- tures;image processing;artificial intelligence;computer vision 收稿日期:2019-03-02.网络出版日期:2020-03-20. 基金项目:国家自然科学基金项目(61701473):中国科学院 作为计算机视觉领域基础的任务之一,显著 STS计划项目(KF-STS-ZDTP-070):北京市科技计 划项目(亿I81100001518006):中国科学院国防科技创 性目标检测模拟人类能够分辨不同目标重要程度 新基金项目(CXJ小17-M152):中国科学院战略性先 导科技专项(A类)XDA18040400). 的视觉机制,提取出图像或视频中感兴趣的信 通信作者:龚国良.E-mail:gongmianjie@semi.ac.cn 息。利用这一视觉机制可以帮助找到图片中代表
DOI: 10.11992/tis.201903001 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20200320.0957.008.html 基于注意力机制的显著性目标检测方法 王凯诚1,2,鲁华祥1,3,4,龚国良1 ,陈刚1 (1. 中国科学院 半导体研究所,北京 100083; 2. 中国科学院大学 未来技术学院,北京 100089; 3. 中国科学院 脑 科学与智能技术卓越创新中心,上海 200031; 4. 半导体神经网络智能感知与计算技术北京市重点实验室,北京 100083) 摘 要:针对目前主流的基于全卷积神经网络的显著性目标检测方法,受限于卷积层感受野大小,低层特征缺 少全局性的信息,而高层特征由于多次池化操作分辨率较低,无法准确地预测目标边缘等细节的问题,本文提 出了基于注意力的显著性目标检测方法。在 ResNet-50 网络中加入注意力精炼模块,利用训练样本的显著真值 图对空间注意力进行有监督的学习,使得不同像素位置的相关性更准确。通过深度融合多尺度的特征,用低层 特征优化高层特征,精修网络的预测结果使其更加准确。在 DUT-OMRON 和 ECSSD 数据集上的测试结果显 示,本文方法能显著提升检测效果,F-measure 和平均绝对误差都优于其他同类方法。 关键词:显著性目标检测;深度学习;全卷积神经网络;视觉注意力;多尺度特征;图像处理;人工智能;计算机视觉 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)05−0956−08 中文引用格式:王凯诚, 鲁华祥, 龚国良, 等. 基于注意力机制的显著性目标检测方法 [J]. 智能系统学报, 2020, 15(5): 956–963. 英文引用格式:WANG Kaicheng, LU Huaxiang, GONG Guoliang, et al. Salient object detection method based on the attention mechanism[J]. CAAI transactions on intelligent systems, 2020, 15(5): 956–963. Salient object detection method based on the attention mechanism WANG Kaicheng1,2 ,LU Huaxiang1,3,4 ,GONG Guoliang1 ,CHEN Gang1 (1. Institute of Semiconductors, Chinese Academy of Sciences, Beijing 100083, China; 2. School of Future Technology, University of Chinese Academy of Sciences, Beijing 100089, China; 3. Center for Excellence in Brain Science and Intelligence Technology, Chinese Academy of Sciences, Shanghai 200031, China; 4. Semiconductor Neural Network Intelligent Perception and Computing Technology Beijing Key Lab, Beijing 100083, China) Abstract: Salient object detection simulates human visual mechanism. At present, the mainstream methods are based on fully convolutional neural networks. Limited by the receptive fields of convolution layers, low-level features lack a global description of images, whereas high-level features are too coarse to accurately segment details of objects, such as edges, because of multi-stage downsampling operations. To solve this problem, we propose a salient object detection method based on the attention mechanism. We introduce novel attention refinement modules. The ground-truth attention calculated from the training datasets is employed to supervise spatial attention. Through this method, the network learns more accurate position relevance between different pixels. In addition, to refine the output salient maps, we gradually combine the multi-scale features and optimize low-layer features with high-layer features. Sufficient experiments on DUT-OMRON and ECSSD datasets have demonstrated that the proposed method outperforms the others in terms of the value of the F measure and mean absolute error. Keywords: salient object detection; deep learning; fully convolutional neural network; visual attention; multi-scale features; image processing; artificial intelligence; computer vision 作为计算机视觉领域基础的任务之一,显著 性目标检测模拟人类能够分辨不同目标重要程度 的视觉机制,提取出图像或视频中感兴趣的信 息。利用这一视觉机制可以帮助找到图片中代表 收稿日期:2019−03−02. 网络出版日期:2020−03−20. 基金项目:国家自然科学基金项目 (61701473);中国科学院 STS 计划项目 (KFJ-STS-ZDTP-070);北京市科技计 划项目 (Z181100001518006);中国科学院国防科技创 新基金项目 (CXJJ-17-M152);中国科学院战略性先 导科技专项 (A 类)(XDA18040400). 通信作者:龚国良. E-mail:gongmianjie@semi.ac.cn. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
第5期 王凯诚,等:基于注意力机制的显著性目标检测方法 ·957· 场景语义的重要目标或区域,而被广泛应用于图 割显著目标边缘等细节。针对上述问题,本文提 像理解、场景解析、目标追踪]等各类计算机 出了一种基于注意力机制的显著性目标检测方 视觉任务。显著性目标检测任务一般包含2个步 法,引入注意力精炼模块来改进网络结构,提高 骤:1)检测出图像或视频中的显著目标:2)准确 网络对特征图中空间与通道上信息的利用能力, 地分割出目标的区域。优秀的模型应当能够准确 并对低层与高层特征进行融合。在主流的显著性 地检测和分割出显著目标,以最大化地保留原始 目标检测数据集上进行对比,结果表明本文方法 图片信息。同时,作为其他算法的预处理过程, 效果优于同类方法。 显著性目标检测模型的复杂度需要尽可能的低, 从而提高计算效率。 1相关工作 在显著性目标检测任务的发展历史中,首先 1.1显著性目标检测网络 被提出的是自下而上的计算模型4将任务定义 得益于多层级和多尺度特征的提取能力, 为寻找图像中的视觉注视点。人的注意力通常会 CNN无需任何先验知识即可检测出显著目标,能 被对比度、颜色和边缘等特征吸引,因此基于中 够更好地定位目标的边缘实现精准分割。H© 心-周围机制就可以由低级特征计算出视觉注视 等1使用一维卷积和池化层学习基于区域的超 点。这些方法通常包括3个步骤:1)提取多种低 像素特征,计算出各个区域的显著性。Wang等四 级视觉特征;2)计算显著图;3)检测少数关键点, 设计2个子网络来单独对低级与高级特征编码, 从中找出视觉注视点。由于缺乏对图片全文信息 并对2个子网络提取的特征进行拼接,使用2层 的利用,单纯依靠低级特征难以在复杂图片中检 的多层感知器来判断图像中每个区域的显著性。 测出显著目标。为了改进自下而上的计算模型的 Wang等]设计了基于图像掩模的多尺度R 不足,科研人员提出基于学习的检测方法,引入 CNN框架计算各个区域的显著性,使用低级特征 高级视觉特征如语义一致性来判断目标的显著 对照和背景先验来补充语义特征,同时利用超像 性。Li山等m将显著性目标检测任务定义为二元 素信息来精修目标边缘分割结果。上述几种方法 检测问题,使用类别边框来标记显著目标,建立 高度依赖分割级的区域信息例如超像素、感兴趣 了第一个大规模图像数据集。对于基于学习的检 区(region of interest)等,使用图像分类网络来决 测方法,算法的关键在于如何从数据中有效地学 定每个像素块的显著性。同时由于网络存在最后 习出显著目标与背景之间的语义关系。由于提取 的全连接层,空间信息和高级语义特征无法得到 高级和多尺度特征的能力,卷积神经网络(convo- 有效利用,导致全局信息损失。而基于FCN的方 lutional neural network,CNN)消除了对手工提取 法则通过像素级的操作避免了使用全连接层所带 特征的依赖,近年来被广泛应用于各种计算机视 来的不足,克服了显著目标边缘检测模糊与不准 觉任务中。基于CNN的显著性目标检测方法相 确的问题。Wang等)设计了递归全卷积网络结 比传统方法具有更加优异的性能,已成为了主流 构,并引入低级参照特征和中心先验知识作为显 研究方向。Long等提出全卷积神经网络模型 著性先验图到训练和预测过程中。Lu等提出 (fully convolutional network,FCN),端到端地解决 了DHSNet,在GV-CNN网络输出的全局显著图 了语义分割问题。如果将显著性目标检测视为二 后,加人分层递归网络来精修显著图。为了避免 元密集预测任务,则可以使用FCN在数据集上端 多级池化造成特征图分辨率较低的问题,Wang 到端地训练,标记图片中每个像素点的显著性预 等)设计金字塔池化模块和多阶段提炼机制来 测结果。如何进一步地提高CNN的网络性能,就 改进网络结构。这些方法改进了传统FCN方法 成为了显著性目标检测领域的研究热点所在。 的不足,考虑了全局信息和局部信息的整合,逐 CNN通过堆叠卷积层来对图像进行多层级 层级利用特征图来精修目标边缘等细节。这说明 的视觉抽象,较低的卷积层提取例如边缘、角等 利用像素间的相关信息,对不同尺度的特征进行 低级特征,较高的卷积层提取高级语义模式。各 融合能有效地改善网络性能,取得更好的预测 级特征图包含了空间上和通道上的信息,但由于 结果。 卷积核的尺寸限制,往往只有局部的信息得到利 1.2注意力机制 用。此外,多级池化操作导致提取特征图分辨率 为了合理利用有限的视觉信息处理能力,人 较低,缺乏局部区域的细节特征,无法准确地分 类需要选择整个视觉区域中特定的部分来集中关
场景语义的重要目标或区域,而被广泛应用于图 像理解[1] 、场景解析[2] 、目标追踪[3] 等各类计算机 视觉任务。显著性目标检测任务一般包含 2 个步 骤:1) 检测出图像或视频中的显著目标;2) 准确 地分割出目标的区域。优秀的模型应当能够准确 地检测和分割出显著目标,以最大化地保留原始 图片信息。同时,作为其他算法的预处理过程, 显著性目标检测模型的复杂度需要尽可能的低, 从而提高计算效率。 在显著性目标检测任务的发展历史中,首先 被提出的是自下而上的计算模型[4-6] ,将任务定义 为寻找图像中的视觉注视点。人的注意力通常会 被对比度、颜色和边缘等特征吸引,因此基于中 心-周围机制就可以由低级特征计算出视觉注视 点。这些方法通常包括 3 个步骤:1) 提取多种低 级视觉特征;2) 计算显著图;3) 检测少数关键点, 从中找出视觉注视点。由于缺乏对图片全文信息 的利用,单纯依靠低级特征难以在复杂图片中检 测出显著目标。为了改进自下而上的计算模型的 不足,科研人员提出基于学习的检测方法,引入 高级视觉特征如语义一致性来判断目标的显著 性。Liu 等 [7] 将显著性目标检测任务定义为二元 检测问题,使用类别边框来标记显著目标,建立 了第一个大规模图像数据集。对于基于学习的检 测方法,算法的关键在于如何从数据中有效地学 习出显著目标与背景之间的语义关系。由于提取 高级和多尺度特征的能力,卷积神经网络 (convolutional neural network, CNN)[8] 消除了对手工提取 特征的依赖,近年来被广泛应用于各种计算机视 觉任务中。基于 CNN 的显著性目标检测方法相 比传统方法具有更加优异的性能,已成为了主流 研究方向。Long 等 [9] 提出全卷积神经网络模型 (fully convolutional network, FCN),端到端地解决 了语义分割问题。如果将显著性目标检测视为二 元密集预测任务,则可以使用 FCN 在数据集上端 到端地训练,标记图片中每个像素点的显著性预 测结果。如何进一步地提高 CNN 的网络性能,就 成为了显著性目标检测领域的研究热点所在。 CNN 通过堆叠卷积层来对图像进行多层级 的视觉抽象,较低的卷积层提取例如边缘、角等 低级特征,较高的卷积层提取高级语义模式。各 级特征图包含了空间上和通道上的信息,但由于 卷积核的尺寸限制,往往只有局部的信息得到利 用。此外,多级池化操作导致提取特征图分辨率 较低,缺乏局部区域的细节特征,无法准确地分 割显著目标边缘等细节。针对上述问题,本文提 出了一种基于注意力机制的显著性目标检测方 法,引入注意力精炼模块来改进网络结构,提高 网络对特征图中空间与通道上信息的利用能力, 并对低层与高层特征进行融合。在主流的显著性 目标检测数据集上进行对比,结果表明本文方法 效果优于同类方法。 1 相关工作 1.1 显著性目标检测网络 得益于多层级和多尺度特征的提取能力, CNN 无需任何先验知识即可检测出显著目标,能 够更好地定位目标的边缘实现精准分割。He 等 [10] 使用一维卷积和池化层学习基于区域的超 像素特征,计算出各个区域的显著性。Wang 等 [11] 设计 2 个子网络来单独对低级与高级特征编码, 并对 2 个子网络提取的特征进行拼接,使用 2 层 的多层感知器来判断图像中每个区域的显著性。 Wang 等 [ 1 2 ] 设计了基于图像掩模的多尺度 RCNN 框架计算各个区域的显著性,使用低级特征 对照和背景先验来补充语义特征,同时利用超像 素信息来精修目标边缘分割结果。上述几种方法 高度依赖分割级的区域信息例如超像素、感兴趣 区 (region of interest) 等,使用图像分类网络来决 定每个像素块的显著性。同时由于网络存在最后 的全连接层,空间信息和高级语义特征无法得到 有效利用,导致全局信息损失。而基于 FCN 的方 法则通过像素级的操作避免了使用全连接层所带 来的不足,克服了显著目标边缘检测模糊与不准 确的问题。Wang 等 [13] 设计了递归全卷积网络结 构,并引入低级参照特征和中心先验知识作为显 著性先验图到训练和预测过程中。Liu 等 [14] 提出 了 DHSNet,在 GV-CNN 网络输出的全局显著图 后,加入分层递归网络来精修显著图。为了避免 多级池化造成特征图分辨率较低的问题,Wang 等 [15] 设计金字塔池化模块和多阶段提炼机制来 改进网络结构。这些方法改进了传统 FCN 方法 的不足,考虑了全局信息和局部信息的整合,逐 层级利用特征图来精修目标边缘等细节。这说明 利用像素间的相关信息,对不同尺度的特征进行 融合能有效地改善网络性能,取得更好的预测 结果。 1.2 注意力机制 为了合理利用有限的视觉信息处理能力,人 类需要选择整个视觉区域中特定的部分来集中关 第 5 期 王凯诚,等:基于注意力机制的显著性目标检测方法 ·957·
·958 智能系统学报 第15卷 注,这一机制称为注意力机制6。视觉的注意力 提出了压缩-激活模块,使用全局池化来获得通道 机制在人类处理复杂的场景信息时起到了至关重 上的注意力,提高了网络提取并利用特征的能 要的作用。当面对一个复杂场景时,人类首先快 力。从上述方法中可以看到,在神经网络中引入 速地浏览场景中的全部内容,利用全局的空间信 注意力机制可以更好地引导网络关注重点区域, 息寻找场景中最重要的部分。然后集中注意力针 提高网络对信息的提取和利用能力。 对这一部分进行深度感知,实现对场景视觉结构 2网络结构 的理解。这一机制可以引入到卷积层对输人信息 进行编码输出特征图的过程中。如果卷积层的输 本文在ResNet-50网络2o的基础上,加入注 入图像尺寸为H×W×3,输出为H×W×C。那 意力精炼模块(attention refinement module,ARM), 么图片中空间位置的相对信息存储在H×W维 网络结构如图1所示。将4个注意力精炼模块逐 度上,而某一像素所包含的信息则存储在通道C 级相连,上一级的输出与ResNet-50的特征图拼 维度上。Fu等m使用APN结构,从整个图片出 接,作为下一级模块的输入。通过对特征图的多 发,迭代地生成子区域,并对子区域进行预测和 级精炼,融合高级和低级特征精修网络预测显著 整合,从而得到整张图片的预测。Chen等1通过 图的细节。图1中的实线箭头代表着模块输出作 堆叠空间注意力模块来整合图像的区域特征,用 为下一级的输入,虚线箭头代表模块的输出用于 于视觉问答任务中,取得了较好的效果。Hu等 计算损失训练网络。 损失 上采样 上采样 上采样 酒道 通道 注意力 注意力 空间 注意力 注意力 ARM ARM ARM 1×1卷积 1×1卷积 1×1卷积 损失 Attention-GT 图1网络结构 Fig.1 Network structure 2.1注意力精炼模块 图2为本文的注意力精炼模块,用于处理 A ResNet-50提取的特征图。注意力精炼模块能够 引导网络针对性地处理各个通道上的信息,集中 Loss E HWxC Softmax 重组 关注空间上更有意义的部分。在网络较低的卷积 HWxHW HxWxC 层中,受限于感受野大小,往往无法利用感受野 HWxC C'xHW Sigmoid 之外的上下文信息。因此使用全局均匀池化 重组 重组 1×1xC (global average pooling)来得到各个通道上的统计 Hx WxC"个 HxWxC 3×3卷积 Z1×I×C 量?,将全局空间信息压缩到一个通道表示器 3×3卷积 3×3卷积 平均池化 中。如图2中所示,如果输入特征图x尺寸为H×W×C, 通道统计量z在第c个通道上的值z为 1 = (1) 图2注意力精炼模块示意 11 Fig.2 Attention refinement module 式中x.(i,)为在第c个通道上(i,)位置的特征 对特征图的通道信息整合后,需要基于通道 值。这一操作整合特征图上各个通道中的信息。 统计量z对原始特征图进行精炼。这一操作应当
H × W ×3 H ′ × W′ ×C ′ H ′ × W′ C ′ 注,这一机制称为注意力机制[16]。视觉的注意力 机制在人类处理复杂的场景信息时起到了至关重 要的作用。当面对一个复杂场景时,人类首先快 速地浏览场景中的全部内容,利用全局的空间信 息寻找场景中最重要的部分。然后集中注意力针 对这一部分进行深度感知,实现对场景视觉结构 的理解。这一机制可以引入到卷积层对输入信息 进行编码输出特征图的过程中。如果卷积层的输 入图像尺寸为 ,输出为 。那 么图片中空间位置的相对信息存储在 维 度上,而某一像素所包含的信息则存储在通道 维度上。Fu 等 [17] 使用 APN 结构,从整个图片出 发,迭代地生成子区域,并对子区域进行预测和 整合,从而得到整张图片的预测。Chen 等 [18] 通过 堆叠空间注意力模块来整合图像的区域特征,用 于视觉问答任务中,取得了较好的效果。Hu 等 [19] 提出了压缩-激活模块,使用全局池化来获得通道 上的注意力,提高了网络提取并利用特征的能 力。从上述方法中可以看到,在神经网络中引入 注意力机制可以更好地引导网络关注重点区域, 提高网络对信息的提取和利用能力。 2 网络结构 本文在 ResNet-50 网络[20] 的基础上,加入注 意力精炼模块 (attention refinement module,ARM), 网络结构如图 1 所示。将 4 个注意力精炼模块逐 级相连,上一级的输出与 ResNet-50 的特征图拼 接,作为下一级模块的输入。通过对特征图的多 级精炼,融合高级和低级特征精修网络预测显著 图的细节。图 1 中的实线箭头代表着模块输出作 为下一级的输入,虚线箭头代表模块的输出用于 计算损失训练网络。 损失 损失 1×1 卷积 1×1 卷积 1×1 卷积 Attention-GT 上采样 ARM1 ARM2 ARM3 ARM4 res2 res3 res4 res5 上采样 上采样 空间 注意力 空间 注意力 空间 注意力 空间 注意力 通道 注意力 通道 注意力 通道 注意力 通道 注意力 图 1 网络结构 Fig. 1 Network structure 2.1 注意力精炼模块 z x H × W ×C z c zc 图 2 为本文的注意力精炼模块,用于处理 ResNet-50 提取的特征图。注意力精炼模块能够 引导网络针对性地处理各个通道上的信息,集中 关注空间上更有意义的部分。在网络较低的卷积 层中,受限于感受野大小,往往无法利用感受野 之外的上下文信息。因此使用全局均匀池化 (global average pooling) 来得到各个通道上的统计 量 ,将全局空间信息压缩到一个通道表示器 中。如图2中所示,如果输入特征图 尺寸为 , 通道统计量 在第 个通道上的值 为 zc = 1 H × W ∑H i=1 ∑W j=1 xc(i, j) (1) 式中 x c c (i, j) 为在第 个通道上 (i, j) 位置的特征 值。这一操作整合特征图上各个通道中的信息。 x 3×3卷积 3×3卷积 3×3卷积 Loss 平均池化 × × 重组 重组 重组 重组 Y Sigmoid S Z X ~ A E H×W×C′ H×W×C′ 1×1×C 1×1×C H×W×C HW×C HW×HW HW×C′ C′×HW × Softmax 图 2 注意力精炼模块示意 Fig. 2 Attention refinement module z 对特征图的通道信息整合后,需要基于通道 统计量 对原始特征图进行精炼。这一操作应当 ·958· 智 能 系 统 学 报 第 15 卷
第5期 王凯诚,等:基于注意力机制的显著性目标检测方法 ·959· 满足以下2个条件:1)是连续可导的非线性变 C'×HW,进行矩阵乘法操作和Softmax归一化后 换,保证可以使用反向传播方法进行训练;2)能 就能获得相关矩阵E。 够学习各个通道之间非互斥的关系,允许同时强 通过上述操作,使得网络能够根据输入x动 调多个通道上的信息。在此,与文献[19]相同, 态调整各个通道上和空间位置上的值,兼顾了空 使用1×1卷积层和Sigmoid激活函数来对通道表 间信息和特征本身的信息,提高网络对特征的辨 示器z进行非线性映射,将值限定在[0,1]之间, 别力。 获得通道注意力向量s∈RIxIxC为 2.2多尺度特征融合 s=o(W1z) (2) 为了整合低级和高级特征,把注意力精炼模 式中:W1为1×1卷积层的权重;函数σ代表Sig 块与ResNet-50的输出特征图逐级相连,网络结 moid函数。与文献[19]不同的是,为了减少模块 构如图1所示。使用的ResNet--50结构与文献[21] 的参数量,不使用瓶颈结构(bottleneck)对特征通 中一致,其最后一级特征图ress是输入图像的 道进行压缩。得到通道注意力向量s后,将s与 32倍下采样。将其输入到ARM1模块,得到输出 原始的输入特征图x在每个通道上进行相乘,得 精炼特征图arm,接着对arm1进行2倍上采样, 到通道注意力精炼后的特征图元为 使其尺寸与res特征图相同。 Xe=Sexc (3) 为了将低层特征与高层特征融合,使用 式中:S和x∈RW分别为s和x在第c个通道 res.特征图和ARM2模块对arm1特征图进一步精 上的值。 炼。首先使用1×1卷积层将res4特征图通道数压 进一步,参考文献[20]中非局部操作(non- 缩到256,然后与am1进行拼接,将其作为ARM2 local operation,考虑特征图上其他像素对某像素 模块的输入,得到输出精炼特征图arm2。重复这 的影响,以此得到空间注意力特征。如果输入特 一步骤,进一步整合res和res2特征图,产生 征图x尺寸为H×W×C,对于输出Y上某一位置 arm3和arm,精炼特征图。这样,实现了低级和高 级特征的融合,使用底层特征优化富有语义信息 的特征向量y,ERIxIxC,非局部操作定义为 的高层特征,对预测显著图进行了多级精修。 y= 国人f,x)8gx) (4) 2.3损失函数计算 把相关矩阵E的训练定义为回归问题,根据 式中:x,∈RxxC是该位置的输入特征向量;x,∈ 计算出的注意力真值图A,使用均方误差损失函 Rxxc是其他位置的输入特征向量:C是归一化函 数来计算Loss: 数;∫是2个位置之间的相关函数;函数g计算x 的非线性映射。在这个操作中,输出考虑了空间 4=∑(E6,D-A,0 (6) 中所有位置对该位置特征向量的影响,这与卷积 式中,C为计算出的均方损失;E(i,)和A(i)分别 操作只考虑该点邻域对其的影响不同。本文方法 为第k模块的E和A在(1,)位置上的值。这样, 与文献[20]不同的是,使用训练样本的真值图 实现了特征图上空间注意力的监督,更加准确地 (ground truth)来有监督地学习不同位置之间的相 刻画了不同位置像素间的相关性。 关矩阵E∈RHWxHW,与经过通道注意力提炼后的 对arm2、arm,、arm4精炼特征图分别进行 特征图。进行矩阵乘法,得到空间注意力精炼后 16倍、8倍和4倍上采样,如图1中所示,使用 的最终模块输出Y。根据训练样本的真值图,将 Sigmoid计算每级预测显著图P.为 其缩放到H×W,就可以计算出对应的注意力真值 P=Sigmoid(arm) (7) 图A∈RtWxiw(attention-GT)。如果某两个像素同 选择交叉熵损失函数计算第n模块的P。与 时都属于显著目标所在区域,那么它们的相关度 真值图G之间的Loss: 就为1,否则是0。根据定义,可以得到A为 6.=-∑G.)=logP.6,0+ 1,i.jeT (8) Au=0.i.jeT (5) [G (i,j)=0]log(1-P(i,j)) 式中:(亿,)为特征图上某个像素的坐标;T为真值 式中(n为计算出的交叉嫡损失。将每个模块的相 图中显著目标所在像素位置序号的集合。与文 关矩阵E和每级预测显著图P.的损失函数相 献[20]中方法相似,使用2个3×3卷积层在输人 加,得到最终的Loss为 特征图上提取2个尺寸为H×W×C'的特征矩阵, Los=.+∑4 (9) 其中C'=C/2,将其尺寸分别重塑为HW×C和 m=2
z s ∈ R 1×1×C 满足以下 2 个条件:1) 是连续可导的非线性变 换,保证可以使用反向传播方法进行训练;2) 能 够学习各个通道之间非互斥的关系,允许同时强 调多个通道上的信息。在此,与文献 [19] 相同, 使用 1×1 卷积层和 Sigmoid 激活函数来对通道表 示器 进行非线性映射,将值限定在 [0,1] 之间, 获得通道注意力向量 为 s=σ(W1z) (2) W1 σ s s x x˜ c 式中: 为 1×1 卷积层的权重;函数 代表 Sigmoid 函数。与文献 [19] 不同的是,为了减少模块 的参数量,不使用瓶颈结构 (bottleneck) 对特征通 道进行压缩。得到通道注意力向量 后,将 与 原始的输入特征图 在每个通道上进行相乘,得 到通道注意力精炼后的特征图 为 x˜ c = scxc (3) sc xc ∈ R H×W 式中: 和 分别为 s 和 x 在第 c 个通道 上的值。 x H × W ×C Y ∈ R 1×1×C 进一步,参考文献 [20] 中非局部操作 (nonlocal operation),考虑特征图上其他像素对某像素 的影响,以此得到空间注意力特征。如果输入特 征图 尺寸为 ,对于输出 上某一位置 的特征向量 yi ,非局部操作定义为 yi = 1 C(x) ∑ ∀ j f(xi , xj)g(xj) (4) xi ∈ R 1×1×C xj ∈ R 1×1×C xj E ∈ R HW×HW x˜ c Y H × W A ∈ R HW×HW A 式中: 是该位置的输入特征向量; 是其他位置的输入特征向量;C 是归一化函 数;f 是 2 个位置之间的相关函数;函数 g 计算 的非线性映射。在这个操作中,输出考虑了空间 中所有位置对该位置特征向量的影响,这与卷积 操作只考虑该点邻域对其的影响不同。本文方法 与文献 [20] 不同的是,使用训练样本的真值图 (ground truth) 来有监督地学习不同位置之间的相 关矩阵 ,与经过通道注意力提炼后的 特征图 进行矩阵乘法,得到空间注意力精炼后 的最终模块输出 。根据训练样本的真值图,将 其缩放到 ,就可以计算出对应的注意力真值 图 (attention-GT)。如果某两个像素同 时都属于显著目标所在区域,那么它们的相关度 就为 1,否则是 0。根据定义,可以得到 为 Ai j= { 1, i, j ∈ T 0, i, j < T (5) T H × W ×C ′ C ′ = C/2 HW ×C ′ 式中:(i, j) 为特征图上某个像素的坐标; 为真值 图中显著目标所在像素位置序号的集合。与文 献 [20] 中方法相似,使用 2 个 3×3 卷积层在输入 特征图上提取 2 个尺寸为 的特征矩阵, 其中 ,将其尺寸分别重塑为 和 C ′ × HW E ,进行矩阵乘法操作和 Softmax 归一化后 就能获得相关矩阵 。 通过上述操作,使得网络能够根据输入 x 动 态调整各个通道上和空间位置上的值,兼顾了空 间信息和特征本身的信息,提高网络对特征的辨 别力。 2.2 多尺度特征融合 为了整合低级和高级特征,把注意力精炼模 块与 ResNet-50 的输出特征图逐级相连,网络结 构如图 1 所示。使用的 ResNet-50 结构与文献 [21] 中一致,其最后一级特征图 res 5 是输入图像的 32 倍下采样。将其输入到 ARM1 模块,得到输出 精炼特征图 arm1,接着对 arm1 进行 2 倍上采样, 使其尺寸与 res4 特征图相同。 为了将低层特征与高层特征融合,使 用 res4 特征图和 ARM2 模块对 arm1 特征图进一步精 炼。首先使用 1×1 卷积层将 res4 特征图通道数压 缩到 256,然后与 arm1 进行拼接,将其作为 ARM2 模块的输入,得到输出精炼特征图 arm2。重复这 一步骤,进一步整合 res 3 和 res 2 特征图,产生 arm3 和 arm4 精炼特征图。这样,实现了低级和高 级特征的融合,使用底层特征优化富有语义信息 的高层特征,对预测显著图进行了多级精修。 2.3 损失函数计算 E A Loss 把相关矩阵 的训练定义为回归问题,根据 计算出的注意力真值图 ,使用均方误差损失函 数来计算 : ℓk = ∑ i, j (Ek(i, j)− A(i, j))2 (6) ℓk E A 式中, 为计算出的均方损失;Ek (i,j) 和 A(i,j) 分别 为第 k 模块的 和 在 (i,j) 位置上的值。这样, 实现了特征图上空间注意力的监督,更加准确地 刻画了不同位置像素间的相关性。 Pn 对 arm2、arm3、arm4 精炼特征图分别进行 16 倍、8 倍和 4 倍上采样,如图 1 中所示,使用 Sigmoid 计算每级预测显著图 为 Pn = Sigmoid(armn) (7) Pn G Loss 选择交叉熵损失函数计算第 n 模块的 与 真值图 之间的 : ℓn = − ∑ i, j [ Gn(i, j) = 1 ] log(Pn(i, j))+ [ Gn(i, j) = 0 ] log(1− Pn(i, j)) (8) ℓn E Pn Loss 式中 为计算出的交叉熵损失。将每个模块的相 关矩阵 和每级预测显著图 的损失函数相 加,得到最终的 为 Loss = ∑4 n=2 ℓn + ∑4 k=1 ℓk (9) 第 5 期 王凯诚,等:基于注意力机制的显著性目标检测方法 ·959·
·960· 智能系统学报 第15卷 这样深度监督的训练策略可以使得网络的训 与文献[27刀相同,本文使用不固定的阈值来计算 练过程更容易收敛,降低训练所需的时间。 这准确率和召回率,设置该阈值为显著图平均 值的2倍。有了MAE和F-measure这2个评价 3实验与结果 指标,就可以将本文方法与其他主流方法进行 3.1实验数据集 对比。 目前主流的显著性目标检测数据集包括 3.4实验结果与性能对比 MSRA1OKP、DUT-OMRON21和ECSSD等。 对比本文方法和其他11种主流的显著性目 这些数据集都包含大量的图片,并且样本分布广 标检测方法,包括SRMs)、DRFI2I、BL2 泛(动物、植物和生活物体等),因此被当前显著性 LEGSTI、MDF3oI、MCDLII、DSIB2I、DHSU41 目标检测算法用于效果对比中。MSRA1OK数据 ELDB、DCLB、KSR1351和RFCNU1。使用作者文 集包含10000张图片,本文选用其作为模型的训 章中方法和参数设置训练网络,测试得到显著图 练集。DUT-OMRON数据集包含5158张拥有复 或者直接使用其提供的显著图,再根据显著图计 杂背景的图片,考验模型检测内容复杂场景的能 算在不同测试集上的结果,如表1所示。 力。ECSSD数据集包含1000张不同尺寸目标的 表1本文方法与其他方法效果的对比 Table 1 Comparison between our method and the others 复杂图像。本文选择DUT-OMRON和ECSSD数 on performance 据集作为测试集,对比本文模型与其他模型的效果。 DUT-OMRON ECSSD 3.2网络训练 方法 F-measure MAE F-measure MAE 本文选择“MXNET”深度学习框架,在2块 SRM 0.707 0.069 0.892 0.056 Titan Xp Pascal GPU上进行网络的训练和测试。 DHS 0.871 0.063 首先将MSRA10K训练集中的图片填充到416× RFCN 0.627 0.111 0.834 0.109 416的大小,然后进行原尺寸2/3到3/2之间的随 DCL 0.684 0.157 0.827 0.151 机尺度放缩。最后将图片随机裁剪到416×416像 ELD 0.611 0.092 0.810 0.082 素,减去像素均值,送入网络中进行训练。 DS 0.603 0.120 0.821 0.124 本文使用在ImageNet数据集2上训练的 MDF 0.644 0.092 0.805 0.108 ResNet-50模型作为网络的初始权重,再在 MCDL 0.625 0.089 0.796 0.102 MSRA10K数据集上进行微调(finetune)。本文选 LEGS 0.592 0.133 0.785 0.119 择带有冲量(momentum)的随机梯度下降 BL 0.499 0.239 0.684 0.217 (stochastic gradient descent)作为梯度更新算法,使 DRFI 0.550 0.138 0.733 0.166 用文献[26]中的“Poly”学习率调整策略。mini- 本文方法 0.720 0.064 0.906 0.049 batch的值设置为16,训练共45000个迭代。基准 从表1可以看到,本文方法表现好过当前主 学习率设置为0.01,下降率指数为0.9。设置冲量 流的显著性检测方法。对于F-measure指标,本文 值为0.9,权重衰减0.0001。 在DUT-OMRON和ECSSD数据集上分别超过表 3.3评价标准 现最佳的SRM方法0.013和0.014。同样,对于 本文使用平均绝对误差(MAE)和F-meas- MAE指标,本文分别超过SRM方法0.005和0.007。 ure值来评价算法在数据集上的测试结果。MAE 为了研究注意力精炼模块的效果,在EC 定义为输出预测结果P与二元真实值G在每个 SSD数据集上测试了网络处于不同多尺度特征融 像素上错误率平均值,为 合阶段时的表现,结果如表2所示。表2中Baseline H MAE= P(x,y)-G(x,y) (10) 代表直接使用res特征图进行32倍上采样得到 显著图。可以看到,随着多尺度特征的融合,注 式中W和H分别为预测结果P的宽和高。MAE 意力精炼模块大幅度地提升了网络的表现,F- 越低意味着网络预测的准确率越高。 measure指标提高了0.057,MAE指标降低了接近 F-measure是对算法的综合评价指标 一半到达了0.049。如图3所示,在ECSSD数据 F=(1+B)-P.R 集上的预测结果图说明网络能够成功检测出植 (11) B2.P+R 物、动物和人等显著目标,并对目标边缘进行准 式中:P和R分别为平均准确率和平均召回率; 确分割。上述结果证明本文方法提高了网络对特 B设置为0.3。为了强调准确率的重要性。F- 征的利用能力,融合了多尺度的特征精修了预测 measure指标越高意味着网络预测的效果越好。 结果,大幅度提高了网络的性能表现
这样深度监督的训练策略可以使得网络的训 练过程更容易收敛,降低训练所需的时间。 3 实验与结果 3.1 实验数据集 目前主流的显著性目标检测数据集包 括 MSRA10K[22] 、DUT-OMRON[23] 和 ECSSD[24] 等。 这些数据集都包含大量的图片,并且样本分布广 泛 (动物、植物和生活物体等),因此被当前显著性 目标检测算法用于效果对比中。MSRA10K 数据 集包含 10 000 张图片,本文选用其作为模型的训 练集。DUT-OMRON 数据集包含 5 158 张拥有复 杂背景的图片,考验模型检测内容复杂场景的能 力。ECSSD 数据集包含 1 000 张不同尺寸目标的 复杂图像。本文选择 DUT-OMRON 和 ECSSD 数 据集作为测试集,对比本文模型与其他模型的效果。 3.2 网络训练 本文选择“MXNET”深度学习框架,在 2 块 Titan Xp Pascal GPU 上进行网络的训练和测试。 首先将 MSRA10K 训练集中的图片填充到 416× 416 的大小,然后进行原尺寸 2/3 到 3/2 之间的随 机尺度放缩。最后将图片随机裁剪到 416×416 像 素,减去像素均值,送入网络中进行训练。 本文使用在 ImageNet 数据集[ 2 5 ] 上训练的 ResNet-5 0 模型作为网络的初始权重,再 在 MSRA10K 数据集上进行微调 (finetune)。本文选 择带有冲 量 (momentum ) 的随机梯度下 降 (stochastic gradient descent) 作为梯度更新算法,使 用文献 [26] 中的“Poly”学习率调整策略。minibatch 的值设置为 16,训练共 45 000 个迭代。基准 学习率设置为 0.01,下降率指数为 0.9。设置冲量 值为 0.9,权重衰减 0.0001。 3.3 评价标准 P G 本文使用平均绝对误差 (MAE) 和 F-measure 值来评价算法在数据集上的测试结果。MAE 定义为输出预测结果 与二元真实值 在每个 像素上错误率平均值,为 MAE = 1 HW ∑H x=1 ∑W y=1 |P(x, y)−G(x, y)| (10) 式中 W 和 H 分别为预测结果 P 的宽和高。MAE 越低意味着网络预测的准确率越高。 F-measure 是对算法的综合评价指标: Fβ = (1+β 2 )· P·R β 2 · P+R (11) 式中: P 和 R 分别为平均准确率和平均召回率; β 设置为 0.3。为了强调准确率的重要性。Fmeasure 指标越高意味着网络预测的效果越好。 与文献 [27] 相同,本文使用不固定的阈值来计算 这准确率和召回率,设置该阈值为显著图平均 值的 2 倍。有了 MAE 和 F-measure 这 2 个评价 指标,就可以将本文方法与其他主流方法进行 对比。 3.4 实验结果与性能对比 对比本文方法和其他 11 种主流的显著性目 标检测方法,包括 SRM[ 1 5 ] 、 DRFI[ 2 8 ] 、BL[ 2 9 ] 、 LEGS[ 1 1 ] 、MDF[ 3 0 ] 、MCDL[ 3 1 ] 、DS[ 3 2 ] 、DHS[ 1 4 ] 、 ELD[33] 、DCL[34] 、KSR[35] 和 RFCN[13]。使用作者文 章中方法和参数设置训练网络,测试得到显著图 或者直接使用其提供的显著图,再根据显著图计 算在不同测试集上的结果,如表 1 所示。 表 1 本文方法与其他方法效果的对比 Table 1 Comparison between our method and the others on performance 方法 DUT-OMRON ECSSD F-measure MAE F-measure MAE SRM 0.707 0.069 0.892 0.056 DHS — — 0.871 0.063 RFCN 0.627 0.111 0.834 0.109 DCL 0.684 0.157 0.827 0.151 ELD 0.611 0.092 0.810 0.082 DS 0.603 0.120 0.821 0.124 MDF 0.644 0.092 0.805 0.108 MCDL 0.625 0.089 0.796 0.102 LEGS 0.592 0.133 0.785 0.119 BL 0.499 0.239 0.684 0.217 DRFI 0.550 0.138 0.733 0.166 本文方法 0.720 0.064 0.906 0.049 从表 1 可以看到,本文方法表现好过当前主 流的显著性检测方法。对于 F-measure 指标,本文 在 DUT-OMRON 和 ECSSD 数据集上分别超过表 现最佳的 SRM 方法 0.013 和 0.014。同样,对于 MAE 指标,本文分别超过 SRM 方法 0.005 和 0.007。 为了研究注意力精炼模块的效果,在 ECSSD 数据集上测试了网络处于不同多尺度特征融 合阶段时的表现,结果如表 2 所示。表 2 中 Baseline 代表直接使用 res5 特征图进行 32 倍上采样得到 显著图。可以看到,随着多尺度特征的融合,注 意力精炼模块大幅度地提升了网络的表现,Fmeasure 指标提高了 0.057,MAE 指标降低了接近 一半到达了 0.049。如图 3 所示,在 ECSSD 数据 集上的预测结果图说明网络能够成功检测出植 物、动物和人等显著目标,并对目标边缘进行准 确分割。上述结果证明本文方法提高了网络对特 征的利用能力,融合了多尺度的特征精修了预测 结果,大幅度提高了网络的性能表现。 ·960· 智 能 系 统 学 报 第 15 卷
第5期 王凯诚,等:基于注意力机制的显著性目标检测方法 ·961· 表2不同尺度融合阶段网络性能差异 进一步,对比其他文章中上下文提取模块方 Table 2 Performance of our network in different stages 法,分析本文提出的注意力精炼模块对空间注意 ECSSD 力特征的利用情况,如表4所示。其中DeepLab 阶段 上采样率 F-measure MAE V2指文献26]中提出的使用全连接的条件随机 场来整合空间信息,PSP-Net为文献[37]中提出 Baseline 0.849 0.097 32× 的特征金字塔方法,DeepLab V3B使用空洞卷积 arm2 0.878 0.060 16× 提高网络的感受野,提高网络对多尺度信息的获 arm3 0.890 0.057 8× 取能力。根据结果可以发现,本文方法相较性能 arm4 0.906 0.049 4× 最好的DeepLab V3方法提高了0.016的F-meas ure指标,降低了O.O08的MAE指标,取得了更加 优异的空间注意力精炼效果。 表4空间注意力精炼效果对比 Table 4 Comparison on spatial attention refinement per- formance ECSSD 使用方法 F-measure MAE DeepLab V2 0.866 0.083 PSP-Net 0.889 0.058 DeepLab V3 0.882 0.057 本文方法 0.906 0.049 原始图片 预测结果 真值图 4 结束语 图3在ECSSD数据集上的预测结果 Fig.3 Predicted results on ECSSD dataset 本文提出了一种基于注意力机制的显著性目 为了分析本文提出的注意力精炼模块对通道 标检测方法,设计注意力精炼模块融合通道和空 注意力的整合效果,对比了文献[36]中的通道注 间注意力,使得网络能够根据输入特征图选取其 意力模块(channel attention block)与本文方法在 中重要的信息。使用训练样本的真值图有监督地 ECSSD数据集上测试的结果,结果如表3所示, 训练空间注意力,提高了像素间相关关系的准确 其中CAB表示使用通道注意力模块整合通道上 性。最后,本文将注意力精炼模块逐级连接,使 的信息,ARM表示使用本文的注意力精炼模块中 用低级特征精修高级语义特征,修正预测显著图 的通道注意力对特征图进行精炼,而不使用空间 细节,实现了多尺度特征的融合。在MSRA1OK 注意力。ARM+AS表示使用训练样本真值图对 数据集上训练模型后,在DUT-OMRON和EC 只使用通道注意力的注意力精炼模块进行额外监 SSD数据集上进行测试,并在ECSSD数据集上与 督。结果可以发现,本文方法相较文章中的方 其他主流通道和空间特征提取方法对比。实现结 法,F-measure指标提高了0.027,MAE指标降低 果表明,与目前主流的显著性目标检测方法相 了0.011,展示出更加优异的通道全局信息整合能力。 比,本文提出的方法能够更有效地精炼特征图上 表3通道注意力精炼效果对比 的通道和空间信息,因此取得了更加优异的效果。 Table 3 Comparison on channel attention refinement per- formance 参考文献: ECSSD 使用方法 [1]ZHANG Fan,DU Bo,ZHANG Liangpei.Salien-cy-guided F-measure MAE unsupervised feature learning for scene classi-fication[J] Baseline 0.849 0.097 IEEE transactions on geoscience and remote sensing,2015, CAB 0.879 0.06 53(4):2175-2184. ARM 0.89 0.057 [2]ITTI L,KOCH C.NIEBUR E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE transac- ARM+AS 0.906 0.049 tions on pattern analysis and machine intelligence,1998
表 2 不同尺度融合阶段网络性能差异 Table 2 Performance of our network in different stages 阶段 ECSSD 上采样率 F-measure MAE Baseline 0.849 0.097 32× arm2 0.878 0.060 16× arm3 0.890 0.057 8× arm4 0.906 0.049 4× 原始图片 预测结果 真值图 图 3 在 ECSSD 数据集上的预测结果 Fig. 3 Predicted results on ECSSD dataset 为了分析本文提出的注意力精炼模块对通道 注意力的整合效果,对比了文献 [36] 中的通道注 意力模块 (channel attention block) 与本文方法在 ECSSD 数据集上测试的结果,结果如表 3 所示, 其中 CAB 表示使用通道注意力模块整合通道上 的信息,ARM 表示使用本文的注意力精炼模块中 的通道注意力对特征图进行精炼,而不使用空间 注意力。ARM+AS 表示使用训练样本真值图对 只使用通道注意力的注意力精炼模块进行额外监 督。结果可以发现,本文方法相较文章中的方 法,F-measure 指标提高了 0.027,MAE 指标降低 了 0.011,展示出更加优异的通道全局信息整合能力。 表 3 通道注意力精炼效果对比 Table 3 Comparison on channel attention refinement performance 使用方法 ECSSD F-measure MAE Baseline 0.849 0.097 CAB 0.879 0.06 ARM 0.89 0.057 ARM+AS 0.906 0.049 进一步,对比其他文章中上下文提取模块方 法,分析本文提出的注意力精炼模块对空间注意 力特征的利用情况,如表 4 所示。其中 DeepLab V2 指文献 [26] 中提出的使用全连接的条件随机 场来整合空间信息,PSP-Net 为文献 [37] 中提出 的特征金字塔方法,DeepLab V3[38] 使用空洞卷积 提高网络的感受野,提高网络对多尺度信息的获 取能力。根据结果可以发现,本文方法相较性能 最好的 DeepLab V3 方法提高了 0.016 的 F-measure 指标,降低了 0.008 的 MAE 指标,取得了更加 优异的空间注意力精炼效果。 表 4 空间注意力精炼效果对比 Table 4 Comparison on spatial attention refinement performance 使用方法 ECSSD F-measure MAE DeepLab V2 0.866 0.083 PSP-Net 0.889 0.058 DeepLab V3 0.882 0.057 本文方法 0.906 0.049 4 结束语 本文提出了一种基于注意力机制的显著性目 标检测方法,设计注意力精炼模块融合通道和空 间注意力,使得网络能够根据输入特征图选取其 中重要的信息。使用训练样本的真值图有监督地 训练空间注意力,提高了像素间相关关系的准确 性。最后,本文将注意力精炼模块逐级连接,使 用低级特征精修高级语义特征,修正预测显著图 细节,实现了多尺度特征的融合。在 MSRA10K 数据集上训练模型后,在 DUT-OMRON 和 ECSSD 数据集上进行测试,并在 ECSSD 数据集上与 其他主流通道和空间特征提取方法对比。实现结 果表明,与目前主流的显著性目标检测方法相 比,本文提出的方法能够更有效地精炼特征图上 的通道和空间信息,因此取得了更加优异的效果。 参考文献: ZHANG Fan, DU Bo, ZHANG Liangpei. Salien-cy-guided unsupervised feature learning for scene classi-fication[J]. IEEE transactions on geoscience and remote sensing, 2015, 53(4): 2175–2184. [1] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE transactions on pattern analysis and machine intelligence, 1998, [2] 第 5 期 王凯诚,等:基于注意力机制的显著性目标检测方法 ·961·
·962· 智能系统学报 第15卷 20(11):1254-1259 [15]WANG Tiantian,BORJI A,ZHANG Lihe,et al.A stage- [3]HONG S,YOU T,KWAK S,et al.Online tracking by wise refinement model for detecting salient objects in im- learning discriminative saliency map with convolutional ages[C]//Proceedings of 2017 IEEE International Confer- neural network[Cl//Proceedings of the 32nd International ence on Computer Vision.Venice,Italy,2017: Conference on International Conference on Machine 4039-4048. Learning.Lille,France,2015:597-606. [16]LAROCHELLE H.HINTON G.Learning to combine fo- [4]TREISMAN A M.GELADE G.A feature-integration the- veal glimpses with a third-order Boltzmann ma- ory of attention[J].Cognitive psychology,1980,12(1): chine[C]//Proceedings of the 23rd International Confer- 97-136. ence on Neural Information Processing Systems.Van- [5]KOCH C.ULLMAN S.Shifts in selective visual attention: couver,Canada,2010:1243-1251. towards the underlying neural circuitry[J].Human neurobi- [17]FU Jianlong,ZHENG Heliang,MEI Tao.Look closer to ology,1985,4(4):219-227. see better:recurrent attention convolutional neural net- [6]WOLFE J M,CAVE K R,FRANZEL S L.Guided search: work for fine-grained image recognition[C]//Proceedings an alternative to the feature integration model for visual of 2017 IEEE Conference on Computer Vision and Pat- search[J].Journal of experimental psychology:human per- tern Recognition (CVPR).Honolulu,USA,2017: ception and performance,1989,15(3):419-433. 4476-4484. [7]LIU Tie,SUN Jian,ZHENG Nanning,et al.Learning to [18]CHEN Long,ZHANG Hanwang,XIAO Jun,et al.SCA- detect a salient object[Cl//Proceedings of 2007 IEEE Con- CNN:spatial and channel-wise attention in convo-lution- ference on Computer Vision and Pattern Recognition.Min- al networks for image captioning[C]//Proceedings of 2017 neapolis,USA,2007:1-8. IEEE Conference on Computer Vision and Pattern Recog- [8]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradi-ent- nition (CVPR).Honolulu,USA,2017:6298-6306 based learning applied to document recognition[J].Pro- [19]HU Jie,SHEN Li,SUN Gang.Squeeze-and-excitation ceedings of the IEEE,1998,86(11):2278-2324. networks[C]//Proceedings of 2018 IEEE/CVF Confer- [9]LONG J,SHELHAMER E,DARRELL T.Fully convo-lu- ence on Computer Vision and Pattern Recognition.Salt tional networks for semantic segmenta-tion[C]//Proceed- Lake City,USA.2018:7132-7141. ings of 2015 IEEE Conference on Com-puter Vision and [20]WANG Xiaolong,GIRSHICK R B,GUPTA A,et al. Pattern Recognition.Boston.USA,2015:3431-3440. Non-local neural networks[Cl//Proceedings of 2018 IEEE [10]HE Shengfeng,LAU R W,LIU Wenxi,et al.Supercnn:a Conference on Computer Vision and Pattern Recognition. superpixelwise convolutional neural network for salient Salt Lake City,USA,2018:7794-7803. object detection[J].International journal of computer vis- [21]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. ion,2015,115(3):330-344. Deep residual learning for image recognition[C]//Proceed- [11]WANG Lijun,LU Huchuan,RUAN Xiang,et al.Deep ings of 2016 IEEE Conference on Computer Vision and networks for saliency detection via local estimation and Pattern Recognition.Las Vegas,USA,2016:770-778. global search[C]//Proceedings of 2015 IEEE Conference [22]CHENG Mingming,MITRA N J,HUANG Xiaolei,et al. on Computer Vision and Pattern Recognition.Boston, Global contrast based salient region detection[J].IEEE USA.2015:3183-3192 transactions on pattern analysis and machine intelligence, [12]WANG Xiang,MA Huimin,CHEN Xiaozhi.Salient ob- 2015,37(3569-582. ject detection via fast R-CNN and low-level cues[Cl//Pro- [23]YANG Chuan,ZHANG Lihe,LU Huchuan,et al.Sali-en- ceedings of 2016 IEEE International Con-ference on Im- cy detection via graph-based manifold rank-ing[C]//Pro- age Processing (ICIP).Phoenix,USA,2016:1042-1046. ceedings of 2013 IEEE Conference on Com-puter Vision [13]WANG Linzhao,WANG Lijun,LU Huchuan,et al.Sa-li- and Pattern Recognition.Portland,USA,2013: ency detection with recurrent fully convolutional net- 3166-3173. works[C]//Proceedings of the 14th European Conference [24]YAN Qiong,XU Li,SHI Jianping,et al.Hierarchical sali- on Computer Vision.Amsterdam,the Netherlands,2016: ency detection[C]//Proceedings of 2013 IEEE Con-fer- 825-841 ence on Computer Vision and Pattern Recognition.Port- [14]LIU Nian,HAN Junwei.Dhsnet:deep hierarchical sali- land,USA.2013:1155-1162 ency network for salient object detection[Cl//Proceedings [25]DENG J,DONG W,SOCHER R,et al.ImageNet:a of 2016 IEEE Conference on Computer Vision and Pat- large-scale hierarchical image database[C]//Proceedings tern Recognition.Las Vegas,USA,2016:678-686. of 2009 IEEE Conference on Computer Vision and Pat-
20(11): 1254–1259. HONG S, YOU T, KWAK S, et al. Online tracking by learning discriminative saliency map with convolutional neural network[C]//Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France, 2015: 597−606. [3] TREISMAN A M, GELADE G. A feature-integration theory of attention[J]. Cognitive psychology, 1980, 12(1): 97–136. [4] KOCH C, ULLMAN S. Shifts in selective visual attention: towards the underlying neural circuitry[J]. Human neurobiology, 1985, 4(4): 219–227. [5] WOLFE J M, CAVE K R, FRANZEL S L. Guided search: an alternative to the feature integration model for visual search[J]. Journal of experimental psychology: human perception and performance, 1989, 15(3): 419–433. [6] LIU Tie, SUN Jian, ZHENG Nanning, et al. Learning to detect a salient object[C]//Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, USA, 2007: 1−8. [7] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradi-entbased learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [8] LONG J, SHELHAMER E, DARRELL T. Fully convo-lutional networks for semantic segmenta-tion[C]//Proceedings of 2015 IEEE Conference on Com-puter Vision and Pattern Recognition. Boston, USA, 2015: 3431−3440. [9] HE Shengfeng, LAU R W, LIU Wenxi, et al. Supercnn: a superpixelwise convolutional neural network for salient object detection[J]. International journal of computer vision, 2015, 115(3): 330–344. [10] WANG Lijun, LU Huchuan, RUAN Xiang, et al. Deep networks for saliency detection via local estimation and global search[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3183−3192. [11] WANG Xiang, MA Huimin, CHEN Xiaozhi. Salient object detection via fast R-CNN and low-level cues[C]//Proceedings of 2016 IEEE International Con-ference on Image Processing (ICIP). Phoenix, USA, 2016: 1042−1046. [12] WANG Linzhao, WANG Lijun, LU Huchuan, et al. Sa-liency detection with recurrent fully convolutional networks[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands, 2016: 825−841. [13] LIU Nian, HAN Junwei. Dhsnet: deep hierarchical saliency network for salient object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 678−686. [14] WANG Tiantian, BORJI A, ZHANG Lihe, et al. A stagewise refinement model for detecting salient objects in images[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 4039−4048. [15] LAROCHELLE H, HINTON G. Learning to combine foveal glimpses with a third-order Boltzmann machine[C]//Proceedings of the 23rd International Conference on Neural Information Processing Systems. Vancouver, Canada, 2010: 1243−1251. [16] FU Jianlong, ZHENG Heliang, MEI Tao. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA, 2017: 4476−4484. [17] CHEN Long, ZHANG Hanwang, XIAO Jun, et al. SCACNN: spatial and channel-wise attention in convo-lutional networks for image captioning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA, 2017: 6298−6306. [18] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 7132−7141. [19] WANG Xiaolong, GIRSHICK R B, GUPTA A, et al. Non-local neural networks[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 7794−7803. [20] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [21] CHENG Mingming, MITRA N J, HUANG Xiaolei, et al. Global contrast based salient region detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(3): 569–582. [22] YANG Chuan, ZHANG Lihe, LU Huchuan, et al. Sali-ency detection via graph-based manifold rank-ing[C]//Proceedings of 2013 IEEE Conference on Com-puter Vision and Pattern Recognition. Portland, USA, 2013: 3166−3173. [23] YAN Qiong, XU Li, SHI Jianping, et al. Hierarchical saliency detection[C]//Proceedings of 2013 IEEE Con-ference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 1155−1162. [24] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pat- [25] ·962· 智 能 系 统 学 报 第 15 卷
第5期 王凯诚,等:基于注意力机制的显著性目标检测方法 ·963· tern Recognition.Miami,USA,2009:248-255. Vegas,USA,2016:478-487 [26]CHEN L C,PAPANDREOU G,KOKKINOS I,et al. [35]WANG Tiantian,ZHANG Lihe,LU Huchuan,et al.Ker- DeepLab:semantic image segmentation with deep con- nelized subspace ranking for saliency detec-tion[C]//Pro- volutional nets,atrous convolution,and fully connected ceedings of the 14th European Conference on Computer CRFs[J].IEEE transactions on pattern analysis and ma- Vision.Amsterdam,the Netherlands,2016:450-466. chine intelligence,2018,40(4):834-848. [36]YU Changqian,WANG Jingbo,PENG Chao,et al.Learn- [27]ACHANTA R,HEMAMI S,ESTRADA F,et al.Fre- ing a discriminative feature network for semantic seg- quency-tuned salient region detection[C]//Proceedings of mentation[Cl//Proceedings of 2018 IEEE/CVF Con-fer- 2009 IEEE Conference on Computer Vision and Pattern ence on Computer Vision and Pattern Recognition.Salt Recognition.Miami,USA,2009:1597-1604 Lake City,USA,2018:1857-1866. [28]JIANG Huaizu,WANG Jingdong,YUAN Zejian,et al. [37]ZHAO Hengshuang,SHI Jianping,QI Xiaojuan,et al. Salient object detection:a discriminative regional feature Pyramid scene parsing network[C]//Proceedings of 2017 integration approach[C]//Proceedings of 2013 IEEE Con- IEEE Conference on Computer Vision and Pattern Recog- ference on Computer Vision and Pattern Recognition. nition.Honolulu,USA,2017:6230-6239. Portland,USA,2013:2083-2090. [38]CHEN L C,PAPANDREOU G,SCHROFF F,et al.Re- [29]TONG Na.LU Huchuan,RUAN Xiang,et al.Salient ob- thinking atrous convolution for semantic image segmen- ject detection via bootstrap learning[C]//Proceedings of tation[J].arXiv:1706.05587,2017. 2015 IEEE Conference on Computer Vision and Pattern 作者简介: Recognition.Boston,USA,2015:1884-1892. 王凯诚,硕士研究生,主要研究方 [30]LI Guanbin,YU Yizhou.Visual saliency based on mul- 向为神经网络芯片、机器学习。 tiscale deep features[Cl//Proceedings of 2015 IEEE Con- ference on Computer Vision and Pattern Recognition.Bo- ston,USA,2015:5455-5463. [31]ZHAO Rui,OUYANG Wanli,LI Hongsheng,et al.Sali- ency detection by multi-context deep learn-ing[C]//Pro- ceedings of 2015 IEEE Conference on Com-puter Vision 鲁华祥,研究员,博士生导师,主 and Pattern Recognition.Boston,USA,2015:1265-1274. 要研究方向为类神经计算芯片、类脑 [32]LI Xi,ZHAO Liming,WEI Lina,et al.DeepSaliency: 神经计算技术和应用系统、信息与信 号处理。出版专著1部,授权发明专 multi-task deep neural network model for salient object 利10项。发表学术论文40余篇。 detection[J].IEEE transactions on image processing, 2016,25(8:3919-3930. [33]LEE G,TAI Y,KIM J.Deep saliency with encoded low 龚国良,副研究员,主要研究方向 level distance map and high level features[C]//Proceed- 为智能算法与类脑计算系统、图像处 ings of 2016 IEEE Conference on Computer Vision and 理芯片、AI芯片、神经网络算法及其 Pattern Recognition.Las Vegas,USA,2016:660-668. 应用研究。授权发明专利4项。发表 [34]LI Guanbin,YU Yizhou.Deep contrast learning for sali- 学术论文6篇。 ent object detection[C]//Proceedings of 2016 IEEE Con- ference on Computer Vision and Pattern Recognition.Las
tern Recognition. Miami, USA, 2009: 248−255. CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(4): 834–848. [26] ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 1597−1604. [27] JIANG Huaizu, WANG Jingdong, YUAN Zejian, et al. Salient object detection: a discriminative regional feature integration approach[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 2083−2090. [28] TONG Na, LU Huchuan, RUAN Xiang, et al. Salient object detection via bootstrap learning[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1884−1892. [29] LI Guanbin, YU Yizhou. Visual saliency based on multiscale deep features[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 5455−5463. [30] ZHAO Rui, OUYANG Wanli, LI Hongsheng, et al. Saliency detection by multi-context deep learn-ing[C]//Proceedings of 2015 IEEE Conference on Com-puter Vision and Pattern Recognition. Boston, USA, 2015: 1265−1274. [31] LI Xi, ZHAO Liming, WEI Lina, et al. DeepSaliency: multi-task deep neural network model for salient object detection[J]. IEEE transactions on image processing, 2016, 25(8): 3919–3930. [32] LEE G, TAI Y, KIM J. Deep saliency with encoded low level distance map and high level features[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 660−668. [33] LI Guanbin, YU Yizhou. Deep contrast learning for salient object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las [34] Vegas, USA, 2016: 478−487. WANG Tiantian, ZHANG Lihe, LU Huchuan, et al. Kernelized subspace ranking for saliency detec-tion[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands, 2016: 450−466. [35] YU Changqian, WANG Jingbo, PENG Chao, et al. Learning a discriminative feature network for semantic segmentation[C]//Proceedings of 2018 IEEE/CVF Con-ference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 1857−1866. [36] ZHAO Hengshuang, SHI Jianping, QI Xiaojuan, et al. Pyramid scene parsing network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 6230−6239. [37] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv: 1706.05587, 2017. [38] 作者简介: 王凯诚,硕士研究生,主要研究方 向为神经网络芯片、机器学习。 鲁华祥,研究员,博士生导师,主 要研究方向为类神经计算芯片、类脑 神经计算技术和应用系统、信息与信 号处理。出版专著 1 部,授权发明专 利 10 项。发表学术论文 40 余篇。 龚国良,副研究员,主要研究方向 为智能算法与类脑计算系统、图像处 理芯片、AI 芯片、神经网络算法及其 应用研究。授权发明专利 4 项。发表 学术论文 6 篇。 第 5 期 王凯诚,等:基于注意力机制的显著性目标检测方法 ·963·