第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201812003 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190719.1524.004html 基于双向消息链路卷积网络的显著性物体检测 中凯,王晓峰,杨亚东 (上海海事大学信息工程学院,上海201306) 摘要:有效特征的提取和高效使用是显著性物体检测中极具挑战的任务之一。普通卷积神经网络很难兼顾 提取有效特征和高效使用这些特征。本文提出双向消息链路卷积网铬(bidirectional message link convolution net- wok,BML-CNN)模型,提取和融合有效特征信息用于显著性物体检测。首先,利用注意力机制引导特征提取 模块提取实体有效特征,并以渐进方式选择整合多层次之间的上下文信息。然后使用带有跳过连接结构的网 络与带门控函数的消息传递链路组成的双向信息链路,将高层语义信息与浅层轮廓信息相融合。最后,使用多 尺度融合策略,编码多层有效卷积特征,以生成最终显著图。实验表明,BML-CNN在不同指标下均获得最好 的表现。 关键词:显著性物体检测;卷积神经网络;注意力机制;双向消息链路;多尺度融合 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2019)06-1152-11 中文引用格式:申凯,王晓峰,杨亚东.基于双向消息链路卷积网络的显著性物体检测.智能系统学报,2019,14(6): 1152-1162. 英文引用格式:SHEN Kai,,WANG Xiaofeng,YANG Yadong..Salient object detection based on bidirectional message link convolu- tion neural network J].CAAI transactions on intelligent systems,2019,14(6):1152-1162. Salient object detection based on bidirectional message link convolution neural network SHEN Kai,WANG Xiaofeng,YANG Yadong (College Of Information Engineering,Shanghai Maritime University,Shanghai 201306,China) Abstract:The effective extraction and efficient utilization of features are among the most challenging tasks in salient object detection.The common convolutional neural network(CNN)can hardly reach a fine trade-off between effective feature extraction and efficient utilization.This paper proposes a bidirectional message link convolutional neural net- work(BML-CNN)model,which can extract and fuse effective features for salient object detection.First,the attention mechanism is used to guide the feature extraction module to extract the effective entity features,select,and integrate the multi-level context information in a progressive way.Second,the high-level semantic information is merged with shal- low-profile information by a bidirectional message link,which is composed of a skip connection structure and a mes- saging link with a gating function.Finally,the saliency map can be generated by multi-scale fusion strategy,and effect- ive features are encoded on several layers.The qualitative and quantitative experiments on six benchmark datasets show that the BML-CNN reaches the state-of-the-art performance under different indexes. Keywords:salient object detection;convolutional neural network;attention mechanism;bidirectional message link; multi-scale fusion 视觉显著性是用来刻画图像中的部分区域, 这些区域相对于它们的临近区域更为突出。显著 性模型可分为基于数据驱动的自底向上模型川和 收稿日期:2018-12-04.网络出版日期:2019-07-19 基于任务驱动的自顶向下模型回。Itti等创提出的 基金项目:国家自然科学基金项目(61872231,61703267):上海 海事大学研究生创新基金项目(2017ycx083). TTI模型模拟生物视觉注意力机制用于显著性检 通信作者:王晓峰.E-mail:xfwang@shmtu.edu.cn 测。Lu等将显著性检测定义为二元分割问题
DOI: 10.11992/tis.201812003 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190719.1524.004.html 基于双向消息链路卷积网络的显著性物体检测 申凯,王晓峰,杨亚东 (上海海事大学 信息工程学院,上海 201306) 摘 要:有效特征的提取和高效使用是显著性物体检测中极具挑战的任务之一。普通卷积神经网络很难兼顾 提取有效特征和高效使用这些特征。本文提出双向消息链路卷积网络 (bidirectional message link convolution network,BML-CNN) 模型,提取和融合有效特征信息用于显著性物体检测。首先,利用注意力机制引导特征提取 模块提取实体有效特征,并以渐进方式选择整合多层次之间的上下文信息。然后使用带有跳过连接结构的网 络与带门控函数的消息传递链路组成的双向信息链路,将高层语义信息与浅层轮廓信息相融合。最后,使用多 尺度融合策略,编码多层有效卷积特征,以生成最终显著图。实验表明,BML-CNN 在不同指标下均获得最好 的表现。 关键词:显著性物体检测;卷积神经网络;注意力机制;双向消息链路;多尺度融合 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2019)06−1152−11 中文引用格式:申凯, 王晓峰, 杨亚东. 基于双向消息链路卷积网络的显著性物体检测 [J]. 智能系统学报, 2019, 14(6): 1152–1162. 英文引用格式:SHEN Kai, WANG Xiaofeng, YANG Yadong. Salient object detection based on bidirectional message link convolution neural network[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1152–1162. Salient object detection based on bidirectional message link convolution neural network SHEN Kai,WANG Xiaofeng,YANG Yadong (College Of Information Engineering, Shanghai Maritime University, Shanghai 201306, China) Abstract: The effective extraction and efficient utilization of features are among the most challenging tasks in salient object detection. The common convolutional neural network (CNN) can hardly reach a fine trade-off between effective feature extraction and efficient utilization. This paper proposes a bidirectional message link convolutional neural network (BML-CNN) model, which can extract and fuse effective features for salient object detection. First, the attention mechanism is used to guide the feature extraction module to extract the effective entity features, select, and integrate the multi-level context information in a progressive way. Second, the high-level semantic information is merged with shallow-profile information by a bidirectional message link, which is composed of a skip connection structure and a messaging link with a gating function. Finally, the saliency map can be generated by multi-scale fusion strategy, and effective features are encoded on several layers. The qualitative and quantitative experiments on six benchmark datasets show that the BML-CNN reaches the state-of-the-art performance under different indexes. Keywords: salient object detection; convolutional neural network; attention mechanism; bidirectional message link; multi-scale fusion 视觉显著性是用来刻画图像中的部分区域, 这些区域相对于它们的临近区域更为突出。显著 性模型可分为基于数据驱动的自底向上模型[1] 和 基于任务驱动的自顶向下模型[2]。Itti 等 [3] 提出的 ITTI 模型模拟生物视觉注意力机制用于显著性检 测。Liu 等 [4] 将显著性检测定义为二元分割问题 收稿日期:2018−12−04. 网络出版日期:2019−07−19. 基金项目:国家自然科学基金项目 (61872231,61703267);上海 海事大学研究生创新基金项目 (2017ycx083). 通信作者:王晓峰. E-mail:xfwang@shmtu.edu.cn. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
第6期 申凯,等:基于双向消息链路卷积网络的显著性物体检测 ·1153· 引发了显著性检测模型的热潮。基于卷积神经网 意力模块来提取有效特征,可赋予有效通道、有 络:刀的显著性检测方法消除了对手工特征的需 效卷积特征更高的权值,减少背景对显著性物体 求,逐渐成为显著性检测的主流方向。显著性物 预测的影响。 体检测用于突出图像中最重要的部分,常作为图 2)提出具有跳过连接结构的上下文感知模块 像预处理步骤用于计算机视觉任务中,包括图像 与带门控函数的消息链路组成的双向消息链路, 分割0、视觉跟踪、场景分类四、物体检测3、 可在获取高级语义信息的同时,保留完整的边界 图像检索61图像识别四等。 信息。 基于深度卷积神经网络,特别是全卷积神经 3)借助多尺度融合策略将多级有效特征进行 网络(CN),已经在语义分割20、姿态估计2和对 融合,可在不同角度产生对显著性物体的预测, 象提取2)等标记任务中表现出优异的性能。同 并进一步融合不同尺度的信息生成具有完整边界 时也推动了尝试使用FCN解决显著性物体检测 的显著性物体预测图。 中显著性物体定位问题,虽然这些模型5622在 预测侧物体显著性的任务中有出色的高层语义提取 1相关工作 能力,但是显著图缺少精确的边界细节,显著图 本节将从3个方面介绍相关工作。首先,描 无法保留精确的对象边界信息。这促使很多研究 述特征传递在显著性检测中的应用。其次,描述 人员利用不同层级的特征的非线性组合进行显著 了注意力机制在各种视觉任务中的应用。最后, 性检测。Xiao等21建议提取不同级别的显著图, 介绍了多尺度融合在显著性物体检测任务中的应用。 并将其进行非线性融合得到显著图,使其获取高 1.1特征传递 级语义信息的同时兼顾低级空间信息。Hou等o 不同级别的特征传递是显著性物体检测任务 建议在多个侧输出层之间添加短连接,用以组合 中的一项重要工作,也促使很多研究人员探讨更 不同级别的特征。Zhang等7提出通过低级别的 优异的特征传递策略。例如,Wang等提出了使 特征与高级别的特征进行聚合,生成多级特征。 用双卷积神经网络,将局部超像素估计传递到高 Jin等2]提出使用循环神经网络的方式将高级语 层卷积指导生成全局对象提议搜索的显著性物体 义信息和低级空间信息相互传递,生成显著图。 检测。Jin等P提出使用循环神经网络的方式将 Chen等2提出使用空间注意机制与通道注意力 高级语义信息和低级空间信息相互传递,生成显 机制捕捉图片高级语义信息,但依旧存在边界信 著图。Long等0借助跳过连接的方法,将高层语 息缺失的现象,且对于背景抑制、实体镜像问题 义添加到中间层,已生成多分辨率,多尺度的预 的处理还需要进一步提高。 测信息,并由预测信息生成像素的预测结果。Zhao 为解决上述问题,本文提出了一种基于双向 等1通过融合全局和局部的上下文信息来预测 消息链路卷积网络的显著性物体检测方法。为了 每个超像素的显著度,并依据每个超像素的显著 解决边界缺失问题使用设计一个具有跳过连接结 度生成显著对象的显著图。Lee等P1提出将降低 构的上下文感知模块将高级语义与低级空间特征 级空间信息与高级语义信息进行传递并编码,并 进行融合,对于每一个侧输出采用了空洞卷积获 使用编码后的特征预测显著性图。Li山等2建议 取每一个侧输出的更多的上下文信息。为了准确 使用分阶段检测物体的显著性,第一阶段使用卷 地定位显著性物体的位置信息以及减少无关通道 积神经网络提取全局结构特征,并产生粗略估 对显著物体的高级语义与空间信息的影响,借助 计,第二阶段融合策略,将本地上下文信息细化 了空间注意力与通道注意力机制组成的注意力模 为显著图的细节,并与第一阶段产生的粗略显著 块。为了更加有效地传递上下文语义信息,借助 图进行相互传递并融合得到精确的显著性图。Wang 具有门控的消息传递通道,完成从高级特征到低 等)设计了全卷积神经网络(FCN),将粗略的显 级特征的传递。为了融合产生的多层特征信息, 著性预测特征传递到高层,并逐步指导显著性图 借助多尺度融合策略生成物体显著性预测图。本 的生成。上述方法在实现特征传递过程中并没有 文将提出的BML-CNN在6个数据集上与13种 考虑到高层语义对低层轮廓提取的影响程度,使 先进的显著性物体检测模型进行比较,实验表明 得低层轮廓提取过于注重显著度高的位置,从而 BML-CNN在不同的评价指标下均有最出色的表 导致显著度较低的边缘信息保留不足。 现,此外,模型的实时处理速度为18s。本文的 为控制高层语义对低层轮廓提取的影响程 贡献主要分为以下三个方面: 度,提出使用带跳过连接结构与带门控函数组成 1)使用由通道注意力与空间注意力组成的注 的双向消息传递链路,在实现高层语义信息与低
引发了显著性检测模型的热潮。基于卷积神经网 络 [5-7] 的显著性检测方法消除了对手工特征的需 求,逐渐成为显著性检测的主流方向。显著性物 体检测用于突出图像中最重要的部分,常作为图 像预处理步骤用于计算机视觉任务中,包括图像 分割[8-10] 、视觉跟踪[11] 、场景分类[12] 、物体检测[13-15] 、 图像检索[16-18] 、图像识别[19] 等。 基于深度卷积神经网络,特别是全卷积神经 网络 (FCN),已经在语义分割[20] 、姿态估计[21] 和对 象提取[22] 等标记任务中表现出优异的性能。同 时也推动了尝试使用 FCN 解决显著性物体检测 中显著性物体定位问题,虽然这些模型[5-6, 23-24] 在 预测物体显著性的任务中有出色的高层语义提取 能力,但是显著图缺少精确的边界细节,显著图 无法保留精确的对象边界信息。这促使很多研究 人员利用不同层级的特征的非线性组合进行显著 性检测。Xiao 等 [25] 建议提取不同级别的显著图, 并将其进行非线性融合得到显著图,使其获取高 级语义信息的同时兼顾低级空间信息。Hou 等 [26] 建议在多个侧输出层之间添加短连接,用以组合 不同级别的特征。Zhang 等 [27] 提出通过低级别的 特征与高级别的特征进行聚合,生成多级特征。 Jin 等 [28] 提出使用循环神经网络的方式将高级语 义信息和低级空间信息相互传递,生成显著图。 Chen 等 [29] 提出使用空间注意机制与通道注意力 机制捕捉图片高级语义信息,但依旧存在边界信 息缺失的现象,且对于背景抑制、实体镜像问题 的处理还需要进一步提高。 为解决上述问题,本文提出了一种基于双向 消息链路卷积网络的显著性物体检测方法。为了 解决边界缺失问题使用设计一个具有跳过连接结 构的上下文感知模块将高级语义与低级空间特征 进行融合,对于每一个侧输出采用了空洞卷积获 取每一个侧输出的更多的上下文信息。为了准确 地定位显著性物体的位置信息以及减少无关通道 对显著物体的高级语义与空间信息的影响,借助 了空间注意力与通道注意力机制组成的注意力模 块。为了更加有效地传递上下文语义信息,借助 具有门控的消息传递通道,完成从高级特征到低 级特征的传递。为了融合产生的多层特征信息, 借助多尺度融合策略生成物体显著性预测图。本 文将提出的 BML-CNN 在 6 个数据集上与 13 种 先进的显著性物体检测模型进行比较,实验表明 BML-CNN 在不同的评价指标下均有最出色的表 现,此外,模型的实时处理速度为 18 f/s。本文的 贡献主要分为以下三个方面: 1) 使用由通道注意力与空间注意力组成的注 意力模块来提取有效特征,可赋予有效通道、有 效卷积特征更高的权值,减少背景对显著性物体 预测的影响。 2) 提出具有跳过连接结构的上下文感知模块 与带门控函数的消息链路组成的双向消息链路, 可在获取高级语义信息的同时,保留完整的边界 信息。 3) 借助多尺度融合策略将多级有效特征进行 融合,可在不同角度产生对显著性物体的预测, 并进一步融合不同尺度的信息生成具有完整边界 的显著性物体预测图。 1 相关工作 本节将从 3 个方面介绍相关工作。首先,描 述特征传递在显著性检测中的应用。其次,描述 了注意力机制在各种视觉任务中的应用。最后, 介绍了多尺度融合在显著性物体检测任务中的应用。 1.1 特征传递 不同级别的特征传递是显著性物体检测任务 中的一项重要工作,也促使很多研究人员探讨更 优异的特征传递策略。例如,Wang 等 [6] 提出了使 用双卷积神经网络,将局部超像素估计传递到高 层卷积指导生成全局对象提议搜索的显著性物体 检测。Jin 等 [28] 提出使用循环神经网络的方式将 高级语义信息和低级空间信息相互传递,生成显 著图。Long 等 [30] 借助跳过连接的方法,将高层语 义添加到中间层,已生成多分辨率,多尺度的预 测信息,并由预测信息生成像素的预测结果。Zhao 等 [19] 通过融合全局和局部的上下文信息来预测 每个超像素的显著度,并依据每个超像素的显著 度生成显著对象的显著图。Lee 等 [23] 提出将降低 级空间信息与高级语义信息进行传递并编码,并 使用编码后的特征预测显著性图。Liu 等 [24] 建议 使用分阶段检测物体的显著性,第一阶段使用卷 积神经网络提取全局结构特征,并产生粗略估 计,第二阶段融合策略,将本地上下文信息细化 为显著图的细节,并与第一阶段产生的粗略显著 图进行相互传递并融合得到精确的显著性图。Wang 等 [7] 设计了全卷积神经网络 (FCN),将粗略的显 著性预测特征传递到高层,并逐步指导显著性图 的生成。上述方法在实现特征传递过程中并没有 考虑到高层语义对低层轮廓提取的影响程度,使 得低层轮廓提取过于注重显著度高的位置,从而 导致显著度较低的边缘信息保留不足。 为控制高层语义对低层轮廓提取的影响程 度,提出使用带跳过连接结构与带门控函数组成 的双向消息传递链路,在实现高层语义信息与低 第 6 期 申凯,等:基于双向消息链路卷积网络的显著性物体检测 ·1153·
·1154· 智能系统学报 第14卷 层轮廓信息相互传递的同时,能控制高层语义对 络,使用池化引导反卷积模块多级卷积特征。 低层轮廓提取的影响程度,达到高层语义有限指 Ronneberger等提出U-Net网络,应用多个跳过 导低层轮廓的获取,低层轮廓信息为高层语义提 连接结构来捕获上下文结构,并通过收缩路径和 供精确的空间信息。 扩展路径融合多尺度卷积特征生成有精确定位的 1.2注意力机制 显著性预测图。 视觉注意力机制是借鉴人类的视觉注意力机 受到以上研究的启发,本文提出的方法中也 制,扫描全局图片获取需要关注的目标实体区 使用跳过连接结构实现捕获上下文信息,并借助 域,并为这一区域投人更多的资源,可获取更为 空洞卷积对上下文信息进一步提取,同时借助带 完善的关注目标的信息,而降低其他信息的影 门控的信息传递链路,实现高级语义与中间卷积 响。注意力机制在多个视觉任务中都有很出色的 特征的相互融合,这种融合是以阶段方式进行 表现,例如,图像字幕,训、视觉问答2)目标识 的,由跳过连接结构与带门控的信息传递链路组 别9和图像分类B等。Xu等B首先提出了使用 成了双向信息传递链路,有利于为显著性预测提 “软”和“硬注意力机制解决图像字幕。Wag等 供全面的信息。另一方面通过多尺度融合策略, 提出使用一种残差注意力机制来训练深度残差网 为显著性预测提供不同视角的卷积特征,能够将 络进行图像分类。Chen等2提出了一种SCA- 低级的边缘感知特征与高级语义信息进行聚合, CNN网络,网络使用CNN结合了空间注意力机 有助于保持对象边界。 制与通道注意力机制赋予各个通道和空间位置不 同的权重,提高目标响应并降低背景的干扰。 2算法模型 在显著性物体检测时,并不是所有通道的卷 BML-CNN模型使用含有注意力模块的特征 积特征对显著性物体的预测都具有同等重要性, 提取模块来提取有效特征,借助双向消息链路实 个别通道会存在背景的卷积特征,且在同一通道 现高层语义信息与底层轮廓信息相互传递,融合 中不同位置的卷积特征也对显著性物体的预测产 上下文信息,最后使用多尺度融合策略,融合不 生影响。为更有利地获取有效卷积特征,进一步 同尺度的有效卷积特征,以实现物体的显著性预 消除背景对显著物体的影响,本文采用通道注意 测。该模型具有出色的显著性预测能力,且边界 力机制为不同卷积通道赋予不同权值,以降低含 保持较好。 背景卷积信息的通道对显著性物体预测的影响, 2.1通道注意力与空间注意力 另外引入空间注意力机制来为同一通道上不同位 通道注意力机制是调整特征通道对目标影响 置的卷积特征赋予不同权值,以进一步消除背景 程度的方式,为有效的通道赋予更高的权重使其 的影响。将空间注意力与通道注意力串联组成注 能对显著性对象有更高的响应,降低无效通道的 意力模块以实现对物体的初步关注,并以渐进的 权重使其能够降低对显著性对象预测的干扰。 方式指导下一层关注的提取,逐步消除背景对显 著性物体预测的影响。 将卷积特征用IERWxHxC表示,其中WxHxC 表示卷积特征I的维度,用F={f,五,…,f}表示 1.3多尺度特征融合 从一些可视化深度卷积神经网络的工作06 卷积特征I上的通道,其中∈RwH,i∈1,2,…,C) 可以看出,不同层次的卷积特征是从不同的视角 表示卷积特征I上的第i个通道,W表示宽,H表 描述物体特征及其周围环境。高级语义有助于图 示高,C表示通道总数。用s∈RC表示通道权重 像区域物体类别的识别,而低级视觉特征有助于 向量,本文设计一个卷积层来学习每个通道的权 保留空间细节,生成具有高分辨率的显著性图。 值特征: 8=Wc*F+bc (1)) 然而如何有效地利用多尺度特征依然是一个值得 式中:Wc表示卷积滤波器:bc表示卷积偏差。使 探讨的问题。为此,已经有很多有价值的研究, 例如,Li等通过使用先生成局部超像素估计, 用Softmax激活函数获得最终的通道注意力向量 然后在多个CNN中提取多尺度特征来预测物体 ac={ac(1),ac(2),…,ac(C)l: 的显著性。Zhang等2]提出Amulet网络使用 exp(g(i)) ac (i)=Softmax (g(i))= (2) RFC生成多分辨率的预测信息,并使用FS进行 exp(g(i)) 多尺度融合,获得显著性的预测。Hariharan等 提出使用Hypercolumn方法,不仅融合了来自多 / ac(i)=1 (3) 个中间层的卷积特征,还学习了密集特征分类 器。Badrinarayanan等采用编码器-解码器网 空间注意力机制直接使用卷积特征预测显著
层轮廓信息相互传递的同时,能控制高层语义对 低层轮廓提取的影响程度,达到高层语义有限指 导低层轮廓的获取,低层轮廓信息为高层语义提 供精确的空间信息。 1.2 注意力机制 视觉注意力机制是借鉴人类的视觉注意力机 制,扫描全局图片获取需要关注的目标实体区 域,并为这一区域投入更多的资源,可获取更为 完善的关注目标的信息,而降低其他信息的影 响。注意力机制在多个视觉任务中都有很出色的 表现,例如,图像字幕[29, 31] 、视觉问答[32-33] 、目标识 别 [19] 和图像分类[34] 等。Xu 等 [35] 首先提出了使用 “软”和“硬”注意力机制解决图像字幕。Wang 等 [34] 提出使用一种残差注意力机制来训练深度残差网 络进行图像分类。Chen 等 [29] 提出了一种 SCACNN 网络,网络使用 CNN 结合了空间注意力机 制与通道注意力机制赋予各个通道和空间位置不 同的权重,提高目标响应并降低背景的干扰。 在显著性物体检测时,并不是所有通道的卷 积特征对显著性物体的预测都具有同等重要性, 个别通道会存在背景的卷积特征,且在同一通道 中不同位置的卷积特征也对显著性物体的预测产 生影响。为更有利地获取有效卷积特征,进一步 消除背景对显著物体的影响,本文采用通道注意 力机制为不同卷积通道赋予不同权值,以降低含 背景卷积信息的通道对显著性物体预测的影响, 另外引入空间注意力机制来为同一通道上不同位 置的卷积特征赋予不同权值,以进一步消除背景 的影响。将空间注意力与通道注意力串联组成注 意力模块以实现对物体的初步关注,并以渐进的 方式指导下一层关注的提取,逐步消除背景对显 著性物体预测的影响。 1.3 多尺度特征融合 从一些可视化深度卷积神经网络的工作[9-10, 36-40] 可以看出,不同层次的卷积特征是从不同的视角 描述物体特征及其周围环境。高级语义有助于图 像区域物体类别的识别,而低级视觉特征有助于 保留空间细节,生成具有高分辨率的显著性图。 然而如何有效地利用多尺度特征依然是一个值得 探讨的问题。为此,已经有很多有价值的研究, 例如,Li 等 [5] 通过使用先生成局部超像素估计, 然后在多个 CNN 中提取多尺度特征来预测物体 的显著性。Zhang 等 [ 2 7 ] 提出 Amulet 网络使用 RFC 生成多分辨率的预测信息,并使用 FS 进行 多尺度融合,获得显著性的预测。Hariharan 等 [22] 提出使用 Hypercolumn 方法,不仅融合了来自多 个中间层的卷积特征,还学习了密集特征分类 器。Badrinarayanan 等 [11] 采用编码器−解码器网 络,使用池化引导反卷积模块多级卷积特征。 Ronneberger 等 [2] 提出 U-Net 网络,应用多个跳过 连接结构来捕获上下文结构,并通过收缩路径和 扩展路径融合多尺度卷积特征生成有精确定位的 显著性预测图。 受到以上研究的启发,本文提出的方法中也 使用跳过连接结构实现捕获上下文信息,并借助 空洞卷积对上下文信息进一步提取,同时借助带 门控的信息传递链路,实现高级语义与中间卷积 特征的相互融合,这种融合是以阶段方式进行 的,由跳过连接结构与带门控的信息传递链路组 成了双向信息传递链路,有利于为显著性预测提 供全面的信息。另一方面通过多尺度融合策略, 为显著性预测提供不同视角的卷积特征,能够将 低级的边缘感知特征与高级语义信息进行聚合, 有助于保持对象边界。 2 算法模型 BML-CNN 模型使用含有注意力模块的特征 提取模块来提取有效特征,借助双向消息链路实 现高层语义信息与底层轮廓信息相互传递,融合 上下文信息,最后使用多尺度融合策略,融合不 同尺度的有效卷积特征,以实现物体的显著性预 测。该模型具有出色的显著性预测能力,且边界 保持较好。 2.1 通道注意力与空间注意力 通道注意力机制是调整特征通道对目标影响 程度的方式,为有效的通道赋予更高的权重使其 能对显著性对象有更高的响应,降低无效通道的 权重使其能够降低对显著性对象预测的干扰。 I ∈ R W×H×C W × H ×C F = {f1, f2,··· , fC} fi ∈ R W×H i ∈ {1,2,··· ,C} i s ∈ R C 将卷积特征用 表示,其中 表示卷积特征 I 的维度,用 表示 卷积特征 I 上的通道,其中 , 表示卷积特征 I 上的第 个通道,W 表示宽,H 表 示高,C 表示通道总数。用 表示通道权重 向量,本文设计一个卷积层来学习每个通道的权 值特征: g = WC ∗ F +bC (1) WC bC aC = {aC (1),aC (2),··· ,aC (C)} 式中: 表示卷积滤波器; 表示卷积偏差。使 用 Softmax 激活函数获得最终的通道注意力向量 : aC (i) = Softmax(g(i)) = exp(g(i)) ∑C i=1 exp(g(i)) (2) ∑C i=1 aC (i) = 1 (3) 空间注意力机制直接使用卷积特征预测显著 ·1154· 智 能 系 统 学 报 第 14 卷
第6期 申凯,等:基于双向消息链路卷积网络的显著性物体检测 ·1155· 性往往可能由于非显著性区域所造成的噪音导致 I(①=I()×ac() (7) 次优结果。空间注意力机制通过对每一个区域进 式中:ac(①表示第i层通道的通道注意力向量第i 行评估,为每一个区域赋予不同的权值,使得模 维参数,其中iE{1,2,…,C。将得到的卷积特征 型能够更加关注有助于显著性预测的有效信息。 输入到空间注意力模块中得到心s: 空间注意力机制可以突出显著性对象,减少背景 Ics as (8) 区域的干扰。 式中*表示Hadamard矩阵乘积运算。得到的Ics 使用I∈RWxHxC表示卷积特征,使用L={(x,y) 是通过注意力模块的带权卷积特征,模型使用s x=1,2,…,Wy=1,2,…,H表示卷积特征上空间 指导下一层卷积对显著性物体特征的提取。 位置,其中(x,y表示空间上点的坐标。本文设计 图1中,左半边为通道注意力模块和式,右 了一个卷积层来计算空间注意力特征图: 半边为空间注意力模块和式,其中I为输人和式, m=Ws *1+bs (4) ac表示通道注意力向量和式由式(②)和式③)计算得到。 式中:m∈RwxH是包含所有通道的信息;Ws表示 心表示通道注意力模块的输出和式也是空间注 卷积滤波器;bs表示卷积偏差。使用Softmax激 意力模块的输人和式由式(7)计算得到。as表示 活函数获取每一个位置上的空间注意力权重。 空间注意力权重和式,由式(5)和式(6)计算得 as(I)=Softmax(m(D))= exp(m(D) 丁.expm) (5) 到。下表示空间注意力模块的输出和式,也是本 文注意力模块的输出和式由式(8)计算得到。多 ∑as0=1 (6) 层卷积之间添加注意力模块和式实现渐进式的 注意力引导。每一层的注意力信息可指导下一 式中:m(0表示空间注意力特征图m中第I个点, 层的训练,以自适应的方式生成新的注意项和式 其中I∈L;as(0表示第I个点的权值。令as={as(1), 使得上下文信息实现由粗至简的细化过程。 as(2),…,as(W×H)}为空间关注图。 2.2双向消息链路 注意力模块使用通道注意力模块与空间注意 双向消息链路由带有跳过连接结构的上下文 力模块串联成注意力模块,结构如图1所示。将 感知网络与带有门控函数的信息传递链路组成。 注意力模块添加到带跳过连接的上下文感知模 带有跳过结构连接结构的上下文感知网络用来提 块,可从不同方向上减少背景区域的干扰,提高 取高级的语义信息,而带有门控函数的信息传递 对显著性物体的预测,并精确的保留边界信息。 链路将高进语义信息和中间卷积特征指导低级空 间信息提取。使得送入多尺度融合模块的不同尺 度的特征图均具有完整的空间信息和语义信息, 为最终的融合提供有效、可靠的输入源。 如图2所示,带有跳过连接结构的上下文传 递模块,“Conv5”是对原始图片的特征提取,使用 图1注意力模块模型 跳过连接结构将原始图片,与语义特征一起作为 Fig.1 Attention module model 新的卷积层的输人,实现上下文传递,并使用后 使用I∈RWxHxC表示输人注意力模块的卷积 续的卷积将低级空间特征与高级语义相融合,使 特征前半阶段为通道注意力机制,后半段为空间 得显著性特征具有比较完备的边界信息和高级语 注意力机制。令为经过通道注意力模块输出 义信息。另外,注意力机制的加入减少了背景对 的卷积特征: 显著性物体预测的影响。 Conv5 Up4 Up3 Up2 Upl Conv10 Conv& Conv7 Conv6 Atten Atten Atten Atten Atten Convl 图2带跳过连接的上下文传递模块 Fig.2 Context transfer module with skip connection
性往往可能由于非显著性区域所造成的噪音导致 次优结果。空间注意力机制通过对每一个区域进 行评估,为每一个区域赋予不同的权值,使得模 型能够更加关注有助于显著性预测的有效信息。 空间注意力机制可以突出显著性对象,减少背景 区域的干扰。 I ∈ R W×H×C L = {(x, y) |x = 1,2,··· ,W; y = 1,2,··· ,H} (x, y) 使用 表示卷积特征,使用 表示卷积特征上空间 位置,其中 表示空间上点的坐标。本文设计 了一个卷积层来计算空间注意力特征图: m = WS ∗ I +bS (4) m ∈ R W×H WS bS 式中: 是包含所有通道的信息; 表示 卷积滤波器; 表示卷积偏差。使用 Softmax 激 活函数获取每一个位置上的空间注意力权重。 aS (l) = Softmax(m(l)) = ∑ exp(m(l)) l∈L exp(m(l)) (5) ∑ l∈L aS (l) = 1 (6) m(l) l ∈ L aS (l) aS = {aS (1), aS (2),··· ,aS (W × H)} 式中: 表示空间注意力特征图 m 中第 l 个点, 其中 ; 表示第 l 个点的权值。令 为空间关注图。 注意力模块使用通道注意力模块与空间注意 力模块串联成注意力模块,结构如图 1 所示。将 注意力模块添加到带跳过连接的上下文感知模 块,可从不同方向上减少背景区域的干扰,提高 对显著性物体的预测,并精确的保留边界信息。 I × ac as I c I * cs 图 1 注意力模块模型 Fig. 1 Attention module model I ∈ R 使用 W×H×C 表示输入注意力模块的卷积 特征前半阶段为通道注意力机制,后半段为空间 注意力机制。令 I C 为经过通道注意力模块输出 的卷积特征: I C (i) = I(i)×aC (i) (7) aC (i) i i i ∈ {1,2,··· ,C} I CS 式中: 表示第 层通道的通道注意力向量第 维参数,其中 。将得到的卷积特征 输入到空间注意力模块中得到 : I CS = aS ∗ I C (8) I CS I CS 式中*表示 Hadamard 矩阵乘积运算。得到的 是通过注意力模块的带权卷积特征,模型使用 指导下一层卷积对显著性物体特征的提取。 aC I C aS I S 图 1 中,左半边为通道注意力模块和式,右 半边为空间注意力模块和式,其中 I 为输入和式, 表示通道注意力向量和式由式(2)和式(3)计算得到。 表示通道注意力模块的输出和式也是空间注 意力模块的输入和式由式 (7) 计算得到。 表示 空间注意力权重和式,由式 (5) 和式 (6) 计算得 到。 表示空间注意力模块的输出和式,也是本 文注意力模块的输出和式由式 (8) 计算得到。多 层卷积之间添加注意力模块和式实现渐进式的 注意力引导。每一层的注意力信息可指导下一 层的训练,以自适应的方式生成新的注意项和式 使得上下文信息实现由粗至简的细化过程。 2.2 双向消息链路 双向消息链路由带有跳过连接结构的上下文 感知网络与带有门控函数的信息传递链路组成。 带有跳过结构连接结构的上下文感知网络用来提 取高级的语义信息,而带有门控函数的信息传递 链路将高进语义信息和中间卷积特征指导低级空 间信息提取。使得送入多尺度融合模块的不同尺 度的特征图均具有完整的空间信息和语义信息, 为最终的融合提供有效、可靠的输入源。 如图 2 所示,带有跳过连接结构的上下文传 递模块,“Conv5”是对原始图片的特征提取,使用 跳过连接结构将原始图片,与语义特征一起作为 新的卷积层的输入,实现上下文传递,并使用后 续的卷积将低级空间特征与高级语义相融合,使 得显著性特征具有比较完备的边界信息和高级语 义信息。另外,注意力机制的加入减少了背景对 显著性物体预测的影响。 Up4 Up3 Up2 Up1 Atten Conv10 Atten Conv9 Atten Conv8 Atten Conv7 Atten Conv6 Atten Conv1 Conv5 Up5 图 2 带跳过连接的上下文传递模块 Fig. 2 Context transfer module with skip connection 第 6 期 申凯,等:基于双向消息链路卷积网络的显著性物体检测 ·1155·
·1156· 智能系统学报 第14卷 att_conv5=Atten(Conv5) (9) 如图3所示,本文使用带门控函数的信息传 Up:=Up(att_conv5,u) (10) 递链路将高级语义信息与中间层卷积特征相融 其中att_conv5:为“Conv5”通过注意力模块Atten 合,因为并不是所有的中间层都对物体显著性的 的输出,具体计算方法由2.1节给出。Up,i∈{1,2,3, 预测是有帮助的,所以借助门控函数产生0-1] 4,5}表示图2中上采样的输出,4为大小分别为 的权值向量,控制高层卷积特征对低级卷积特征 16×16,8×8,4×4,2×2,1×1}的上采样内核。 的影响程度,从而每一层都是由上一层加权并与 conv;=Conv(Concat(Up-s,conv1),K) (11) at;Atten(conv) (12) 本层特征融合的结果,使得每一层都有在上一层 式中:K表示大小为3×3的卷积核,Concat表示 高级语义的指导下选择本层的空间特征,从而产 通道连接,Up-s由式(9)和式(10)计算得到。式(11) 生不同级别、不同尺度、不同视角的显著性预测 中卷积的激活函数均为Relu。at,表示conv,通过 先验信息,为进一步的多尺度融合提供比较全面 注意力模块的输出。 的特征信息。 Conv6 Conv7 Conv8 Conv9 Conv10 Atten Atten Atten Atten Atten D-ConvI D-Conv2 D-Conv3 D-Conv4 D-Conv5 +U-G- S2 +U-G- S3 +U-G J-G S5 图3带门控函数的消息传递模块 Fig.3 A messaging module with gated functions dcij=Conv(at;,K,D) (13) 输出。 sd;Concat(dca.dc.dca.dc) (14) 2.3多尺度特征融合策略 式中:dc,i∈1,2,3,4,5,j∈{1,2,3,4}表示空洞卷 本文提出的多尺度特征融合策略是将双消息 积的输出;卷积核K的大小均为3×3;D表示大 链路的侧输出S:,i∈{1,2,3,4,5}进行有效融合。 小分别为l、3、5、7的dilation rate;sd,表示融合空 首先对6个侧输出进行上采样操作得到分层映射 洞卷积的输出,i∈{1,2,3,4,51。 Sm,它将用于对尺度特征融合的输入。 M,=G(S#,Km)×Conv(S1,K2) (15) Sm;=Up(Si ui) (18) GS+l,K)=Sigmoid(Conv(S4,K)】 (16) 其中,Up表示上采样操作;山分别表示大小为 {1×1,2×2,4×4,8×8,16×16)的采样内核。 S;=Conv (Concat(Mi,sd),K) (17) 如图4所示,将式(18)计算得到的5个分层 式中:门控函数由G表示;K、K和2均表示大 特征映射Sm:输入到特征融合策略,生成最终的 小为3×3的卷积核;S,则表示双向消息链路的侧 显著性预测图。 Concat- FCM, 3×3 FCM, 3×3 FCM. 1×1 Pregt 图4多尺度融合策略 Fig.4 Multi-scale fusion strategy FCMo=Concat(Smi,Sm2,Sm3,Sm4,Sms) (19) moid;pre_gt为模型最终的输出,也是物体的显著 FCM=Conv(FCMo,K1) (20) 性预测图。 FCM2 =Conv(FCM1,K2) (21) BML-CNN模型结构由图5给出,通过带有注 pre_gt Conv(FCM2.K3) (22) 意力机制的基础特征提取层,提取有效高级语义 式中:K,、K,和K,分别表示大小为3×3、3×3、 信息,并结合带有跳过连接结构的上下文传递与 1×1的卷积核;激活函数分别为Relu、Relu、Sig- 带门控的消息传递链路组成的双向信息传递模型
att_conv5 = Atten(Conv5) (9) Upi = Up( att_conv5,ui ) (10) Atten Upi i ∈ {1,2,3, 4,5} ui {16×16,8×8,4×4,2×2,1×1} 其中 att_conv5 为“Conv5”通过注意力模块 的输出,具体计算方法由 2.1 节给出。 , 表示图 2 中上采样的输出, 为大小分别为 的上采样内核。 convi = Conv( Concat(Upi−5 , convi−1 ) ,K) (11) ati = Atten(convi) (12) 3×3 Concat Upi−5 ati convi 式中:K 表示大小为 的卷积核, 表示 通道连接, 由式 (9) 和式 (10) 计算得到。式 (11) 中卷积的激活函数均为 Relu。 表示 通过 注意力模块的输出。 [0−1] 如图 3 所示,本文使用带门控函数的信息传 递链路将高级语义信息与中间层卷积特征相融 合,因为并不是所有的中间层都对物体显著性的 预测是有帮助的,所以借助门控函数产生 的权值向量,控制高层卷积特征对低级卷积特征 的影响程度,从而每一层都是由上一层加权并与 本层特征融合的结果,使得每一层都有在上一层 高级语义的指导下选择本层的空间特征,从而产 生不同级别、不同尺度、不同视角的显著性预测 先验信息,为进一步的多尺度融合提供比较全面 的特征信息。 Conv6 Atten Conv7 Atten Conv8 Atten Conv9 Atten Conv10 Atten D-Conv4 D-Conv5 S1 S2 S3 S4 S5 D-Conv1 D-Conv2 D-Conv3 U-G U-G U-G U-G 图 3 带门控函数的消息传递模块 Fig. 3 A messaging module with gated functions dci j = Conv( ati ,K,Dj ) (13) sdi = Concat(dci1,dci2,dci3,dci4) (14) dci j i ∈ {1,2,3,4,5} j ∈ {1,2,3,4} 3×3 Dj sdi i ∈ {1,2,3,4,5} 式中: , , 表示空洞卷 积的输出;卷积核 K 的大小均为 ; 表示大 小分别为 1、3、5、7 的 dilation rate; 表示融合空 洞卷积的输出, 。 Mi = G ( S i+1 ,K i1 ) ×Conv( S i+1 ,K i2 ) (15) G ( S i+1 ,K i1 ) = Sigmoid( Conv( S i+1 ,K i1 )) (16) S i = Conv( Concat(Mi ,sdi),K i ) (17) G 3×3 式中:门控函数由 表示;K i 、K i1 和 K i2 均表示大 小为 的卷积核;Si 则表示双向消息链路的侧 输出。 2.3 多尺度特征融合策略 S i i ∈ {1,2,3,4,5} Smi 本文提出的多尺度特征融合策略是将双消息 链路的侧输出 , 进行有效融合。 首先对 6 个侧输出进行上采样操作得到分层映射 ,它将用于对尺度特征融合的输入。 Smi = Up(S i ,ui) (18) Up ui {1×1,2×2,4×4,8×8,16×16} 其中, 表示上采样操作; 分别表示大小为 的采样内核。 Smi 如图 4 所示,将式 (18) 计算得到的 5 个分层 特征映射 输入到特征融合策略,生成最终的 显著性预测图。 Concat FCM0 3×3 3×3 1×1 FCM1 FCM2 Pre_ gt 图 4 多尺度融合策略 Fig. 4 Multi-scale fusion strategy FCM0 = Concat(Sm1,Sm2,Sm3,Sm4,Sm5) (19) FCM1 = Conv(FCM0,K1) (20) FCM2 = Conv(FCM1,K2) (21) pre_gt = Conv(FCM2,K3) (22) 3×3 3×3 1×1 式中:K1、K2 和 K3 分别表示大小为 、 、 的卷积核;激活函数分别为 Relu、Relu、Sigmoid; pre_gt 为模型最终的输出,也是物体的显著 性预测图。 BML-CNN 模型结构由图 5 给出,通过带有注 意力机制的基础特征提取层,提取有效高级语义 信息,并结合带有跳过连接结构的上下文传递与 带门控的消息传递链路组成的双向信息传递模型 ·1156· 智 能 系 统 学 报 第 14 卷
第6期 申凯,等:基于双向消息链路卷积网络的显著性物体检测 ·1157· 完成有效消息的双向传递,使各层具有不同角度 特征融合策略将各层卷积特征相融合,生成最终 语义信息的同时保留完整的边界信息。最后使用 的显著性物体预测图。 m Conv2 Jp4 Up3 Up2 Upl Conv9 Conv8 Conv7 Atten Atten Atten Atten Conv6 -Conv5 D-Conv4 D-Conv3 D-Conv2 D-ConvI G-L FCM FCM Pregt GT 图5双向消息链路卷积网络的结构图 Fig.5 Structure diagram of bidirectional message link convolution network 3实验 处理速度为l8fs。源代码可在:https://github.coml yshenkai/SOD中下载。 3.1实验设置 评价指标:为了评估本文模型,借助了P℉曲 数据集:该模型使用DUTS-TR数据集[u)作 线、F-measure值和平均绝对误差MAE3个指标 为训练集,数据集包括10553张图片,为了使模 将本文模型与其他的13个先进的模型相比较。 型获得更好的训练效果,使用了数据增强策略生 (1+B2)x Precision x Recall (23) 成了63318张图片作为训练图片。为了评估模 B2 X Precision×Recall 型,本文使用了以下6个标准数据集作为模型先 其中令B=0.3,Precision表示准确率;Recall表示 进性验证:DUTS-TE数据集9,该数据集具有 召回率。使用F。作为评价指标的目的在于消除 5019个具有高像素注释的测试数据集。DUT- Precision与Recall之间的矛盾,可综合评价模型 OMRON数据集,该数据集有5168个高质量的 的优劣。除了Fe和PR曲线,还计算了平均绝对 误差(MAE)来测量预测的显著性图与真实显著 图像,数据集中的图像具有一个或多个显著性对 图之间的差异。 象和相对复杂的背景。ECSSD数据集B,该数据 1 集具有1000个图像,在语义上具有比较复杂的 AE= sx0-Gx (24) 分割结构。HKU-IS数据集,该数据集具有4447 =1y=1 式中:W、H分别为输入图片的宽和高;S(x,y) 幅图片,具有多个不相连的显著性对象。PAS- 表示在(x,y)点上的显著度预测;G(x,y)表示在该 CAL-S数据集,该数据集是从PASCAL VOC数 点真实显著度值。使用MAE作为评价指标的目 据集1中挑选的,具有850张自然图像。 的在于能够比较直观地反映预测值与真实值之间 实现细节:本文提出的算法使用Keras实现, 的偏差。在本文中W=H=256。 前13层卷积使用VGG-16预训练参数进行初始 3.2性能比较 化,其他权值的初始化采用Xavier,初始学习率 本节使用了上述的评价指标将BML-CNN模 为105,权重衰减为0.0005,输入图片大小为 型与其他I3个先进模型BL、KSR6、DRFI4列 256×256,训练集采用DUTS-TR,并使用数据增 LEGS、MDF、ELD2、DS4、MCDL9、DCL9 强。在训练模型时模型共进行了150次迭代,训 RFCN、DHSP、UCpo,s0和Amulet27进行比较, 练用时29个小时。对本文模型进行测试时,实时 同时为了实验的严谨性,使用了作者推荐的参数
完成有效消息的双向传递,使各层具有不同角度 语义信息的同时保留完整的边界信息。最后使用 特征融合策略将各层卷积特征相融合,生成最终 的显著性物体预测图。 Img Conv1 Conv2 Conv3 Conv4 Conv5 Atten Conv6 Conv7 Atten Conv8 Atten Conv9 Atten Conv10 Atten Up5 Up4 Up3 Up2 D-Conv5 D-Conv4 D-Conv3 D-Conv2 S1 S2 S3 S4 S5 FCM0 FCM1 FCM2 Pre_ gt GT Up1 D-Conv1 G-U G-U G-U G-U 图 5 双向消息链路卷积网络的结构图 Fig. 5 Structure diagram of bidirectional message link convolution network 3 实验 3.1 实验设置 数据集:该模型使用 DUTS-TR 数据集[19] 作 为训练集,数据集包括 10 553 张图片,为了使模 型获得更好的训练效果,使用了数据增强策略生 成了 63 318 张图片作为训练图片。为了评估模 型,本文使用了以下 6 个标准数据集作为模型先 进性验证:DUTS-TE 数据集[ 1 9 ] ,该数据集具有 5 019 个具有高像素注释的测试数据集。DUTOMRON 数据集[41] ,该数据集有 5 168 个高质量的 图像,数据集中的图像具有一个或多个显著性对 象和相对复杂的背景。ECSSD 数据集[31] ,该数据 集具有 1 000 个图像,在语义上具有比较复杂的 分割结构。HKU-IS 数据集[19] ,该数据集具有 4 447 幅图片,具有多个不相连的显著性对象。PASCAL-S 数据集[42] ,该数据集是从 PASCAL VOC 数 据集[43] 中挑选的,具有 850 张自然图像。 实现细节:本文提出的算法使用 Keras 实现, 前 13 层卷积使用 VGG-16 预训练参数进行初始 化,其他权值的初始化采用 Xavier[44] ,初始学习率 为 10 − 5,权重衰减为 0.000 5,输入图片大小为 256×256,训练集采用 DUTS-TR,并使用数据增 强。在训练模型时模型共进行了 150 次迭代,训 练用时 29 个小时。对本文模型进行测试时,实时 处理速度为 18 f/s。源代码可在:https://github.com/ yshenkai/SOD 中下载。 评价指标:为了评估本文模型,借助了 PR 曲 线、F-measure 值和平均绝对误差 MAE 3 个指标 将本文模型与其他的 13 个先进的模型相比较。 Fβ = ( 1+β 2 ) ×Precision×Recall β 2 ×Precision×Recall (23) 其中令 β = 0.3 2 ,Precision 表示准确率;Recall 表示 召回率。使用 Fβ 作为评价指标的目的在于消除 Precision 与 Recall 之间的矛盾,可综合评价模型 的优劣。除了 Fβ 和 PR 曲线,还计算了平均绝对 误差 (MAE) 来测量预测的显著性图与真实显著 图之间的差异。 AE = 1 W × H ∑W x=1 ∑H y=1 |S (x, y)−G(x, y)| (24) S (x, y) (x, y) G(x, y) W = H = 256 式中: W、 H 分别为输入图片的宽和高; 表示在 点上的显著度预测; 表示在该 点真实显著度值。使用 MAE 作为评价指标的目 的在于能够比较直观地反映预测值与真实值之间 的偏差。在本文中 。 3.2 性能比较 本节使用了上述的评价指标将 BML-CNN 模 型与其他 13 个先进模型 BL[45] 、KSR[46] 、DRFI[47] 、 LEGS[6] 、MDF[5] 、ELD[23] 、DS[48] 、MCDL[19] 、DCL[49] 、 RFCN[7] 、DHS[24] 、UCF[40, 50] 和 Amulet[27] 进行比较, 同时为了实验的严谨性,使用了作者推荐的参数 第 6 期 申凯,等:基于双向消息链路卷积网络的显著性物体检测 ·1157·
·1158· 智能系统学报 第14卷 设计和其提供的源码或者直接利用作者提供的显 6个标准数据集上计算而来,前三好的结果分别 著性图。 以红色、绿色和蓝色标注。可以看出本文所提出 表1中MAE与F-measure是14个模型在 的模型在以上数据集中表现极为出色。 表114个模型的MAE和FB对比 Table 1 MAE and F-measure were compared in 14 models DUTS-TE DUT-OMRON HKU-IS THUR15K ECSSD PASCAL-S 方法 MAE F8 MAE FB MAE 飞 MAE F8 MAE Fa MAE FB BL 0.238 0.409 0.239 0.499 0.207 0.660 0.219 0.530 0.217 0.684 0.249 0.574 KSR 0.121 0.602 0.131 0.591 0.120 0.747 0.123 0.604 0.135 0.782 0.157 0.704 DRFI 0.175 0.541 0.138 0.550 0.145 0.722 0.150 0.576 0.166 0.733 0.207 0.618 LEGS 0.138 0.585 0.133 0.592 0.1190.723 0.125 0.607 0.119 0.785 0.155 0.697 MDF 0.100 0.673 0.092 0.644 0.109 0.636 0.108 0.805 0.146 0.709 ELD 0.093 0.628 0.092 0.611 0.074 0.706 0.098 0.634 0.082 0.810 0.123 0.718 DS 0.091 0.632 0.120 0.603 0.078 0.785 0.116 0.626 0.124 0.826 0.176 0.659 MCDL 0.105 0.594 0.089 0.625 0.092 0.757 0.103 0.620 0.102 0.796 0.145 0.691 DCL 0.149 0.714 0.157 0.684 0.136 0.853 016 0.676 0.151 0.827 0.181 0.714 RFCN 0.090 0.712 0.111 0.627 0.089 0.835 0.100 0.695 0.109 0.834 0.133 0.751 DHS 0.067 0.724 0.054 0.852 0.082 0.673 0.063 0.871 0.095 0.773 UCF 0.117 0.629 0.132 0.613 0.074 0.808 0.112 0.645 0.080 0.841 0.127 0.701 Amulet 0.085 0.678 0.098 0.647 0.052 0.839 0.094 0.670 0.061 0.869 0.100 0.763 Ours 0.063 0.758 0.070 0.732 0.049 0.872 0.071 0.731 0.063 0.882 0.090 0.803 定量比较:由表1可以看出本文提出的模型 1.0 BML-CNN在数据集DUTS-TE、DUT-OMRON、 0.9 0.8 HKU-IS、THUR15K、PASCAL-S上MAE降低了 0.7 Amulet 5.97%、21.35%、5.77%、13.41%和10%,在Fg指标 0.6 BL 0.5 DCL 上分别提高了4.69%、7.02%、2.23%、8.62%和 DHS —KSR 0.4 DRFI LEGS -RFCN 3.88%。在数据集ECSSD上BML-CNN比Amu- -DS -MCDL -UCF 0.3 ELD MDF -Ours let的MAE高了3.28%,但BML-CNN却在Fg比 0. 0 03 0.40.6 08 1.0 Amulet高了1.26%。由图6中PR曲线可以看出 Recall (b)HKU-IS上的PR曲线比较 本文提出的BML-CNN模型在数据集DUTS-TE、 1.0 THUR15K、ECSSD上,具有更高的召回曲线,表 09 明在这3个数据集中,模型BML-CNN表现得比 8 其他13个模型更加出色。 0.7 Amulet-KSR 1.0 0.6 BL LEGS -DCL -MCDL 0.9 0.5 DHS MDF 0.4 ·DRFI 0.8 RFCN -DS -UCF 0.7 0.3 ELD Ours Amulet-KSR BL LEGS 0.2 0.2 0.4 0.6 0.8 1.0 ·DCL ·MCDL 0.5 DHS Recall MDF 0.4 RFCN (C)THURI5K上的PR曲线比较 -UCF 0.3 ELD Ours 图614种显著性检测方法在ECSSD、HKU-IS和 0.2 0 0.2 0.4 0.6 0.8 1.0 THUR15K上的PR曲线比较 Recall Fig.6 PR curves of 14 saliency detection methods on (a)ECSSD上的PR曲线比较 DUTS-TE,THUR15K and ECSSD were compared
设计和其提供的源码或者直接利用作者提供的显 著性图。 表 1 中 MAE 与 F-measure 是 14 个模型在 6 个标准数据集上计算而来,前三好的结果分别 以红色、绿色和蓝色标注。可以看出本文所提出 的模型在以上数据集中表现极为出色。 表 1 14 个模型的 MAE 和 Fβ 对比 Table 1 MAE and F-measure were compared in 14 models 方法 DUTS-TE DUT-OMRON HKU-IS THUR15K ECSSD PASCAL-S MAE Fβ MAE Fβ MAE Fβ MAE Fβ MAE Fβ MAE Fβ BL 0.238 0.409 0.239 0.499 0.207 0.660 0.219 0.530 0.217 0.684 0.249 0.574 KSR 0.121 0.602 0.131 0.591 0.120 0.747 0.123 0.604 0.135 0.782 0.157 0.704 DRFI 0.175 0.541 0.138 0.550 0.145 0.722 0.150 0.576 0.166 0.733 0.207 0.618 LEGS 0.138 0.585 0.133 0.592 0.119 0.723 0.125 0.607 0.119 0.785 0.155 0.697 MDF 0.100 0.673 0.092 0.644 — — 0.109 0.636 0.108 0.805 0.146 0.709 ELD 0.093 0.628 0.092 0.611 0.074 0.706 0.098 0.634 0.082 0.810 0.123 0.718 DS 0.091 0.632 0.120 0.603 0.078 0.785 0.116 0.626 0.124 0.826 0.176 0.659 MCDL 0.105 0.594 0.089 0.625 0.092 0.757 0.103 0.620 0.102 0.796 0.145 0.691 DCL 0.149 0.714 0.157 0.684 0.136 0.853 0.161 0.676 0.151 0.827 0.181 0.714 RFCN 0.090 0.712 0.111 0.627 0.089 0.835 0.100 0.695 0.109 0.834 0.133 0.751 DHS 0.067 0.724 — — 0.054 0.852 0.082 0.673 0.063 0.871 0.095 0.773 UCF 0.117 0.629 0.132 0.613 0.074 0.808 0.112 0.645 0.080 0.841 0.127 0.701 Amulet 0.085 0.678 0.098 0.647 0.052 0.839 0.094 0.670 0.061 0.869 0.100 0.763 Ours 0.063 0.758 0.070 0.732 0.049 0.872 0.071 0.731 0.063 0.882 0.090 0.803 Fβ Fβ 定量比较:由表 1 可以看出本文提出的模型 BML-CNN 在数据集 DUTS-TE、DUT-OMRON、 HKU-IS、THUR15K、PASCAL-S 上 MAE 降低了 5.97%、21.35%、5.77%、13.41% 和 10%,在 指标 上分别提高了 4.69%、7.02%、2.23%、8.62% 和 3.88%。在数据集 ECSSD 上 BML-CNN 比 Amulet 的 MAE 高了 3.28%,但 BML-CNN 却在 比 Amulet 高了 1.26%。由图 6 中 PR 曲线可以看出 本文提出的 BML-CNN 模型在数据集 DUTS-TE、 THUR15K、ECSSD 上,具有更高的召回曲线,表 明在这 3 个数据集中,模型 BML-CNN 表现得比 其他 13 个模型更加出色。 精度 0.9 1.0 1.0 0.8 0.8 0.7 0.6 0.6 0.5 0.4 0.4 0.3 0.2 0 0.2 Recall Amulet BL DCL DHS DRFI DS ELD KSR LEGS MCDL MDF RFCN UCF Ours (a) ECSSD上的PR曲线比较 精度 0.9 1.0 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0 0.2 0.4 0.6 0.8 1.0 Recall Amulet BL DCL DHS DRFI DS ELD KSR LEGS MCDL MDF RFCN UCF Ours (c) THUR15K上的PR曲线比较 精度 0.9 1.0 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0 0.2 0.4 0.6 0.8 1.0 Recall Amulet BL DCL DHS DRFI DS ELD KSR LEGS MCDL MDF RFCN UCF Ours (b) HKU-IS上的PR曲线比较 图 6 1 4 种显著性检测方法 在 ECSSD、 HKU-I S 和 THUR15K 上的 PR 曲线比较 Fig. 6 PR curves of 14 saliency detection methods on DUTS-TE, THUR15K and ECSSD were compared ·1158· 智 能 系 统 学 报 第 14 卷
第6期 申凯,等:基于双向消息链路卷积网络的显著性物体检测 ·1159· 如图7,第1行表示输入的图片,可以看出, 幅图片可以看出,在动物显著性预测时本文 本文提出的BML-CNN模型在显著物体预测和边 模型比其他模型保留了更多实体的信息,且边 界保持中均优于现有的Amulet和UCF方法,此 界保持较好,从第3幅图片中可以看出,注意力机 外在处理含有倒影的图片(例如图7中第5幅图 制的应用消除了更多背景的影响,实现了更准确 片),BML-CNN模型具有更高的鲁邦性。 的预测。从第4幅图中可以看出,使用更有效的 定性比较:在HKU-IS与DUTS-TE两个数据 高层语义与底层轮廓传递策略,可在显著性预测 集上,使用13个模型中表现比较出色的Amu- 时保留更加完整的边界信息。从第5幅图片中可 let与UC℉模型给出的显著性预测图进行比较,为 以看出,注意力机制和高层语义与低层轮廓传递 防止模型对特定显著性物体出现过拟合,选取具 策略在处理镜像实体的问题中表现出更高的 有不同显著性物体来进行比较。如图7,从第一 鲁棒性。 (a)输人的图片 b)GT显著性预测真实图 (c)本文提出模型的预测结果 (d)Amulte的预测结果 (d)UCF的预测结果 图7物体显著性预测图对比 Fig.7 Object saliency prediction graph comparison 4结束语 CNN模型的性能在不同数据集上均获得较高的 本文提出了结合注意力机制与多尺度融合的 提升,在边界保持、抑制背景噪声和镜像实体的 双向消息传递链路显著性目标检测算法,首先通 处理等问题上都有最优异的表现。 过带有注意力模块的特征提取层获取有效高层语 模型虽然在复杂背景下的表现比较出色,也 义信息,然后通过双向消息传递链路实现高层语 有很好的边界保持。但是该模型对于镜像实体问 义与底层轮廓的双向传递,最后通过多尺度融合 题(如倒影、镜中映像)的处理尚未达到最优效 策略实现多层不同尺度的卷积特征的融合,从而 果,接下来可以针对镜像实体问题来优化模型。 产生显著物体的预测图。与现有算法相比,BML 此外,注意力模块与带门控函数的消息传递链路
如图 7,第 1 行表示输入的图片,可以看出, 本文提出的 BML-CNN 模型在显著物体预测和边 界保持中均优于现有的 Amulet 和 UCF 方法,此 外在处理含有倒影的图片 (例如图 7 中第 5 幅图 片),BML-CNN 模型具有更高的鲁邦性。 定性比较:在 HKU-IS 与 DUTS-TE 两个数据 集上,使用 13 个模型中表现比较出色的 Amulet 与 UCF 模型给出的显著性预测图进行比较,为 防止模型对特定显著性物体出现过拟合,选取具 有不同显著性物体来进行比较。如图 7,从第一 幅图片可以看出,在动物显著性预测时本文 模型比其他模型保留了更多实体的信息,且边 界保持较好,从第 3 幅图片中可以看出,注意力机 制的应用消除了更多背景的影响,实现了更准确 的预测。从第 4 幅图中可以看出,使用更有效的 高层语义与底层轮廓传递策略,可在显著性预测 时保留更加完整的边界信息。从第 5 幅图片中可 以看出,注意力机制和高层语义与低层轮廓传递 策略在处理镜像实体的问题中表现出更高的 鲁棒性。 (a) 输入的图片 (b) GT显著性预测真实图 (c) 本文提出模型的预测结果 (d) Amulte的预测结果 (d) UCF的预测结果 图 7 物体显著性预测图对比 Fig. 7 Object saliency prediction graph comparison 4 结束语 本文提出了结合注意力机制与多尺度融合的 双向消息传递链路显著性目标检测算法,首先通 过带有注意力模块的特征提取层获取有效高层语 义信息,然后通过双向消息传递链路实现高层语 义与底层轮廓的双向传递,最后通过多尺度融合 策略实现多层不同尺度的卷积特征的融合,从而 产生显著物体的预测图。与现有算法相比,BMLCNN 模型的性能在不同数据集上均获得较高的 提升,在边界保持、抑制背景噪声和镜像实体的 处理等问题上都有最优异的表现。 模型虽然在复杂背景下的表现比较出色,也 有很好的边界保持。但是该模型对于镜像实体问 题 (如倒影、镜中映像) 的处理尚未达到最优效 果,接下来可以针对镜像实体问题来优化模型。 此外,注意力模块与带门控函数的消息传递链路 第 6 期 申凯,等:基于双向消息链路卷积网络的显著性物体检测 ·1159·
·1160· 智能系统学报 第14卷 的引入导致网络实时处理能力下降,如何同时提 [12]REN Zhixiang,GAO Shenghua,CHIA L T,et al.Region 高预测效果和实时处理能力值得进一步研究。 based saliency detection and its application in object re- 参考文献: cognition[J].IEEE transactions on circuits and systems for video technology,2014,24(5):769-779 [1]ACHANTA R,HEMAMI S,ESTRADA F,et al.Fre- [13]MU Nana,XU Xiaolong,ZHANG Xong,et al.Salient ob- quency-tuned salient region detection[C]//Proceedings of ject detection using a covariance-based CNN model in 2009 IEEE Conference on Computer Vision and Pattern low-contrast images[J].Neural computing and applica- Recognition.Miami,USA,2009:1597-1604. tions.2018,298):181-192 [2]RONNEBERGER O.FISCHER P.BROX T.U-Net:con- [14]ZHOU Li,YANG Zhaohui,ZHOU Zongtan,et al.Sali- volutional networks for biomedical image segmentation ent region detection using diffusion process on a two-lay- [J.arXiv:1505.04597,2015. er sparse graph[J].IEEE transactions on image pro- [3]ITTI L,KOCH C.NIEBUR E.A model of saliency-based cessing,2017,26(12:5882-5894. visual attention for rapid scene analysis[J].IEEE transac- [15]LIU Tie,DUAN Haibin,SHANG Yuanyuan,et al.Auto- tions on pattern analysis and machine intelligence,1998, matic salient object sequence rebuilding for video seg- 20(11):12541259 ment analysis[J].Science China information sciences, [4]LIU Tie,ZHENG Nanning,DING Wei,et al.Video atten- 2018,61(1:012205. tion:learning to detect a salient object sequence[C]/Pro- [16]ZHANG Jing,FENG Shengwei,LI Da,et al.Image re- ceedings of 200819th International Conference on Pattern trieval using the extended salient region[J].Information Recognition.Tampa,USA,2008:1-4. sciences.2017,399:154-182 [5]LI Guanbin,YU Yizhou.Visual saliency based on [17]SINGH C,PREET KAUR K.A fast and efficient image multiscale deep features[J].Computer science,2015. retrieval system based on color and texture features[]]. [6]WANG Lijun,LU Huchuan,RUAN Xiang,et al.Deep net- Journal of visual communication and image representa- works for saliency detection via local estimation and glob- tion,2016,41:225-238 al search[C]//Proceedings of 2015 IEEE Conference on [18]XU Gongwen,XU Lina,LI Xiaomei,et al.An image re- Computer Vision and Pattern Recognition.Boston,USA, 2015:3183-3192 trieval method based on visual dictionary and saliency re- gion[J].International journal of signal processing,image [7]WANG Linzhao,WANG Lijun,LU Huchuan,et al.Sali- ent object detection with recurrent fully convolutional net- processing and pattern recognition,2016,9(7):263-274. works[J].IEEE transactions on pattern analysis and ma- [19]ZHAO Rui,OUYANG Wanli,LI Hongsheng,et al.Sali- chine intelligence,2018,41(7):1734-1746. ency detection by multi-context deep learning[C]//Pro- [8]CHENG Mingming,ZHANG Guoxin,MITRA N,et al. ceedings of 2015 IEEE Conference on Computer Vision Global contrast based salient region detection[Cl//Proceed- and Pattern Recognition.Boston,USA,2015:1265-1274. ings of 2011 IEEE Conference on Computer Vision and [20]DAI Jifeng,HE Kaiming,LI Yi,et al.Instance-sensitive Pattern Recognition.Colorado Springs,USA,2011: fully convolutional networks[J].Computer science,2016. 409-416. [21]YANG Wei,OUYANG Wanli,LI Hongsheng,et al.End- [9]JIANG Zhuolin,DAVIS L S.Submodular salient region to-end learning of deformable mixture of parts and deep detection[C]//Proceedings of 2013 IEEE Conference on convolutional neural networks for human pose estimation Computer Vision and Pattern Recognition.Portland,USA, [C]//Proceedings of 2016 IEEE Conference on Computer 2013:2043-2050. Vision and Pattern Recognition.Las Vegas,USA,2016 [10]JUNG C.KIM C.A unified spectral-domain approach for 3073-3082. saliency detection and its application to automatic object [22]HARIHARAN B,ARBELAEZ P,GIRSHICK R,et al. segmentation[J].IEEE transactions on image processing Hypercolumns for object segmentation and fine-grained 2012.21(3:1272-1283 localization[C]//Proceedings of 2015 IEEE Conference on [11]BADRINARAYANAN V,KENDALL A,CIPOLLA R. Computer Vision and Pattern Recognition.Boston,USA. SegNet:a deep convolutional encoder-decoder architec- 2015:447-456 ture for image segmentation[J.Computer science,arXiv: [23]LEE G,TAI Y W,KIM J.Deep saliency with encoded 1511.00561.2015. low level distance map and high level features[C]//Pro-
的引入导致网络实时处理能力下降,如何同时提 高预测效果和实时处理能力值得进一步研究。 参考文献: ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 1597–1604. [1] RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [J]. arXiv: 1505.04597, 2015. [2] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE transactions on pattern analysis and machine intelligence, 1998, 20(11): 1254–1259. [3] LIU Tie, ZHENG Nanning, DING Wei, et al. Video attention: learning to detect a salient object sequence[C]/Proceedings of 200819th International Conference on Pattern Recognition. Tampa, USA, 2008: 1–4. [4] LI Guanbin, YU Yizhou. Visual saliency based on multiscale deep features[J]. Computer science, 2015. [5] WANG Lijun, LU Huchuan, RUAN Xiang, et al. Deep networks for saliency detection via local estimation and global search[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3183–3192. [6] WANG Linzhao, WANG Lijun, LU Huchuan, et al. Salient object detection with recurrent fully convolutional networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(7): 1734–1746. [7] CHENG Mingming, ZHANG Guoxin, MITRA N, et al. Global contrast based salient region detection[C]//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, USA, 2011: 409–416. [8] JIANG Zhuolin, DAVIS L S. Submodular salient region detection[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 2043–2050. [9] JUNG C, KIM C. A unified spectral-domain approach for saliency detection and its application to automatic object segmentation[J]. IEEE transactions on image processing, 2012, 21(3): 1272–1283. [10] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. Computer science, arXiv: 1511.00561, 2015. [11] REN Zhixiang, GAO Shenghua, CHIA L T, et al. Regionbased saliency detection and its application in object recognition[J]. IEEE transactions on circuits and systems for video technology, 2014, 24(5): 769–779. [12] MU Nana, XU Xiaolong, ZHANG Xong, et al. Salient object detection using a covariance-based CNN model in low-contrast images[J]. Neural computing and applications, 2018, 29(8): 181–192. [13] ZHOU Li, YANG Zhaohui, ZHOU Zongtan, et al. Salient region detection using diffusion process on a two-layer sparse graph[J]. IEEE transactions on image processing, 2017, 26(12): 5882–5894. [14] LIU Tie, DUAN Haibin, SHANG Yuanyuan, et al. Automatic salient object sequence rebuilding for video segment analysis[J]. Science China information sciences, 2018, 61(1): 012205. [15] ZHANG Jing, FENG Shengwei, LI Da, et al. Image retrieval using the extended salient region[J]. Information sciences, 2017, 399: 154–182. [16] SINGH C, PREET KAUR K. A fast and efficient image retrieval system based on color and texture features[J]. Journal of visual communication and image representation, 2016, 41: 225–238. [17] XU Gongwen, XU Lina, LI Xiaomei, et al. An image retrieval method based on visual dictionary and saliency region[J]. International journal of signal processing, image processing and pattern recognition, 2016, 9(7): 263–274. [18] ZHAO Rui, OUYANG Wanli, LI Hongsheng, et al. Saliency detection by multi-context deep learning[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1265–1274. [19] DAI Jifeng, HE Kaiming, LI Yi, et al. Instance-sensitive fully convolutional networks[J]. Computer science, 2016. [20] YANG Wei, OUYANG Wanli, LI Hongsheng, et al. Endto-end learning of deformable mixture of parts and deep convolutional neural networks for human pose estimation [C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 3073–3082. [21] HARIHARAN B, ARBELÁEZ P, GIRSHICK R, et al. Hypercolumns for object segmentation and fine-grained localization[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 447–456. [22] LEE G, TAI Y W, KIM J. Deep saliency with encoded low level distance map and high level features[C]//Pro- [23] ·1160· 智 能 系 统 学 报 第 14 卷
第6期 申凯,等:基于双向消息链路卷积网络的显著性物体检测 ·1161· ceedings of 2016 IEEE Conference on Computer Vision ual attention network for image classification[C]//Pro- and Pattern Recognition.Las Vegas,USA,2016: ceedings of 2017 IEEE Conference on Computer Vision 660-668. and Pattern Recognition.Honolulu,USA,2017:6450- [24]LIU Nian,HAN Junwei.DHSNet:deep hierarchical sali- 6458. ency network for salient object detection[C]//Proceedings [35]XU K,BA J,KIROS R,et al.Show,attend and tell:neur- of 2016 IEEE Conference on Computer Vision and Pat- al image caption generation with visual attention[J].Com- tern Recognition.Las Vegas,USA,2016:678-686. puter science,arXiv:1502.03044,2015 [25]XIAO Fen,DENG Wenzheng,PENG Liangchan,et al. [36]SIMONYAN K,VEDALDI A,ZISSERMAN A.Deep in- Multi-scale deep neural network for salient object detec- side convolutional networks:visualising image classifica- tion[J].IET image processing,2018,12(11):2036-2041. tion models and saliency maps[J].Computer science, [26]HOU Qibin,CHENG Mingming,HU Xiaowei,et al. 2013. Deeply supervised salient object detection with short con- [37]ZERIER M D,FERGUS R.Visualizing and understand- nections[C]//Proceedings of 2017 IEEE Conference on ing convolutional networks[J].Computer science,2013. Computer Vision and Pattern Recognition.Honolulu, [38]MAHENDRAN A,VEDALDI A.Understanding deep USA.2017:5300-5309 image representations by inverting them[C]//Proceedings [27]ZHANG Pingping,WANG Dong,LU Huchuan,et al. of 2015 IEEE Conference on Computer Vision and Pat- Amulet:aggregating multi-level convolutional features tern Recognition.Boston,USA,2015:5188-5196. for salient object detection[C]//Proceedings of 2017IEEE [39]WANG Lijun,OUYANG Wanli,WANG Xiaogang,et al. International Conference on Computer Vision.Venice, Visual tracking with fully convolutional networks[C]/Pro- Italy,.2017:202-211. ceedings of 2015 IEEE International Conference on Com- [28]JIN Xiaojie,CHEN Yunpeng,FENG Jiashi,et al.Multi- puter Vision.Santiago,Chile,2015:3119-3127. path feedback recurrent neural network for scene [40]ZHANG Pingping,WANG Dong,LU Huchuan,et al. parsing[J].Computer science,arXiv:1608.07706,2016. Learning uncertain convolutional features for accurate sa- [29]CHEN Long,ZHANG Hanwang,XIAO Jun,et al.SCA- liency detection[C]//Proceedings of 2017 IEEE Interna- CNN:spatial and channel-wise attention in convolutional tional Conference on Computer Vision.Venice,Italy, networks for image captioning[C]//Proceedings of 2017 2017:212-221. IEEE Conference on Computer Vision and Pattern Recog- [41]YANG Chuan,ZHANG Lihe,LU Huchuan,et al.Sali- nition.Honolulu.USA.2017:6298-6306. ency detection via graph-based manifold ranking[C]//Pro- [30]LONG J,SHELHAMER E,DARRELL T.Fully convolu- ceedings of 2013 IEEE Conference on Computer Vision tional networks for semantic segmentation[C]//Proceed- and Pattern Recognition.Portland,USA,2013:3166- ings of 2015 IEEE Conference on Computer Vision and 3173. Pattern Recognition.Boston,USA,2015:3431-3440 [42]LI Yin,HOU Xiaodi,KOCH C,et al.The secrets of sali- [31]YAN Qiong.XU Li,SHI Jianping,et al.Hierarchical sali- ent object segmentation[C]//Proceedings of 2014 IEEE ency detection[C]//Proceedings of 2013 IEEE Confer- Conference on Computer Vision and Pattern Recognition. ence on Computer Vision and Pattern Recognition.Port- Columbus,USA,2014:280-287. land,USA,2013:1155-1162 [43]EVERINGHAM M,VAN GOOL L,WILLIAMS C K I. [32]YANG Zichao,HE Xiaodong,GAO Jianfeng,et al. et al.The Pascal visual object classes (VOC)challenge[J]. Stacked attention networks for image question International journal of computer vision,2010,88(2): answering[C]//Proceedings of 2016 IEEE Conference on 303-338. Computer Vision and Pattern Recognition.Las Vegas, [44]GLOROT X,BENGIO Y.Understanding the difficulty of USA,2016:21-29. training deep feedforward neural networks[C]//Proceed- [33]XU Huijuan,SAENKO K.Ask,attend and answer:ex- ings of the 13th International Conference on Artificial In- ploring question-guided spatial attention for visual ques- telligence and Statistics.Sardinia,Italy,2010:249-256. tion answering[J].Computer science,arXiv:1511.05234, [45]TONG Na,LU Huchuan,RUAN Xiang,et al.Salient ob- 2015. ject detection via bootstrap learning[C]//Proceedings of [34]WANG Fei,JIANG Mengqing,QIAN Chen,et al.Resid- 2015 IEEE Conference on Computer Vision and Pattern
ceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 660–668. LIU Nian, HAN Junwei. DHSNet: deep hierarchical saliency network for salient object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 678–686. [24] XIAO Fen, DENG Wenzheng, PENG Liangchan, et al. Multi-scale deep neural network for salient object detection[J]. IET image processing, 2018, 12(11): 2036–2041. [25] HOU Qibin, CHENG Mingming, HU Xiaowei, et al. Deeply supervised salient object detection with short connections[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 5300–5309. [26] ZHANG Pingping, WANG Dong, LU Huchuan, et al. Amulet: aggregating multi-level convolutional features for salient object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 202–211. [27] JIN Xiaojie, CHEN Yunpeng, FENG Jiashi, et al. Multipath feedback recurrent neural network for scene parsing[J]. Computer science, arXiv: 1608.07706, 2016. [28] CHEN Long, ZHANG Hanwang, XIAO Jun, et al. SCACNN: spatial and channel-wise attention in convolutional networks for image captioning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 6298–6306. [29] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 3431–3440. [30] YAN Qiong, XU Li, SHI Jianping, et al. Hierarchical saliency detection[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 1155–1162. [31] YANG Zichao, HE Xiaodong, GAO Jianfeng, et al. Stacked attention networks for image question answering[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 21–29. [32] XU Huijuan, SAENKO K. Ask, attend and answer: exploring question-guided spatial attention for visual question answering[J]. Computer science, arXiv: 1511.05234, 2015. [33] [34] WANG Fei, JIANG Mengqing, QIAN Chen, et al. Residual attention network for image classification[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 6450– 6458. XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention[J]. Computer science, arXiv: 1502.03044, 2015. [35] SIMONYAN K, VEDALDI A, ZISSERMAN A. Deep inside convolutional networks: visualising image classification models and saliency maps[J]. Computer science, 2013. [36] ZERIER M D, FERGUS R. Visualizing and understanding convolutional networks[J]. Computer science, 2013. [37] MAHENDRAN A, VEDALDI A. Understanding deep image representations by inverting them[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 5188–5196. [38] WANG Lijun, OUYANG Wanli, WANG Xiaogang, et al. Visual tracking with fully convolutional networks[C]/Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 3119–3127. [39] ZHANG Pingping, WANG Dong, LU Huchuan, et al. Learning uncertain convolutional features for accurate saliency detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 212–221. [40] YANG Chuan, ZHANG Lihe, LU Huchuan, et al. Saliency detection via graph-based manifold ranking[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 3166– 3173. [41] LI Yin, HOU Xiaodi, KOCH C, et al. The secrets of salient object segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 280–287. [42] EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al. The Pascal visual object classes (VOC) challenge[J]. International journal of computer vision, 2010, 88(2): 303–338. [43] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proceedings of the 13th International Conference on Artificial Intelligence and Statistics. Sardinia, Italy, 2010: 249–256. [44] TONG Na, LU Huchuan, RUAN Xiang, et al. Salient object detection via bootstrap learning[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern [45] 第 6 期 申凯,等:基于双向消息链路卷积网络的显著性物体检测 ·1161·