第13卷第2期 智能系统学报 Vol.13 No.2 2018年4月 CAAI Transactions on Intelligent Systems Apr.2018 D0:10.11992/tis.201706043 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20171109.1255.020html 面向社群图像的显著区域检测方法 梁晔2,于剑2 (1.北京联合大学机器人学院,北京100101;2.北京交通大学计算机与信息技术学院,北京100044) 摘要:网络技术和社交网站的发展带来了社群图像的飞速增长。海量的社群图像成为了非常重要的图像类 型。本文关注社群图像的显著区域检测问题,提出基于深度特征的显著区域检测方法。针对社群图像带有标 签的特点,在系统框架中,本文采取两条提取线:基于CNN特征的显著性计算和基于标签的语义计算,二者的 结果进行融合。最后,通过全连接的条件随机场模型对融合的显著图进行空间一致性优化。此外,为了验证面 向社群图像的显著区域检测方法的性能,针对目前没有面向社群图像的带有标签信息的显著性数据集,基于 NUS-WIDE数据集,本文构建了一个图像结构丰富的社群图像数据集。大量的实验证明了所提方法的有效性。 关键词:显著性:显著区域;社群图像;深度学习:标签 中图分类号:TP311 文献标志码:A文章编号:1673-4785(2018)02-0174-08 中文引用格式:梁晔,于剑.面向社群图像的显著区域检测方法J.智能系统学报,2018,13(2):174-181. 英文引用格式:LIANG Ye,YU Jian.Salient region detection for social images..CAAI transactions on intelligent systems,2018, 13(2):174-181. Salient region detection for social images LIANG Ye2,YU Jian? (1.College of Robotics,Beijing Union University,Beijing 100101,China;2.School of Computer and Information Technology, Beijing Jiaotong University,Beijing 100044,China) Abstract:The development of network technology and social website has brought about the rapid growth of social im- ages.Massive social images have become a very important image type.This paper focuses on the detection problem of salient region for social images,a method for detecting salient region and based on depth features was proposed.By con- sidering the feature that the social image is attached with tag,in the framework of the system,the paper used two extrac- tion lines:the saliency computing based on CNN features and the semantic computing based on tag,the results of both parts were fused.Finally,saliency maps were optimized by a fully connected conditional random field model for the spatial consistency.In addition,for verifying the performances of the saliency region detection method orienting social image,in view of the lack of saliency dataset with tags for social images,on basis of NUS-WIDE dataset,the paper con- structed a social image dataset with rich image structures.Extensive experiments demonstrated the effectiveness of the proposed method. Keywords:saliency;salient region;social images;deep learning;tag 近年来,随着互联网和信息行业的发展,全球 和社交网站的流行导致了社交图像爆炸式地增 已经进入了大数据时代。同时,数码设备的普及 长,已经成为了一种重要的图像类型。Yahoo的 社群图像分享网站Flickr、社交媒体网站Face- 收稿日期:2017-06-11.网络出版日期:2017-11-09. 基金项目:北京市自然科学基金项目(4182022):北京联合大学 book、Google的社交视频分享网站、Youtube都是 2017年度人才强校百杰计划项目(BPHR20I7CZ10): “十三五”时期北京市属高校高水平教师队伍建设支 目前最具有代表性的社交网站。以Flickr为例, 持计划项目DHT201705I1:国家科技支撑计划项目(20I5 BAH55F03) 每分钟上传到网站上的图像超过两千张,每天上 通信作者:梁晔.E-mail:liangye@buu.edu.cn. 传到网站上的图像超过两百万张。据统计,社交
DOI: 10.11992/tis.201706043 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20171109.1255.020.html 面向社群图像的显著区域检测方法 梁晔1,2,于剑2 (1. 北京联合大学 机器人学院,北京 100101; 2. 北京交通大学 计算机与信息技术学院,北京 100044) 摘 要:网络技术和社交网站的发展带来了社群图像的飞速增长。海量的社群图像成为了非常重要的图像类 型。本文关注社群图像的显著区域检测问题,提出基于深度特征的显著区域检测方法。针对社群图像带有标 签的特点,在系统框架中,本文采取两条提取线:基于 CNN 特征的显著性计算和基于标签的语义计算,二者的 结果进行融合。最后,通过全连接的条件随机场模型对融合的显著图进行空间一致性优化。此外,为了验证面 向社群图像的显著区域检测方法的性能,针对目前没有面向社群图像的带有标签信息的显著性数据集,基于 NUS-WIDE 数据集,本文构建了一个图像结构丰富的社群图像数据集。大量的实验证明了所提方法的有效性。 关键词:显著性;显著区域;社群图像;深度学习;标签 中图分类号:TP311 文献标志码:A 文章编号:1673−4785(2018)02−0174−08 中文引用格式:梁晔, 于剑. 面向社群图像的显著区域检测方法 [J]. 智能系统学报, 2018, 13(2): 174–181. 英文引用格式:LIANG Ye, YU Jian. Salient region detection for social images[J]. CAAI transactions on intelligent systems, 2018, 13(2): 174–181. Salient region detection for social images LIANG Ye1,2 ,YU Jian2 (1. College of Robotics, Beijing Union University, Beijing 100101, China; 2. School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China) Abstract: The development of network technology and social website has brought about the rapid growth of social images. Massive social images have become a very important image type. This paper focuses on the detection problem of salient region for social images, a method for detecting salient region and based on depth features was proposed. By considering the feature that the social image is attached with tag, in the framework of the system, the paper used two extraction lines: the saliency computing based on CNN features and the semantic computing based on tag, the results of both parts were fused. Finally, saliency maps were optimized by a fully connected conditional random field model for the spatial consistency. In addition, for verifying the performances of the saliency region detection method orienting social image, in view of the lack of saliency dataset with tags for social images, on basis of NUS-WIDE dataset, the paper constructed a social image dataset with rich image structures. Extensive experiments demonstrated the effectiveness of the proposed method. Keywords: saliency; salient region; social images; deep learning; tag 近年来,随着互联网和信息行业的发展,全球 已经进入了大数据时代。同时,数码设备的普及 和社交网站的流行导致了社交图像爆炸式地增 长,已经成为了一种重要的图像类型。Yahoo 的 社群图像分享网站 Flickr、社交媒体网站 Facebook、Google 的社交视频分享网站、Youtube 都是 目前最具有代表性的社交网站。以 Flickr 为例, 每分钟上传到网站上的图像超过两千张,每天上 传到网站上的图像超过两百万张。据统计,社交 收稿日期:2017−06−11. 网络出版日期:2017−11−09. 基金项目:北京市自然科学基金项目 (4182022);北京联合大学 2017 年度人才强校百杰计划项目 (BPHR2017CZ10); “十三五”时期北京市属高校高水平教师队伍建设支 持计划项目 (IDHT20170511);国家科技支撑计划项目 (2015 BAH55F03) 通信作者:梁晔. E-mail: liangye@buu.edu.cn.. 第 13 卷第 2 期 智 能 系 统 学 报 Vol.13 No.2 2018 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2018
第2期 梁晔,等:面向社群图像的显著区域检测方法 ·175· 网站Facebook平均每天新增图像数量超过1亿 小不一的现象。但是这些工作仍然存在缺陷,在 张,其总数量已经超过1O00亿张;Flick灯r图像总量 计算显著性时采用的特征仍是人工设计的特征, 超过了60亿张;图像分享移动应用Instagram图 并且划分层次的数量也很难有科学的解释。 像数量超过10亿张。然而,相对于海量的图像数 随着研究的深入,研究人员将深度体系结构 据,计算资源是有限的,如何对海量的图像进行 应用到显著区域检测中。文献[4]通过无监督的 有效的管理成了亟待解决的问题。显著性检测的 方法学习多个中层的滤波器集合进行局部的显著 相关研究和应用山带来了很好的解决方案。显著 性检测,并且和卷积网络得到的中层检测结果进 性检测就是让计算机模拟人类的视觉注意力机 行融合。文献[5]采用卷积神经网络得到图像的 制,对处理的图像进行自动信息筛选,将有限的 多尺度特征,包括局部区域块、它的邻域区域块 资源分配给重要信息,提高处理速度,提升资源 和整幅图像,进行显著区域的检测。文献[6]训 利用率。显著性检测是多学科交叉的研究领域, 练了两个深度卷积网络:一个用于检测局部显著 涉及心理学、神经科学、生物视觉和计算机视觉 图,另一个用于检测全局显著图,然后将两种显 等相关领域,有重要的理论价值和实际应用意 著图进行融合。文献[7]采用全局上下文信息和 义,是目前研究的热点。 局部区域信息相融合的方法实现显著区域检测。 本文关注社群图像的显著区域检测问题,目 深度学习除了具有层次结构之外,还能自动学习 前对此领域的研究不多,主要贡献有: 特征,学习到的特征明显优于人工设计的特征, 1)提出了基于深度学习的显著区域检测方 正因如此,基于深度学习的方法已经在显著区域 法。该方法针对社群图像带有标签的特点,采取 检测中取得了明显的效果。当然,基于深度学习 两条提取线:基于CNN特征的显著性计算和基于 的检测方法具有深度学习固有的缺点,比如网络 标签的语义计算。较目前流行的检测方法,本文 结构尚且无法做出合理的解释、参数众多调节费 的检测精度有一定的提升。 时等缺点。 2)构建了面向社群图像的带有标签信息的显 1.2基于标签语义进行显著区域提取 著性数据集,新建数据集来自于NUS-WIDE数据 标签的语义虽然在图像标注领域已经得到了 集中的多个类,包含多个标签、图像前景和背景 广泛应用,但是,标签信息通常和显著区域检测 差异性小,为面向社群图像的显著区域检测方法 任务分开处理,在显著区域检测上的应用不多。 提供了新的实验数据。 和本文工作最相关的是文献[8]和文献[9]: 均用到了标签信息。文献[8]将标签排序任务和 1相关工作 显著区域检测任务整合在一起,迭代地进行标签 排序和显著区域的检测任务;文献[9]提出Tag 在显著性快速发展的几十年里,涌现了大量 Saliency模型,通过基于层次的过分割和自动标 的显著区域检测方法。随着GPU等硬件资源的 注技术进行标注。这两个工作的共同缺点是显著 发展和大规模训练图像集的涌现,基于深度神经 区域标注效果依赖于区域标注,采用的多示例学 网络的显著区域提取近年来受到广泛的关注。深 习方法不容易泛化;而且,二者均没有考虑标签 度学习可以从大数据中自动学习特征的表示,学 之间的上下文关系。本文的工作和这两篇文献不 习得到的特征能够刻画问题内部本质结构,检测 同,是把标签的语义信息转化为RCNN特征。由 结果比基于人工设计特征的提取方法有较大的提 于RCNN技术是基于卷积神经网络的.所以本文 高。伴随着显著区域检测方法的研究,也涌现了 的方法更能改善检测性能。 多个显著性数据集。就目前的研究现状来看,面 13显著性数据集 向社群图像的显著区域检测方法目前的研究不多。 从关于显著性数据集的相关文献来看,显著 1.1基于层次和深度结构的显著区域检测 性数据集主要来自于两个领域:为了显著性研究 已有的研究显示了层次和深度体系结构对显 而建立的数据集3,10:从图像分割领域延伸过 著区域检测建模有重要的作用。文献[2]提出了 来的显著性数据集3。这些数据集有的以矩形 层次结构进行显著区域检测,减少了小尺寸显著 框方式进行显著区域标注,更多的是以像素级进 区域对检测结果的影响。文献[3]在检测显著区 行显著区域的标注,还有的通过眼动仪进行视点 域之前将图像进行了多尺度分割,形成层次结 的标注。然而随着社群图像的快速增加,日前针 构,取得了较好的检测效果。多层次显著性检测 对社群图像的带有标签信息的显著性数据集研究 的优点是考虑了图像多尺度的特点,解决了单一 不多,本文针对此问题构建面向社群图像的显著 分割的局限性,从一定程度上考虑了显著区域大 性数据集
网站 Facebook 平均每天新增图像数量超过 1 亿 张,其总数量已经超过1 000 亿张;Flickr 图像总量 超过了 60 亿张;图像分享移动应用 Instagram 图 像数量超过 10 亿张。然而,相对于海量的图像数 据,计算资源是有限的,如何对海量的图像进行 有效的管理成了亟待解决的问题。显著性检测的 相关研究和应用[1] 带来了很好的解决方案。显著 性检测就是让计算机模拟人类的视觉注意力机 制,对处理的图像进行自动信息筛选,将有限的 资源分配给重要信息,提高处理速度,提升资源 利用率。显著性检测是多学科交叉的研究领域, 涉及心理学、神经科学、生物视觉和计算机视觉 等相关领域,有重要的理论价值和实际应用意 义,是目前研究的热点。 本文关注社群图像的显著区域检测问题,目 前对此领域的研究不多,主要贡献有: 1) 提出了基于深度学习的显著区域检测方 法。该方法针对社群图像带有标签的特点,采取 两条提取线:基于 CNN 特征的显著性计算和基于 标签的语义计算。较目前流行的检测方法,本文 的检测精度有一定的提升。 2) 构建了面向社群图像的带有标签信息的显 著性数据集,新建数据集来自于 NUS-WIDE 数据 集中的多个类,包含多个标签、图像前景和背景 差异性小,为面向社群图像的显著区域检测方法 提供了新的实验数据。 1 相关工作 在显著性快速发展的几十年里,涌现了大量 的显著区域检测方法。随着 GPU 等硬件资源的 发展和大规模训练图像集的涌现,基于深度神经 网络的显著区域提取近年来受到广泛的关注。深 度学习可以从大数据中自动学习特征的表示,学 习得到的特征能够刻画问题内部本质结构,检测 结果比基于人工设计特征的提取方法有较大的提 高。伴随着显著区域检测方法的研究,也涌现了 多个显著性数据集。就目前的研究现状来看,面 向社群图像的显著区域检测方法目前的研究不多。 1.1 基于层次和深度结构的显著区域检测 已有的研究显示了层次和深度体系结构对显 著区域检测建模有重要的作用。文献 [2] 提出了 层次结构进行显著区域检测,减少了小尺寸显著 区域对检测结果的影响。文献 [3] 在检测显著区 域之前将图像进行了多尺度分割,形成层次结 构,取得了较好的检测效果。多层次显著性检测 的优点是考虑了图像多尺度的特点,解决了单一 分割的局限性,从一定程度上考虑了显著区域大 小不一的现象。但是这些工作仍然存在缺陷,在 计算显著性时采用的特征仍是人工设计的特征, 并且划分层次的数量也很难有科学的解释。 随着研究的深入,研究人员将深度体系结构 应用到显著区域检测中。文献 [4] 通过无监督的 方法学习多个中层的滤波器集合进行局部的显著 性检测,并且和卷积网络得到的中层检测结果进 行融合。文献 [5] 采用卷积神经网络得到图像的 多尺度特征,包括局部区域块、它的邻域区域块 和整幅图像,进行显著区域的检测。文献 [6] 训 练了两个深度卷积网络:一个用于检测局部显著 图,另一个用于检测全局显著图,然后将两种显 著图进行融合。文献 [7] 采用全局上下文信息和 局部区域信息相融合的方法实现显著区域检测。 深度学习除了具有层次结构之外,还能自动学习 特征,学习到的特征明显优于人工设计的特征, 正因如此,基于深度学习的方法已经在显著区域 检测中取得了明显的效果。当然,基于深度学习 的检测方法具有深度学习固有的缺点,比如网络 结构尚且无法做出合理的解释、参数众多调节费 时等缺点。 1.2 基于标签语义进行显著区域提取 标签的语义虽然在图像标注领域已经得到了 广泛应用,但是,标签信息通常和显著区域检测 任务分开处理,在显著区域检测上的应用不多。 和本文工作最相关的是文献 [8] 和文献 [9], 均用到了标签信息。文献 [8] 将标签排序任务和 显著区域检测任务整合在一起,迭代地进行标签 排序和显著区域的检测任务;文献 [9] 提出 TagSaliency 模型,通过基于层次的过分割和自动标 注技术进行标注。这两个工作的共同缺点是显著 区域标注效果依赖于区域标注,采用的多示例学 习方法不容易泛化;而且,二者均没有考虑标签 之间的上下文关系。本文的工作和这两篇文献不 同,是把标签的语义信息转化为 RCNN 特征。由 于 RCNN 技术是基于卷积神经网络的,所以本文 的方法更能改善检测性能。 1.3 显著性数据集 从关于显著性数据集的相关文献来看,显著 性数据集主要来自于两个领域:为了显著性研究 而建立的数据集[2-3, 10-12] ;从图像分割领域延伸过 来的显著性数据集[13-14]。这些数据集有的以矩形 框方式进行显著区域标注,更多的是以像素级进 行显著区域的标注,还有的通过眼动仪进行视点 的标注。然而随着社群图像的快速增加,目前针 对社群图像的带有标签信息的显著性数据集研究 不多,本文针对此问题构建面向社群图像的显著 性数据集。 第 2 期 梁晔,等:面向社群图像的显著区域检测方法 ·175·
·176· 智能系统学报 第13卷 2基于深度学习的显著区域检测 特征自动学习的特征均包含4096个元素;第1层 全连接层和第2层全连接层后均通过修正线性单 2.1方法流程 元ReLU(rectified linear units)进行非线性映射。 本文提出的基于深度学习的显著区域检测方 修正线性单元ReLU对每个元素进行如下操作: 法针对社群图像带有标签的特点,系统框架中采 R(x)=max(0.x) (1) 取两条提取线:基于CNN特征的显著性计算和基 式中1≤i≤4096。 于标签的语义计算,并将二者的结果进行融合 在输出层采用softmax回归模型得出图像块 融合的显著图通过全连接的CRF模型进行一致 是否显著的概率。 性空间优化,获得最终显著图。主要处理流程如 2.2.2网络训练与测试 图1所示。 采用公开的Caffe16框架,利用研究工作 基于深度特征的显著区域检测 的网络参数进行初始化,然后利用来自目标数据 基于CNN特征的显着性计算 集的图像对参数进行微调。 用 在图像中,显著区域具有独特性、稀缺性,和 空间一致性 person标签语义计算 邻域具有明显差异的特点。受文献[5]启发,为 优化 grass 了有效地计算显著性,本文考虑了3种图像区域 块间的差异:图像块和邻域的差异;图像块和图 像边界的差异;图像块和整幅图像的差异。在利 图1系统流程图 Fig.1 System flow chart 用卷积神经网络特征提取时,提取了4种区域的 特征:1)采样的矩形区域;2)矩形区域的邻接区 在处理流程中,要解决的重点问题是如何提 域;3)图像的边界区域;4)图像中去除矩形区域 取图像的CNN特征、如何计算标签的语义特征。 的剩余区域。4种区域的示例图如图3所示。 2.2基于CNN特征的显著性计算 2.2.1网络结构 负责CNN特征提取的深度网络采用Hin- ton的学生Alex Krizhevsky在2012年ILSVRC竞 赛中的8层卷积神经网络1,包括5个卷积层、 (a)示例 b)示例二 2个全连接层和1个输出层。网络结构如图2所 示。网络的最下面为检测的图像,图像的上面表 示要提取特征的区域。 输阳 (c)示例三 (d)示例四 图34种区域示例图 Fc 6 Fig.3 Four regional cases 图3(a)中的黑色区域代表当前区域:图3b) Conv 5 中的白色区域代表黑色区域的相邻区域;图3(©) Conv 2 onv Cony 2 中的白色区域代表图像的边界区域:图3(d)中的 个 白色色区域代表去掉黑色区域后的剩余区域。 Conv 1 对训练集中的每幅图像,采用滑动窗口方式 进行采样,采样为51×51的区域块,采样步幅为 10像素,得到用于网络训练的区域块,并采用和 文献[4]相同的标注方法对采样区域块进行标 注。如果图像块中至少70%的像素在基准二值 标注中为显著,则这个图像块被标注为显著,否 0 则标注为不显著。 图2网络结构 利用这种标注策略,获得训练区域块的集合 Fig.2 Network structure {B}及其相应的显著标签。在微调过程中,采用 5个卷积层负责多尺度特征的提取,为了实 权重衰减作为softmax回归模型的正则项,损失 现平移不变性,卷积层后面采用最大池化操作; 函数的定义如式(2):
2 基于深度学习的显著区域检测 2.1 方法流程 本文提出的基于深度学习的显著区域检测方 法针对社群图像带有标签的特点,系统框架中采 取两条提取线:基于 CNN 特征的显著性计算和基 于标签的语义计算,并将二者的结果进行融合, 融合的显著图通过全连接的 CRF 模型进行一致 性空间优化,获得最终显著图。主要处理流程如 图 1 所示。 ⾦䬠̬㜠ᕓ ᴳオ䄙͵䃍ッ фࡂ ദκCNN➥ᒭ⮰᭪㦃ᕓ䃍ッ ദκ⌝Ꮢ➥ᒭ⮰᭪㦃ࡦഋᷬ≷ person grass person grass 图 1 系统流程图 Fig. 1 System flow chart 在处理流程中,要解决的重点问题是如何提 取图像的 CNN 特征、如何计算标签的语义特征。 2.2 基于 CNN 特征的显著性计算 2.2.1 网络结构 负责 CNN 特征提取的深度网络采用 Hinton 的学生 Alex Krizhevsky 在 2012 年 ILSVRC 竞 赛中的 8 层卷积神经网络[15] ,包括 5 个卷积层、 2 个全连接层和 1 个输出层。网络结构如图 2 所 示。网络的最下面为检测的图像,图像的上面表 示要提取特征的区域。 Conv_1 Conv_1 Conv_1 Conv_1 Conv_2 Conv_5 Conv_5 Conv_5 Conv_5 Conv_2 Conv_2 Conv_2 …… …… Fc_6…… …… ܦ䒿 Fc_6 Fc_6 Fc_6 Fc_7 Fc_7 Fc_7 Fc_7 图 2 网络结构 Fig. 2 Network structure 5 个卷积层负责多尺度特征的提取,为了实 现平移不变性,卷积层后面采用最大池化操作; 特征自动学习的特征均包含 4 096 个元素;第 1 层 全连接层和第 2 层全连接层后均通过修正线性单 元 ReLU(rectified linear units) 进行非线性映射。 修正线性单元 ReLU[15] 对每个元素进行如下操作: R(x i ) = max(0, x i ) (1) 式中 1 ⩽ i ⩽ 4 096。 在输出层采用 softmax 回归模型得出图像块 是否显著的概率。 2.2.2 网络训练与测试 采用公开的 Caffe[16] 框架,利用研究工作[15] 的网络参数进行初始化,然后利用来自目标数据 集的图像对参数进行微调。 在图像中,显著区域具有独特性、稀缺性,和 邻域具有明显差异的特点。受文献 [5] 启发,为 了有效地计算显著性,本文考虑了 3 种图像区域 块间的差异:图像块和邻域的差异;图像块和图 像边界的差异;图像块和整幅图像的差异。在利 用卷积神经网络特征提取时,提取了 4 种区域的 特征:1) 采样的矩形区域;2) 矩形区域的邻接区 域;3) 图像的边界区域;4) 图像中去除矩形区域 的剩余区域。4 种区域的示例图如图 3 所示。 (a) ҷ̬ (b) ҷθ (c) ҷ̵ (d) ҷఇ 图 3 4 种区域示例图 Fig. 3 Four regional cases 图 3(a) 中的黑色区域代表当前区域;图 3(b) 中的白色区域代表黑色区域的相邻区域;图 3(c) 中的白色区域代表图像的边界区域;图 3(d) 中的 白色色区域代表去掉黑色区域后的剩余区域。 对训练集中的每幅图像,采用滑动窗口方式 进行采样,采样为 51×51 的区域块,采样步幅为 10 像素,得到用于网络训练的区域块,并采用和 文献 [4] 相同的标注方法对采样区域块进行标 注。如果图像块中至少 70% 的像素在基准二值 标注中为显著,则这个图像块被标注为显著,否 则标注为不显著。 {Bi} {li} 利用这种标注策略,获得训练区域块的集合 及其相应的显著标签 。在微调过程中,采用 权重衰减作为 softmax 回归模型的正则项,损失 函数的定义如式 (2): ·176· 智 能 系 统 学 报 第 13 卷
第2期 梁晔,等:面向社群图像的显著区域检测方法 ·177· 2.5空间一致性优化 L(0= 2==网+ m ∑w 在图像分割领域,研究人员采用全连接的CRF (2) 模型对分割结果进行分割区域和边缘的平滑。借 式中:是可学习的参数,包括卷积神经网路各层 鉴文献[20]中的解决方法,本文采用全连接的 的权重和偏置;1是符号函数;P亿,=j0表示区域 CRF模型对显著图进行空间一致性优化。 预测为显著区域的概率;A是权重衰减参数;w代 能量函数定义如式(4): 表第k层的权重。卷积神经网络通过随机下降的 SU=-∑1ogP)+∑8,+月 (4) 方法进行训练。 在测试的时候,通过卷积神经网络提取图像 L具有两个值,显著为1,不显著为0。P()代 区域相关的4种特征,然后通过训练好的模型预 表像素x具有标签1,的概率,初始化时,P(1)=S。PO)= 测各个区域为显著区域的概率。 1-SoS,是像素融合后的显著值。 2.3基于标签的语义特征计算 0定义如下: 图像的标签可以分为两大类:场景标签和对 象标签。对象为图像中显著区域的可能性非常大。 a.=u.itor exp 2σ 20+ (5) 基于此,在基于标签的语义计算中关注对象标签。 hexp(-B-P)】 估计一个区域属于特定对象的概率从一定程 203 度上反映出此区域为显著区域的可能性。因此, 当l,≠1时,l.)=1,否则为0。 区域属于特定对象的概率可看作显著性的先验知识。 考虑了两方面的信息:位置信息和颜色信 RCNN技术是一种简单、可扩展的对象检测 息。exp(- P:-pll 方法,基于卷积神经网络的,在图像分类、对象检 -1)表明相近的像素 2w3 测和图像分割等领域取得了优异的性能。本文采 且具有相似的颜色,应该具有相近的显著值。 用RCNN技术检测区域属于对象的概率。 w2 exp(- D-p)只考虑位置信息,目的在于 2σ3 标签语义特征计算的主要思路为利用RCNN 移除小的孤立区域。 抽取的特征计算每个像素的语义特征。 假设有X个对象检测子,对于第k个对象检 3带有标签信息的显著性数据集构建 测子,具体计算过程如下。 1)选取最可能包含特定对象的N个矩形框; 3.1图像来源 2)第1个矩形框包含特定对象的概率为p, 本文从NUS-WIDE数据集采用如下筛选条件 1≤k≤X,1≤i≤N。区域内的每个像素和包含它 进行图像的筛选。 的矩形框区域具有相同的概率值。 1)显著区域和整幅图像的颜色对比度小于0.7; 2)显著区域尺寸丰富,要求占整幅图像的比 3)第k个对象检测子检测完毕后,图像中的 例覆盖10个等级,[0,0.1)、[0.1,0.2)、[0.2,0.3)、 像素包含检测子对象的可能性∑×如果像素 [0.3,0.4)、[0.4,0.5)、[0.5,0.6)、[0.6,0.7)、[0.7,0.8) 被包含在第i个矩形框里,则f=1,否则f=0。 [0.8,0.9)、[0.9,1]: X个对象检测子都检测完毕后,每个像素得 3)至少有10%的图像中的显著区域和图像 到X维特征。X维特征归一化后表示为∫, 边界相连。 fER。f的每一维代表像素属于每一类特定对象 最终确定5429幅图像作为数据集,来自于 的概率。 38个文件夹,包括carvings、castle、cat、cell_phones 计算得到的基于标签的语义特征用于辅助显 chairs、chrysanthemums、classroom、cliff、computers、. 著性的计算。 cooling_.tower、coral、.cordless cougar、courthouse、 2.4显著图和标签语义图的融合 cow、coyote、dance、dancing、deer、den、desert、de- 假设基于CNN特征的显著图为So,基于RCNN tail、diver、dock、close--up、cloverleaf、cubs、dall, 技术检测到的标签语义为T,二者融合如下。 dog、dogs、fish、flag、eagle、elephant、elk、f-l6 S=Sp-exp(T) (3) facade、fawn 式中S表示融合后的显著图。 3.2图像标注 在融合过程中,标签语义相当于先验,对显著 矩形框级别的标注不能准确地定位对象边 值起到加权的作用。 缘,标注结果不精确。本文采用像素级别的二值
L(θ) = − 1 m ∑m i=1 ∑1 j=0 l{li = j}logP(li = j|θ)+λ ∑8 k=1 Wk 2 F (2) θ l{·} P(li = j|θ) i λ Wk k 式中: 是可学习的参数,包括卷积神经网路各层 的权重和偏置; 是符号函数; 表示区域 预测为显著区域的概率; 是权重衰减参数; 代 表第 层的权重。卷积神经网络通过随机下降的 方法进行训练。 在测试的时候,通过卷积神经网络提取图像 区域相关的 4 种特征,然后通过训练好的模型预 测各个区域为显著区域的概率。 2.3 基于标签的语义特征计算 图像的标签可以分为两大类:场景标签和对 象标签。对象为图像中显著区域的可能性非常大。 基于此,在基于标签的语义计算中关注对象标签。 估计一个区域属于特定对象的概率从一定程 度上反映出此区域为显著区域的可能性。因此, 区域属于特定对象的概率可看作显著性的先验知识。 RCNN 技术是一种简单、可扩展的对象检测 方法,基于卷积神经网络的,在图像分类、对象检 测和图像分割等领域取得了优异的性能。本文采 用 RCNN[17]技术检测区域属于对象的概率。 标签语义特征计算的主要思路为利用 RCNN 抽取的特征计算每个像素的语义特征。 假设有 X 个对象检测子,对于第 k 个对象检 测子,具体计算过程如下。 1) 选取最可能包含特定对象的 N 个矩形框; p i k 1 ⩽ k ⩽ X 1 ⩽ i ⩽ N p i k 2) 第 i 个矩形框包含特定对象的概率为 , , 。区域内的每个像素和包含它 的矩形框区域具有相同的概率值 。 ∑N i=1 p i k × f i k f i k = 1 f i k = 0 3) 第 k 个对象检测子检测完毕后,图像中的 像素包含检测子对象的可能性 ,如果像素 被包含在第 i 个矩形框里,则 ,否则 。 f f ∈ R X f X 个对象检测子都检测完毕后,每个像素得 到 X 维特征。 X 维特征归一化后表示为 , 。 的每一维代表像素属于每一类特定对象 的概率。 计算得到的基于标签的语义特征用于辅助显 著性的计算。 2.4 显著图和标签语义图的融合 假设基于 CNN 特征的显著图为 SD,基于 RCNN 技术检测到的标签语义为 T,二者融合如下。 S = SD · exp(T) (3) 式中 S 表示融合后的显著图。 在融合过程中,标签语义相当于先验,对显著 值起到加权的作用。 2.5 空间一致性优化 在图像分割领域,研究人员采用全连接的 CRF 模型对分割结果进行分割区域和边缘的平滑。借 鉴文献 [20] 中的解决方法,本文采用全连接的 CRF 模型对显著图进行空间一致性优化。 能量函数定义如式 (4): S (L) = − ∑ i logP(li)+ ∑ i, j θi j(li +lj) (4) L P(li) xi li P(1) = S i 1−S i S i i 具有两个值,显著为 1,不显著为 0。 代 表像素 具有标签 的概率,初始化时, ,P(0) = 。 是像素 融合后的显著值。 θi, j 定义如下: θi, j = u(li ,lj)[ω1 exp(− pi − pj 2 2σ 2 1 − Ii − Ij 2 2σ 2 2 )+ ω2 exp(− pi − pj 2 2σ 2 3 )] (5) li , lj u(li ,l 当 时, j) = 1 ,否则为 0。 θi, j ω1 exp(− pi − pj 2 2σ 2 1 − Ii − Ij 2 2σ 2 2 ) 考虑了两方面的信息:位置信息和颜色信 息。 表明相近的像素 且具有相似的颜色,应该具有相近的显著值。 ω2 exp(− pi − pj 2 2σ 2 3 ) 只考虑位置信息,目的在于 移除小的孤立区域。 3 带有标签信息的显著性数据集构建 3.1 图像来源 本文从 NUS-WIDE 数据集采用如下筛选条件 进行图像的筛选。 1) 显著区域和整幅图像的颜色对比度小于 0.7; 2) 显著区域尺寸丰富,要求占整幅图像的比 例覆盖 10 个等级,[0, 0.1)、[0.1, 0.2)、[0.2, 0.3)、 [0.3, 0.4)、[0.4, 0.5)、[0.5, 0.6)、[0.6, 0.7)、[0.7, 0.8)、 [0.8, 0.9)、[0.9, 1]; 3) 至少有 10% 的图像中的显著区域和图像 边界相连。 最终确定 5 429 幅图像作为数据集,来自于 38 个文件夹,包括 carvings、castle、cat、cell_phones、 chairs、chrysanthemums、classroom、cliff、computers、 cooling_tower、coral、cordless cougar、courthouse、 cow、coyote、dance、dancing、deer、den、desert、detail、diver、dock、close-up、cloverleaf、cubs、dall, dog、dogs、fish、flag、eagle、elephant、elk、f-16、 facade、fawn。 3.2 图像标注 矩形框级别的标注不能准确地定位对象边 缘,标注结果不精确。本文采用像素级别的二值 第 2 期 梁晔,等:面向社群图像的显著区域检测方法 ·177·
·178· 智能系统学报 第13卷 标注。 4.2与流行方法的比较 选取了5个观察者进行标注。不同用户标注 与27种流行方法比较,实验结果如表1和图 结果通常存在不一致的现象。为了减少标注的不 4、5所示。 一致性,计算每个像素标注的一致性分值。 表1本文方法与27种流行方法的比较 a Table 1 Compare with 27 popular methods (6) 方法 F measure AUC MAE 式中:a表示第p个观察者对像素x的标注,如 CBRI 0.5472 0.7971 0.2662 果像素x标注为显著,则aP=1,否则a=0:N为 SEGR2 0.4917 0.7588 0.3592 观察者的个数;5为显著阈值。根据文献[13],如 SVOR4I 0.3498 0.8361 0.4090 果一个像素有50%的观测者都标注为显著,则认 SFl26] 0.3659 0.7541 0.2077 为显著。 CAI28] 0.5161 0.8287 0.2778 最后,两个观察者使用Adobe Photoshop手动 TDI30 0.5432 0.8081 0.2333 从图像中分割出显著区域。 Ss129 0.2516 0.6714 0.2499 3.3数据集的标签信息 HSR 0.5576 0.7883 0.2747 NUS-WIDE数据集提供了81个基准标签 DRFIB 0.5897 0.8623 0.2063 集。新构建的数据集标签来自于81个基准标签 HMB33) 0.4892 0.7945 0.2263 集,共78个标签。每幅图像包含1~9个标签。 BDI38] 0.5443 0.8185 0.1955 4实验 BLIis 0.5823 0.8562 0.2660 MRB51 0.5084 0.7753 0.2290 4.1实验设置 PCA I21 0.5392 0.8439 0.2778 以本文构建的数据集为实验对象,选择20个 FTlq 0.3559 0.6126 0.2808 对象标签,包括bear、birds、boats、buildings、cars、cat、 RCR3 0.5307 0.8105 0.3128 computer、coral、cow、dog、elk、fish、flowers、fox、 LRRI25] 0.5124 0.7956 0.3067 horses、person、plane、tiger、train、zebra;选取和对 GSRn 象标签相对应的20个对象检测子进行RCNN特 0.5164 0.8136 0.2056 征提取,选取2000个包含对象概率最大的矩形框。 SMDB7 0.6033 0.8437 0.1976 采用Caf框架进行深度卷积神经网络的 GCl34 0.5063 0.7511 0.2596 训练和测试。通过随机下降方法进行训练,每次 DSRB阿 0.5035 0.8139 0.2105 迭代参与的样本数量(batch)为256;冲量值(momen- MCl的 0.5740 0.8427 0.2287 tum)为0.9;正则化项的权重为0.0005;学习率初 SBEB37 0.4930 0.8480 0.2325 始值为0.01,当损失稳定的时候学习率以0.1的速 LEGS16 0.6124 0.8193 0.1844 度下降;对每层的输出采用比率为0.5的drop MCDLI 0.6559 0.8813 0.1457 out操作来防止过拟合;训练迭代次数为80次。 RFCN 0.6768 0.8803 0.1476 实验对比了27种流行的显著区域检测方法 SMDFI5) 0.6574 0.8483 0.1556 包括HSII、DRFI31、SMDFISI、LEGSI6I、MCDLI DBS 0.6621 0.8917 0.1505 FTI、BLII、RFCNUS1、CB2、SEG2I、RCI SVO2、LRR1、SF26、GS2m、CA2I、SS2、TDB0 表1中,F measure、AUC和MAE排在前3位 MRI、PCA2I、HMIB、GCB、MCB1、DSRI6、 的为4种目前流行的深度学习方法SMDF、LEGS、 SBF7、BDB和SMDB7。这些检测方法涵盖范围 MCDLII、RFCN9和本文的DBS方法。在某种程 特别广泛。 度上可以说深度学习的检测方法超过了非深度学 本文的检测方法简称为DBS。 习的检测方法,精度上有所提高。其中,DBS方 在定量的性能评价中,采用当前流行的性能 法的AUC值是最高的,DBS方法的F-measure值 评价指标:1)查准率和查全率曲线(PR曲线):2)F 是最高的,DBS的MAE值是最低的,所以 measure值;3)受试者工作特征曲线(ROC Curve): DBS方法的性能最佳。 4)AUC值(ROC曲线下面的面积):5)平均绝对误 PR曲线图和ROC曲线图如图4和5所示。DBS 差(MAE). 的PR曲线和ROC曲线均高于其他所有方法
标注。 选取了 5 个观察者进行标注。不同用户标注 结果通常存在不一致的现象。为了减少标注的不 一致性,计算每个像素标注的一致性分值。 sx = ∑N p=1 a (p) x N (6) a (P) x a (P) x = 1 a (P) x = 0 sx 式中: 表示第 p 个观察者对像素 x 的标注,如 果像素 x 标注为显著,则 ,否则 ;N 为 观察者的个数; 为显著阈值。根据文献 [13],如 果一个像素有 50% 的观测者都标注为显著,则认 为显著。 最后,两个观察者使用 Adobe Photoshop 手动 从图像中分割出显著区域。 3.3 数据集的标签信息 NUS-WIDE 数据集提供了 81 个基准标签 集。新构建的数据集标签来自于 81 个基准标签 集,共 78 个标签。每幅图像包含 1~9 个标签。 4 实验 4.1 实验设置 以本文构建的数据集为实验对象,选择 20 个 对象标签,包括 bear、birds、boats、buildings、cars、cat、 computer、coral、cow、dog、elk、fish、flowers、fox、 horses、person、plane、tiger、train、zebra;选取和对 象标签相对应的 20 个对象检测子进行 RCNN 特 征提取,选取 2 000 个包含对象概率最大的矩形框。 采用 Cafffe 框架[16] 进行深度卷积神经网络的 训练和测试。通过随机下降方法进行训练,每次 迭代参与的样本数量 (batch) 为 256;冲量值 (momentum) 为 0.9;正则化项的权重为 0.000 5;学习率初 始值为 0.01,当损失稳定的时候学习率以 0.1 的速 度下降;对每层的输出采用比率为 0.5 的 dropout 操作来防止过拟合;训练迭代次数为 80 次。 实验对比了 27 种流行的显著区域检测方法, 包括 HS[2] 、DRFI[3] 、SMDF[5] 、LEGS[6] 、MCDL[7] 、 FT[14] 、BL[18] 、RFCN[19] 、CB[21] 、SEG[22] 、RC[23] 、 SVO[24] 、LRR[25] 、SF[26] 、GS[27] 、CA[28] 、SS[29] 、TD[30] 、 MR[31] 、PCA[32] 、HM[33] 、GC[34] 、MC[35] 、DSR[36] 、 SBF[37] 、BD[38] 和 SMD[37]。这些检测方法涵盖范围 特别广泛。 本文的检测方法简称为 DBS。 在定量的性能评价中,采用当前流行的性能 评价指标:1) 查准率和查全率曲线 (PR 曲线);2)Fmeasure 值;3) 受试者工作特征曲线 (ROC Curve); 4)AUC 值 (ROC 曲线下面的面积);5) 平均绝对误 差 (MAE)。 4.2 与流行方法的比较 与 27 种流行方法比较,实验结果如表 1 和图 4、5 所示。 表 1 本文方法与 27 种流行方法的比较 Table 1 Compare with 27 popular methods 方法 F_measure AUC MAE CB[21] 0.547 2 0.797 1 0.266 2 SEG[22] 0.491 7 0.758 8 0.359 2 SVO[24] 0.349 8 0.836 1 0.409 0 SF[26] 0.365 9 0.754 1 0.207 7 CA[28] 0.516 1 0.828 7 0.277 8 TD[30] 0.543 2 0.808 1 0.233 3 SS[29] 0.251 6 0.671 4 0.249 9 HS[2] 0.557 6 0.788 3 0.274 7 DRFI[3] 0.589 7 0.862 3 0.206 3 HM[33] 0.489 2 0.794 5 0.226 3 BD[38] 0.544 3 0.818 5 0.195 5 BL[18] 0.582 3 0.856 2 0.266 0 MR[31] 0.508 4 0.775 3 0.229 0 PCA[32] 0.539 2 0.843 9 0.277 8 FT[14] 0.355 9 0.612 6 0.280 8 RC[23] 0.530 7 0.810 5 0.312 8 LRR[25] 0.512 4 0.795 6 0.306 7 GS[27] 0.516 4 0.813 6 0.205 6 SMD[37] 0.603 3 0.843 7 0.197 6 GC[34] 0.506 3 0.751 1 0.259 6 DSR[36] 0.503 5 0.813 9 0.210 5 MC[35] 0.574 0 0.842 7 0.228 7 SBF[37] 0.493 0 0.848 0 0.232 5 LEGS[6] 0.612 4 0.819 3 0.184 4 MCDL[7] 0.655 9 0.881 3 0.145 7 RFCN[19] 0.676 8 0.880 3 0.147 6 SMDF[5] 0.657 4 0.848 3 0.155 6 DBS 0.662 1 0.891 7 0.150 5 表 1 中,F_measure、AUC 和 MAE 排在前 3 位 的为 4 种目前流行的深度学习方法 SMDF[5] 、LEGS[6] 、 MCDL[7] 、RFCN[19] 和本文的 DBS 方法。在某种程 度上可以说深度学习的检测方法超过了非深度学 习的检测方法,精度上有所提高。其中,DBS 方 法的 AUC 值是最高的,DBS 方法的 F-measure 值 是最高的, D B S 的 M A E 值是最低的,所 以 DBS 方法的性能最佳。 PR 曲线图和 ROC 曲线图如图 4 和 5 所示。DBS 的 PR 曲线和 ROC 曲线均高于其他所有方法。 ·178· 智 能 系 统 学 报 第 13 卷
第2期 梁晔,等:面向社群图像的显著区域检测方法 ·179· 0.9 27种流行方法的检测结果存在如下问题: 0.8 0.7 I)存不完整的现象,如SMDF1、LRR21、GS2刃 CB 0.6 2)存在包含非显著区域的现象,如LEGS、RFCN四、SS四 TD0;3)存在边界模糊不清的现象,如SEG2 0.4 0.3 SVO2、Ss2;4)存在只高亮地显示边缘的现象, 0.2 如CA2、PCAB。此外,流行的深度学习检测方 0.1 SMDF 法的检测性能也不尽相同,原因在于输入到到网 -DBS 00.10.2030.40.50.60.70.80.91.0 络图像块的上下文信息不同,学习到的特征不一 (a)曲线1 样,导致对比度的计算结果也不同。 0.9 本文方法综合考虑了CNN深度特征和标签 语义特征,保证了本文方法得到的显著区域相对 0.7 完整、均匀高亮。 0.6 a0.5 0.4 0.3 0.2 R 0. 00.10.20.30.40.50.60.70.80.91.0 R (b)曲线2 图4PR曲线图 Fig.4 PR curves 1.0 0.9 0.8 0.7 0.6 0.5 RR 0.4 0.2 图6DBS方法与27种流行方法的视觉效果比较图 0.1 SMDP Fig.6 Visual comparison between DBS with 27 popular -DBS 0 methods 0.10.2030.40.50.60.70.80.91.0 FPR (a)曲线1 图6中图像出现的顺序为:原始图像、标准二 值标注、BLI8I、CA28、CB2I、DRFI]、DSRI6 1.0 0.9 FTW、GCB、GS27、HMB、HS、LEGS、LRR 0.8 MCB1、MCDLI7、MR1311、PCAB2I、BDI38I、RCt23J 0.7 0.6 RFCNUS9、SBF2m、SEG2aI、SF2a、SMDB7、SMDEI5 0.5 SS29、SVO2、TD0、DBS。 0.4 0.3 0.2 5结束语 0.1 DBS 本文提出了基于深度学习的显著区域检测方 00.10.2030.40.50.60.70.80.91.0 EPR 法,该方法面向带有标签的社群图像,将标签信 (b)曲线2 息纳入到显著区域的提取方法中。基于深度学习 图5ROC曲线图 的特征包括CNN特征和标签特征。此外,随着社 Fig.5 ROC curves 群图像的快速发展,文本构建了面向社群图像的 4.3视觉效果比较 带有标签信息的显著性数据集,为面向社群图像 选择典型图像和27种流行方法进行视觉效 的显著区域检测研究提供了新的实验数据。大量 果的对比,如图6所示。 的实验证明了所提方法的有效性
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.1 (a) ᰞ㏫1 (b) ᰞ㏫2 0 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 CB FT SEG RC BL LRR SF GS CA SS TD SVO SMDF DBS 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 HS MR DRFI PCA HM GC MC DSR SBF BD SMD MCDL LEGS DBS RFCN P P R R 图 4 PR 曲线图 Fig. 4 PR curves 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 CB FT SEG RC BL LRR SF GS CA SS TD SVO SMDF DBS 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 (a) ᰞ㏫1 TPR FPR 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 HS MR DRFI PCA HM GC MC DSR SBF BD SMD MCDL LEGS RFCN DBS (b) ᰞ㏫2 TPR FPR 图 5 ROC 曲线图 Fig. 5 ROC curves 4.3 视觉效果比较 选择典型图像和 27 种流行方法进行视觉效 果的对比,如图 6 所示。 27 种流行方法的检测结果存在如下问题: 1) 存不完整的现象,如 SMDF[5] 、LRR[25] 、GS[27] ; 2)存在包含非显著区域的现象,如LEGS[6] 、RFCN[19] 、SS[29] 、 TD[30] ;3) 存在边界模糊不清的现象,如 SEG[22] 、 SVO[24] 、SS[29] ;4) 存在只高亮地显示边缘的现象, 如 CA[27] 、PCA[31]。此外,流行的深度学习检测方 法的检测性能也不尽相同,原因在于输入到到网 络图像块的上下文信息不同,学习到的特征不一 样,导致对比度的计算结果也不同。 本文方法综合考虑了 CNN 深度特征和标签 语义特征,保证了本文方法得到的显著区域相对 完整、均匀高亮。 图 6 DBS 方法与 27 种流行方法的视觉效果比较图 Fig. 6 Visual comparison between DBS with 27 popular methods 图 6 中图像出现的顺序为:原始图像、标准二 值标注、BL[18] 、CA[28] 、CB[21] 、DRFI[3] 、DSR[36] 、 FT[14] 、GC[34] 、GS[27] 、HM[33] 、HS[2] 、LEGS[6] 、LRR[25] 、 MC[35] 、MCDL[7] 、MR[31] 、PCA[32] 、BD[38] 、RC[23] 、 RFCN[19] 、SBF[27] 、SEG[22] 、SF[26] 、SMD[37] 、SMDF[5] 、 SS[29] 、SVO[24] 、TD[30] 、DBS。 5 结束语 本文提出了基于深度学习的显著区域检测方 法,该方法面向带有标签的社群图像,将标签信 息纳入到显著区域的提取方法中。基于深度学习 的特征包括 CNN 特征和标签特征。此外,随着社 群图像的快速发展,文本构建了面向社群图像的 带有标签信息的显著性数据集,为面向社群图像 的显著区域检测研究提供了新的实验数据。大量 的实验证明了所提方法的有效性。 第 2 期 梁晔,等:面向社群图像的显著区域检测方法 ·179·
·180· 智能系统学报 第13卷 参考文献: human segmented natural images and its application to evaluating segmentation algorithms and measuring ecolo- [1]XIAO Chuanmin,SHI Zelin,XIA Renbo,et al.Edge-de- gical statistics[C]//Proceedings of the 8th IEEE Interna- tection algorithm based on visual saliency[J].Information tional Conference on Computer Vision.Vancouver,BC, and control,2014,431)9-13. USA.2001.2:416-423. [2]YAN Qiong,XU Li,SHI Jianping,et al.Hierarchical sali- [13]BATRA D.KOWDLE A,PARIKH D,et al.iCoseg:In- ency detection[Cl//Proceedings of the 2013 IEEE Confer- teractive co-segmentation with intelligent scribble guidance[C ence on Computer Vision and Pattern Recognition Proceedings of the 2010 IEEE Conference on Computer (CVPR).Portland.OR.USA.2013:1155-1162 Vision and Pattern Recognition(CVPR).San Francisco, [3]JIANG Huaizu,WANG Jingdong,YUAN Zejian,et al.Sa- CA,USA.2010:3169-3176. lient object detection:a discriminative regional feature in- [14]ACHANTA R,HEMAMI S,ESTRADA F,et al.Fre- tegration approach[C]//Proceedings of the 2013 IEEE Con- quency-tuned salient region detection[C]//Proceedings of ference on Computer Vision and Pattern Recognition(CV- IEEE Conference on Computer Vision and Pattern Recog- PR).Portland,OR,USA,2013:2083-2090. nition(CVPR).Miami,FL,USA,2009:1597-1604. [4]LIN Yuetan,KONG Shu,WANG Donghui,et al.Saliency [15]JIA Yangqing,DEVELOPER L,SHELHAMER E.Caffe detection within a deep convolutional architecture[C]// [N/OL].[2016-11-12].http://caffe.berkeleyvision. Workshops at the 28th AAAI Conference on Artificial In- 0rg,2013. telligence.Quebec City,Canada,2014. [16]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Im- [5]LI Guanbin,YU Yizhou.Visual saliency based on ageNet classification with deep convolutional neural net- multiscale deep features[C]//Proceedings of the 2015 IEEE works[Cl//Proceedings of the 25th International Confer- Conference on Computer Vision and Pattern Recognition ence on Neural Information Processing Systems.Lake (CVPR).Boston,MA.USA.2015:5455-5463. Tahoe,Nevada,USA,2012:1097-1105 [6]WANG Lijun,LU Huchuan,RUAN Xiang,et al.Deep net- [17]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich works for saliency detection via local estimation and glob- feature hierarchies for accurate object detection and se- al search[Cl//Proceedings of the 2015 IEEE Conference on mantic segmentation[C]//Proceedings of the 2014 IEEE Computer Vision and Pattern Recognition(CVPR).Bo- Conference on Computer Vision and Pattern Recognition ston,MA.USA.2015:3183-3192. (CVPR).Columbus,OH,USA,2014:580-587. [7]ZHAO Rui,OUYANG Wanli,LI Hongsheng,et al.Sali- [18]TONG Na,LU Huchuan,RUAN Xiang,et al.Salient ob- ency detection by multi-context deep learning[Cl//Proceed- ject detection via bootstrap learning[C]//Proceedings of ings of IEEE Conference on Computer Vision and Pattern IEEE Conference on Computer Vision and Pattern Recog- Recognition.Boston,MA.USA,2015:1265-1274. nition(CVPR).Boston,MA,USA,2015:1884-1892. [8]WANG Wen,LANG Congyan,FENG Songhe.Contextu- [19]WANG Linzhao,WANG Lijun,LU Huchuan,et al.Sali- alizing tag ranking and saliency detection for social im- ency detection with recurrent fully convolutional networks ages[M]//LI Shipeng,EL SADDIK A,WANG MENG,et [C]//Proceedings of the 14th European Conference Com- al.Advances in Multimedia Modeling.Berlin Heidelberg. puter Vision-ECCV 2016.Cham,Germany,2016: Germany:Springer,2013:428-435. 151-157. [9]ZHU Guokang,WANG Qi,YUAN Yuan.Tag-saliency: [20]KRAHENBUHL P.KOLTUN V.Efficient inference in combining bottom-up and top-down information for sali- fully connected CRFs with Gaussian edge potentials[Cl// ency detection[J].Computer vision and image understand- Proceedings of the 24th International Conference on ing,2014,118:40-49. Neural Information Processing Systems.Granada,Spain, [10]LIU Tie,SUN Jian,ZHENG Nanning,et al.Learning to 2012:109-117. detect a salient object[C]//Proceedings of IEEE Confer- [21]JIANG Huaizu,WANG Jingdong,YUAN Zejian,et al. ence on Computer Vision and Pattern Recognition(CVPR). Automatic salient object segmentation based on context Minneapolis,Minnesota,USA,2007:1-8. and shape prior[C]//Proceedings of the British Machine [11]LI Jian,LEVINE M D,AN Xiangjing,et al.Visual sali- Vision Conference (BMVC).Dundee,Scotland,2011: ency based on scale-space analysis in the frequency do- 1-12. main[J].IEEE transactions on pattern analysis and ma- [22]RAHTU E,KANNALA J,SALO M,et al.Segmenting chine intelligence,2013,35(4):996-1010. salient objects from images and videos[Cl//Proceedings of [12]MARTIN D.FOWLKES C,TAL D,et al.A database of the 11th European Conference on Computer Vision(EC-
参考文献: XIAO Chuanmin, SHI Zelin, XIA Renbo, et al. Edge-detection algorithm based on visual saliency[J]. Information and control, 2014, 43(1): 9–13. [1] YAN Qiong, XU Li, SHI Jianping, et al. Hierarchical saliency detection[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, OR, USA, 2013: 1155–1162. [2] JIANG Huaizu, WANG Jingdong, YUAN Zejian, et al. Salient object detection: a discriminative regional feature integration approach[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, OR, USA, 2013: 2083–2090. [3] LIN Yuetan, KONG Shu, WANG Donghui, et al. Saliency detection within a deep convolutional architecture[C]// Workshops at the 28th AAAI Conference on Artificial Intelligence. Québec City, Canada, 2014. [4] LI Guanbin, YU Yizhou. Visual saliency based on multiscale deep features[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA, 2015: 5455–5463. [5] WANG Lijun, LU Huchuan, RUAN Xiang, et al. Deep networks for saliency detection via local estimation and global search[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA, 2015: 3183–3192. [6] ZHAO Rui, OUYANG Wanli, LI Hongsheng, et al. Saliency detection by multi-context deep learning[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 1265–1274. [7] WANG Wen, LANG Congyan, FENG Songhe. Contextualizing tag ranking and saliency detection for social images[M]//LI Shipeng, EL SADDIK A, WANG MENG, et al. Advances in Multimedia Modeling. Berlin Heidelberg, Germany: Springer, 2013: 428–435. [8] ZHU Guokang, WANG Qi, YUAN Yuan. Tag-saliency: combining bottom-up and top-down information for saliency detection[J]. Computer vision and image understanding, 2014, 118: 40–49. [9] LIU Tie, SUN Jian, ZHENG Nanning, et al. Learning to detect a salient object[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Minneapolis, Minnesota, USA, 2007: 1–8. [10] LI Jian, LEVINE M D, AN Xiangjing, et al. Visual saliency based on scale-space analysis in the frequency domain[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(4): 996–1010. [11] [12] MARTIN D, FOWLKES C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings of the 8th IEEE International Conference on Computer Vision. Vancouver, BC, USA, 2001, 2: 416–423. BATRA D, KOWDLE A, PARIKH D, et al. iCoseg: Interactive co-segmentation with intelligent scribble guidance[C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA, 2010: 3169–3176. [13] ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Miami, FL, USA, 2009: 1597–1604. [14] JIA Yangqing, DEVELOPER L, SHELHAMER E. Caffe [N/OL]. [2016-11-12]. http://caffe.berkeleyvision. org/, 2013. [15] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA, 2012: 1097–1105. [16] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA, 2014: 580–587. [17] TONG Na, LU Huchuan, RUAN Xiang, et al. Salient object detection via bootstrap learning[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA, 2015: 1884–1892. [18] WANG Linzhao, WANG Lijun, LU Huchuan, et al. Saliency detection with recurrent fully convolutional networks [C]//Proceedings of the 14th European Conference Computer Vision–ECCV 2016. Cham, Germany, 2016: 151–157. [19] KRÄHENBÜHL P, KOLTUN V. Efficient inference in fully connected CRFs with Gaussian edge potentials[C]// Proceedings of the 24th International Conference on Neural Information Processing Systems. Granada, Spain, 2012: 109–117. [20] JIANG Huaizu, WANG Jingdong, YUAN Zejian, et al. Automatic salient object segmentation based on context and shape prior[C]//Proceedings of the British Machine Vision Conference (BMVC). Dundee, Scotland, 2011: 1–12. [21] RAHTU E, KANNALA J, SALO M, et al. Segmenting salient objects from images and videos[C]//Proceedings of the 11th European Conference on Computer Vision (EC- [22] ·180· 智 能 系 统 学 报 第 13 卷
第2期 梁晔,等:面向社群图像的显著区域检测方法 ·181· CV).Crete,Greece,2010:366-379 Conference on Computer Vision and Pattern Recognition [23]CHENG Mingming,ZHANG Guoxin,MITRA N J,et al. (CVPR).Portland,OR.USA.2013:1139-1146 Global contrast based salient region detection[C]// [33]LI Xi,LI Yao,SHEN Chunhua,et al.Contextual hyper- Proceedings of the 2011 IEEE Conference on Computer graph modeling for salient object detection[C]//Proceed- Vision and Pattern Recognition.Providence,RI,USA, ings of the 2013 IEEE International Conference on Com- 2011:409-416. puter Vision (ICCV).Sydney,NSW,Australia,2013: [24]CHANG K Y,LIU TL,CHEN H T,et al.Fusing generic 3328-3335. objectness and visual saliency for salient object detection[C]/ [34]CHENG Mingming,WARRELL J,LIN Wenyan,et al Proceedings of the 2011 IEEE International Conference Efficient salient region detection with soft image abstraction[CV on Computer Vision (ICCV).Barcelona,Spain,2011: Proceedings of the 2013 IEEE International Conference 914921. on Computer Vision(ICCV).Sydney,Australia,2013: [25]SHEN Xiaohui,WU Ying.A unified approach to salient 1529-1536. object detection via low rank matrix Recovery[C]//Pro- [35]JIANG Bowen,ZHANG Lihe,LU Huchuan,et al.Sali- ceedings of the 2012 IEEE International Conference on ency detection via absorbing Markov chain[Cl//Proceed- Computer Vision and Pattern Recognition (CVPR). ings of the 2013 IEEE International Conference on Com- Providence,Rhode Island.USA,2011:853-860. puter Vision(ICCV).Sydney,NSW,Australia,2013: [26]PERAZZI F.KRAHENBUHL P,PRITCH Y,et al.Sali- 1665-1672. ency filters:contrast based filtering for salient region de- [36]LI Xiaohui,LU Huchuan,ZHANG Lihe,et al.Saliency tection[C]//Proceedings of the 2012 IEEE Conference on detection via dense and sparse reconstruction[C//Pro- Computer Vision and Pattern Recognition (CVPR). ceedings of the 2013 IEEE International Conference on Providence,Rhode Island.USA,2012:733-740. Computer Vision.Washington,DC,USA,2013: [27]WEI Yichen,WEN Fang,ZHU Wangjiang,et al.Geodes- 2976-2983. [37]PENG H.LI B,LING H,et al.Salient object detection via ic saliency using background priors[C]//Proceedings of the 12th European Conference on Computer Vision(EC- structured matrix decomposition[J].IEEE transactions on CV).Florence,Italy,2012:29-42. pattern analysis&machine intelligence,2017,39(4): 818-832. [28]GOFERMAN S,ZELNIK-MANOR L.TAL A.Context- aware saliency detection[C]//Proceedings of IEEE Con- [38]ZHU Wangjiang,LIANG Shuang,WEI Yichen,et al.Sa- liency optimization from robust background detection[Cl// ference on Computer Vision and Pattern Recognition Proceedings of the 2014 IEEE Conference on Computer (CVPR).San Francisco,CA,USA,2010:2376-2383. [29]HOU Xiaodi,HAREL J,KOCH C.Image signature:high- Vision and Pattern Recognition(CVPR).Columbus,OH, USA,2014:2814-2821 lighting sparse salient regions[J].IEEE transactions on pattern analysis and machine intelligence,2012,34(1): 作者简介: 194201. 梁晔,1978年生,女,讲师,主要 [30]SCHARFENBERGER C,WONG A.FERGANI K.et al. 研究方向为图像处理和机器学习,发 表中文核心和三大检索论文10余篇。 Statistical textural distinctiveness for salient region detec- tion in natural images[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Portland,Oregon,USA,2013:979-986. [31JYANG Chuan,ZHANG Lihe,LU Huchuan,et al.Sali- ency detection via graph-based manifold ranking[C]// 于剑,男,1969年生,教授,博士生导 师博士,主要研究方向为2005年分别 Proceedings of the 2013 IEEE Conference on Computer 获得第八届北京青年优秀科技论文奖 Vision and Pattern Recognition(CVPR).Portland,OR, 一等奖、第七届詹天佑铁道科技奖北 USA,2013:3166-3173. 京交通大学专项基金奖,2006年获得 [32]MARGOLIN R.TAL A.ZELNIK-MANOR L.What 霍英东青年教师基金。发表学术论文 makes a patch distinct?[C]//Proceedings of 2013 IEEE 30余篇
CV). Crete, Greece, 2010: 366–379. CHENG Mingming, ZHANG Guoxin, MITRA N J, et al. Global contrast based salient region detection[C]// Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA, 2011: 409–416. [23] CHANG K Y, LIU T L, CHEN H T, et al. Fusing generic objectness and visual saliency for salient object detection[C]// Proceedings of the 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona, Spain, 2011: 914–921. [24] SHEN Xiaohui, WU Ying. A unified approach to salient object detection via low rank matrix Recovery[C]//Proceedings of the 2012 IEEE International Conference on Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA, 2011: 853–860. [25] PERAZZI F, KRÄHENBUHL P, PRITCH Y, et al. Saliency filters: contrast based filtering for salient region detection[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA, 2012: 733–740. [26] WEI Yichen, WEN Fang, ZHU Wangjiang, et al. Geodesic saliency using background priors[C]//Proceedings of the 12th European Conference on Computer Vision (ECCV). Florence, Italy, 2012: 29–42. [27] GOFERMAN S, ZELNIK-MANOR L, TAL A. Contextaware saliency detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA, 2010: 2376–2383. [28] HOU Xiaodi, HAREL J, KOCH C. Image signature: highlighting sparse salient regions[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(1): 194–201. [29] SCHARFENBERGER C, WONG A, FERGANI K, et al. Statistical textural distinctiveness for salient region detection in natural images[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, Oregon, USA, 2013: 979–986. [30] YANG Chuan, ZHANG Lihe, LU Huchuan, et al. Saliency detection via graph-based manifold ranking[C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, OR, USA, 2013: 3166–3173. [31] MARGOLIN R, TAL A, ZELNIK-MANOR L. What makes a patch distinct?[C]//Proceedings of 2013 IEEE [32] Conference on Computer Vision and Pattern Recognition (CVPR). Portland, OR, USA, 2013: 1139–1146. LI Xi, LI Yao, SHEN Chunhua, et al. Contextual hypergraph modeling for salient object detection[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, NSW, Australia, 2013: 3328–3335. [33] CHENG Mingming, WARRELL J, LIN Wenyan, et al. Efficient salient region detection with soft image abstraction[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, Australia, 2013: 1529–1536. [34] JIANG Bowen, ZHANG Lihe, LU Huchuan, et al. Saliency detection via absorbing Markov chain[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, NSW, Australia, 2013: 1665–1672. [35] LI Xiaohui, LU Huchuan, ZHANG Lihe, et al. Saliency detection via dense and sparse reconstruction[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. Washington, DC, USA, 2013: 2976–2983. [36] PENG H, LI B, LING H, et al. Salient object detection via structured matrix decomposition[J]. IEEE transactions on pattern analysis & machine intelligence, 2017, 39(4): 818–832. [37] ZHU Wangjiang, LIANG Shuang, WEI Yichen, et al. Saliency optimization from robust background detection[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA, 2014: 2814–2821. [38] 作者简介: 梁晔,1978 年生,女,讲师,主要 研究方向为图像处理和机器学习,发 表中文核心和三大检索论文 10 余篇。 于剑,男,1969 年生,教授,博士生导 师,博士,主要研究方向为 2005 年分别 获得第八届北京青年优秀科技论文奖 一等奖、第七届詹天佑铁道科技奖北 京交通大学专项基金奖,2006 年获得 霍英东青年教师基金。发表学术论文 30 余篇。 第 2 期 梁晔,等:面向社群图像的显著区域检测方法 ·181·