正在加载图片...
·960· 智能系统学报 第15卷 这样深度监督的训练策略可以使得网络的训 与文献[27刀相同,本文使用不固定的阈值来计算 练过程更容易收敛,降低训练所需的时间。 这准确率和召回率,设置该阈值为显著图平均 值的2倍。有了MAE和F-measure这2个评价 3实验与结果 指标,就可以将本文方法与其他主流方法进行 3.1实验数据集 对比。 目前主流的显著性目标检测数据集包括 3.4实验结果与性能对比 MSRA1OKP、DUT-OMRON21和ECSSD等。 对比本文方法和其他11种主流的显著性目 这些数据集都包含大量的图片,并且样本分布广 标检测方法,包括SRMs)、DRFI2I、BL2 泛(动物、植物和生活物体等),因此被当前显著性 LEGSTI、MDF3oI、MCDLII、DSIB2I、DHSU41 目标检测算法用于效果对比中。MSRA1OK数据 ELDB、DCLB、KSR1351和RFCNU1。使用作者文 集包含10000张图片,本文选用其作为模型的训 章中方法和参数设置训练网络,测试得到显著图 练集。DUT-OMRON数据集包含5158张拥有复 或者直接使用其提供的显著图,再根据显著图计 杂背景的图片,考验模型检测内容复杂场景的能 算在不同测试集上的结果,如表1所示。 力。ECSSD数据集包含1000张不同尺寸目标的 表1本文方法与其他方法效果的对比 Table 1 Comparison between our method and the others 复杂图像。本文选择DUT-OMRON和ECSSD数 on performance 据集作为测试集,对比本文模型与其他模型的效果。 DUT-OMRON ECSSD 3.2网络训练 方法 F-measure MAE F-measure MAE 本文选择“MXNET”深度学习框架,在2块 SRM 0.707 0.069 0.892 0.056 Titan Xp Pascal GPU上进行网络的训练和测试。 DHS 0.871 0.063 首先将MSRA10K训练集中的图片填充到416× RFCN 0.627 0.111 0.834 0.109 416的大小,然后进行原尺寸2/3到3/2之间的随 DCL 0.684 0.157 0.827 0.151 机尺度放缩。最后将图片随机裁剪到416×416像 ELD 0.611 0.092 0.810 0.082 素,减去像素均值,送入网络中进行训练。 DS 0.603 0.120 0.821 0.124 本文使用在ImageNet数据集2上训练的 MDF 0.644 0.092 0.805 0.108 ResNet-50模型作为网络的初始权重,再在 MCDL 0.625 0.089 0.796 0.102 MSRA10K数据集上进行微调(finetune)。本文选 LEGS 0.592 0.133 0.785 0.119 择带有冲量(momentum)的随机梯度下降 BL 0.499 0.239 0.684 0.217 (stochastic gradient descent)作为梯度更新算法,使 DRFI 0.550 0.138 0.733 0.166 用文献[26]中的“Poly”学习率调整策略。mini- 本文方法 0.720 0.064 0.906 0.049 batch的值设置为16,训练共45000个迭代。基准 从表1可以看到,本文方法表现好过当前主 学习率设置为0.01,下降率指数为0.9。设置冲量 流的显著性检测方法。对于F-measure指标,本文 值为0.9,权重衰减0.0001。 在DUT-OMRON和ECSSD数据集上分别超过表 3.3评价标准 现最佳的SRM方法0.013和0.014。同样,对于 本文使用平均绝对误差(MAE)和F-meas- MAE指标,本文分别超过SRM方法0.005和0.007。 ure值来评价算法在数据集上的测试结果。MAE 为了研究注意力精炼模块的效果,在EC 定义为输出预测结果P与二元真实值G在每个 SSD数据集上测试了网络处于不同多尺度特征融 像素上错误率平均值,为 合阶段时的表现,结果如表2所示。表2中Baseline H MAE= P(x,y)-G(x,y) (10) 代表直接使用res特征图进行32倍上采样得到 显著图。可以看到,随着多尺度特征的融合,注 式中W和H分别为预测结果P的宽和高。MAE 意力精炼模块大幅度地提升了网络的表现,F- 越低意味着网络预测的准确率越高。 measure指标提高了0.057,MAE指标降低了接近 F-measure是对算法的综合评价指标 一半到达了0.049。如图3所示,在ECSSD数据 F=(1+B)-P.R 集上的预测结果图说明网络能够成功检测出植 (11) B2.P+R 物、动物和人等显著目标,并对目标边缘进行准 式中:P和R分别为平均准确率和平均召回率; 确分割。上述结果证明本文方法提高了网络对特 B设置为0.3。为了强调准确率的重要性。F- 征的利用能力,融合了多尺度的特征精修了预测 measure指标越高意味着网络预测的效果越好。 结果,大幅度提高了网络的性能表现。这样深度监督的训练策略可以使得网络的训 练过程更容易收敛,降低训练所需的时间。 3 实验与结果 3.1 实验数据集 目前主流的显著性目标检测数据集包 括 MSRA10K[22] 、DUT-OMRON[23] 和 ECSSD[24] 等。 这些数据集都包含大量的图片,并且样本分布广 泛 (动物、植物和生活物体等),因此被当前显著性 目标检测算法用于效果对比中。MSRA10K 数据 集包含 10 000 张图片,本文选用其作为模型的训 练集。DUT-OMRON 数据集包含 5 158 张拥有复 杂背景的图片,考验模型检测内容复杂场景的能 力。ECSSD 数据集包含 1 000 张不同尺寸目标的 复杂图像。本文选择 DUT-OMRON 和 ECSSD 数 据集作为测试集,对比本文模型与其他模型的效果。 3.2 网络训练 本文选择“MXNET”深度学习框架,在 2 块 Titan Xp Pascal GPU 上进行网络的训练和测试。 首先将 MSRA10K 训练集中的图片填充到 416× 416 的大小,然后进行原尺寸 2/3 到 3/2 之间的随 机尺度放缩。最后将图片随机裁剪到 416×416 像 素,减去像素均值,送入网络中进行训练。 本文使用在 ImageNet 数据集[ 2 5 ] 上训练的 ResNet-5 0 模型作为网络的初始权重,再 在 MSRA10K 数据集上进行微调 (finetune)。本文选 择带有冲 量 (momentum ) 的随机梯度下 降 (stochastic gradient descent) 作为梯度更新算法,使 用文献 [26] 中的“Poly”学习率调整策略。mini￾batch 的值设置为 16,训练共 45 000 个迭代。基准 学习率设置为 0.01,下降率指数为 0.9。设置冲量 值为 0.9,权重衰减 0.0001。 3.3 评价标准 P G 本文使用平均绝对误差 (MAE) 和 F-meas￾ure 值来评价算法在数据集上的测试结果。MAE 定义为输出预测结果 与二元真实值 在每个 像素上错误率平均值,为 MAE = 1 HW ∑H x=1 ∑W y=1 |P(x, y)−G(x, y)| (10) 式中 W 和 H 分别为预测结果 P 的宽和高。MAE 越低意味着网络预测的准确率越高。 F-measure 是对算法的综合评价指标: Fβ = (1+β 2 )· P·R β 2 · P+R (11) 式中: P 和 R 分别为平均准确率和平均召回率; β 设置为 0.3。为了强调准确率的重要性。F￾measure 指标越高意味着网络预测的效果越好。 与文献 [27] 相同,本文使用不固定的阈值来计算 这准确率和召回率,设置该阈值为显著图平均 值的 2 倍。有了 MAE 和 F-measure 这 2 个评价 指标,就可以将本文方法与其他主流方法进行 对比。 3.4 实验结果与性能对比 对比本文方法和其他 11 种主流的显著性目 标检测方法,包括 SRM[ 1 5 ] 、 DRFI[ 2 8 ] 、BL[ 2 9 ] 、 LEGS[ 1 1 ] 、MDF[ 3 0 ] 、MCDL[ 3 1 ] 、DS[ 3 2 ] 、DHS[ 1 4 ] 、 ELD[33] 、DCL[34] 、KSR[35] 和 RFCN[13]。使用作者文 章中方法和参数设置训练网络,测试得到显著图 或者直接使用其提供的显著图,再根据显著图计 算在不同测试集上的结果,如表 1 所示。 表 1 本文方法与其他方法效果的对比 Table 1 Comparison between our method and the others on performance 方法 DUT-OMRON ECSSD F-measure MAE F-measure MAE SRM 0.707 0.069 0.892 0.056 DHS — — 0.871 0.063 RFCN 0.627 0.111 0.834 0.109 DCL 0.684 0.157 0.827 0.151 ELD 0.611 0.092 0.810 0.082 DS 0.603 0.120 0.821 0.124 MDF 0.644 0.092 0.805 0.108 MCDL 0.625 0.089 0.796 0.102 LEGS 0.592 0.133 0.785 0.119 BL 0.499 0.239 0.684 0.217 DRFI 0.550 0.138 0.733 0.166 本文方法 0.720 0.064 0.906 0.049 从表 1 可以看到,本文方法表现好过当前主 流的显著性检测方法。对于 F-measure 指标,本文 在 DUT-OMRON 和 ECSSD 数据集上分别超过表 现最佳的 SRM 方法 0.013 和 0.014。同样,对于 MAE 指标,本文分别超过 SRM 方法 0.005 和 0.007。 为了研究注意力精炼模块的效果,在 EC￾SSD 数据集上测试了网络处于不同多尺度特征融 合阶段时的表现,结果如表 2 所示。表 2 中 Baseline 代表直接使用 res5 特征图进行 32 倍上采样得到 显著图。可以看到,随着多尺度特征的融合,注 意力精炼模块大幅度地提升了网络的表现,F￾measure 指标提高了 0.057,MAE 指标降低了接近 一半到达了 0.049。如图 3 所示,在 ECSSD 数据 集上的预测结果图说明网络能够成功检测出植 物、动物和人等显著目标,并对目标边缘进行准 确分割。上述结果证明本文方法提高了网络对特 征的利用能力,融合了多尺度的特征精修了预测 结果,大幅度提高了网络的性能表现。 ·960· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有