第16卷第2期 智能系统学报 Vol.16 No.2 2021年3月 CAAI Transactions on Intelligent Systems Mar.2021 D0:10.11992tis.201910004 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20200717.1727.008.html 基于Faster R-CNN的多任务增强裂缝图像检测方法 毛莺池,唐江红,王静,平萍,王龙宝 (河海大学计算机与信息学院,江苏南京211100) 摘要:针对Faster R-CNN算法对多目标、小目标检测精度不高的问题,本文提出一种基于Faster R-CNN的多 任务增强裂缝图像检测(Multitask Enhanced Dam Crack Image Detection Based on Faster R-CNN,ME-Faster R- CNN)方法。同时提出一种基于K-means的多源自适应平衡TrAdaBoost的迁移学习方法(multi-source adaptive balance TrAdaBoost based on K-neans,K-MABtrA)轴助网络训练,解决样本不足问题。ME-Faster R-CNN将图片 输入ResNet--50网络提取特征:然后将所得特征图输入多任务增强RPN模型,同时改善RPN模型的锚盒尺寸和 大小以提高检测识别精度,生成候选区域:最后将特征图和候选区域发送到检测处理网络。K-MABA方法利 用K-means聚类删除与目标源差别较大的图像,再在多元自适应平衡TrAdaBoost迁移学习方法下训练模型。 实验结果表明:将ME-Faster R-CNN在K-MABtrA迁移学习的条件下应用于小数据集大坝裂缝图像集的平均 IoU为82.52%,平均精度mAP值为80.02%.与相同参数设置下的Faster R-CNN检测算法相比,平均IoU和 mAP值分别提高了1.06%和1.56%。 关键词:裂缝图像检测;Faster R-CNN;多任务检测;小目标检测;迁移学习;大坝安全;区域建议网络;小样本 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)02-0286-08 中文引用格式:毛莺池,唐江红,王静,等.基于Faster R-CNN的多任务增强裂缝图像检测方法.智能系统学报,2021, 16(2):286-293. 英文引用格式:MAO Yingchi,,TANG Jianghong,.WANG Jing,etal.Mlulti-.-task enhanced dam crack image detection based on Faster R-CNNIJI.CAAI transactions on intelligent systems,2021,16(2):286-293. Multi-task enhanced dam crack image detection based on Faster R-CNN MAO Yingchi,TANG Jianghong,WANG Jing,PING Ping,WANG Longbao (College of Computer and Information,Hohai University,Nanjing 211100,China) Abstract:To improve the accuracy of the detection of multiple small targets using the faster R-CNN model,we pro- pose a multi-task enhanced dam-crack image detection method based on faster R-CNN(ME-Faster R-CNN).In addition, to solve the problem of insufficient dam-crack samples,we propose a transfer learning method,multi-source adaptive balance TrAdaBoost based on K-means(K-MABtrA),to assist with network training.In the ME-Faster R-CNN,the ResNet-50 network is adopted to extract features from original images,obtain the feature map,and input a multi-task en- hanced region-proposal-network module to generate candidate regions by adopting the appropriate size and dimensions of the anchor box.Lastly,the features map and candidate regions are processed to detect dam cracks.The K-MABtrA method first uses K-means clustering to delete unsuitable images.Then,models are trained using the multi-source adapt- ive balance TrAdaBoost method.Our experimental results show that the proposed ME Faster R-CNN with the K-MAB- trA method can obtain an 82.52%average intersection over union (IoU)and 80.02%mean average precision(mAP). Compared with Faster R-CNN detection method using the same parameters,the average IoU and mAP values was in- creased by 1.06%and 1.56%,respectively. Keywords:crack image detection;Faster R-CNN;Multi-task detection;small targets detection;transfer learning;dam safety;RPN;small sample 收稿日期:2019-09-15.网络出版日期:2020-07-18. 我国是世界上拥有水库大坝最多的国家山, 基金项目:国家重点研发课题(2018Y℉C0407105):国家自然科 学基金重点项目(61832005):国网新源科技项目 但随着时间的推移和坝龄的增长,大坝表面和内 (SGTYHT/19-JS-217):华能集团重点研发课题 (HNKJ19-H12). 部发生形变,出险几率增加,威胁人民生命财产 通信作者:唐江红.E-mail:15195897810@163.com. 安全。裂缝是大坝的主要危害之一
DOI: 10.11992/tis.201910004 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20200717.1727.008.html 基于 Faster R-CNN 的多任务增强裂缝图像检测方法 毛莺池,唐江红,王静,平萍,王龙宝 (河海大学 计算机与信息学院,江苏 南京 211100) 摘 要:针对 Faster R-CNN 算法对多目标、小目标检测精度不高的问题,本文提出一种基于 Faster R-CNN 的多 任务增强裂缝图像检测 (Multitask Enhanced Dam Crack Image Detection Based on Faster R-CNN, ME-Faster RCNN) 方法。同时提出一种基于 K-means 的多源自适应平衡 TrAdaBoost 的迁移学习方法 (multi-source adaptive balance TrAdaBoost based on K-means, K-MABtrA) 辅助网络训练,解决样本不足问题。ME-Faster R-CNN 将图片 输入 ResNet-50 网络提取特征;然后将所得特征图输入多任务增强 RPN 模型,同时改善 RPN 模型的锚盒尺寸和 大小以提高检测识别精度,生成候选区域;最后将特征图和候选区域发送到检测处理网络。K-MABtrA 方法利 用 K-means 聚类删除与目标源差别较大的图像,再在多元自适应平衡 TrAdaBoost 迁移学习方法下训练模型。 实验结果表明:将 ME-Faster R-CNN 在 K-MABtrA 迁移学习的条件下应用于小数据集大坝裂缝图像集的平均 IoU 为 82.52%,平均精度 mAP 值为 80.02%,与相同参数设置下的 Faster R-CNN 检测算法相比,平均 IoU 和 mAP 值分别提高了 1.06% 和 1.56%。 关键词:裂缝图像检测;Faster R-CNN;多任务检测;小目标检测;迁移学习;大坝安全;区域建议网络;小样本 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)02−0286−08 中文引用格式:毛莺池, 唐江红, 王静, 等. 基于 Faster R-CNN 的多任务增强裂缝图像检测方法 [J]. 智能系统学报, 2021, 16(2): 286–293. 英文引用格式:MAO Yingchi, TANG Jianghong, WANG Jing, et al. Multi-task enhanced dam crack image detection based on Faster R-CNN[J]. CAAI transactions on intelligent systems, 2021, 16(2): 286–293. Multi-task enhanced dam crack image detection based on Faster R-CNN MAO Yingchi,TANG Jianghong,WANG Jing,PING Ping,WANG Longbao (College of Computer and Information, Hohai University, Nanjing 211100, China) Abstract: To improve the accuracy of the detection of multiple small targets using the faster R-CNN model, we propose a multi-task enhanced dam-crack image detection method based on faster R-CNN (ME-Faster R-CNN). In addition, to solve the problem of insufficient dam-crack samples, we propose a transfer learning method, multi-source adaptive balance TrAdaBoost based on K-means (K-MABtrA), to assist with network training. In the ME-Faster R-CNN, the ResNet-50 network is adopted to extract features from original images, obtain the feature map, and input a multi-task enhanced region-proposal-network module to generate candidate regions by adopting the appropriate size and dimensions of the anchor box. Lastly, the features map and candidate regions are processed to detect dam cracks. The K-MABtrA method first uses K-means clustering to delete unsuitable images. Then, models are trained using the multi-source adaptive balance TrAdaBoost method. Our experimental results show that the proposed ME Faster R-CNN with the K-MABtrA method can obtain an 82.52% average intersection over union (IoU) and 80.02% mean average precision (mAP). Compared with Faster R-CNN detection method using the same parameters, the average IoU and mAP values was increased by 1.06% and 1.56%, respectively. Keywords: crack image detection; Faster R-CNN; Multi-task detection; small targets detection; transfer learning; dam safety; RPN; small sample 我国是世界上拥有水库大坝最多的国家[1] , 但随着时间的推移和坝龄的增长,大坝表面和内 部发生形变,出险几率增加,威胁人民生命财产 安全。裂缝是大坝的主要危害之一。 收稿日期:2019−09−15. 网络出版日期:2020−07−18. 基金项目:国家重点研发课题 (2018YFC0407105);国家自然科 学基金重点项目 (61832005);国网新源科技项目 (SGTYHT/19-JS-217);华能集团重点研发课 题 (HNKJ19-H12). 通信作者:唐江红. E-mail:15195897810@163.com. 第 16 卷第 2 期 智 能 系 统 学 报 Vol.16 No.2 2021 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2021
第2期 毛鸴池,等:基于Faster R-CNN的多任务增强裂缝图像检测方法 ·287· 近年来,图像处理、模式识别和深度学习等技 行改进,提出一种动态TrAdaboost(dynamic TrAd-. 术的发展,为大坝裂缝图像检测提供技术支持。 aboost,.DtrA)方法,DtrA方法能够在迭代过程中 但由于大坝环境复杂等一系列因素的限制,导致 动态调整样本权重;郭勇1在DrA方法基础上 裂缝图像收集和标记成本过高,因此难以获得大 进一步改进,提出一种自适应TrAdaBoost(adapt- 坝裂缝图像检测的分类模型。迁移学习主要是针 ive TrAdaBoost,.AtrA)方法,AtrA方法能够反映出 对规模不大,样本数量有限的特定领域数据集使 源领域训练数据集与目标领域训练数据集之间是 用机器学习容易产生过拟合而导致无法训练与学 否具有相似性关系。 习的问题,通过利用具有一定相似性的领域中已 训练好的较好优秀模型和样本构建满足任务需求 2ME-Faster R-CNN与K-MABtrA方法 的模型,从而实现小数据集下构建良好模型的效果。 本文提出了一种基于Faster R-CNN的多任务 Faster R-CNN是目前基于区域卷积神经网 增强裂缝图像检测的网络模型,以适应大坝在不 络系列的目标检测算法中综合性能最好的方法之 同光照环境、不同长度裂缝情况下的检测。同 一,但其对多目标、小目标情况检测精度不高。 时,提出了一种基于K-means多源自适应平衡 本文提出了一种基于Faster R-CNN的多任务增强 TrAdaBoost迁移学习方法解决样本不足问题。本 裂缝图像检测方法,以适应大坝在不同光照环 境,不同长度裂缝情况下的检测。同时提出了一 文采用基于K-MABtrA迁移学习方法训练ME- 种基于K-means多源自适应平衡TrAdaBoost迁移 Faster R-CNN网络模型,该方法通过已准备的多 学习方法辅助网络训练,解决样本不足问题。 源裂缝图像数据集对卷积神经网络的参数进行预 训练,然后使用预训练得到的网络权重作为初始 相关工作 权值,迁移到目标数据集上进行微调,得到适用 于大坝裂缝检测的模型。 根据卷积神经网络的使用方式,将基于 2.1ME-Faster R-CNN模型 CNN目标检测算法B分为两大类:基于区域建 ME-Faster R-CNN在Faster R-CNN模型基础 议的深度学习目标检测算法和基于回归思想的深 上进行改进,改进之处如图1所示。其中,特征提 度学习目标检测算法。前者的主流算法有:R- CNN算法IsI、Fast R-CNN算法I6和Faster R- 取部分:选取轻量级的ResNet-50作为卷积神经 CNN算法。R-CNN首次将神经网络应用在目标 网络:特征融合部分以及候选区域生成部分:改 检测算法上,在Pascal VOC2012的数据集上将平 进使用多任务增强RPN模型,改善锚盒尺寸大小 均精度mAP提升了30%。Fast R-CNN将候选框 提高Faster R-CNN搜索能力,提高检测识别精 识别分类和位置回归合成到一个网络中,不再对 度:检测处理部分:特征图和选择区域建议经过 网络进行分步训练,提高了训练速度。Faster R- 感兴趣区域(ROD池、全连接(FC)层分别发送给 CNN与Fast R-CNN最大的区别就是提出了区域 边界回归器和SVM分类器得到分类与回归结果。 建议网络(region proposal networks,.RPN)网络,极 基本框架 改进之处 大地提升了检测框的生成速度。基于回归思想的 深度学习目标检测的主流算法有:SSD算法) 数据输人部分 和YOLO V2算法I⑧。SSD算法和YOLO算法均 图像 没有区域建议过程,极大地提高了检测速度,但 选取残差网路 特征提取部分 卷积■ 识别精度和位置回归精度不足。 神经网络 ResNet-50 从20世纪90年代起迁移学习开始逐渐进入 多RPN模型 机器学习领域,受到研究者们的关注。常用的迁 移学习方法有AdaBoost'9和TrAdaBoost算法 RPN 等。AdaBoost算法基本思想:当一个训练样本被 改变anchor 大小尺寸 错误分类时候,对此样本增加样本权重,再次训 练时该样本分错的概率就会大大降低。TrAda- 检测处理部分ROI池化 Boost算法是由AdaBoost算法演变而来的,该算 全连接层 法通过降低误分类的源域训练数据权重,增加误 候选框回归 SVM 分类的目标域训练数据权重,使得分类面朝正确 的方向移动并训练出强分类模型。Al-Stouhi等 图1ME-Faster R-CNN模型改进之处 总结TrAdaBoost算法存在的问题,在此基础上进 Fig.1 Improvements of ME-Faster R-CNN
近年来,图像处理、模式识别和深度学习等技 术的发展,为大坝裂缝图像检测提供技术支持。 但由于大坝环境复杂等一系列因素的限制,导致 裂缝图像收集和标记成本过高,因此难以获得大 坝裂缝图像检测的分类模型。迁移学习主要是针 对规模不大,样本数量有限的特定领域数据集使 用机器学习容易产生过拟合而导致无法训练与学 习的问题,通过利用具有一定相似性的领域中已 训练好的较好优秀模型和样本构建满足任务需求 的模型,从而实现小数据集下构建良好模型的效果。 Faster R-CNN[2] 是目前基于区域卷积神经网 络系列的目标检测算法中综合性能最好的方法之 一,但其对多目标、小目标情况检测精度不高。 本文提出了一种基于 Faster R-CNN 的多任务增强 裂缝图像检测方法,以适应大坝在不同光照环 境,不同长度裂缝情况下的检测。同时提出了一 种基于 K-means 多源自适应平衡 TrAdaBoost 迁移 学习方法辅助网络训练,解决样本不足问题。 1 相关工作 根据卷积神经网络的使用方式,将基 于 CNN 目标检测算法[3-4] 分为两大类:基于区域建 议的深度学习目标检测算法和基于回归思想的深 度学习目标检测算法。前者的主流算法有:RCNN 算法[ 5 ] 、Fast R-CNN 算法[ 6 ] 和 Faster RCNN 算法。R-CNN 首次将神经网络应用在目标 检测算法上,在 Pascal VOC 2012 的数据集上将平 均精度 mAP 提升了 30%。Fast R-CNN 将候选框 识别分类和位置回归合成到一个网络中,不再对 网络进行分步训练,提高了训练速度。Faster RCNN 与 Fast R-CNN 最大的区别就是提出了区域 建议网络 (region proposal networks, RPN) 网络,极 大地提升了检测框的生成速度。基于回归思想的 深度学习目标检测的主流算法有:SSD 算法[ 7 ] 和 YOLO V2 算法[8]。SSD 算法和 YOLO 算法均 没有区域建议过程,极大地提高了检测速度,但 识别精度和位置回归精度不足。 从 20 世纪 90 年代起迁移学习开始逐渐进入 机器学习领域,受到研究者们的关注。常用的迁 移学习方法有 AdaBoost[9] 和 TrAdaBoost[10] 算法 等。AdaBoost 算法基本思想:当一个训练样本被 错误分类时候,对此样本增加样本权重,再次训 练时该样本分错的概率就会大大降低。TrAdaBoost 算法是由 AdaBoost 算法演变而来的,该算 法通过降低误分类的源域训练数据权重,增加误 分类的目标域训练数据权重,使得分类面朝正确 的方向移动并训练出强分类模型。Al-Stouhi 等 [11] 总结 TrAdaBoost 算法存在的问题,在此基础上进 行改进,提出一种动态 TrAdaboost (dynamic TrAdaboost, DtrA) 方法,DtrA 方法能够在迭代过程中 动态调整样本权重;郭勇[12] 在 DtrA 方法基础上 进一步改进,提出一种自适应 TrAdaBoost (adaptive TrAdaBoost, AtrA) 方法,AtrA 方法能够反映出 源领域训练数据集与目标领域训练数据集之间是 否具有相似性关系。 2 ME-Faster R-CNN 与 K-MABtrA 方法 本文提出了一种基于 Faster R-CNN 的多任务 增强裂缝图像检测的网络模型,以适应大坝在不 同光照环境、不同长度裂缝情况下的检测。同 时,提出了一种基于 K-means 多源自适应平衡 TrAdaBoost 迁移学习方法解决样本不足问题。本 文采用基于 K-MABtrA 迁移学习方法训练 MEFaster R-CNN 网络模型,该方法通过已准备的多 源裂缝图像数据集对卷积神经网络的参数进行预 训练,然后使用预训练得到的网络权重作为初始 权值,迁移到目标数据集上进行微调,得到适用 于大坝裂缝检测的模型。 2.1 ME-Faster R-CNN 模型 ME-Faster R-CNN 在 Faster R-CNN 模型基础 上进行改进,改进之处如图 1 所示。其中,特征提 取部分:选取轻量级的 ResNet-50 作为卷积神经 网络;特征融合部分以及候选区域生成部分:改 进使用多任务增强 RPN 模型,改善锚盒尺寸大小 提高 Faster R-CNN 搜索能力,提高检测识别精 度;检测处理部分:特征图和选择区域建议经过 感兴趣区域 (ROI) 池、全连接 (FC) 层分别发送给 边界回归器和 SVM 分类器得到分类与回归结果。 图像 卷积 神经网络 ROI池化 全连接层 候选框回归 SVM RPN 数据输入部分 特征提取部分 特征融合及候 选区域生成 检测处理部分 多RPN模型 选取残差网络 ResNet-50 基本框架 改进之处 改变anchor 大小尺寸 图 1 ME-Faster R-CNN 模型改进之处 Fig. 1 Improvements of ME-Faster R-CNN 第 2 期 毛莺池,等:基于 Faster R-CNN 的多任务增强裂缝图像检测方法 ·287·
·288· 智能系统学报 第16卷 ME-Faster R-CNN检测流程主要分为3个部 CNN模型结构中只有一个RPN,RPN使用最后一 分,分别是特征提取、特征融合以及候选区域生 个卷积层获得特征图。称之为原始RPN,其结 成、检测处理。 构如图2(a)所示,输入图像大小为224×224,原 1)特征提取:本文选用ResNet-50深度残差网 始RPN在网络中感受野要远远大于224×224,仅 络)作为大坝裂缝图像特征提取器,通过5级 能获得少量典型裂缝特征。然而,图像中裂缝存 ResNet-50将图片转换成特征图。 在不同大小和比例。如果检测到裂缝大小对于检 2)特征融合以及候选区域生成:将所得特征 测区域太大,则检测区域周围多余裂缝形状可能 图输人多任务增强RPN模型,并改善RPN模型 会被视为噪音。如果检测到裂缝大小对于检测区 的锚盒尺寸和大小以提高检测识别精度,最后生 域太小,RPN将无法生成ROI。因此,原始 成候选框。具体方法如下: RPN的功能不足以检测不同大小和比例的完整 ①多任务增强RPN方法:最初Faster R- 裂缝对象。 ConvI_x Conv2_x Conv3_x Conv4_x Conv5_x Bbox ROI Pooling Layer FC6 FC7 FC8 Class Input ROI Score RPN 619×619 (a)原始RPN模块 Convl x Conv2_x Conv3_x Conv4_x Conv5_x Bbox ROI Pooling Layer FC6 FC7 FC8 Input Class Score ROI RPNI 146×146 ROI-Merge Layer RPN2 229×229 RPN3 619×619 (b)多任务增强RPN模块 图2原始RPN模型与多任务增强RPN模型 Fig.2 Primitive RPN module &multi-task enhanced RPN module 针对以上问题,ME-Faster R-CNN方法提出一 Merge Layer仅输出一个数组。为了避免重复的 种多任务增强RPN方法,其结构如图2(b)所示。 ROI和低的ROI裂缝似然分数,本文使用非极大 该方法在ResNet-50的基础上引入多个RPN来产 值抑制方法,不同卷积层后RPN输出的候选区域 生ROL,提取不同大小特征图。具体是在ResNet- 中,在对应位置两ROI的交并比大于0.7的 50的第3卷积层Cov3x后加入一个RPN模块,ROI为同一ROI。具体方法为,3个卷积层后 其感受野大小为146×146,用来检测较小目标;同 RPN输出的候选区域均带有建议得分,该分数对 时在ResNet-50的第4卷积层Conv4x后加入一 应的是目标的可能性,在对应位置选取分数最高 个RPN模块,其感受野大小为229×229,用来检 的一个ROI区域,另外两层对应位置的ROI与所 测较大目标;在ResNet-.50的第5卷积层Conv5_x选ROI交并比IoU若大于0.7,则认为是同一 之后利用多RPN任务可以输出图像总体信息。 ROI,ROI-Merge Layer的输出数组中对应位置仅 由于每个RPN输出独立的ROI数组,为聚集 输出该得分最高的数组。在使用非极大值抑制方 和选择有效的区域,多任务增强RPN方法提供 法之后,选择前100个值较高的ROI。因此,RO ROI-Merge Layer用于接受独立ROI数组,ROI- Merge Layer只需要调整超参数即可控制ROI的
ME-Faster R-CNN 检测流程主要分为 3 个部 分,分别是特征提取、特征融合以及候选区域生 成、检测处理。 1) 特征提取:本文选用 ResNet-50 深度残差网 络 [13] 作为大坝裂缝图像特征提取器,通过 5 级 ResNet-50 将图片转换成特征图。 2) 特征融合以及候选区域生成:将所得特征 图输入多任务增强 RPN 模型,并改善 RPN 模型 的锚盒尺寸和大小以提高检测识别精度,最后生 成候选框。具体方法如下: ①多任务增强 RPN 方法:最初 Faster R- 224×224 224×224 CNN 模型结构中只有一个 RPN,RPN 使用最后一 个卷积层获得特征图[2]。称之为原始 RPN,其结 构如图 2(a) 所示,输入图像大小为 ,原 始 RPN 在网络中感受野要远远大于 ,仅 能获得少量典型裂缝特征。然而,图像中裂缝存 在不同大小和比例。如果检测到裂缝大小对于检 测区域太大,则检测区域周围多余裂缝形状可能 会被视为噪音。如果检测到裂缝大小对于检测区 域太小, R P N 将无法生 成 ROI。因此,原 始 RPN 的功能不足以检测不同大小和比例的完整 裂缝对象。 ROI Pooling Layer FC6 FC7 Bbox Class Score RPN Input ROI Conv1_x Conv2_x Conv3_x Conv4_x Conv5_x 619×619 FC8 (a) 原始RPN模块 ROI Pooling Layer FC6 FC7 Bbox Class Score RPN3 Input ROI Conv1_x Conv2_x Conv3_x Conv4_x Conv5_x 229×229 FC8 RPN2 RPN1 146×146 619×619 ROI-Merge Layer (b) 多任务增强RPN模块 图 2 原始 RPN 模型与多任务增强 RPN 模型 Fig. 2 Primitive RPN module &multi-task enhanced RPN module 146×146 229×229 针对以上问题,ME-Faster R-CNN 方法提出一 种多任务增强 RPN 方法,其结构如图 2(b) 所示。 该方法在 ResNet-50 的基础上引入多个 RPN 来产 生 ROI,提取不同大小特征图。具体是在 ResNet- 50 的第 3 卷积层 Conv3_x 后加入一个 RPN 模块, 其感受野大小为 ,用来检测较小目标;同 时在 ResNet-50 的第 4 卷积层 Conv4_x 后加入一 个 RPN 模块,其感受野大小为 ,用来检 测较大目标;在 ResNet-50 的第 5 卷积层 Conv5_x 之后利用多 RPN 任务可以输出图像总体信息。 由于每个 RPN 输出独立的 ROI 数组,为聚集 和选择有效的区域,多任务增强 RPN 方法提供 ROI-Merge Layer 用于接受独立 ROI 数组,ROIMerge Layer 仅输出一个数组。为了避免重复的 ROI 和低的 ROI 裂缝似然分数,本文使用非极大 值抑制方法,不同卷积层后 RPN 输出的候选区域 中,在对应位置 两 R OI 的交并比大 于 0 . 7 的 ROI 为同一 ROI。具体方法为, 3 个卷积层后 RPN 输出的候选区域均带有建议得分,该分数对 应的是目标的可能性,在对应位置选取分数最高 的一个 ROI 区域,另外两层对应位置的 ROI 与所 选 ROI 交并比 IoU 若大于 0.7,则认为是同一 ROI,ROI-Merge Layer 的输出数组中对应位置仅 输出该得分最高的数组。在使用非极大值抑制方 法之后,选择前 100 个值较高的 ROI。因此,ROIMerge Layer 只需要调整超参数即可控制 ROI 的 ·288· 智 能 系 统 学 报 第 16 卷
第2期 毛鸴池,等:基于Faster R-CNN的多任务增强裂缝图像检测方法 ·289· 数量。 重新对相应图像小块灰度均值进行划分,将每个 ②改善RPN模型的锚盒尺寸和大小:Faster 图像矩阵小块赋给最相近的类: R-CNN模型经过卷积层提取特征图.然后特征图 输入RPN区域进行特征融合以及生成候选区域, dis(xi.y ij=1,2,…,n (1) 此时特征图上每个像素点映射不同比例宽度锚 式中:dis(cy)为数据对象x和y;之间的距离。 点,每个锚点放置若干个不同大小的锚,为解决 该值越大,说明x和y越相似;反之x和y差距 不同尺度间隔的锚盒搜索能力不平衡的问题,本 越大。 文设计了一种新型锚盒,新型锚盒尺度为: ④重新计算每个有变化的图像小块像素灰度 50×50、200×200、350×350和500×500,其中, 均值的质心; 50×50和200×200适用于较小的裂缝检测, ⑤重复上述步骤3)、4)直至各个数据类的集 350×350和500×500适用于较大的裂缝检测。这 合中心不再发生变化为止。 4种尺度每种尺寸按1:1,1:2,2:1的长宽比例缩 开始 放,共12种尺度作为RPN需要评估的候选框,在 预测时候选框的顺序是固定的。RPN的目标就 输入多源图片 是对原图中的每个锚点对应的12个框,预测其是 K-means聚类 否是一个存在目标的框。框与真值框的IoU>0.7 剔除与目标数据 K-means图像聚类算法 差异大的图片 就认为这个框是一个候选框,反之,则不是。 明 2.2K-MABtrA方法 校正系数 最终平衡法 多源自适应平衡 自 TrAdaBoosti迁移学习门自适应回补参数 针对大坝裂缝图像较少,训练样本分布不均 应平 衡,以及TrAdaBoost算法在训练过程中易削弱辅 是否满意 助数据集作用的问题,本节提出一种基于K TrAdaBoost means的多源自适应平衡TrAdaBoost的迁移学习 移 方法K-MABtrA,使用迁移学习充分利用多个领 输出分类器 域的大量相关训练集,动态调整样本权值,训练 法 出网络的强分类器,提高大坝裂缝检测的准确 结束 率。如图3所示为基于K-means的多源自适应平 图3K-MABtrA方法流程图 衡TrAdaBoost迁移学习方法的过程,主要分为两 Fig.3 Flow chart of K-MABtrA method 个阶段:K-means图像聚类方法和多源自适应 2)多源自适应平衡TrAdaBoost迁移学习:利 平衡TrAdaBoost迁移学习。 用不同领域裂缝图像和真实大坝裂缝图像一一组 l)K-means图像聚类方法:通过K-means图 合进行训练,生成基分类器;在TrAdaBoost基础 像聚类方法,利用欧式距离将图像进行聚类排 上引入校正系数回,避免由于迭代次数的增加,导 序。将聚类距离远的图片从裂缝图像库中删除, 致源领域权重下降过快,与目标源领域权重之间 有利于后续分类器的训练,提高训练效率。K代 差距过大的问题;在校正系数中引入自适应回补 表聚类质心数目,means表示簇内数据的均值。 参数),反映源领域训练数据集与目标领域训练 K-means图像聚类方法具体步骤如下: 数据集之间是否具有相似性关系,提高方法检测 ①首先将图像库中图像X(i=1,2,…,n)进行 性能;最后,使用最终平衡权重法,使最终得到的 灰度化,依次存储到一维矩阵Dx中; 目标源数据集与各领域裂缝数据集重要度一致。 ②接着以10像素长度,3像素移动步长依次 ①增加校正系数更新源领域样本的权值 进行分块存储,记录每小块的首位置,得到n个像 迁移学习在训练过程在,各领域辅助训练集 素块数据集,从中任意选择30个图像小块的灰度 随着迭代次数增加得到的权值不断减小以至于与 均值作为初始聚类中心; 目标数据集不相关,无法起到辅助目标数据集学 ③根据每个图像矩阵小块的灰度均值,利用 习的作用。为了更好地利用各领域辅助训练集和 欧几里得距离,如式(1)所示,计算这些对象与 目标数据集训练,在TrAdaBoost基础上增加校正 30个图像样本聚类中心的距离;并根据最小距离 系数更新源领域样本的权值。当迭代次数m不
数量。 50×50 200×200 350×350 500×500 50×50 200×200 350×350 500×500 IoU > 0.7 ②改善 RPN 模型的锚盒尺寸和大小:Faster R-CNN 模型经过卷积层提取特征图,然后特征图 输入 RPN 区域进行特征融合以及生成候选区域, 此时特征图上每个像素点映射不同比例宽度锚 点,每个锚点放置若干个不同大小的锚,为解决 不同尺度间隔的锚盒搜索能力不平衡的问题,本 文设计了一种新型锚盒,新型锚盒尺度为: 、 、 和 ,其中, 和 适用于较小的裂缝检测, 和 适用于较大的裂缝检测。这 4 种尺度每种尺寸按 1∶1,1∶2,2∶1 的长宽比例缩 放,共 12 种尺度作为 RPN 需要评估的候选框,在 预测时候选框的顺序是固定的。RPN 的目标就 是对原图中的每个锚点对应的 12 个框,预测其是 否是一个存在目标的框。框与真值框的 就认为这个框是一个候选框,反之,则不是。 2.2 K-MABtrA 方法 针对大坝裂缝图像较少,训练样本分布不均 衡,以及 TrAdaBoost 算法在训练过程中易削弱辅 助数据集作用的问题,本节提出一种基 于 Kmeans 的多源自适应平衡 TrAdaBoost 的迁移学习 方法 K-MABtrA,使用迁移学习充分利用多个领 域的大量相关训练集,动态调整样本权值,训练 出网络的强分类器,提高大坝裂缝检测的准确 率。如图 3 所示为基于 K-means 的多源自适应平 衡 TrAdaBoost 迁移学习方法的过程,主要分为两 个阶段:K-means 图像聚类方法[14] 和多源自适应 平衡 TrAdaBoost 迁移学习。 1) K-means 图像聚类方法:通过 K-means 图 像聚类方法,利用欧式距离将图像进行聚类排 序。将聚类距离远的图片从裂缝图像库中删除, 有利于后续分类器的训练,提高训练效率。K 代 表聚类质心数目,means 表示簇内数据的均值。 K-means 图像聚类方法具体步骤如下: Xi(i = 1,2,··· ,n) DX ①首先将图像库中图像 进行 灰度化,依次存储到一维矩阵 中; ②接着以 10 像素长度,3 像素移动步长依次 进行分块存储,记录每小块的首位置,得到 n 个像 素块数据集,从中任意选择 30 个图像小块的灰度 均值作为初始聚类中心; ③根据每个图像矩阵小块的灰度均值,利用 欧几里得距离,如式 (1) 所示,计算这些对象与 30 个图像样本聚类中心的距离;并根据最小距离 重新对相应图像小块灰度均值进行划分,将每个 图像矩阵小块赋给最相近的类; dis(xi , yj)= ∑d k=1 (xik − xjk) 2 1 2 ,i, j = 1,2,··· ,n (1) dis(xi , yj) xi yj xi yj xi yj 式中: 为数据对象 和 之间的距离。 该值越大,说明 和 越相似;反之 和 差距 越大。 ④重新计算每个有变化的图像小块像素灰度 均值的质心; ⑤重复上述步骤 3)、4) 直至各个数据类的集 合中心不再发生变化为止。 开始 K-means聚类 剔除与目标数据 差异大的图片 输入多源图片 多源自适应平衡 TrAdaBoost迁移学习 是否满意 Y N K-means图像聚类算法 TrAdaBoost 校正系数 最终平衡法 自适应回补参数 输出分类器 结束 多源自适应平衡迁移学习方法 图 3 K-MABtrA 方法流程图 Fig. 3 Flow chart of K-MABtrA method 2) 多源自适应平衡 TrAdaBoost 迁移学习:利 用不同领域裂缝图像和真实大坝裂缝图像一一组 合进行训练,生成基分类器;在 TrAdaBoost 基础 上引入校正系数[12] ,避免由于迭代次数的增加,导 致源领域权重下降过快,与目标源领域权重之间 差距过大的问题;在校正系数中引入自适应回补 参数[13] ,反映源领域训练数据集与目标领域训练 数据集之间是否具有相似性关系,提高方法检测 性能;最后,使用最终平衡权重法,使最终得到的 目标源数据集与各领域裂缝数据集重要度一致。 ① 增加校正系数更新源领域样本的权值 m 迁移学习在训练过程在,各领域辅助训练集 随着迭代次数增加得到的权值不断减小以至于与 目标数据集不相关,无法起到辅助目标数据集学 习的作用。为了更好地利用各领域辅助训练集和 目标数据集训练,在 TrAdaBoost 基础上增加校正 系数更新源领域样本的权值。当迭代次数 不 第 2 期 毛莺池,等:基于 Faster R-CNN 的多任务增强裂缝图像检测方法 ·289·
·290· 智能系统学报 第16卷 断增大,各个领域辅助训练集都能被正确回归, 之和,即 当m次迭代结束后,各个辅助领域样本权值之和为 Bm=(1-)+(1-e) (10) 第m+1次迭代后辅助领域数据样本权值: 5-2-2= (2) B"w"al()-3 B"wal-s Sa+Sb 、B,w7+2nsw3(1-3 式中:n为辅助训练集a中样本个数;w为a中 B"wal 各训练样本权重。 (11) 目标数据集b中预测样本正确的样本权值不 ③最终平衡权重法 变,b为目标数据集b中样本个数,w为b中训 最后,循环达到设定迭代次数M,得到强学 练样本权重,为弱分类器在b上的错误率,正 习器。但在迭代后,目标数据集与源数据集的权 确样本的权值之和为 重已经严重偏离,所以,造成最终分类器也过于 Sh,=6w8(1-W) (3) 偏向目标小数据集的问题。针对上述问题,在最 目标数据集b中预测错误样本需要更新Pm, 终分类器生成方式中引入最终平衡权重法。最终 平衡权重法的基本概念是:在迭代过程中,源数 .=二,则b中错误样本的权值之和S为 据权重不断下降,目标数据权重不断增加,迭代 Sb nowsscom =nowB(1-s6) (4) 结束后,源数据权重与目标数据权重之间差距较 所有目标域样本权值之和,即正确样本和错 大,但在最终分类器生成形式上,将目标数据集 误样本权值之和: 最终权重重置为最后一次迭代中各领域辅助训练 S6=S6,+Sn=2n%wg(1-g) (5) 集权重的平均值,使最终得到的目标源数据集与 当m+1次迭代的辅助数据集样本权值分布为 各领域辅助训练集要度一致,提高算法的检测准 w 确率。 w1=3,+=nw+2,r0-支 (6) 3实验与结果 当迭代次数足够大时,各领域辅助训练集都 能被正确回归,迭代结束后,w+1=w,联系式(6) 3.1数据集介绍 可得: 目前公开的大坝裂缝图像数据库较少,为了 Sa+Sp=nawm+2ngws(1-sm)=1 (7) 实现对大坝裂缝图像检测与识别,从大坝日常监 设辅助数据集样本增加校正系数为C",其权 测过程以及Google图像搜索引擎中收集并整理 值变为 已标记好的裂缝图像组建成数据库。该数据库包 w+1=CMW/(CmS+S)= 含大坝、公路、混凝土墙壁和桥梁4个领域裂缝 C"w/[C"naw+2nw(1-s)] (8) 图像,其中大坝裂缝图像635张,其他领域裂缝图 由于此时辅助数据集样本权值稳定不变,即 片每个领域各2500张,总计8135张裂缝图片。 w1=w,根据关系式(7)和(8)可得校正系数为 3.2实验结果与分析 Cm=2(1-6) (9) 本次实验根据选取数据集的特点,选取 从式(9)可以看出,校正系数Cm与弱分类器 mAp(mean average precision)和检测评价函数交 在目标数据集b上的错误率负相关,辅助数据 并比lia(intersection over union,IoU)作为目标检测 集样本权值增加,对下一次迭代训练弱分类器的 算法的评价指标。mAP作为目标检测中用于衡 影响增加;反之对下一次迭代训练弱分类器的影 量识别精度指标;oU表示感兴趣区域和标定区 响减小。因此,在TrAdaBoost算法基础上加入校 域的重叠率。 正系数Cm能够同时保持目标数据集和辅助数据 本实验主要从以下4个方面对基于Faster R: 集样本权值得到收敛。 CNN参数迁移的裂缝图像检测训练方法的优劣 ②引入自适应回补参数 进行对比分析: 然而,即使较低时,弱分类器对源领域训 1)视觉对比分析 练集的分类效果也会存在差异,这种差异同样可 在裂缝检测过程中,对裂缝图像提取感兴趣 以反映出源领域训练集与目标领域训练集之间的 区域,并对感兴趣区域进行裂缝特征提取,通过 相关性。为了反映这种相似性关系,在校正系数 训练好的分类器进行裂缝检测识别后,每个感兴 中引入自适应回补参数,自适应回补参数为基分 趣区域边框都会得到一个分数,即置信度。随机 类器在辅助数据集和目标数据集上的分类正确率 选取3组实验结果进行视觉对比分析如图4所
m 断增大,各个领域辅助训练集都能被正确回归, 当 次迭代结束后,各个辅助领域样本权值之和为 S n = ∑na i=1 w m+1 ai = ∑na i=1 w m ai = naw m a (2) na a w m 式中: 为辅助训练集 中样本个数; a 为 a 中 各训练样本权重。 b nb b w m b b ε m b b 目标数据集 中预测样本正确的样本权值不 变, 为目标数据集 中样本个数, 为 中训 练样本权重, 为弱分类器在 上的错误率,正 确样本的权值之和为 S b1=nbw m b (1−ε m b ) (3) b φm φm = ε m b 1−ε m b b S b2 目标数据集 中预测错误样本需要更新 , ,则 中错误样本的权值之和 为 S b2 = nbw m b ε m b φ −1 m == nbw m b (1−ε m b ) (4) 所有目标域样本权值之和,即正确样本和错 误样本权值之和: S b = S b1 +S b2 = 2nbw m b (1−ε m b ) (5) 当 m+1 次迭代的辅助数据集样本权值分布为 w m+1 a = w m a S a +S b = w m a nawm a +2nbw m b (1−ε m b ) (6) w m+1 a = w m a 当迭代次数足够大时,各领域辅助训练集都 能被正确回归,迭代结束后, ,联系式 (6) 可得: S a +S b=naw m a +2nbw m b (1−ε m b )=1 (7) C 设辅助数据集样本增加校正系数为 m ,其权 值变为 w m+1 a = C mw m a /(C mS a +S b) = C mw m a / [ C mnaw m a +2nbw m b (1−ε m b ) ] (8) w m+1 a = w m a 由于此时辅助数据集样本权值稳定不变,即 ,根据关系式 (7) 和 (8) 可得校正系数为 C m = 2(1−ε m b ) (9) C m b ε m b C m 从式 (9) 可以看出,校正系数 与弱分类器 在目标数据集 上的错误率 负相关,辅助数据 集样本权值增加,对下一次迭代训练弱分类器的 影响增加;反之对下一次迭代训练弱分类器的影 响减小。因此,在 TrAdaBoost 算法基础上加入校 正系数 能够同时保持目标数据集和辅助数据 集样本权值得到收敛。 ② 引入自适应回补参数 然而,即使 εb 较低时,弱分类器对源领域训 练集的分类效果也会存在差异,这种差异同样可 以反映出源领域训练集与目标领域训练集之间的 相关性。为了反映这种相似性关系,在校正系数 中引入自适应回补参数,自适应回补参数为基分 类器在辅助数据集和目标数据集上的分类正确率 之和,即 B m = (1−ε m b )+(1−ε m a ) (10) 第 m+1 次迭代后辅助领域数据样本权值: w m+1 a = B mw m a α | f(xi)−yi| S a+S b = B mw m a α | f(xi)−yi| Bmnawm a +2nbw m b (1−ε m b ) = B mw m a α | f(xi)−yi| (11) ③ 最终平衡权重法 最后,循环达到设定迭代次数 M ,得到强学 习器。但在迭代后,目标数据集与源数据集的权 重已经严重偏离,所以,造成最终分类器也过于 偏向目标小数据集的问题。针对上述问题,在最 终分类器生成方式中引入最终平衡权重法。最终 平衡权重法的基本概念是:在迭代过程中,源数 据权重不断下降,目标数据权重不断增加,迭代 结束后,源数据权重与目标数据权重之间差距较 大,但在最终分类器生成形式上,将目标数据集 最终权重重置为最后一次迭代中各领域辅助训练 集权重的平均值,使最终得到的目标源数据集与 各领域辅助训练集要度一致,提高算法的检测准 确率。 3 实验与结果 3.1 数据集介绍 目前公开的大坝裂缝图像数据库较少,为了 实现对大坝裂缝图像检测与识别,从大坝日常监 测过程以及 Google 图像搜索引擎中收集并整理 已标记好的裂缝图像组建成数据库。该数据库包 含大坝、公路、混凝土墙壁和桥梁 4 个领域裂缝 图像,其中大坝裂缝图像 635 张,其他领域裂缝图 片每个领域各 2500 张,总计 8135 张裂缝图片。 3.2 实验结果与分析 IoU 本次实验根据选取数据集的特点,选 取 mAP[15] (mean average precision) 和检测评价函数交 并比[16] (intersection over union,IoU) 作为目标检测 算法的评价指标。mAP 作为目标检测中用于衡 量识别精度指标; 表示感兴趣区域和标定区 域的重叠率。 本实验主要从以下 4 个方面对基于 Faster RCNN 参数迁移的裂缝图像检测训练方法的优劣 进行对比分析: 1) 视觉对比分析 在裂缝检测过程中,对裂缝图像提取感兴趣 区域,并对感兴趣区域进行裂缝特征提取,通过 训练好的分类器进行裂缝检测识别后,每个感兴 趣区域边框都会得到一个分数,即置信度。随机 选取 3 组实验结果进行视觉对比分析如图 4 所 ·290· 智 能 系 统 学 报 第 16 卷
第2期 毛鸴池,等:基于Faster R-CNN的多任务增强裂缝图像检测方法 ·291· 示。以图4(a)为例,其中,原图中央有一条长度 Net-50和ResNet--l01网络作为特征提取基准网 和开合度明显的裂缝痕迹,其下方有一条短且开 络,Faster R-CNN作为目标检测模型进行实验。 合度不明显的裂缝痕迹。Faster R-CNN能够检测 由表1可得,在同样数据集的训练测试下, 出长度和开合度明显的裂缝,在其下方的裂缝并 ZF-Net可以达到66.51%的mAP值,VGG-l6网络 未准确检测出来。而ME-Faster R-CNN模型不仅 可以达到71.90%的mAP值,而ResNet网络的 提高IoU重叠度,更为准确地检测出长裂缝,同 mAP值可以超过78%,提高了6个百分点,网络 时能够准确检测出下方小裂缝痕迹,做到不误检 的检测准确度得到提高,由表1可以看出ResNet- 也不漏检。实验结果表明,在相同的实验条件 50比ResNet-.l01的检测精度略低,但是ResNet-. 下,ME-Faster R-CNN方法不仅能提高检测精度, 50的参数量为ResNet--101参数量的1/2,能够有 而且在应对目标小、多目标情况时,能获得很好 效减少网络权重数量,加速模型训练,综合训练 的检测效果。 速度与检测精度本文选取ResNet-50为基准 模型。 表1不同基准网络模型的准确度 Table 1 Accuracy of different baseline network models 基准网络模型 mAP/% 裂缝原图 Faster R-CNN ME-Faster R-CNN 1 ZF-Net 66.51 (a)第1组实验 2 VGG-16 71.90 3 ResNet-50 78.46 ResNet-101 80.00 3)与不同目标检测算法对比分析 裂缝原图 Faster R-CNN ME-Faster R-CNN (b)第2组实验 该部分以ResNet-50网络为基准网络,以 SSD算法、YOLO V2算法、Faster R-CNN算法和 ME-Faster R-CNN算法作目标检测模型进行 实验。 表2给出不同目标检测算法获得的平均 IoU、召回率、准确度以及平均精度。其中,ME 裂缝原图 Faster R-CNN ME-Faster R-CNN (c)第3组实验 Faster R-CNN算法的平均IoU是最高的,表明 图4视觉对比分析 ME-Faster R-CNN算法在裂缝位置检测的准确性 Fig.4 Visual contrast analysis 方面更优异一些,且其mAP值也是最大的,达到 2)与不同基准网络模型之间对比分析 80.02%,表明ME-Faster R-CNN检测模型的综合 该部分采用ZF网络17、VGG-l6图网络、Res- 性能很好。 表2不同目标检测算法对比分析 Table 2 Comparison of different target detection algorithms 目标检测算法 平均1oU/% 召回率% 准确度% mAP/% SSD算法 81.11 74.25 77.63 75.94 YOLO V2算法 73.96 75.39 79.07 77.23 Faster R-CNN算法 81.46 77.06 79.86 78.46 ME-Faster R-CNN算法 82.52 76.53 83.51 80.02 此外,注意到裂缝尺寸大小对准确度也会存 样本,其尺寸大小在[0,50]范围内,第2组包含 在一定影响。因此,将采集到的真实大坝裂缝图 100个样本,其尺寸大小在[50,200]范围内,第 像根据其尺寸大小分为3组。第1组包含100个 3组包含100个样本,其尺寸大小超过200像素
IoU 示。以图 4(a) 为例,其中,原图中央有一条长度 和开合度明显的裂缝痕迹,其下方有一条短且开 合度不明显的裂缝痕迹。Faster R-CNN 能够检测 出长度和开合度明显的裂缝,在其下方的裂缝并 未准确检测出来。而 ME-Faster R-CNN 模型不仅 提高 重叠度,更为准确地检测出长裂缝,同 时能够准确检测出下方小裂缝痕迹,做到不误检 也不漏检。实验结果表明,在相同的实验条件 下,ME-Faster R-CNN 方法不仅能提高检测精度, 而且在应对目标小、多目标情况时,能获得很好 的检测效果。 裂缝原图 Faster R-CNN ME-Faster R-CNN 裂缝原图 Faster R-CNN ME-Faster R-CNN Faster R-CNN ME-Faster R-CNN 裂缝原图 (a) 第1组实验 (b) 第2组实验 (c) 第3组实验 图 4 视觉对比分析 Fig. 4 Visual contrast analysis 2) 与不同基准网络模型之间对比分析 该部分采用 ZF 网络[17] 、VGG-16[18] 网络、ResNet-50 和 ResNet-101 网络作为特征提取基准网 络,Faster R-CNN 作为目标检测模型进行实验。 1/2 由表 1 可得,在同样数据集的训练测试下, ZF-Net 可以达到 66.51% 的 mAP 值,VGG-16 网络 可以达到 71.90% 的 mAP 值 ,而 ResNet 网络的 mAP 值可以超过 78%,提高了 6 个百分点,网络 的检测准确度得到提高,由表 1 可以看出 ResNet- 50 比 ResNet-101 的检测精度略低,但是 ResNet- 50 的参数量为 ResNet-101 参数量的 ,能够有 效减少网络权重数量,加速模型训练[14] ,综合训练 速度与检测精度本文选取 ResNet-50 为基准 模型。 表 1 不同基准网络模型的准确度 Table 1 Accuracy of different baseline network models # 基准网络模型 mAP/% 1 ZF-Net 66.51 2 VGG-16 71.90 3 ResNet-50 78.46 4 ResNet-101 80.00 3) 与不同目标检测算法对比分析 该部分以 ResNet-50 网络为基准网络,以 SSD 算法、YOLO V2 算法、Faster R-CNN 算法和 ME-Faster R-CNN 算法作目标检测模型进行 实验。 IoU IoU 表 2 给出不同目标检测算法获得的平均 、召回率、准确度以及平均精度。其中,MEFaster R-CNN 算法的平均 是最高的,表明 ME-Faster R-CNN 算法在裂缝位置检测的准确性 方面更优异一些,且其 mAP 值也是最大的,达到 80.02%,表明 ME-Faster R-CNN 检测模型的综合 性能很好。 表 2 不同目标检测算法对比分析 Table 2 Comparison of different target detection algorithms 目标检测算法 平均IoU/% 召回率/% 准确度/% mAP/% SSD算法 81.11 74.25 77.63 75.94 YOLO V2算法 73.96 75.39 79.07 77.23 Faster R-CNN算法 81.46 77.06 79.86 78.46 ME-Faster R-CNN算法 82.52 76.53 83.51 80.02 此外,注意到裂缝尺寸大小对准确度也会存 在一定影响。因此,将采集到的真实大坝裂缝图 像根据其尺寸大小分为 3 组。第 1 组包含 100 个 样本,其尺寸大小在 [0,50] 范围内,第 2 组包含 100 个样本,其尺寸大小在 [50,200] 范围内,第 3 组包含 100 个样本,其尺寸大小超过 200 像素。 第 2 期 毛莺池,等:基于 Faster R-CNN 的多任务增强裂缝图像检测方法 ·291·
·292· 智能系统学报 第16卷 各目标检测算法在不同尺寸裂缝图像的准确度如 表3不同迁移学习方法对比分析 图5所示。 Table 3 Comparison of different transfer learning methods % omAP(small) Overall mAP mAP(medium)mAP(large) 100 迁移学习方法 召回率 准确率 mAP 0 2 54.73 55.19 54.96 TrAdaBoost 5 64.94 66.35 65.65 20 10 66.18 71.29 68.74 SSD YOLO V2 Faster R-CNN ME-FasterR-CNN 2 60.31 62.37 61.34 DTrA 5 65.93 70.13 68.12 10 71.26 75.41 73.34 图5不同尺寸裂缝图像的准确度 2 64.95 71.64 68.12 Fig.5 Accuracy of crack images with different sizes ATrA 5 71.13 76.81 从图5可以看出,Faster R-CNN系列模型检 73.97 测的准确度要整体优于SSD算法和YOLO V2算 10 74.28 81.17 77.73 法,所有的检测算法在较大裂缝图像上都能表现 2 70.09 78.01 74.05 得最好,而在小裂缝图像的检测上,准确度却不 K-MABtrA 72.81 79.73 76.27 是很高。Faster R-CNN算法和ME-Faster R- o 76.53 83.51 80.02 CNN算法在较大裂缝图像检测性能上实力相当, 而在小裂缝图像的检测上,ME-Faster R-CNN算 4 结束语 法要更优于Faster R-CNN算法。综上所述,ME Faster R-CNN算法在保持一定准确度的基础上, 经实验验证,本文提出的ME-Faster R- 在面对小目标检测难度较大的情况,也能获得很 CNN方法在多目标、小目标检测准确性方面更优 好的效果。 异;且本文提出的迁移学习方法更有效地解决了 4)迁移学习对比实验 样本不足的问题。本文所提出方法的局限性在 该部分以ResNet-50作为基准网络,ME- 于ME-Faster R-CNN相比于Faster R-CNN只在特 Faster R-CNN作为目标检测模型,目标数据集样 定检测任务中准确度较高,比如本文的应用场 本占源训练集样本的比例为r,r取2%、5%和 景:大坝裂缝检测,或类似的检测任务。而对于 10%,分别用K-MABtrA方法、ATrA方法、 目标大小相似、亮度相同的目标检测其结果与 DTrA方法、TrAdaBoost迁移学习方法进行分类 FasterR-CNN所差无几o 器训练。 参考文献: 由表3可得出,同一方法,不同比例r下训练 得到的分类器,在一定的范围内随着比例,不断 [1]苏南.我国200米级高坝密集,安全风险不可轻视 增加,分类器的各评价指标都有所提升,说明在 [EB/OL].(2017-11-09).https://www.thepaper.cn/newsDe- 一定范围内目标源数据占总数据比例越大,分类 tail forward 1858088. 器的各评价指标越高,检测效果越好。在目标源 [2]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster 数据所占比例r相同情况下:ATrA和DTrA方法 R-CNN:towards real-time object detection with region 各评价指标均高于TrAdaBoost.,证明了引入校正 proposal networks[C]//Proceedings of the 28th Internation- al Conference on Neural Information Processing Systems. 系数和自适应回补参数的有效性。本文提出的 Cambridge,USA,2015:91-99. K-MABtrA方法各指标均高于ATrA方法。说明 [3]HABER E,RUTHOTTO L,HOLTHAM E,et al.Learn- K-MABtrA方法引入最终平衡权重法,使最终得 ing across scales-a multiscale method for convolution neur- 到的目标源数据集与各领域裂缝数据集重要度一 al networks[C]//Proceedings of the 23nd AAAI Confer- 致,提高算法的检测准确率。综上所述,K-MAB ence on Artificial Intelligence.2017. trA方法能够更多地利用其他领域的共享信息, [4]GERBER D,MEIER S,KELLERMANN W.Efficient tar- 得到更好的迁移学习效果,训练出强分类器,高 get activity detection based on recurrent neural 效地完成大坝裂缝图片的检测任务。 networks[C]//Proceedings of 2017 Hands-free Speech
各目标检测算法在不同尺寸裂缝图像的准确度如 图 5 所示。 100 80 60 40 20 mAP/% SSD YOLO V2 Faster R-CNN ME-FasterR-CNN mAP(small) Overall mAP mAP(medium) mAP(large) 图 5 不同尺寸裂缝图像的准确度 Fig. 5 Accuracy of crack images with different sizes 从图 5 可以看出,Faster R-CNN 系列模型检 测的准确度要整体优于 SSD 算法和 YOLO V2 算 法,所有的检测算法在较大裂缝图像上都能表现 得最好,而在小裂缝图像的检测上,准确度却不 是很高。Faster R-CNN 算法和 ME-Faster RCNN 算法在较大裂缝图像检测性能上实力相当, 而在小裂缝图像的检测上,ME-Faster R-CNN 算 法要更优于 Faster R-CNN 算法。综上所述,MEFaster R-CNN 算法在保持一定准确度的基础上, 在面对小目标检测难度较大的情况,也能获得很 好的效果。 4) 迁移学习对比实验 r r 该部分以 ResNet-50 作为基准网络, MEFaster R-CNN 作为目标检测模型,目标数据集样 本占源训练集样本的比例为 , 取 2%、5% 和 10% ,分别 用 K-MABtrA 方法、 ATrA 方法、 DTrA 方法、TrAdaBoost 迁移学习方法进行分类 器训练。 r r r 由表 3 可得出,同一方法,不同比例 下训练 得到的分类器,在一定的范围内随着比例 不断 增加,分类器的各评价指标都有所提升,说明在 一定范围内目标源数据占总数据比例越大,分类 器的各评价指标越高,检测效果越好。在目标源 数据所占比例 相同情况下:ATrA 和 DTrA 方法 各评价指标均高于 TrAdaBoost,证明了引入校正 系数和自适应回补参数的有效性。本文提出的 K-MABtrA 方法各指标均高于 ATrA 方法。说明 K-MABtrA 方法引入最终平衡权重法,使最终得 到的目标源数据集与各领域裂缝数据集重要度一 致,提高算法的检测准确率。综上所述,K-MABtrA 方法能够更多地利用其他领域的共享信息, 得到更好的迁移学习效果,训练出强分类器,高 效地完成大坝裂缝图片的检测任务。 表 3 不同迁移学习方法对比分析 Table 3 Comparison of different transfer learning methods % 迁移学习方法 r 召回率 准确率 mAP TrAdaBoost 2 54.73 55.19 54.96 5 64.94 66.35 65.65 10 66.18 71.29 68.74 DTrA 2 60.31 62.37 61.34 5 65.93 70.13 68.12 10 71.26 75.41 73.34 ATrA 2 64.95 71.64 68.12 5 71.13 76.81 73.97 10 74.28 81.17 77.73 K-MABtrA 2 70.09 78.01 74.05 5 72.81 79.73 76.27 10 76.53 83.51 80.02 4 结束语 经实验验证,本文提出 的 ME-Faster RCNN 方法在多目标、小目标检测准确性方面更优 异;且本文提出的迁移学习方法更有效地解决了 样本不足的问题。本文所提出方法的局限性在 于 ME-Faster R-CNN 相比于 Faster R-CNN 只在特 定检测任务中准确度较高,比如本文的应用场 景:大坝裂缝检测,或类似的检测任务。而对于 目标大小相似、亮度相同的目标检测其结果与 FasterR-CNN 所差无几。 参考文献: 苏南. 我国 200 米级高坝密集, 安全风险不可轻视 [EB/OL]. (2017-11-09).https://www.thepaper.cn/newsDetail_forward_1858088. [1] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, USA, 2015: 91−99. [2] HABER E, RUTHOTTO L, HOLTHAM E, et al. Learning across scales-a multiscale method for convolution neural networks[C]//Proceedings of the 23nd AAAI Conference on Artificial Intelligence. 2017. [3] GERBER D, MEIER S, KELLERMANN W. Efficient target activity detection based on recurrent neural networks[C]//Proceedings of 2017 Hands-free Speech [4] ·292· 智 能 系 统 学 报 第 16 卷
第2期 毛鸴池,等:基于Faster R-CNN的多任务增强裂缝图像检测方法 ·293· Communications and Microphone Arrays.San Francisco, International Seminar on Application for Technology of USA,2017:46-50. Information and Communication.Semarang,Indonesia, [5]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich 2018:26-30 feature hierarchies for accurate object detection and se- [15]AKCAY S.KUNDEGORSKI ME,WILLCOCKS C G, mantic segmentation[C]//Proceedings of 2014 IEEE Con- et al.Using deep convolutional neural network architec- ference on Computer Vision and Pattern Recognition(CV- tures for object classification and detection within X-ray PR).Columbus,USA,2014:580-587. baggage security imagery[J].IEEE transactions on in- [6]GIRSHICK R.Fast R-CNN[C]//Proceedings of the 2015 formation forensics and security,2018,13(9):2203-2215. IEEE International Conference on Computer Vision.Santi- [16]RAHMAN M A,WANG Yang.Optimizing intersection- ago,Chile,2015:1440-1448. over-union in deep neural networks for image segmenta- [7]LIU WEI,ANGUELOV D,ERHAN D,et al.SSD:single tion[C]//Proceedings of 12th International Symposium on shot MultiBox detector[C]//Proceedings of the 14th Advances in Visual Computing.Las Vegas,USA,2016: European Conference on Computer Vision.Amsterdam, 234-244. the Netherlands,2016:21-37. [17]ZEILER M D,FERGUS R.Visualizing and understand- [8]REDMON J,FARHADI A.YOLO9000:better,faster, ing convolutional networks[C]//Proceedings of 13th stronger[C]//Proceedings of 2017 IEEE Conference on European Conference on Computer Vision.Zurich, Computer Vision and Pattern Recognition.Honolulu,USA, Switzerland,2014:818-833. 2017:6517-6525 [18]SIMONYAN K,ZISSERMAN A.Very deep convolu- [9]KANG HH,LEE S W.YOU S H,et al.Novel vehicle de- tional networks for large-scale image recognition[Cl//Pro- tection system based on stacked DoG kernel and Ada- ceedings of 3rd International Conference on Learning Boost[J].PLoS one,2018,13(3):e0193733. Representations.San Diego,USA,2015. [10]DAI Wenyuan,YANG Qiang,XUE Guirong,et al. 作者简介: Boosting for transfer learning[C]//Proceedings of the 24th 毛莺池,教授,博士,博士生导师 International Conference on Machine Learning.New 主要研究方向为云计算和边缘计算、 York.USA.2007:193-200. 分布式技术和物联网数据分析。曾获 [11]AL-STOUHI S,REDDY C K.Adaptive boosting for 大禹水利科学技术奖一等奖:华能集 团科技进步奖二等奖:江苏省科学技 transfer learning using dynamic updates[C]//Joint 术奖三等奖:2018年度江苏省计算机 European Conference on Machine Learning and Know- 学会优秀科技工作者。发表学术论文 ledge Discovery in Databases.Berlin,Germany,2011: 50余篇。 60-75. [12]郭勇.基于单源及多源的迁移学习方法研究D1.西安: 唐江红,硕士研究生,主要研究方 西安电子科技大学,2013. 向为图像处理。 GUO Yong.Research of transfer learning based on single-source and multi-source[D].Xi'an:Xidian Uni- versity,2013. [13]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Deep residual learning for image recognition[C]//Proceed- ings of the 2016 IEEE Conference on Computer Vision 王静,硕士研究生,主要研究方向 and Pattern Recognition.Las Vegas,USA,2016: 为图像处理。 770-778. [14]WICAKSONO Y A,RIZALDY A,FAHRIAH S,et al. Improve image segmentation based on closed form mat- ting using K-means clustering[C]//Proceedings of 2017
Communications and Microphone Arrays. San Francisco, USA, 2017: 46−50. GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, USA, 2014: 580−587. [5] GIRSHICK R. Fast R-CNN[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1440−1448. [6] LIU WEI, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands, 2016: 21−37. [7] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 6517−6525. [8] KANG H H, LEE S W, YOU S H, et al. Novel vehicle detection system based on stacked DoG kernel and AdaBoost[J]. PLoS one, 2018, 13(3): e0193733. [9] DAI Wenyuan, YANG Qiang, XUE Guirong, et al. Boosting for transfer learning[C]//Proceedings of the 24th International Conference on Machine Learning. New York, USA, 2007: 193−200. [10] AL-STOUHI S, REDDY C K. Adaptive boosting for transfer learning using dynamic updates[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin, Germany, 2011: 60−75. [11] 郭勇. 基于单源及多源的迁移学习方法研究 [D]. 西安: 西安电子科技大学, 2013. GUO Yong. Research of transfer learning based on single-source and multi-source[D]. Xi’an: Xidian University, 2013. [12] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [13] WICAKSONO Y A, RIZALDY A, FAHRIAH S, et al. Improve image segmentation based on closed form matting using K-means clustering[C]//Proceedings of 2017 [14] International Seminar on Application for Technology of Information and Communication. Semarang, Indonesia, 2018: 26−30. AKCAY S, KUNDEGORSKI M E, WILLCOCKS C G, et al. Using deep convolutional neural network architectures for object classification and detection within X-ray baggage security imagery[J]. IEEE transactions on information forensics and security, 2018, 13(9): 2203–2215. [15] RAHMAN M A, WANG Yang. Optimizing intersectionover-union in deep neural networks for image segmentation[C]//Proceedings of 12th International Symposium on Advances in Visual Computing. Las Vegas, USA, 2016: 234−244. [16] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//Proceedings of 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 818−833. [17] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//Proceedings of 3rd International Conference on Learning Representations. San Diego, USA, 2015. [18] 作者简介: 毛莺池,教授,博士,博士生导师, 主要研究方向为云计算和边缘计算、 分布式技术和物联网数据分析。曾获 大禹水利科学技术奖一等奖;华能集 团科技进步奖二等奖;江苏省科学技 术奖三等奖;2018 年度江苏省计算机 学会优秀科技工作者。发表学术论文 50 余篇。 唐江红,硕士研究生,主要研究方 向为图像处理。 王静,硕士研究生,主要研究方向 为图像处理。 第 2 期 毛莺池,等:基于 Faster R-CNN 的多任务增强裂缝图像检测方法 ·293·