第14卷第4期 智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201905026 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190612.1619.002.html 基于改进的Faster R-CNN高压线缆目标检测方法 刘召',张黎明2,耿美晓,么军2,张金禄2,胡益菲2 (1.清研同创机器人(天津)有限公司,天津300300,2.国网天津市电力公司,天津300010) 摘要:利用带电作业机器人取代人类的手动作业,可以有效地减少高电压、强电场对人体的危害,大大提高 作业的效率。为解决带电作业机器人在复杂背景环境中对线缆目标的智能检测问题,提出基于改进的Faster R-CNN高压线缆目标检测方法。为了提高网络提取图像高级特征的能力,引入跳转连接并调整激活层、卷积 层的顺序:然后对候选框生成机制进行改进,提升网络对小目标检测的性能:最后利用ROI池化层提取每个区 域的特征,同时完成分类和框回归任务。通过构建高压线缆图像数据集,基于改进的Faster R-CNN模型进行大 量实验,最后取得了较好的精度和较快的速度。 关键词:日标检测:深度学习:高压线缆:复杂背景:小目标:带电作业:Faster R-CNN:区域候选 中图分类号:TP18,TP391文献标志码:A文章编号:1673-4785(2019)04-0627-08 中文引用格式:刘召,张黎明,耿美晓,等.基于改进的Faster R-CNN高压线缆目标检测方法.智能系统学报,2019,14(4): 627-634. 英文引用格式:LIUZhao,ZHANG Liming,GENG Meixiao,.etal.Object detection of high-voltage cable based on improved Faster R-CNNIJI.CAAI transactions on intelligent systems,2019,14(4):627-634. Object detection of high-voltage cable based on improved Faster R-CNN LIU Zhao',ZHANG Liming',GENG Meixiao',YAO Jun',ZHANG Jinlu',HU Yifei? (1.Tsinghua Tongchuang Robot Co.,Ltd,Tianjin 300300,China;2.State Grid Tianjin Electric Power Company,Tianjin 300010, China) Abstract:The use of live working robots to replace human manual operation can effectively reduce the harm of a high- voltage and strong electric field to the human body and considerably improve the working efficiency.To solve the intel- ligent high-voltage cable object detection problem for live working robots under a complicated background environ- ment,a high-voltage cable object detection method based on the improved Faster R-CNN is proposed.To improve the capability of extracting the high-level features of images in the network,skip connections are introduced and the order of the activation and convolution layers is adjusted.Then,the proposal bounding box generation mechanism is improved to enhance the performance of the proposed method for small object detection.Finally,the features of each region are ex- tracted using the ROl pooling layers,and the classification and bounding box regression tasks are accomplished at the same time.Through the construction of high-voltage cable image datasets and the performance of numerous experi- ments based on the improved Faster R-CNN model,good accuracy and fast speed have been achieved. Keywords:object detection;deep learning;high-voltage cable;complicated background;small object;live working, Faster R-CNN;region proposal 随着我国电力行业的升级改造,更加智能的 证,但现有高压带电作业机器人系统一般采用 带电作业机器人成为当前的研究热点。2009年 主从控制方式,依然是人工手动控制),需要借助 我国进行了高压带电作业机器人产品化样机的验 人眼判断目标的位置来进行操作。虽然在一定程 度上提高了工作效率保护了作业人员,但在高空 收稿日期:2019-05-14.网络出版日期:2019-06-13 基金项目:天津市智能制造科技重大专项(17 ZXZNGX00120) 高压环境下依然存在巨大的安全隐患,造成无法 通信作者:耿美晓.E-mail:lin@thtcrobot..com 挽回的安全和财产损失。因此,利用当前性能优
DOI: 10.11992/tis.201905026 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190612.1619.002.html 基于改进的 Faster R-CNN 高压线缆目标检测方法 刘召1 ,张黎明2 ,耿美晓1 ,么军2 ,张金禄2 ,胡益菲2 (1. 清研同创机器人 (天津) 有限公司,天津 300300; 2. 国网天津市电力公司,天津 300010) 摘 要:利用带电作业机器人取代人类的手动作业,可以有效地减少高电压、强电场对人体的危害,大大提高 作业的效率。为解决带电作业机器人在复杂背景环境中对线缆目标的智能检测问题,提出基于改进的 Faster R-CNN 高压线缆目标检测方法。为了提高网络提取图像高级特征的能力,引入跳转连接并调整激活层、卷积 层的顺序;然后对候选框生成机制进行改进,提升网络对小目标检测的性能;最后利用 ROI 池化层提取每个区 域的特征,同时完成分类和框回归任务。通过构建高压线缆图像数据集,基于改进的 Faster R-CNN 模型进行大 量实验,最后取得了较好的精度和较快的速度。 关键词:目标检测;深度学习;高压线缆;复杂背景;小目标;带电作业;Faster R-CNN;区域候选 中图分类号:TP18;TP391 文献标志码:A 文章编号:1673−4785(2019)04−0627−08 中文引用格式:刘召, 张黎明, 耿美晓, 等. 基于改进的 Faster R-CNN 高压线缆目标检测方法 [J]. 智能系统学报, 2019, 14(4): 627–634. 英文引用格式:LIU Zhao, ZHANG Liming, GENG Meixiao, et al. Object detection of high-voltage cable based on improved Faster R-CNN[J]. CAAI transactions on intelligent systems, 2019, 14(4): 627–634. Object detection of high-voltage cable based on improved Faster R-CNN LIU Zhao1 ,ZHANG Liming2 ,GENG Meixiao1 ,YAO Jun2 ,ZHANG Jinlu2 ,HU Yifei2 (1. Tsinghua Tongchuang Robot Co.,Ltd, Tianjin 300300, China; 2. State Grid Tianjin Electric Power Company, Tianjin 300010, China) Abstract: The use of live working robots to replace human manual operation can effectively reduce the harm of a highvoltage and strong electric field to the human body and considerably improve the working efficiency. To solve the intelligent high-voltage cable object detection problem for live working robots under a complicated background environment, a high-voltage cable object detection method based on the improved Faster R-CNN is proposed. To improve the capability of extracting the high-level features of images in the network, skip connections are introduced and the order of the activation and convolution layers is adjusted. Then, the proposal bounding box generation mechanism is improved to enhance the performance of the proposed method for small object detection. Finally, the features of each region are extracted using the ROI pooling layers, and the classification and bounding box regression tasks are accomplished at the same time. Through the construction of high-voltage cable image datasets and the performance of numerous experiments based on the improved Faster R-CNN model, good accuracy and fast speed have been achieved. Keywords: object detection; deep learning; high-voltage cable; complicated background; small object; live working; Faster R-CNN; region proposal 随着我国电力行业的升级改造,更加智能的 带电作业机器人成为当前的研究热点。2009 年 我国进行了高压带电作业机器人产品化样机的验 证 [1] ,但现有高压带电作业机器人系统一般采用 主从控制方式,依然是人工手动控制[2] ,需要借助 人眼判断目标的位置来进行操作。虽然在一定程 度上提高了工作效率保护了作业人员,但在高空 高压环境下依然存在巨大的安全隐患,造成无法 挽回的安全和财产损失。因此,利用当前性能优 收稿日期:2019−05−14. 网络出版日期:2019−06−13. 基金项目:天津市智能制造科技重大专项 (17ZXZNGX00120). 通信作者:耿美晓. E-mail:lin@thtcrobot.com. 第 14 卷第 4 期 智 能 系 统 学 报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019
·628· 智能系统学报 第14卷 良的深度学习方法代替人眼对线缆目标进行自动 模型引入到高压线缆及相关物体的目标检测任务 识别检测,研制更智能的带电作业机器人成为亟 中,根据高压线缆的特点对原始Faster R-CNN进 待解决的问题。 行了改进,引入跳转连接使提取的特征更具表达 传统的目标检测方法以图像识别为基础,主 能力,增加锚框数量使模型对不同尺寸目标都有 要包括4个步骤:提取候选框、对每个框提取特 较好的检测性能,最终实现了高空高压环境下各 征、图像特征分类、非极大值抑制完成框回归。 种线缆的目标检测,在精度上取得了目前最好的 一般对图像使用穷举法选出物体可能出现的区 检测效果,并且检测速度更快,为带电作业机器 域框,对这些区域框提取特征并使用图像识别 人后续的操作提供了可靠的视觉支持。 方法分类,得到所有分类成功的区域后,通过非 极大值抑制输出结果。传统方法中最成功的是基 1基于深度学习的高压线缆目标检测 于多尺度形变部件模型(deformable part model, 根据高压线缆目标检测的实际需求,本文以 DPM),它利用部件间的关系来描述物体,但该 Faster R-CNNT模型为基础并提出了有效的改进 方法相对复杂,检测速度也较慢。所以,人工提 策略,最终设计的模型原理框架如图1所示。它 取的特征不能适应当今的海量数据,难以应用于 主要分为4个主要的步骤来实现:1)将整幅高压 背景复杂的高压线缆图像数据中,且不同场景的 线缆图像输入深度卷积神经网络生成特征图谱: 图像往往要重新设计合适的特征,实际应用时也 2)将特征图谱输入给区域候选网络(region pro- 要依据具体情况而定,这些限制直接影响着最终 posal network,RPN)生成目标候选区域,避免了使 的检测效果及效率。 用选择性搜索耗时长的问题,同时可以获得更加 2006年人工智能专家Hinton提出深度学习 (deep learning,DL)概念,开启了人工智能领域研 准确的定位结果;3)采用感兴趣区域池化层(re- gion of interest,,RO)提取候选区域的特征,它可以 究深度学习的热潮。深度学习具有很强的特征学 将输入的任意尺寸的特征图谱转化成统一维度的 习能力,它采用逐层训练的方法缓解了传统神经 输出向量,从而解决了卷积神经网络输入必须是 网络算法在训练多层神经网络时出现的局部最优 问题1。基于这些特征,深度学习在图像识别、 固定尺寸的问题;4)利用一个多任务分类器做候 语音识别、自然语言处理、工业过程控制等方面 选区域的位置回归,目标类别的判定采用深度学 已显示出独特的优势。 习算法精确检测出定位器的边界框位置。其中本 近两年深度学习技术在目标检测领域也取得 文的改进首先在特征提取部分,引入跳转连接并 了长足的进展。与传统依赖手工设计的特征提取 调整激活层和卷积层的顺序,提高了网络提取图 算法不同,深度卷积神经网络对几何变换、形变、 像高级特征的能力;其次在目标候选区域生成阶 光照具有一定程度的不变性,可以有效克服复杂 段增多锚框的种类和数量,提升对小目标检测的 场景下目标检测困难,并且可在训练数据驱动下 性能。 自适应地构建特征描述,具有更高的灵活性和泛 化能力。基于深度学习的目标检测主要分为基于 分类 区域建议方法和无区域建议的方法B.。基于区 域建议的方法是以R-CNN(Region-based convolu- tional neural networks)o1为基础,在PASCAL VOC2012数据集上的检测平均精度mAP达到 53.3%,较传统方法有很大的提升。此后研究者在 此基础上提出了很多改进模型,如SPP-net(Spatial RPN网络 pyramid pooling networks)u、FastR-CNN等。而 特征图谱 无区域建议的目标检测方法主要是YOLO(You only look once)1及其改进模型。基于区域建议 的方法在精度上更具优势,而无区域建议的方法 CNN 检测速度更快。基于深度学习的目标检测方法在 低空目标、人体行为检测、无人机图像等领域已 图像 取得较好应用41」 图1基于Faster R-CNN高压线缆目标检测框架 本文针对带电作业机器人在复杂背景环境中 Fig.1 Object detection framework of high voltage cable 线缆目标的智能检测问题,首次将Faster R-CNN based on Faster R-CNN
良的深度学习方法代替人眼对线缆目标进行自动 识别检测,研制更智能的带电作业机器人成为亟 待解决的问题。 传统的目标检测方法以图像识别为基础,主 要包括 4 个步骤:提取候选框、对每个框提取特 征、图像特征分类、非极大值抑制完成框回归[3-4]。 一般对图像使用穷举法选出物体可能出现的区 域框,对这些区域框提取特征并使用图像识别 方法分类,得到所有分类成功的区域后,通过非 极大值抑制输出结果。传统方法中最成功的是基 于多尺度形变部件模型 (deformable part model, DPM)[5] ,它利用部件间的关系来描述物体,但该 方法相对复杂,检测速度也较慢。所以,人工提 取的特征不能适应当今的海量数据,难以应用于 背景复杂的高压线缆图像数据中,且不同场景的 图像往往要重新设计合适的特征,实际应用时也 要依据具体情况而定,这些限制直接影响着最终 的检测效果及效率。 2006 年人工智能专家 Hinton 提出深度学习 (deep learning, DL) 概念[6] ,开启了人工智能领域研 究深度学习的热潮。深度学习具有很强的特征学 习能力,它采用逐层训练的方法缓解了传统神经 网络算法在训练多层神经网络时出现的局部最优 问题[7-8]。基于这些特征,深度学习在图像识别、 语音识别、自然语言处理、工业过程控制等方面 已显示出独特的优势。 近两年深度学习技术在目标检测领域也取得 了长足的进展。与传统依赖手工设计的特征提取 算法不同,深度卷积神经网络对几何变换、形变、 光照具有一定程度的不变性,可以有效克服复杂 场景下目标检测困难,并且可在训练数据驱动下 自适应地构建特征描述,具有更高的灵活性和泛 化能力。基于深度学习的目标检测主要分为基于 区域建议方法和无区域建议的方法[3, 9]。基于区 域建议的方法是以 R-CNN (Region-based convolutional neural networks)[ 1 0 ] 为基础,在 PASCAL VOC2012 数据集上的检测平均精度 mAP 达到 53.3%,较传统方法有很大的提升。此后研究者在 此基础上提出了很多改进模型,如 SPP-net(Spatial pyramid pooling networks)[11] 、Fast R-CNN[12] 等。而 无区域建议的目标检测方法主要是 YOLO(You only look once)[13] 及其改进模型。基于区域建议 的方法在精度上更具优势,而无区域建议的方法 检测速度更快。基于深度学习的目标检测方法在 低空目标、人体行为检测、无人机图像等领域已 取得较好应用[14-16]。 本文针对带电作业机器人在复杂背景环境中 线缆目标的智能检测问题,首次将 Faster R-CNN 模型引入到高压线缆及相关物体的目标检测任务 中,根据高压线缆的特点对原始 Faster R-CNN 进 行了改进,引入跳转连接使提取的特征更具表达 能力,增加锚框数量使模型对不同尺寸目标都有 较好的检测性能,最终实现了高空高压环境下各 种线缆的目标检测,在精度上取得了目前最好的 检测效果,并且检测速度更快,为带电作业机器 人后续的操作提供了可靠的视觉支持。 1 基于深度学习的高压线缆目标检测 根据高压线缆目标检测的实际需求,本文以 Faster R-CNN[17] 模型为基础并提出了有效的改进 策略,最终设计的模型原理框架如图 1 所示。它 主要分为 4 个主要的步骤来实现:1) 将整幅高压 线缆图像输入深度卷积神经网络生成特征图谱; 2) 将特征图谱输入给区域候选网络 (region proposal network, RPN) 生成目标候选区域,避免了使 用选择性搜索耗时长的问题,同时可以获得更加 准确的定位结果;3) 采用感兴趣区域池化层 (region of interest, ROI) 提取候选区域的特征,它可以 将输入的任意尺寸的特征图谱转化成统一维度的 输出向量,从而解决了卷积神经网络输入必须是 固定尺寸的问题;4) 利用一个多任务分类器做候 选区域的位置回归,目标类别的判定采用深度学 习算法精确检测出定位器的边界框位置。其中本 文的改进首先在特征提取部分,引入跳转连接并 调整激活层和卷积层的顺序,提高了网络提取图 像高级特征的能力;其次在目标候选区域生成阶 段增多锚框的种类和数量,提升对小目标检测的 性能。 CNN 分类 特征图谱 RPN 网络 图像 图 1 基于 Faster R-CNN 高压线缆目标检测框架 Fig. 1 Object detection framework of high voltage cable based on Faster R-CNN ·628· 智 能 系 统 学 报 第 14 卷
第4期 刘召,等:基于改进的Faster R-CNN高压线缆目标检测方法 ·629· 1.1卷积神经网络 换为一个统一的256维的特征向量,这个特征对 卷积神经网络(convolutional neural networks, 应着两部分的输出。一部分表示该“锚”的候选框 CNN)是一类包含卷积计算且具有深度结构的前 中包含物体的概率,每个框对应着两个输出:是 馈神经网络,是深度学习中最具代表性的网络结 物体的概率和不是物体的概率,所以其总的输 构之一。传统的CNN网络一般包括卷积层、池 出长度为2k。另一部分表示框回归,每个框对 化层和全连接层,随着网络层数的加深逐层提取 应4个框回归参数,因此该部分总输出的长度 图像的特征。一个典型是CNN结构如图2所示。 为4k。 类别:2k 包围框:4k 256d 图像卷积层池化层 全连接层 输出类别 图2CNN的一般结构框架 滑动窗口:3×3 Fig.2 General structure of CNN 卷积特征 1.2区域候选网络 图4“锚”与网络输出的对应关系 一般的目标检测方法都是使用选择性搜索来 Fig.4 Corresponding relation between frame and net- work output 获取候选区域,但这种方法不仅耗时且准确率不 1.3 高,因此考虑用一个卷积神经网络来进行候选区 Fast R-CNN目标检测结构 Fast R-CNN网络将特征提取和区域分类两个 域的提取,这也就是RPN网络的核心思想。 RPN的网络结构如图3所示。在RPN网络 步骤融合在一个卷积神经网络中,不同于之前的 之前会用一个卷积神经网络对需要检测的图像进 方法是提取完每个区域的特征之后,再以传统的 行特征提取,这个前置的CNN提取的特征维度为 SVM作为分类器。这样Fast R-CNN就可以同时 51×39×256。对该特征图谱再进行一次卷积操 进行特征提取网络和分类网络的训练,从而获得 作,保持维度不变,同样得到一个51×39×256维 更高的准确度,其网络结构如图5。 度的特征图谱。为了便于下文叙述,先定义一个 分类一 框回归 卷积层 “锚”的概念:对于这个维度为51×39×256的卷积 ROI 特征图谱,认为其一共有51×39个“错”。让该卷 池 积特征图谱的每个“锚”都对原图中对应位置上 9种尺寸的候选框进行检测,检测的目标是判断 ROI 候选框中是否包含一种物体,因此共有51×39×9 特征图谱 特征向量 个候选检测框。这每个“锚”对应的9个候选框的 图5 Fast R-CNN网络结构 面积分别为1282、256、5122。每种面积又分为 Fig.5 Fast R-CNN networks structure 3种长宽比,分别为2:1、1:2、1:1。 对于待检测图像中的候选区域,将它映射到 图像 卷积层+ 前置CNN所提取的卷积特征图谱中对应的区域, 3×640×480 激活层 类别 即图5中的感兴趣区域映射,这样操作是因为卷 特征图谱 积特征图谱实际上和原始图像在位置上存在一定 特征提取层 特征图谱 包围框 51×39×256 51×39×256 的对应关系,即待检测图像中的候选区域是对应 图3RPN网络结构 在卷积特征图谱中相同的位置。然后使用 Fig.3 RPN networks structure ROI池化层对该区域再进行特征提取,如图6所 对于这51×39个“锚”和51×39×9个检测框, 示。ROI池化层对于不同尺寸大小的输入图像都 每个“锚”的计算步骤如图4所示。其中,k为单 能得到一个固定维度的输出向量。一般的卷积神 个“锚”对应的候选框的个数,此时k=9。使用一 经网络的输入需要固定尺寸的图像,而候选区域 个3×3的窗口在特征图谱上滑动,将每个“锚”转 的尺寸是大小不一的。如果先将不同尺寸的区域
1.1 卷积神经网络 卷积神经网络 (convolutional neural networks, CNN) 是一类包含卷积计算且具有深度结构的前 馈神经网络,是深度学习中最具代表性的网络结 构之一。传统的 CNN 网络一般包括卷积层、池 化层和全连接层,随着网络层数的加深逐层提取 图像的特征。一个典型是 CNN 结构如图 2 所示。 图像 卷积层 池化层 全连接层 输出类别 图 2 CNN 的一般结构框架 Fig. 2 General structure of CNN 1.2 区域候选网络 一般的目标检测方法都是使用选择性搜索来 获取候选区域,但这种方法不仅耗时且准确率不 高,因此考虑用一个卷积神经网络来进行候选区 域的提取,这也就是 RPN 网络的核心思想。 51×39×256 51×39×256 51×39×256 51×39 51×39×9 1282 2562 5122 2 : 1 1 : 2 1 : 1 RPN 的网络结构如图 3 所示。在 RPN 网络 之前会用一个卷积神经网络对需要检测的图像进 行特征提取,这个前置的 CNN 提取的特征维度为 。对该特征图谱再进行一次卷积操 作,保持维度不变,同样得到一个 维 度的特征图谱。为了便于下文叙述,先定义一个 “锚”的概念:对于这个维度为 的卷积 特征图谱,认为其一共有 个“锚”。让该卷 积特征图谱的每个“锚”都对原图中对应位置上 9 种尺寸的候选框进行检测,检测的目标是判断 候选框中是否包含一种物体,因此共有 个候选检测框。这每个“锚”对应的 9 个候选框的 面积分别为 、 、 。每种面积又分为 3 种长宽比,分别为 、 、 。 特征提取层 卷积层+ 激活层 类别 包围框 图像 3×640×480 特征图谱 51×39×256 特征图谱 51×39×256 图 3 RPN 网络结构 Fig. 3 RPN networks structure 51×39 51×39×9 k = 9 3×3 对于这 个“锚”和 个检测框, 每个“锚”的计算步骤如图 4 所示。其中,k 为单 个“锚”对应的候选框的个数,此时 。使用一 个 的窗口在特征图谱上滑动,将每个“锚”转 2k 4k 换为一个统一的 256 维的特征向量,这个特征对 应着两部分的输出。一部分表示该“锚”的候选框 中包含物体的概率,每个框对应着两个输出:是 物体的概率和不是物体的概率,所以其总的输 出长度为 。另一部分表示框回归,每个框对 应 4 个框回归参数,因此该部分总输出的长度 为 。 256 d 类别:2k 滑动窗口:3×3 包围框:4k 卷积特征 图 4 “锚”与网络输出的对应关系 Fig. 4 Corresponding relation between frame and network output 1.3 Fast R-CNN 目标检测结构 Fast R-CNN 网络将特征提取和区域分类两个 步骤融合在一个卷积神经网络中,不同于之前的 方法是提取完每个区域的特征之后,再以传统的 SVM 作为分类器。这样 Fast R-CNN 就可以同时 进行特征提取网络和分类网络的训练,从而获得 更高的准确度,其网络结构如图 5。 卷积层 特征图谱 分类 框回归 ROI 映射 ROI 池化 ROI 特征向量 图 5 Fast R-CNN 网络结构 Fig. 5 Fast R-CNN networks structure 对于待检测图像中的候选区域,将它映射到 前置 CNN 所提取的卷积特征图谱中对应的区域, 即图 5 中的感兴趣区域映射,这样操作是因为卷 积特征图谱实际上和原始图像在位置上存在一定 的对应关系,即待检测图像中的候选区域是对应 在卷积特征图谱中相同的位置。然后使 用 ROI 池化层对该区域再进行特征提取,如图 6 所 示。ROI 池化层对于不同尺寸大小的输入图像都 能得到一个固定维度的输出向量。一般的卷积神 经网络的输入需要固定尺寸的图像,而候选区域 的尺寸是大小不一的。如果先将不同尺寸的区域 第 4 期 刘召,等:基于改进的 Faster R-CNN 高压线缆目标检测方法 ·629·
·630· 智能系统学报 第14卷 缩放到统一大小再输入卷积神经网络提取特征, 1.4改进Faster R-CNN模型的高压线缆目标检测 会降低后续的分类准确率,因此使用ROI池化层 1.4.1特征提取部分的改进 避免这个问题。 传统的卷积神经网络大多是由卷积层、池化 固定的维度:(16+4+1)×256d 层和全连接层组成深层网络,对于图像分类等计 算机视觉任务,不断加深网络层数一般可以提高 性能,但当网络加深到一定程度时,会导致梯度 16×256d 4×256d 11×256d 弥散或梯度消失,网络变得难以训练,同时导致 提取的特征的语义属性减弱,对类别的判别能力 变差81。为了解决这个问题,引入跳转连接,将 卷积层的输入特征图谱加到输出部分,使网络具 任意尺寸的 有能有效进行反传的梯度信息。同时增加1×1的 特征图谱 卷积操作,在减少参数的同时使网络具有更强的 特征提取能力,多增加的激活层也使网络具有更 卷积层【 好的非线性表达能力。此外,调整模块中各操作 输人图像 的顺序为批标准化、ReLU,再进行卷积操作,这 图6ROI池化层 Fig.6 ROI pooling layer 种完全预激活的方式可以起到更好正则化的作 用,同时使梯度信息可以无障碍传递。本文改进 为了具体阐述ROI池化层的作用,假设前置 的特征提取模块如图7。 CNN输出特征图谱的宽度为w,高度为h,通道为 c,其中c是一个常数。首先,ROI池化层把特征 inc 图谱划分为4×4的区域网格,这样每个网格的维 BN 度变成:宽为w/4、高为/4、通道为c。对每个网 ReLU 格中的每个通道都取最大值作为该网格的输出, 1×1卷积 这样4×4的网格最终形成了一个16c维的特征向 inc/4 量。然后,把特征图谱划分成2×2和1×1的网 ReLU 跳转连接 格,用同样的方法提取每个网格的输出特征,提 3×3卷积 取的特征的维度分别为4c和c。最后,将得到的 inc/4 所有特征向量拼接起来,就得到了16c+4c+c=21c ReLU 维的特征向量。显而易见,这个输出特征的维度 1×1卷积 与输入特征图谱的w、h均无关。因此ROI池化 层可以把输入的任意宽度、高度的卷积特征图谱 转换为固定维度的向量。 outc=inc 得到ROI池化层的特征向量后,分成两个分 图7改进的深层网络特征提取模块 支分别送到全连接层进行分类和框回归。对于分 Fig.7 Improved deep network feature extraction module 类,如果待检测图像中有K类物体需要检测,那 改进的特征提取模块降低参数的同时,也提 么最终的输出应该是K+1个数,因为多包含了一 高了网络在推理时的速度,节省了测试时间,更 类“背景类”,输出中的每个数值都代表该区域为 有利于高压线缆目标检测实际应用的需求。当使 某类物体的类别概率。对于框回归,其要做的是 用图7的模块时,参数量为17/16inc2,参数量的计 对RPN输出的候选检测框进行某种程度的细 算公式如式(I),其中输入的通道数是inc,输出的 化。因为RPN网络获得的候选框有时存在一定 通道数是outc。使用传统的两层卷积核大小为 偏差。认为通过RPN网络得到的候选框的4个 3×3的卷积层时,参数量为18/16inc2,参数量减 参数为(x,y,w,h,其中,(x,y)表示候选框左上顶点 少了116,计算复杂度减少了9/16。 的坐标;(w,)表示候选框的宽和高。而正确的目 parameters=inc(kk)outc (1) 1.4.2区域候选框机制的改进 标框位置用(x,y,w,)表示,那么框回归的作用 区域候选网络中候选框的尺寸和长宽比是非 就是学习参数=y 常重要的超参数,它直接影响生成候选框的数
缩放到统一大小再输入卷积神经网络提取特征, 会降低后续的分类准确率,因此使用 ROI 池化层 避免这个问题。 固定的维度:(16+4+1)×256 d 任意尺寸的 特征图谱 卷积层 输入图像 16×256 d 4×256 d 1×256 d 图 6 ROI 池化层 Fig. 6 ROI pooling layer w h c c 4×4 w/4 h/4 c 4×4 16c 2×2 1×1 4c c 16c+4c+c = 21c w h 为了具体阐述 ROI 池化层的作用,假设前置 CNN 输出特征图谱的宽度为 ,高度为 ,通道为 ,其中 是一个常数。首先,ROI 池化层把特征 图谱划分为 的区域网格,这样每个网格的维 度变成:宽为 、高为 、通道为 。对每个网 格中的每个通道都取最大值作为该网格的输出, 这样 的网格最终形成了一个 维的特征向 量。然后,把特征图谱划分成 和 的网 格,用同样的方法提取每个网格的输出特征,提 取的特征的维度分别为 和 。最后,将得到的 所有特征向量拼接起来,就得到了 维的特征向量。显而易见,这个输出特征的维度 与输入特征图谱的 、 均无关。因此 ROI 池化 层可以把输入的任意宽度、高度的卷积特征图谱 转换为固定维度的向量。 K K +1 (x, y,w,h) (x, y) (w,h) (x ′ , y ′ ,w ′ ,h ′ ) ( x ′ − x w , y ′ −y h ,lnw ′ w ,lnh ′ h ) 得到 ROI 池化层的特征向量后,分成两个分 支分别送到全连接层进行分类和框回归。对于分 类,如果待检测图像中有 类物体需要检测,那 么最终的输出应该是 个数,因为多包含了一 类“背景类”,输出中的每个数值都代表该区域为 某类物体的类别概率。对于框回归,其要做的是 对 RPN 输出的候选检测框进行某种程度的细 化。因为 RPN 网络获得的候选框有时存在一定 偏差。认为通过 RPN 网络得到的候选框的 4 个 参数为 ,其中, 表示候选框左上顶点 的坐标; 表示候选框的宽和高。而正确的目 标框位置用 表示,那么框回归的作用 就是学习参数 。 1.4 改进 Faster R-CNN 模型的高压线缆目标检测 1.4.1 特征提取部分的改进 1×1 传统的卷积神经网络大多是由卷积层、池化 层和全连接层组成深层网络,对于图像分类等计 算机视觉任务,不断加深网络层数一般可以提高 性能,但当网络加深到一定程度时,会导致梯度 弥散或梯度消失,网络变得难以训练,同时导致 提取的特征的语义属性减弱,对类别的判别能力 变差[18-19]。为了解决这个问题,引入跳转连接,将 卷积层的输入特征图谱加到输出部分,使网络具 有能有效进行反传的梯度信息。同时增加 的 卷积操作,在减少参数的同时使网络具有更强的 特征提取能力,多增加的激活层也使网络具有更 好的非线性表达能力。此外,调整模块中各操作 的顺序为批标准化、ReLU,再进行卷积操作,这 种完全预激活的方式可以起到更好正则化的作 用,同时使梯度信息可以无障碍传递。本文改进 的特征提取模块如图 7。 BN ReLU ReLU ReLU + 跳转连接 inc inc/4 inc/4 outc = inc 1×1 卷积 1×1 卷积 3×3 卷积 图 7 改进的深层网络特征提取模块 Fig. 7 Improved deep network feature extraction module 17/16 inc2 3×3 18/16 inc2 1/16 9/16 改进的特征提取模块降低参数的同时,也提 高了网络在推理时的速度,节省了测试时间,更 有利于高压线缆目标检测实际应用的需求。当使 用图 7 的模块时,参数量为 ,参数量的计 算公式如式 (1),其中输入的通道数是 inc,输出的 通道数是 outc。使用传统的两层卷积核大小为 的卷积层时,参数量为 ,参数量减 少了 ,计算复杂度减少了 。 parameters = inc (khkw)outc (1) 1.4.2 区域候选框机制的改进 区域候选网络中候选框的尺寸和长宽比是非 常重要的超参数,它直接影响生成候选框的数 ·630· 智 能 系 统 学 报 第 14 卷
第4期 刘召,等:基于改进的Faster R-CNN高压线缆目标检测方法 ·631· 量,也影响着网络对不同尺寸目标的识别能力。 2.1.2标注检测目标 原始Faster R-CNN针对特征图谱上的每个“锚” 对采集到的线缆图像中需要检测的目标进行 由3种长宽比和3种尺寸生成9个候选框,然后 了人工标签,使用LabelImg标注工具。图像中需 对获得的原始图片候选区域使用非极大值抑制算 要检测的目标有线缆与瓷柱的连接处(连接点 法删除冗余的候选区域,其中最小的尺寸为 corner)、向右倾斜的线缆(右倾线,rline)、向左倾 128×128。但是在高压线缆识别中存在着连接点 斜的线(左倾线,lline)和带线夹的线(线夹线, 等尺寸较小的目标,为了提升网络对小目标的检 clampline)。表1中所列的数据集Data,和Data, 测性能,本文增加了一组64×64大小的候选框, 的场景近似,Data,中的连接点只有一种情况,即 其长宽比依然有3种。在训练过程中,RPN部分 横向连接;而数据集Data,中连接点有两种情况, 使用的候选框尺寸则由9种变为12种,分别为 包括横向连接和纵向连接,如图8(a)和图8(d)所 64×64、128×128、256×256、512×512,3个长宽比 示,图8(d)展示了Data,中的两种连接点。 分别为2:1、1:2和1:1。 表1不同场景的数据集 在整个模型结构中,多任务分类器的损失函 Table 1 Test sets of five scenarios 数定义为 数据集总数训练测试类别 场景特点 ii=∑L(,Br Data 16601494166 3 晴天、重叠多 ∑n.60 (2) Dataz 293726432944 阴天、背景复杂 Data; 25572301 256 3 强光、背景复杂 式中:p:、是目标包围框和类别的预测值;P:、 Data 20561850206 3 晴天、重叠多 是目标包围框和类别的实际值;Ns、N分别为 Datas 17901611179 3 晴天、背景复杂 分类和回归的归一化参数;是平衡分类与回归 的系数。回归损失函数和分类损失函数如公式 2.2训练设置及评价指标 (3)和式(4)所示: 所有场景的数据均训练迭代10万次,采用衰 Ltes R(ti-ti) (3) 减学习率,前5万代为0.001,后5万代为0.0001。 L(Pp)=-log(pP:+(1-p)(1-p) (4) 为了对比本文所提方法的有效性,对比方法为原 式(3)中R是Fast R-CNN中定义的鲁棒的损 始的Faster R-CNN。高压线缆图像尺寸为 失函数,如式(⑤)所示: 640×480。 R={0.5xM<1 1d-0.5,其他 (5) 评价指标选择目标检测中常用的平均准确 率(average precision,.AP),其值为P-R曲线围成的 2仿真实验与结果分析 面积,其中P表示准确率、R表示召回率。P、 R的计算方法如式(6)和式(⑦)所示: 2.1高压线缆图像数据集 P=TP/(TP+FP) (6) 为了验证本文提出的基于Faster R-CNN的高 R=TP/(TP+FN) (7) 压线缆目标检测方法的有效性和先进性,首先本 式中:TP是被正确划分为正例的个数,FP是被错 文生成了具有大量高压线缆图片的数据集,并将 误划分为正例的个数,FN是被错误划分为负例 数据处理成VOC2007数据形式,主要包括采集高 个数。mAP(mean average precision)即是所有类别 压线缆图像数据和标注需检测目标两个部分。 的平均准确率的平均值。 2.1.1采集高压线缆图像数据 实验环境为Ubuntul6.04系统,Intel Core i7- 本文使用高清摄像机采集了不同场景、天气 8700K和英伟达GTX1080Ti显卡,使用Tensor- 环境下的高压线缆图像,并对其中感兴趣的目标 Flow框架进行提出算法的训练和测试。 进行了人工标签。天气环境主要分为晴天、阴天 和强光3种情况,之所以将强光单独作为一类是 2.3实验结果及分析 因为强光会导致拍摄的线缆图像出现断裂的情 使用5种场景数据的训练集分别训练原始 况。高压线缆图像中的杆塔结构较复杂,有单回 Faster R-CNN模型和提出的改进Faster R-CNN模 路结构和多回路结构,上有瓷柱,有多根线缆,线 型,然后在测试集上进行测试,得到各类别的平 缆有时会出现重叠现象;图像背景一般都较为复 均准确率。原始Faster R-CNN的测试结果如表2 杂,主要包含房屋、树木等。 所示,改进的Faster R-CNN的测试结果如表3所示
128×128 64×64 64×64 128×128 256×256 512×512 2 : 1 1 : 2 1 : 1 量,也影响着网络对不同尺寸目标的识别能力。 原始 Faster R-CNN 针对特征图谱上的每个“锚”, 由 3 种长宽比和 3 种尺寸生成 9 个候选框,然后 对获得的原始图片候选区域使用非极大值抑制算 法删除冗余的候选区域,其中最小的尺寸为 。但是在高压线缆识别中存在着连接点 等尺寸较小的目标,为了提升网络对小目标的检 测性能,本文增加了一组 大小的候选框, 其长宽比依然有 3 种。在训练过程中,RPN 部分 使用的候选框尺寸则由 9 种变为 12 种,分别为 、 、 、 ,3 个长宽比 分别为 、 和 。 在整个模型结构中,多任务分类器的损失函 数定义为 L({pi},{ti}) = 1 Ncls ∑ Lcls ( pi , p ∗ i ) + λ 1 Nreg ∑ i p ∗ i Lreg ( ti ,t ∗ i ) (2) pi ti p ∗ i t ∗ i Ncls Nreg λ 式中: 、 是目标包围框和类别的预测值; 、 是目标包围框和类别的实际值; 、 分别为 分类和回归的归一化参数; 是平衡分类与回归 的系数。回归损失函数和分类损失函数如公式 (3) 和式 (4) 所示: Lreg = R ( ti −t ∗ i ) (3) Lcls ( pi , p ∗ i ) = −log( p ∗ i pi + ( 1− p ∗ i ) (1− pi) ) (4) 式 (3) 中 R 是 Fast R-CNN 中定义的鲁棒的损 失函数,如式 (5) 所示: R(x) = { 0.5x 2 , |x| < 1 |x|−0.5, 其他 (5) 2 仿真实验与结果分析 2.1 高压线缆图像数据集 为了验证本文提出的基于 Faster R-CNN 的高 压线缆目标检测方法的有效性和先进性,首先本 文生成了具有大量高压线缆图片的数据集,并将 数据处理成 VOC2007 数据形式,主要包括采集高 压线缆图像数据和标注需检测目标两个部分。 2.1.1 采集高压线缆图像数据 本文使用高清摄像机采集了不同场景、天气 环境下的高压线缆图像,并对其中感兴趣的目标 进行了人工标签。天气环境主要分为晴天、阴天 和强光 3 种情况,之所以将强光单独作为一类是 因为强光会导致拍摄的线缆图像出现断裂的情 况。高压线缆图像中的杆塔结构较复杂,有单回 路结构和多回路结构,上有瓷柱,有多根线缆,线 缆有时会出现重叠现象;图像背景一般都较为复 杂,主要包含房屋、树木等。 2.1.2 标注检测目标 对采集到的线缆图像中需要检测的目标进行 了人工标签,使用 LabelImg 标注工具。图像中需 要检测的目标有线缆与瓷柱的连接处 (连接点, corner)、向右倾斜的线缆 (右倾线, rline)、向左倾 斜的线 (左倾线, lline) 和带线夹的线 (线夹线, clampline)。表 1 中所列的数据集 Data1 和 Data4 的场景近似,Data1 中的连接点只有一种情况,即 横向连接;而数据集 Data4 中连接点有两种情况, 包括横向连接和纵向连接,如图 8(a) 和图 8(d) 所 示,图 8(d) 展示了 Data4 中的两种连接点。 表 1 不同场景的数据集 Table 1 Test sets of five scenarios 数据集 总数 训练 测试 类别 场景特点 Data1 1 660 1 494 166 3 晴天、重叠多 Data2 2 937 2 643 294 4 阴天、背景复杂 Data3 2 557 2 301 256 3 强光、背景复杂 Data4 2 056 1 850 206 3 晴天、重叠多 Data5 1 790 1 611 179 3 晴天、背景复杂 2.2 训练设置及评价指标 640×480 所有场景的数据均训练迭代 10 万次,采用衰 减学习率,前 5 万代为 0.001,后 5 万代为 0.000 1。 为了对比本文所提方法的有效性,对比方法为原 始 的 Faster R-CNN。高压线缆图像尺寸为 。 评价指标选择目标检测中常用的平均准确 率 (average precision, AP),其值为 P-R 曲线围成的 面积,其中 P 表示准确率、R 表示召回率。P、 R 的计算方法如式 (6) 和式 (7) 所示: P = TP/(TP+FP) (6) R = TP/(TP+FN) (7) 式中:TP 是被正确划分为正例的个数,FP 是被错 误划分为正例的个数, FN 是被错误划分为负例 个数。mAP(mean average precision) 即是所有类别 的平均准确率的平均值。 实验环境为 Ubuntu16.04 系统,Intel Core i7- 8700K 和英伟达 GTX 1080Ti 显卡,使用 TensorFlow 框架进行提出算法的训练和测试。 2.3 实验结果及分析 使用 5 种场景数据的训练集分别训练原始 Faster R-CNN 模型和提出的改进 Faster R-CNN 模 型,然后在测试集上进行测试,得到各类别的平 均准确率。原始 Faster R-CNN 的测试结果如表 2 所示,改进的 Faster R-CNN 的测试结果如表 3 所示。 第 4 期 刘召,等:基于改进的 Faster R-CNN 高压线缆目标检测方法 ·631·
·632· 智能系统学报 第14卷 表2原始Faster R-CNN在5种场景下测试结果 在实际操作中更常见的场景是背景复杂的时 Table 2 The test results average of original Faster R-CNN 候,如图8中Data,和Datas所示的场景,背景中会 in the five scenarios 有大面积的房屋、树木等干扰识别的目标。但在 数据集连接点 左倾线 右倾线 线夹线 mAP 这两个场景下,改进的Faster R-CNN模型的 Data 0.881 0.898 0.813 0.864 mAP均值93%以上。说明改进的Faster R-CNN Data2 0.907 0.901 0.907 0.907 0.906 模型在进行高压线缆目标检测时,可以较好地克 Datas 0.898 0.899 0.907 0.901 服背景中包含大面积的房屋、树木等复杂场景。 Data 0.890 0.818 0.813 0.840 这一点在实际中的应用更有价值,提高了系统的 Datas 0.907 0.903 0.908 0.906 适用范围,同时也验证了改进方法在进行高压线 缆目标检测时的有效性。 表3改进Faster R-CNN在5种场景下测试结果 Table 3 The test results average of improved Faster R- CNN in the five scenarios 数据集 连接点 左倾线 右倾线 线夹线mAP Data 0.939 0.939 0.895 0.924 Data 0.928 0.905 0.944 0.961 0.935 (a)Data,晴天的目标检测结果 Datas 0.962 0.882 0.921 0.922 Datas 0.982 0.829 0.947 0.920 Datas 0.992 0.883 0.970 0.948 从测试集的实验结果可以看出,在不同天气 条件环境下,原始的Faster R-CNN模型对高压线 (b)Data,阴天的目标检测结果 缆图像中的各类别目标检测的平均准确率均在 80%以上,而mAP值均在84%以上。说明Faster R-CNN模型可以解决高压线缆目标检测任务。 而改进的Faster R-CNN模型对高压线缆目标具有 更好的检测性能,mAP值均在92%以上,相较原 始的Faster R-CNN模型有明显提升,说明提出改 进方法的有效性,且在阴天、强光和晴天背景复 (c)Data,强光的目标检测结果 杂的场景下都可以较好地完成高压线缆目标检测 任务。如图8是5种场景下,高压线缆目标检测 结果的样例。每种场景展示了两张图像,图 8(a)(e)依次对应表1中的5种场景。 Data,、Data,和Data数据集均为晴天下的场 景中,且出现线缆重叠的情况较多,对比表2和 (d)Data晴天的目标检测结果 表3中Data1、Data,两个数据集的测试结果可以 看出,改进的方法对线缆的检测有较大的提升, mAP值分别提升了6%和8%,但在Data数据集 上,改进算法对左倾线的检测AP值有些小的降 低。说明改进的Faster R-CNN模型可以较好解决 目标遮挡的检测问题,但个别较严重的重叠情况 可能无法检测。结合带电作业机器人的实际操作 (e)Data,晴天的目标检测结果 看,当发现重叠的线缆较多时,可以调节摄像头 图85种场景下测试集的目标检测结果 的方位使拍摄的图像中重叠的线缆尽量少,从而 Fig.8 Detection results of test sets in five scenarios 提升对线缆目标检测准确率。而且在实际应用中 改进的Faster R-CNN模型进行高压线缆目标 带电作业机器人每次总是处理单根线缆,所以重 检测时的速度与使用的硬件环境密切相关,当使 叠问题对实际操作的影响并不是很大。 用高性能的GPU如1080Ti测试时,15fs的处理
表 2 原始 Faster R-CNN 在 5 种场景下测试结果 Table 2 The test results average of original Faster R-CNN in the five scenarios 数据集 连接点 左倾线 右倾线 线夹线 mAP Data1 0.881 0.898 0.813 0.864 Data2 0.907 0.901 0.907 0.907 0.906 Data3 0.898 0.899 0.907 0.901 Data4 0.890 0.818 0.813 0.840 Data5 0.907 0.903 0.908 0.906 表 3 改进 Faster R-CNN 在 5 种场景下测试结果 Table 3 The test results average of improved Faster RCNN in the five scenarios 数据集 连接点 左倾线 右倾线 线夹线 mAP Data1 0.939 0.939 0.895 0.924 Data2 0.928 0.905 0.944 0.961 0.935 Data3 0.962 0.882 0.921 0.922 Data4 0.982 0.829 0.947 0.920 Data5 0.992 0.883 0.970 0.948 从测试集的实验结果可以看出,在不同天气 条件环境下,原始的 Faster R-CNN 模型对高压线 缆图像中的各类别目标检测的平均准确率均在 80% 以上,而 mAP 值均在 84% 以上。说明 Faster R-CNN 模型可以解决高压线缆目标检测任务。 而改进的 Faster R-CNN 模型对高压线缆目标具有 更好的检测性能,mAP 值均在 92% 以上,相较原 始的 Faster R-CNN 模型有明显提升,说明提出改 进方法的有效性,且在阴天、强光和晴天背景复 杂的场景下都可以较好地完成高压线缆目标检测 任务。如图 8 是 5 种场景下,高压线缆目标检测 结果的样例。每种场景展示了两张图像, 图 8(a)~(e) 依次对应表 1 中的 5 种场景。 Data1、Data4 和 Data5 数据集均为晴天下的场 景中,且出现线缆重叠的情况较多,对比表 2 和 表 3 中 Data1、Data4 两个数据集的测试结果可以 看出,改进的方法对线缆的检测有较大的提升, mAP 值分别提升了 6% 和 8%,但在 Data5 数据集 上,改进算法对左倾线的检测 AP 值有些小的降 低。说明改进的 Faster R-CNN 模型可以较好解决 目标遮挡的检测问题,但个别较严重的重叠情况 可能无法检测。结合带电作业机器人的实际操作 看,当发现重叠的线缆较多时,可以调节摄像头 的方位使拍摄的图像中重叠的线缆尽量少,从而 提升对线缆目标检测准确率。而且在实际应用中 带电作业机器人每次总是处理单根线缆,所以重 叠问题对实际操作的影响并不是很大。 在实际操作中更常见的场景是背景复杂的时 候,如图 8 中 Data2 和 Data5 所示的场景,背景中会 有大面积的房屋、树木等干扰识别的目标。但在 这两个场景下,改进的 Faster R-CNN 模型的 mAP 均值 93% 以上。说明改进的 Faster R-CNN 模型在进行高压线缆目标检测时,可以较好地克 服背景中包含大面积的房屋、树木等复杂场景。 这一点在实际中的应用更有价值,提高了系统的 适用范围,同时也验证了改进方法在进行高压线 缆目标检测时的有效性。 (a) Data1 晴天的目标检测结果 (b) Data2 阴天的目标检测结果 (c) Data3 强光的目标检测结果 (d) Data4 晴天的目标检测结果 (e) Data5 晴天的目标检测结果 图 8 5 种场景下测试集的目标检测结果 Fig. 8 Detection results of test sets in five scenarios 改进的 Faster R-CNN 模型进行高压线缆目标 检测时的速度与使用的硬件环境密切相关,当使 用高性能的 GPU 如 1080Ti 测试时,15 f/s 的处理 ·632· 智 能 系 统 学 报 第 14 卷
第4期 刘召,等:基于改进的Faster R-CNN高压线缆目标检测方法 ·633· 速度,相较于未改进算法的12fs处理速度有提 et al.Vehicle detection based on deep learning in complex 升,完全能够满足带电作业机器人的实时性需求。 scene[J].Application research of computers,2018,35(4): 1270-1273. 3结束语 [6]HINTON G E.OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural computation, 针对带电作业机器人需要自动识别高空高压 2006,18(7):1527-1554. 线缆的实际课题需求,本文结合当前在视觉领域 [7]毕晓君,冯雪赟.基于改进深度学习模型C-GRBM的人 最有效的深度学习方法,实现了一种自动识别线 体行为识别[J].哈尔滨工程大学学报,2018,39(1): 缆目标的方法。首先引入了Faster R-CNN模型进 156-162. 行特征提取,针对高压线缆图像的特点提出了两 BI Xiaojun,FENG Xueyun.Human action recognition 个方面的改进:在特征提取时引入跳转连接并调 based on improved depth learning model C-GRBM[J]. 整卷积层、激活层的顺序,提升网络对高层语义 Journal of Harbin Engineering University,2018,39(1): 特征的提取能力,改进候选框生成策略提升网络 156-162 对连接点等小目标的检测能力。本文改进的 [8]龙慧,朱定局,田娟.深度学习在智能机器人中的应用研 Faster R-CNN模型展现出了针对不同天气环境 究综述[J.计算机科学,2018,45(S2):43-47,52 较复杂背景下的鲁棒、实时、高精度检测的优良 LONG Hui,ZHU Dingju,TIAN Juan.Research on deep 性能,可以满足带电作业机器人视觉智能识别的 learning used in intelligent robots[J].Computer science, 2018.45(S2):43-47,52 技术指标。本文将深度学习方法应用于带电作业 [9]张慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应 机器人的视觉识别任务中,取得了较好的精度和 用进展与展望[J.自动化学报,2017,43(8):1289-1305. 实时的性能,具有很高的工程应用价值。 ZHANG Hui,WANG Kunfeng,WANG Feiyue.Ad- 参考文献: vances and perspectives on applications of deep learning in visual object detection[J].Acta automatica sinica,2017, [1]赵玉良,戚晖,陈凡明,等.高压带电作业机器人专用遥 43(8):1289-1305. 控剥皮器的研制[J].微计算机信息,2010,26(32): [10]GIRSHICK R.DONAHUE J,DARRELL T,et al.Rich 146-147.119. feature hierarchies for accurate object detection and se- ZHAO Yuliang,QI Hui,CHEN Fanming,et al.Design on mantic segmentation[C]//Proceedings of 2014 IEEE Con- the remote controlled electric-driving remover for live ference on Computer Vision and Pattern Recognition. working robot[J].Microcomputer information,2010, Columbus.USA.2014:580-587. 26(32):146-147,119. [11]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. [2]王振利,鲁守银,李健,等.高压带电作业机器人视觉伺 Spatial pyramid pooling in deep convolutional networks 服系统J.制造业自动化,2013,35(7):69-72 for visual recognition[J].IEEE transactions on pattern WANG Zhenli,LU Shouyin,LI Jian,et al.Vision servo analysis and machine intelligence,2015,37(9): system for high-voltage live working robot[J].Manufactur- 1904-1916. ing automation,2013,35(7):69-72 [12]GIRSHICK R.Fast R-CNN[C]//Proceedings of 2015 [3]于进勇,丁鹏程,王超.卷积神经网络在目标检测中的应 IEEE International Conference on Computer Vision.San- 用综述[J.计算机科学,2018,45(S2):17-26 tiago,Chile:IEEE,2015:1440-1448. YU Jinyong,DING Pengcheng,WANG Chao.Overview: [13]REDMON J,DIVVALA S,GIRSHICK R,et al.You only application of convolution neural network in object detec- look once:unified,real-time object detection[C]//Pro- tion[J].Computer science,2018,45(S2):17-26. ceedings of 2016 IEEE Conference on Computer Vision [4]CAI Zhaowei.VASCONCELOS N.Cascade R-CNN: and Pattern Recognition.Las Vegas,USA,2016: delving into high quality object detection[C]//Proceedings 779-788. of 2018 IEEE/CVF Conference on Computer Vision and [14]莫宏伟,汪海波.基于Faster R-CNN的人体行为检测研 Pattern Recognition.Salt Lake City,USA,2018: 究U.智能系统学报,2018,13(6):967-973 6154-6162. MO Hongwei,WANG Haibo.Research on human beha- [5]宋焕生,张向清,郑宝峰,等.基于深度学习方法的复杂 vior detection based on Faster R-CNN[J].CAAI transac- 场景下车辆目标检测[.计算机应用研究,2018,35(4): tions on intelligent systems,2018,13(6):967-973 1270-1273 [l5]曹宇剑,徐国明,史国川.基于旋转不变Faster R- SONG Huansheng,ZHANG Xiangqing,ZHENG Baofeng, CNN的低空装甲目标检测[).激光与光电子学进展
速度,相较于未改进算法的 12 f/s 处理速度有提 升,完全能够满足带电作业机器人的实时性需求。 3 结束语 针对带电作业机器人需要自动识别高空高压 线缆的实际课题需求,本文结合当前在视觉领域 最有效的深度学习方法,实现了一种自动识别线 缆目标的方法。首先引入了 Faster R-CNN 模型进 行特征提取,针对高压线缆图像的特点提出了两 个方面的改进:在特征提取时引入跳转连接并调 整卷积层、激活层的顺序,提升网络对高层语义 特征的提取能力,改进候选框生成策略提升网络 对连接点等小目标的检测能力。本文改进的 Faster R-CNN 模型展现出了针对不同天气环境、 较复杂背景下的鲁棒、实时、高精度检测的优良 性能,可以满足带电作业机器人视觉智能识别的 技术指标。本文将深度学习方法应用于带电作业 机器人的视觉识别任务中,取得了较好的精度和 实时的性能,具有很高的工程应用价值。 参考文献: 赵玉良, 戚晖, 陈凡明, 等. 高压带电作业机器人专用遥 控剥皮器的研制 [J]. 微计算机信息, 2010, 26(32): 146–147, 119. ZHAO Yuliang, QI Hui, CHEN Fanming, et al. Design on the remote controlled electric-driving remover for live working robot[J]. Microcomputer information, 2010, 26(32): 146–147, 119. [1] 王振利, 鲁守银, 李健, 等. 高压带电作业机器人视觉伺 服系统 [J]. 制造业自动化, 2013, 35(7): 69–72. WANG Zhenli, LU Shouyin, LI Jian, et al. Vision servo system for high-voltage live working robot[J]. Manufacturing automation, 2013, 35(7): 69–72. [2] 于进勇, 丁鹏程, 王超. 卷积神经网络在目标检测中的应 用综述 [J]. 计算机科学, 2018, 45(S2): 17–26. YU Jinyong, DING Pengcheng, WANG Chao. Overview: application of convolution neural network in object detection[J]. Computer science, 2018, 45(S2): 17–26. [3] CAI Zhaowei, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 6154−6162. [4] 宋焕生, 张向清, 郑宝峰, 等. 基于深度学习方法的复杂 场景下车辆目标检测 [J]. 计算机应用研究, 2018, 35(4): 1270–1273. SONG Huansheng, ZHANG Xiangqing, ZHENG Baofeng, [5] et al. Vehicle detection based on deep learning in complex scene[J]. Application research of computers, 2018, 35(4): 1270–1273. HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527–1554. [6] 毕晓君, 冯雪赟. 基于改进深度学习模型 C-GRBM 的人 体行为识别 [J]. 哈尔滨工程大学学报, 2018, 39(1): 156–162. BI Xiaojun, FENG Xueyun. Human action recognition based on improved depth learning model C-GRBM[J]. Journal of Harbin Engineering University, 2018, 39(1): 156–162. [7] 龙慧, 朱定局, 田娟. 深度学习在智能机器人中的应用研 究综述 [J]. 计算机科学, 2018, 45(S2): 43–47, 52. LONG Hui, ZHU Dingju, TIAN Juan. Research on deep learning used in intelligent robots[J]. Computer science, 2018, 45(S2): 43–47, 52. [8] 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应 用进展与展望 [J]. 自动化学报, 2017, 43(8): 1289–1305. ZHANG Hui, WANG Kunfeng, WANG Feiyue. Advances and perspectives on applications of deep learning in visual object detection[J]. Acta automatica sinica, 2017, 43(8): 1289–1305. [9] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 580−587. [10] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904–1916. [11] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1440−1448. [12] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 779−788. [13] 莫宏伟, 汪海波. 基于 Faster R-CNN 的人体行为检测研 究 [J]. 智能系统学报, 2018, 13(6): 967–973. MO Hongwei, WANG Haibo. Research on human behavior detection based on Faster R-CNN[J]. CAAI transactions on intelligent systems, 2018, 13(6): 967–973. [14] 曹宇剑, 徐国明, 史国川. 基于旋转不变 Faster RCNN 的低空装甲目标检测 [J]. 激光与光电子学进展, [15] 第 4 期 刘召,等:基于改进的 Faster R-CNN 高压线缆目标检测方法 ·633·
·634· 智能系统学报 第14卷 2018,55(10:101501 [C]//Proceedings of 2017 IEEE Conference on Computer CAO Yujian,XU Guoming,SHI Guochuan.Low altitude Vision and Pattern Recognition.Honolulu,USA,2017: armored target detection based on rotation invariant faster 5987-5995. R-CNN[J].Laser and optoelectronics progress,2018, 作者简介: 55(10):101501. 刘召,男,1979年生,博士,主要 [16]魏湧明,全吉成,侯字青阳.基于YOL0v2的无人机航 研究方向为机器人及其自动化装备。 拍图像定位研究[].激光与光电子学进展,2017, 作为项目负责人和技术骨干完成研究 54(11):111002 课题10余项,其中,863项目1项 WEI Yongming.QUAN Jicheng,HOU Yuqingyang.Aer- 985项目1项.国防科技课题4项,日 本学术振兴会科学研究补助金基础研 ial image location of unmanned aerial vehicle based on 究项目1项。发表学术论文10余篇。 YOLO v2[J1.Laser and optoelectronics progress,2017, 54(11):111002 张黎明,男,1969年生,高级技 [17]REN Shaoqing,HE Kaiming,GIRSHICK R,SUN J. 师,主要研究方向为智能配电网。个 Faster R-CNN:towards real-time object detection with re- 人获24项国家专利.带领团队为公司 实现技术革新400多项,获国家专利 gion proposal networks[J].IEEE transactions on pattern 158项,20余项填补智电网建设空白。 analysis and machine intelligence,2017,39(6): 1137-1149 [18]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Deep residual learning for image recognition[C]//Proceed- 耿美晓,女,1990年生,硕士,主 要研究方向为图像处理、机器人学习 ings of 2016 IEEE Conference on Computer Vision and 与人工智能。 Pattern Recognition.Las Vegas,NV,USA,2016: 770-778 [19]XIE Saining,GIRSHICK R,DOLLAR P,et al.Aggreg- ated residual transformations for deep neural networks
2018, 55(10): 101501. CAO Yujian, XU Guoming, SHI Guochuan. Low altitude armored target detection based on rotation invariant faster R-CNN[J]. Laser and optoelectronics progress, 2018, 55(10): 101501. 魏湧明, 全吉成, 侯宇青阳. 基于 YOLO v2 的无人机航 拍图像定位研究 [J]. 激光与光电子学进展, 2017, 54(11): 111002. WEI Yongming, QUAN Jicheng, HOU Yuqingyang. Aerial image location of unmanned aerial vehicle based on YOLO v2[J]. Laser and optoelectronics progress, 2017, 54(11): 111002. [16] REN Shaoqing, HE Kaiming, GIRSHICK R, SUN J. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137–1149. [17] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770−778. [18] XIE Saining, GIRSHICK R, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks [19] [C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 5987−5995. 作者简介: 刘召,男,1979 年生,博士,主要 研究方向为机器人及其自动化装备。 作为项目负责人和技术骨干完成研究 课题 10 余项,其中,863 项目 1 项, 985 项目 1 项,国防科技课题 4 项,日 本学术振兴会科学研究补助金基础研 究项目 1 项。发表学术论文 10 余篇。 张黎明,男,1969 年生,高级技 师,主要研究方向为智能配电网。个 人获 24 项国家专利,带领团队为公司 实现技术革新 400 多项,获国家专利 158 项,20 余项填补智电网建设空白。 耿美晓,女,1990 年生,硕士,主 要研究方向为图像处理、机器人学习 与人工智能。 ·634· 智 能 系 统 学 报 第 14 卷