第15卷第6期 智能系统学报 Vol.15 No.6 2020年11月 CAAI Transactions on Intelligent Systems Nov.2020 D0L:10.11992tis.202006011 基于深度学习的空间非合作目标特征检测与识别 李林泽,张涛 (清华大学自动化系,北京100084) 摘要:针对空间非合作目标检测与识别任务的智能化要求,本文将深度学习方法Mask R-CNN(mask region- based convolutional neural network)应用于任务中,并倍鉴R-FCN(region-based fully convolutional networks)和Light- head R-CNN((light-head region-based convolutional neural network)对其进行优化改进,提升检测速度,以满足空间 任务实时性要求。实验结果表明,与传统的Mask R-CNN相比,改进的Mask R-CNN可缩短20%的检测时间。 针对深度神经网络需要大样本数据集进行训练的特点,本文基于迁移学习提出搭建虚拟环境进行样本采集,构 造空间目标特征检测与识别数据集的方法。实验结果表明,网络在虚拟环境生成的数据集上可以很好地学习 到相应特征,从而具备迁移到实际任务的能力。 关键词:空间非合作目标;特征检测与识别;深度学习;区域全卷积网络;头部轻量化卷积神经网络:改进的 Mask R-CNN;数据集构建;迁移学习 中图分类号:TP18:V19文献标志码:A 文章编号:1673-4785(2020)06-1154-09 中文引用格式:李林泽,张涛.基于深度学习的空间非合作目标特征检测与识别.智能系统学报,2020,15(6):1154-1162, 英文引用格式:LI Linze,.ZHANG Tao.Feature detection and recognition of spatial noncooperative objects based on deep learning[JI.CAAI transactions on intelligent systems,2020,15(6):1154-1162. Feature detection and recognition of spatial noncooperative objects based on deep learning LI Linze,ZHANG Tao (Department of Automation,Tsinghua University,Beijing 100084,China) Abstract:To meet the intelligence requirements of feature detection and recognition of a spatial noncooperative target, the deep learning method-Mask Region-based Convolutional Network(Mask R-CNN)-is applied to the task using the idea of Region-based Fully Convolutional Network(R-FCN)and Light-head R-CNN as references to improve the detec- tion speed to meet the real-time requirements of spatial tasks.Results obtained from the aforementioned study shows that the modified Mask R-CNN can shorten the detection time by 20%compared with the original version.Considering that deep neural networks require large sample datasets for training,this paper proposes a method for constructing a vir- tual environment for sample collection to build datasets,thus constructing the feature detection of spatial objects and datasets for recognition.The experimental result shows that the network learns the corresponding characteristics very well on the database generated from the virtual environment,and thus,the network can be migrated to the real task. Keywords:spatial noncooperative targets;feature detection and recognition;deep learning;R-FCN;light-head R-CNN; modified mask R-CNN:dataset construction;transfer learning 随着航天技术的飞速发展,人类探索太空、方面,昂贵的飞行器需要在复杂环境中运行得更 开发并利用太空空间的需求不断增多,空间飞行加持久;另一方面,数量众多的空间飞行器一旦 器的技术水平不断提高,发射数量不断增加。一 失效,就成为太空垃圾,会占据大量轨位资源,为 收稿日期:2020-06-09. 其他空间飞行器的安全稳定运行带来了极大隐 通信作者:张涛.E-mail:taozhang@mail.tsinghua.edu.cn. 患。因此,空间飞行器在轨服务技术(on-orbit ser-
DOI: 10.11992/tis.202006011 基于深度学习的空间非合作目标特征检测与识别 李林泽,张涛 (清华大学 自动化系,北京 100084) 摘 要:针对空间非合作目标检测与识别任务的智能化要求,本文将深度学习方法 Mask R-CNN(mask regionbased convolutional neural network) 应用于任务中,并借鉴 R-FCN(region-based fully convolutional networks) 和 Lighthead R-CNN (light-head region-based convolutional neural network) 对其进行优化改进,提升检测速度,以满足空间 任务实时性要求。实验结果表明,与传统的 Mask R-CNN 相比,改进的 Mask R-CNN 可缩短 20% 的检测时间。 针对深度神经网络需要大样本数据集进行训练的特点,本文基于迁移学习提出搭建虚拟环境进行样本采集,构 造空间目标特征检测与识别数据集的方法。实验结果表明,网络在虚拟环境生成的数据集上可以很好地学习 到相应特征,从而具备迁移到实际任务的能力。 关键词:空间非合作目标;特征检测与识别;深度学习;区域全卷积网络;头部轻量化卷积神经网络;改进的 Mask R-CNN;数据集构建;迁移学习 中图分类号:TP18;V19 文献标志码:A 文章编号:1673−4785(2020)06−1154−09 中文引用格式:李林泽, 张涛. 基于深度学习的空间非合作目标特征检测与识别 [J]. 智能系统学报, 2020, 15(6): 1154–1162. 英文引用格式:LI Linze, ZHANG Tao. Feature detection and recognition of spatial noncooperative objects based on deep learning[J]. CAAI transactions on intelligent systems, 2020, 15(6): 1154–1162. Feature detection and recognition of spatial noncooperative objects based on deep learning LI Linze,ZHANG Tao (Department of Automation, Tsinghua University, Beijing 100084, China) Abstract: To meet the intelligence requirements of feature detection and recognition of a spatial noncooperative target, the deep learning method—Mask Region-based Convolutional Network (Mask R-CNN)—is applied to the task using the idea of Region-based Fully Convolutional Network (R-FCN) and Light-head R-CNN as references to improve the detection speed to meet the real-time requirements of spatial tasks. Results obtained from the aforementioned study shows that the modified Mask R-CNN can shorten the detection time by 20% compared with the original version. Considering that deep neural networks require large sample datasets for training, this paper proposes a method for constructing a virtual environment for sample collection to build datasets, thus constructing the feature detection of spatial objects and datasets for recognition. The experimental result shows that the network learns the corresponding characteristics very well on the database generated from the virtual environment, and thus, the network can be migrated to the real task. Keywords: spatial noncooperative targets; feature detection and recognition; deep learning; R-FCN; light-head R-CNN; modified mask R-CNN; dataset construction; transfer learning 随着航天技术的飞速发展,人类探索太空、 开发并利用太空空间的需求不断增多,空间飞行 器的技术水平不断提高,发射数量不断增加。一 方面,昂贵的飞行器需要在复杂环境中运行得更 加持久;另一方面,数量众多的空间飞行器一旦 失效,就成为太空垃圾,会占据大量轨位资源,为 其他空间飞行器的安全稳定运行带来了极大隐 患。因此,空间飞行器在轨服务技术 (on-orbit ser- 收稿日期:2020−06−09. 通信作者:张涛. E-mail:taozhang@mail.tsinghua.edu.cn. 第 15 卷第 6 期 智 能 系 统 学 报 Vol.15 No.6 2020 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2020
第6期 李林泽,等:基于深度学习的空间非合作日标特征检测与识别 ·1155· vicing,OOS)一包括对空间飞行器的抓捕、装 下,传统的基于模型的方法(如基于轮廓边缘特 配、维护等,吸引了世界各国的关注,成为太空领 征、模板匹配、几何特征等)对特征的识别有相当 域发展最快的尖端技术之一山。 大的难度,并且人为设计特征难以泛化应用到其 自20世纪60年代早期提出概念,在轨服务 他目标,适应性和鲁棒性较差; 技术经过四十余年的发展,取得了丰硕成果,显 2)目标状态变化快,传统算法的准确性和实 示出了巨大的社会经济效益和良好的应用前景。 时性难以保证。 早期在轨服务技术大多是由航天员舱外作业完成, 对于特征检测,目前针对空间非合作目标的 但航天员出舱活动存在生理限制和巨大风险。 研究较少,可对比借鉴地面机器人特征检测方 随着空间机器人技术的发展,在感知系统辅助下 法,由于自主性要求高,主要考虑各类机器学习 的空间机械臂遥操作逐渐取代人工作业,但受限 方法。根据是否采用深度神经网络,可将其分为 于天地信息传输的大时延,在轨遥操作的适用场 传统方法和深度学习方法。传统方法主要从已 景比较有限,稳定性较低4。随着空间在轨服务 有的先验数据中进行学习,掌握一定规律后再对 技术的不断突破,面向空间在轨服务的自主操作 特定的特征部位进行分类和识别,可大致分为基 控制技术已成为宇航技术发展的新增长点。 于比较的方法和基于特征的方法:典型的基于比 较的方法需要建立一个包含许多模型的知识数 1问题综述 据库,将目标与数据库进行匹配,从而得到与目 对空间目标的检测与识别是空间在轨服务 标最相似的数据库模板,进一步基于模板对目标 操作的前提条件,因此目标特征检测与识别技 特征进行检测识别。Kamon等)通过将已有的 术是面向空间在轨服务的自主操作控制中的关 检测经验推广到新物体来构建知识数据库,在早 键技术。对复杂特殊的空间环境来说,视觉传 期对特征部位的检测识别中较具有代表性。Morales 感器结构简单、适用场景丰富,且价格低廉、实 等8通过反复“试错”获得知识数据库,再通过视 时性强,已成为空间机械臂最主要的传感器,相 觉反馈数据来跟知识数据库进行比较从而检测 当于机械臂的眼睛,在空间机械臂在轨服务操 出特征部位。Herzog等9-.o的研究把基于“试错” 作中具有举足轻重的地位1,因此,基于视觉的 获取的真实数据和基于局部特征表示产生的模 空间目标特征检测与识别算法的研究与应用具 型相结合,构建知识数据库,并通过为系统提供 有重要意义。 一系列“正确”的检测识别样例来加速学习过 视觉感知技术从简单到复杂,包括了合作目 程。基于特征的方法通过提取目标特征,并结合 标视觉测量和非合作目标视觉测量。合作目标是 人为设计(通常由先验知识)产生的对应特征模 指目标可以向服务航天器传递相对运动状态信 板,学习出一个判别函数,通过该函数来判别特 息,或向服务航天器提供便于进行抓捕等操作的 征部位。E-Khoury等I2使用超二次曲面(su- 条件,通常安装用于测量的合作标识或已知的机 per quadrics,.SQ)来近似物体的点云模型,用先行 械臂抓持装置;非合作目标是指目标本身形态未 判别函数检测识别物体可抓捕部位。Pelossof等) 知,无法向服务航天器传递相对运动状态信息, 也使用SQ来近似表达物体,但判别函数使用了 没有相应的合作标识或已知的机械臂抓持装置。 支持向量机(support vector machine,SVM)。 目前合作目标的感知技术日渐成熟,而非合作日 Boularias等I将物体特征点的选取转换为马尔 标的感知技术研究从20世纪末才开始,大部分研 科夫随机场(Markov random filed,MRF)问题,结 究处于理论分析和地面试验阶段,但失效航天器 合先验知识,通过最大后验估计寻找物体表面适 的在轨服务与维护、空间垃圾清除,甚至空间攻 于抓捕的特征点。Saxena等l搭建了一套系统, 防等任务所针对的目标大多为非合作目标,因此 使用带标记的不同物体的合成图像作为训练数 在空间任务中,非合作目标的视觉感知研究具有 据,利用回归方法训练出判别模型,基于二维数 更重要的意义和更广阔的前景。相比于合作目标 据提取捕获部位特征的方式避免了使用三维数 的视觉感知,非合作目标的视觉感知难度更大, 据带来的复杂性。 主要是因为: 总的来说,传统的机器学习方法往往需要人 1)目标特征未知,在复杂的宇宙空间环境 为设计和寻找特征,普适性较差。深度学习方法
vicing,OOS)−包括对空间飞行器的抓捕、装 配、维护等,吸引了世界各国的关注,成为太空领 域发展最快的尖端技术之一[1]。 自 20 世纪 60 年代早期提出概念,在轨服务 技术经过四十余年的发展,取得了丰硕成果,显 示出了巨大的社会经济效益和良好的应用前景[2]。 早期在轨服务技术大多是由航天员舱外作业完成, 但航天员出舱活动存在生理限制和巨大风险[3]。 随着空间机器人技术的发展,在感知系统辅助下 的空间机械臂遥操作逐渐取代人工作业,但受限 于天地信息传输的大时延,在轨遥操作的适用场 景比较有限,稳定性较低[4-5]。随着空间在轨服务 技术的不断突破,面向空间在轨服务的自主操作 控制技术已成为宇航技术发展的新增长点。 1 问题综述 对空间目标的检测与识别是空间在轨服务 操作的前提条件,因此目标特征检测与识别技 术是面向空间在轨服务的自主操作控制中的关 键技术。对复杂特殊的空间环境来说,视觉传 感器结构简单、适用场景丰富,且价格低廉、实 时性强,已成为空间机械臂最主要的传感器,相 当于机械臂的眼睛,在空间机械臂在轨服务操 作中具有举足轻重的地位[3] ,因此,基于视觉的 空间目标特征检测与识别算法的研究与应用具 有重要意义。 视觉感知技术从简单到复杂,包括了合作目 标视觉测量和非合作目标视觉测量。合作目标是 指目标可以向服务航天器传递相对运动状态信 息,或向服务航天器提供便于进行抓捕等操作的 条件,通常安装用于测量的合作标识或已知的机 械臂抓持装置;非合作目标是指目标本身形态未 知,无法向服务航天器传递相对运动状态信息, 没有相应的合作标识或已知的机械臂抓持装置[2]。 目前合作目标的感知技术日渐成熟,而非合作目 标的感知技术研究从 20 世纪末才开始,大部分研 究处于理论分析和地面试验阶段,但失效航天器 的在轨服务与维护、空间垃圾清除,甚至空间攻 防等任务所针对的目标大多为非合作目标,因此 在空间任务中,非合作目标的视觉感知研究具有 更重要的意义和更广阔的前景。相比于合作目标 的视觉感知,非合作目标的视觉感知难度更大, 主要是因为: 1) 目标特征未知,在复杂的宇宙空间环境 下,传统的基于模型的方法 (如基于轮廓边缘特 征、模板匹配、几何特征等) 对特征的识别有相当 大的难度,并且人为设计特征难以泛化应用到其 他目标,适应性和鲁棒性较差; 2) 目标状态变化快,传统算法的准确性和实 时性难以保证。 对于特征检测,目前针对空间非合作目标的 研究较少,可对比借鉴地面机器人特征检测方 法,由于自主性要求高,主要考虑各类机器学习 方法。根据是否采用深度神经网络,可将其分为 传统方法和深度学习方法。传统方法主要从已 有的先验数据中进行学习,掌握一定规律后再对 特定的特征部位进行分类和识别,可大致分为基 于比较的方法和基于特征的方法:典型的基于比 较的方法[6] 需要建立一个包含许多模型的知识数 据库,将目标与数据库进行匹配,从而得到与目 标最相似的数据库模板,进一步基于模板对目标 特征进行检测识别。Kamon 等 [7] 通过将已有的 检测经验推广到新物体来构建知识数据库,在早 期对特征部位的检测识别中较具有代表性。Morales 等 [8] 通过反复“试错”获得知识数据库,再通过视 觉反馈数据来跟知识数据库进行比较从而检测 出特征部位。Herzog 等 [9-10] 的研究把基于“试错” 获取的真实数据和基于局部特征表示产生的模 型相结合,构建知识数据库,并通过为系统提供 一系列“正确”的检测识别样例来加速学习过 程。基于特征的方法通过提取目标特征,并结合 人为设计 (通常由先验知识) 产生的对应特征模 板,学习出一个判别函数,通过该函数来判别特 征部位[11]。El-Khoury 等 [12] 使用超二次曲面 (super quadrics,SQ) 来近似物体的点云模型,用先行 判别函数检测识别物体可抓捕部位。Pelossof 等 [13] 也使用 SQ 来近似表达物体,但判别函数使用了 支持向量机 (support vector machine, SVM)。 Boularias 等 [14] 将物体特征点的选取转换为马尔 科夫随机场 (Markov random filed,MRF) 问题,结 合先验知识,通过最大后验估计寻找物体表面适 于抓捕的特征点。Saxena 等 [15] 搭建了一套系统, 使用带标记的不同物体的合成图像作为训练数 据,利用回归方法训练出判别模型,基于二维数 据提取捕获部位特征的方式避免了使用三维数 据带来的复杂性。 总的来说,传统的机器学习方法往往需要人 为设计和寻找特征,普适性较差。深度学习方法 第 6 期 李林泽,等:基于深度学习的空间非合作目标特征检测与识别 ·1155·
·1156· 智能系统学报 第15卷 不依赖目标模型,不需要手动设计特征,在训练 础上进行改进以提升检测性能。Dai等提出了 数据足够好的情况下具有更加良好的泛化能力, 基于区域的全卷积网络结构R-FCN,引入位置敏 针对不同的目标和场景有更好的普适性,相比于 感得分图(position-.sensitive score map)来共享 传统方法鲁棒性更强。近年来,随着深度学习方 Rols的特征,提升了检测速度。Lin等2提出了 法的快速迭代,计算机视觉领域的目标检测技术 特征金字塔网络(FPN),利用卷积神经网络固有 已经有了突破性进展,在准确性和实时性方面, 的多尺度结构构造特征金字塔来高效提取不同维 也可以满足空间目标检测与识别要求。 度特征,加强特征表达,提升了检测精度。在FPN 因此,本文提出将深度学习方法Mask R- 的基础上,Mask R-CNN扩展了一个Mask预测 CNN1应用于空间目标特征检测与识别问题,并 器,在检测边界框的同时完成像素级物体分割。 针对空间任务中检测过程实时性要求高的特点, 在单步法方面,YOLO将目标检测问题简化为一 对算法进行了改进。同时,深度学习算法需要大 个回归问题,不生成候选区域而直接预测边界框 规模样本数据来进行网络训练,针对空间目标样 和相关的类别概率。SSD借鉴了Faster R-CNN中 本数据集难以构建的问题,本文提出了搭建虚拟 锚点框(Anchor)的思路,引入了先验框(Prior 环境生成不同场景、不同工况下的卫星样本数 Box),并通过提取卷积层中不同尺度的特征来进 据,并利用传统图像处理方法进行批量式自动标 行检测,进一步提升了性能。对于空间目标特征 注来构建样本数据集。 检测与识别任务,目标的分割可以为后续的轮廓 提取、三维重建等任务打下良好基础,因此本文 2算法原理 以Mask R-CNN框架为基础进行扩展改进,完成 2.1目标检测框架 空间目标特征检测与识别。 基于深度学习的目标检测方法主要可分为两 大类:1)两步法(two-stage),将检测问题划分为两 个阶段,首先产生候选区域(region proposals),之 后在候选区域上进行目标的细粒度检测,这类算 卷积神经网络 法的典型代表是基于R-CNN系算法,如R-CNNI7 (a)单步法结构 Fast R-CNN!、Faster R-CNNI,以及能够完成像 素级检测与分割的Mask R-CNN;2)单步法(one- stage),不需要region proposal阶段,利用回归方法 直接产生物体的类别概率和位置坐标,比较典型 的算法有YOLO四和SSD。两类目标检测方法 卷积神经网络 的结构如图1所示。 第1步 R-CNN是最早将深度神经网络应用到检测 系统中的,但在生成候选区域的阶段,R-CNN是 利用如Selective Search!四、MCG2)等非神经网络 预选桓 方法实现,再将所有的候选框送入CNN层提取特 (b)两步法结构 征后进行分类和边界框的回归。R-CNN会生成 图1两类目标检测方法结构 非常多的候选区域,每一个都需要独立送入卷积 Fig.1 Two types of target detection method structures 层提取特征,因此算法的训练和推断速度极慢, 2.2改进的Mask R-CNN Fast R-CNN先提取特征图,再利用特征图代表原 传统的Mask R-CNN的算法流程如图2所 图进行候选区域提取,显著减少了处理时间。针 示。虚线框内的部分与Faster R-CNN基本相同, 对R-CNN和Fast R-CNN使用的候选框提取算法 区别在于将ROI Pooling替换为ROI Align,通过 在CPU上运行速度较慢的问题,Faster R-CNN引 双线性插值的方法去掉池化层中的量化过程,保 入了候选区域提取网络(RPN),能以更快的速度 证了输入像素和输出像素的一一对应,便于Mask 提取更丰富的候选区域,大大提升了检测的速度 分支进行像素级分割。虚线框外是Mask分支, 和效果,之后的工作大多是在Faster R-CNN的基 利用全卷积网络(CN)得到分割图
不依赖目标模型,不需要手动设计特征,在训练 数据足够好的情况下具有更加良好的泛化能力, 针对不同的目标和场景有更好的普适性,相比于 传统方法鲁棒性更强。近年来,随着深度学习方 法的快速迭代,计算机视觉领域的目标检测技术 已经有了突破性进展,在准确性和实时性方面, 也可以满足空间目标检测与识别要求。 因此,本文提出将深度学习方法 Mask RCNN[16] 应用于空间目标特征检测与识别问题,并 针对空间任务中检测过程实时性要求高的特点, 对算法进行了改进。同时,深度学习算法需要大 规模样本数据来进行网络训练,针对空间目标样 本数据集难以构建的问题,本文提出了搭建虚拟 环境生成不同场景、不同工况下的卫星样本数 据,并利用传统图像处理方法进行批量式自动标 注来构建样本数据集。 2 算法原理 2.1 目标检测框架 基于深度学习的目标检测方法主要可分为两 大类:1) 两步法 (two-stage),将检测问题划分为两 个阶段,首先产生候选区域 (region proposals),之 后在候选区域上进行目标的细粒度检测,这类算 法的典型代表是基于 R-CNN 系算法,如 R-CNN[17] 、 Fast R-CNN[18] 、Faster R-CNN[19] ,以及能够完成像 素级检测与分割的 Mask R-CNN;2) 单步法 (onestage),不需要 region proposal 阶段,利用回归方法 直接产生物体的类别概率和位置坐标,比较典型 的算法有 YOLO[20] 和 SSD[21]。两类目标检测方法 的结构如图 1 所示。 R-CNN 是最早将深度神经网络应用到检测 系统中的,但在生成候选区域的阶段,R-CNN 是 利用如 Selective Search[22] 、MCG[23] 等非神经网络 方法实现,再将所有的候选框送入 CNN 层提取特 征后进行分类和边界框的回归。R-CNN 会生成 非常多的候选区域,每一个都需要独立送入卷积 层提取特征,因此算法的训练和推断速度极慢, Fast R-CNN 先提取特征图,再利用特征图代表原 图进行候选区域提取,显著减少了处理时间。针 对 R-CNN 和 Fast R-CNN 使用的候选框提取算法 在 CPU 上运行速度较慢的问题,Faster R-CNN 引 入了候选区域提取网络 (RPN),能以更快的速度 提取更丰富的候选区域,大大提升了检测的速度 和效果,之后的工作大多是在 Faster R-CNN 的基 础上进行改进以提升检测性能。Dai 等 [24] 提出了 基于区域的全卷积网络结构 R-FCN,引入位置敏 感得分图 (position-sensitive score map) 来共享 RoIs 的特征,提升了检测速度。Lin 等 [25] 提出了 特征金字塔网络 (FPN),利用卷积神经网络固有 的多尺度结构构造特征金字塔来高效提取不同维 度特征,加强特征表达,提升了检测精度。在 FPN 的基础上,Mask R-CNN 扩展了一个 Mask 预测 器,在检测边界框的同时完成像素级物体分割。 在单步法方面,YOLO 将目标检测问题简化为一 个回归问题,不生成候选区域而直接预测边界框 和相关的类别概率。SSD 借鉴了 Faster R-CNN 中 锚点框 (Anchor) 的思路,引入了先验框 (Prior Box),并通过提取卷积层中不同尺度的特征来进 行检测,进一步提升了性能。对于空间目标特征 检测与识别任务,目标的分割可以为后续的轮廓 提取、三维重建等任务打下良好基础,因此本文 以 Mask R-CNN 框架为基础进行扩展改进,完成 空间目标特征检测与识别。 卷积神经网络 卷积神经网络 (a) 单步法结构 (b) 两步法结构 第 2 步 第 1 步 预选框 ... ... 图 1 两类目标检测方法结构 Fig. 1 Two types of target detection method structures 2.2 改进的 Mask R-CNN 传统的 Mask R-CNN 的算法流程如图 2 所 示。虚线框内的部分与 Faster R-CNN 基本相同, 区别在于将 ROI Pooling 替换为 ROI Align,通过 双线性插值的方法去掉池化层中的量化过程,保 证了输入像素和输出像素的一一对应,便于 Mask 分支进行像素级分割。虚线框外是 Mask 分支, 利用全卷积网络 (FCN) 得到分割图。 ·1156· 智 能 系 统 学 报 第 15 卷
第6期 李林泽,等:基于深度学习的空间非合作目标特征检测与识别 ·1157· 全连接层 。边框回归 特征提取网络 」候选区域 分类 重排列 候选区域 输入 卷积神经网络(主干网) 特征图 全卷积网络 掩膜分支 图2 Mask R-CNN算法框架 Fig.2 Structure of Mask R-CNN 一般来说,与单步法相比,两步法的检测精度 共享特征从而削减参数,在提升检测精度的同时 更高,但检测速度略低。空间环境下的检测任务 大大提升检测速度。然而位置敏感得分图的维度 对精度和速度要求都很高,因此本文通过改进 与待检测目标的类别成正比,当类别数很大时, Mask R-CNN结构,来提升检测速度。Li等P提 得分图维度庞大依然会严重影响网络的检测速 出了一种头部轻量化区域卷积神经网络Light- 度。因此Light-head R-CNN又提出了将位置得分 head R-CNN,通过优化网络“头部”来提升检测速 图压缩成窄特征图(thin feature maps),即将原来 度。此处的网络“头部”指两步法中的第二阶段, 的C×P×P维度的特征图压薄为10×P×P,但对于 即生成候选区域后的检测识别部分。Faster R- 空间目标检测任务来说,待检测特征类别较少 CNN在生成候选区域后,每个ROI都需要独立送 入后续网络中进行检测,特征无法共享,因而非 (太阳帆板、对接环等),因此基于R-FCN进行改 常耗时。同时,对ROI的分类和回归利用了两个 进即可。综上所述,传统方法和改进方法的“头 大型全连接层,其参数数量巨大,不但拖慢了训 部”结构对比如图3所示。 练和检测速度,还会对硬件资源造成较大损耗。 全连接层 ◆边框回归 一般来讲,网络越深,其具有的平移旋转不变性 越强,对于分类任务来说,其目标所在的位置对 结果不造成影响,因而是位置不敏感的,所以较 感兴趣 全局平 分类 深的网络对分类有积极意义。然而对于检测任 区域重排列 均池化 务,需要对目标的位置有良好的感知能力。对于 特征图 候选区域 ResNet这种深层网络,要适应于检测任务,就需 掩膜分支 要做出一些让步,最直观的方式就是将RPN提 (a)传统的Mask R-CNN头部结构 前,插在网络的中间靠后位置。这样做虽然一定 边框回归 程度地减轻了位置敏感性带来的影响,但增大了 后端的计算量(因为每个ROI需要单独经过多层 1×1 位置敏感 全局平 Conv 的候选区 均池化 卷积网络),降低了算法速度。Light-head R- 域池化 ·分类 CNN的主体跟前述的R-FCN结构类似,通过引 特征图 入位置敏感得分图(position-sensitive score 位置敏感得分图 maps)完成了ROIs特征的共享,位置敏感得分图 掩膜分支 全卷积网络 解决了“分类网络的位置不敏感性(translation-in- (b)改进的Mask R-CNN头部结构 variance in image classification)”与“检测网络的 图3改进前后的Mask R-CNN头部结构对比 位置敏感性(translation-variance in object detec- Fig.3 Comparison of Mask R-CNN before and after im- tion)”之间的矛盾,同时网络的全卷积结构能够 provement
输入 卷积神经网络 (主干网) 特征图 候选区域 全卷积网络 掩膜分支 全连接层 边框回归 特征提取网络 候选区域 分类 重排列 ... ... ... 图 2 Mask R-CNN 算法框架 Fig. 2 Structure of Mask R-CNN 一般来说,与单步法相比,两步法的检测精度 更高,但检测速度略低。空间环境下的检测任务 对精度和速度要求都很高,因此本文通过改进 Mask R-CNN 结构,来提升检测速度。Li 等 [26] 提 出了一种头部轻量化区域卷积神经网络 Lighthead R-CNN,通过优化网络“头部”来提升检测速 度。此处的网络“头部”指两步法中的第二阶段, 即生成候选区域后的检测识别部分。Faster RCNN 在生成候选区域后,每个 ROI 都需要独立送 入后续网络中进行检测,特征无法共享,因而非 常耗时。同时,对 ROI 的分类和回归利用了两个 大型全连接层,其参数数量巨大,不但拖慢了训 练和检测速度,还会对硬件资源造成较大损耗。 一般来讲,网络越深,其具有的平移旋转不变性 越强,对于分类任务来说,其目标所在的位置对 结果不造成影响,因而是位置不敏感的,所以较 深的网络对分类有积极意义。然而对于检测任 务,需要对目标的位置有良好的感知能力。对于 ResNet 这种深层网络,要适应于检测任务,就需 要做出一些让步,最直观的方式就是将 RPN 提 前,插在网络的中间靠后位置。这样做虽然一定 程度地减轻了位置敏感性带来的影响,但增大了 后端的计算量 (因为每个 ROI 需要单独经过多层 卷积网络),降低了算法速度。Light-head RCNN 的主体跟前述的 R-FCN 结构类似,通过引 入位置敏感得分图 (position-sensitive score maps) 完成了 ROIs 特征的共享,位置敏感得分图 解决了“分类网络的位置不敏感性 (translation-invariance in image classification)”与“检测网络的 位置敏感性 (translation-variance in object detection)”之间的矛盾,同时网络的全卷积结构能够 共享特征从而削减参数,在提升检测精度的同时 大大提升检测速度。然而位置敏感得分图的维度 与待检测目标的类别成正比,当类别数很大时, 得分图维度庞大依然会严重影响网络的检测速 度。因此 Light-head R-CNN 又提出了将位置得分 图压缩成窄特征图 (thin feature maps),即将原来 的 C×P×P 维度的特征图压薄为 10×P×P,但对于 空间目标检测任务来说,待检测特征类别较少 (太阳帆板、对接环等),因此基于 R-FCN 进行改 进即可。综上所述,传统方法和改进方法的“头 部”结构对比如图 3所示。 全卷积网络 1×1 Conv 位置敏感得分图 特征图 位置敏感 的候选区 域池化 全局平 均池化 边框回归 掩膜分支 分类 特征图 候选区域 感兴趣 区域重排列 掩膜分支 全连接层 分类 边框回归 全局平 均池化 (a) 传统的 Mask R-CNN 头部结构 (b) 改进的 Mask R-CNN 头部结构 图 3 改进前后的 Mask R-CNN 头部结构对比 Fig. 3 Comparison of Mask R-CNN before and after improvement 第 6 期 李林泽,等:基于深度学习的空间非合作目标特征检测与识别 ·1157·
·1158· 智能系统学报 第15卷 3 虚拟环境搭建与样本采集 大量的训练数据是深度学习方法的基础,但 对于空间目标,其样本数据集的构建比较困难, 主要原因有: 1)空间目标图像难以获取,且针对同一目 标,其尺度、姿态、工况场景(例如拍摄角度、距 离、光照等)不同时,特征也会随之改变,数据集 中必须包含同一目标不同尺度、姿态、工况条件 下的图像,比较难收集; 2)对于大量样本数据,标注过程较为复杂, 图5虚拟环境下生成样本数据 特别是对于目标分割任务,如果采用传统标注工 Fig.5 Sample data from the virtual environment 具进行标注,需要将抓捕部位的轮廓圈出来,标 注点较多,极其耗费时间精力。 为了解决这些问题,本文利用3 dsMax生成卫 星模型,并对特征部位进行着色,置入Unity虚拟 场景,通过编程模拟卫星和相机的运动并进行图 (a)原模型 (b)着色模型 像采集,同时生成不同尺度、姿态、工况条件下着 色模型和原有模型投射的二维图像。通过着色模 型产生特征部位的标签,作为未着色模型的标签 信息,生成符合训练要求的数据集。 3 dsMax软件能为3D模型添加纹理并且能够 (c)检测框提取 (d)掩膜提取 进行格式转换,利用3 dsMax对卫星各主要部件 图6检测框和掩膜提取 添加了纹理,如图4所示,并且转换为FBX格式, Fig.6 Detection frame and mask extraction 导入到Unity中。Unity平台可以将导入的目标文 利用上述虚拟环境,在随机光源条件下,模拟 件作为GameObject对象,通过设置光照、改变相 “卫星静止,相机绕行并接近”、“卫星自转,相机 机和卫星参数方式模拟各种工况环境,编写C#脚 绕行并接近”两种工况,生成18381张样本,并以 8:2的比例将样本划分为训练集和验证集。为便 本控制相机和卫星的相对运动并进行图像采集。 于后续的训练、验证和可视化,将数据集转换为 Unity和3 dsMax界面如图4所示。 COC0格式,部分样本可视化如图7所示。 (a)Unity界面 (b)3 dsMax界面 图4 Unity和3 dsMax界面 Fig.4 Interfaces of Unity and 3ds Max 采用3 dsMax引入卫星3D模型并添加纹理, 之后将目标卫星三维模型接入到虚拟环境中,设 置虚拟相机的位置和运动规律,设置卫星位置和 运动规律,根据所设置的相机及卫星位置记录坐 标,并获得该视角下所对应卫星图像(作为样本 图7样本数据可视化 来源),如图5所示。根据着色模型,利用传统图 Fig.7 Visualization of sample data 像滤波和腐蚀、膨胀、填充等方法,提取出待识别 针对实际任务场景,虚拟环境的搭建与上述过 部位掩膜,从而生成样本标签。检测框和掩膜提 程类似,为了充分学习待识别目标特征,可以引入 取如图6所示。 更多种类的空间飞行器模型,制作更加完备的空间
3 虚拟环境搭建与样本采集 大量的训练数据是深度学习方法的基础,但 对于空间目标,其样本数据集的构建比较困难, 主要原因有: 1) 空间目标图像难以获取,且针对同一目 标,其尺度、姿态、工况场景 (例如拍摄角度、距 离、光照等) 不同时,特征也会随之改变,数据集 中必须包含同一目标不同尺度、姿态、工况条件 下的图像,比较难收集; 2) 对于大量样本数据,标注过程较为复杂, 特别是对于目标分割任务,如果采用传统标注工 具进行标注,需要将抓捕部位的轮廓圈出来,标 注点较多,极其耗费时间精力。 为了解决这些问题,本文利用 3dsMax 生成卫 星模型,并对特征部位进行着色,置入 Unity 虚拟 场景,通过编程模拟卫星和相机的运动并进行图 像采集,同时生成不同尺度、姿态、工况条件下着 色模型和原有模型投射的二维图像。通过着色模 型产生特征部位的标签,作为未着色模型的标签 信息,生成符合训练要求的数据集。 3dsMax 软件能为 3D 模型添加纹理并且能够 进行格式转换,利用 3dsMax 对卫星各主要部件 添加了纹理,如图 4 所示,并且转换为 FBX 格式, 导入到 Unity 中。Unity 平台可以将导入的目标文 件作为 GameObject 对象,通过设置光照、改变相 机和卫星参数方式模拟各种工况环境,编写 C#脚 本控制相机和卫星的相对运动并进行图像采集。 Unity 和 3dsMax 界面如图 4 所示。 (a) Unity 界面 (b) 3dsMax 界面 图 4 Unity 和 3dsMax 界面 Fig. 4 Interfaces of Unity and 3ds Max 采用 3dsMax 引入卫星 3D 模型并添加纹理, 之后将目标卫星三维模型接入到虚拟环境中,设 置虚拟相机的位置和运动规律,设置卫星位置和 运动规律,根据所设置的相机及卫星位置记录坐 标,并获得该视角下所对应卫星图像(作为样本 来源),如图 5 所示。根据着色模型,利用传统图 像滤波和腐蚀、膨胀、填充等方法,提取出待识别 部位掩膜,从而生成样本标签。检测框和掩膜提 取如图 6 所示。 图 5 虚拟环境下生成样本数据 Fig. 5 Sample data from the virtual environment (a) 原模型 (b) 着色模型 (c) 检测框提取 (d) 掩膜提取 图 6 检测框和掩膜提取 Fig. 6 Detection frame and mask extraction 利用上述虚拟环境,在随机光源条件下,模拟 “卫星静止,相机绕行并接近”、“卫星自转,相机 绕行并接近”两种工况,生成 18 381 张样本,并以 8∶2 的比例将样本划分为训练集和验证集。为便 于后续的训练、验证和可视化,将数据集转换为 COCO 格式,部分样本可视化如图 7 所示。 图 7 样本数据可视化 Fig. 7 Visualization of sample data 针对实际任务场景,虚拟环境的搭建与上述过 程类似,为了充分学习待识别目标特征,可以引入 更多种类的空间飞行器模型,制作更加完备的空间 ·1158· 智 能 系 统 学 报 第 15 卷
第6期 李林泽,等:基于深度学习的空间非合作目标特征检测与识别 ·1159· 目标数据集。或者针对特定的待识别目标,训练专 0.16 门的识别网络,通过将网络参数上传至星上设备, 0.12 即可灵活实现目标的特征检测与识别任务。 4实验结果及分析 0.04 本文使用Facebook AI研究院推出的基于Py- torch的Detectron2目标检测平台进行扩展和改 12 1620 进,该平台上有丰富的基础网络和预训练模型。 训练次数/10次 本文使用Resnet-.50-FPN作为基础网络,使用 (C)边框回归任务损失 COCO预训练模型进行参数初始化,通过迁移学 0.8 习避免重新训练花费大量时间。实验使用的服务 0.6 器配置如表1所示。 表1服务器软硬件配置 Table 1 Server configuration 系统环境 Ubuntu 18.04.2 64 bit 0.2 Intel(R)Xeon(R)W-2133 CPU 中央处理(CPU) @3.60GHz12核 0 8 12 1620 图像处理(GPU) 训练次数/10次 GeForce RTX 2080 Ti (d)掩膜提取任务损失 硬盘信息 256GB固态硬盘 CUDA版本 10.2 图8训练过程中损失函数变化 Python版本 3.7 Fig.8 Change graph of the loss function during training Pytorch版本 1.3 4.2检测 4.1训练 在验证集上进行推断验证,采用COCO目标 在上述服务器上对网络进行训练,每个Mini- 检测比赛中的模型评价指标,可以得到如表2所 batch的大小为8,学习率初始为0.00002,每训练 示的验证结果。从评价指标来看,网络的训练与 20次增长0.00002,直到增长为0.001,共迭代训练 检测效果较好。 20000次。训练过程中损失函数变化情况如图8 表2网络验证结果 所示,可以看到网络的收敛情况较好。 Table 2 Experimental results 2.0 指标 分类检测结果评估 掩膜分割结果评估 1.6 AP 84.430 73.024 ApSo 98.414 92.888 AP70 92.382 79.834 0.4 APs 72.547 54.887 0 8 12 16 20 APM 85.938 72.395 训练次数/10次 (a)全局任务损失 AP 96.386 91.547 0.8 对验证集中的推断结果进行可视化,选取不 同尺度、不同状态的部分结果如图9所示。从可 0.6 视化效果来看,检测框准确,分割较完整,成功实 0.4 现了目标特征部位的识别与分割。实验的最终目 的是验证这套系统和算法在实际空间目标特征识 0.2 别与检测任务中的有效性,因此,接下来选取了 美国诺格公司发布的Mev在轨采集的卫星图像, 12 16 20 训练次数/10妒次 以验证网络是否能够迁移到实际场景。原图和实 (b)分类任务损失 验结果如图10所示
目标数据集。或者针对特定的待识别目标,训练专 门的识别网络,通过将网络参数上传至星上设备, 即可灵活实现目标的特征检测与识别任务。 4 实验结果及分析 本文使用 Facebook AI 研究院推出的基于 Pytorch 的 Detectron2 目标检测平台进行扩展和改 进,该平台上有丰富的基础网络和预训练模型。 本文使用 Resnet-50-FPN 作为基础网络,使用 COCO 预训练模型进行参数初始化,通过迁移学 习避免重新训练花费大量时间。实验使用的服务 器配置如表 1 所示。 表 1 服务器软硬件配置 Table 1 Server configuration 系统环境 Ubuntu 18.04.2 64 bit 中央处理(CPU) Intel(R) Xeon(R) W-2133 CPU @ 3.60 GHz 12核 图像处理(GPU) GeForce RTX 2080 Ti 硬盘信息 256 GB固态硬盘 CUDA版本 10.2 Python版本 3.7 Pytorch版本 1.3 4.1 训练 在上述服务器上对网络进行训练,每个 Minibatch 的大小为 8,学习率初始为 0.000 02,每训练 20 次增长 0.00002,直到增长为 0.001,共迭代训练 20 000 次。训练过程中损失函数变化情况如图 8 所示,可以看到网络的收敛情况较好。 4.2 检测 在验证集上进行推断验证,采用 COCO 目标 检测比赛中的模型评价指标,可以得到如表 2 所 示的验证结果。从评价指标来看,网络的训练与 检测效果较好。 表 2 网络验证结果 Table 2 Experimental results 指标 分类检测结果评估 掩膜分割结果评估 AP 84.430 73.024 AP50 98.414 92.888 AP70 92.382 79.834 APS 72.547 54.887 APM 85.938 72.395 APL 96.386 91.547 对验证集中的推断结果进行可视化,选取不 同尺度、不同状态的部分结果如图 9 所示。从可 视化效果来看,检测框准确,分割较完整,成功实 现了目标特征部位的识别与分割。实验的最终目 的是验证这套系统和算法在实际空间目标特征识 别与检测任务中的有效性,因此,接下来选取了 美国诺格公司发布的 Mev 在轨采集的卫星图像, 以验证网络是否能够迁移到实际场景。原图和实 验结果如图 10 所示。 总损失 2.0 1.6 1.2 0.8 0.4 0 4 8 12 16 20 训练次数/103 次 (a) 全局任务损失 分类损失 0.8 0.6 0.4 0.2 0 4 8 12 16 20 训练次数/103 次 (b) 分类任务损失 边框回归损失 0.16 0.12 0.08 0.04 0 4 8 12 16 20 训练次数/103 次 (c) 边框回归任务损失 掩膜损失 0.8 0.6 0.4 0.2 0 4 8 12 16 20 训练次数/103 次 (d) 掩膜提取任务损失 图 8 训练过程中损失函数变化 Fig. 8 Change graph of the loss function during training 第 6 期 李林泽,等:基于深度学习的空间非合作目标特征检测与识别 ·1159·
·1160· 智能系统学报 第15卷 二是使后续的检测网络共享Ros,避免了重复计算。 利用Mev在轨采集的卫星图片对算法的检 测效果进行可视化对比,结果如图11所示。对于 中间和右侧的图片,传统的Mask R-CNN出现了 比较明显的错检结果,将纹理相似的部分判断成 了太阳帆板。从此结果中可以推测,在引入位置 敏感得分图后,对于每个候选区域,只有当每一 个分块区域内都大概率存在着物体相应部位时, 才会将其判定为相应类别,因此网络在提取特征 图9验证集图像检测结果 Fig.9 Detection results of the validation set 时更能考虑到图像的“上下文关系”,从而对于相 似特征能进行更好地区分。 (a传统的Mask R-CNN检测结果 图10Mev在轨采集图像检测结果 Fig.10 Detection results of the Mev on-orbit satellite (b)改进的Mask R-CNN检测结果 4.3改进方法与传统方法比较 图11改进方法与传统方法结果对比 为验证改进算法的效果,用传统的Mask R- Fig.11 Comparison between the two methods CNN在相同的服务器配置、软件环境、超参数设 置下进行训练并推断验证,两种算法的指标对比 5 结束语 如表3所示。 本文将深度学习方法Mask R-CNN应用于空 表3改进的Mask R-CNN与传统的Mask R-CNN对比 间目标特征检测与识别任务,借鉴R-FCN和Light- Table 3 Comparison of improved Mask R-CNN to tradi- head R-CNN的思想对Mask R-CNN进行改进,通 tional Mask R-CNN 过引入位置敏感得分图完成ROs的特征共享,减 分类检测结果评估 掩膜分割结果评估 指标 轻网络“头部”,提升检测速度。实验表明,改进 传统方法改进方法传统方法改进方法 的Mask R-CNN在检测速度上已经有了明显提 AP 83.740 84.430 72.674 73.024 ApSo 升。针对深度神经网络训练需求,本文提出了通 97.612 98.414 92.570 92.888 过搭建虚拟环境采集样本构建数据集的方法,实 Ap70 91.253 92.382 78.647 79.834 验表明,在“虚拟”数据集中训练得到的网络,可 APs 73.560 72.547 55.025 54.887 APM 84.233 71.790 72.395 以迁移应用到实际场景中。 85.938 APL 95.780 96.386 91.054 91.547 参考文献: 每幅图片 推断时间/s 0.101 0.078 0.101 0.078 [1]PENG Jianqing,XU Wenfu,YUAN Han.An efficient pose measurement method of a space non-cooperative target 从指标结果来看,两种算法的精度差别不大, based on stereo vision[J].IEEE access,2017,5: 改进的算法在检测大目标时较优于传统算法,而 22344-22362 传统算法更擅长检测小目标。在速度方面,改进 [2]梁斌,杜晓东,李成,等.空间机器人非合作航天器在轨 算法要显著优于传统算法,提升了20%,能够满 服务研究进展).机器人,2012,34(2):242-256. 足对于改进算法的预期。检测速度的提升主要有 LIANG Bin.DU Xiaodong,LI Cheng,et al.Advances in 两点原因:一是引入位置敏感得分图后将网络转 space robot on-orbit servicing for non-cooperative space- 化为了全卷积结构,大大缩减了网络参数规模; craft[J.Robot,.2012,34(2):242-256
图 9 验证集图像检测结果 Fig. 9 Detection results of the validation set 图 10 Mev 在轨采集图像检测结果 Fig. 10 Detection results of the Mev on-orbit satellite 4.3 改进方法与传统方法比较 为验证改进算法的效果,用传统的 Mask RCNN 在相同的服务器配置、软件环境、超参数设 置下进行训练并推断验证,两种算法的指标对比 如表 3 所示。 表 3 改进的 Mask R-CNN 与传统的 Mask R-CNN 对比 Table 3 Comparison of improved Mask R-CNN to traditional Mask R-CNN 指标 分类检测结果评估 掩膜分割结果评估 传统方法 改进方法 传统方法 改进方法 AP 83.740 84.430 72.674 73.024 AP50 97.612 98.414 92.570 92.888 AP70 91.253 92.382 78.647 79.834 APS 73.560 72.547 55.025 54.887 APM 84.233 85.938 71.790 72.395 APL 95.780 96.386 91.054 91.547 每幅图片 推断时间/s 0.101 0.078 0.101 0.078 从指标结果来看,两种算法的精度差别不大, 改进的算法在检测大目标时较优于传统算法,而 传统算法更擅长检测小目标。在速度方面,改进 算法要显著优于传统算法,提升了 20%,能够满 足对于改进算法的预期。检测速度的提升主要有 两点原因:一是引入位置敏感得分图后将网络转 化为了全卷积结构,大大缩减了网络参数规模; 二是使后续的检测网络共享 RoIs,避免了重复计算。 利用 Mev 在轨采集的卫星图片对算法的检 测效果进行可视化对比,结果如图 11 所示。对于 中间和右侧的图片,传统的 Mask R-CNN 出现了 比较明显的错检结果,将纹理相似的部分判断成 了太阳帆板。从此结果中可以推测,在引入位置 敏感得分图后,对于每个候选区域,只有当每一 个分块区域内都大概率存在着物体相应部位时, 才会将其判定为相应类别,因此网络在提取特征 时更能考虑到图像的“上下文关系”,从而对于相 似特征能进行更好地区分。 (a) 传统的 Mask R-CNN 检测结果 (b) 改进的 Mask R-CNN 检测结果 图 11 改进方法与传统方法结果对比 Fig. 11 Comparison between the two methods 5 结束语 本文将深度学习方法 Mask R-CNN 应用于空 间目标特征检测与识别任务,借鉴 R-FCN 和 Lighthead R-CNN 的思想对 Mask R-CNN 进行改进,通 过引入位置敏感得分图完成 ROIs 的特征共享,减 轻网络“头部”,提升检测速度。实验表明,改进 的 Mask R-CNN 在检测速度上已经有了明显提 升。针对深度神经网络训练需求,本文提出了通 过搭建虚拟环境采集样本构建数据集的方法,实 验表明,在“虚拟”数据集中训练得到的网络,可 以迁移应用到实际场景中。 参考文献: PENG Jianqing, XU Wenfu, YUAN Han. An efficient pose measurement method of a space non-cooperative target based on stereo vision[J]. IEEE access, 2017, 5: 22344–22362. [1] 梁斌, 杜晓东, 李成, 等. 空间机器人非合作航天器在轨 服务研究进展 [J]. 机器人, 2012, 34(2): 242–256. LIANG Bin, DU Xiaodong, LI Cheng, et al. Advances in space robot on-orbit servicing for non-cooperative spacecraft[J]. Robot, 2012, 34(2): 242–256. [2] ·1160· 智 能 系 统 学 报 第 15 卷
第6期 李林泽,等:基于深度学习的空间非合作目标特征检测与识别 ·1161· [3]郝颗明,付双飞,范晓鹏,等.面向空间机械臂在轨服务 Fields[C]//Proceedings of 2011 IEEE/RSJ International 操作的视觉感知技术,无人系统技术,2018,1(1) Conference on Intelligent Robots and Systems.San Fran- 54-65. cisco,USA,2011:1548-1553. HAO Yingming,FU Shuangfei,FAN Xiaopeng,et al.Vis- [15]SAXENA A.DRIEMEYER J,NG A Y.Robotic grasp- ion perception technology for space manipulator on-orbit ing of novel objects using vision[J].The international service operations[J].Unmanned systems technology, journal of robotics research,2008,27(2):157-173. 2018,1(1):54-65. [16]HE Kaiming,GKIOXARI G,DOLLAR P,et al.Mask R- [4]WANG Ning,YANG Chenguang,LYU M R,et al.An CNN[C]//Proceedings of 2017 IEEE International Confer- EMG enhanced impedance and force control framework ence on Computer Vision (ICCV).Venice,Italy.2017: for telerobot operation in space[C]//Proceedings of 2014 2980-2988. IEEE Aerospace Conference.Big Sky,MT,USA,2014: [17]GIRSHICK R,DONAHUE J,DARRELL T,et al.Re 1-10. gion-based convolutional networks for accurate object de- [5]ITOH T,YUDATE K,ITO S,et al.New predictive dis- tection and segmentation[J].IEEE transactions on pattern play method of motion and force information for network analysis and machine intelligence,2016,38(1):142-158. teleoperation without using virtual environment [18]GIRSHICK R.Fast R-CNN[C]//Proceedings of 2015 model[C]//Proceedings 2003 IEEE/RSJ International Con- IEEE International Conference on Computer Vision.San- ference on Intelligent Robots and Systems (IROS 2003). tiago,Chile,2015:1440-1448 Las Vegas,NV,USA,2003:2815-2822. [19]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster [6]SAHBANI A.El-KHOURY S,BIDAUD P.An overview R-CNN:Towards real-time object detection with region of 3D object grasp synthesis algorithms[J].Robotics and proposal networks[J].IEEE transactions on pattern ana- autonomous systems,2012,60(3):326-336. lysis and machine intelligence,2017,39(6):1137-1149. [7]KAMON I,FLASH T,EDELMAN S.Learning to grasp [20]REDMON J,DIVVALA S,GIRSHICK R,et al.You only using visual information[C]//Proceedings of IEEE Interna- look once:unified,real-time object detection[C]//Pro- tional Conference on Robotics and Automation.Min- ceedings of 2016 IEEE Conference on Computer Vision neapolis,USA,1996:2470-2476. and Pattern Recognition(CVPR).Las Vegas,USA,2016: [8]MORALES A.CHINELLATO E.FAGG A H.et al.Us- 779-788. ing experience for assessing grasp reliability[J].Interna- [21]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single shot multiBox detector[C]//Proceedings of the 14th tional journal of humanoid robotics,2004,1(4):671-691. [9]HERZOG A,PASTOR P,KALAKRISHNAN M,et al. European Conference Computer Vision.Amsterdam,The Netherlands,2016:21-37. Template-based learning of grasp selection[C]//Proceed- [22]ARBELAEZ P,PONT-TUSET J,BARRON J,et al. ings of 2012 IEEE International Conference on Robotics Multiscale combinatorial grouping[C]//Proceedings of and Automation.Saint Paul,USA,2012:2379-2384. 2014 IEEE Conference on Computer Vision and Pattern [10]KROEMER O.UGUR E,OZTOP E,et al.A kernel-based Recognition.Columbus,USA,2014:328-335. approach to direct action perception[C]//Proceedings of [23]UIJLINGS J RR,VAN DE SANDE K E A,GEVERS T, 2012 IEEE International Conference on Robotics and et al.Selective search for object recognition[J].Interna- Automation.Saint Paul,USA.2012:2605-2610. tional journal of computer vision,2013,104(2):154-171. [11]BOHG J,MORALES A,ASFOUR T,et al.Data-driven [24]DAI Jifeng,LI Yi,HE Kaiming,et al.R-FCN:object de- grasp synthesis-a survey[J].IEEE transactions on robot- tection via region-based fully convolutional net- ics,2014,30(2:289-309. works[C]//Proceedings of the 30th International Confer- [12]EL-KHOURY S,SAHBANI A.Handling objects by their ence on Neural Information Processing Systems.Bar- handles[Cl//IEEE/RSJ International Conference on Intel- celona,Spain,2016:379-387. ligent Robots and Systems.Nice,France,2008:58-64. [25]LIN T Y,DOLLAR P,GIRSHICK R,et al.Feature pyr- [13]PELOSSOF R,MILLER A.ALLEN P,et al.An SVM amid networks for object detection[C]//Proceedings of learning approach to robotic grasping[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern 2014 IEEE International Conference on Robotics and Recognition(CVPR).Honolulu,USA,2017:936-944. Automation.New Orleans,USA,2004:3512-3518. [26]LI Zeming,PENG Chao,YU Gang,et al.Light-Head R- [14]BOULARIAS A,KROEMER O,PETERS J.Learning ro- CNN:in defense of two-stage object detector[DB/OL]// bot grasping from 3-D images with Markov Random https://arxiv.org/abs/1711.07264,2017-11-20/2017-11-23
郝颖明, 付双飞, 范晓鹏, 等. 面向空间机械臂在轨服务 操作的视觉感知技术 [J]. 无人系统技术, 2018, 1(1): 54–65. HAO Yingming, FU Shuangfei, FAN Xiaopeng, et al. Vision perception technology for space manipulator on-orbit service operations[J]. Unmanned systems technology, 2018, 1(1): 54–65. [3] WANG Ning, YANG Chenguang, LYU M R, et al. An EMG enhanced impedance and force control framework for telerobot operation in space[C]//Proceedings of 2014 IEEE Aerospace Conference. Big Sky, MT, USA, 2014: 1−10. [4] ITOH T, YUDATE K, ITO S, et al. New predictive display method of motion and force information for network teleoperation without using virtual environment model[C]//Proceedings 2003 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2003). Las Vegas, NV, USA, 2003: 2815−2822. [5] SAHBANI A, El-KHOURY S, BIDAUD P. An overview of 3D object grasp synthesis algorithms[J]. Robotics and autonomous systems, 2012, 60(3): 326–336. [6] KAMON I, FLASH T, EDELMAN S. Learning to grasp using visual information[C]//Proceedings of IEEE International Conference on Robotics and Automation. Minneapolis, USA, 1996: 2470−2476. [7] MORALES A, CHINELLATO E, FAGG A H, et al. Using experience for assessing grasp reliability[J]. International journal of humanoid robotics, 2004, 1(4): 671–691. [8] HERZOG A, PASTOR P, KALAKRISHNAN M, et al. Template-based learning of grasp selection[C]//Proceedings of 2012 IEEE International Conference on Robotics and Automation. Saint Paul, USA, 2012: 2379−2384. [9] KROEMER O, UGUR E, OZTOP E, et al. A kernel-based approach to direct action perception[C]//Proceedings of 2012 IEEE International Conference on Robotics and Automation. Saint Paul, USA, 2012: 2605−2610. [10] BOHG J, MORALES A, ASFOUR T, et al. Data-driven grasp synthesis—a survey[J]. IEEE transactions on robotics, 2014, 30(2): 289–309. [11] EL-KHOURY S, SAHBANI A. Handling objects by their handles[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Nice, France, 2008: 58−64. [12] PELOSSOF R, MILLER A, ALLEN P, et al. An SVM learning approach to robotic grasping[C]//Proceedings of 2014 IEEE International Conference on Robotics and Automation. New Orleans, USA, 2004: 3512−3518. [13] BOULARIAS A, KROEMER O, PETERS J. Learning robot grasping from 3-D images with Markov Random [14] Fields[C]//Proceedings of 2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. San Francisco, USA, 2011: 1548−1553. SAXENA A, DRIEMEYER J, NG A Y. Robotic grasping of novel objects using vision[J]. The international journal of robotics research, 2008, 27(2): 157–173. [15] HE Kaiming, GKIOXARI G, DOLLAR P, et al. Mask RCNN[C]//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy, 2017: 2980−2988. [16] GIRSHICK R, DONAHUE J, DARRELL T, et al. Region-based convolutional networks for accurate object detection and segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(1): 142–158. [17] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1440−1448. [18] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137–1149. [19] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA, 2016: 779−788. [20] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector[C]//Proceedings of the 14th European Conference Computer Vision. Amsterdam, The Netherlands, 2016: 21−37. [21] ARBELÁEZ P, PONT-TUSET J, BARRON J, et al. Multiscale combinatorial grouping[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 328−335. [22] UIJLINGS J R R, VAN DE SANDE K E A, GEVERS T, et al. Selective search for object recognition[J]. International journal of computer vision, 2013, 104(2): 154–171. [23] DAI Jifeng, LI Yi, HE Kaiming, et al. R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 379−387. [24] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA, 2017: 936−944. [25] LI Zeming, PENG Chao, YU Gang, et al. Light-Head RCNN: in defense of two-stage object detector[DB/OL]// https://arxiv.org/abs/1711.07264, 2017-11-20/2017-11-23. [26] 第 6 期 李林泽,等:基于深度学习的空间非合作目标特征检测与识别 ·1161·
·1162· 智能系统学报 第15卷 作者简介: 张涛,教授,博士生导师,担任 IEEE Education Society Beijing 李林泽,硕士研究生,主要研究方 Chapter主席、中国自动化学会理事, 向为深度学习。 主要研究方向为模式识别、非线性系 统控制、机器人学、控制工程和人工智 能。发表学术论文200余篇,出版专 著8部。 CAAI国际人工智能会议(CICAI2021) CAAI International Conference on Artificial Intelligence(CICAI 2021) The CAAI International Conference on Artificial Intelligence(CICAI 2021)will be held at Hangzhou,China on May 29th-30th.CICAI is organized by Chinese Association for Artificial Intelligence(CAAI).The aim of CICAI is to promote advanced research in AI,and foster scientific exchange between researchers,practitioners,scientists,students, and engineers in AI and its affiliated disciplines. CICAI 2021 will be a hybrid conference with both online and in-person presentations. The program committee of CICAI 2021 invites the submission of papers for the technical program of the confer- ence.High-quality original submissions are welcome from research results and applications of all areas of Al including but not limited to the following areas: ·Brain Inspired AI Optimization Machine Learning ·Multi--agent Systems ·Computer Vision ·Humans and AI Natural Language Processing Al Ethics,Privacy,Fairness and Security Knowledge Representation and Reasoning Explainability,Understandability,and Verifiability of Al Data Mining Multidisciplinary Research with Al ·Robotics Applications of Artificial Intelligence .AI Ethics,Privacy,Fairness and Security Other Al related topics
作者简介: 李林泽,硕士研究生,主要研究方 向为深度学习。 张涛,教授,博士生导师,担任 IEEE Education Society Beijing Chapter 主席、中国自动化学会理事, 主要研究方向为模式识别、非线性系 统控制、机器人学、控制工程和人工智 能。发表学术论文 200 余篇,出版专 著 8 部。 CAAI 国际人工智能会议 (CICAI 2021) CAAI International Conference on Artificial Intelligence (CICAI 2021) The CAAI International Conference on Artificial Intelligence (CICAI 2021) will be held at Hangzhou, China on May 29th-30th. CICAI is organized by Chinese Association for Artificial Intelligence (CAAI). The aim of CICAI is to promote advanced research in AI, and foster scientific exchange between researchers, practitioners, scientists, students, and engineers in AI and its affiliated disciplines. CICAI 2021 will be a hybrid conference with both online and in-person presentations. The program committee of CICAI 2021 invites the submission of papers for the technical program of the conference. High-quality original submissions are welcome from research results and applications of all areas of AI including but not limited to the following areas: • Brain Inspired AI • Optimization • Machine Learning • Multi-agent Systems • Computer Vision • Humans and AI • Natural Language Processing • AI Ethics, Privacy, Fairness and Security • Knowledge Representation and Reasoning • Explainability, Understandability, and Verifiability of AI • Data Mining • Multidisciplinary Research with AI • Robotics • Applications of Artificial Intelligence • AI Ethics, Privacy, Fairness and Security • Other AI related topics ·1162· 智 能 系 统 学 报 第 15 卷