正在加载图片...
·698· 智能系统学报 第15卷 多年。但是由于这些图像中的飞机具有旋转角度 为了解决滑动窗口的计算复杂问题,出现了 多样性和尺度多样性等特点,直到今天,该问题 以Selective Search为代表的基于图像纹理、颜 仍未被很好地解决。 色、边缘等信息的候选区域提取方法。这种方法 近年来,深度学习的热潮使得深度卷积神经 在保持高召回率的同时极大地减少了候选区域的 网络在图像分类、目标检测、目标识别等计算机 数量。深度学习兴起之后,Girshick等)将Se 视觉任务上取得了非常好的效果。主流的基于深 lective Search和卷积神经网络结合起来,提出了 度学习的检测方法(Faster R-CNNI、YOLO2. RCNN,大幅提升了目标检测的精度,开启了目标 SSD、RetinaNet等)已经在自然场景的图像数 检测的深度学习时代。Fast RCNNU4通过在最后 据集(Ms cocol、PASCAL VOC上达到了相 一层特征图上提取区域特征的策略,极大地降低 当惊人的性能表现。一种简单的策略是将这些检 了算法的时间复杂度。此时,Selective Search方 测算法直接迁移到遥感数据集上。尽管这种策略 法成了算法流程中最耗时的部分。Faster RCNN 能够取得不错的效果,但是仍然存在2个缺点: 使用了锚框的策略,提出了基于卷积神经网络的 1)主流检测网络是针对多类别检测任务设计的, 区域候选网络(region proposal networks,RPN),并 这使得它们的主干网络必须足够复杂才能应对特 使得检测算法成为了端到端的框架。 征多样性,而针对单一类别检测任务,网络中的 RCNN系列方法采用了“候选区域提取-每个 大量参数都是冗余的:2)遥感图像和自然场景图 区域单独分类”的思想,因此被称为“两阶段”检测 像之间的差异被忽略了。在自然场景下,大部分 算法。由于在每个阶段中都会有分类和回归,因 的消费级摄像头会受限于角度问题而只能拍摄到 此两阶段算法在检测精度上非常优秀,但在检测 飞机的侧面图像,而在遥感图像中,飞机只存在 速度上无法达到实时的要求。Redmon等)将检 尺度和旋转角度的差异,我们可以清楚地观察到 测问题视作一个回归任务,提出了YOLO,该方法 飞机的结构特征,这使得对飞机的检测变得更加 抛弃了候选区域提取,直接得出检测结果,又被 容易。 称为“一阶段”算法。一阶段检测算法在速度上非 基于以上两点,提出了一种简单但有效的飞 常快,但是检测精度不足。Lin等认为问题在于 机检测方法:首先,通过第1阶段产生若干个候选 一阶段算法在训练时的正负样本比例极度不均 窗口;然后,在第2阶段进行更精准的分类和边框 衡,简单的负样本在总样本中的比例非常大,提 回归。本文方法属于两阶段检测器,而使用的网 出了Focal Loss并应用到RetinaNet中改善训练, 络结构相比于Faster R-CNN更加简单,故命名为 实现了速度与精度的平衡。 RCNN-Lite。相比于主流的检测方法,RCNN-Lite 遥感图像目标检测与识别一直是遥感图像领 在保持较高检测精度的同时将速度提升了2~3 域的重点任务。进入21世纪以来,随着大量高空 倍。同时,RCNN-Lite的参数量仅有9.4万个,占 间分辨率、短重访周期的成像卫星的出现,遥感 用存储空间约为2.1MB,可以轻易地部署到各种 图像的数据量大大增加,极大地推动了该领域的 嵌入式设备中。 发展。遥感图像与自然场景图像相比,有着图像 为验证RCNN-Lite的有效性和可靠性,构建 分辨率高、覆盖区域广、目标多为人造刚体等特 了一个新的数据集一AMOYAirplane。数据集 征。因此,早期在对遥感图像进行目标检测时, 包括9372个飞机实例。除此之外,还为1583个 通常需要针对遥感图像的特点引入相应的先验信 飞机实例提供了5关键点标注。 息。以飞机检测为例,飞机在遥感图像中属于小 相关工作 目标,不易检测,但机场和跑道是遥感图像里比 较明显的区域。An等采用了两阶段检测的思 目标检测任务可以看作由3个部分组成:候 想,通过先检测机场区域来减少候选区域的数 选区域提取、图像分类和边框回归。早期,滑动 量,再对飞机进行更精细的检测。而Li等则针 窗口是候选区域提取的主流策略,并结合 对飞机是具有轴对称结构的刚体的特点,在使用 HOG9、SIFTO等手工设计的特征进行特征提取, 视觉显著性计算生成候选区域的基础上使用对称 最后由SVM]等算法给出分类结果。这种策略 性检测来确定飞机的位置。深度学习出现之后, 虽然非常直观易懂,但缺点也十分明显:为了不 由于卷积神经网络具有强大的提取特征能力,将 漏检,滑动窗口需要尽可能地穷举所有位置,时 主流的深度学习目标检测算法迁移到遥感图像检 间复杂度高。 测任务中并进行适当的微调成为了主要策略。多年。但是由于这些图像中的飞机具有旋转角度 多样性和尺度多样性等特点,直到今天,该问题 仍未被很好地解决。 近年来,深度学习的热潮使得深度卷积神经 网络在图像分类、目标检测、目标识别等计算机 视觉任务上取得了非常好的效果。主流的基于深 度学习的检测方法 (Faster R-CNN[1] 、YOLO[2-4] 、 SSD[5] 、RetinaNet[6] 等) 已经在自然场景的图像数 据集 (MS COCO[7] 、PASCAL VOC[8] ) 上达到了相 当惊人的性能表现。一种简单的策略是将这些检 测算法直接迁移到遥感数据集上。尽管这种策略 能够取得不错的效果,但是仍然存在 2 个缺点: 1) 主流检测网络是针对多类别检测任务设计的, 这使得它们的主干网络必须足够复杂才能应对特 征多样性,而针对单一类别检测任务,网络中的 大量参数都是冗余的;2) 遥感图像和自然场景图 像之间的差异被忽略了。在自然场景下,大部分 的消费级摄像头会受限于角度问题而只能拍摄到 飞机的侧面图像,而在遥感图像中,飞机只存在 尺度和旋转角度的差异,我们可以清楚地观察到 飞机的结构特征,这使得对飞机的检测变得更加 容易。 基于以上两点,提出了一种简单但有效的飞 机检测方法:首先,通过第 1 阶段产生若干个候选 窗口;然后,在第 2 阶段进行更精准的分类和边框 回归。本文方法属于两阶段检测器,而使用的网 络结构相比于 Faster R-CNN 更加简单,故命名为 RCNN-Lite。相比于主流的检测方法,RCNN-Lite 在保持较高检测精度的同时将速度提升了 2~3 倍。同时,RCNN-Lite 的参数量仅有 9.4 万个,占 用存储空间约为 2.1 MB,可以轻易地部署到各种 嵌入式设备中。 为验证 RCNN-Lite 的有效性和可靠性,构建 了一个新的数据集−AMOYAirplane。数据集 包括 9 372 个飞机实例。除此之外,还为 1 583 个 飞机实例提供了 5 关键点标注。 1 相关工作 目标检测任务可以看作由 3 个部分组成:候 选区域提取、图像分类和边框回归。早期,滑动 窗口是候选区域提取的主流策略,并结 合 HOG[9] 、SIFT[10] 等手工设计的特征进行特征提取, 最后由 SVM[11] 等算法给出分类结果。这种策略 虽然非常直观易懂,但缺点也十分明显:为了不 漏检,滑动窗口需要尽可能地穷举所有位置,时 间复杂度高。 为了解决滑动窗口的计算复杂问题,出现了 以 Selective Search[12] 为代表的基于图像纹理、颜 色、边缘等信息的候选区域提取方法。这种方法 在保持高召回率的同时极大地减少了候选区域的 数量。深度学习兴起之后,Girshick 等 [13] 将 Se￾lective Search 和卷积神经网络结合起来,提出了 RCNN,大幅提升了目标检测的精度,开启了目标 检测的深度学习时代。Fast RCNN[14] 通过在最后 一层特征图上提取区域特征的策略,极大地降低 了算法的时间复杂度。此时,Selective Search 方 法成了算法流程中最耗时的部分。Faster RCNN 使用了锚框的策略,提出了基于卷积神经网络的 区域候选网络 (region proposal networks,RPN),并 使得检测算法成为了端到端的框架。 RCNN 系列方法采用了“候选区域提取–每个 区域单独分类”的思想,因此被称为“两阶段”检测 算法。由于在每个阶段中都会有分类和回归,因 此两阶段算法在检测精度上非常优秀,但在检测 速度上无法达到实时的要求。Redmon 等 [2] 将检 测问题视作一个回归任务,提出了 YOLO,该方法 抛弃了候选区域提取,直接得出检测结果,又被 称为“一阶段”算法。一阶段检测算法在速度上非 常快,但是检测精度不足。Lin 等 [6] 认为问题在于 一阶段算法在训练时的正负样本比例极度不均 衡,简单的负样本在总样本中的比例非常大,提 出了 Focal Loss 并应用到 RetinaNet 中改善训练, 实现了速度与精度的平衡。 遥感图像目标检测与识别一直是遥感图像领 域的重点任务。进入 21 世纪以来,随着大量高空 间分辨率、短重访周期的成像卫星的出现,遥感 图像的数据量大大增加,极大地推动了该领域的 发展。遥感图像与自然场景图像相比,有着图像 分辨率高、覆盖区域广、目标多为人造刚体等特 征。因此,早期在对遥感图像进行目标检测时, 通常需要针对遥感图像的特点引入相应的先验信 息。以飞机检测为例,飞机在遥感图像中属于小 目标,不易检测,但机场和跑道是遥感图像里比 较明显的区域。An 等 [15] 采用了两阶段检测的思 想,通过先检测机场区域来减少候选区域的数 量,再对飞机进行更精细的检测。而 Li 等 [16] 则针 对飞机是具有轴对称结构的刚体的特点,在使用 视觉显著性计算生成候选区域的基础上使用对称 性检测来确定飞机的位置。深度学习出现之后, 由于卷积神经网络具有强大的提取特征能力,将 主流的深度学习目标检测算法迁移到遥感图像检 测任务中并进行适当的微调成为了主要策略。 ·698· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有