第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0:10.11992/tis.201908028 一种基于级联神经网络的飞机检测方法 王晓林,苏松志',刘晓颖,蔡国榕2,李绍滋 (1.厦门大学智能科学与技术系,福建厦门361005:2.集美大学计算机工程学院,福建厦门361005) 摘要:由于旋转角度多样性、极端的尺度差异的影响,遥感图像中的飞机检测目前仍存在挑战。为了解决旋 转和尺度的问题,目前的策略是将现有的自然场景下的目标检测算法(如Faster R-CNN、SSD等)直接迁移到遥 感图像中。这些算法的主干网络复杂,模型占用空间大,难以应用到低功耗和嵌入式设备中。为了在准确率不 降低的情况下提高检测速度,本文提出了一个仅包含9层的卷积神经网络来解决飞机检测问题。该网络采用 了由粗到细的策略,通过级联两个网络的方式减少计算开销。为了评估方法的有效性,我们建立了一个针对飞 机检测的遥感数据集。实验结果表明,该方法超越了VGG16等复杂的主干网络,达到了接近主流检测方法的 性能表现,同时显著降低了参数量并使检测速度提高了2倍以上。 关键词:飞机检测:遥感图像;级联;深度学习;卷积神经网络;两阶段:由粗到细;嵌入式设备 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2020)04-0697-08 中文引用格式:王晓林,苏松志,刘晓颖,等.一种基于级联神经网络的飞机检测方法J引.智能系统学报,2020,15(4): 697-704. 英文引用格式:WANG Xiaolin,,SU Songzhi,,LIU Xiaoying,etal.Cascade convolutional neural networks for airplane detectionJ. CAAI transactions on intelligent systems,2020,15(4):697-704. Cascade convolutional neural networks for airplane detection WANG Xiaolin',SU Songzhi',LIU Xiaoying',CAI Guorong,LI Shaozi' (1.Intelligent Science Technology Department,Xiamen University,Xiamen 361005,China;2.Computer Engineering College, Jimei University,Xiamen 361005,China) Abstract:Detecting airplanes from remote sensing images remains a challenging task,since the images of airplanes al- ways have the characteristics of multiple rotation angles and severe scale change.In order to solve these problems,the most commonly used strategies are to transfer the existing mainstream object detection algorithms based on natural scenario into the remote sensing images directly,such as Faster R-CNN or SSD.However,the backbones of such net- works are generally heavy and occupying large space,which are difficult to be applied to low-power consumption devices or front-end embedded systems.To this end,we designed a simple convolutional neural network architecture with only 9 convolutional layers for airplane detection.Our method adopted a coarse-to-fine strategy by cascading a two-stage network,which further reducing the computation cost of detection.Finally,we built a remote sensing dataset for airplane detection to verify our proposed method.The experimental results show that compared with heavy back- bone networks such as VGG16,the performance of our method is close to popular methods,but with much less paramet- ers and more than 2 times higher detection speed. Keywords:airplane detection;remote sensing images;cascade;deep learning;convolutional neural network;two-stage; coarse-to-fine:embedded device 遥感图像是人类获取空间信息的一种重要方 收稿日期:2019-08-24. 基金项目:国家自然科学基金项目(61806172.41971424):厦门 式,在军事和民用领域都有着很大的潜在应用价 市海洋与渔业局海洋科技成果转化与产业化示范项 目(18CZB033H11). 值,如机场管理、空中交通管制等。飞机检测是 通信作者:苏松志.E-mail:ssz@mu.edu.cn 遥感图像领域的一类经典问题,已经被研究了许
DOI: 10.11992/tis.201908028 一种基于级联神经网络的飞机检测方法 王晓林1 ,苏松志1 ,刘晓颖1 ,蔡国榕2 ,李绍滋1 (1. 厦门大学 智能科学与技术系,福建 厦门 361005; 2. 集美大学 计算机工程学院,福建 厦门 361005) 摘 要:由于旋转角度多样性、极端的尺度差异的影响,遥感图像中的飞机检测目前仍存在挑战。为了解决旋 转和尺度的问题,目前的策略是将现有的自然场景下的目标检测算法 (如 Faster R-CNN、SSD 等) 直接迁移到遥 感图像中。这些算法的主干网络复杂,模型占用空间大,难以应用到低功耗和嵌入式设备中。为了在准确率不 降低的情况下提高检测速度,本文提出了一个仅包含 9 层的卷积神经网络来解决飞机检测问题。该网络采用 了由粗到细的策略,通过级联两个网络的方式减少计算开销。为了评估方法的有效性,我们建立了一个针对飞 机检测的遥感数据集。实验结果表明,该方法超越了 VGG16 等复杂的主干网络,达到了接近主流检测方法的 性能表现,同时显著降低了参数量并使检测速度提高了 2 倍以上。 关键词:飞机检测;遥感图像;级联;深度学习;卷积神经网络;两阶段;由粗到细;嵌入式设备 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2020)04−0697−08 中文引用格式:王晓林, 苏松志, 刘晓颖, 等. 一种基于级联神经网络的飞机检测方法 [J]. 智能系统学报, 2020, 15(4): 697–704. 英文引用格式:WANG Xiaolin, SU Songzhi, LIU Xiaoying, et al. Cascade convolutional neural networks for airplane detection[J]. CAAI transactions on intelligent systems, 2020, 15(4): 697–704. Cascade convolutional neural networks for airplane detection WANG Xiaolin1 ,SU Songzhi1 ,LIU Xiaoying1 ,CAI Guorong2 ,LI Shaozi1 (1. Intelligent Science & Technology Department, Xiamen University, Xiamen 361005, China; 2. Computer Engineering College, Jimei University, Xiamen 361005, China) Abstract: Detecting airplanes from remote sensing images remains a challenging task, since the images of airplanes always have the characteristics of multiple rotation angles and severe scale change. In order to solve these problems, the most commonly used strategies are to transfer the existing mainstream object detection algorithms based on natural scenario into the remote sensing images directly, such as Faster R-CNN or SSD. However, the backbones of such networks are generally heavy and occupying large space, which are difficult to be applied to low-power consumption devices or front-end embedded systems. To this end, we designed a simple convolutional neural network architecture with only 9 convolutional layers for airplane detection. Our method adopted a coarse-to-fine strategy by cascading a two-stage network, which further reducing the computation cost of detection. Finally, we built a remote sensing dataset for airplane detection to verify our proposed method. The experimental results show that compared with heavy backbone networks such as VGG16, the performance of our method is close to popular methods, but with much less parameters and more than 2 times higher detection speed. Keywords: airplane detection; remote sensing images; cascade; deep learning; convolutional neural network; two-stage; coarse-to-fine; embedded device 遥感图像是人类获取空间信息的一种重要方 式,在军事和民用领域都有着很大的潜在应用价 值,如机场管理、空中交通管制等。飞机检测是 遥感图像领域的一类经典问题,已经被研究了许 收稿日期:2019−08−24. 基金项目:国家自然科学基金项目 (61806172,41971424);厦门 市海洋与渔业局海洋科技成果转化与产业化示范项 目 (18CZB033HJ11). 通信作者:苏松志. E-mail:ssz@xmu.edu.cn. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
·698· 智能系统学报 第15卷 多年。但是由于这些图像中的飞机具有旋转角度 为了解决滑动窗口的计算复杂问题,出现了 多样性和尺度多样性等特点,直到今天,该问题 以Selective Search为代表的基于图像纹理、颜 仍未被很好地解决。 色、边缘等信息的候选区域提取方法。这种方法 近年来,深度学习的热潮使得深度卷积神经 在保持高召回率的同时极大地减少了候选区域的 网络在图像分类、目标检测、目标识别等计算机 数量。深度学习兴起之后,Girshick等)将Se 视觉任务上取得了非常好的效果。主流的基于深 lective Search和卷积神经网络结合起来,提出了 度学习的检测方法(Faster R-CNNI、YOLO2. RCNN,大幅提升了目标检测的精度,开启了目标 SSD、RetinaNet等)已经在自然场景的图像数 检测的深度学习时代。Fast RCNNU4通过在最后 据集(Ms cocol、PASCAL VOC上达到了相 一层特征图上提取区域特征的策略,极大地降低 当惊人的性能表现。一种简单的策略是将这些检 了算法的时间复杂度。此时,Selective Search方 测算法直接迁移到遥感数据集上。尽管这种策略 法成了算法流程中最耗时的部分。Faster RCNN 能够取得不错的效果,但是仍然存在2个缺点: 使用了锚框的策略,提出了基于卷积神经网络的 1)主流检测网络是针对多类别检测任务设计的, 区域候选网络(region proposal networks,RPN),并 这使得它们的主干网络必须足够复杂才能应对特 使得检测算法成为了端到端的框架。 征多样性,而针对单一类别检测任务,网络中的 RCNN系列方法采用了“候选区域提取-每个 大量参数都是冗余的:2)遥感图像和自然场景图 区域单独分类”的思想,因此被称为“两阶段”检测 像之间的差异被忽略了。在自然场景下,大部分 算法。由于在每个阶段中都会有分类和回归,因 的消费级摄像头会受限于角度问题而只能拍摄到 此两阶段算法在检测精度上非常优秀,但在检测 飞机的侧面图像,而在遥感图像中,飞机只存在 速度上无法达到实时的要求。Redmon等)将检 尺度和旋转角度的差异,我们可以清楚地观察到 测问题视作一个回归任务,提出了YOLO,该方法 飞机的结构特征,这使得对飞机的检测变得更加 抛弃了候选区域提取,直接得出检测结果,又被 容易。 称为“一阶段”算法。一阶段检测算法在速度上非 基于以上两点,提出了一种简单但有效的飞 常快,但是检测精度不足。Lin等认为问题在于 机检测方法:首先,通过第1阶段产生若干个候选 一阶段算法在训练时的正负样本比例极度不均 窗口;然后,在第2阶段进行更精准的分类和边框 衡,简单的负样本在总样本中的比例非常大,提 回归。本文方法属于两阶段检测器,而使用的网 出了Focal Loss并应用到RetinaNet中改善训练, 络结构相比于Faster R-CNN更加简单,故命名为 实现了速度与精度的平衡。 RCNN-Lite。相比于主流的检测方法,RCNN-Lite 遥感图像目标检测与识别一直是遥感图像领 在保持较高检测精度的同时将速度提升了2~3 域的重点任务。进入21世纪以来,随着大量高空 倍。同时,RCNN-Lite的参数量仅有9.4万个,占 间分辨率、短重访周期的成像卫星的出现,遥感 用存储空间约为2.1MB,可以轻易地部署到各种 图像的数据量大大增加,极大地推动了该领域的 嵌入式设备中。 发展。遥感图像与自然场景图像相比,有着图像 为验证RCNN-Lite的有效性和可靠性,构建 分辨率高、覆盖区域广、目标多为人造刚体等特 了一个新的数据集一AMOYAirplane。数据集 征。因此,早期在对遥感图像进行目标检测时, 包括9372个飞机实例。除此之外,还为1583个 通常需要针对遥感图像的特点引入相应的先验信 飞机实例提供了5关键点标注。 息。以飞机检测为例,飞机在遥感图像中属于小 相关工作 目标,不易检测,但机场和跑道是遥感图像里比 较明显的区域。An等采用了两阶段检测的思 目标检测任务可以看作由3个部分组成:候 想,通过先检测机场区域来减少候选区域的数 选区域提取、图像分类和边框回归。早期,滑动 量,再对飞机进行更精细的检测。而Li等则针 窗口是候选区域提取的主流策略,并结合 对飞机是具有轴对称结构的刚体的特点,在使用 HOG9、SIFTO等手工设计的特征进行特征提取, 视觉显著性计算生成候选区域的基础上使用对称 最后由SVM]等算法给出分类结果。这种策略 性检测来确定飞机的位置。深度学习出现之后, 虽然非常直观易懂,但缺点也十分明显:为了不 由于卷积神经网络具有强大的提取特征能力,将 漏检,滑动窗口需要尽可能地穷举所有位置,时 主流的深度学习目标检测算法迁移到遥感图像检 间复杂度高。 测任务中并进行适当的微调成为了主要策略
多年。但是由于这些图像中的飞机具有旋转角度 多样性和尺度多样性等特点,直到今天,该问题 仍未被很好地解决。 近年来,深度学习的热潮使得深度卷积神经 网络在图像分类、目标检测、目标识别等计算机 视觉任务上取得了非常好的效果。主流的基于深 度学习的检测方法 (Faster R-CNN[1] 、YOLO[2-4] 、 SSD[5] 、RetinaNet[6] 等) 已经在自然场景的图像数 据集 (MS COCO[7] 、PASCAL VOC[8] ) 上达到了相 当惊人的性能表现。一种简单的策略是将这些检 测算法直接迁移到遥感数据集上。尽管这种策略 能够取得不错的效果,但是仍然存在 2 个缺点: 1) 主流检测网络是针对多类别检测任务设计的, 这使得它们的主干网络必须足够复杂才能应对特 征多样性,而针对单一类别检测任务,网络中的 大量参数都是冗余的;2) 遥感图像和自然场景图 像之间的差异被忽略了。在自然场景下,大部分 的消费级摄像头会受限于角度问题而只能拍摄到 飞机的侧面图像,而在遥感图像中,飞机只存在 尺度和旋转角度的差异,我们可以清楚地观察到 飞机的结构特征,这使得对飞机的检测变得更加 容易。 基于以上两点,提出了一种简单但有效的飞 机检测方法:首先,通过第 1 阶段产生若干个候选 窗口;然后,在第 2 阶段进行更精准的分类和边框 回归。本文方法属于两阶段检测器,而使用的网 络结构相比于 Faster R-CNN 更加简单,故命名为 RCNN-Lite。相比于主流的检测方法,RCNN-Lite 在保持较高检测精度的同时将速度提升了 2~3 倍。同时,RCNN-Lite 的参数量仅有 9.4 万个,占 用存储空间约为 2.1 MB,可以轻易地部署到各种 嵌入式设备中。 为验证 RCNN-Lite 的有效性和可靠性,构建 了一个新的数据集−AMOYAirplane。数据集 包括 9 372 个飞机实例。除此之外,还为 1 583 个 飞机实例提供了 5 关键点标注。 1 相关工作 目标检测任务可以看作由 3 个部分组成:候 选区域提取、图像分类和边框回归。早期,滑动 窗口是候选区域提取的主流策略,并结 合 HOG[9] 、SIFT[10] 等手工设计的特征进行特征提取, 最后由 SVM[11] 等算法给出分类结果。这种策略 虽然非常直观易懂,但缺点也十分明显:为了不 漏检,滑动窗口需要尽可能地穷举所有位置,时 间复杂度高。 为了解决滑动窗口的计算复杂问题,出现了 以 Selective Search[12] 为代表的基于图像纹理、颜 色、边缘等信息的候选区域提取方法。这种方法 在保持高召回率的同时极大地减少了候选区域的 数量。深度学习兴起之后,Girshick 等 [13] 将 Selective Search 和卷积神经网络结合起来,提出了 RCNN,大幅提升了目标检测的精度,开启了目标 检测的深度学习时代。Fast RCNN[14] 通过在最后 一层特征图上提取区域特征的策略,极大地降低 了算法的时间复杂度。此时,Selective Search 方 法成了算法流程中最耗时的部分。Faster RCNN 使用了锚框的策略,提出了基于卷积神经网络的 区域候选网络 (region proposal networks,RPN),并 使得检测算法成为了端到端的框架。 RCNN 系列方法采用了“候选区域提取–每个 区域单独分类”的思想,因此被称为“两阶段”检测 算法。由于在每个阶段中都会有分类和回归,因 此两阶段算法在检测精度上非常优秀,但在检测 速度上无法达到实时的要求。Redmon 等 [2] 将检 测问题视作一个回归任务,提出了 YOLO,该方法 抛弃了候选区域提取,直接得出检测结果,又被 称为“一阶段”算法。一阶段检测算法在速度上非 常快,但是检测精度不足。Lin 等 [6] 认为问题在于 一阶段算法在训练时的正负样本比例极度不均 衡,简单的负样本在总样本中的比例非常大,提 出了 Focal Loss 并应用到 RetinaNet 中改善训练, 实现了速度与精度的平衡。 遥感图像目标检测与识别一直是遥感图像领 域的重点任务。进入 21 世纪以来,随着大量高空 间分辨率、短重访周期的成像卫星的出现,遥感 图像的数据量大大增加,极大地推动了该领域的 发展。遥感图像与自然场景图像相比,有着图像 分辨率高、覆盖区域广、目标多为人造刚体等特 征。因此,早期在对遥感图像进行目标检测时, 通常需要针对遥感图像的特点引入相应的先验信 息。以飞机检测为例,飞机在遥感图像中属于小 目标,不易检测,但机场和跑道是遥感图像里比 较明显的区域。An 等 [15] 采用了两阶段检测的思 想,通过先检测机场区域来减少候选区域的数 量,再对飞机进行更精细的检测。而 Li 等 [16] 则针 对飞机是具有轴对称结构的刚体的特点,在使用 视觉显著性计算生成候选区域的基础上使用对称 性检测来确定飞机的位置。深度学习出现之后, 由于卷积神经网络具有强大的提取特征能力,将 主流的深度学习目标检测算法迁移到遥感图像检 测任务中并进行适当的微调成为了主要策略。 ·698· 智 能 系 统 学 报 第 15 卷
第4期 王晓林,等:一种基于级联神经网络的飞机检测方法 ·699· 如Hsieh等Im在RPN的基础上提出了具有空间 该数据集中包含了2806张图像,但只有197张图 布局结构的LPN,有效地减少了候选区域生成的 像包含飞机实例,其余图像在飞机检测任务中不 数量并提高了生成质量:Liu等1利用多角度的 起作用。 先验框提出了DRBox方法,在检测目标的同时还 我们建立了一个名为AMOYAirplane的新的 估计了目标的旋转角度;Yang等9提出了一种将 飞机遥感图像数据集。数据集包括了中国96个主 全卷积网络(fully convolutional network,FCN)和 要机场的场景,共包含9372个飞机实例,每个实 马尔可夫随机场结合起来的飞机检测框架。 例都是用矩形框进行标注。每个标注由左上、右 2数据集 下两个顶,点的坐标值构成。数据集既包含了低分 辨率图像,又包括了高分辨率图像,共1639张图 尽管对飞机检测已经研究了很多年,但是目 片,其中1248张用于训练,391张用于测试。除 前大多数的遥感图像数据集都是针对通用目标 此之外,还为其中1583个飞机实例提供了五关键 的,如NWPU-VHR102o21包含了10类目标,而 点标注,这可以用于对飞机的进一步研究,如旋转 DOTA2)包含了15类目标,这些数据集中仅有一 角度估计任务。数据集的详细对比内容见表1。 小部分可以用于飞机检测任务。以DOTA为例, 图I给出了一些AMOYAirplane数据集的示例。 表1数据集对比 Table 1 Comparison between datasets 数据集 图像分辨率 标注格式 类别 图片数量 实例数量 关键点 DOTA 高 带方向的矩形框 15 197 8300 NWPU-VHR10 较高 矩形框 10 90 757 AMOYAirplane 高、低均含有 矩形框 1 1639 9372 3检测方法 3.1模型总体介绍 本文提出了一种级联的飞机检测方法。该方 法由两阶段组成,每个阶段都是一个非常简单的卷 积神经网络,如图2所示。第1阶段通过产生若干 个候选区域来粗略地定位,然后用非极大值抑制 NMS)来去除有较高重叠度的窗口。剩下的窗口 (a)示例1 (b)示例2 会在第2阶段中进行更精细的分类和边框回归,然 图1 AMOYAirplane数据集示例 后再次进行非极大值抑制并输出最终结果。和 Fig.1 Samples in AMOYAirplane dataset MTCNN2类似,本文把这2个网络分别叫作P- Net和R-Net。2个网络的具体结构如图3所示。 Stage-1 Stage-2 粗略的区域 准确的区域 NMS 边框回归 边框回归 图2RCNN-Lite模型结构 Fig.2 Model structure of RCNN-Lite
如 Hsieh 等 [17] 在 RPN 的基础上提出了具有空间 布局结构的 LPN,有效地减少了候选区域生成的 数量并提高了生成质量;Liu 等 [18] 利用多角度的 先验框提出了 DRBox 方法,在检测目标的同时还 估计了目标的旋转角度;Yang 等 [19] 提出了一种将 全卷积网络 (fully convolutional network,FCN) 和 马尔可夫随机场结合起来的飞机检测框架。 2 数据集 尽管对飞机检测已经研究了很多年,但是目 前大多数的遥感图像数据集都是针对通用目标 的,如 NWPU-VHR10[20-22] 包含了 10 类目标,而 DOTA[23] 包含了 15 类目标,这些数据集中仅有一 小部分可以用于飞机检测任务。以 DOTA 为例, 该数据集中包含了 2 806 张图像,但只有 197 张图 像包含飞机实例,其余图像在飞机检测任务中不 起作用。 我们建立了一个名为 AMOYAirplane 的新的 飞机遥感图像数据集。数据集包括了中国 96 个主 要机场的场景,共包含 9 372 个飞机实例,每个实 例都是用矩形框进行标注。每个标注由左上、右 下两个顶点的坐标值构成。数据集既包含了低分 辨率图像,又包括了高分辨率图像,共 1 639 张图 片,其中 1 248 张用于训练,391 张用于测试。除 此之外,还为其中 1 583 个飞机实例提供了五关键 点标注,这可以用于对飞机的进一步研究,如旋转 角度估计任务。数据集的详细对比内容见表 1。 图 1 给出了一些 AMOYAirplane 数据集的示例。 表 1 数据集对比 Table 1 Comparison between datasets 数据集 图像分辨率 标注格式 类别 图片数量 实例数量 关键点 DOTA 高 带方向的矩形框 15 197 8 300 × NWPU-VHR10 较高 矩形框 10 90 757 × AMOYAirplane 高、低均含有 矩形框 1 1 639 9 372 √ (a) 示例 1 (b) 示例 2 图 1 AMOYAirplane 数据集示例 Fig. 1 Samples in AMOYAirplane dataset 3 检测方法 3.1 模型总体介绍 本文提出了一种级联的飞机检测方法。该方 法由两阶段组成,每个阶段都是一个非常简单的卷 积神经网络,如图 2 所示。第 1 阶段通过产生若干 个候选区域来粗略地定位,然后用非极大值抑制 (NMS) 来去除有较高重叠度的窗口。剩下的窗口 会在第 2 阶段中进行更精细的分类和边框回归,然 后再次进行非极大值抑制并输出最终结果。和 MTCNN[24] 类似,本文把这 2 个网络分别叫作 PNet 和 R-Net。2 个网络的具体结构如图 3 所示。 边框回归 边框回归 图像 金字塔 Stage-1 NMS NMS NMS 粗略的区域 准确的区域 Stage-2 图 2 RCNN-Lite 模型结构 Fig. 2 Model structure of RCNN-Lite 第 4 期 王晓林,等:一种基于级联神经网络的飞机检测方法 ·699·
·700· 智能系统学报 第15卷 3×3卷积 3×3卷积 3×3卷积 分类分支 2×2最大池化 1×1×2 输入图像大小 12×12×3 5×5×8 3×3×16 1×1×32 边框回归分支 Stage-1 1XI×4 3×3卷积 3×3卷积3×3卷积3×3卷积 2×2最大池化 2×2最大池化 分类分支 1×1×2 输入图像大小 24×24×3 11×11×16 4×4×32 3×3×641×1×128 边框回归分支 Stage-2 1×1×4 图3网络结构 Fig.3 Network structure 3.2网络具体结构 为l5.9万,RetinaNet大约产生12万个),为了减 P-Net该网络负责对目标进行粗略定位。 少计算量,在进行第一次NMS的时候,只选择置 为了使网络能够应对不同尺寸的输入图像,P 信度最高的1.2万个候选区域作为输入,在输出 Net采用了全卷积神经网络的设计,并且由于只 时只保留置信度最高的6000个候选区域。而在 包含4个卷积层,网络的参数量也非常小。 第2次NMS时,选择置信度最高的1万个候选 给定一张图片,推理时首先需要对图像建立 区域作为输入,只保留置信度最高的2000的候 图像金字塔,金字塔的每一层都会作为P-Net的 选区域。 输入并得到相应的特征图。由图3可知,一个 R-Net上一个阶段输出的所有候选区域将 12像素×12像素的区域经过3层卷积后尺寸变为 会作为R-Net的输入,同样经过分类和边框回归 1×1。因此,一张输人为H×W的图片经过3层卷 2个分支输出结果,得到置信度和偏移量,筛除置 积后得到大小为1,10 2 像素x/W-10 信度较低的边框并根据偏移量调整边框,最终通 2 像素的 过NMS输出检测结果。 特征图,特征图上的每一点对应输入图像上的一 由于R-Net含有全连接层,其输入图像大小 个12像素×12像素的区域。该特征图进一步送 必须是固定的,因此必须在输入前将窗口全部调 入两个并行的1×1的卷积得到分类和边框回归结 整至24像素x24像素。本文采用了各向异性、各 果。分类分支得到的特征图上的每一点代表了对 向同性、Rol Pooling、Rol Align等4种方法进 应区域包含飞机的置信度,回归分支的每一点代 行比较。各向异性方法将候选区域的宽和高分别 表了对应区域的偏移量。根据输入图像的大小和 缩放到24像素,各向同性方法则首先用0将候选 缩放尺度可以计算得到所有候选框,去除置信度 区域填充成正方形,然后再缩放到24像素x24像 较低的区域并利用偏移量对候选框的位置进行调 素,缩放前后候选框区域的宽高比保持不变。RoI 整,然后通过非极大值抑制(non-maximum sup- Pooling是Fast R-CNN中提出的一种池化方法,可 pression,NMS)减少冗余。由于P-Net的输入图像 以将任意大小的区域池化成固定尺寸。RoI Align 是测试图像经过多尺度变换得到的,输入图像上 利用双线性插值法对RoI Pooling进行了改进,使 的12像素×12像素区域会对应测试图像上不同 得池化过程中的位置信息损失更少。实验结果表 大小的区域,从而保证PNt可以产生不同大小的候选 明RoI Align表现最好。 区域。 3.3P-Net和R-Net的训练策略 最后,对每一层输出的候选框取并集然后再 在每个阶段的训练中都要考虑分类和边框回 次进行NMS来抑制重复的检测。由于P-Net所 归2个任务。 生成的锚框数量非常大(一张800像素x800像素 分类对于飞机检测,该任务是一个二分类 的图像会产生大约32.2万个错框,而采用ResNet+- 问题,因此本文使用交叉嫡损失函数,对每个样 FPN结构的Faster R-CNN产生的锚框数量大约 本x,损失为
输入图像大小 12×12×3 5×5×8 3×3×16 1×1×32 1×1×2 1×1×4 1×1×2 1×1×4 分类分支 边框回归分支 3×3 卷积 3×3 卷积 3×3 卷积 3×3 卷积 2×2 最大池化 2×2 最大池化 3×3 卷积 3×3 卷积 3×3 卷积 2×2 最大池化 输入图像大小 24×24×3 11×11×16 4×4×32 3×3×64 分类分支 1×1×128 边框回归分支 Stage-1 Stage-2 图 3 网络结构 Fig. 3 Network structure 3.2 网络具体结构 P-Net 该网络负责对目标进行粗略定位。 为了使网络能够应对不同尺寸的输入图像,PNet 采用了全卷积神经网络的设计,并且由于只 包含 4 个卷积层,网络的参数量也非常小。 ⌊ H −10 2 ⌋ × ⌊ W −10 2 ⌋ × 给定一张图片,推理时首先需要对图像建立 图像金字塔,金字塔的每一层都会作为 P-Net 的 输入并得到相应的特征图。由图 3 可知,一个 12 像素×12 像素的区域经过 3 层卷积后尺寸变为 1×1。因此,一张输入为 H×W 的图片经过 3 层卷 积后得到大小为 像素 像素的 特征图,特征图上的每一点对应输入图像上的一 个 12 像素×12 像素的区域。该特征图进一步送 入两个并行的 1×1 的卷积得到分类和边框回归结 果。分类分支得到的特征图上的每一点代表了对 应区域包含飞机的置信度,回归分支的每一点代 表了对应区域的偏移量。根据输入图像的大小和 缩放尺度可以计算得到所有候选框,去除置信度 较低的区域并利用偏移量对候选框的位置进行调 整,然后通过非极大值抑制 (non-maximum suppression, NMS) 减少冗余。由于 P-Net 的输入图像 是测试图像经过多尺度变换得到的,输入图像上 的 12 像素 12 像素区域会对应测试图像上不同 大小的区域,从而保证P-Net可以产生不同大小的候选 区域。 × 最后,对每一层输出的候选框取并集然后再 次进行 NMS 来抑制重复的检测。由于 P-Net 所 生成的锚框数量非常大 (一张 800 像素 800 像素 的图像会产生大约 32.2 万个锚框,而采用 ResNet+ FPN 结构的 Faster R-CNN 产生的锚框数量大约 为 15.9 万,RetinaNet 大约产生 12 万个),为了减 少计算量,在进行第一次 NMS 的时候,只选择置 信度最高的 1.2 万个候选区域作为输入,在输出 时只保留置信度最高的 6 000 个候选区域。而在 第 2 次 NMS 时,选择置信度最高的 1 万个候选 区域作为输入,只保留置信度最高的 2 000 的候 选区域。 R-Net 上一个阶段输出的所有候选区域将 会作为 R-Net 的输入,同样经过分类和边框回归 2 个分支输出结果,得到置信度和偏移量,筛除置 信度较低的边框并根据偏移量调整边框,最终通 过 NMS 输出检测结果。 × × 由于 R-Net 含有全连接层,其输入图像大小 必须是固定的,因此必须在输入前将窗口全部调 整至 24 像素 24 像素。本文采用了各向异性、各 向同性、RoI Pooling[14] 、RoI Align[25] 等 4 种方法进 行比较。各向异性方法将候选区域的宽和高分别 缩放到 24 像素,各向同性方法则首先用 0 将候选 区域填充成正方形,然后再缩放到 24 像素 24 像 素,缩放前后候选框区域的宽高比保持不变。RoI Pooling 是 Fast R-CNN 中提出的一种池化方法,可 以将任意大小的区域池化成固定尺寸。RoI Align 利用双线性插值法对 RoI Pooling 进行了改进,使 得池化过程中的位置信息损失更少。实验结果表 明 RoI Align 表现最好。 3.3 P-Net 和 R-Net 的训练策略 在每个阶段的训练中都要考虑分类和边框回 归 2 个任务。 xi 分类 对于飞机检测,该任务是一个二分类 问题,因此本文使用交叉熵损失函数,对每个样 本 ,损失为 ·700· 智 能 系 统 学 报 第 15 卷
第4期 王晓林,等:一种基于级联神经网络的飞机检测方法 ·701· Loket =-(y,det log p;+(1-y,de (1-log p ) 部分样本,其余的则不参与训练。3种样本的比 式中:P:代表:是飞机的概率;y∈{0,1)代表了 例控制在1:1:3左右,在计算损失函数时,分类任 样本的真实标记。 务只使用正样本和负样本,边框回归任务则只使 边框回归在大多数情况下,直接使用目标 用正样本和部分样本。P-Nt训练完成后,在训练 边框的坐标值进行训练会使得网络难以收敛。R- 集上进行检测,得到的所有候选区域按照同样的 CNN中使用了边框回归的方法,通过学习预测框方法划分成正、负和部分样本。在使用PNt生 和真实框之间的偏移量减少定位误差,同时不容 成R-Net训练样本时,为了保证样本数量足够,取 易受到目标尺度的影响。本文方法也采用了这种 消了P-Net的第2次NMS。 策略。给定正样本x,我们选择与x的交并比 在所有实验中,全部采用随机梯度下降法进 (intersection over union,IoU)最大的真实边框作为 行参数更新,P-Net和R-Net均迭代7万次,采用 该样本的学习目标,并用四元向量代表tx真实 了热身策略更新学习率:在最初的1000次迭代 偏差,代表网络预测的偏差,则有, 中,学习率线性增加到0.005,随后才开始正式训 to=(dxi,dyi,dwi,dhi) 练。在迭代至4万和6万次时,学习率衰减十分 dx=(x:-)/m 之一。 dy,=0y,-)/h 4.2实验结果 dw;In(w:/w) 基于深度学习的目标检测方法可大致分为两 类:两阶段检测方法和一阶段检测方法。本文分 dh:=(hi-ha)/hi 式中:、、w、h,分别是真实边框中心的的横 别选择了两种方法的代表:Faster R-CNN)和Ret- 纵坐标和边框的宽、高;、、、则是网络预 inaNet。Faster R-CNN是目前非常流行的两阶 测框中心点的横、纵坐标以及矩形框的宽、高。 段检测算法,最初该算法使用VGG16作为主干网 络,目前主流的主干网络通常采用ResNet+FPN 该任务的损失函数为 结构。而RetinaNet则是一阶段算法中速度和精 Lo =t,oho 度都比较均衡的检测器。在所有的实验中,Faster 多任务训练每个阶段的总损失函数为 R-CNN和RetinaNet中所有的超参数均使用默认 2∑山 参数。 4.2.1测试集结果 1j 式中:je{box,deth:N是样本数目;是平衡系数, 我们用准确率-召回率曲线和ROC曲线来验 使得两种损失函数大约处在同一量级上。 证本文的方法,如图4所示,详细比较见表2。可 在线困难样本挖掘(online hard example min- 以看到,在mAP上,本文方法超过了一阶段检测 ing,OHEM)Zhang等2在MTCNN中提出一种 算法RetinaNet和以VGGl6为主千网络的Faster R-CNN算法,仅比以ResNet-.5O+FPN为主千网络 OHEM方法:将同一批样本按损失值的大小进行 的Faster R-CNN略低2%左右。但从模型占用存 排序,只将损失最大的70%样本进行回传计算梯 储空间来看,Faster R-CNN和RetinaNet都占用了 度。这样做的原因是样本的损失越小,对参数更 数百兆的空间,这使得它们很难直接部署到一些 新的贡献就越小。而考虑到损失最大的样本有可 嵌入式设备中,而RCNN-Lite仅需2.1MB,占用 能是异常点的情况(可能是数据集的标签错误、 空间极小。 边框坐标错误或者其他情况),因此对该方法进行 了修改:不仅抛弃损失最小的30%样本,还抛弃 1.0 0.9 了损失最高的2%的样本,仅用剩下的样本损失 0.8 进行反向传播。 0.7 解0.6 4实验结果及分析 器0.5 号0.4 4.1实现细节 03 Faster RCNN-VGG16-0.7685 0.2 RetinaNet-0.902 在训练过程中,P-Net的输入样本来自于在训 0.1 -0urs-0.9042 --Faster RCNN-ResNet50-FPN-0.9247 练集图像上的随机裁剪,所有样本会按照与真实 00.10.20.30.40.50.60.70.80.91.0 边框的IoU被分成3类:IoU大于0.65的是正样 召回率 本,低于0.3的是负样本,在0.4~0.65的则被视为 (a)准确率召回率曲线
Li det = −(yi det log pi +(1−yi det)(1−log pi)) pi xi yi det 式中: 代表 是飞机的概率; ∈ {0,1} 代表了 样本的真实标记。 xi xi ti box tˆ box i 边框回归 在大多数情况下,直接使用目标 边框的坐标值进行训练会使得网络难以收敛。RCNN 中使用了边框回归的方法,通过学习预测框 和真实框之间的偏移量减少定位误差,同时不容 易受到目标尺度的影响。本文方法也采用了这种 策略。给定正样本 ,我们选择与 的交并比 (intersection over union, IoU) 最大的真实边框作为 该样本的学习目标,并用四元向量代表 真实 偏差, 代表网络预测的偏差,则有, ti box = (dxi ,dyi ,dwi ,dhi) T dxi = (xi − xˆi)/wˆi dyi = (yi −yˆi)/hˆ i dwi = ln(wi/wˆi) dhi = (hi −hˆ i)/hˆ i xi、yi、wi、hi xˆi、yˆi、wˆi、hˆ i 式中: 分别是真实边框中心的的横、 纵坐标和边框的宽、高; 则是网络预 测框中心点的横、纵坐标以及矩形框的宽、高。 该任务的损失函数为 Li box = ti box − tˆ box i 2 多任务训练 每个阶段的总损失函数为 Loss = 1 N ∑N i=1 ∑ j λiLi j 式中: j ∈ {box,det} ;N 是样本数目; λi 是平衡系数, 使得两种损失函数大约处在同一量级上。 在线困难样本挖掘 (online hard example mining, OHEM) Zhang 等 [24] 在 MTCNN 中提出一种 OHEM 方法:将同一批样本按损失值的大小进行 排序,只将损失最大的 70% 样本进行回传计算梯 度。这样做的原因是样本的损失越小,对参数更 新的贡献就越小。而考虑到损失最大的样本有可 能是异常点的情况 (可能是数据集的标签错误、 边框坐标错误或者其他情况),因此对该方法进行 了修改:不仅抛弃损失最小的 30% 样本,还抛弃 了损失最高的 2% 的样本,仅用剩下的样本损失 进行反向传播。 4 实验结果及分析 4.1 实现细节 在训练过程中,P-Net 的输入样本来自于在训 练集图像上的随机裁剪,所有样本会按照与真实 边框的 IoU 被分成 3 类:IoU 大于 0.65 的是正样 本,低于 0.3 的是负样本,在 0.4~0.65 的则被视为 部分样本,其余的则不参与训练。3 种样本的比 例控制在 1∶1∶3 左右,在计算损失函数时,分类任 务只使用正样本和负样本,边框回归任务则只使 用正样本和部分样本。P-Net 训练完成后,在训练 集上进行检测,得到的所有候选区域按照同样的 方法划分成正、负和部分样本。在使用 P-Net 生 成 R-Net 训练样本时,为了保证样本数量足够,取 消了 P-Net 的第 2 次 NMS。 在所有实验中,全部采用随机梯度下降法进 行参数更新,P-Net 和 R-Net 均迭代 7 万次,采用 了热身策略更新学习率:在最初的 1 000 次迭代 中,学习率线性增加到 0.005,随后才开始正式训 练。在迭代至 4 万和 6 万次时,学习率衰减十分 之一。 4.2 实验结果 基于深度学习的目标检测方法可大致分为两 类:两阶段检测方法和一阶段检测方法。本文分 别选择了两种方法的代表:Faster R-CNN[1] 和 RetinaNet[6]。Faster R-CNN[1] 是目前非常流行的两阶 段检测算法,最初该算法使用 VGG16 作为主干网 络,目前主流的主干网络通常采用 ResNet+FPN 结构。而 RetinaNet[6] 则是一阶段算法中速度和精 度都比较均衡的检测器。在所有的实验中,Faster R-CNN 和 RetinaNet 中所有的超参数均使用默认 参数。 4.2.1 测试集结果 我们用准确率–召回率曲线和 ROC 曲线来验 证本文的方法,如图 4 所示,详细比较见表 2。可 以看到,在 mAP 上,本文方法超过了一阶段检测 算法 RetinaNet 和以 VGG16 为主干网络的 Faster R-CNN 算法,仅比以 ResNet-50+FPN 为主干网络 的 Faster R-CNN 略低 2% 左右。但从模型占用存 储空间来看,Faster R-CNN 和 RetinaNet 都占用了 数百兆的空间,这使得它们很难直接部署到一些 嵌入式设备中,而 RCNN-Lite 仅需 2.1 MB,占用 空间极小。 0 0.1 0.2 0.3 0.4 召回率 准确率 0.5 0.6 0.7 0.8 0.9 1.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Faster RCNN-VGG16-0.7685 Faster RCNN-ResNet50-FPN-0.9247 RetinaNet-0.902 Ours-0.9042 (a) 准确率召回率曲线 第 4 期 王晓林,等:一种基于级联神经网络的飞机检测方法 ·701·
·702· 智能系统学报 第15卷 1.0 的候选区域,因此能更有效地定位到实例所在的 0.9 0.8 区域。 0.7 表4PNet和RPN的对比 0.6 Table 4 Comparison between P-Net and RPN 0.4 方法 生成候选区域数量 召回率% 0.3 Faster RCNN-VGG16-0.7685 ---RetinaNet-0.902 300 92.75 0.2 -0urs-0.9042 RPN 0.1 -Faster RCNN-ResNet50-FPN-0.9247 2000 95.12 0 50100150200250300350400 300 92.77 假阳数 P-Net (b)ROC曲线 2000 96.45 图4测试集上的准确率召回率曲线和ROC曲线 4.2.3OHEM的有效性 Fig.4 PR curve and ROC curve on test set 为了验证OHEM方法的有效性,比较了不使 表2检测精度对比 用OHEM、使用MTCNN中的OHEM方法以及使 Table 2 Accuracy comparison between different methods 用本文中的OHEM这3种情况下的模型检测效 方法 主干网络 mAP/% 存储空间MB 果,结果如表5所示。可以看出,OHEM可以使 VGG16 76.85 261 网络在训练期间更关注不容易被正确分类的样 Faster R-CNN ResNet-50+FPN 92.47 160 本,而本文提出的改进可以让模型在训练过程中 RetinaNet ResNet-50+FPN 90.20 146 忽略某些异常点,进一步提高性能。 RCNN-Lite 90.42 2.1 表5不同OHEM的效果 Table 5 Comparison between different OHEM methods 本文同时测试了模型检测速度。作为对照, 方法 mAP/% Faster R-CNN和RetinaNet均使用ResNet-50+ 无OHEM 88.45 FPN作为主干网络。测试集图片主要包括了3 MTCNN 90.26 种不同的分辨率:256×256、1000×900和4800× 2800。表3给出了模型在不同分辨率输入下的检 本文方法 90.42 测速度。为公平起见,所有模型运行都在一张T- 4.2.4不同NMS的影响 tanX(Pascal)显卡上。可以看出,本文的方法在 在后处理阶段,通常需要采用非极大值抑制 各种分辨率的输入上都是检测速度最快的,并且 的方法去除冗余窗口,表6给出了采用常规的 领先其他2种方法2~3倍。 NMS和Soft-NMS对检测结果的影响。其中,高 表3检测速度对比 斯加权使用的方差o=0.5。可以看出,采用Sof Table 3 Speed comparison between different methods NMS相比常规NMS可以获得一定的提升,而线 输入分辨率ms 性加权和高斯加权两种不同方式带来的差异非常 方法 256×256 1000×900 4800×2800 小,可以忽略。 Faster R-CNN 55 102 819 表6不同NMS的效果 RetinaNet 29 Table 6 Comparison between different NMS methods 81 877 17 方法 加权方式 RCNN-Lite 40 314 mAP/% NMS 89.9 4.2.2P-Net与RPN的对比 线性加权 90.39 RPN是Faster R-CNN中使用的候选区域生成 Soft-NMS 高斯加权 90.42 的方法。表4以召回率为指标,比较了P-Net和 RPN提取候选区域的能力。可以看出,在生成候 4.2.5损失函数的影响 选区域数量较少时,P-Net和RPN的效果基本一 表7比较了在分类和回归两类任务中,不同 致。而生成候选区域数量较多时,P-Net领先了 损失函数的影响。在分类任务中,使用交叉嫡损 1.33%。可以认为这是由于P-Nt使用了更多的 失和Focal Loss的效果基本相同,这是由于Focal 锚框(约32.2万个),且可以产生更多种尺度不同 L0ss主要是为了解决训练期间正负样本数量极度
0 50 100 150 200 250 假阳数 300 350 400 准确率 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Faster RCNN-VGG16-0.7685 Faster RCNN-ResNet50-FPN-0.9247 RetinaNet-0.902 Ours-0.9042 (b) ROC 曲线 图 4 测试集上的准确率-召回率曲线和 ROC 曲线 Fig. 4 PR curve and ROC curve on test set 表 2 检测精度对比 Table 2 Accuracy comparison between different methods 方法 主干网络 mAP/% 存储空间/MB Faster R-CNN VGG16 76.85 261 ResNet-50+FPN 92.47 160 RetinaNet ResNet-50+FPN 90.20 146 RCNN-Lite — 90.42 2.1 本文同时测试了模型检测速度。 作为对照, Faster R-CNN 和 RetinaNet 均使用 ResNet-50+ FPN 作为主干网络。 测试集图片主要包括了 3 种不同的分辨率:256×256、 1 000×900 和 4 800× 2 800。表 3 给出了模型在不同分辨率输入下的检 测速度。为公平起见,所有模型运行都在一张 Titan X (Pascal) 显卡上。可以看出,本文的方法在 各种分辨率的输入上都是检测速度最快的,并且 领先其他 2 种方法 2~3 倍。 表 3 检测速度对比 Table 3 Speed comparison between different methods 方法 输入分辨率/ms 256×256 1 000×900 4 800×2 800 Faster R-CNN 55 102 819 RetinaNet 29 81 877 RCNN-Lite 17 40 314 4.2.2 P-Net 与 RPN 的对比 RPN 是 Faster R-CNN 中使用的候选区域生成 的方法。表 4 以召回率为指标,比较了 P-Net 和 RPN 提取候选区域的能力。可以看出,在生成候 选区域数量较少时,P-Net 和 RPN 的效果基本一 致。而生成候选区域数量较多时,P-Net 领先了 1.33%。可以认为这是由于 P-Net 使用了更多的 锚框 (约 32.2 万个),且可以产生更多种尺度不同 的候选区域,因此能更有效地定位到实例所在的 区域。 表 4 P-Net 和 RPN 的对比 Table 4 Comparison between P-Net and RPN 方法 生成候选区域数量 召回率/% RPN 300 92.75 2 000 95.12 P-Net 300 92.77 2 000 96.45 4.2.3 OHEM 的有效性 为了验证 OHEM 方法的有效性,比较了不使 用 OHEM、使用 MTCNN 中的 OHEM 方法以及使 用本文中的 OHEM 这 3 种情况下的模型检测效 果,结果如表 5 所示。可以看出,OHEM 可以使 网络在训练期间更关注不容易被正确分类的样 本,而本文提出的改进可以让模型在训练过程中 忽略某些异常点,进一步提高性能。 表 5 不同 OHEM 的效果 Table 5 Comparison between different OHEM methods 方法 mAP/% 无OHEM 88.45 MTCNN 90.26 本文方法 90.42 4.2.4 不同 NMS 的影响 在后处理阶段,通常需要采用非极大值抑制 的方法去除冗余窗口,表 6 给出了采用常规的 NMS 和 Soft-NMS 对检测结果的影响。其中,高 斯加权使用的方差 σ=0.5。可以看出,采用 SoftNMS 相比常规 NMS 可以获得一定的提升,而线 性加权和高斯加权两种不同方式带来的差异非常 小,可以忽略。 表 6 不同 NMS 的效果 Table 6 Comparison between different NMS methods 方法 加权方式 mAP/% NMS — 89.9 Soft-NMS 线性加权 90.39 高斯加权 90.42 4.2.5 损失函数的影响 表 7 比较了在分类和回归两类任务中,不同 损失函数的影响。在分类任务中,使用交叉熵损 失和 Focal Loss 的效果基本相同,这是由于 Focal Loss 主要是为了解决训练期间正负样本数量极度 ·702· 智 能 系 统 学 报 第 15 卷
第4期 王晓林,等:一种基于级联神经网络的飞机检测方法 ·703· 不均衡而提出的,而在P-Net和R-Net的训练样本 [6]LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for 生成过程中,我们已经将正负样本的比例控制在 dense object detection[C]//Proceedings of the IEEE Inter- 1:3左右,因此Focal Loss没有带来性能提升。而 national Conference on Computer Vision.Venice,Italy, 在边框回归任务中,使用L2损失得到了最佳性能。 2017:2999-3007. [7]LIN T Y,MAIRE M,MAIRE M,et al.Microsoft COCO: 表7损失函数的影响 common objects in context[C]//Proceedings of the 14th Table 7 Comparison between different loss function European Conference on Computer Vision.Zurich, 任务 方法 mAP/% Switzerland.2014:740-755. 分类 Cross Entropy 90.42 [8]EVERINGHAM M,GOOL L J V.The PASCAL visual Focal Loss 90.40 object classes challenge[J].International journal of com- 12 puter vision,2010,88(2):303-338. 90.42 [9]DALAL N,TRIGGS B.Histograms of oriented gradients 回归 LI 88.6 for human detection[C]//Proceedings of the IEEE Confer- smooth LI 90.16 ence on Computer Vision and Pattern Recognition.San Diego,USA,2005:886-893. 5结束语 [10]LOWE D G.Distinctive image features from scale-invari- ant keypoints[J].International journal of computer vision, 飞机检测任务是目前遥感图像领域的一个重 2004,60(2:91-110. 要研究方向。针对目前的检测算法依赖复杂主干 [11]CORTES C,VAPNIK V.Support-vector networks[J]. 网络的问题,本文提出了一种级联两个简单神经 Machine learning,1995,20(3):273-297 网络来解决飞机检测任务的模型,在检测精度上 [12]UIJLINGS J.SANDE K,GEVERS T,et al.Selective 接近了目前主流方法的水平,而本方法的模型参 search for object recognition[J].International journal of 数量远少于主流方法,在检测速度上也取得了一 computer vision,2013,104(2):154-171. 定的领先。此外,还制作了一个新的遥感图像数 [13]GIRSHICK R.DONAHUE J,DARRELL T,et al.Rich 据集,该数据集针对飞机检测任务标注了超过 feature hierarchies for accurate object detection and se- mantic segmentation[C]//Proceedings of the IEEE Confer- 9000个飞机实例,能够较好地验证检测算法的有 ence on Computer Vision and Pattern Recognition. 效性。 Columbus.USA.2014:580-587. 参考文献: [14]GIRSHICK R.Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision.Santiago, [1]REN S,HE K.GIRSHICK R.et al.Faster R-CNN:to- Chile,.2015:1440-1448. wards real-time object detection with region proposal net- [15]AN Z,SHI Z,TENG X,et al.An automated airplane de- works [Cl//Proceedings of the 28th International Confer- tection system for large panchromatic image with high ence on Neural Information Processing System.Montreal, spatial resolution[J].Optik,2014,125(12):2768-2775. Canada2015:91-99. [16]LI W,XIANG S,WANG H,et al.Robust airplane detec- [2]REDMON J.DIVVALA S.GIRSHICK R.et al.You only tion in satellite images[C]//Proceedings of International look once:unified,real-time object detection[Cl//Proceedi Conference on Image Processing.Brussels,Belgium, ngs of the IEEE Conference on Computer Vision and Pat- 2011:2821-2824. tern Recognition.Las Vegas,USA,2015:779-788. [17]HSIEH M R,LIN Y L.HSU W H.Drone-based object [3]REDMON J,FARHADI A.YOLO9000:better,faster, counting by spatially regularized regional proposal[C/ strong-er[C]//Proceedings of the IEEE Conference on Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition.Honolulu,USA. Computer Vision.Venice,Italy,2017:4165-4173. 2017:6517-6525 [18]LIU L,PAN Z,LEI B.Learning a rotation invariant de- [4]REDMON J,FARHADI A.YOLOv3:an incremental im- tector with rotatable bounding box[J].ar Xiv preprint arX- provement[J].arXiv preprint arXiv:1804.02767,2018. iv:1711.09405,2017 [5]LIU W.ANGUELOY D,ERHAN D,et al.SSD:single [19]YANG Y,ZHUANG Y,BI F,et al.M-FCN:effective shot multibox detector[C]//Proceedings of the 14th fully convolutional network-based airplane detection European Conference on Computer Vision.Amsterdam, Frame-work[J].IEEE geoscience and remoting sensing The Netherlands,2015:21-37. letters,.2017,148):1293-1297
不均衡而提出的,而在 P-Net 和 R-Net 的训练样本 生成过程中,我们已经将正负样本的比例控制在 1∶3 左右,因此 Focal Loss 没有带来性能提升。而 在边框回归任务中,使用 L2 损失得到了最佳性能。 表 7 损失函数的影响 Table 7 Comparison between different loss function 任务 方法 mAP/% 分类 Cross Entropy 90.42 Focal Loss 90.40 回归 L2 90.42 L1 88.6 smooth L1 90.16 5 结束语 飞机检测任务是目前遥感图像领域的一个重 要研究方向。针对目前的检测算法依赖复杂主干 网络的问题,本文提出了一种级联两个简单神经 网络来解决飞机检测任务的模型,在检测精度上 接近了目前主流方法的水平,而本方法的模型参 数量远少于主流方法,在检测速度上也取得了一 定的领先。此外,还制作了一个新的遥感图像数 据集,该数据集针对飞机检测任务标注了超过 9 000 个飞机实例,能够较好地验证检测算法的有 效性。 参考文献: REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [C]//Proceedings of the 28th International Conference on Neural Information Processing System. Montreal, Canada, 2015: 91−99. [1] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedi ngs of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2015: 779−788. [2] REDMON J, FARHADI A. YOLO9000: better, faster, strong-er[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA. 2017: 6517−6525. [3] REDMON J, FARHADI A. YOLOv3: an incremental improvement[J]. arXiv preprint arXiv: 1804.02767, 2018. [4] LIU W, ANGUELOY D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2015: 21−37. [5] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2999−3007. [6] LIN T Y, MAIRE M, MAIRE M, et al. Microsoft COCO: common objects in context[C]// Proceedings of the 14th European Conference on Computer Vision. Zurich, Switzerland, 2014: 740−755. [7] EVERINGHAM M, GOOL L J V. The PASCAL visual object classes challenge[J]. International journal of computer vision, 2010, 88(2): 303–338. [8] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005: 886−893. [9] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91–110. [10] CORTES C, VAPNIK V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273–297. [11] UIJLINGS J, SANDE K, GEVERS T, et al. Selective search for object recognition[J]. International journal of computer vision, 2013, 104(2): 154–171. [12] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 580−587. [13] GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1440–1448. [14] AN Z, SHI Z, TENG X, et al. An automated airplane detection system for large panchromatic image with high spatial resolution[J]. Optik, 2014, 125(12): 2768–2775. [15] LI W, XIANG S, WANG H, et al. Robust airplane detection in satellite images[C]//Proceedings of International Conference on Image Processing. Brussels, Belgium, 2011: 2821−2824. [16] HSIEH M R, LIN Y L, HSU W H. Drone-based object counting by spatially regularized regional proposal[C]// Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy, 2017: 4165−4173. [17] LIU L, PAN Z, LEI B. Learning a rotation invariant detector with rotatable bounding box[J]. arXiv preprint arXiv: 1711.09405, 2017. [18] YANG Y, ZHUANG Y, BI F, et al. M-FCN: effective fully convolutional network-based airplane detection Frame-work[J]. IEEE geoscience and remoting sensing letters, 2017, 14(8): 1293–1297. [19] 第 4 期 王晓林,等:一种基于级联神经网络的飞机检测方法 ·703·
·704· 智能系统学报 第15卷 [20]CHENG G,HAN J,ZHOU P,et al.Multi-class geospa- ence on Computer Vision.Venice,Italy,2017: tial object detection and geographic image classification 2980-2988 based on collection of part detectors[J].ISPRS journal of photogrammetry and remote sensing,2014,98(1): 作者简介: 119-132. 王晓林,硕士研究生,主要研究方 [21]CHENG G.HAN J.A Survey on object detection in op- 向为目标检测。 tical remote sensing images[J].ISPRS Journal of photo- grammetry and remote sensing,2016,117:11-28. [22]CHENG G,ZHOU P,HAN J.Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images[J].IEEE transac- tions on geoscience and remote sensing,2016,54(12): 苏松志,副教授,主要研究方向为 计算机视觉、机器学习、人脸识别与行 7405-7415. 人检测。发表学术论文30余篇。 [23]XIA G S,BAI X,DING J,et al.DOTA:A large-scale dataset for object detection in aerial images[C Proceed- ings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City,USA,2018: 3974-3983 李绍滋,教授,博士生导师.主要 [24]ZHANG K.ZHANG Z,LI Z,et al.Joint face detection 研究方向为计算机视觉、机器学习和 and alignment using multitask cascaded convolutional 数据挖掘。先后主持或参加多项国家 net-works[J].IEEE signal processing letters,2016, 863项目、国家自然科学基金项目、教 2310):1499-1503. 育部博士点基金项目、省科技重点项 [25]HE K,GKIOXARI G,DOLLAR P,et al.Mask R- 目等多个项目的研究。发表学术论文 CNN[C]//Proceedings of the IEEE International Confer- 300余篇。 模式识别专委会年度会议暨常委/委员增选会议 为了推动模式识别、机器智能等相关领域的发展,加强国内学者、校企间的交流与合作,扩大专委会在 国内外的影响力,中国人工智能学会模式识别专委会(CAAI-PR)将于2020年10月16日在南京国际展览中 心召开专委会年度工作会议。会议期间将面向科研院所、高校和企业发展会员及增选委员(包括正式委员 及通讯委员),同时还将从现任委员中增选常务委员。常务委员/委员人选需由个人申请并在工作会议中做 个人陈述,之后由专家评议并投票选出。委员增选人要求为副高职称或以上(中级职称特别优秀也可考 虑)。落选委员将自动成为通讯委员。委员、常务委员增选结果将现场公布。在本次年会上,本专委会将与 自动化学会模式识别与机器智能专委会(CAA-PRMI)进行合作,委员/常委互认,委员/常委增选联合进行,并 举办联合论坛。 会议时间:2020年10月16日。 会议地址:南京国际展览中心。 参会人员:CAAI-PR现任委员和通讯委员、个人申请者。 参会报名截止时间:2020年10月10日。 更多详情请见中国人工智能学会微信公众号
CHENG G, HAN J, ZHOU P, et al. Multi-class geospatial object detection and geographic image classification based on collection of part detectors[J]. ISPRS journal of photogrammetry and remote sensing, 2014, 98(1): 119–132. [20] CHENG G, HAN J. A Survey on object detection in optical remote sensing images[J]. ISPRS Journal of photogrammetry and remote sensing, 2016, 117: 11–28. [21] CHENG G, ZHOU P, HAN J. Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images[J]. IEEE transactions on geoscience and remote sensing, 2016, 54(12): 7405–7415. [22] XIA G S, BAI X, DING J, et al. DOTA: A large-scale dataset for object detection in aerial images[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 3974−3983. [23] ZHANG K, ZHANG Z, LI Z, et al. Joint face detection and alignment using multitask cascaded convolutional net-works[J]. IEEE signal processing letters, 2016, 23(10): 1499–1503. [24] HE K, GKIOXARI G, DOLLÁR P, et al. Mask RCNN[C] //Proceedings of the IEEE International Confer- [25] ence on Computer Vision. Venice, Italy, 2017: 2980−2988. 作者简介: 王晓林,硕士研究生,主要研究方 向为目标检测。 苏松志,副教授,主要研究方向为 计算机视觉、机器学习、人脸识别与行 人检测。发表学术论文 30 余篇。 李绍滋,教授,博士生导师,主要 研究方向为计算机视觉、机器学习和 数据挖掘。先后主持或参加多项国家 863 项目、国家自然科学基金项目、教 育部博士点基金项目、省科技重点项 目等多个项目的研究。发表学术论文 300 余篇。 模式识别专委会年度会议暨常委/委员增选会议 为了推动模式识别、机器智能等相关领域的发展,加强国内学者、校企间的交流与合作,扩大专委会在 国内外的影响力,中国人工智能学会模式识别专委会(CAAI-PR)将于 2020 年 10 月 16 日在南京国际展览中 心召开专委会年度工作会议。会议期间将面向科研院所、高校和企业发展会员及增选委员(包括正式委员 及通讯委员),同时还将从现任委员中增选常务委员。常务委员/委员人选需由个人申请并在工作会议中做 个人陈述,之后由专家评议并投票选出。委员增选人要求为副高职称或以上(中级职称特别优秀也可考 虑)。落选委员将自动成为通讯委员。委员、常务委员增选结果将现场公布。在本次年会上,本专委会将与 自动化学会模式识别与机器智能专委会(CAA-PRMI)进行合作,委员/常委互认,委员/常委增选联合进行,并 举办联合论坛。 会议时间:2020 年 10 月 16 日。 会议地址:南京国际展览中心。 参会人员:CAAI-PR 现任委员和通讯委员、个人申请者。 参会报名截止时间:2020 年 10 月 10 日。 更多详情请见中国人工智能学会微信公众号。 ·704· 智 能 系 统 学 报 第 15 卷