第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201905041 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190830.1436.002.html 基于跳跃连接金字塔模型的小目标检测 单义2,杨金福2,武随烁2,许兵兵2 (1.北京工业大学信息学部,北京100124;2.计算智能与智能系统北京重点实验室,北京100124) 摘要:随着深度学习的发展,目标检测已经获得了较高的精度和效率。但是小目标的检测仍然是一个挑战。 小目标检测准确率较低的重要原因是没有充分利用高层特征的语义信息和低层特征的细节信息之间的关系。 针对上述问题,本文提出一种基于跳跃连接金字塔模型的小目标检测方法。与其他的目标检测方法不同,本文 提出利用跳跃连接金字塔结构来融合多层高层语义特征信息和低层特征图的细节信息。而且为了更好地提取 不同尺度物体对应的特征信息,在网络模型中采用不同大小的卷积核和不同步长的空洞卷积来提取全局特征 信息。在PASCAL VOC和MS COCO数据集上进行了实验,验证了算法的有效性。 关键词:跳跃连接金字塔;全局感受野:目标检测;深度学习:特征提取;卷积神经网络:空洞卷积:图像处理 中图分类号:TP183文献标志码:A文章编号:1673-4785(2019)06-1144-08 中文引用格式:单义,杨金福,武随烁,等.基于跳跃连接金字塔模型的小目标检测J.智能系统学报,2019,14(6): 1144-1151. 英文引用格式:SHAN Yi,YANGJinfu,WU Suishuo,.etal.Skip feature pyramid network with a global receptive field for small ob- ject detection[J].CAAI transactions on intelligent systems,2019,14(6):1144-1151. Skip feature pyramid network with a global receptive field for small object detection SHAN Yi,YANG Jinfu,WU Suishuo2,XU Bingbing'2 (1.Beijing University of Technology,Faculty of Information Technology,Beijing 100124,China;2.Beijing Key Laboratory of Com- putational Intelligence and Intelligence System,Beijing 100124,China) Abstract:With the development of deep learning,objects can be detected with high accuracy and efficiency.However, the detection of small objects remains challenging.The main reason for this is that the relationship between high-level semantic information and low-level feature maps is not fully utilized.To solve this problem,we propose a novel detec- tion framework,called the skip feature pyramid network with a global receptive field,to improve the ability to detect small objects.Unlike previous detection architectures,the skip feature pyramid architecture fuses high-level semantic in- formation with low-level feature maps to obtain detailed information.To extract global information from a network,we apply a global receptive field(GRF)with convolution kernels of different sizes and different dilated convolution steps. The experimental results on PASCAL VOC and MS COCO datasets show that the proposed approach realizes signific- ant improvements over other comparable detection models. Keywords:skip feature pyramid network;global receptive field;object detection;deep learning;feature extraction;con- volutional neural network;dilated convolution;image processing 目标检测是实现场景理解的基础,是计算机 积神经网络在目标检测方面取得了巨大的进步, 视觉领域的一项重点研究内容。自从深度卷积网 但是小目标的检测仍存在检测准确率较低的问题。 络大幅度提高图像分类的准确率之后,深度卷积 现阶段基于深度学习的目标检测算法主要分 神经网络也广泛应用于目标检测中。虽然深度卷 为两类,一是基于分类的目标检测方法。基于分 收稿日期:2019-05-23.网络出版日期:2019-08-30. 类的目标检测算法又称为两阶段(two-stage)模 基金项目:国家自然科学基金项目(6153302):北京市自然科学 基金项目(4182009). 型,首先选取候选区域,然后对候选区域进行分 通信作者:单义.E-mail:15732036708@163.com 类和位置回归,最终输出检测的结果。2014年
DOI: 10.11992/tis.201905041 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190830.1436.002.html 基于跳跃连接金字塔模型的小目标检测 单义1,2,杨金福1,2,武随烁1,2,许兵兵1,2 (1. 北京工业大学 信息学部,北京 100124; 2. 计算智能与智能系统北京重点实验室,北京 100124) 摘 要:随着深度学习的发展,目标检测已经获得了较高的精度和效率。但是小目标的检测仍然是一个挑战。 小目标检测准确率较低的重要原因是没有充分利用高层特征的语义信息和低层特征的细节信息之间的关系。 针对上述问题,本文提出一种基于跳跃连接金字塔模型的小目标检测方法。与其他的目标检测方法不同,本文 提出利用跳跃连接金字塔结构来融合多层高层语义特征信息和低层特征图的细节信息。而且为了更好地提取 不同尺度物体对应的特征信息,在网络模型中采用不同大小的卷积核和不同步长的空洞卷积来提取全局特征 信息。在 PASCAL VOC 和 MS COCO 数据集上进行了实验,验证了算法的有效性。 关键词:跳跃连接金字塔;全局感受野;目标检测;深度学习;特征提取;卷积神经网络;空洞卷积;图像处理 中图分类号:TP183 文献标志码:A 文章编号:1673−4785(2019)06−1144−08 中文引用格式:单义, 杨金福, 武随烁, 等. 基于跳跃连接金字塔模型的小目标检测 [J]. 智能系统学报, 2019, 14(6): 1144–1151. 英文引用格式:SHAN Yi, YANG Jinfu, WU Suishuo, et al. Skip feature pyramid network with a global receptive field for small object detection[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1144–1151. Skip feature pyramid network with a global receptive field for small object detection SHAN Yi1,2 ,YANG Jinfu1,2 ,WU Suishuo1,2 ,XU Bingbing1,2 (1. Beijing University of Technology, Faculty of Information Technology, Beijing 100124, China; 2. Beijing Key Laboratory of Computational Intelligence and Intelligence System, Beijing 100124, China) Abstract: With the development of deep learning, objects can be detected with high accuracy and efficiency. However, the detection of small objects remains challenging. The main reason for this is that the relationship between high-level semantic information and low-level feature maps is not fully utilized. To solve this problem, we propose a novel detection framework, called the skip feature pyramid network with a global receptive field, to improve the ability to detect small objects. Unlike previous detection architectures, the skip feature pyramid architecture fuses high-level semantic information with low-level feature maps to obtain detailed information. To extract global information from a network, we apply a global receptive field (GRF) with convolution kernels of different sizes and different dilated convolution steps. The experimental results on PASCAL VOC and MS COCO datasets show that the proposed approach realizes significant improvements over other comparable detection models. Keywords: skip feature pyramid network; global receptive field; object detection; deep learning; feature extraction; convolutional neural network; dilated convolution; image processing 目标检测是实现场景理解的基础,是计算机 视觉领域的一项重点研究内容。自从深度卷积网 络大幅度提高图像分类的准确率之后,深度卷积 神经网络也广泛应用于目标检测中。虽然深度卷 积神经网络在目标检测方面取得了巨大的进步, 但是小目标的检测仍存在检测准确率较低的问题。 现阶段基于深度学习的目标检测算法主要分 为两类,一是基于分类的目标检测方法。基于分 类的目标检测算法又称为两阶段 (two-stage) 模 型,首先选取候选区域,然后对候选区域进行分 类和位置回归,最终输出检测的结果。2014 年 收稿日期:2019−05−23. 网络出版日期:2019−08−30. 基金项目:国家自然科学基金项目 (6153302);北京市自然科学 基金项目 (4182009). 通信作者:单义. E-mail:15732036708@163.com. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
第6期 单义,等:基于跳跃连接金字塔模型的小目标检测 ·1145· Girshick等四首次提出基于区域提取的R-CNN算 义。Fu等针对SSD算法在小目标检测上存在 法。20l5年Girshick又提出一种改进的Fast R- 的问题,提出一种改进的DSSD(deconvolutional CNN算法,将图像经过基础网络处理之后,再传 single shot detector)算法,将SSD算法的基础网络 入R-CNN子网络,共享卷积运算。但Fast R- 更改为ResNet-l01o,增强了网络的特征提取能 CNN在提取区域候选框时仍然使用选择性搜索 力,结合多尺度信息,提高了检测结果。然而,上 算法(Selective Search,增加了算法耗时,运行速 述网络忽略了低层特征与高层特征之间的联系 度慢。针对Fast R-CNN算法的缺点,20l5年Ren 并且对于不同尺度大小的物体,卷积操作的感受 等提出Faster R-CNN算法,用候选区域生成网 野是不同的,在基础网络中利用同一种大小的卷 络(regional proposal networks,.RPN)来代替选择性 积核进行卷积运算,不能很好提取不同大小的物 搜索算法。另一类是基于回归的目标检测算法, 体的感受野信息。 又称为一阶段(one-stage)模型。2016年Red- 针对上述问题,本文提出基于跳跃连接金字 mon等I)提出了新的目标检测算法YOLO(You 塔和全局感受野的网络结构,来融合不同尺度的 Only Look Once)。YOLO算法将目标检测框架看 高层与底层的特征信息,并利用不同大小的卷积 作空间上的回归问题。但是YOLO算法存在定 核和不同步长的空洞卷积]来提取全局特征信 位精度、召回率等较低的问题,且对尺寸较小的 息。实验结果表明,所提出的模型能有效改善小 物体检测效果不好,泛化能力相对较弱。为了解 目标检测结果。 决YOLO算法的缺陷,2016年Liu等6提出SSD (single shot multiBox detector)算法,利用多层特征 1算法模型 图进行检测。 图1是本文提出的检测模型的整体结构图。 此外,针对小目标的物体检测存在的问题,有 网络模型基于前馈深度卷积网络,通过跳跃连接 学者提出了新的检测网络模型。2016年Bll等m 的金字塔(skip feature pyramid network)结构。将 提出一种利用感兴趣区域内外信息进行物体检测 高层特征与低层特征相融合,在基础网络中加入 的模型(inside-outside net,.ION)。20l7年Lin等例 全局感受野模块(global receptive field,GRF)来提 在Faster R-CNN网络的基础上提出一种具有横向 取不同尺度的物体的全局特征信息。该网络模型 连接的特征金字塔网络(feature pyramid networks, 在所有特征层中选取4层不同尺度的高层与低层 FPN),利用多尺度特征和自上而下的结构实现目 特征图进行预测,在预测层产生固定数量的包围 标检测。FPN只利用顶层的特征进行检测,虽然 盒(anchor boxes)和相应的类别概率值,最后通过 信息丰富,但是经过层层池化,很多细节特征信 非极大值抑制(non-maximum suppression)来获得 息会丢失,而这些信息对小目标检测具有重要意 最终的预测框。 +田 1×1 3×3卷积 通道拼接 卷积核核步长1 ○+ 3×3 3×3卷积 卷积核 核步长3 图像输入 卷积43 卷积53 全连接 卷积62 5x5 3×3卷积 卷积核 核步长5 反卷积 omaX回 预测层 测 预测层 预测层 预测层 P3 P4 P5 P6 界框 图1基于跳跃连接金字塔的小目标检测模型 Fig.1 Title Skip feature pyramid network with global receptive field for object detection
Girshick 等 [1] 首次提出基于区域提取的 R-CNN 算 法。2015 年 Girshick[2] 又提出一种改进的 Fast RCNN 算法,将图像经过基础网络处理之后,再传 入 R-CNN 子网络,共享卷积运算。但 Fast RCNN 在提取区域候选框时仍然使用选择性搜索 算法 (Selective Search[3] ),增加了算法耗时,运行速 度慢。针对 Fast R-CNN 算法的缺点,2015 年 Ren 等 [4] 提出 Faster R-CNN 算法,用候选区域生成网 络 (regional proposal networks, RPN) 来代替选择性 搜索算法。另一类是基于回归的目标检测算法, 又称为一阶段 (one-stage) 模型。2016 年 Redmon 等 [5] 提出了新的目标检测算法 YOLO(You Only Look Once)。YOLO 算法将目标检测框架看 作空间上的回归问题。但是 YOLO 算法存在定 位精度、召回率等较低的问题,且对尺寸较小的 物体检测效果不好,泛化能力相对较弱。为了解 决 YOLO 算法的缺陷,2016 年 Liu 等 [6] 提出 SSD (single shot multiBox detector) 算法,利用多层特征 图进行检测。 此外,针对小目标的物体检测存在的问题,有 学者提出了新的检测网络模型。2016 年 Bell 等 [7] 提出一种利用感兴趣区域内外信息进行物体检测 的模型 (inside-outside net, ION)。2017 年 Lin 等 [8] 在 Faster R-CNN 网络的基础上提出一种具有横向 连接的特征金字塔网络 (feature pyramid networks, FPN),利用多尺度特征和自上而下的结构实现目 标检测。FPN 只利用顶层的特征进行检测,虽然 信息丰富,但是经过层层池化,很多细节特征信 息会丢失,而这些信息对小目标检测具有重要意 义。Fu 等 [9] 针对 SSD 算法在小目标检测上存在 的问题,提出一种改进的 DSSD(deconvolutional single shot detector) 算法,将 SSD 算法的基础网络 更改为 ResNet-101[10] ,增强了网络的特征提取能 力,结合多尺度信息,提高了检测结果。然而,上 述网络忽略了低层特征与高层特征之间的联系, 并且对于不同尺度大小的物体,卷积操作的感受 野是不同的,在基础网络中利用同一种大小的卷 积核进行卷积运算,不能很好提取不同大小的物 体的感受野信息。 针对上述问题,本文提出基于跳跃连接金字 塔和全局感受野的网络结构,来融合不同尺度的 高层与底层的特征信息,并利用不同大小的卷积 核和不同步长的空洞卷积[11] 来提取全局特征信 息。实验结果表明,所提出的模型能有效改善小 目标检测结果。 1 算法模型 图 1 是本文提出的检测模型的整体结构图。 网络模型基于前馈深度卷积网络,通过跳跃连接 的金字塔 (skip feature pyramid network)结构。将 高层特征与低层特征相融合,在基础网络中加入 全局感受野模块 (global receptive field, GRF) 来提 取不同尺度的物体的全局特征信息。该网络模型 在所有特征层中选取 4 层不同尺度的高层与低层 特征图进行预测,在预测层产生固定数量的包围 盒 (anchor boxes) 和相应的类别概率值,最后通过 非极大值抑制 (non-maximum suppression) 来获得 最终的预测框。 + 1×1 卷积核 3×3 卷积核 5×5 卷积核 3×3 卷积 核步长1 3×3 卷积 核步长3 3×3 卷积 核步长5 Concat 通道拼接 卷积4_3 卷积5_3 全连接7 卷积6_2 图像输入 + + + softmax 反卷积 预测层 P3 预测层 P4 预测层 P5 预测层 P6 检 边 测 界 框 回 归回归 图 1 基于跳跃连接金字塔的小目标检测模型 Fig. 1 Title Skip feature pyramid network with global receptive field for object detection 第 6 期 单义,等:基于跳跃连接金字塔模型的小目标检测 ·1145·
·1146- 智能系统学报 第14卷 为了能够清晰地展示本文提出的网络结构, 信息,而且融合了高层特征图与低层特征图之间 只展示用于预测层的特征图,采用不同的颜色表 的细节信息。 示不同的特征层之间的融合,构建跳跃连接金字 预测口 预测1 塔结构,并且提出利用全局感受野模块来提取网 预测2 →预测 络全局特征信息。 (a)单层特征层预测模型 (b)多层特征层预测模型 11跳跃连接金字塔 预测1 如图2所示,(a)(c)为现阶段应用较多的深 预测1 预测2 +预测2 -预侧3 度网络检测结构。图2()为本文提出的跳跃连接 +预测3 +顶测4 金字塔网络结构。图2(a)中只利用深度网络中最 (c)特征金字塔模型 (d)跳跃连接金字塔模型 后一层特征图进行预测,其中YOLO算法就是采 图2不同的结构形式的预测网络 用图2()的结构形式,该网络具有很高的检测速度, Fig.2 Different structure of predicting network 但是检测的准确率较低。图2(b)是对图2(a)算法 跳跃连接的金字塔的细节结构如图3所示。通过 结构的改进,通过在不同的尺度的高层特征上预 选择基础网络中的高层特征图,对每一个高层特 测,有效地弥补图2(a)结构中存在的问题,改善 征图利用大小为3×3通道数为256卷积核进行 了检测结果。图2(c)是一种自顶而下的金字塔结 卷积操作。这样做的目的是将不同特征层的特征 构模型,不仅采用不同的特征层进行预测,而且 图的通道数变成相同的数量,以便进行融合计算。 融合了相邻特征图之间的信息。但是这种结构的 在统一了每一层的通道数之后,采用2×2步长为 网络模型忽略了不同高层特征图与低层特征图之 2的反卷积操作来把相邻特征层的特征图进行上 间的联系。针对上述问题,提出如图2(d所示的 采用,上采样之后不同特征层就变为相同的大 跳跃金字塔结构模型,采用跳跃连接的方式,通 小。利用4×4步长为4的反卷积来上采样不相 过选择不同步长的反卷积进行上采样高层特征 图,并使用逐像素求和的计算方法来融合不相邻 邻的特征图。反卷积计算特征图的大小计算公式为 的特征图之间的信息。 0=-f+2迎1+1 (1) 在深度卷积网络中,网络的最深层的特征图 式中:i示输入特征图的尺寸;f为卷积核的大小; 包含最多的抽象特征信息。因此利用提出跳跃金 p为填充的像素数;s为反卷积的步长。最后对不 字塔结构,来融合不同的高层和低层特征图之间 同特征层不同通道数的特征层,可以用每个像素 的信息,不仅能有效利用不同特征层之间的尺度 对应点的和来作为融合之后的特征图。 层 卷积62 反卷积2×2×256 5×5 BN层 ReLU函数 U函数 z层 反卷积4×4×256 S3X3X256 函数 +⊕Eltw Sum BN层 全连接Fc7 10×10 反卷积2×2×256 ReLU函数 BN层 ReLU函数 函数 83X3X256 ReLU 对应元素求 ReLU 卷积 卷积53 和Eltw Sum /预测层P4 20×20 20×20 图3跳跃连接的金字塔的细节结构 Fig.3 The detailed structure of skip feature pyramid
为了能够清晰地展示本文提出的网络结构, 只展示用于预测层的特征图,采用不同的颜色表 示不同的特征层之间的融合,构建跳跃连接金字 塔结构,并且提出利用全局感受野模块来提取网 络全局特征信息。 1.1 跳跃连接金字塔 如图 2 所示,(a)~(c) 为现阶段应用较多的深 度网络检测结构。图 2(d) 为本文提出的跳跃连接 金字塔网络结构。图 2(a) 中只利用深度网络中最 后一层特征图进行预测,其中 YOLO 算法就是采 用图 2(a) 的结构形式,该网络具有很高的检测速度, 但是检测的准确率较低。图 2(b) 是对图 2(a) 算法 结构的改进,通过在不同的尺度的高层特征上预 测,有效地弥补图 2(a) 结构中存在的问题,改善 了检测结果。图 2(c) 是一种自顶而下的金字塔结 构模型,不仅采用不同的特征层进行预测,而且 融合了相邻特征图之间的信息。但是这种结构的 网络模型忽略了不同高层特征图与低层特征图之 间的联系。针对上述问题,提出如图 2(d) 所示的 跳跃金字塔结构模型,采用跳跃连接的方式,通 过选择不同步长的反卷积进行上采样高层特征 图,并使用逐像素求和的计算方法来融合不相邻 的特征图之间的信息。 在深度卷积网络中,网络的最深层的特征图 包含最多的抽象特征信息。因此利用提出跳跃金 字塔结构,来融合不同的高层和低层特征图之间 的信息,不仅能有效利用不同特征层之间的尺度 信息,而且融合了高层特征图与低层特征图之间 的细节信息。 (a) 单层特征层预测模型 预测1 预测1 预测2 预测3 (c) 特征金字塔模型 预测1 预测2 预测3 (b) 多层特征层预测模型 (d) 跳跃连接金字塔模型 预测1 预测2 预测3 预测4 图 2 不同的结构形式的预测网络 Fig. 2 Different structure of predicting network 3×3 2×2 4×4 跳跃连接的金字塔的细节结构如图3所示。通过 选择基础网络中的高层特征图,对每一个高层特 征图利用大小为 通道数为 256 卷积核进行 卷积操作。这样做的目的是将不同特征层的特征 图的通道数变成相同的数量,以便进行融合计算。 在统一了每一层的通道数之后,采用 步长为 2 的反卷积操作来把相邻特征层的特征图进行上 采用,上采样之后不同特征层就变为相同的大 小。利用 步长为 4 的反卷积来上采样不相 邻的特征图。反卷积计算特征图的大小计算公式为 o = [ i− f +2p s ]+1 (1) i f p s 式中: 示输入特征图的尺寸; 为卷积核的大小; 为填充的像素数; 为反卷积的步长。最后对不 同特征层不同通道数的特征层,可以用每个像素 对应点的和来作为融合之后的特征图。 预测层 P4 ReLU函数 卷积3×3×256 ReLU函数 卷积3×3×256 ReLU函数 卷积3×3×256 BN 层BN 层BN 层 ReLU函数ReLU函数ReLU函数 BN 层 ReLU 函数 BN 层 ReLU 函数 BN 层 ReLU 函数 卷积 6_2 全连接 Fc7 卷积 5_3 5×5 10×10 20×20 Eltw Sum 对应元素求 和 Eltw Sum ReLU函数 卷积3×3×256 ReLU函数 20×20 反卷积 2×2×256 反卷积 2×2×256 反卷积 4×4×256 图 3 跳跃连接的金字塔的细节结构 Fig. 3 The detailed structure of skip feature pyramid ·1146· 智 能 系 统 学 报 第 14 卷
第6期 单义,等:基于跳跃连接金字塔模型的小目标检测 ·1147· 1.2 全局感受野模块 改变特征图的通道数,减少特征模型的计算量。然后, 在大多数的检测模型中,多采用自上而下的 利用1×1、3×3和5×5三种不同的卷积核和3×3 结构,忽略了对于不同的大小的物体。而卷积神经 步长分别为1,3和5的空洞卷积来提取不同尺 网络的感受野是不同的,因此提出在网络中加入 度的特征信息。进而把获取的特征通道进行连 横向连接的结构,采用不同大小的卷积核和不同 接,用1×1的卷积核将通道数变换为原来特征图 步长的空洞卷积来增强网络全局的感受野。与只 相同的通道数,并与原来的特征图对应像素点进 利用一种卷积核的网结构相比,使用不同的大 行叠加,既保留原本网络模型的特征,又加入了 小的卷积核和不同步长的空洞卷积能有效提取不 不同大小感受野的特征信息,有效改善提取较小 同尺度大小物体的特征。首先,利用1×1的卷积层. 尺寸的物体特征。全局感受野结构如图4所示。 0→ 田 1×1卷积核 3×3卷积核 5×5×256 步长1 卷积一一 ▣▣▣ cL函数 口口d 积 ReLU 口口口通道拼接 对应位置 3×3卷积核 3×3卷积核 数 元素求和 步长3 5×5×12 5×5×256 5×5卷积核 3×3卷积核 步长5 5×5×256 图4全局感受野结构 Fig.4 The network of global receptive field 1.3包围框的设置 和背景的二分类滤除。这样做的目的在于有效 为了更好地利用图像的特征信息,选取VGG16 减少负样本的数量。网络的损失函数为 中4层不同尺度的特征图,每一层对应的步长分 别为8、16、32、64个像素,在特征图的每个像素 ue=∑a-.G≥片∑G≥ (2 点采用不同大小比例的包围盒进行预测。每一层 特征图,设置不同大小的比例包围盒来进行预测 48》+ ∑e+∑G≥e8 不同大小的物体,纵横比分别为0.5、1.0、2.0。在 式中:i是每个训练批次中包围盒的索引::是每 训练时,当包围盒与图像标注(ground truth)的重 个批次图像中每个图像标注的对应类别标签; 叠面积比例大于0.5时,即认为该包围盒中存在 是每个图像标注对应的坐标;:和:是网络预测 目标物体。 的包围盒中是否有目标和相应的坐标信息;c:和 1.4损失函数 是所预测的目标包围盒中物体的类别和相应的坐 考虑到正负样本的数量相差较大,与SSD类 标信息;Nov和N。分别为特征提取网络和预测网 似,本文采用负挖掘来解决极端的前景背景类别 络中正样本包围盒的数量;,是特征提取网络输 不平衡的问题。即在训练中,不使用所有的负样 出的二分类的交叉嫡损失,即判断包围盒中是否 本包围盒,也不随机选择负样本包围盒,而是将 有目标;Im是多分类任务的置信度。与Fast 负样本的损失进行排序,选择其中损失最大的负 R-CNN算法相似,↓,为smooth L1回归损失。只 样本作为最后预测的样本,并且控制最终的正负 有当包围盒中:≥1时,即预测值为真时才会计算 样本比例为3:1。与SSD不同的是,本文在进行 相应的损失。其中位置损失函数(,的具体损失函 预测之前,先对网络预测产生的包围盒进行前景 数如下:
1.2 全局感受野模块 1×1 在大多数的检测模型中,多采用自上而下的 结构,忽略了对于不同的大小的物体。而卷积神经 网络的感受野是不同的,因此提出在网络中加入 横向连接的结构,采用不同大小的卷积核和不同 步长的空洞卷积来增强网络全局的感受野。与只 利用一种卷积核的网络结构相比,使用不同的大 小的卷积核和不同步长的空洞卷积能有效提取不 同尺度大小物体的特征。首先,利用 的卷积层, 1×1 3×3 5×5 3×3 1×1 改变特征图的通道数,减少特征模型的计算量。然后, 利用 、 和 三种不同的卷积核和 步长分别为 1, 3 和 5 的空洞卷积[11]来提取不同尺 度的特征信息。进而把获取的特征通道进行连 接,用 的卷积核将通道数变换为原来特征图 相同的通道数,并与原来的特征图对应像素点进 行叠加,既保留原本网络模型的特征,又加入了 不同大小感受野的特征信息,有效改善提取较小 尺寸的物体特征。全局感受野结构如图 4 所示。 1×1 卷积核 3×3 卷积核 步长1 3×3 卷积核 3×3 卷积核 步长3 5×5 卷积核 3×3 卷积核 步长5 5×5×12 5×5×256 5×5×256 5×5×256 对应位置 元素求和 ReLU函数 通道拼接 卷积1×1×256 ReLU函数 卷积1×1×256 图 4 全局感受野结构 Fig. 4 The network of global receptive field 1.3 包围框的设置 为了更好地利用图像的特征信息,选取 VGG16 中 4 层不同尺度的特征图,每一层对应的步长分 别为 8、16、32、64 个像素,在特征图的每个像素 点采用不同大小比例的包围盒进行预测。每一层 特征图,设置不同大小的比例包围盒来进行预测 不同大小的物体,纵横比分别为 0.5、1.0、2.0。在 训练时,当包围盒与图像标注 (ground truth) 的重 叠面积比例大于 0.5 时,即认为该包围盒中存在 目标物体。 1.4 损失函数 考虑到正负样本的数量相差较大,与 SSD 类 似,本文采用负挖掘来解决极端的前景背景类别 不平衡的问题。即在训练中,不使用所有的负样 本包围盒,也不随机选择负样本包围盒,而是将 负样本的损失进行排序,选择其中损失最大的负 样本作为最后预测的样本,并且控制最终的正负 样本比例为 3∶1。与 SSD 不同的是,本文在进行 预测之前,先对网络预测产生的包围盒进行前景 和背景的二分类滤除。这样做的目的在于有效 减少负样本的数量。网络的损失函数为 L({pi},{xi},{ci},{ti}) = 1 Nconv ∑ i lb(pi ,[l ∗ i ⩾ 1] + ∑ i [l ∗ i ⩾ 1] lr(xi ,g ∗ i ))+ 1 Np ∑ i lm(ci ,l ∗ i )+ ∑ i [l ∗ i ⩾ 1]lr(ti ,g ∗ i ) (2) l ∗ i g ∗ i pi xi ci ti Nconv Np lb lm lr l ∗ i ⩾ 1 lr 式中:i 是每个训练批次中包围盒的索引; 是每 个批次图像中每个图像标注的对应类别标签; 是每个图像标注对应的坐标; 和 是网络预测 的包围盒中是否有目标和相应的坐标信息; 和 是所预测的目标包围盒中物体的类别和相应的坐 标信息; 和 分别为特征提取网络和预测网 络中正样本包围盒的数量; 是特征提取网络输 出的二分类的交叉熵损失,即判断包围盒中是否 有目标; 是多分类任务的置信度。 与 Fast R-CNN 算法相似, 为 smooth L1 回归损失。只 有当包围盒中 时,即预测值为真时才会计算 相应的损失。其中位置损失函数 的具体损失函 数如下: 第 6 期 单义,等:基于跳跃连接金字塔模型的小目标检测 ·1147·
·1148· 智能系统学报 第14卷 gn=2∑.- 和对应的类别信息。 mElcx.cy.w.h 2.1 PASCAL VOC 在PASCAL VOC数据上,所有的算法模型都 8g=(g5-d/d",8=(g-d)/d (4) 在VOC2007和VOC2012数据集上进行训练,测 log)log() (5) 试在VOC2007数据集上进行测试。一共训练了 140k次,学习率不断衰减,设置0~80k的学习率 其中:cx、cy、w、h分别表示包围盒的中心坐标以及 为103,80k到100k的学习率下降为10-,100k 宽和高。(g,g,g",g)表示图像标注信息中的包围盒 到120k学习率下降为105,120k~140k的学习率 对应的中心坐标以及宽和高,(d,dP,d",d)表示 为10。考虑到GPU的处理能力,设置不同步长 默认包围盒的中心坐标以及宽和高,(,x,x",x) 的学习批次,对于输人大小为320×320的图像, 表示预测的包围盒的中心坐标以及宽和高。 处理批次设置为32,而对于输入图像512×512, 2实验结果及分析 设置的批次为16。动量和权值衰减分别设置为0.9 和0.0005。 本文以VGG162四作为基础的特征提取网络, 表1为本文的实验结果和其他网络检测结果 并且在ILSVRC CLS-LOC数据集上进行了预训 的对比。输入图像的尺寸对模型的输出结果有较 练。为了验证所提出算法的有效性,分别在PAS 大影响。从表中可以看出,在输人图像的尺寸为 CAL VOC1到和MS coco数据集上进行了实 320×320时,平均准确率为80.1%,速度为31.2fs。 验。PASCAL VOC和MS COCO数据集中类别数 在输入图像的尺寸为512×512时,平均准确率为 量分别为20和80,并且每个类别都有标注信息 81.9%,速度为18.2fs。 表1 PASCAL VOC2007的不同网络模型的检测结果 Table 1 Detection results on PASCAL VOC dataset 方法 基础网络 准确率 检测速度 图像尺寸 Faster VGG16 73.2 > 1000×600 Faster4 Residual-1010 76.4 2.4 1000×600 R-FCNI5T Residual-101 80.5 9 1000×600 DS0D30016 DS/64-192-4 77.7 17.4 300×300 YOLOv2l7 Darknet-19 78.6 90 544×544 SSD300同 VGG16 77.5 46 300×300 DSSD32119 Residual-101 79.5 9.5 321×321 STDN321图 DenseNet-169 79.2 41.5 321×321 Ours320 VGG16 80.1 31.2 320×320 SSD512161 VGG16 78.6 19 512×512 DSSD51311 Residual-101 81.5 5.5 513×513 STDN513018) DenseNet-169 80.9 28.6 513×513 Ours512 VGG16 81.9 18.2 512×512 表2为网络模型在PASCAL VOC:2007测试 的平均准确率高于其他网络1%,其中如bird、sheep 集的不同类别平均准确率的结果。从表中可以看 plat等小目标比其他网络最优准确率分别高2.5%、 出,本文方法在小目标类别中的平均检测准确率 3.2%、2.7%,证明了提出网络的有效性。 明显高于其他网络模型。本文所提出的网络整体
lr(x,g ∗ ,l ∗ ) = ∑N i∈Pos ∑ m∈{cx,cy,w,h} [l ∗ ⩾ 1]smoothL1(x m i −bg m j ) (3) bg cx j = (g cx j −d cx i )/d w i ,bg cy j = (g cy j −d cy i )/d h i (4) bg w j = log( g w j d w i ),bg h j = log( g h j d h i ) (5) cx、cy、w、h (g cx ,g cy ,g w ,g h ) (d cx ,d cy ,d w ,d h ) (x cx , x cy , x w , x h ) 其中: 分别表示包围盒的中心坐标以及 宽和高。 表示图像标注信息中的包围盒 对应的中心坐标以及宽和高, 表示 默认包围盒的中心坐标以及宽和高, 表示预测的包围盒的中心坐标以及宽和高。 2 实验结果及分析 本文以 VGG16[12] 作为基础的特征提取网络, 并且在 ILSVRC CLS-LOC 数据集上进行了预训 练。为了验证所提出算法的有效性,分别在 PASCAL VOC[13] 和 MS COCO[14] 数据集上进行了实 验。PASCAL VOC 和 MS COCO 数据集中类别数 量分别为 20 和 80,并且每个类别都有标注信息 和对应的类别信息。 2.1 PASCAL VOC 10−3 10−4 10−5 10−6 320×320512×512 在 PASCAL VOC 数据上,所有的算法模型都 在 VOC2007 和 VOC2012 数据集上进行训练,测 试在 VOC2007 数据集上进行测试。一共训练了 140 k 次,学习率不断衰减,设置 0~80 k 的学习率 为 ,80 k 到 100 k 的学习率下降为 ,100 k 到 120 k 学习率下降为 ,120k~140 k 的学习率 为 。考虑到 GPU 的处理能力,设置不同步长 的学习批次,对于输入大小为 的图像, 处理批次设置为 32,而对于输入图像 , 设置的批次为 16。动量和权值衰减分别设置为 0.9 和 0.000 5。 320×320 512×512 表 1 为本文的实验结果和其他网络检测结果 的对比。输入图像的尺寸对模型的输出结果有较 大影响。从表中可以看出,在输入图像的尺寸为 时,平均准确率为 80.1%,速度为 31.2 f/s。 在输入图像的尺寸为 时,平均准确率为 81.9%,速度为 18.2 f/s。 表 1 PASCAL VOC2007 的不同网络模型的检测结果 Table 1 Detection results on PASCAL VOC dataset 方法 基础网络 准确率 检测速度 图像尺寸 Faster[4] VGG16 73.2 7 1 000×600 Faster[4] Residual-101[10] 76.4 2.4 1 000×600 R-FCN[15] Residual-101 80.5 9 1 000×600 DSOD300[16] DS/64-192-4 77.7 17.4 300×300 YOLOv2[17] Darknet-19 78.6 40 544×544 SSD300[6] VGG16 77.5 46 300×300 DSSD321[9] Residual-101 79.5 9.5 321×321 STDN321[18] DenseNet-169 79.2 41.5 321×321 Ours320 VGG16 80.1 31.2 320×320 SSD512[6] VGG16 78.6 19 512×512 DSSD513[9] Residual-101 81.5 5.5 513×513 STDN513[18] DenseNet-169 80.9 28.6 513×513 Ours512 VGG16 81.9 18.2 512×512 表 2 为网络模型在 PASCAL VOC2007 测试 集的不同类别平均准确率的结果。从表中可以看 出,本文方法在小目标类别中的平均检测准确率 明显高于其他网络模型。本文所提出的网络整体 的平均准确率高于其他网络 1%,其中如 bird、sheep、 plant 等小目标比其他网络最优准确率分别高 2.5%、 3.2%、2.7%,证明了提出网络的有效性。 ·1148· 智 能 系 统 学 报 第 14 卷
第6期 单义,等:基于跳跃连接金字塔模型的小目标检测 ·1149· 表2 PASCAL VOC2007不同类别的检测结果 Table 2 Object detection results on PASCAL VOC 2007 test set 类别 Faste4 ION MR-CNN YOLOV2 SSD 300 SSD5121 STDN32 STDN 513 Ours 320 Ours 512 方法 aero 76.5 79.2 80.3 86.3 79.5 84.8 81.2 86.1 84.5 88.5 bike 79.0 83.1 84.1 82.0 83.9 85.1 88.3 89.3 85.4 86.4 bird 70.9 77.6 78.5 74.8 76.0 81.5 78.1 79.5 80.1 84.0 boat 66.5 65.6 70.8 59.2 69.6 73.0 72.2 74.3 73.8 75.8 bottle 52.1 68.5 51 50.5 57.8 54.3 61.9 60.0 69.4 bus 7 88.5 87.7 88.9 car 86.1 88.3 88.2 89.2 cat 88 89 89.0 89.5 chai 67 63.8 66.7 cow 83.2 85. 84. 86.4 table 65 79. 79.5 77. 732 dog 86.4 86.0 87.6 horse 893 89.2 86.4 88.2 mbike 77 83 39 88.0 88.5 86. 87.5 person 76. 77.3 79.3 82.5 84.9 plant R9 5) 52.5 53.0 56.1 58.3 sheep 73.6 75.8 77.9 81.7 80.3 77.9 81.3 84.9 sofa 73.9 72.7 75.5 62.4 79.5 79.0 80.8 81.4 80.4 78.3 train 83.0 84.2 85.0 83.4 87.6 86.6 86.3 86.6 88.5 87.8 72.6 80.4 81.0 68.7 76.8 80.0 82.1 85.5 79.8 80.8 mAP 73.2 75.6 78.2 76.8 77.5 79.5 79.3 80.9 80.1 81.9 图5为本文的方法和SSD方法在VOC2007数 方法在小目标准确率和召回率分别高于其他最优 据集的可视化结果对比图。第一行是SSD算法 的模型2.4%和4%。 的检测结果,第二行是本文提出的检测方法的实 验结果。从图中可以看出,本文方法对于图像中 较小尺寸的鸟和人的检测效果明显改善,而且对 于正确检测的物体的置信度也有了较大的提高。 2.2 MS COCO (a)SSD算法 为了进一步验证本文提出的模型在更多类 别、更多数量的数据集上的有效性,我们在MS COCO数据集上进行了实验,实验结果如表3所示。 Ms coco数据集的评价指标不同于PASCAL VOC。以不同的IOU进行评价,对图像分为3个 b)本文方法 规模大小进行评价。其中AP表示准确率,AR表 图5在V0C2007上可视化的实验结果对比 示召回率。APs和ARs分别表示小目标的检测准 Fig.5 The visual comparison of experimental results on 确率和召回率,以320×320尺寸的图像为例,本文 VOC2007 test
表 2 PASCAL VOC2007 不同类别的检测结果 Table 2 Object detection results on PASCAL VOC 2007 test set 类别 方法 Faster[4] ION[7] MR-CNN[19] YOLOv2[17] SSD 300[6] SSD 512[6] STDN 321[18] STDN 513[18] Ours 320 Ours 512 aero 76.5 79.2 80.3 86.3 79.5 84.8 81.2 86.1 84.5 88.5 bike 79.0 83.1 84.1 82.0 83.9 85.1 88.3 89.3 85.4 86.4 bird 70.9 77.6 78.5 74.8 76.0 81.5 78.1 79.5 80.1 84.0 boat 66.5 65.6 70.8 59.2 69.6 73.0 72.2 74.3 73.8 75.8 bottle 52.1 54.9 68.5 51.8 50.5 57.8 54.3 61.9 60.0 69.4 bus 83.1 85.4 88.0 79.8 87.0 87.8 87.6 88.5 87.7 88.9 car 84.7 85.1 85.9 76.5 85.7 88.3 86.7 88.3 88.2 89.2 cat 86.4 87.0 87.8 90.6 88.1 87.4 88.7 89.4 89.0 89.5 chair 52.0 54.4 60.3 52.1 60.3 63.5 63.5 67.4 63.8 66.7 cow 81.9 80.6 85.2 78.2 81.5 85.4 83.2 85.5 84.7 86.4 table 65.7 73.8 73.7 58.5 77.0 73.2 79.4 79.5 77.2 73.2 dog 84.8 85.3 87.2 89.3 86.1 86.2 86.1 86.4 86.0 87.6 horse 84.6 82.2 86.5 82.5 87.5 86.7 89.3 89.2 86.4 88.2 mbike 77.5 82.2 85.0 83.4 83.9 83.9 88.0 88.5 86.7 87.5 person 76.7 74.4 76.4 81.3 79.4 82.5 77.3 79.3 82.5 84.9 plant 38.8 47.1 48.5 49.1 52.3 55.6 52.5 53.0 56.1 58.3 sheep 73.6 75.8 76.3 77.2 77.9 81.7 80.3 77.9 81.3 84.9 sofa 73.9 72.7 75.5 62.4 79.5 79.0 80.8 81.4 80.4 78.3 train 83.0 84.2 85.0 83.4 87.6 86.6 86.3 86.6 88.5 87.8 tv 72.6 80.4 81.0 68.7 76.8 80.0 82.1 85.5 79.8 80.8 mAP 73.2 75.6 78.2 76.8 77.5 79.5 79.3 80.9 80.1 81.9 图 5 为本文的方法和 SSD 方法在 VOC2007 数 据集的可视化结果对比图。第一行是 SSD 算法 的检测结果,第二行是本文提出的检测方法的实 验结果。从图中可以看出,本文方法对于图像中 较小尺寸的鸟和人的检测效果明显改善,而且对 于正确检测的物体的置信度也有了较大的提高。 2.2 MS COCO 为了进一步验证本文提出的模型在更多类 别、更多数量的数据集上的有效性,我们在 MS COCO 数据集上进行了实验,实验结果如表 3 所示。 MS COCO 数据集的评价指标不同于 PASCAL VOC。以不同的 IOU 进行评价,对图像分为 3 个 规模大小进行评价。其中 AP 表示准确率,AR 表 示召回率。APs 和ARs 分别表示小目标的检测准 确率和召回率,以 320×320 尺寸的图像为例,本文 方法在小目标准确率和召回率分别高于其他最优 的模型 2.4% 和 4%。 (a) SSD 算法 (b) 本文方法 图 5 在 VOC2007 上可视化的实验结果对比 Fig. 5 The visual comparison of experimental results on VOC2007 test 第 6 期 单义,等:基于跳跃连接金字塔模型的小目标检测 ·1149·
·1150· 智能系统学报 第14卷 表3 MS COCO数据集检测结果 Table 3 Object detection results on MS COCO test-dev set. 方法 基础网络 AP0s:0.95 APo.s AP0.75 APs APM APL AR1 AR10 AR100 ARs ARM ARL Faster[4] VGG16 21.9 42.7 ION[7] VGG16 23.6 43.2 23.66.424.138.323.232.733.210.137.753.6 R-FCN[15] Residual-101 29.2 51.5 10.332.443.3 DSOD[16] DS/64/192/4 29.3 47.3 30.6 9.431.547 27.340.743 16.747.165 Yolov2[17刀 Darknet 21.6 44.0 19.2 9.028.941.924.837.5 39.814.043.559.0 sSD300[6 VGG16 25.1 43.1 25.8 6.625.941.423.7 37.211.240.458.4 DSSD321[9例 Residual-101 28.0 46.1 2 47.6 25. 39.412.742 62.6 STDN321[18] DenseNet20 28.0 45.6 29 29.1 45. 24.4 h 38.4 12.542.760.1 Ours320 VGG16 28.2 47.7 29. 10.331.443.725.838.9 41.216.947.261.0 SSD512[6 VGG16 28.8 48.5 30.3 10.931843.526.139.5 42 16.546.660.8 DSSD513[9] Residual-101 33.2 53.3 35.2 1335.451.128.943.5 46.221.849.166.4 STDN513[18] DenseNet 31.8 51.0 33.614.436.143.427.040.141.918.348.357.3 Ours512 VGG16 33.1 52.3 32.415.634.642.728.342.645.625.950.860.1 3结束语 [5]REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[Cl//Proceed- 针对小目标检测准确率较低的问题,本文提 ings of 2016 IEEE Conference on Computer Vision and 出了一种基于跳跃连接金字塔的小目标检测模 Pattern Recognition(CVPR).Las Vegas,NV,USA,2016: 型。通过跳跃连接的特征金字塔融合高层与低层 779-788. 特征图信息,并且利用不同大小卷积和不同步长 [6]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single 空洞卷积的横向结构来提取全局特征信息,有效 shot MultiBox detector[C]//Proceedings of the 14th 弥补因连续池化而造成的信息丢失。整个网络模 European Conference on Computer Vision.Amsterdam, 型以端到端方式进行训练,并且在PASCAL VOC the Netherlands,2016:21-37. 和MS COCO数据集上进行了实验,实验结果表 [7]BELL S,ZITNICK CL,BALA K,et al.Inside-outside 明本文提出的模型在小目标的检测准确率方面明 net:detecting objects in context with skip pooling and re- 显优于其他算法模型。 current neural networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition 参考文献: (CVPR).Las Vegas,NV,USA,2016:2874-2883. [8]LIN T Y,DOLLAR P,GIRSHICK R,et al.Feature pyram- [1]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich id networks for object detection[Cl//Proceedings of 2017 feature hierarchies for accurate object detection and se- mantic segmentation[C]//Proceedings of 2014 IEEE Con- IEEE Conference on Computer Vision and Pattern Recog- ference on Computer Vision and Pattern Recognition(CV- nition (CVPR).Honolulu,HI,USA,2017:936-944. PR).Columbus,OH,USA,2014:580-587. [9]FU Chengyang,LIU Wei,RANGA A,et al.DSSD:decon- [2]GIRSHICK R.Fast R-CNN[Cl/Proceedings of 2015 IEEE volutional single shot detector[J].arXiv:1701.06659, International Conference on Computer Vision (ICCV). 2017 Santiago,Chile,2015:1440-1448. [10]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. [3]UIJLINGS J RR,VAN DE SANDE K E A,GEVERS T, Deep residual learning for image recognition[C]//Proceed- et al.Selective search for object recognition[].Internation- ings of 2016 IEEE Conference on Computer Vision and al journal of computer vision,2013,104(2):154-171. Pattern Recognition(CVPR).Las Vegas,NV,USA,2016: [4]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster 770-778. R-CNN:towards real-time object detection with region [11]YU F,KOLTUN V.Multi-scale context aggregation by proposal networks[J].IEEE transactions on pattern analys- dilated convolutions[J].arXiv:1511.07122,2015. is and machine intelligence,2017,39(6):1137-1149. [12]SIMONYAN K.ZISSERMAN A.Very Deep Convolu-
3 结束语 针对小目标检测准确率较低的问题,本文提 出了一种基于跳跃连接金字塔的小目标检测模 型。通过跳跃连接的特征金字塔融合高层与低层 特征图信息,并且利用不同大小卷积和不同步长 空洞卷积的横向结构来提取全局特征信息,有效 弥补因连续池化而造成的信息丢失。整个网络模 型以端到端方式进行训练,并且在 PASCAL VOC 和 MS COCO 数据集上进行了实验,实验结果表 明本文提出的模型在小目标的检测准确率方面明 显优于其他算法模型。 参考文献: GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA, 2014: 580–587. [1] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile, 2015: 1440–1448. [2] UIJLINGS J R R, VAN DE SANDE K E A, GEVERS T, et al. Selective search for object recognition[J]. International journal of computer vision, 2013, 104(2): 154–171. [3] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137–1149. [4] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA, 2016: 779–788. [5] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands, 2016: 21–37. [6] BELL S, ZITNICK C L, BALA K, et al. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA, 2016: 2874–2883. [7] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA, 2017: 936–944. [8] FU Chengyang, LIU Wei, RANGA A, et al. DSSD: deconvolutional single shot detector[J]. arXiv: 1701.06659, 2017. [9] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA, 2016: 770–778. [10] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[J]. arXiv:1511.07122, 2015. [11] [12] SIMONYAN K, ZISSERMAN A. Very Deep Convolu- 表 3 MS COCO 数据集检测结果 Table 3 Object detection results on MS COCO test-dev set. 方法 基础网络 AP0.5∶0.95 AP0.5 AP0.75 APS APM APL AR1 AR10 AR100 ARS ARM ARL Faster[4] VGG16 21.9 42.7 − − − − − − − − − − ION[7] VGG16 23.6 43.2 23.6 6.4 24.1 38.3 23.2 32.7 33.2 10.1 37.7 53.6 R-FCN[15] Residual-101 29.2 51.5 − 10.3 32.4 43.3 − − − − − − DSOD[16] DS/64/192/4 29.3 47.3 30.6 9.4 31.5 47 27.3 40.7 43 16.7 47.1 65 Yolov2[17] Darknet 21.6 44.0 19.2 9.0 28.9 41.9 24.8 37.5 39.8 14.0 43.5 59.0 SSD300[6] VGG16 25.1 43.1 25.8 6.6 25.9 41.4 23.7 35.1 37.2 11.2 40.4 58.4 DSSD321[9] Residual-101 28.0 46.1 29.2 7.4 28.1 47.6 25.5 37.1 39.4 12.7 42 62.6 STDN321[18] DenseNet[20] 28.0 45.6 29.4 7.9 29.7 45.1 24.4 36.1 38.4 12.5 42.7 60.1 Ours320 VGG16 28.2 47.7 29.1 10.3 31.4 43.7 25.8 38.9 41.2 16.9 47.2 61.0 SSD512[6] VGG16 28.8 48.5 30.3 10.9 31.8 43.5 26.1 39.5 42 16.5 46.6 60.8 DSSD513[9] Residual-101 33.2 53.3 35.2 13 35.4 51.1 28.9 43.5 46.2 21.8 49.1 66.4 STDN513[18] DenseNet 31.8 51.0 33.6 14.4 36.1 43.4 27.0 40.1 41.9 18.3 48.3 57.3 Ours512 VGG16 33.1 52.3 32.4 15.6 34.6 42.7 28.3 42.6 45.6 25.9 50.8 60.1 ·1150· 智 能 系 统 学 报 第 14 卷
第6期 单义,等:基于跳跃连接金字塔模型的小目标检测 ·1151· tional Networks for Large-Scale Image Recognition[J]. model[C]/Proceedings of 2015 IEEE International Con- arXiv:1409.1556.2014 ference on Computer Vision (ICCV).Santiago,Chile, [13]EVERINGHAM M,VAN GOOL L,WILLIAMS C K I, 2015:11341142. et al.The Pascal visual object classes (VOC)challenge[J]. [20]HUANG Gao,LIU Zhuang,VAN DER MAATEN L,et International journal of computer vision,2010,88(2): al.Densely connected convolutional networks[C]//Pro- 303-338. ceedings of 2017 IEEE Conference on Computer Vision [14]LIN T Y,MAIRE M,BELONGIE S,et al.Microsoft and Pattern Recognition(CVPR).Honolulu,HI,USA, COCO:common objects in context[C]//Proceedings of 2017:2261-2269 the 13th European Conference on Computer Vision. Zurich,Switzerland,2014:740-755. 作者简介: [15]DAI Jifeng,LI Yi,HE Kaiming,et al.R-FCN:object de- 单义,男,1992年生,硕士研究 生,主要研究方向为深度学习、计算机 tection via region-based fully convolutional networks[Cl// 视觉。 Proceedings of the 30th International Conference on Neural Information Processing Systems.Barcelona, Spain,2016:379-387. [16]SHEN Zhiqiang,LIU Zhuang,LI Jianguo,et al.DSOD: learning deeply supervised object detectors from 杨金福,男,1977年生,教授,主 scratch[C]//Proceedings of 2017 IEEE International Con- 要研究方向为机器学习、机器视觉、智 能计算与智能系统。近年来承担包括 ference on Computer Vision (ICCV).Venice,Italy,2017: 国家大科学工程、国家重点研发计划、 1937-1945 国家973计划、国家863计划、国家自 [17]REDMON J,FARHADI A.YOLO9000:better,faster, 然科学基金、北京市自然科学基金等 stronger[C]//Proceedings of 2017 IEEE Conference on 20多项科研项目。申请国家发明专 Computer Vision and Pattern Recognition(CVPR).Hon- 利30余项(获得授权20余项),获得软件著作权登记10余 olulu,HI,USA,2017:6517-6525. 项,发表学术论文80余篇。 [18]ZHOU Peng,NI Bingbing,GENG Cong,et al.Scale- 武随烁,男,1997年生,硕士研究 transferrable object detection[C]//Proceedings of 2018 生,主要研究方向为深度学习、计算机 IEEE/CVF Conference on Computer Vision and Pattern 视觉。 Recognition.Salt Lake City,UT,USA,2018:528-537. [19]GIDARIS S,KOMODAKIS N.Object detection via a multi-region and semantic segmentation-aware CNN
tional Networks for Large-Scale Image Recognition[J]. arXiv:1409.1556, 2014. EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al. The Pascal visual object classes (VOC) challenge[J]. International journal of computer vision, 2010, 88(2): 303–338. [13] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 740–755. [14] DAI Jifeng, LI Yi, HE Kaiming, et al. R-FCN: object detection via region-based fully convolutional networks[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 379–387. [15] SHEN Zhiqiang, LIU Zhuang, LI Jianguo, et al. DSOD: learning deeply supervised object detectors from scratch[C]//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy, 2017: 1937–1945. [16] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA, 2017: 6517–6525. [17] ZHOU Peng, NI Bingbing, GENG Cong, et al. Scaletransferrable object detection[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA, 2018: 528–537. [18] GIDARIS S, KOMODAKIS N. Object detection via a multi-region and semantic segmentation-aware CNN [19] model[C]//Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile, 2015: 1134–1142. HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA, 2017: 2261–2269. [20] 作者简介: 单义,男,1992 年生,硕士研究 生,主要研究方向为深度学习、计算机 视觉。 杨金福,男,1977 年生,教授,主 要研究方向为机器学习、机器视觉、智 能计算与智能系统。近年来承担包括 国家大科学工程、国家重点研发计划、 国家 973 计划、国家 863 计划、国家自 然科学基金、北京市自然科学基金等 20 多项科研项目。申请国家发明专 利 30 余项 (获得授权 20 余项),获得软件著作权登记 10 余 项,发表学术论文 80 余篇。 武随烁,男,1997 年生,硕士研究 生,主要研究方向为深度学习、计算机 视觉。 第 6 期 单义,等:基于跳跃连接金字塔模型的小目标检测 ·1151·