【知识工程】隔级融合特征金字塔与CornerNet相结合的小目标检测

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：4.67MB

第16卷第1期智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0:10.11992/tis.202004033 隔级融合特征金字塔与CornerNet 相结合的小目标检测赵文清3，孔子旭，赵振兵 (1.华北电力大学控制与计算机工程学院，河北保定071003,2.华北电力大学电气与电子工程学院，河北保定 071003;3.复杂能源系统智能计算教育部工程研究中心，河北保定071003) 摘要：为弥补CornerNet中小目标语义信息弱的缺陷，提出隔级融合特征金字塔的方法，提高小目标平均准确率。对骨干网络后半部分融合后的4个特征图进行提取，将尺寸较小的特征图进行2次卷积，得到2个新的特征图；运用上下融合、隔级融合和旁路连接的思想，生成融合后的特征图并将其组成特征金字塔。将改进后的算法与当前主流CornerNet、.Faster RCNN、RetinaNet算法在MS COCO数据集上进行比较，结果表明.改进后算法在对小目标进行检测时，小目标平均准确率有较大提高。隔级融合特征金字塔在CornerNet上能有效融合高低层特征图，使融合后的特征图有较强的语义信息，提高CornerNet网络的小目标平均准确率。关键词：CornerNet::小目标检测：卷积：特征图；隔级融合：上下融合：旁路连接：特征金字塔中图分类号：TP391文献标志码：A文章编号：1673-4785(2021)01-0108-09 中文引用格式：赵文清，孔子旭，赵振兵.隔级融合特征金字塔与CornerNet相结合的小目标检测.智能系统学报，2021， 16(1):108-116. 英文引用格式：ZHAO Wenqing,KONGZixu,ZHAO Zhenbing.Small target detection based on a combination of feature pyramid and CornerNet[JI.CAAI transactions on intelligent systems,2021,16(1):108-116. Small target detection based on a combination of feature pyramid and CornerNet ZHAO Wenging3,KONG Zixu',ZHAO Zhenbing? (1.School of Control and Computer Engineering,North China Electric Power University,Baoding 071003,China;2.School of Elec- trical and Electronic Engineering,North China Electric Power University,Baoding 071003,China;3.Engineering Research Center of the Ministry of education for Intelligent Computing of complex energy system,Baoding 071003) Abstract:To improve the problem of the weak semantic information of the small target in CornerNet,a method of the hierarchical fusion feature pyramid is proposed to increase the average accuracy of the small target.The method first ex- tracts the four feature maps after the fusion of the second half of the backbone network,then convolves the feature maps with a smaller size twice to obtain two new feature maps,and finally uses the ideas of the upper and lower fusion,inter- level fusion,and bypass connection to generate a fused feature map and form it into a feature pyramid.The result shows that the average accuracy for small targets obtained by our algorithm has been greatly improved compared with those by current mainstream algorithms,such as CornerNet,Faster RCNN,and RetinaNet on the MS COCO dataset,which demonstrates great superiority.The inter-level fusion feature pyramid can effectively fuse high-level and low-level fea- ture maps on CornerNet,so that the fused feature maps have strong semantic information,and improve the average ac- curacy of the small targets of the CornerNet network. Keywords:CornerNet;small target detection;convolution;feature map;interval fusion;upper and lower fusion;bypass connection;feature pyramid 收稿日期：2020-04-27. 目标检测的目的是使计算机像人类一样，从基金项目：国家自然科学基金项目(61871182)：中央高校基本图像中获取所需要的信息。这对于人眼来说一件科研业务费面上项目(2020MS153). 通信作者：赵文清.E-mail:jbzwq(@126.com. 很简单的事情，通过观察目标的颜色、形状等特

DOI: 10.11992/tis.202004033 隔级融合特征金字塔与 CornerNet 相结合的小目标检测赵文清1,3，孔子旭1 ，赵振兵2 （1. 华北电力大学控制与计算机工程学院，河北保定 071003; 2. 华北电力大学电气与电子工程学院，河北保定 071003; 3. 复杂能源系统智能计算教育部工程研究中心，河北保定 071003）摘要：为弥补 CornerNet 中小目标语义信息弱的缺陷，提出隔级融合特征金字塔的方法，提高小目标平均准确率。对骨干网络后半部分融合后的 4 个特征图进行提取，将尺寸较小的特征图进行 2 次卷积，得到 2 个新的特征图；运用上下融合、隔级融合和旁路连接的思想，生成融合后的特征图并将其组成特征金字塔。将改进后的算法与当前主流 CornerNet、Faster RCNN、RetinaNet 算法在 MS COCO 数据集上进行比较，结果表明，改进后算法在对小目标进行检测时，小目标平均准确率有较大提高。隔级融合特征金字塔在 CornerNet 上能有效融合高低层特征图，使融合后的特征图有较强的语义信息，提高 CornerNet 网络的小目标平均准确率。关键词：CornerNet；小目标检测；卷积；特征图；隔级融合；上下融合；旁路连接；特征金字塔中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2021)01−0108−09 中文引用格式：赵文清, 孔子旭, 赵振兵. 隔级融合特征金字塔与 CornerNet 相结合的小目标检测 [J]. 智能系统学报, 2021, 16(1): 108–116. 英文引用格式：ZHAO Wenqing, KONG Zixu, ZHAO Zhenbing. Small target detection based on a combination of feature pyramid and CornerNet[J]. CAAI transactions on intelligent systems, 2021, 16(1): 108–116. Small target detection based on a combination of feature pyramid and CornerNet ZHAO Wenqing1,3 ，KONG Zixu1 ，ZHAO Zhenbing2 (1. School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, China; 2. School of Electrical and Electronic Engineering, North China Electric Power University, Baoding 071003, China; 3. Engineering Research Center of the Ministry of education for Intelligent Computing of complex energy system, Baoding 071003) Abstract: To improve the problem of the weak semantic information of the small target in CornerNet, a method of the hierarchical fusion feature pyramid is proposed to increase the average accuracy of the small target. The method first extracts the four feature maps after the fusion of the second half of the backbone network, then convolves the feature maps with a smaller size twice to obtain two new feature maps, and finally uses the ideas of the upper and lower fusion, interlevel fusion, and bypass connection to generate a fused feature map and form it into a feature pyramid. The result shows that the average accuracy for small targets obtained by our algorithm has been greatly improved compared with those by current mainstream algorithms, such as CornerNet, Faster RCNN, and RetinaNet on the MS COCO dataset, which demonstrates great superiority. The inter-level fusion feature pyramid can effectively fuse high-level and low-level feature maps on CornerNet, so that the fused feature maps have strong semantic information, and improve the average accuracy of the small targets of the CornerNet network. Keywords: CornerNet; small target detection; convolution; feature map; interval fusion; upper and lower fusion; bypass connection; feature pyramid 目标检测的目的是使计算机像人类一样，从图像中获取所需要的信息。这对于人眼来说一件很简单的事情，通过观察目标的颜色、形状等特收稿日期：2020−04−27. 基金项目：国家自然科学基金项目 (61871182)；中央高校基本科研业务费面上项目 (2020MS153). 通信作者：赵文清. E-mail：jbzwq@126.com. 第 16 卷第 1 期智能系统学报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021

第1期赵文清，等：隔级融合特征金字塔与CornerNet相结合的小目标检测 ·109· 点就能轻易地判定目标的类别及位置；但计算机础模型，如图1所示。首先经过一系列降采样，将 “看到的”却是一个个的像素值，很难从这些像素图像分辨率降低4倍（文献[13]中输入图像大小值中抽象出目标的特征并确定目标的位置山。目为511×511，输出图像大小为128×128)，然后经过标检测技术在日常生活中广泛应用，例如安装摄特征提取网络提取特征。该网络通过串联2个沙像头检测可疑人物携带的诸如作案工具等小目漏网络模块组成，沙漏网络模块中间用一个中继标，分析异常行为，从而做到对危险的预判：在智监督进行连接。每个沙漏网络模块都是先通过能自动驾驶中，检测前方目标并进行识别，系统系列步长为2的降采样操作缩小输入的大小，获作出判断并采取相应措施；在交通视频监控中，得一些分辨率较低的特征，从而使计算复杂度降车牌、车标等小目标需要准确检测；航拍图片因低，然后通过上采样恢复到输入图像大小，提高为拍摄距离比较远而造成目标像素过低等等，这图像的分辨率，更好地预测物体的准确位置。整些问题都需要采用目标检测技术，因此，对小目个沙漏网络的深度是104层，最后将该特征图作标进行准确快速的检测尤为必要。小目标主要分为2个预测模块的输入，预测的关键点为左上角为绝对小目标（像素低）和相对小目标（相对于原和右下角，因此是2个模块输入。在每个模块里图的长宽比例小)，图像大小为原图像的01倍或面，首先经过角池化，然后输出3个分支：热图、图像像素低于32×32，即可认定为小目标。嵌入矢量和偏移。目前主流的目标检测算法主要分为两大类。角池化热图第1类是双阶段检测方法，代表性算法有Faster 左上角嵌人 R-CNN(towards real-time object detection with re- 点预测失量 gion proposal networks)SPP-Net(spatial pyramid 特征图右下角偏移 pooling in deep convolutional networks for visual re- 点预测 cognition)、Mask R-CNN等。双阶段检测算法 Hourglass网络首先针对输入图像选择候选区域，然后用卷积对图1 CornerNet检测模型产生的候选区域提取特征，最后对候选区域进行 Fig.1 CornerNet detection model 分类和位置回归。双阶段检测算法由于检测框与 1.1.1预测模块详细结构小目标的不匹配等问题，在进行特征提取的过程图2为左上角点的处理过程。图2中虚线框中会造成边缘信息丢失，导致检测率低下。第分为2路，2路处理过程一致，最后再用ReLu激 2类是单阶段检测方法，代表性的算法有活函数处理。2路特征图经处理后进行融合，然 SSD(single shot multiBox detector)YOLO(you 后用3×3的卷积核和批量归一处理融合后的特征 only look once)s、Retina-Net例等。单阶段算法相图，最后将处理后的特征图与骨干网络输出，并较于双阶段算法不需要计算候选框区域，直接对经1×1卷积和批量归一化处理后的特征图进行融输入图片进行回归，检测目标的类别概率和位置合，融合后的特征图进行ReLu激活函数处理，经坐标10。处理后的特征图再次进行3×3的卷积、批量归一由于特征图语义信息弱，导致小目标检测效果差。2017年Lin等提出了FPN((feature pyram- 化、ReLu激活函数处理，最后3个输出分别为热图、嵌入矢量和偏移、右下角点与左上角点处理 id networks for object detection)网络。该算法有过程一致。 2条分支，第1条分支采用自上而下网络，第2条分支采用自下而上网络。通过旁路连接将2个特左上角点池化模块 3×3 征图像融合，从而实现多尺度目标检测。本文 Conv-BN 借鉴FPN算法的核心思想，在其基础上进行改进并运用到CornerNet(detecting objects as paired key- points)算法中，用来对小目标进行检测。 1 CornerNet算法 1 Conv-BN 3×3 Conv-BN Conv l.l基于沙漏网络的CornerNet网络模型 Conv-BN-ReLu CornerNet!1模型采用沙漏网络(stacked hour- 图2角点检测模块 glass networks for human pose estimation)w作为基 Fig.2 Corner detection module

点就能轻易地判定目标的类别及位置；但计算机 “看到的”却是一个个的像素值，很难从这些像素值中抽象出目标的特征并确定目标的位置[1]。目标检测技术在日常生活中广泛应用，例如安装摄像头检测可疑人物携带的诸如作案工具等小目标，分析异常行为，从而做到对危险的预判；在智能自动驾驶中，检测前方目标并进行识别，系统作出判断并采取相应措施；在交通视频监控中，车牌、车标等小目标需要准确检测；航拍图片因为拍摄距离比较远而造成目标像素过低等等，这些问题都需要采用目标检测技术，因此，对小目标进行准确快速的检测尤为必要。小目标主要分为绝对小目标 (像素低) 和相对小目标 (相对于原图的长宽比例小)，图像大小为原图像的 0.1 倍或图像像素低于 32×32，即可认定为小目标[2]。目前主流的目标检测算法主要分为两大类。第 1 类是双阶段检测方法，代表性算法有 Faster R-CNN（towards real-time object detection with region proposal networks） [3] 、SPP-Net（spatial pyramid pooling in deep convolutional networks for visual recognition） [4] 、Mask R-CNN[5] 等。双阶段检测算法首先针对输入图像选择候选区域，然后用卷积对产生的候选区域提取特征，最后对候选区域进行分类和位置回归。双阶段检测算法由于检测框与小目标的不匹配等问题，在进行特征提取的过程中会造成边缘信息丢失，导致检测率低下 [6]。第 2 类是单阶段检测方法，代表性的算法有 SSD（single shot multiBox detector） [7] 、YOLO（you only look once） [8] 、Retina-Net[9] 等。单阶段算法相较于双阶段算法不需要计算候选框区域，直接对输入图片进行回归，检测目标的类别概率和位置坐标[10]。由于特征图语义信息弱，导致小目标检测效果差。2017 年 Lin 等 [11] 提出了 FPN(feature pyramid networks for object detection) 网络。该算法有 2 条分支，第 1 条分支采用自上而下网络，第 2 条分支采用自下而上网络。通过旁路连接将 2 个特征图像融合，从而实现多尺度目标检测[12]。本文借鉴 FPN 算法的核心思想，在其基础上进行改进并运用到 CornerNet(detecting objects as paired keypoints) 算法中，用来对小目标进行检测。 1 CornerNet 算法 1.1 基于沙漏网络的 CornerNet 网络模型 CornerNet[13] 模型采用沙漏网络（stacked hourglass networks for human pose estimation） [14] 作为基础模型，如图 1 所示。首先经过一系列降采样，将图像分辨率降低 4 倍 (文献 [13] 中输入图像大小为 511×511，输出图像大小为 128×128)，然后经过特征提取网络提取特征。该网络通过串联 2 个沙漏网络模块组成，沙漏网络模块中间用一个中继监督进行连接。每个沙漏网络模块都是先通过一系列步长为 2 的降采样操作缩小输入的大小，获得一些分辨率较低的特征，从而使计算复杂度降低，然后通过上采样恢复到输入图像大小，提高图像的分辨率，更好地预测物体的准确位置。整个沙漏网络的深度是 104 层，最后将该特征图作为 2 个预测模块的输入，预测的关键点为左上角和右下角，因此是 2 个模块输入。在每个模块里面，首先经过角池化，然后输出 3 个分支：热图、嵌入矢量和偏移。角池化热图嵌入矢量偏移特征图左上角点预测右下角点预测 Hourglass 网络图 1 CornerNet 检测模型 Fig. 1 CornerNet detection model 1.1.1 预测模块详细结构 3×3 1×1 3×3 图 2 为左上角点的处理过程。图 2 中虚线框分为 2 路，2 路处理过程一致，最后再用 ReLu 激活函数处理。2 路特征图经处理后进行融合，然后用的卷积核和批量归一处理融合后的特征图，最后将处理后的特征图与骨干网络输出，并经卷积和批量归一化处理后的特征图进行融合，融合后的特征图进行 ReLu 激活函数处理，经处理后的特征图再次进行的卷积、批量归一化、ReLu 激活函数处理，最后 3 个输出分别为热图、嵌入矢量和偏移、右下角点与左上角点处理过程一致。 Relu 左上角点池化模块热图嵌入矢量偏移骨干网络 3×3 Conv-BN 3×3 Conv-BN-ReLu 1×1 Conv-BN + + 1×1 Conv 3×3 Conv-BN 图 2 角点检测模块 Fig. 2 Corner detection module 第 1 期赵文清，等：隔级融合特征金字塔与 CornerNet 相结合的小目标检测 ·109·

1.1.2 角池化 ft ti j fl li j ti j li j 角池化通过编码来更好地定位角点。角池化层首先最大池化中在 (i,j) 与 (i,H) 之间所有的特征向量，使之成为特征向量，然后最大池化中在 (i,j) 与 (W,j) 之间所有的特征向量，使之成为。最后把和加在一起： ti j = { max( fti j , t(i+1)j ) , i < H ftH j , 其他 ti j = { max( fIi j , li(j+1) ) , j < W ltiW , 其他 (1) 1.1.3 热图热图：预测角点位置，特征图的每个通道的值表示所定位点为角点的分数： Ldet = −1 N ∑C c=1 ∑H i=1 ∑W j=1 { ( 1− pci j)α log( 1− pci j) , yci j = 1 ( 1−yci j)β ( pci j)α log( 1− pci j) , 其他 (2) pci j yci j 式 (2) 是针对角点预测的损失函数，整体上是改良版的 Focal Loss(focal loss for dense object detection)。式中：表示预测的热图在 C 类的 (i,j) 位置的值；表示位置 (i,j) 的 ground-truth； N 为图中待检测目标的数量。 1.1.4 偏移偏移：输出从输入映射到特征图的误差信息。在神经网络中存在着下采样层，因此从原始的图像输入到最后的偏移的过程会产生累计误差，因此引入偏移修正进行修正： ok = ( xk n − ⌊ xk n ⌋ , yk n − ⌊ yk n ⌋) (3) 由于输入图像到不同尺寸的特征图之间会有尺寸缩小，因此在设计特征图时 P1~P6 之间都是 2 的倍数。假设缩小倍数是 n，那么输入图像上的 (x,y) 点对应到特征图上为 (⌊ x n ⌋ , ⌊ y n ⌋) (4) 式 (4) 中的符号是向下取整，取整会带来精度丢失问题，所以通过式 (3) 计算偏移，然后通过式 (5) 的 Smooth L1 损失函数监督学习该参数： Loff = 1 N ∑N k=1 SmoothL1Loss(ok , ∧ ok) (5) 1.1.5 嵌入矢量嵌入矢量：将角点配对，如果一个左上角点和一个右下角点属于一个目标，那么它们的嵌入矢量距离较小。 etk ek ek 嵌入矢量的训练是由 2 个损失函数实现的。表示第 k 个目标的左上角角点的嵌入矢量，表示第 k 个目标的右下角角点的嵌入矢量，表 etk ek etk ek 示和的平均值。式 (6) 用来缩小属于同一个目标 (第 k 个目标)2 个角点的嵌入矢量 ( , ) 距离。式 (7) 用来扩大不属于同一个目标的 2 个角点的嵌入矢量距离。 Lpull = 1 N ∑N k=1 [(etk −ek) 2 +(ebk −ek) 2 ] (6) Lpush = 1 N(N −1) ∑N k=1 ∑N j=1 j,k max(0,∆− ek − ej ) (7) 最后的网络损失函数为式 (2)、式 (5)~(7) 相加的形式： L = Ldet +αLpull +βLpush +γLoff (8) 式中：α=β =0.1； γ =1。 1.2 FPN 网络 2017 年 Lin 等 [11] 提出了特征图金字塔算法。 FPN 算法可以将浅层与深层的特征图进行融合，利用邻近特征图的语义信息，通过融合上下 2 层的特征，得到语义信息更加丰富的特征图供后续的检测，通过融合这些不同层的特征图来达到预测效果，解决了多尺度下小目标准确检测的问题 [15]。目前很多算法都引入 FPN 模型来提高其检测率，例如，文献 [16] 在 SSD 算法中引入 FPN 算法，在 PASCAL VOC 2007 数据集上平均准确率较 SSD 提高 1.7%；文献 [17] 在 YOLO V3 算法中引入 FPN 算法，在 PASCAL VOC 2007 数据集上平均准确率较 YOLO V3 提高 1.58%；事实表明单一特征检测的算法引入 FPN 后平均准确率有较大提升。浅层特征图虽然具有较少的语义信息，但是保留较为准确的位置信息，而在小目标检测中，小目标对于位置的敏感度要远远大于大目标。同时，对于深层的特征图随着特征图的下采样过多导致在深层特征图丰富的语义信息中保留了大目标的特征而丢失了小目标的特征信息。文献 [13] 中 CornerNet 仅是对一张特征图进行检测，其忽略了浅层特征，导致小目标效果检测不是很理想。初期为了验证引入 FPN 算法的有效性，在骨干网络输出一张特征图的基础上，增加一个浅层特征图形成 2 路分支供检测，发现准确率有所提升，从而验证本文想法的正确性。本文基于 FPN 思想，充分利用 CornerNet 骨干网络输出的浅层特征图与深层特征图进行融合，形成语义信息更加丰富的 4 层与 6 层特征金字塔供检测，进而提升准确率。 2 隔级融合特征金字塔与 CornerNet 相结合的小目标检测模型 CornerNet 模型采用 Hourglass 作为其骨干网 ·110· 智能系统学报第 16 卷

第1期赵文清，等：隔级融合特征金字塔与CornerNet相结合的小目标检测 ·111 络，只用该网络的最后输出图作检测。虽然特征 2次卷积，目的是使得可供检测的特征图尺度更图语义信息比较丰富，但是日标位置不精准。由加丰富。本文基于其再次进行卷积的思想，将特于小目标尺寸过小，极易与背景融合，导致小目征金字塔中尺寸最小的特征图进行2次卷积，进标检测率低下u。针对CornerNet算法对小目标而得到更多尺度的特征图为隔级融合做准备，最检测出现漏检误检的问题，本文将骨干网络部分后将对组成特征金字塔的特征图进行隔级融合、语义信息丰富且尺寸不同的特征图提取出来。上下融合、旁路连接，融合后的特征图语义信息 FCOS(fully convolutional one-stage object 更加丰富。 detection)算法同样是无框检测，该算法在引入图3为本文提出的隔级融合特征金字塔与特征金字塔的基础上对最小的特征图又进行了 CornerNet结合的小目标检测模型。 ·特征图角池化 8×8 +;征图左上角点热图 C416×16 ·特征图 Prediction 嵌人 16×16 Hourglass网络矢量 C32×32 32×32 特征图偏移 C 64×64 Prediction 64×64 →特征图右下角点 C 128×128 128×128特征图骨干网络隔级融合特征金字塔预测模块图3隔级融合特征金字塔与CornerNet结合的小目标模型 Fig.3 Small target model based on the combination of connected feature pyramid and CornerNet 2.1改进后的沙漏网络后进行上采样（蓝色方块），上采样之后将特征图图4为一个沙漏网络模块，内部大多采用残与上一个支路处理后的特征图进行融合，融合后差网络的残差块进行特征提取。过程如下：对输再经过一个残差块进行特征提取，2次下采样之入的特征图进行一系列的下采样（红色方块），下间有3个残差模块进行特征提取。C1~C4是提取采样前分出一条之路保留上采样前的特征图，然出来的特征图，为隔级融合特征金字塔做准备。四题☒卧四-图-四图卧四卧Ⅲ-0下-团+60+且$-日6-0-固-61 |残差块☒Pooling layer且上采样（双线性内插法）图4沙漏网络模型 Fig.4 Hourglass network model 图5为2种残差模块示意图。CornerNet中的不使用1×1卷积，参考图5(a),假设同样输入3×3× 沙漏网络的残差块采用图5(a)基本块，其由2个 128的特征图，第1步经过128个3×3卷积核，第 3×3卷积组成。由于改进后的网络添加了特征金 2步再经过128个3×3卷积核对特征图进行卷积。字塔，导致整个模型推理速度变慢，因此本文骨整体过程的参数数目为3×3×128×128×2=294912。干网络中的残差模块采用图5b)中的瓶颈块。 2种不同情况，参数数目相差5.5倍。因此，改进采用图5(b)瓶颈块的残差模块，假设输入是后的沙漏网络在保证准确度的前提下，参数量大一个3×3×128的特征图，首先采用64个1×1的卷为减少，推理速度变快。积将128通道的特征图降到64通道，然后用 2.2隔级融合特征金字塔模型 3×3卷积进行特征提取，最后通过1×1卷积将特在卷积神经网络中，网络越深，特征图拥有的征图恢复到128通道。此过程涉及的参数数目为抽象特征信息就越多。因此运用隔级连接来融合 1×1×128×64+3×3×64×64+1×1×64×128=53248。如高层与低层的特征图，融合出语义信息更丰富的

络，只用该网络的最后输出图作检测。虽然特征图语义信息比较丰富，但是目标位置不精准。由于小目标尺寸过小，极易与背景融合，导致小目标检测率低下[18]。针对 CornerNet 算法对小目标检测出现漏检误检的问题，本文将骨干网络部分语义信息丰富且尺寸不同的特征图提取出来。 FCOS(fully convolutional one-stage object detection)[19] 算法同样是无框检测，该算法在引入特征金字塔的基础上对最小的特征图又进行了 2 次卷积，目的是使得可供检测的特征图尺度更加丰富。本文基于其再次进行卷积的思想，将特征金字塔中尺寸最小的特征图进行 2 次卷积，进而得到更多尺度的特征图为隔级融合做准备，最后将对组成特征金字塔的特征图进行隔级融合、上下融合、旁路连接，融合后的特征图语义信息更加丰富。图 3 为本文提出的隔级融合特征金字塔与 CornerNet 结合的小目标检测模型。 Hourglass 网络 P6 P5 P4 P3 P2 P1 C4 C3 C2 C1 特征图特征图特征图特征图特征图特征图 Prediction Prediction 角池化热图嵌入矢量偏移左上角点右下角点骨干网络隔级融合特征金字塔预测模块 128×128 64×64 32×32 16×16 8×8 16×16 32×32 64×64 128×128 4×4 图 3 隔级融合特征金字塔与 CornerNet 结合的小目标模型 Fig. 3 Small target model based on the combination of connected feature pyramid and CornerNet 2.1 改进后的沙漏网络图 4 为一个沙漏网络模块，内部大多采用残差网络的残差块进行特征提取。过程如下：对输入的特征图进行一系列的下采样 (红色方块)，下采样前分出一条之路保留上采样前的特征图，然后进行上采样 (蓝色方块)，上采样之后将特征图与上一个支路处理后的特征图进行融合，融合后再经过一个残差块进行特征提取，2 次下采样之间有 3 个残差模块进行特征提取。C1~C4 是提取出来的特征图，为隔级融合特征金字塔做准备。 / 2 / 2 / 2 / 2 / 2 * 2 * 2 * 2 * 2 * 输入 2 残差块 Pooling layer 上采样 (双线性内插法) 图 4 沙漏网络模型 Fig. 4 Hourglass network model 图 5 为 2 种残差模块示意图。CornerNet 中的沙漏网络的残差块采用图 5(a) 基本块，其由 2 个 3×3 卷积组成。由于改进后的网络添加了特征金字塔，导致整个模型推理速度变慢，因此本文骨干网络中的残差模块采用图 5(b) 中的瓶颈块。采用图 5(b) 瓶颈块的残差模块，假设输入是一个 3×3×128 的特征图，首先采用 64 个 1×1 的卷积将 128 通道的特征图降到 64 通道，然后用 3×3 卷积进行特征提取，最后通过 1×1 卷积将特征图恢复到 128 通道。此过程涉及的参数数目为 1×1×128×64+3×3×64×64+1×1×64×128=53 248。如不使用 1×1 卷积，参考图 5(a)，假设同样输入 3×3× 128 的特征图，第 1 步经过 128 个 3×3 卷积核，第 2 步再经过 128 个 3×3 卷积核对特征图进行卷积。整体过程的参数数目为 3×3×128×128×2=294 912。 2 种不同情况，参数数目相差 5.5 倍。因此，改进后的沙漏网络在保证准确度的前提下，参数量大为减少，推理速度变快。 2.2 隔级融合特征金字塔模型在卷积神经网络中，网络越深，特征图拥有的抽象特征信息就越多。因此运用隔级连接来融合高层与低层的特征图，融合出语义信息更丰富的第 1 期赵文清，等：隔级融合特征金字塔与 CornerNet 相结合的小目标检测 ·111·

·112· 智能系统学报第16卷特征图，不仅能融合不同特征图的尺度信息，还特征图：C1、C2、C3、C4,其尺寸大小分别为能有效融合高低层的细节信息。图6为隔级融 128×128、64×64、32×32、16×16,如图6所示。合特征金字塔模型。图6中骨干网络是沙漏网络，特征金字塔分 1×1,64 3×3.256 为3部分：自底向上部分（红色框左半部分），中间 Relu Relu 3×3,64 连接部分（通过尺寸大小为1×1、通道为256的卷 3×3,256 Relu 积核对特征图进行卷积)，隔级连接与特征融合部 1×1,256 分（红色框右半部分）。 I Relu Relu 具体步骤如下： (a)基本块 (b)瓶颈块 CornerNet骨干网络由2个沙漏网络组成。图5残差模块从第2个沙漏网络后半部分中提取出不同尺寸的 Fig.5 Residual module 隔级融合特征金字塔特征图特征图 C416×16 特征图 16×16 沙漏网络 C332×32 32×32 特征图 C 64×64 特征图 64×64 128×128 特征图 128×128 骨干网绍隔级融合特征金字塔 ☐1×1×256 8×up 1×1Conw 图6隔级融合特征金字塔模型 Fig.6 Pyramid model of feature fusion P,就是C(文献[13]在预处理时已经将通道图、嵌入矢量和偏移，3个分支。卷积成256，所以不用做任何操作)。P是由P4经热图负责预测角点位置，嵌入矢量负责将角过卷积核尺寸为3×3步长为2卷积得到，尺寸大点进行配对，偏移进行位置修订。小为8×8；P6由P,经过卷积核尺寸为3×3步长为 2再次进行卷积得到，尺寸大小为4×4，目的是为 3 实验及结果分析获得深层更加鲁棒的语义信息，为接下来的隔层本文实验使用的操作系统为Ubuntu16.04LTS, 连接做准备。首先P。运用双线性内插法进行上采样，将其 GPU为NVIDIA GeForce RTX2080Ti,深度学习框尺度扩大到32×32，P,运用双线性内插法进行上架为pytorchl.0。采样，将其尺度扩大到32×32；然后用尺寸大小为 3.1实验数据集 1×1的卷积核改变C,的通道，使其通道数与P 为了避免过拟合，本文先采用VOC2007的部保持一致；最后将处理后的3个特征图相加得到分数据集进行预训练，然后再采用与CornerNet相特征图P(如图蓝色虚线框)并采用3×3卷积核对同的MS COCo数据集进行实验。MS Coco2 其卷积，目的是消除特征图的混叠效应。P、P2 数据集有80类，包含80K的训练集、40K的验证特征图的得到的流程与P3流程一致。集以及20K的测试集。对特征图P~P,每一个特征图有2个模块： 3.2评价指标左上角和右下角的预测模块，2个模块的结构相本文目的是提升CornerNet算法的小目标准同，每个预测模块中先经过角池化，然后输出热确率，因此选取MS COCO最重要的评价指标

特征图，不仅能融合不同特征图的尺度信息，还能有效融合高低层的细节信息[20]。图 6 为隔级融合特征金字塔模型。图 6 中骨干网络是沙漏网络，特征金字塔分为 3 部分：自底向上部分 (红色框左半部分)，中间连接部分 (通过尺寸大小为 1×1、通道为 256 的卷积核对特征图进行卷积)，隔级连接与特征融合部分 (红色框右半部分)。具体步骤如下： CornerNet 骨干网络由 2 个沙漏网络组成。从第 2 个沙漏网络后半部分中提取出不同尺寸的特征图： C1、 C2、 C3、 C4 ，其尺寸大小分别为 128×128、64×64、32×32、16×16，如图 6 所示。 (a) 基本块 (b) 瓶颈块 Relu Relu 3×3, 256 3×3, 256 Relu Relu Relu 1×1, 64 3×3, 64 1×1, 256 图 5 残差模块 Fig. 5 Residual module 沙漏网络 P6 P5 P4 P3 P2 P1 C4 C3 C2 C1 特征图特征图特征图特征图特征图特征图隔级融合特征金字塔 2×up 8×up 骨干网络隔级融合特征金字塔 16×16 32×32 64×64 128×128 1×1×256 4×4 8×8 16×16 32×32 64×64 128×128 + 1×1 Conv 图 6 隔级融合特征金字塔模型 Fig. 6 Pyramid model of feature fusion P4 就是 C4 (文献 [13] 在预处理时已经将通道卷积成 256，所以不用做任何操作)。P5 是由 P4 经过卷积核尺寸为 3×3 步长为 2 卷积得到，尺寸大小为 8×8；P6 由 P5 经过卷积核尺寸为 3×3 步长为 2 再次进行卷积得到，尺寸大小为 4×4，目的是为获得深层更加鲁棒的语义信息，为接下来的隔层连接做准备。首先 P6 运用双线性内插法进行上采样，将其尺度扩大到 32×32，P4 运用双线性内插法进行上采样，将其尺度扩大到 32×32；然后用尺寸大小为 1×1 的卷积核改变 C3 的通道，使其通道数与 P4 保持一致；最后将处理后的 3 个特征图相加得到特征图 P3 (如图蓝色虚线框) 并采用 3×3 卷积核对其卷积，目的是消除特征图的混叠效应。P1、P2 特征图的得到的流程与 P3 流程一致。对特征图 P1~P6，每一个特征图有 2 个模块：左上角和右下角的预测模块，2 个模块的结构相同，每个预测模块中先经过角池化，然后输出热图、嵌入矢量和偏移，3 个分支。热图负责预测角点位置，嵌入矢量负责将角点进行配对，偏移进行位置修订。 3 实验及结果分析本文实验使用的操作系统为 Ubuntu 16.04LTS， GPU 为 NVIDIA GeForce RTX 2080Ti，深度学习框架为 pytorch1.0。 3.1 实验数据集为了避免过拟合，本文先采用 VOC2007 的部分数据集进行预训练，然后再采用与 CornerNet 相同的 MS COCO 数据集进行实验。MS COCO[21] 数据集有 80 类，包含 80 K 的训练集、40 K 的验证集以及 20 K 的测试集。 3.2 评价指标本文目的是提升 CornerNet 算法的小目标准确率，因此选取 MS COCO 最重要的评价指标 ·112· 智能系统学报第 16 卷

第1期赵文清，等：隔级融合特征金字塔与CornerNet相结合的小目标检测 ·113· APS(小目标准确率)和AP(平均准确率)。该数据为主要评价指标，以传统CornerNet算法作为基准集规定目标小于32×32即为小目标，其评价指标方法，对模型各部分改进前后的效果进行比较和为APS。MS COCO数据集的评价指标跟其他数分析。FPN(6)参数设置方面，首先动量参数和权据集评价指标有所不同，在MS COCO数据集中重衰减分别设为0.9和0.0005，鉴于硬件设施的 AP表示在各种阈值下的平均准确率，默认AP就局限性，批次设置为16，学习率设置为0.00025， mAP,mAP @.5IoU=AP @.5IoU,mAP @.75IoU= 训练230K次，再降低10倍学习率，训练60K AP@.75IoU,以此类推。P-R曲线指的是Preci- 次，当迭代290K次时模型达到稳定。由于 sion Recall(准确率-召回率)曲线。准确率：正确 FPN(4)与FPN(6)采用相同的骨干网络，因此将检测为正占全部检测为正的比例；召回率：正确 FPN(6)训练好的骨干网络参数导出并迁移到检测为正占全部正样本的比例。TP:样本为正， FPN(4)的骨干网络上，动量参数和权重衰减分别预测结果为正；FP:样本为负，预测结果为正；TN: 设为0.9和0.0005，批次设置为16，学习率设置为样本为负，预测结果为负：FN:样本为正，预测结 0.00025.训练120K次，再降低10倍学习率，训练果为负，则准确率为TP/(TP+FP),召回率为TP/ 30K次，当迭代150K次时模型达到稳定。 (TP+FN)。对于每一个阈值()都会有相应的P- I)FPN层数对识别结果的影响 R曲线，对该曲线做积分（曲线下面的面积）即为传统的CornerNet算法仅对沙漏网络输出的在该阈值下的AP,值，在MS COCO数据集中阈一张特征图进行检测，本文引入FPN并进行隔级值一共有10个，从IoU=0.5开始每次增加0.05直融合得到多张语义信息丰富的特征图供检测。本到IoU1o=0.95,每一个阈值都有其相对应的AP,数文实验的模型有2个，一个是对P~P4,4个特征值，最后将10个AP,值累加除以10即为S COCO 图进行检测，如图7红色实框所示；另一个是评价指标AP。 P~P6,6个特征图进行检测，如图8红色实框所 3.3实验结果示。通过对比2个模型最终平均准确率与小目标本文以沙漏网络作为CornerNet的骨干网络，检测准确率，得出层数对准确率影响的相关采用平均准确率(AP)和小目标准确率(APS)作结论。隔级融合特征金字塔模块 (P-P) 14 8×8 C416×16 16×16 特征图沙漏网络 32×32 32×32 特征图 64×64 64×64 特征图 128×128 P 128×128特征图骨干网络 ☐1×1×256 图7隔级融合特征金字塔(P~P) Fig.7 Feature pyramid of interval fusion(PP) P,、P。是由P4单纯进行卷积得到的特征图， 2)实验结果及对比这2个特征图是为隔级融合做准备的：但是在对本文对当前主流的FPN进行了改进，将隔级这2个特征图进行检测时发现效果良好。表1为融合特征金字塔引人CornerNet算法中。进行实 2种模型的实验结果。验的模型有2个，一是对P~P4,4个特征图进行由表1可以看出，6层特征金字塔的平均准检测；另一个是P~P66个特征图进行检测。表2 确率比4层特征金字塔高0.8%，小目标检测准确为本文的实验结果和其他网络检测结果的对比。率高09%。数据结果表明，P、P。对目标准确率本文骨干网络采用沙漏网络，与残差网络系改善较为明显。列相比，沙漏网络能使待检测特征图的语义更加

APS(小目标准确率) 和 AP(平均准确率)。该数据集规定目标小于 32×32 即为小目标，其评价指标为 APS。MS COCO 数据集的评价指标跟其他数据集评价指标有所不同，在 MS COCO 数据集中 AP 表示在各种阈值下的平均准确率，默认 AP 就是 mAP，mAP @.5IoU=AP @.5IoU, mAP @.75IoU = AP@.75 IoU，以此类推。P-R 曲线指的是 Precision Recall(准确率−召回率) 曲线。准确率：正确检测为正占全部检测为正的比例；召回率：正确检测为正占全部正样本的比例。TP：样本为正，预测结果为正；FP：样本为负，预测结果为正；TN：样本为负，预测结果为负；FN：样本为正，预测结果为负，则准确率为 TP / (TP+FP)，召回率为 TP / (TP+FN)。对于每一个阈值 (i) 都会有相应的 PR 曲线，对该曲线做积分 (曲线下面的面积) 即为在该阈值下的 APi 值，在 MS COCO 数据集中阈值一共有 10 个，从 IoU1=0.5 开始每次增加 0.05 直到 IoU10=0.95，每一个阈值都有其相对应的 APi 数值，最后将 10 个 APi 值累加除以 10 即为 MS COCO 评价指标 AP。 3.3 实验结果本文以沙漏网络作为 CornerNet 的骨干网络，采用平均准确率 (AP) 和小目标准确率 (APS) 作为主要评价指标，以传统 CornerNet 算法作为基准方法，对模型各部分改进前后的效果进行比较和分析。FPN(6) 参数设置方面，首先动量参数和权重衰减分别设为 0.9 和 0.000 5，鉴于硬件设施的局限性，批次设置为 16，学习率设置为 0.000 25，训练 230 K 次，再降低 10 倍学习率，训练 60 K 次，当迭代 290 K 次时模型达到稳定。由于 FPN(4) 与 FPN(6) 采用相同的骨干网络，因此将 FPN(6) 训练好的骨干网络参数导出并迁移到 FPN(4) 的骨干网络上，动量参数和权重衰减分别设为 0.9 和 0.000 5，批次设置为 16，学习率设置为 0.000 25,训练 120 K 次，再降低 10 倍学习率，训练 30 K 次，当迭代 150 K 次时模型达到稳定。 1)FPN 层数对识别结果的影响传统的 CornerNet 算法仅对沙漏网络输出的一张特征图进行检测，本文引入 FPN 并进行隔级融合得到多张语义信息丰富的特征图供检测。本文实验的模型有 2 个，一个是对 P1~P4，4 个特征图进行检测，如图 7 红色实框所示；另一个是 P1~P6，6 个特征图进行检测，如图 8 红色实框所示。通过对比 2 个模型最终平均准确率与小目标检测准确率，得出层数对准确率影响的相关结论。骨干网络隔级融合特征金字塔 C4 C3 C2 C1 16×16 32×32 64×64 128×128 沙漏网络 1×1×256 隔级融合特征金字塔模块 (P1~P4 ) P6 P5 P4 P3 P2 P1 4×4 8×8 16×16 32×32 64×64 128×128 特征图特征图特征图特征图图 7 隔级融合特征金字塔 (P1~P4 ) Fig. 7 Feature pyramid of interval fusion (P1~P4 ) P5、P6 是由 P4 单纯进行卷积得到的特征图，这 2 个特征图是为隔级融合做准备的；但是在对这 2 个特征图进行检测时发现效果良好。表 1 为 2 种模型的实验结果。由表 1 可以看出，6 层特征金字塔的平均准确率比 4 层特征金字塔高 0.8%，小目标检测准确率高 0.9%。数据结果表明，P5、P6 对目标准确率改善较为明显。 2) 实验结果及对比本文对当前主流的 FPN 进行了改进，将隔级融合特征金字塔引入 CornerNet 算法中。进行实验的模型有 2 个，一是对 P1~P4，4 个特征图进行检测；另一个是 P1~P6，6 个特征图进行检测。表 2 为本文的实验结果和其他网络检测结果的对比。本文骨干网络采用沙漏网络，与残差网络系列相比，沙漏网络能使待检测特征图的语义更加第 1 期赵文清，等：隔级融合特征金字塔与 CornerNet 相结合的小目标检测 ·113·

·114… 智能系统学报第16卷丰富。通过对比结果可以看出，CornerNet模型中 44.3%,较CornerNet算法提高3.7%。FPN(6)在小引入隔级融合特征金字塔对准确度有较好地提目标准确率上较CornerNet算法提高4.2%。高；FPN(4)平均准确率为43.5%，较CornerNet算 FPN(6)与一阶段系列代表SSD513对比，平均准法提高2.9%；FPN(4)在小目标准确率上较Corner- 确率提高13.1%，与二阶段系列代表Faster R-CNN Net算法提高2.9%。FPN(6)平均准确率为 wFPN对比，平均准确率提高8.1%。隔级融合特征金字塔模块 (P-Ps) 特征图 4×4 8×8 特征图 C416×16 16×16 特征图沙漏网络 C32×32 P 32×32 特征图 64×64 64×64 特征图 C 128×128 128x128特证图骨干网路隔级融合特征金字塔 ☐1×1×256 图8隔级融合特征金字塔(P1P6) Fig.8 Feature pyramid of interval fusion(PP) 表1 MS COCO数据集不同FPN层数检测准确率数据结果表明，引入隔级融合特征金字塔对 Table 1 Detection accuracy of different FPN layers in MS COCO dataset % 小目标准确率的提高有较大作用。相较于其他算法，本算法模型的主要特点是待检测的特征图语方法网络 AP0.50.95 APS 义信息更加丰富。无论是Faster R-CNN系列算法本文模型 Hourglass-104-FPN(4) 43.5 22.4 还是RetinaNet算法，尽管都采用了FPN,但是由于语义信息不够丰富，导致算法在小目标检测准本文模型 Hourglass-104-FPN(6) 44.3 23.3 确率以及平均准确率方面并不是很出色。隔级融表2 MS COC0数据集不同算法检测准确率对比合特征金字塔运用在其他算法上可能也会提高检 Table 2 Comparison of detection accuracy of different 测准确率。 algorithms in MS COCO dataset % 为验证本文算法检测小目标的有效性，挑选了含有被云遮盖、边缘信息模糊、目标相对较小方法网络 APo.5:0.95 APS 的图进行了测试对比。通过图9、10可以看出， YOLO v2 DarkNet-19 21.6 5.0 隔级融合特征金字塔与CornerNet相结合的算法 SSD513 模型对物体的识别置信度更高、定位更加准确， ResNet-101-SSD 31.2 10.2 并且能够识别出不易被人眼察觉的小目标，特别 DSSD513 ResNet-101-DSSD 33.2 13.0 是对背景复杂、遮挡、目标尺寸较小等因素造成 Faster R-CNN+++ ResNet-101 34.9 15.6 的漏检，改善效果较为显著四。 Faster R-CNN w FPN ResNet-101-FPN 36.2 18.2 Mask R-cnn ResNeXt-101 39.8 22.1 RetinaNet ResNet-101-FPN 39.1 21.8 CornerNet511 Hourglass-104 40.6 19.1 本文模型 Hourglass-104-FPN(4) 43.5 22.4 本文模型图9传统CornerNet识别结果 Hourglass-104-FPN(6) 44.323.3 Fig.9 Recognition results of traditional CornerNet

丰富。通过对比结果可以看出，CornerNet 模型中引入隔级融合特征金字塔对准确度有较好地提高；FPN(4) 平均准确率为 43.5%，较 CornerNet 算法提高 2.9%；FPN(4) 在小目标准确率上较 CornerN e t 算法提高 2.9%。 FPN(6 ) 平均准确率为 44.3%，较 CornerNet 算法提高 3.7%。FPN(6) 在小目标准确率上较 CornerNe t 算法提高 4.2%。 FPN(6) 与一阶段系列代表 SSD513 对比，平均准确率提高 13.1%，与二阶段系列代表 Faster R-CNN w FPN 对比，平均准确率提高 8.1%。特征图特征图特征图骨干网络隔级融合特征金字塔沙漏网络 1×1×256 隔级融合特征金字塔模块 (P1~P6) C4 C3 16×16 32×32 C2 64×64 C1 128×128 P6 P5 P4 P3 P2 P1 4×4 8×8 16×16 32×32 64×64 128×128 特征图特征图特征图图 8 隔级融合特征金字塔 (P1~P6 ) Fig. 8 Feature pyramid of interval fusion (P1~P6 ) 表 1 MS COCO 数据集不同 FPN 层数检测准确率 Table 1 Detection accuracy of different FPN layers in MS COCO dataset % 方法网络 AP0.5:0.95 APS 本文模型 Hourglass-104-FPN(4) 43.5 22.4 本文模型 Hourglass-104-FPN(6) 44.3 23.3 表 2 MS COCO 数据集不同算法检测准确率对比 Table 2 Comparison of detection accuracy of different algorithms in MS COCO dataset % 方法网络 AP0.5:0.95 APS YOLO v2 DarkNet-19 21.6 5.0 SSD513 ResNet-101-SSD 31.2 10.2 DSSD513 ResNet-101-DSSD 33.2 13.0 Faster R-CNN+++ ResNet-101 34.9 15.6 Faster R-CNN w FPN ResNet-101-FPN 36.2 18.2 Mask R-cnn ResNeXt-101 39.8 22.1 RetinaNet ResNet-101-FPN 39.1 21.8 CornerNet511 Hourglass-104 40.6 19.1 本文模型 Hourglass-104-FPN(4) 43.5 22.4 本文模型 Hourglass-104-FPN(6) 44.3 23.3 数据结果表明，引入隔级融合特征金字塔对小目标准确率的提高有较大作用。相较于其他算法，本算法模型的主要特点是待检测的特征图语义信息更加丰富。无论是 Faster R-CNN 系列算法还是 RetinaNet 算法，尽管都采用了 FPN，但是由于语义信息不够丰富，导致算法在小目标检测准确率以及平均准确率方面并不是很出色。隔级融合特征金字塔运用在其他算法上可能也会提高检测准确率。为验证本文算法检测小目标的有效性，挑选了含有被云遮盖、边缘信息模糊、目标相对较小的图进行了测试对比。通过图 9、10 可以看出，隔级融合特征金字塔与 CornerNet 相结合的算法模型对物体的识别置信度更高、定位更加准确，并且能够识别出不易被人眼察觉的小目标，特别是对背景复杂、遮挡、目标尺寸较小等因素造成的漏检，改善效果较为显著[22]。图 9 传统 CornerNet 识别结果 Fig. 9 Recognition results of traditional CornerNet ·114· 智能系统学报第 16 卷

第1期赵文清，等：隔级融合特征金字塔与CornerNet相结合的小目标检测 ·115· CNN[C]//Proceedings of 2017 IEEE International Confer- ence on Computer Vision.Venice,Italy,2017:2961-2969. [6]段仲静，李少波，胡建军，等.深度学习目标检测方法及主流框架综述.激光与光电子学进展，2020,57(12：1- 16. DUAN Zhongjing,LI Shaobo,HU Jianjun,et al.Review of deep learning target detection methods and mainstream 图10改进后模型识别结果 frameworks [J].Progress in laser and optoelectronics, Fig.10 Improved model recognition results 2020,57(12):1-16. [7]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single 4结束语 shot multibox detector[Cl//Proceedings of 14th European 针对CornerNet模型对小目标检测平均准确 Conference on Computer Vision.Amsterdam,The Nether- 率低的问题，提出了一种隔级融合特征金字塔与 lands.2016:21-37. CornerNet相结合的识别方法，骨干网络Hour- [8]REDMON J,DIVVALA S,GIRSHICK R,et al.You only glass中引入参数量更小的瓶颈残差模块以缩短 look once:unified,real-time object detection[Cl//Proceed- 网络的推理时间。与传统的特征金字塔旁路连 ings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,USA,2016:779-788 接、上下融合不同，引入隔级融合特征金字塔，得 [9]LIN T Y.GOYAL P.GIRSHICK R.et al.Focal loss for 到语义信息更丰富的多尺度特征图。经过实验对 dense object detection[C]//Proceedings of 2017 IEEE In- 比，本文4层FPN模型与6层FPN模型相较于传 ternational Conference on Computer Vision.Venice. 统CornerNet算法具有较好的定位和识别准确度， taly,2017:2980-2988. 尤其是6层FPN模型较传统CornerNet算法在小 [10]刘俊明，孟卫华.基于深度学习的单阶段目标检测算法目标准确率方面提高4.2%，平均准确率方面提高研究综述[).航空兵器，2020,27(3)：44-53 3.7%,表明了本文所提出模型的有效性。 LIU Junming,MENG Weihua.Review of single-stage 参考文献： target detection algorithm based on deep learning [J]. AERO weapons,2020,27(3):44-53 [1]赵永强，饶元，董世鹏，等.深度学习目标检测方法综 [11]LIN T Y,DOLLAR P,GIRSHICK R,et al.Feature pyr- 述[.中国图象图形学报，2020,25(4)：629-654。 amid networks for object detection[Cl//Proceedings of ZHAO Yongqiang,RAO Yuan,DONG Shipeng,et al.Sur- 2017IEEE Conference on Computer Vision and Pattern vey on deep learning object detection[J.Journal of image Recognition.Honolulu,USA,2017:2117-2125. and graphics,.2020,25(4):629-654. [12]陈景明，金杰，王伟锋.基于特征金字塔网络的改进算 [2]赵文清，周震东，翟永杰.基于反卷积和特征融合的法).激光与光电子学进展，2019,56(21)：165-170. SSD小目标检测算法U.智能系统学报，2020,15(2)： CHEN Jingming,JIN Jie,WANG Weifeng.Improved al- 310-316. gorithm based on characteristic pyramid network[].Laser ZHAO Wenqing,ZHOU Zhendong,ZHAI Yongjie.SSD and optoelectronics progress,2019,56(21):165-170. small target detection algorithm based on deconvolution [13]LAW H,DENG Jia.CornerNet:detecting objects as and feature fusion [J].CAAI transactions on intelligent paired keypoints[C]//Proceedings of the 15th European systems..2020,15(2):310-316. Conference on Computer Vision(ECCV).Munich,Ger- [3]GIRSHICK R.Fast R-CNN[C]//Proceedings of 2015 IEEE many,2018:734-750. International Conference on Computer Vision.Santiago, [14]NEWELL A,YANG Kaiyu,DENG Jia.Stacked hour- Chile.2015:1440-1448 glass networks for human pose estimation[C]//Proceed- [4]HE K,ZHANG X,REN S,et al.Spatial pyramid pooling ings of the 14th European Conference on Computer Vis- in deep convolutional networks for visual recognition[J]. ion.Amsterdam,The Netherlands,2016:483-499. IEEE transactions on pattern analysis and machine intelli- [15]和超，张印辉，何自芬.多尺度特征融合工件目标语义 gence,.2015,37(9)1904-1916. 分割U.中国图象图形学报，2020,25(3少476-485. [5]HE Kaiming,GKIOXARI G,DOLLAR P,et al.Mask R- HE Chao,ZHANG Yinhui,HE Zifen.Multi scale feature

图 10 改进后模型识别结果 Fig. 10 Improved model recognition results 4 结束语针对 CornerNet 模型对小目标检测平均准确率低的问题，提出了一种隔级融合特征金字塔与 CornerNet 相结合的识别方法，骨干网络 Hourglass 中引入参数量更小的瓶颈残差模块以缩短网络的推理时间。与传统的特征金字塔旁路连接、上下融合不同，引入隔级融合特征金字塔，得到语义信息更丰富的多尺度特征图。经过实验对比，本文 4 层 FPN 模型与 6 层 FPN 模型相较于传统 CornerNet 算法具有较好的定位和识别准确度，尤其是 6 层 FPN 模型较传统 CornerNet 算法在小目标准确率方面提高 4.2%，平均准确率方面提高 3.7%，表明了本文所提出模型的有效性。参考文献：赵永强, 饶元, 董世鹏,等. 深度学习目标检测方法综述 [J]. 中国图象图形学报, 2020, 25(4): 629–654. ZHAO Yongqiang, RAO Yuan, DONG Shipeng, et al. Survey on deep learning object detection[J]. Journal of image and graphics, 2020, 25(4): 629–654. [1] 赵文清, 周震东, 翟永杰. 基于反卷积和特征融合的 SSD 小目标检测算法 [J]. 智能系统学报, 2020, 15(2): 310−316. ZHAO Wenqing, ZHOU Zhendong, ZHAI Yongjie. SSD small target detection algorithm based on deconvolution and feature fusion [J]. CAAI transactions on intelligent systems, 2020, 15(2): 310−316. [2] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1440−1448. [3] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904−1916. [4] [5] HE Kaiming, GKIOXARI G, DOLLÁR P, et al. Mask RCNN[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2961−2969. 段仲静, 李少波, 胡建军, 等. 深度学习目标检测方法及主流框架综述 [J]. 激光与光电子学进展, 2020, 57(12):1- 16. DUAN Zhongjing, LI Shaobo, HU Jianjun,et al. Review of deep learning target detection methods and mainstream frameworks [J]. Progress in laser and optoelectronics, 2020, 57(12): 1-16. [6] LIU Wei, ANGUELOV D, ERHAN D, et al.SSD: single shot multibox detector[C]//Proceedings of 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 21−37. [7] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 779−788. [8] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2980−2988. [9] 刘俊明, 孟卫华. 基于深度学习的单阶段目标检测算法研究综述 [J]. 航空兵器, 2020, 27(3): 44−53. LIU Junming, MENG Weihua. Review of single-stage target detection algorithm based on deep learning [J ]. AERO weapons, 2020, 27(3): 44−53. [10] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 2117−2125. [11] 陈景明, 金杰, 王伟锋. 基于特征金字塔网络的改进算法 [J]. 激光与光电子学进展, 2019, 56(21): 165–170. CHEN Jingming, JIN Jie, WANG Weifeng. Improved algorithm based on characteristic pyramid network[J]. Laser and optoelectronics progress, 2019, 56(21): 165–170. [12] LAW H, DENG Jia. CornerNet: detecting objects as paired keypoints[C]//Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany, 2018: 734−750. [13] NEWELL A, YANG Kaiyu, DENG Jia. Stacked hourglass networks for human pose estimation[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 483−499. [14] 和超, 张印辉, 何自芬. 多尺度特征融合工件目标语义分割 [J]. 中国图象图形学报, 2020, 25(3): 476–485. HE Chao, ZHANG Yinhui, HE Zifen. Multi scale feature [15] 第 1 期赵文清，等：隔级融合特征金字塔与 CornerNet 相结合的小目标检测 ·115·

·116· 智能系统学报第16卷 fusion for object semantic segmentation[J].Journal of im- 31(7):1095-1101 age and graphic,2020,25(3):476-485 [21]LIN T Y.MAIRE M.BELONGIE S,et al.Microsoft [16]CAO Guimei.XIE Xuemei.YANG Wenzhe.et al.Fea- COCO:common objects in context[C]//Proceedings of ture-fused SSD:fast detection for small objects[Cl//Pro- the 13th European Conference on Computer Vision. ceedings of SPIE 10615,Ninth International Conference Zurich,Switzerland,2014:740-755. on Graphic and Image Processing.Qingdao,China,2018: [22]李航，朱明.基于深度卷积神经网络的小目标检测算 106151E. 法).计算机工程与科学，2020,42(4649-657. [17刀鞠默然，罗江宁，王仲博，等.一种融合注意力机制的多 LI Hang,ZHU Ming.A small object detection algorithm 尺度目标检测算法[J].光学学报，2020,40(13)： based on deep convolutional neural network[J].Com- 126-134 puter engineering and science,2020,42(4):649-657. JU Moran,LUO Jiangning,WANG Zhongbo,et al. 作者简介： Multi-scale target detection algorithm based on attention 赵文清，教授，主要研究方向为人 mechanism[J].Acta optica sinica,2020,40(13):126-134. 工智能与图像处理，主持或参与国家 [18]王慧玲，綦小龙，武港山.基于深度卷积神经网络的目自然科学基金、河北省自然科学基金标检测技术的研究进展.计算机科学，2018,45(9)：以及省部级项目10余项，获河北省科技进步二等奖1项、河北省科技进步 11-19. 三等奖1项。发表学术论文30余篇， WANG Huiling,QI Xiaolong,WU Gangshan.Research 出版学术专著1部。 progress of target detection technology based on deep convolution neural network[J].Computer science,2018, 孔子旭，硕士研究生，主要研究方向为深度学习和目标检测。 45(9:11-19. [19]TIAN Zhi,SHEN Chunhua,CHEN Hao,et al.FCOS: fully convolutional one-stage object detection[Cl//Pro- ceedings of 2019 IEEE/CVF International Conference on Computer Vision.Seoul,Korea,2019:9627-9636. [20]李晓光，付陈平，李晓莉，等.面向多尺度目标检测的改赵振兵，副教授，主要研究方向为进Faster R-CNN算法).计算机辅助设计与图形学学深度学习与计算机视觉，主持或参与报，2019,31(7)：1095-1101 国家自然科学基金、河北省自然科学基金、北京市自然科学基金以及省部 LI Xiaoguang,FU Chenping,LI Xiaoli,et al.Improved 级项目10余项，获河北省科技进步一 faster R-CNN for multi-scale object detection[J].Journal 等奖1项。发表学术论文20余篇，出 of computer-aided design and computer graphics,2019, 版学术专著3部

fusion for object semantic segmentation[J]. Journal of image and graphic, 2020, 25(3): 476–485. CAO Guimei, XIE Xuemei, YANG Wenzhe, et al. Feature-fused SSD: fast detection for small objects[C]//Proceedings of SPIE 10615, Ninth International Conference on Graphic and Image Processing . Qingdao, China, 2018: 106151E. [16] 鞠默然, 罗江宁, 王仲博, 等. 一种融合注意力机制的多尺度目标检测算法 [J]. 光学学报, 2020, 40(13): 126−134. JU Moran, LUO Jiangning, WANG Zhongbo, et al. Multi-scale target detection algorithm based on attention mechanism[J]. Acta optica sinica, 2020, 40(13): 126−134. [17] 王慧玲, 綦小龙, 武港山. 基于深度卷积神经网络的目标检测技术的研究进展 [J]. 计算机科学, 2018, 45(9): 11–19. WANG Huiling, QI Xiaolong, WU Gangshan. Research progress of target detection technology based on deep convolution neural network[J]. Computer science, 2018, 45(9): 11–19. [18] TIAN Zhi, SHEN Chunhua, CHEN Hao, et al. FCOS: fully convolutional one-stage object detection[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea, 2019: 9627−9636. [19] 李晓光, 付陈平, 李晓莉, 等. 面向多尺度目标检测的改进 Faster R-CNN 算法 [J]. 计算机辅助设计与图形学学报, 2019, 31(7): 1095–1101. LI Xiaoguang, FU Chenping, LI Xiaoli, et al. Improved faster R-CNN for multi-scale object detection[J]. Journal of computer-aided design and computer graphics, 2019, [20] 31(7): 1095–1101. LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 740−755. [21] 李航, 朱明. 基于深度卷积神经网络的小目标检测算法 [J]. 计算机工程与科学, 2020, 42(4): 649–657. LI Hang, ZHU Ming. A small object detection algorithm based on deep convolutional neural network[J]. Computer engineering and science, 2020, 42(4): 649–657. [22] 作者简介：赵文清，教授，主要研究方向为人工智能与图像处理，主持或参与国家自然科学基金、河北省自然科学基金以及省部级项目 10 余项，获河北省科技进步二等奖 1 项、河北省科技进步三等奖 1 项。发表学术论文 30 余篇，出版学术专著 1 部。孔子旭，硕士研究生，主要研究方向为深度学习和目标检测。赵振兵，副教授，主要研究方向为深度学习与计算机视觉，主持或参与国家自然科学基金、河北省自然科学基金、北京市自然科学基金以及省部级项目 10 余项，获河北省科技进步一等奖 1 项。发表学术论文 20 余篇，出版学术专著 3 部。 ·116· 智能系统学报第 16 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录