【人工智能】基于改进FCOS的拥挤行人检测算法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：4.08MB

第16卷第4期智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202010012 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20210402.1043.004html 基于改进FCOS的拥挤行人检测算法齐鹏宇，王洪元，张继，朱繁，徐志晨 (常州大学信息科学与工程学院，江苏常州213164) 摘要：针对大规模拥挤场景视频中行人目标小、行人遮挡和行人交叠而导致的检测困难等问题，本文将逐像素预测目标检测框架一全卷积单阶段目标检测FCOS(fully convolutional one-stage object detection)应用于行人检测，提出一种改进的主干网络用于提取行人特征，通过增加尺度回归实现目标行人的多尺度检测，同时减少其他特征层检测的目标数量，进而提升行人检测的能力。在拥挤行人场景数据集CrowdHuman和小目标行人数据集Caltech上的大量实验结果表明，和目前先进的方法相比，本文的方法对行人的检测精度有所提升，特别是对于小目标行人检测。与原始FCOS算法相比，在CrowdHuman上平均精度提升接近15%，丢失率降低接近 33.0%:在Caltech上的平均精度提升2%。在复杂拥挤场景下的实际应用也证明本文方法的有效性。关键词：行人检测：多尺度检测：全卷积单阶段目标检测；拥挤行人场景；训练策略；小目标检测；尺度回归：逐像素预测中图分类号：TP391.41文献标志码：A文章编号：1673-4785(2021)04-0811-08 中文引用格式：齐鹏宇，王洪元，张继，等.基于改进FC0S的拥挤行人检测算法.智能系统学报，2021,16(4)：811-818. 英文引用格式：QI Pengyu,.WANG Hongyuan,,ZHANG Ji,etal.Crowded pedestrian detection algorithm based on improved FCOSJ.CAAI transactions on intelligent systems,2021,16(4):811-818. Crowded pedestrian detection algorithm based on improved FCOS QI Pengyu,WANG Hongyuan,ZHANG Ji,ZHU Fan,XU Zhichen (School of Information Science and Engineering,Changzhou University,Changzhou 213164,China) Abstract:In view of the detection difficulty resulting from small pedestrian objects,pedestrian occlusion,and pedestri- an overlap in large-scale crowded scene videos,this study applies a pixel-by-pixel prediction object detection frame- work,i.e.,fully convolutional one-stage object detection(FCOS),for pedestrian detection.An improved backbone net- work is proposed to extract pedestrian features,achieve multi-scale detection of object pedestrians by increasing scale regression,reduce the number of objects detected by other feature layers,and thereby improve the ability of pedestrian detection.Several experiments have been performed on the crowded pedestrian scene dataset CrowdHuman and the small object pedestrian dataset Caltech.The results show that compared with current advanced methods,the proposed algorithm makes some improvements in the pedestrian detection accuracy,especially for small object pedestrian detec- tion.Compared with the original FCOS framework,the average precision on CrowdHuman is increased by nearly 15% and the miss rate is decreased by nearly 33.0%.The average precision on Caltech is increased by 2%.Moreover,the ac- tual use in complex,crowded scenarios proves the effectiveness of this algorithm. Keywords:pedestrian detection;multi-scale detection;fully convolutional one-stage object detection;crowded pedestri- an scene;training strategy;small object detection;scale regression;pixel by pixel prediction 行人检测属于计算机视觉领域一个重要的基领域在实际场景下面临着行人交叠、遮挡等问础研究课题，对于行人重识别、自动驾驶、视频监题，此类问题依然困扰很多研究者，也是目前行控、机器人等领域有重要的意义。而行人检测人检测面临的巨大挑战。在现有的目标检测算法中，两阶段目标检收稿日期：2020-10-14.网络出版日期：2021-04-02. 基金项目：国家自然科学基金项目(61976028,61572085，测器（如Faster R-CNNISI、R-FCN、Mask R- 61806026,61502058):江苏省自然科学基金项目 (BK20180956). CNN、RetinaNet、Cascade R-CNN精度高但速通信作者：王洪元.E-mail:hywang@cczu.edu.cn 度稍慢，单阶段目标检测器（如YOLOv211

DOI: 10.11992/tis.202010012 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210402.1043.004.html 基于改进 FCOS 的拥挤行人检测算法齐鹏宇，王洪元，张继，朱繁，徐志晨（常州大学信息科学与工程学院，江苏常州 213164）摘要：针对大规模拥挤场景视频中行人目标小、行人遮挡和行人交叠而导致的检测困难等问题，本文将逐像素预测目标检测框架—全卷积单阶段目标检测 FCOS（fully convolutional one-stage object detection）应用于行人检测，提出一种改进的主干网络用于提取行人特征，通过增加尺度回归实现目标行人的多尺度检测，同时减少其他特征层检测的目标数量，进而提升行人检测的能力。在拥挤行人场景数据集 CrowdHuman 和小目标行人数据集 Caltech 上的大量实验结果表明，和目前先进的方法相比，本文的方法对行人的检测精度有所提升，特别是对于小目标行人检测。与原始 FCOS 算法相比，在 CrowdHuman 上平均精度提升接近 15%，丢失率降低接近 33.0%；在 Caltech 上的平均精度提升 2%。在复杂拥挤场景下的实际应用也证明本文方法的有效性。关键词：行人检测；多尺度检测；全卷积单阶段目标检测；拥挤行人场景；训练策略；小目标检测；尺度回归；逐像素预测中图分类号：TP391.41 文献标志码：A 文章编号：1673−4785(2021)04−0811−08 中文引用格式：齐鹏宇, 王洪元, 张继, 等. 基于改进 FCOS 的拥挤行人检测算法 [J]. 智能系统学报, 2021, 16(4): 811–818. 英文引用格式：QI Pengyu, WANG Hongyuan, ZHANG Ji, et al. Crowded pedestrian detection algorithm based on improved FCOS[J]. CAAI transactions on intelligent systems, 2021, 16(4): 811–818. Crowded pedestrian detection algorithm based on improved FCOS QI Pengyu，WANG Hongyuan，ZHANG Ji，ZHU Fan，XU Zhichen (School of Information Science and Engineering, Changzhou University, Changzhou 213164, China) Abstract: In view of the detection difficulty resulting from small pedestrian objects, pedestrian occlusion, and pedestrian overlap in large-scale crowded scene videos, this study applies a pixel-by-pixel prediction object detection framework, i.e., fully convolutional one-stage object detection (FCOS), for pedestrian detection. An improved backbone network is proposed to extract pedestrian features, achieve multi-scale detection of object pedestrians by increasing scale regression, reduce the number of objects detected by other feature layers, and thereby improve the ability of pedestrian detection. Several experiments have been performed on the crowded pedestrian scene dataset CrowdHuman and the small object pedestrian dataset Caltech. The results show that compared with current advanced methods, the proposed algorithm makes some improvements in the pedestrian detection accuracy, especially for small object pedestrian detection. Compared with the original FCOS framework, the average precision on CrowdHuman is increased by nearly 15% and the miss rate is decreased by nearly 33.0%. The average precision on Caltech is increased by 2%. Moreover, the actual use in complex, crowded scenarios proves the effectiveness of this algorithm. Keywords: pedestrian detection; multi-scale detection; fully convolutional one-stage object detection; crowded pedestrian scene; training strategy; small object detection; scale regression; pixel by pixel prediction 行人检测属于计算机视觉领域一个重要的基础研究课题，对于行人重识别、自动驾驶、视频监控、机器人等领域有重要的意义[1-3]。而行人检测领域在实际场景下面临着行人交叠、遮挡等问题，此类问题依然困扰很多研究者，也是目前行人检测面临的巨大挑战。在现有的目标检测算法[4] 中，两阶段目标检测器 (如 Faster R-CNN[ 5 ] 、R-FCN[ 6 ] 、Mask RCNN[7] 、RetinaNet[8] 、Cascade R-CNN[9] ) 精度高但速度稍慢，单阶段目标检测器 (如 YOLOv2[ 1 0 ] 、收稿日期：2020−10−14. 网络出版日期：2021−04−02. 基金项目：国家自然科学基金项目 (61976028， 61572085， 61806026，61502058)；江苏省自然科学基金项目 (BK20180956). 通信作者：王洪元. E-mail: hywang@cczu.edu.cn. 第 16 卷第 4 期智能系统学报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021

·812· 智能系统学报第16卷 SSD速度快但精度稍低。Zhi等2认为锚框 FCOS在训练中损失定义如下： (anchor)的纵横比和数量对检测性能影响较大，在需要预设候选框的检测算法中，这些anchor相关 L∑(P.y.Ci+ 参数需要进行精准的调整。而在多数的两阶段算 (1) 法中，由于anchor的纵横比不变，模型检测an- 之24elw chor变化较大的候选目标时会遇到麻烦，特别是式中：x、y表示特征图上的某一位置；P表示预对于小目标的物体。多数检测模型需要在不同的测分类分数；c表示真实分类标签；t,表示回归检测任务场景下重新定义不同的目标尺寸的an- 预测目标位置；，表示真实目标位置，L是Fo- chor,这是因为模型预定义的anchor对模型性能 cal Loss分类损失，Le是IOU Loss回归损失，并影响较大。在训练过程中，大多数的anchor被标且在预先的实验中发现，拥挤行人检测任务中，记为负样本，而负样本的数量过多会加剧训练中 IOU Loss效果要稍优于GIOU Loss0。N表示正样本与负样本之间的不平衡。基于无预设候选正样本的个数，le.表示激活函数，当c,>0时框(anchor-.free)的检测算法容易造成极大的正负为1，否则为0。样本之间不平衡，检测的精度也不如anchor-base 此外，FCOS还具有独特的中心度分支预测，可算法。而近年来的全卷积网络(fully convolutional 以抑制低质量框的比例。由于逐像素预测，很多 network,.FCNI在众多计算机视觉的密集预测任像素点虽然处于真值框内，但是越接近真值框中务中取得了好的效果，例如语义分割、深度估计心的像素点预测出高质量预测框的概率也越大，关键点检测1和人群计数等。由于预设候选因此提出预测中心度损失函数，如式(2)所示：框的使用，两阶段检测算法取得了好的效果，这 min(,r)、min(r,b) 也间接导致了检测任务中没有采用全卷积逐像素 centerness'= max(,)max(r.b) (2) 预测的算法框架。而FCOS!2首次证明，基于FCN 式中：、r、t、b分别表示当前像素点到真值框边的检测算法的检测性能比基于预设候选框的检测界的距离，这里使用开方来减缓中心损失的衰算法更好。FCOS结合two-stage和one-stage算法减。中心损失值在范围[0,1]，因此使用二值交叉的一些特点逐像素检测目标，实现了在提高检测嫡(BCE)损失进行训练，将中心度损失加到训练精度的同时，加快了检测速度。损失函数式(1)中。当回归中心在样本中心时，由于拥挤场景下行人目标会出现交叠、遮挡中心度损失会尽可能的接近1，而当偏离时，中心和行人目标偏小等问题，本文提出新的特征提取度损失会降低。测试时，通过将预测框的中心损网络提取更具判别性行人特征。对于FCOS检测失与相应的分类分数相乘来计算最终分数，且该算法，行人检测中行人尺度问题对模型性能的影分数用于对检测到的预测框质量进行排序。因响较大，针对该问题，本文改进多尺度预测用于此，中心度可以降低远离目标中心的预测框的分检测小目标行人，有效地解决了行人目标偏小、数，再通过最终的非极大值抑制(non-maximum 拥挤等场景下行人检测精度不高的问题。 suppression,NMS)过程可以过滤掉这些低质量的 1相关工作预测框，从而显著提高行人检测性能。相比基于预设候选框的一类检测算法，FCOS算法实现更 1.1FCOS框架好的检测性能。 FCOS首先以逐像素预测的方式对目标进行 1.2原始FCOS特征提取网络检测，无需设置anchor的纵横比，然后利用多级如图1所示，FCOS算法的特征提取网络采用预测来提高召回率并解决训练中重叠预测框导致主干网络(Backbone)加上FPN,Backbone选用的歧义，这种方法可以有效提高拥挤场景下行人 ResNet2提取特征，在FPN中，P、P.、P,分别由检测精度，缓解行人拥挤而导致的检测困难的问 C、C4、Cs横向连接产生，P6、P,由P、P6通过步题。实际上，诸如Unitbox7之类基于DenseBox 长为2的卷积产生。每层检测不同尺度大小的目的anchor-free检测算法，难以处理重叠的预测框标，P:层检测当前像素点处满足条件的目标，目而导致召回率低的问题，该系列的检测算法不适标公式定义如下：合用于一般物体检测，FCOS的出现打破这一局 max(,r,t,b)∈[m-1,ml (3) 面。FCOS表明，使用多级特征金字塔网络(fea- 式中：P、r、r、b分别表示当前像素点到真值框边 ture pyramid networks,FPNl)预测可以提高召回界的距离；[m-1,m]表示P:层回归目标范围，m2、率，提高检测精度。 m3、m4、m5、m6和m7分别设置为0、64、128、256

SSD[11] ) 速度快但精度稍低。Zhi 等 [12] 认为锚框 (anchor) 的纵横比和数量对检测性能影响较大，在需要预设候选框的检测算法中，这些 anchor 相关参数需要进行精准的调整。而在多数的两阶段算法中，由于 anchor 的纵横比不变，模型检测 anchor 变化较大的候选目标时会遇到麻烦，特别是对于小目标的物体。多数检测模型需要在不同的检测任务场景下重新定义不同的目标尺寸的 anchor，这是因为模型预定义的 anchor 对模型性能影响较大。在训练过程中，大多数的 anchor 被标记为负样本，而负样本的数量过多会加剧训练中正样本与负样本之间的不平衡。基于无预设候选框 (anchor-free) 的检测算法容易造成极大的正负样本之间不平衡，检测的精度也不如 anchor-base 算法。而近年来的全卷积网络 (fully convolutional network，FCN[13] ) 在众多计算机视觉的密集预测任务中取得了好的效果，例如语义分割、深度估计[14] 、关键点检测[15] 和人群计数[16] 等。由于预设候选框的使用，两阶段检测算法取得了好的效果，这也间接导致了检测任务中没有采用全卷积逐像素预测的算法框架。而 FCOS[12] 首次证明，基于 FCN 的检测算法的检测性能比基于预设候选框的检测算法更好。FCOS 结合 two-stage 和 one-stage 算法的一些特点逐像素检测目标，实现了在提高检测精度的同时，加快了检测速度。由于拥挤场景下行人目标会出现交叠、遮挡和行人目标偏小等问题，本文提出新的特征提取网络提取更具判别性行人特征。对于 FCOS 检测算法，行人检测中行人尺度问题对模型性能的影响较大，针对该问题，本文改进多尺度预测用于检测小目标行人，有效地解决了行人目标偏小、拥挤等场景下行人检测精度不高的问题。 1 相关工作 1.1 FCOS 框架 FCOS 首先以逐像素预测的方式对目标进行检测，无需设置 anchor 的纵横比，然后利用多级预测来提高召回率并解决训练中重叠预测框导致的歧义，这种方法可以有效提高拥挤场景下行人检测精度，缓解行人拥挤而导致的检测困难的问题。实际上，诸如 Unitbox[17] 之类基于 DenseBox[18] 的 anchor-free 检测算法，难以处理重叠的预测框而导致召回率低的问题，该系列的检测算法不适合用于一般物体检测，FCOS 的出现打破这一局面。FCOS 表明，使用多级特征金字塔网络 (feature pyramid networks, FPN[19] ) 预测可以提高召回率，提高检测精度。 FCOS 在训练中损失定义如下： Loss = 1 Npos ∑ x,y Lcls(px,y , c ∗ x,y )+ 1 Npos ∑ x,y I{c ∗ x,y>0}Lreg(tx,y ,t ∗ x,y ) (1) px,y c ∗ x,y tx,y t ∗ x,y Lcls Lreg Npos I{c ∗ x,y>0} c ∗ x,y > 0 式中：x、y 表示特征图上的某一位置；表示预测分类分数；表示真实分类标签；表示回归预测目标位置；表示真实目标位置，是 Focal Loss 分类损失，是 IOU Loss 回归损失，并且在预先的实验中发现，拥挤行人检测任务中， IOU Loss 效果要稍优于 GIOU Loss[20]。表示正样本的个数，表示激活函数，当时为 1，否则为 0。此外，FCOS 还具有独特的中心度分支预测，可以抑制低质量框的比例。由于逐像素预测，很多像素点虽然处于真值框内，但是越接近真值框中心的像素点预测出高质量预测框的概率也越大，因此提出预测中心度损失函数，如式 (2) 所示： centerness∗ = √ min(l ∗ ,r ∗ ) max(l ∗ ,r ∗ ) × min(t ∗ ,b ∗ ) max(t ∗ ,b ∗ ) (2) l ∗ r ∗ t ∗ b 式中： ∗ 、、、分别表示当前像素点到真值框边界的距离，这里使用开方来减缓中心损失的衰减。中心损失值在范围 [0,1]，因此使用二值交叉熵 (BCE) 损失进行训练，将中心度损失加到训练损失函数式 (1) 中。当回归中心在样本中心时，中心度损失会尽可能的接近 1，而当偏离时，中心度损失会降低。测试时，通过将预测框的中心损失与相应的分类分数相乘来计算最终分数，且该分数用于对检测到的预测框质量进行排序。因此，中心度可以降低远离目标中心的预测框的分数，再通过最终的非极大值抑制 (non-maximum suppression,NMS) 过程可以过滤掉这些低质量的预测框，从而显著提高行人检测性能。相比基于预设候选框的一类检测算法，FCOS 算法实现更好的检测性能。 1.2 原始 FCOS 特征提取网络 Pi 如图 1 所示，FCOS 算法的特征提取网络采用主干网络 (Backbone) 加上 FPN，Backbone 选用 ResNet[21] 提取特征，在 FPN 中，P3、P4、P5 分别由 C3、C4、C5 横向连接产生，P6、P7 由 P5、P6 通过步长为 2 的卷积产生。每层检测不同尺度大小的目标，层检测当前像素点处满足条件的目标，目标公式定义如下： max(l ∗ ,r ∗ ,t ∗ ,b ∗ ) ∈ [mi−1,mi] (3) l ∗ r ∗ t ∗ b ∗ [mi−1,mi] Pi 式中：、、、分别表示当前像素点到真值框边界的距离；表示层回归目标范围，m2、 m3、m4、m5、m6 和 m7 分别设置为 0、64、128、256、 ·812· 智能系统学报第 16 卷

第4期齐鹏宇，等：基于改进FCOS的拥挤行人检测算法 ·813· 512和∞，其中表示无穷大。这是一个非常有针对DenseNet做出改进，提出一种新的模块，即创造性的想法，这样的设计使得FCOS检测算法一次性聚合(one-shot aggregation.,OSA)模块。是一个多尺度的FPN检测算法。 OSA模块将当前层的特征聚合至最后一层，每一卷积层有两种连接方式，一种方式是连接至下一层，用于产生更大感受野的特征，另一种方式是连接一次至最终输出的特征图上，与DenseNet不同，每一层的输出不会连接至后续的中间层，这样的设计使得中间层的通道数保持不变。VoVNet 采用更加优化的特征连接方式，通过增强特征的表示能力，提高特征的提取能力，进而提高模型的检测性能。 2.2SE模块图1FCOS特征提取网络本文为了更好地契合复杂的行人特征，在VoVNet Fig.1 FCOS feature extraction network 上使用SE模块2加强特征表示能力，并且在特征图上使用SE模块进行权重分配，使得深度特 2基于FCOS的行人检测征更加多样化。 SE模块首先依照空间维度来进行特征压缩， 2.1主干网络VoVNet 将每个二维的特征通道变成一个实数，输出一个深度学习中，特征提取网络对于模型有着非二维空间，它的维度与特征通道数相等，即二维常大的影响，针对不同的数据集可以直接影响其空间表示对应特征通道上的分布结果。之后生成检测性能。针对ResNet不足，本文运用VoVNet 一个具有权重的二维空间，表示特征通道间的相作为行人特征的提取网络。关性。最后将对应的特征图乘上权重特征，实现 DenseNet!在目标检测任务上展示出了较好一个特征的权重分配，突出重要的特征，完成在的效果，特别是基于anchor--free的目标检测模型，通道维度上对原始特征通道上重要性的重标定。这是因为相比于ResNet,DenseNet通过特征不断 $E模块类似于注意力机制，本文将其使用在叠加达到好的效果，其缺点是在后续特征叠加 VoVNet上，如图2所示，在每层特征下采样时，时，通道数线性增加，参数也越来越多，模型花费将特征进行SE权重分配。根据VoVNet的特征时间增加，影响模型速度。连接方式添加$E模块权重机制，本文方法可以 VoVNet认为在特征提取方面，中间层的聚集提供更加多元化的特征，使得行人特征更好地表强度与最终层的聚集强度之间存在负相关，并且达，提高行人检测的精度。并且SE模块可以在密集连接是冗余的，即靠前层的特征表示能力越几乎不增加模型时间复杂度的情况下提升模型的强，靠后层的特征表示能力则会被弱化。VoVNet 检测性能。 OSA SEModule ■国回 FD-CCO C C; object sizes_of_interest P:e.P. 0,32 [32.64] [64,128] [128,256 [256,512][512,INF 图2修改后框架 Fig.2 Update framework

512 和 ∞，其中 ∞ 表示无穷大。这是一个非常有创造性的想法，这样的设计使得 FCOS 检测算法是一个多尺度的 FPN 检测算法。 C5 C4 C3 P3 P4 P5 P6 P7 图 1 FCOS 特征提取网络 Fig. 1 FCOS feature extraction network 2 基于 FCOS 的行人检测 2.1 主干网络 VoVNet 深度学习中，特征提取网络对于模型有着非常大的影响，针对不同的数据集可以直接影响其检测性能。针对 ResNet 不足，本文运用 VoVNet 作为行人特征的提取网络。 DenseNet[22] 在目标检测任务上展示出了较好的效果，特别是基于 anchor-free 的目标检测模型，这是因为相比于 ResNet，DenseNet 通过特征不断叠加达到好的效果，其缺点是在后续特征叠加时，通道数线性增加，参数也越来越多，模型花费时间增加，影响模型速度。 VoVNet 认为在特征提取方面，中间层的聚集强度与最终层的聚集强度之间存在负相关，并且密集连接是冗余的，即靠前层的特征表示能力越强，靠后层的特征表示能力则会被弱化。VoVNet[23] 针对 DenseNet 做出改进，提出一种新的模块，即一次性聚合 (one-shot aggregation, OSA) 模块。 OSA 模块将当前层的特征聚合至最后一层，每一卷积层有两种连接方式，一种方式是连接至下一层，用于产生更大感受野的特征，另一种方式是连接一次至最终输出的特征图上，与 DenseNet 不同，每一层的输出不会连接至后续的中间层，这样的设计使得中间层的通道数保持不变。VoVNet 采用更加优化的特征连接方式，通过增强特征的表示能力，提高特征的提取能力，进而提高模型的检测性能。 2.2 SE 模块本文为了更好地契合复杂的行人特征，在 VoVNet 上使用 SE 模块[24] 加强特征表示能力，并且在特征图上使用 SE 模块进行权重分配，使得深度特征更加多样化。 SE 模块首先依照空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，输出一个二维空间，它的维度与特征通道数相等，即二维空间表示对应特征通道上的分布结果。之后生成一个具有权重的二维空间，表示特征通道间的相关性。最后将对应的特征图乘上权重特征，实现一个特征的权重分配，突出重要的特征，完成在通道维度上对原始特征通道上重要性的重标定。 SE 模块类似于注意力机制，本文将其使用在 VoVNet 上，如图 2 所示，在每层特征下采样时，将特征进行 SE 权重分配。根据 VoVNet 的特征连接方式添加 SE 模块权重机制，本文方法可以提供更加多元化的特征，使得行人特征更好地表达，提高行人检测的精度。并且 SE 模块可以在几乎不增加模型时间复杂度的情况下提升模型的检测性能。 OSA P2 P3 P4 P5 P6 P7 [0,32] [32.64] [64,128] [128,256] [256,512] [512,INF] object_sizes_of_interest SEModule C2 C3 C4 C5 图 2 修改后框架 Fig. 2 Update framework 第 4 期齐鹏宇，等：基于改进 FCOS 的拥挤行人检测算法 ·813·

·814· 智能系统学报第16卷 2.3多尺度检测使FCOS检测性能提高。原始模型FPN采用5层不同尺度回归目标，如图2所示，减小P,层的回归尺度，设置这5层尺度回归的目标大小分别为[0,64]、 P,层回归尺度为[32,64]，减少P,层的检测任务 [64,128]、[128,256]、[256,512]和[512,0]，分别对量；增加P2层，P2层由C2层横向连接和P,层向应FPN中的P3、P、P,、P6和P。针对行人目标的下连接组成，P2层回归尺度为0,32]的目标，这样特点，本文发现，不论是在常用的行人数据集中，的网络设计既能减少P,层的回归目标数，也能更还是在真实检测场景中，行人检测的难点在于拥好地利用特征检测小目标行人，提高行人检测精挤行人和小目标行人的检测。对于FCOS模型，度。在最终的FPN上，本文的方法在FPN上拥每层每个像素点都会回归固定尺度大小范围内的有6层特征图以检测6个不同尺度范围的目标。目标。相对地，如果目标行人拥挤在某个尺度范总体网络框架如图3所示，相较于未改进围内，将会使得检测层的任务过重，导致检测效 FCOS算法，预测特征图由5个增加到6个，而后对果降低，此问题也是影响模型性能效果的原因之特征图上每个点进行逐像素预测，每个点均需预一，在多目标检测场景中会导致FCOS模型的检测目标回归框、目标类别、目标中心度，以上3种测性能稍有降低，同时也说明，当检测任务复杂，预测结果对应图3中3个预测分支，假设当前特检测目标数量较多时，本文提出的多尺度检测会征图大小为W×H,则有W×H像素点需要进行预测。 7×8/128 P Head 分类 Hx WxC 13×16/64 P。 -Head 中心度 HxWx1 25×32/32 Head 回归 H×Wx4 50×64/16 Head H×W256HxW256 100×128/8 Head 分类+中心度+回归 200×256/4 Head 800×1024 HxW/s 主干网络特征金字塔图3总体框架 Fig.3 Final framework 3数据集和评估 24438张。本文采用MR2(miss rate)和AP的评估准则本文实验主要使用CrowdHuman2)和Cal- MR-2表示在9个FPPI(false positive per image)值 tech行人数据集。行人数量多、场景拥挤是行人下（在值域[0.01,1.0]以对数空间均匀间隔）的平检测中一个巨大的挑战，针对这一问题，旷视发均丢失率值，FPPI定义如下：布CrowdHuman数据集，用于验证检测算法在密集人群行人检测任务中的性能。CrowdHuman数 FPPI-FP (4) 据集中15000、4370和5000个图片，分别用于训式中：N表示图片的数量；FP表示未击中任意一练、验证和测试。针对CrowdHuman数据集，本文个真值框的预测框数量。MR2是目前衡量行人只使用全身区域标注用于训练和评估，由于还未检测一个非常重要的指标，也是本文主要采用的公布测试集，参考相关文献[25-26]后，实验结果评价指标。其数值越低说明行人检测模型性能在验证集上进行测试。Caltech行人数据集时长越好。约为10h城市道路环境拍摄视频，数据集中随 AP表示平均精度，PR(Precision-Recall)曲线机分配训练集、测试集、验证集，其对应比例为所围成的面积即为AP值大小，AP值越大检测精 0.75:0.2:0.05,3个集相互独立，测试集图片约为度越高，其中AP、Recall、Precision计算公式如下：

2.3 多尺度检测 ∞ 原始模型 FPN 采用 5 层不同尺度回归目标，这 5 层尺度回归的目标大小分别为 [0,64] 、 [64,128]、[128,256]、[256,512] 和 [512, ]，分别对应 FPN 中的 P3、P4、P5、P6 和 P7。针对行人目标的特点，本文发现，不论是在常用的行人数据集中，还是在真实检测场景中，行人检测的难点在于拥挤行人和小目标行人的检测。对于 FCOS 模型，每层每个像素点都会回归固定尺度大小范围内的目标。相对地，如果目标行人拥挤在某个尺度范围内，将会使得检测层的任务过重，导致检测效果降低，此问题也是影响模型性能效果的原因之一，在多目标检测场景中会导致 FCOS 模型的检测性能稍有降低，同时也说明，当检测任务复杂，检测目标数量较多时，本文提出的多尺度检测会使 FCOS 检测性能提高。如图 2 所示，减小 P3 层的回归尺度，设置 P3 层回归尺度为 [32,64]，减少 P3 层的检测任务量；增加 P2 层，P2 层由 C2 层横向连接和 P3 层向下连接组成，P2 层回归尺度为 [0,32] 的目标，这样的网络设计既能减少 P3 层的回归目标数，也能更好地利用特征检测小目标行人，提高行人检测精度。在最终的 FPN 上，本文的方法在 FPN 上拥有 6 层特征图以检测 6 个不同尺度范围的目标。 W × H W × H 总体网络框架如图 3 所示，相较于未改进 FCOS 算法，预测特征图由 5 个增加到 6 个，而后对特征图上每个点进行逐像素预测，每个点均需预测目标回归框、目标类别、目标中心度，以上 3 种预测结果对应图 3 中 3 个预测分支，假设当前特征图大小为，则有像素点需要进行预测。 H×W /s 主干网络特征金字塔 800×1024 200×256/4 100×128/8 50×64/16 25×32/32 13×16/64 7×8/128 C5 C4 C3 C2 P7 P6 P5 P4 P3 P2 Head Head Head Head Head Head 分类+中心度+回归 H×W /256 H×W /256 H×W /256 H×W /256 分类 H×W×C 中心度 H×W×1 回归 H×W×4 图 3 总体框架 Fig. 3 Final framework 3 数据集和评估本文实验主要使用 CrowdHuman[25] 和 Caltech 行人数据集。行人数量多、场景拥挤是行人检测中一个巨大的挑战，针对这一问题，旷视发布 CrowdHuman 数据集，用于验证检测算法在密集人群行人检测任务中的性能。CrowdHuman 数据集中 15 000、4 370 和 5 000 个图片，分别用于训练、验证和测试。针对 CrowdHuman 数据集，本文只使用全身区域标注用于训练和评估，由于还未公布测试集，参考相关文献 [25-26] 后，实验结果在验证集上进行测试。Caltech 行人数据集时长约为 10 h 城市道路环境拍摄视频，数据集中随机分配训练集、测试集、验证集，其对应比例为 0.75∶0.2∶0.05，3 个集相互独立，测试集图片约为 24 438 张。 MR−2 MR−2 本文采用 (miss rate) 和 AP 的评估准则，表示在 9 个 FPPI(false positive per image) 值下 (在值域 [0.01,1.0] 以对数空间均匀间隔) 的平均丢失率值，FPPI 定义如下： FPPI= FP N (4) MR−2 式中：N 表示图片的数量；FP 表示未击中任意一个真值框的预测框数量。是目前衡量行人检测一个非常重要的指标，也是本文主要采用的评价指标。其数值越低说明行人检测模型性能越好。 AP 表示平均精度，PR(Precision-Recall) 曲线所围成的面积即为 AP 值大小，AP 值越大检测精度越高，其中 AP、Recall、Precision 计算公式如下： ·814· 智能系统学报第 16 卷

第4期齐鹏宇，等：基于改进FCOS的拥挤行人检测算法 ·815· Precision TP (5) 通过消融实验表明：采用VoVNet相较于采用 TP+FP ResNet,指标MR-2降低26.91%。拥有SE模块的 TP Recall TP+FN (6) 检测模型相较于没有SE模块的检测模型，指标 AP=['P(R)dR (7) MR2降低0.9%。改进多尺度回归后的检测模型 o 相较于未改进的检测模型，指标MR2降低6%。式中：TP是检测出正样本的概率；FN是正样本检本文提出的方法相较于原始方法，指标MR2降测出错误样本的概率；FP是负样本检测出正样本低了33.62%。实验结果证明，本文的方法在拥挤的概率。场景下的行人检测效果提升较为明显。 4实验表2 CrowdHuman数据集MR-2 Table 2 MR-2 on CrowdHuman 本文实验环境为Ubuntu18.04、Cudal0和方法 MR-2 Cudnn7.6,使用4块2080Ti的GPU,每个GPU有 APso 11G内存，由于FCOS算法要求较高，存在内存 RetinaNets 63.33 80.83 不够的问题，实验通过线性策略【2】调整了 FPNES 50.42 84.95 batch size大小和IMS_PER BATCH的数量。其 RFB Net1261 65.22 78.33 余参数沿用FCOS在COCO数据集上基础参数配 FCOS+ResNet50 83.62 70.0 置，算法基于detectron框架。 FCOS+VoVNet39 56.71 81.2 4.1 CrowdHuman数据集实验结果 FCOS+VoVNet39+SE 56.09 81.4 如表1消融实验所示，其中6 stage表示多尺度检测方法，SE表示SE模块。在FCOS上采用 FCOS+VoVNet39+6stage 50.90 84.7 VoVNet作为Backbone起到了极大的提升作用， FCOS+VoVNet39+6stage+SE 50.02 85.1 相较于主干网络为ResNet,APso提升1l.2%。在如表3所示，针对CrowdHuman数据集， FPN中多添加一个尺度的回归层，对于行人检测 NMS的IOU阈值设定也是不同的，原始FCOS算的效果有极大的提升，这是因为密集的行人检测法在COC0数据集上IOU阈值设置为0.7，而针受尺度变化影响较大。相较于原始FCOS方法，对拥挤行人场景，本文发现IOU阈值设置为本文方法在指标AP0上提升了15.0%。针对于不 0.5时，模型整体性能较好。图4(a)表示PR曲线同主干网络，SE模块在指标AP50上有 0.2%~0.3%的提升，说明SE模块能增强行人特征图，图4(b)表示MR-FPPI曲线，可以清晰地看到提取能力。模型由5个尺度增加到6个尺度，指本文方法总体上提升较大。在采用了VoVNet 标AP0提升3.5%，并且对于模型检测小目标行人后，对模型性能有了极大的提升，说明VoVNet更有着极大的提升，可以看到指标APs提升8.5%，加适合于FCOS在拥挤场景下提取行人特征。多实验结果也印证多尺度改进能有效地提升模型检尺度检测方法在拥挤场景下的行人检测也是有效测小目标行人的性能。的，提升效果明显。表1 CrowdHuman数据集AP 表3 CrowdHuman数据集IOU阈值 Table 1 AP on CrowdHuman Table 3 IOU threshold on CrowdHuma 方法 IOU AP APs APM AP AP APso AP7s APs APM APL Faster R-CNNI5] 0.3 55.2 81.0 61.6 33.8 53.6 65.7 36.768.335.223.437.240.4 FCOS+ResNet50 40.170.040.316.339.153.6 0.4 57.2 83.9 63.9 34.2 55.0 68.8 FCOS+VoVNet39 53.681.258.725.552.366.9 0.5 58.3 85.1 64.7 34.5 55.8 70.5 FCOS+VoVNet39+SE 53.681.458.825.252.467.0 0.6 58.4 84.7 65.4 34.4 55.7 71.0 FC0S+VoVNet39+6 stage57.784.764.034.055.070.1 0.7 58.1 83.7 66.0 34.0 55.6 71.1 FC0S+VoVNet3.9+6 stage+SE58.385.164.734.555.870.5 0.8 57.5 81.5 65.7 33.0 54.9 71.2 0.9 54.8 76.2 62.9 29.8 52.1 69.8 CrowdHuman2数据集中采用指标MR-2,本文采用相同指标并对比了CrowdHuman2中部分 4.2 Caltech数据集结果实验，表2可以看到，在CrowdHuman数据集上，如表4所示，在车载摄像头的行人数据集

Precision = TP TP+FP (5) Recall = TP TP+FN (6) AP = w 1 0 P(R)dR (7) 式中：TP 是检测出正样本的概率；FN 是正样本检测出错误样本的概率；FP 是负样本检测出正样本的概率。 4 实验本文实验环境为 Ubuntu18.04、Cuda10 和 Cudnn7.6，使用 4 块 2080Ti 的 GPU，每个 GPU 有 11G 内存，由于 FCOS 算法要求较高，存在内存不够的问题，实验通过线性策略 [ 2 7 ] 调整了 batch_size 大小和 IMS_PER_BATCH 的数量。其余参数沿用 FCOS 在 COCO 数据集上基础参数配置，算法基于 detectron 框架。 4.1 CrowdHuman 数据集实验结果如表 1 消融实验所示，其中 6stage 表示多尺度检测方法，SE 表示 SE 模块。在 FCOS 上采用 VoVNet 作为 Backbone 起到了极大的提升作用，相较于主干网络为 ResNet，AP50 提升 11.2%。在 FPN 中多添加一个尺度的回归层，对于行人检测的效果有极大的提升，这是因为密集的行人检测受尺度变化影响较大。相较于原始 FCOS 方法，本文方法在指标 AP50 上提升了 15.0%。针对于不同主干网络， S E 模块在指标 A P 5 0 上有 0.2%~0.3% 的提升，说明 SE 模块能增强行人特征提取能力。模型由 5 个尺度增加到 6 个尺度，指标 AP50 提升 3.5%，并且对于模型检测小目标行人有着极大的提升，可以看到指标 APS 提升 8.5%，实验结果也印证多尺度改进能有效地提升模型检测小目标行人的性能。表 1 CrowdHuman 数据集 AP Table 1 AP on CrowdHuman 方法 AP AP50 AP75 APS APM APL Faster R-CNN[5] 36.7 68.3 35.2 23.4 37.2 40.4 FCOS+ResNet50 40.1 70.0 40.3 16.3 39.1 53.6 FCOS+VoVNet39 53.6 81.2 58.7 25.5 52.3 66.9 FCOS+ VoVNet39+SE 53.6 81.4 58.8 25.2 52.4 67.0 FCOS+ VoVNet39+6stage 57.7 84.7 64.0 34.0 55.0 70.1 FCOS+ VoVNet39+6stage+SE 58.3 85.1 64.7 34.5 55.8 70.5 MR−2 CrowdHuman[25] 数据集中采用指标，本文采用相同指标并对比了 CrowdHuman[25] 中部分实验，表 2 可以看到，在 CrowdHuman 数据集上， MR−2 MR−2 MR−2 MR−2 通过消融实验表明：采用 VoVNet 相较于采用 ResNet，指标降低 26.91%。拥有 SE 模块的检测模型相较于没有 SE 模块的检测模型，指标降低 0.9%。改进多尺度回归后的检测模型相较于未改进的检测模型，指标降低 6%。本文提出的方法相较于原始方法，指标降低了 33.62%。实验结果证明，本文的方法在拥挤场景下的行人检测效果提升较为明显。 MR 表 −2 2 CrowdHuman 数据集 MR−2 Table 2 on CrowdHuman 方法 MR−2 AP50 RetinaNet[8] 63.33 80.83 FPN[25] 50.42 84.95 RFB Net[26] 65.22 78.33 FCOS+ ResNet50 83.62 70.0 FCOS+ VoVNet39 56.71 81.2 FCOS+ VoVNet39+SE 56.09 81.4 FCOS+ VoVNet39+6stage 50.90 84.7 FCOS+ VoVNet39+6stage+SE 50.02 85.1 如表 3 所示，针对 CrowdHuman 数据集， NMS 的 IOU 阈值设定也是不同的，原始 FCOS 算法在 COCO 数据集上 IOU 阈值设置为 0.7，而针对拥挤行人场景，本文发现 I OU 阈值设置为 0.5 时，模型整体性能较好。图 4(a) 表示 PR 曲线图，图 4(b) 表示 MR-FPPI 曲线，可以清晰地看到本文方法总体上提升较大。在采用了 VoVNet 后，对模型性能有了极大的提升，说明 VoVNet 更加适合于 FCOS 在拥挤场景下提取行人特征。多尺度检测方法在拥挤场景下的行人检测也是有效的，提升效果明显。表 3 CrowdHuman 数据集 IOU 阈值 Table 3 IOU threshold on CrowdHuma IOU AP AP50 AP75 APS APM APL 0.3 55.2 81.0 61.6 33.8 53.6 65.7 0.4 57.2 83.9 63.9 34.2 55.0 68.8 0.5 58.3 85.1 64.7 34.5 55.8 70.5 0.6 58.4 84.7 65.4 34.4 55.7 71.0 0.7 58.1 83.7 66.0 34.0 55.6 71.1 0.8 57.5 81.5 65.7 33.0 54.9 71.2 0.9 54.8 76.2 62.9 29.8 52.1 69.8 4.2 Caltech 数据集结果如表 4 所示，在车载摄像头的行人数据集第 4 期齐鹏宇，等：基于改进 FCOS 的拥挤行人检测算法 ·815·

·816· 智能系统学报第16卷 Caltech上本文提出的方法也有一定提升，相较于在伪正例，相比于图5b),可以看到图5(a)右上角原始YOLOv2方法，AP实现了2%的提升。在小目标行人未检测出来，远处的行人检测效果也 Caltech数据集上的提升，说明本文模型的鲁棒性不如图5(b)的检测效果，而相比于图5(d),可以看较好。到图5(b)右边出现置信度为0.64的错误预测 1.0 框。本文提出的方法可以较好地检测行人，减少 FP出现的情况，在实际拥挤场景下能较好地检测 0.8 目标行人。但当行人目标交叠时，或者对于有遮 0.6 挡的行人，检测的效果大部分仅能检测出可视的部分，无法将全身区域标注出来，导致与真值框 0.4 本文模型交并比的值较低，被视为负类。这也是目前本文 0.2 -vovmct+SE 方法面临的主要问题之 -vovnet+6stage vovnet+6stage+SE 0.2 0.4. 0.6 0.8 1.0 召回率 (a)PR曲线图 1.0 0.8 (a)原始FCOS方 (b)改进FCOS方法检测效果图1 法检测效果图1 0.6 0.4 +本文模型 vovnet 0.2 -vovnet+SE vovnet+6stage vovnet+6stage+SE 102 10H 10 (c)原始FCOS方 (d)政进FCOS方 FPPI 法检测效果图2 法检测效果图2 (b)MR-FPPI曲线图图5实际场景检测效果图4 CrowdHuman曲线图 Fig.5 Actual scene detection effect Fig.4 CrowdHuman curves 表4 Caltech行人数据集 5结束语 Table 4 Caltech pedestrian datasets 针对行人目标检测中行人拥挤、目标偏小等方法 AP 问题，本文提出一种基于FCOS框架的行人检测 YOLOV201 88.32 算法。通过融入新的Backbone并且在FPN中添 FCOS+ResNet50 89.36 加一层P层，实现行人目标的多尺度检测。通过 FCOS+VoVNet39 90.20 融入SE模块进行特征的权重分配，更好地提取 FCOS+VoVNet39+6stage 90.35 行人特征，提高行人检测精度。本模型方法无需本文方法 90.39 设置anchor纵横比等参数，参数设置少。相较于目前先进方法，可以达到有较强竞争力的检测效 4.3实际场景检测结果果。在实验中也发现，本文提出的方法受行人深度本文的模型使用CrowdHuman训练集进行训特征影响较大，如何在拥挤遮挡等实际场景下进练，在实际场景下的检测也有不错的效果，本文行更高精度行人检测是我们进一步要研究的内容。挑选出实际场景下一张室内行人和一张室外行人进行检测。因为本文算法无需设置anchor的尺寸参考文献：和纵横比，所以在实际场景中的行人检测鲁棒性 [1]NI Tongguang,DING Zongyuan,CHEN Fuhua,et al.Rel- 较好。如图5所示，图5(a)、(c)表示原始COS方 ative distance metric leaning based on clustering centraliz- 法在拥挤行人中的效果，图5(b)、图5(d)表示本文 ation and projection vectors learning for person re-identi- 方法的最终效果，可以看到，原始FCOS可以较好 fication[J].IEEE access,2018,6:11405-11411. 地检测出图片中的行人，漏检率较低，但是仍存 [2]WANG Hongyuan,DING Zongyuan,ZHANG Ji,et al

Caltech 上本文提出的方法也有一定提升，相较于原始 YOLOv2 方法，AP 实现了 2% 的提升。在 Caltech 数据集上的提升，说明本文模型的鲁棒性较好。 (a) PR 曲线图召回率本文模型 vovnet vovnet+SE vovnet+6stage vovnet+6stage+SE 准确率 1.0 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1.0 本文模型 vovnet vovnet+SE vovnet+6stage vovnet+6stage+SE MR 1.0 0.8 0.6 0.4 0.2 0 (b) MR-FPPI 曲线图 10−2 10−1 100 FPPI 图 4 CrowdHuman 曲线图 Fig. 4 CrowdHuman curves 表 4 Caltech 行人数据集 Table 4 Caltech pedestrian datasets 方法 AP YOLOv2[10] 88.32 FCOS+ResNet50 89.36 FCOS+VoVNet39 90.20 FCOS+VoVNet39+6stage 90.35 本文方法 90.39 4.3 实际场景检测结果本文的模型使用 CrowdHuman 训练集进行训练，在实际场景下的检测也有不错的效果，本文挑选出实际场景下一张室内行人和一张室外行人进行检测。因为本文算法无需设置 anchor 的尺寸和纵横比，所以在实际场景中的行人检测鲁棒性较好。如图 5 所示，图 5(a)、(c) 表示原始 FCOS 方法在拥挤行人中的效果，图 5(b)、图 5(d)表示本文方法的最终效果，可以看到，原始 FCOS可以较好地检测出图片中的行人，漏检率较低，但是仍存在伪正例，相比于图 5(b)，可以看到图 5(a) 右上角小目标行人未检测出来，远处的行人检测效果也不如图 5(b) 的检测效果,而相比于图 5(d)，可以看到图 5(b) 右边出现置信度为 0.64 的错误预测框。本文提出的方法可以较好地检测行人，减少 FP 出现的情况，在实际拥挤场景下能较好地检测目标行人。但当行人目标交叠时，或者对于有遮挡的行人，检测的效果大部分仅能检测出可视的部分，无法将全身区域标注出来，导致与真值框交并比的值较低，被视为负类。这也是目前本文方法面临的主要问题之一。 (a) 原始 FCOS 方法检测效果图 1 (b) 改进 FCOS 方法检测效果图 1 (c) 原始 FCOS 方法检测效果图 2 (d)改进 FCOS 方法检测效果图 2 图 5 实际场景检测效果 Fig. 5 Actual scene detection effect 5 结束语针对行人目标检测中行人拥挤、目标偏小等问题，本文提出一种基于 FCOS 框架的行人检测算法。通过融入新的 Backbone 并且在 FPN 中添加一层 P2 层，实现行人目标的多尺度检测。通过融入 SE 模块进行特征的权重分配，更好地提取行人特征，提高行人检测精度。本模型方法无需设置 anchor 纵横比等参数，参数设置少。相较于目前先进方法，可以达到有较强竞争力的检测效果。在实验中也发现，本文提出的方法受行人深度特征影响较大，如何在拥挤遮挡等实际场景下进行更高精度行人检测是我们进一步要研究的内容。参考文献： NI Tongguang, DING Zongyuan, CHEN Fuhua, et al. Relative distance metric leaning based on clustering centralization and projection vectors learning for person re-identification[J]. IEEE access, 2018, 6: 11405–11411. [1] [2] WANG Hongyuan, DING Zongyuan, ZHANG Ji, et al. ·816· 智能系统学报第 16 卷

第4期齐鹏宇，等：基于改进FCOS的拥挤行人检测算法 ·817· Person reidentification by semisupervised dictionary recti- [13]LONG J.SHELHAMER E,DARRELL T.Fully convolu- fication learning with retraining module[J].Journal of elec- tional networks for semantic segmentation[C]//Proceed- tronic imaging,2018,27(4):043043. ings of 2017 IEEE Conference on Computer Vision and [3]戴臣超，王洪元，倪彤光，等.基于深度卷积生成对抗网 Pattern Recognition.Honolulu,USA,2017:4438-4446. 络和拓展近邻重排序的行人重识别)，计算机研究与发 [14]LIU Fayao,SHEN Chunhua,LIN Guosheng,et al.Learn 展，2019,56(8)：1632-1641 ing depth from single monocular images using deep con- DAI Chenchao,WANG Hongyuan,NI Tongguang,et al. volutional neural fields[J].IEEE transactions on pattern Person re-identification based on deep convolutional gen- analysis and machine intelligence,2016,38(10): erative adversarial network and expanded neighbor rerank- 2024-2039 ing[J].Journal of computer research and development, [15]CHEN Yu,SHEN Chunhua,WEI Xiushen,et al.Ad- 2019,56(8):1632-1641. versarial PoseNet:a structure-aware convolutional net- [4]JIAO Licheng,ZHANG Fan,LIU Fang,et al.A survey of work for human pose estimation[C]//Proceedings of 2017 deep learning-based object detection[J].IEEE access, IEEE International Conference on Computer Vision. 2019,7:128837-128868. Venice,Italy,2017:1212-1221 [5]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster [16]BOOMINATHAN L,KRUTHIVENTI S S S,BABU R R-CNN:towards real-time object detection with region V.CrowdNet:a deep convolutional network for dense proposal networks[J].IEEE transactions on pattern analys- crowd counting[C]//Proceedings of the 24th ACM Inter- is and machine intelligence,2017,39(6):1137-1149. national Conference on Multimedia.Amsterdam.The [6]DAI Jifeng,LI Yi,HE Kaiming,et al.R-FCN:object de- Netherlands.2016:640-644. tection via region-based fully convolutional [17]YU Jiahui,JIANG Yuning,WANG Zhangyang,et al. networks[Cl//Proceedings of the 30th International Confer- UnitBox:an advanced object detection network[C]//Pro- ence on Neural Information Processing Systems.Bar- ceedings of the 24th ACM International Conference on celona,Spain,2016:379-387. Multimedia.Amsterdam,The Netherlands,2016: [7]HE Kaiming,GKIOXARI G,DOLLAR P,et al.Mask R- 516-520. CNN[C]//Proceedings of 2017 IEEE International Confer- [18]HUANG Lichao.YANG Yi,DENG Yafeng,et al.Dense- ence on Computer Vision.Venice,Italy,2017:2961-2969. Box:unifying landmark localization with end to end ob- [8]LIN T Y,GOYAL P,GIRSHICK R,et al.Focal loss for ject detection[EB/OL].(2015-09-19)[2021-05-07] dense object detection[C]//Proceedings of 2017 IEEE In- https://arxiv.org/abs/1509.04874 ternational Conference on Computer Vision.Venice,Italy, [19]LIN T Y,DOLLAR P,GIRSHICK R,et al.Feature pyr- 2017:2980-2988. amid networks for object detection[C]//Proceedings of [9]CAI Zhaowei,VASCONCELOS N.Cascade R-CNN: 2017 IEEE Conference on Computer Vision and Pattern delving into high quality object detection[Cl//Proceedings Recognition.Honolulu,USA,2017:2117-2125 of 2018 IEEE/CVF Conference on Computer Vision and [20]REZATOFIGHI H,TSOI N,GWAK J Y,et al.General- Pattern Recognition.Salt Lake City,USA,2018: ized intersection over union:a metric and a loss for 6154-6162 bounding box regression[C]//Proceedings of 2019 [10]REDMON J.FARHADI A.YOLO9000:better.faster. IEEE/CVF Conference on Computer Vision and Pattern stronger[C]//Proceedings of 2017 IEEE Conference on Recognition.Long Beach,USA,2019:658-666. Computer Vision and Pattern Recognition.Honolulu, [21]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. USA,2017:7263-7271 Deep residual learning for image recognition[C]//Proceed- [11]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single ings of 2016 IEEE Conference on Computer Vision and shot MultiBox detector[C]//Proceedings of the 14th Pattern Recognition.Las Vegas,USA,2016:770-778. European Conference on Computer Vision.Amsterdam, [22]HUANG Gao,LIU Zhuang,VAN DER MAATEN L,et The Netherlands,2016:21-37. al.Densely connected convolutional networks[Cl//Pro- [12]TIAN Zhi,SHEN Chunhua,CHEN Hao,et al.FCOS: ceedings of 2017 IEEE Conference on Computer Vision fully convolutional one-stage object detection[C]//Pro- and Pattern Recognition.Honolulu,USA,2017: ceedings of 2019 IEEE/CVF International Conference on 4700-4708. Computer Vision and Pattern Recognition.Long Beach, [23]LEE Y,HWANG J W,LEE S,et al.An energy and GPU- USA,2019:9627-9636. computation efficient backbone network for real-time ob-

Person reidentification by semisupervised dictionary rectification learning with retraining module[J]. Journal of electronic imaging, 2018, 27(4): 043043. 戴臣超, 王洪元, 倪彤光, 等. 基于深度卷积生成对抗网络和拓展近邻重排序的行人重识别 [J]. 计算机研究与发展, 2019, 56(8): 1632–1641. DAI Chenchao, WANG Hongyuan, NI Tongguang, et al. Person re-identification based on deep convolutional generative adversarial network and expanded neighbor reranking[J]. Journal of computer research and development, 2019, 56(8): 1632–1641. [3] JIAO Licheng, ZHANG Fan, LIU Fang, et al. A survey of deep learning-based object detection[J]. IEEE access, 2019, 7: 128837–128868. [4] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137–1149. [5] DAI Jifeng, LI Yi, HE Kaiming, et al. R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 379−387. [6] HE Kaiming, GKIOXARI G, DOLLÁR P, et al. Mask RCNN[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2961−2969. [7] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2980−2988. [8] CAI Zhaowei, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 6154−6162. [9] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 7263−7271. [10] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 21−37. [11] TIAN Zhi, SHEN Chunhua, CHEN Hao, et al. FCOS: fully convolutional one-stage object detection[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 9627−9636. [12] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 4438−4446. [13] LIU Fayao, SHEN Chunhua, LIN Guosheng, et al. Learning depth from single monocular images using deep convolutional neural fields[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(10): 2024–2039. [14] CHEN Yu, SHEN Chunhua, WEI Xiushen, et al. Adversarial PoseNet: a structure-aware convolutional network for human pose estimation[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 1212−1221. [15] BOOMINATHAN L, KRUTHIVENTI S S S, BABU R V. CrowdNet: a deep convolutional network for dense crowd counting[C]//Proceedings of the 24th ACM International Conference on Multimedia. Amsterdam, The Netherlands, 2016: 640−644. [16] YU Jiahui, JIANG Yuning, WANG Zhangyang, et al. UnitBox: an advanced object detection network[C]//Proceedings of the 24th ACM International Conference on Multimedia. Amsterdam, The Netherlands, 2016: 516−520. [17] HUANG Lichao, YANG Yi, DENG Yafeng, et al. DenseBox: unifying landmark localization with end to end object detection[EB/OL]. (2015−09-19)[2021−05-07] https://arxiv.org/abs/1509.04874. [18] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 2117−2125. [19] REZATOFIGHI H, TSOI N, GWAK J Y, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 658−666. [20] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [21] HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 4700−4708. [22] LEE Y, HWANG J W, LEE S, et al. An energy and GPUcomputation efficient backbone network for real-time ob- [23] 第 4 期齐鹏宇，等：基于改进 FCOS 的拥挤行人检测算法 ·817·

·818· 智能系统学报第16卷 ject detection[C]//Proceedings of 2019 IEEE/CVF Con- 作者简介： ference on Computer Vision and Pattern Recognition 齐鹏宇，硕士研究生，主要研究方 Workshops.Long Beach,USA,2019:752-760. 向为计算机视觉和行人检测。 [24]HU Jie,SHEN Li,SUN Gang.Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Confer- ence on Computer Vision and Pattern Recognition.Salt Lake City,USA,2018:7132-7141. [25]SHAO Shuai,ZHAO Zijian,LI Boxun,et al.CrowdHu- man:a benchmark for detecting human in a crowd[EB/OLl. 王洪元，教授，博士，主要研究方向为人工智能和模式识别。承担国家 (2018-04-30)[2021-05-07]https:/arxiv.org/pdf1805. 自然科学基金项目、省市科技研究基 00123.pdf 金项目等多项课题研究，发表学术论 [26]LIU Songtao,HUANG Di,WANG Yunhong.Adaptive 文百余篇。 NMS:refining pedestrian detection in a crowd[C]//Pro- ceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach,USA,2019: 张继，讲师，主要研究方向为计算 6459-6468. 机视觉和行人检测。 [27]GOYAL P,DOLLAR P,GIRSHICK R,et al.Accurate, large minibatch SGD:training ImageNet in I hour [EB/oL].(2018-04-30)[2021-05-07 ]https://arxiv.org pdf1706.02677.pdf 2021中国“AI+”创新创业大赛一智能信息创新与应用大赛人工智能技术已经深度融入信息生产和传播的各个环节，智能化也成为媒体未来的趋势和发展方向，智能信息发展需要更多技术和应用创新。由中国人工智能学会主办，新浪新闻承办的2021中国“AI+”创新创业大赛一一智能信息创新与应用大赛诚挚邀请研究人员、产业从业人员、高校学生以及爱好者参赛，助力智能信息发展。本次大赛将采用线上初赛和答辩方式进行，最终取得名次的队伍将进入2021中国“AI+”创新创业大赛全国总决赛。赛程安排：报名截止日期：2021年8月20日初赛作品提交截止日期：2021年9月5日答辩名单公布日期：2021年9月10日答辩和颁奖时间：2021年9月中旬 2021中国“AI+”创新创业大赛全国总决赛：2021年10月竞赛秘书处联系方式：报名网站：http:/202 laichina.caai.cn/ 联系邮箱：ai media(@vip.sina.com

ject detection[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Long Beach, USA, 2019: 752−760. HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 7132−7141. [24] SHAO Shuai, ZHAO Zijian, LI Boxun, et al. CrowdHuman: a benchmark for detecting human in a crowd[EB/OL]. (2018−04-30)[2021−05-07] https://arxiv.org/pdf/1805. 00123.pdf. [25] LIU Songtao, HUANG Di, WANG Yunhong. Adaptive NMS: refining pedestrian detection in a crowd[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 6459−6468. [26] GOYAL P, DOLLÁR P, GIRSHICK R, et al. Accurate, large minibatch SGD: training ImageNet in 1 hour [EB/OL]. (2018−04-30)[2021−05-07] https://arxiv.org/ pdf/1706.02677.pdf. [27] 作者简介：齐鹏宇，硕士研究生，主要研究方向为计算机视觉和行人检测。王洪元，教授，博士，主要研究方向为人工智能和模式识别。承担国家自然科学基金项目、省市科技研究基金项目等多项课题研究，发表学术论文百余篇。张继，讲师，主要研究方向为计算机视觉和行人检测。 2021 中国“AI+”创新创业大赛——智能信息创新与应用大赛人工智能技术已经深度融入信息生产和传播的各个环节，智能化也成为媒体未来的趋势和发展方向，智能信息发展需要更多技术和应用创新。由中国人工智能学会主办，新浪新闻承办的 2021 中国“AI+”创新创业大赛——智能信息创新与应用大赛诚挚邀请研究人员、产业从业人员、高校学生以及爱好者参赛，助力智能信息发展。本次大赛将采用线上初赛和答辩方式进行，最终取得名次的队伍将进入 2021 中国“AI+”创新创业大赛全国总决赛。赛程安排：报名截止日期：2021 年 8 月 20 日初赛作品提交截止日期：2021 年 9 月 5 日答辩名单公布日期：2021 年 9 月 10 日答辩和颁奖时间：2021 年 9 月中旬 2021 中国“AI+”创新创业大赛全国总决赛：2021 年 10 月竞赛秘书处联系方式：报名网站：http://2021aichina.caai.cn/ 联系邮箱：ai_media@vip.sina.com ·818· 智能系统学报第 16 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录