【机器学习】多层卷积特征的真实场景下行人检测研究

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：1.37MB

第14卷第2期智能系统学报 Vol.14 No.2 2019年3月 CAAI Transactions on Intelligent Systems Mar.2019 D0:10.11992/tis.201710019 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180416.1401.010html 多层卷积特征的真实场景下行人检测研究伍鹏瑛2，张建明2，彭建2，陆朝铨2 (1.长沙理工大学综合交通运输大数据智能处理湖南省重点实验室，湖南长沙410114；2.长沙理工大学计算机与通信工程学院，湖南长沙410114) 摘要：针对真实场景下的行人检测方法存在漏检、误检率高，以及小尺寸目标检测精度低等问题，提出了一种基于改进SSD网络的行人检测模型(PDIS)。PDIS通过引出更底层的输出特征图改进了原始SSD网络模型，并采用卷积神经网络不同层输出的抽象特征对行人目标分别做检测，融合多层检测结果，提升了小目标行人的检测性能。此外，针对数据集样本多样性能有效地提升检测算法的泛化能力，本文采集了不同光照、姿态、遮挡等复杂场景下的行人图像，对背景比较复杂的NRIA行人数据集进行了扩充，在扩增的行人数据集上训练的PDIS模型，提高了在真实场景下的行人检测精度。实验表明：PDIS在INRIA测试集上测试结果达到 93.8%的准确率，漏检率低至7.4%。关键词：行人检测：卷积神经网络：SSD:真实场景：多尺度特征：目标检测：小目标行人：行人数据集中图分类号：TP391文献标志码：A文章编号：1673-4785(2019)02-0306-10 中文引用格式：伍鹏瑛，张建明，彭建，等.多层卷积特征的真实场景下行人检测研究{J.智能系统学报，2019,14(2)： 306-315. 英文引用格式：VU Pengying,.ZHANGJianming,.PENGJian,,etal.Research on pedestrian detection based on multi--layer convolu- tion feature in real sceneJI.CAAI transactions on intelligent systems,2019,14(2):306-315. Research on pedestrian detection based on multi-layer convolution feature in real scene WU Pengying,ZHANG Jianming,PENG Jian'2,LU Chaoquan'2 (1.Hunan Provincial Key Laboratory of Intelligent Processing of Big Data on Transportation,Changsha University of Science and Technology,Changsha 410114,China;2.School of Computer and Communication Engineering,Changsha University of Science and Technology,Changsha 410114,China) Abstract:Pedestrian detection methods in real scenes face some problems due to the high miss detection and false de- tection as well as the low detection accuracy of small size objects.To solve these problems,a pedestrian detection mod- el based on improved SSD(PDIS)is proposed.The PDIS method improves the original SSD network model by extract- ing the lower-level output feature maps.It employs the abstract features of different convolutional neural network layers to detect pedestrians respectively,and then integrates the detection results of multi layers to increase the pedestrian de- tection performance for small sizes.Considering that the diversity of dataset can effectively enhance the generalization ability of detection algorithm,the paper expands the INRIA pedestrian dataset with complex background by collecting pedestrian images with different illumination,pose and occlusion.The PDIS method trained on expanded pedestrian dataset increases the precision rate of pedestrian detection in real scenes.The experiment results on INRIA test set indic- ate that the precision rate of PDIS algorithm is up to 93.8%and the miss rate is as low as 7.4%. Keywords:pedestrian detection:CNN:single shot multibox detector:real scene:multi-scale features:object detection: small target pedestrians;Pedestrian dataset 收稿日期：2017-10-31.网络出版日期：2018-04-16 行人检测是判断输入的图像或视频中是否含基金项目：国家自然科学基金项目(61402053)：湖南省教育厅科研重点项目(16A008):湖南省交通厅科技项目有行人，并准确的找出行人的具体位置。行人检 (201446):长沙理工大学研究生科研创新项目 (CX20I7SS19):长沙理工大学研究生课程建设项目测作为目标检测的一个子方向，在视频监控、行 (KC201611). 通信作者：张建明.E-mail:jmzhang@csust..edu.cn. 人识别山、图像检索以及先进的驾驶员辅助系统

DOI: 10.11992/tis.201710019 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180416.1401.010.html 多层卷积特征的真实场景下行人检测研究伍鹏瑛1,2，张建明1,2，彭建1,2，陆朝铨1,2 （1. 长沙理工大学综合交通运输大数据智能处理湖南省重点实验室，湖南长沙 410114; 2. 长沙理工大学计算机与通信工程学院，湖南长沙 410114）摘要：针对真实场景下的行人检测方法存在漏检、误检率高，以及小尺寸目标检测精度低等问题，提出了一种基于改进 SSD 网络的行人检测模型 (PDIS)。PDIS 通过引出更底层的输出特征图改进了原始 SSD 网络模型，并采用卷积神经网络不同层输出的抽象特征对行人目标分别做检测，融合多层检测结果，提升了小目标行人的检测性能。此外，针对数据集样本多样性能有效地提升检测算法的泛化能力，本文采集了不同光照、姿态、遮挡等复杂场景下的行人图像，对背景比较复杂的 INRIA 行人数据集进行了扩充，在扩增的行人数据集上训练的 PDIS 模型，提高了在真实场景下的行人检测精度。实验表明：PDIS 在 INRIA 测试集上测试结果达到 93.8% 的准确率，漏检率低至 7.4%。关键词：行人检测；卷积神经网络；SSD；真实场景；多尺度特征；目标检测；小目标行人；行人数据集中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2019)02−0306−10 中文引用格式：伍鹏瑛, 张建明, 彭建, 等. 多层卷积特征的真实场景下行人检测研究[J]. 智能系统学报, 2019, 14(2): 306–315. 英文引用格式：WU Pengying, ZHANG Jianming, PENG Jian, et al. Research on pedestrian detection based on multi-layer convolution feature in real scene[J]. CAAI transactions on intelligent systems, 2019, 14(2): 306–315. Research on pedestrian detection based on multi-layer convolution feature in real scene WU Pengying1,2 ，ZHANG Jianming1,2 ，PENG Jian1,2 ，LU Chaoquan1,2 (1. Hunan Provincial Key Laboratory of Intelligent Processing of Big Data on Transportation, Changsha University of Science and Technology, Changsha 410114, China; 2. School of Computer and Communication Engineering, Changsha University of Science and Technology, Changsha 410114, China) Abstract: Pedestrian detection methods in real scenes face some problems due to the high miss detection and false detection as well as the low detection accuracy of small size objects. To solve these problems, a pedestrian detection model based on improved SSD (PDIS) is proposed. The PDIS method improves the original SSD network model by extracting the lower-level output feature maps. It employs the abstract features of different convolutional neural network layers to detect pedestrians respectively, and then integrates the detection results of multi layers to increase the pedestrian detection performance for small sizes. Considering that the diversity of dataset can effectively enhance the generalization ability of detection algorithm, the paper expands the INRIA pedestrian dataset with complex background by collecting pedestrian images with different illumination, pose and occlusion. The PDIS method trained on expanded pedestrian dataset increases the precision rate of pedestrian detection in real scenes. The experiment results on INRIA test set indicate that the precision rate of PDIS algorithm is up to 93.8% and the miss rate is as low as 7.4%. Keywords: pedestrian detection; CNN; single shot multibox detector; real scene; multi-scale features; object detection; small target pedestrians; Pedestrian dataset 行人检测是判断输入的图像或视频中是否含有行人，并准确的找出行人的具体位置。行人检测作为目标检测的一个子方向，在视频监控、行人识别[1] 、图像检索以及先进的驾驶员辅助系统收稿日期：2017−10−31. 网络出版日期：2018−04−16. 基金项目：国家自然科学基金项目 (61402053)；湖南省教育厅科研重点项目 (16A008)；湖南省交通厅科技项目 (201446) ；长沙理工大学研究生科研创新项目 (CX2017SS19)；长沙理工大学研究生课程建设项目 (KC201611). 通信作者：张建明. E-mail：jmzhang@csust.edu.cn. 第 14 卷第 2 期智能系统学报 Vol.14 No.2 2019 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2019

第2期伍鹏瑛，等：多层卷积特征的真实场景下行人检测研究 ·307· 等领域有着广泛的应用。由于行人具有非刚性征上融合颜色特征、纹理特征等诸多算法；2005 属性，决定了行人检测不同于普通的目标检测，年Dalal等提出了HOG结合分类器SVM的算另外存在着许多制约行人检测的因素，如现实场法，取得了较好的效果，并陆续提出的ACF(ag 景中背景的复杂多样性、光照变化、行人遮挡、姿 gregated channel features)m、LDCF2等算法都具有态变化、拍摄角度多样化、实时性要求、小目标行很好的检测效果。2015年Zhang等把HOG特人等。这些因素给行人检测带来了巨大的挑战，征结合光流特征进一步提高了行人检测性能。针因此行人检测一直是计算机视觉领域中的研究热对在同一张图像有不同尺寸的目标时，传统方法点和难点。主要有两种处理方法：1)将原始图像转换成不同传统的行人检测的效果依赖于特征的选取以尺寸大小的图像输入固定尺寸的滑动窗口分别提及分类器的学习。一个好的特征即使结合简单的取特征，该方法的检测精度较好，但是计算复杂，分类器仍能够取得不错的检测效果，所以传统的其流程如图1所示；2)用固定大小不变的图像输行人检测研究重点在于行人的特征提取及分类。入多尺度缩放的滑动窗进行特征提取。方法尽管传统的行人检测算法取得了不少的研究成 2)避免了测试图像的多尺度计算，检测速度较快果，但是在实际生活场景的检测效果依然不理但其精度比较差。想。近年来深度学习的方法在目标检测、语音识别、图像分类等方面取得了突破性的进展，与传行统检测算法相比，卷积神经网络(CNN)通过权值共享，大大减少了网络的参数，进而降低了算法复杂人检测器度。CNN的卷积运算以及下采样能很好的学习到图像的颜色、纹理等特征，使之对图像的缩放、平移具有很好的鲁棒性。因此，深度学习算法在行人检图1多尺度输入图像检测流程测领域里的检测精度以及实时性都优于传统算法。 Fig.1 Object detection with multi-scale input 针对真实场景下的行人检测精度不高，小目 2012年Krizhevsky等i在ImageNet竞赛上训标行人的漏检率较高的问题，本文对目前优秀的练出一个8层的卷积神经网络，取得了视觉领域深度模型进行了改进。通过引出S$D网络模型竞赛ILSVRC2012的冠军。在此之后，深度学习中更底层特征做检测以及增加输入图像大小来增算法层出不穷，典型的算法有VGG-Nets1、R- 加深度模型的分辨率，提高了对小目标行人的检 CNNl6、Faster R-CNNI;Redmon等usl提出的测性能。卷积网络中的底层特征能检测到尺寸较 YOLO直接在输出层回归目标位置与类别，加快小的目标，而深层特征可以检测到尺寸较大的目了目标检测速度及精度：Liu等提出了SSD融合标，因此引出SSD网络中多层输出特征图，将检卷积层的多层输出特征做检测，进一步提高了目测结果综合后确定目标位置。此外，训练数据集标检测精度。由于CNN提取的特征比传统特征的数量跟数据集样本的多样性也是深度学习算法更具鲁棒性，其良好的特征表达能力提高了行人取得优秀成果的主要原因。因此本文采用车载摄检测性能，因此许多研究学者将深度学习算法应像头拍摄了各种场合、光照、遮挡、姿态等复杂的用于行人检测领域。文献[19]引入级联CNN网络背景下的行人视频，在NRIA行人数据集上，扩在拥挤场景中准确地检测行人；Hosang等2o利用增了一个复杂场景下的行人数据集CSUSTPD。 SquaresChnFtrs!2产生行人候选窗口用于训练 AlexNet"。文献22]利用光流卷积神经网络对光 1相关工作流图序列中提取行人特征，该特征具有较强的全传统的行人检测流程主要由行人图像输入、局描述能力；Tian等2利用深度学习结合部件模行人的特征提取、分类与定位、检测结果等几个型解决行人检测中的遮挡问题。文献24]采用级模块组成)，其研究重点在于行人的特征提取及联的Adaboost检测器对行人目标进行初步筛选，分类，比较常见的特征提取算子有SIFT61 再用迁移学习技术训练卷积神经网络来提高检测 Haar、梯度方向直方图HOG等；代表性的分类精度；Zhang等2s利用级联的决策森林来分类器有神经网络、Adaboost!1、支持向量机SVM RPN网络(region proposal network)产生的行人候随机森林RFo等。基于HOG特征的提取极大地选窗口。推动了行人检测的发展，并随后出现了在HOG特训练深度CNN模型时，数据集的数量跟数据

等领域有着广泛的应用[2]。由于行人具有非刚性属性，决定了行人检测不同于普通的目标检测，另外存在着许多制约行人检测的因素，如现实场景中背景的复杂多样性、光照变化、行人遮挡、姿态变化、拍摄角度多样化、实时性要求、小目标行人等。这些因素给行人检测带来了巨大的挑战，因此行人检测一直是计算机视觉领域中的研究热点和难点。传统的行人检测的效果依赖于特征的选取以及分类器的学习。一个好的特征即使结合简单的分类器仍能够取得不错的检测效果，所以传统的行人检测研究重点在于行人的特征提取及分类。尽管传统的行人检测算法取得了不少的研究成果，但是在实际生活场景的检测效果依然不理想。近年来深度学习的方法在目标检测、语音识别、图像分类等方面取得了突破性的进展，与传统检测算法相比，卷积神经网络 (CNN) 通过权值共享，大大减少了网络的参数，进而降低了算法复杂度。CNN 的卷积运算以及下采样能很好的学习到图像的颜色、纹理等特征，使之对图像的缩放、平移具有很好的鲁棒性。因此，深度学习算法在行人检测领域里的检测精度以及实时性都优于传统算法。针对真实场景下的行人检测精度不高，小目标行人的漏检率较高的问题，本文对目前优秀的深度模型进行了改进。通过引出 SSD[3]网络模型中更底层特征做检测以及增加输入图像大小来增加深度模型的分辨率，提高了对小目标行人的检测性能。卷积网络中的底层特征能检测到尺寸较小的目标，而深层特征可以检测到尺寸较大的目标，因此引出 SSD 网络中多层输出特征图，将检测结果综合后确定目标位置。此外，训练数据集的数量跟数据集样本的多样性也是深度学习算法取得优秀成果的主要原因。因此本文采用车载摄像头拍摄了各种场合、光照、遮挡、姿态等复杂的背景下的行人视频，在 INRIA[4]行人数据集上，扩增了一个复杂场景下的行人数据集 CSUSTPD。 1 相关工作传统的行人检测流程主要由行人图像输入、行人的特征提取、分类与定位、检测结果等几个模块组成[5] ，其研究重点在于行人的特征提取及分类，比较常见的特征提取算子有 SIFT [ 6 ] 、 Haar[7] 、梯度方向直方图 HOG[4]等；代表性的分类器有神经网络、Adaboost[8] 、支持向量机 SVM[9] 、随机森林 RF[10]等。基于 HOG 特征的提取极大地推动了行人检测的发展，并随后出现了在 HOG 特征上融合颜色特征、纹理特征等诸多算法；2005 年 Dalal 等 [4]提出了 HOG 结合分类器 SVM 的算法，取得了较好的效果，并陆续提出的 ACF(aggregated channel features)[11] 、LDCF[12]等算法都具有很好的检测效果。2015 年 Zhang 等 [13]把 HOG 特征结合光流特征进一步提高了行人检测性能。针对在同一张图像有不同尺寸的目标时，传统方法主要有两种处理方法：1) 将原始图像转换成不同尺寸大小的图像输入固定尺寸的滑动窗口分别提取特征，该方法的检测精度较好，但是计算复杂，其流程如图 1 所示；2) 用固定大小不变的图像输入多尺度缩放的滑动窗进行特征提取。方法 2) 避免了测试图像的多尺度计算，检测速度较快但其精度比较差。 2012 年 Krizhevsky 等 [14]在 ImageNet 竞赛上训练出一个 8 层的卷积神经网络，取得了视觉领域竞赛 ILSVRC 2012 的冠军。在此之后，深度学习算法层出不穷，典型的算法有 VGG-Net[ 1 5 ] 、RCNN[16] 、Faster R-CNN[17] ；Redmon 等 [18]提出的 YOLO 直接在输出层回归目标位置与类别，加快了目标检测速度及精度；Liu 等 [3]提出了 SSD 融合卷积层的多层输出特征做检测，进一步提高了目标检测精度。由于 CNN 提取的特征比传统特征更具鲁棒性，其良好的特征表达能力提高了行人检测性能，因此许多研究学者将深度学习算法应用于行人检测领域。文献[19]引入级联 CNN 网络在拥挤场景中准确地检测行人；Hosang 等 [20]利用 SquaresChnFtrs[ 2 1 ]产生行人候选窗口用于训练 AlexNet[14]。文献[22]利用光流卷积神经网络对光流图序列中提取行人特征，该特征具有较强的全局描述能力；Tian 等 [23]利用深度学习结合部件模型解决行人检测中的遮挡问题。文献[24]采用级联的 Adaboost 检测器对行人目标进行初步筛选，再用迁移学习技术训练卷积神经网络来提高检测精度；Zhang 等 [ 2 5 ]利用级联的决策森林来分类 RPN 网络 (region proposal network) 产生的行人候选窗口。训练深度 CNN 模型时，数据集的数量跟数据行人检测器图 1 多尺度输入图像检测流程 Fig. 1 Object detection with multi-scale input 第 2 期伍鹏瑛，等：多层卷积特征的真实场景下行人检测研究 ·307·

·308· 智能系统学报第14卷集样本的多样性能增强算法检测的泛化能力。现和类别的检测算法，整个网络没有生成候选窗口有的行人数据集如Daimler行人数据集P含训练的过程。SSD算法的骨干网络结构是VGG16I町样本集有正样本大小为18×36和48×96的图像。将VGG16最后两个全连接层改成卷积层再增加较早公开的MT行人数据集2)含924张宽高为 4个卷积层构造网络结构。表1展示了整个 64×128行人图像，肩到脚的距离约80像素。该 SSD网络中每个卷积层中卷积核的大小、数目，数据库只含正面和背面两个视角，无负样本，并卷积的步长，特征图有无填充以及每层输出特征且未区分训练集和测试集。NICTA行人数据集2 图的大小。图2为SSD算法的目标检测流程图，标注要求行人高度至少要大于40个像素。这些 SSD检测算法分别把conv4_3、fc7、conv6_2 数据集训练样本存在从大图像中剪切出的单个行 conv7_2、conv82和conv9_2等6个不同卷积层人图像、分辨率偏低、对小目标行人无标注的问的特征图引出做检测，其特征图与两个3×3的卷题，且行人数据集训练样本背景单一。因此，这积核卷积后得到两个输出，分别作为分类时使用些数据集不适合用于训练深度卷积网络模型。的置信度以及回归时使用的位置信息。将每层计 2 SSD网络算结果合并后传递给损失层，该层对所有层的检测结果进行综合，通过非极大值抑制输出目标的 SSD算法是一种直接预测目标边界框的坐标检测结果。表1SSD网络参数表 Table 1 Parameters of SSD Network 卷积层卷积核卷积核数量步长填充输出特征图像素大小 Conv1 1 3×3 64 1 300×300 Conv1_2 3×3 64 1 300×300 Maxpooll 2×2 1 2 0 150×150 Conv2_I 3×3 128 1 1 150×150 Conv2_2 3×3 128 1 150×150 Maxpool2 2×2 1 2 0 75×75 Conv3_1 3×3 256 1 75×75 Conv3_2 3×3 256 1 1 75×75 Conv3_3 3×3 256 1 75×75 Maxpool3 2×2 1 2 0 38×38 Conv4_1 3x3 512 1 38×38 Conv4 2 3×3 512 1 38×38 Conv4 3 3×3 512 1 38×38 Maxpool4 2×2 1 2 0 19×19 Conv5_1 3×3 512 1 19×19 Conv5 2 3×3 512 1 19×19 Conv5_3 3×3 512 1 19×19 Maxpool5 3×3 1 1 1 19×19 Fc6 3×3 1024 1 19×19 Fc7 1×1 1024 0 19×19 Conv6_1 1×1 256 1 0 19×19 Conv6_2 3x3 512 2 1 10×10 Conv7_1 1×1 128 0 10×10 Conv7_2 3×3 256 2 5x5 Conv8_1 1x1 128 1 0 5x5 Conv8_2 3×3 256 0 3×3 Conv9 1 1x1 128 0 3×3 Conv9 2 3×3 256 0 1×1

集样本的多样性能增强算法检测的泛化能力。现有的行人数据集如 Daimler 行人数据集[26]含训练样本集有正样本大小为 18×36 和 48×96 的图像。较早公开的 MIT 行人数据集[27]含 924 张宽高为 64×128 行人图像，肩到脚的距离约 80 像素。该数据库只含正面和背面两个视角，无负样本，并且未区分训练集和测试集。NICTA 行人数据集[28] 标注要求行人高度至少要大于 40 个像素。这些数据集训练样本存在从大图像中剪切出的单个行人图像、分辨率偏低、对小目标行人无标注的问题，且行人数据集训练样本背景单一。因此，这些数据集不适合用于训练深度卷积网络模型。 2 SSD 网络 SSD 算法是一种直接预测目标边界框的坐标和类别的检测算法，整个网络没有生成候选窗口的过程。SSD 算法的骨干网络结构是 VGG16[15] ，将 VGG16 最后两个全连接层改成卷积层再增加 4 个卷积层构造网络结构。表 1 展示了整个 SSD 网络中每个卷积层中卷积核的大小、数目，卷积的步长，特征图有无填充以及每层输出特征图的大小。图 2 为 SSD 算法的目标检测流程图， SSD 检测算法分别把 conv4_3、fc7、conv6_2、 conv7_2、conv8_2 和 conv9_2 等 6 个不同卷积层的特征图引出做检测，其特征图与两个 3×3 的卷积核卷积后得到两个输出，分别作为分类时使用的置信度以及回归时使用的位置信息。将每层计算结果合并后传递给损失层，该层对所有层的检测结果进行综合，通过非极大值抑制输出目标的检测结果。表 1 SSD 网络参数表 Table 1 Parameters of SSD Network 卷积层卷积核卷积核数量步长填充输出特征图像素大小 Conv1_1 3×3 64 1 1 300×300 Conv1_2 3×3 64 1 1 300×300 Maxpool1 2×2 1 2 0 150×150 Conv2_1 3×3 128 1 1 150×150 Conv2_2 3×3 128 1 1 150×150 Maxpool2 2×2 1 2 0 75×75 Conv3_1 3×3 256 1 1 75×75 Conv3_2 3×3 256 1 1 75×75 Conv3_3 3×3 256 1 1 75×75 Maxpool3 2×2 1 2 0 38×38 Conv4_1 3×3 512 1 1 38×38 Conv4_2 3×3 512 1 1 38×38 Conv4_3 3×3 512 1 1 38×38 Maxpool4 2×2 1 2 0 19×19 Conv5_1 3×3 512 1 1 19×19 Conv5_2 3×3 512 1 1 19×19 Conv5_3 3×3 512 1 1 19×19 Maxpool5 3×3 1 1 1 19×19 Fc6 3×3 1 024 1 1 19×19 Fc7 1×1 1 024 1 0 19×19 Conv6_1 1×1 256 1 0 19×19 Conv6_2 3×3 512 2 1 10×10 Conv7_1 1×1 128 1 0 10×10 Conv7_2 3×3 256 2 1 5×5 Conv8_1 1×1 128 1 0 5×5 Conv8_2 3×3 256 1 0 3×3 Conv9_1 1×1 128 1 0 3×3 Conv9_2 3×3 256 1 0 1×1 ·308· 智能系统学报第 14 卷

第2期伍鹏瑛，等：多层卷积特征的真实场景下行人检测研究 ·309· 效果，但受卷积神经网络中特定特征层感受野大小限制，单独一层的特征无法应对多姿态多尺度入图片大值抑制的行人0。因此，本文提出了改进的SSD模型用于行人检测。 3多层卷积特征的行人检测算法图2 SSD目标检测流程图 Fig.2 Detection flowchart for SSD object algorithm 3.1基于改进SSD的行人检测算法 SSD算法关键核心点是同时采用底层和顶层随着深度学习的快速发展，CNN已经广泛地的特征图做检测。在不同层卷积输出的若干特征应用于目标检测中，在实时性和准确性上都优于图中的每个位置处评估不同纵横比的默认框。默传统算法的性能。SSD算法是以VGG16网络模认框是指在特征图的每个网格上都有一系列固定型为基础的前向传播的深度卷积网络模型，对卷大小的框。每个网格有k个默认框，每个默认框积后得到的特征图分别预判目标位置跟类别置信预测c个目标类别的分数和4个偏移。若特征图度，实现快速且精准目标检测效果。但原始S$D 的大小为mn,即有mn个特征图网格，则该特征算法对同一张图像中小尺寸目标检测效果较差，图共有(c+4)×k×m×n个输出。在训练阶段，将默主要原因有两点：1)输入图像在深度卷积神经网认框和真实框(ground truth box)进行匹配，一旦匹络中经过网络的卷积、池化后特征图变小，原始配成功，则默认框即为正样本，反之则为负样 SSD算法conv43输出的特征图与原始输入图像本。根据置信度的损失值对负样本进行排序，得相比缩小至原来的1/8，特征图的变小导致检测的到靠前的负训练样本，使得正负样本的比例保持目标丢失了大部分的细节信息，在训练阶段严重在3：1。在预测阶段，得到默认框的偏移及目标类的影响了算法对各项参数的学习，且后续的fc7 别相应的置信度。 conv62等层输出的特征图缩小更多，对算法的 SSD网络的目标损失函数表示为训练影响更大；2)输入图像分辨率的大小对SSD L(wc.1g)-(L()+aLe()) (1) 算法的影响。训练的图像较小，卷积池化后得到的特征图会对应地减小，使得训练阶段S$D网络式中：N为匹配到的默认框个数；I为预测框；g为参数的学习不完全造成过拟合；若输人图像较真实框；c为多类别目标的置信度；Loe为位置损大，网络学习的参数大量增加，使得算法计算复失；Lcot为置信度损失；a通过交叉验证设为l。位置损失是预测框I和真实框g之间的杂度增加，速度减慢。 smooth损失2，如式(2)所示，通过对边界框的本文在权衡算法的精准度及实时性的基础坐标中心点(x,y)以及宽度w和高度h的偏移进上，对SSD模型更底层的输出特征图进行特征提行回归.使得位置损失最小。取，获取更多特征图的纹理、边缘等细节信息，增强了SSD模型对行人目标的检测性能，提升对小 Lioc(x,l,g）= ∑∑smoot(-8) (2) iE(Pos)mEcx.cy.w 目标行人的检测能力。图3为本文基于改进SSD 模型的行人检测(pedestrian detection based on im- 式中：8=(g5-d)/d,83=(g3-d)/d,8= proved SSD,PDIS)框架，行人图像通过改进SSD log(g/d),8=log(g/d);g、g分别表示第j个卷积网络中的各卷积层输出多层次特征图，并在真实框中心点(x,y):d、d分别表示第i个默认多层次的特征图上提取特征做检测，将多层特征框的中心点(x,y):g”、g分别表示第j个真实框宽图的检测结果进行综合实现行人检测。由图3的度跟高度；d”、d分别表示第i个默认框的宽度跟高度。特征图可视化结果可知，底层卷积conv33输出置信度损失是多类别置信度c的softmax损的特征图比较大，且纹理、轮廓信息明确，因此该失如式(3)所示。层的特征图可以提取到小目标行人的细节信息。 Lconf(x,c） x号log()- ∑og(e (3) conv92卷积层输出的特征图变得很小，原始图像的大部分信息丢失，尤其小物体信息丢失严式中：Y=exp(c)/∑pexp(c),表示第i个默认框重，因此该层只能获取较大目标的行人信息。随的类别的置信度，p表示目标的类别，0表示目标着网络层数增加，原始图像的信息会随着输出特外的背景，x表示第i个默认框与类别p匹配的征的尺寸变小而减少。底层输出特征图可以检测第广个真实框相。较小的行人目标，深层输出的特征可以检测较大相比现有的目标检测方法，SSD算法不管是的行人目标，因此PDIS通过结合多层特征图检在检测速度还是检测精度上都取得了非常优秀的测结果，提升了多尺寸行人的检测性能

SSD 算法关键核心点是同时采用底层和顶层的特征图做检测。在不同层卷积输出的若干特征图中的每个位置处评估不同纵横比的默认框。默认框是指在特征图的每个网格上都有一系列固定大小的框。每个网格有 k 个默认框，每个默认框预测 c 个目标类别的分数和 4 个偏移。若特征图的大小为 mn，即有 mn 个特征图网格，则该特征图共有 (c+4)×k×m×n 个输出。在训练阶段，将默认框和真实框 (ground truth box) 进行匹配，一旦匹配成功，则默认框即为正样本，反之则为负样本。根据置信度的损失值对负样本进行排序，得到靠前的负训练样本，使得正负样本的比例保持在 3:1。在预测阶段，得到默认框的偏移及目标类别相应的置信度。 SSD 网络的目标损失函数表示为 L(x, c,l,g) = 1 N (Lconf(x, c)+αLloc(x,l,g)) (1) α 式中：N 为匹配到的默认框个数；l 为预测框；g 为真实框；c 为多类别目标的置信度；Lloc 为位置损失；Lconf 为置信度损失；通过交叉验证设为 1。位置损失是预测框 l 和真实框 g 之间的 smoothL1 损失[29] ，如式 (2) 所示，通过对边界框的坐标中心点 (x，y) 以及宽度 w 和高度 h 的偏移进行回归，使得位置损失最小。 Lloc(x,l,g) = ∑N i∈(Pos) ∑ m∈{cx,cy,w,h} x k i jsmoothL1(L m i −gˆ m j ) (2) gˆ cx = (g cx j −d cx i )/d w i gˆ cy j = (g cy j −d cy i )/d h i gˆ w j = log(g w j /d w i ) gˆ h j = log(g h j /d h i ) g cx j 、g cy j d cx i 、d cy i g w j g h j d w i d h i 式中：，，，；分别表示第 j 个真实框中心点 (x，y)；分别表示第 i 个默认框的中心点 (x，y)；、分别表示第 j 个真实框宽度跟高度；、分别表示第i个默认框的宽度跟高度。置信度损失是多类别置信度 c 的 softmax 损失如式 (3) 所示。 Lconf(x, c) = − ∑N i∈Pos x p i j log(ˆc p i )− ∑ i∈Neg log(ˆc 0 i ) (3) cˆ p i = exp(c p i )/ ∑ p exp(c p i ) cˆ p i x p i j 式中：，表示第 i 个默认框的类别的置信度，p 表示目标的类别，0 表示目标外的背景，表示第 i 个默认框与类别 p 匹配的第 j 个真实框相。相比现有的目标检测方法，SSD 算法不管是在检测速度还是检测精度上都取得了非常优秀的效果，但受卷积神经网络中特定特征层感受野大小限制，单独一层的特征无法应对多姿态多尺度的行人[30]。因此，本文提出了改进的 SSD 模型用于行人检测。 3 多层卷积特征的行人检测算法 3.1 基于改进 SSD 的行人检测算法随着深度学习的快速发展，CNN 已经广泛地应用于目标检测中，在实时性和准确性上都优于传统算法的性能。SSD 算法是以 VGG16 网络模型为基础的前向传播的深度卷积网络模型，对卷积后得到的特征图分别预判目标位置跟类别置信度，实现快速且精准目标检测效果。但原始 SSD 算法对同一张图像中小尺寸目标检测效果较差，主要原因有两点：1) 输入图像在深度卷积神经网络中经过网络的卷积、池化后特征图变小，原始 SSD 算法 conv4_3 输出的特征图与原始输入图像相比缩小至原来的 1/8，特征图的变小导致检测的目标丢失了大部分的细节信息，在训练阶段严重的影响了算法对各项参数的学习，且后续的 fc7、 conv6_2 等层输出的特征图缩小更多，对算法的训练影响更大；2) 输入图像分辨率的大小对 SSD 算法的影响。训练的图像较小，卷积池化后得到的特征图会对应地减小，使得训练阶段 SSD 网络参数的学习不完全造成过拟合；若输入图像较大，网络学习的参数大量增加，使得算法计算复杂度增加，速度减慢。本文在权衡算法的精准度及实时性的基础上，对 SSD 模型更底层的输出特征图进行特征提取，获取更多特征图的纹理、边缘等细节信息，增强了 SSD 模型对行人目标的检测性能，提升对小目标行人的检测能力。图 3 为本文基于改进 SSD 模型的行人检测 (pedestrian detection based on improved SSD，PDIS) 框架，行人图像通过改进 SSD 卷积网络中的各卷积层输出多层次特征图，并在多层次的特征图上提取特征做检测，将多层特征图的检测结果进行综合实现行人检测。由图 3 的特征图可视化结果可知，底层卷积 conv3_3 输出的特征图比较大，且纹理、轮廓信息明确，因此该层的特征图可以提取到小目标行人的细节信息。 conv9_2 卷积层输出的特征图变得很小，原始图像的大部分信息丢失，尤其小物体信息丢失严重，因此该层只能获取较大目标的行人信息。随着网络层数增加，原始图像的信息会随着输出特征的尺寸变小而减少。底层输出特征图可以检测较小的行人目标，深层输出的特征可以检测较大的行人目标，因此 PDIS 通过结合多层特征图检测结果，提升了多尺寸行人的检测性能。非极大值抑制检测输入图片 VGG16 Conv4_3 Fc7 Conv6_2 Conv7_2 Conv8_2 Con9_2 图 2 SSD 目标检测流程图 Fig. 2 Detection flowchart for SSD object algorithm 第 2 期伍鹏瑛，等：多层卷积特征的真实场景下行人检测研究 ·309·

第2期伍鹏瑛，等：多层卷积特征的真实场景下行人检测研究 ·311· PDIS在每层输出特征图上的每个特征图网大小为300×300。在CNN中经过卷积、池化特征格预设有4个默认框，在不同输出层的特征图上图不断减小，原始SSD算法最底层conv43引出有不同尺寸大小的默认框，在同一个特征图上又特征图大小为38×38，相比原始图像缩小至原来有不同纵横比的默认框，实现了图像中各种形状的1/8，在原始图像中一个8×8的目标在conv4输和尺寸大小的目标检测。行人的高度跟宽度之比出的特征图表现为一个像素点，该目标的细节信一般在1：1、2：1、3：1、1：2这些比例内，不同于原息完全丢失。卷积输出的特征图会随网络层数的始SSD算法，本文将默认框的纵横比a,设置为符增加而减小。导致训练阶几乎无法学习到小目标合行人的4种比例分别为1：1、2：1、3：1、1：2，加物体的信息。因此，数据集的训练图像分辨率大速了行人区域定位。且默认框的尺度定义为小很大程度影响了卷积神经网络的学习，训练图 =5n+-(k-1),ke,m (4) 像分辨率太小，训练时模型很难收敛，检测精度 m-1 低。本文把训练预设输入图像尺寸大小从300× 式中：w=V瓦，h=S/V瓦，当a,=时s=VSS+I; 300变大到512×512，增加卷积后输出特征图的分 sk、s表示默认框的尺寸，Smin、Smax分别表示0.1和辨率，能获得原图像中更加丰富、更加细节的信 0.9,m表示PDIS中间层输出做预测特征图层数，息。测试结果表明：用放大的行人图像训练PDIS 、分别表示每一个默认框的宽度跟高度。模型能够检测到同一张图像中更小尺寸的行人， PDIS模型融合多层特征图的特征做检测，解进一步提升了行人小目标检测效果。决了同一张图像中不同尺度的目标检测问题。通 3.2数据集扩增过研究用不同层输出特征图以及网络输出层的数增加数据集的多样性来训练PDIS模型可以量对算法行人性能的影响，本文在原始SSD的基增强算法检测的泛化能力。一般使用单一的行人础上引出更底层卷积conv33的特征图做检测，数据集训练卷积网络模型时，在其本身数据集上在该层的特征图上提取特征获得了原始输入行人测试的效果会很理想，然而在其他数据集上测试图像的更多细节信息。实验表明引出卷积时效果往往不好。因此，行人数据集所包含的样 conv33的输出特征图做检测，特征维度的计算本的数量、样本背景的多样性以及样本中有无对复杂度相应的增加，实时性相比原始SSD算法有小尺寸行人目标的标注等因素，在训练CNN的过所下降，但依然能满足行人检测实时性的要求，程中会严重影响算法的学习。在训练卷积神经网并相比原始S$D算法对小尺寸行人检测性能提络时，深度模型学习的参数往往比较多，用于训升很高。同时，研究了融合不同卷层基输出的特练的样本数据量太少，容易造成网络过拟合。此征图对算法的影响。在引出底层conv33的输出外，现有的行人数据集公布时间较早，而且训练特征图做检测的基础上，训练了多个组合不同输样本基本是从较大图像中剪切出的单个行人图出特征图的网络模型：模型2引出conv33、像，背景单一，像素分辨率普遍偏低，因此不适合 conv4_3、fc7、conv62、conv72、conv82和用于训练深度卷积网络模型。 conv92等7个卷积层的特征图做检测，模型3引为了增强PDIS模型在行人检测领域的泛化出conv33、fc7、conv62、conv72、conv82和能力，本文对已有的NRIA行人数据集进行了扩 conv92等6个卷积层的特征图做检测，模型4引增。首先，NRIA行人数据集的选取：NRIA行人出conv3_3、conv53、conv62、conv72、数据集是目前使用最多的静态行人检测数据集。 conv82和conv92等6个卷积层的特征图做检其中包含沙滩、机场、城市、山等复杂的场景，且测，模型5引出conv33、conv53、conv62、拍摄条件多样，存在光线变化、人体遮挡等情形， conv82和conv92等5个卷积层的特征图做检符合本文所需求的行人样本的背景多样性。其测。在扩增的行人数据集分别训练各个PDIS网次，扩增INRIA行人数据集：INRIA行人数据集络模型，利用NRIA行人数据集的测试集分别对中训练集的正样本只包含614张图像（包含2416 模型进行测试。实验表明：不同的网络模型在引个行人)，用于训练CNN模型的数量远远不够。出不同的特征层以及引出不同层的数目直接影响本文在各种天气、场景、光照下采集了数万张图网络模型的检测效果，改进的模型2取得了最好像，并对图像进行人工筛选标注，目前已有5000 的检测性能。多张图像用于训练。部分数据如图5所示，扩增此外，为了进一步提升PDIS模型对小目标的的行人数据集中包含学校、街道、车站等不同场检测能力，通过增加输入图像的分辨率提升算法景下的样本，组合成一个复杂背景下的真实场景检测性能的鲁棒性。原始的SSD算法输入图像行人数据集，并对训练样本中姿态变化、遮挡、小

PDIS 在每层输出特征图上的每个特征图网格预设有 4 个默认框，在不同输出层的特征图上有不同尺寸大小的默认框，在同一个特征图上又有不同纵横比的默认框，实现了图像中各种形状和尺寸大小的目标检测。行人的高度跟宽度之比一般在 1∶1、2∶1、3∶1、1∶2 这些比例内，不同于原始 SSD 算法，本文将默认框的纵横比 ar 设置为符合行人的 4 种比例分别为 1∶1、2∶1、3∶1、1∶2，加速了行人区域定位。且默认框的尺度定义为 sk = smin + smax − smin m−1 (k−1), k ∈ [1,m] (4) w a k = sk √ ar h a k = sk/ √ ar ar = 1 s ′ k = √ sk sk +1 sk s ′ k w a k h a k 式中：，，当时；、表示默认框的尺寸，smin、smax 分别表示 0.1 和 0.9，m 表示 PDIS 中间层输出做预测特征图层数，、分别表示每一个默认框的宽度跟高度。 PDIS 模型融合多层特征图的特征做检测，解决了同一张图像中不同尺度的目标检测问题。通过研究用不同层输出特征图以及网络输出层的数量对算法行人性能的影响，本文在原始 SSD 的基础上引出更底层卷积 conv3_3 的特征图做检测，在该层的特征图上提取特征获得了原始输入行人图像的更多细节信息。实验表明引出卷积 conv3_3 的输出特征图做检测，特征维度的计算复杂度相应的增加，实时性相比原始 SSD 算法有所下降，但依然能满足行人检测实时性的要求，并相比原始 SSD 算法对小尺寸行人检测性能提升很高。同时，研究了融合不同卷层基输出的特征图对算法的影响。在引出底层 conv3_3 的输出特征图做检测的基础上，训练了多个组合不同输出特征图的网络模型：模型 2 引出 conv3_3、 conv4_3、fc7、conv6_2、conv7_2、conv8_2 和 conv9_2 等 7 个卷积层的特征图做检测，模型 3 引出 conv3_3、fc7、conv6_2、conv7_2、conv8_2 和 conv9_2 等 6 个卷积层的特征图做检测，模型 4 引出 conv3_3、 conv5_3、 conv6_2、 conv7_2、 conv8_2 和 conv9_2 等 6 个卷积层的特征图做检测，模型 5 引出 conv3_3、conv5_3、conv6_2、 conv8_2 和 conv9_2 等 5 个卷积层的特征图做检测。在扩增的行人数据集分别训练各个 PDIS 网络模型，利用 INRIA 行人数据集的测试集分别对模型进行测试。实验表明：不同的网络模型在引出不同的特征层以及引出不同层的数目直接影响网络模型的检测效果，改进的模型 2 取得了最好的检测性能。此外，为了进一步提升 PDIS 模型对小目标的检测能力，通过增加输入图像的分辨率提升算法检测性能的鲁棒性。原始的 SSD 算法输入图像大小为 300×300。在 CNN 中经过卷积、池化特征图不断减小，原始 SSD 算法最底层 conv4_3 引出特征图大小为 38×38,相比原始图像缩小至原来的 1/8，在原始图像中一个 8×8 的目标在 conv4 输出的特征图表现为一个像素点，该目标的细节信息完全丢失。卷积输出的特征图会随网络层数的增加而减小。导致训练阶几乎无法学习到小目标物体的信息。因此，数据集的训练图像分辨率大小很大程度影响了卷积神经网络的学习，训练图像分辨率太小，训练时模型很难收敛，检测精度低。本文把训练预设输入图像尺寸大小从 300× 300 变大到 512×512，增加卷积后输出特征图的分辨率，能获得原图像中更加丰富、更加细节的信息。测试结果表明：用放大的行人图像训练 PDIS 模型能够检测到同一张图像中更小尺寸的行人，进一步提升了行人小目标检测效果。 3.2 数据集扩增增加数据集的多样性来训练 PDIS 模型可以增强算法检测的泛化能力。一般使用单一的行人数据集训练卷积网络模型时，在其本身数据集上测试的效果会很理想，然而在其他数据集上测试时效果往往不好。因此，行人数据集所包含的样本的数量、样本背景的多样性以及样本中有无对小尺寸行人目标的标注等因素，在训练 CNN 的过程中会严重影响算法的学习。在训练卷积神经网络时，深度模型学习的参数往往比较多，用于训练的样本数据量太少，容易造成网络过拟合。此外，现有的行人数据集公布时间较早，而且训练样本基本是从较大图像中剪切出的单个行人图像，背景单一，像素分辨率普遍偏低，因此不适合用于训练深度卷积网络模型。为了增强 PDIS 模型在行人检测领域的泛化能力，本文对已有的 INRIA 行人数据集进行了扩增。首先，INRIA 行人数据集的选取：INRIA 行人数据集是目前使用最多的静态行人检测数据集。其中包含沙滩、机场、城市、山等复杂的场景，且拍摄条件多样，存在光线变化、人体遮挡等情形，符合本文所需求的行人样本的背景多样性。其次，扩增 INRIA 行人数据集：INRIA 行人数据集中训练集的正样本只包含 614 张图像 (包含 2 416 个行人)，用于训练 CNN 模型的数量远远不够。本文在各种天气、场景、光照下采集了数万张图像，并对图像进行人工筛选标注，目前已有 5 000 多张图像用于训练。部分数据如图 5 所示，扩增的行人数据集中包含学校、街道、车站等不同场景下的样本，组合成一个复杂背景下的真实场景行人数据集，并对训练样本中姿态变化、遮挡、小第 2 期伍鹏瑛，等：多层卷积特征的真实场景下行人检测研究 ·311·

·312· 智能系统学报第14卷目标的行人都进行了标注，如：骑自行车、打伞 TP Rr=TN+FP (7) 拥挤，图像中像素很小的行人等。扩增的数据集图像使得行人数据集样本背景复杂化、多样化，式中：TP、FP、FN分别表示将行人样本分类成行并大大增加了对小目标行人标注数目。实验表人样本数、将非行人样本分类为行人样本数、将明：采用本文扩充的行人数据集训练PDIS模型，行人样本分类成非行人样本数。不管在真实场景下还是小目标行人检测PDIS都 4.2实验环境与模型对比取得了非常优秀的效果。本文的实验环境为Ubuntul44.04系统，处理器型号为Intel⑧Xeon(R)CPUE5-2670v3@2.30GHz× 24,显卡型号为GeForce GTX TITAN X,显存12GB, 内存32GB. 本文在NRIA行人数据集上，扩增成一个50O0 多张图像的数据集，在该数据集上训练了的6个不同的模型，如表3所示，输入图像的大小会直接影响算法的精度和实时性，SSD300×300比SSD 512×512输入图像小，在NRIA的测试集上测试，一张图像的平均测试时间快了一倍多，但检测精度有所下降；将原始的SSD网络模型conv33的图5真实场景下的训练样本特征图引出做检测，并在此基础上融合多个卷基 Fig.5 Training samples in real scenes 层的特征图做检测，提出了表3的4个检测模 4实验结果与分析型。实验表明引出conv33的特征图的模型，相 4.1性能评价指标比原始SSD模型在每张图像的平均检测速度有本文应用漏检率、准确率来衡量检测算法的所下降，但测试一张图像最慢速度依然达到性能，通过在NRIA行人数据集的测试集上测试 0.16s,满足行人检测的实时性要求，并相比原来训练好的模型，记录每张图像检测窗口，计算检的S$D算法，本文算法准确率达到了93.8%，漏检测框跟真实框的IOU值。假设检测框为BB,真率下降至7.4%。实框为BB,若IOU值大于阈值时，则BBh与BB 表3不同模型的检测率是匹配的。本文IOU设定的阈值为0.5，如(5)式 Table 3 Detection rates of different models 所示：模型 conv conv conv fe conv conv conv conv漏检时间/ IOU= area(BBnBB) >0.5 (5) 334353762728292率/%s aera(BBa UBBst) SSD VVV√√12.10.02 在BBh与BB匹配过程中，未匹配到的BB是 300×300 误检的行人框(false positive,FP),未匹配的BB,是 SSD V10.70.07 漏检的行人框(false negative,.FN,漏检率统计用到 512×512 的标准如表2所示模型2 7.40.16 表2行人统计量模型3 V10.90.11 Table 2 Pedestrian statistics 模型4 8.70.14 模型5 9.00.14 真实值分类结果注：打钩的表示该层卷积输出的特征图被引出行人(Positive) 非行人Negative) 行人(Positive) 6种模型在INRIA的测试集上RcFPPI曲线 True Positive(TP) False Positive(FP) 如图6所示，模型2在NRIA的测试集上取得了非行人(Negative)False Negative(FN)True Negative(TN) 最好的检测效果。漏检率Ru(Miss Rate)定义为在训练过程中采用本文扩增的数据集，分别 FN 用300×300与512×512的图像训练原始的SSD模 RM=FN+TP (6) 型及本文改进的模型2，如图7所示，使用300×300 准确率Rp(Precision Rate)定义为的图像训练原始模型时，无法学习到扩增数据集

目标的行人都进行了标注，如：骑自行车、打伞、拥挤，图像中像素很小的行人等。扩增的数据集图像使得行人数据集样本背景复杂化、多样化，并大大增加了对小目标行人标注数目。实验表明：采用本文扩充的行人数据集训练 PDIS 模型，不管在真实场景下还是小目标行人检测 PDIS 都取得了非常优秀的效果。 4 实验结果与分析 4.1 性能评价指标 BBdt BBgt BBdt BBgt 本文应用漏检率、准确率来衡量检测算法的性能，通过在 INRIA 行人数据集的测试集上测试训练好的模型，记录每张图像检测窗口，计算检测框跟真实框的 IOU 值。假设检测框为，真实框为，若 IOU 值大于阈值时，则与是匹配的。本文 IOU 设定的阈值为 0.5，如 (5) 式所示： IOU = area(BBdt ∩ BBgt) aera(BBdt ∪ BBgt) > 0.5 (5) BBdt BBgt BBdt BBgt 在与匹配过程中，未匹配到的是误检的行人框 (false positive,FP)，未匹配的是漏检的行人框 (false negative,FN),漏检率统计用到的标准如表 2 所示漏检率 RM (Miss Rate) 定义为 RM = FN FN+TP (6) 准确率 RP (Precision Rate) 定义为 RP = TP TN+FP (7) 式中：TP、FP、FN 分别表示将行人样本分类成行人样本数、将非行人样本分类为行人样本数、将行人样本分类成非行人样本数。 4.2 实验环境与模型对比本文的实验环境为 Ubuntu14.04 系统，处理器型号为 Intel® Xeon(R) CPU E5-2670 v3 @ 2.30 GHz× 24，显卡型号为 GeForce GTX TITAN X，显存 12 GB，内存 32 GB。本文在 INRIA 行人数据集上，扩增成一个 5 000 多张图像的数据集，在该数据集上训练了的 6 个不同的模型，如表 3 所示，输入图像的大小会直接影响算法的精度和实时性，SSD 300×300 比 SSD 512×512 输入图像小，在 INRIA 的测试集上测试，一张图像的平均测试时间快了一倍多，但检测精度有所下降；将原始的 SSD 网络模型 conv3_3 的特征图引出做检测，并在此基础上融合多个卷基层的特征图做检测，提出了表 3 的 4 个检测模型。实验表明引出 conv3_3 的特征图的模型，相比原始 SSD 模型在每张图像的平均检测速度有所下降，但测试一张图像最慢速度依然达到 0.16s，满足行人检测的实时性要求，并相比原来的 SSD 算法，本文算法准确率达到了 93.8%，漏检率下降至 7.4%。 6 种模型在 INRIA 的测试集上 RM-FPPI 曲线如图 6 所示，模型 2 在 INRIA 的测试集上取得了最好的检测效果。在训练过程中采用本文扩增的数据集，分别用 300×300 与 512×512 的图像训练原始的 SSD 模型及本文改进的模型 2，如图 7 所示，使用 300×300 的图像训练原始模型时，无法学习到扩增数据集图 5 真实场景下的训练样本 Fig. 5 Training samples in real scenes 表 2 行人统计量 Table 2 Pedestrian statistics 分类结果真实值行人 (Positive) 非行人 (Negative) 行人 (Positive) True Positive(TP) False Positive(FP) 非行人 (Negative) False Negative(FN) True Negative(TN) 表 3 不同模型的检测率 Table 3 Detection rates of different models 模型 conv 3_3 conv 4_3 conv 5_3 fc 7 conv 6_2 conv 7_2 conv 8_2 conv 9_2 漏检率/% 时间/ s SSD 300×300 √ √ √ √ √ √ 12.1 0.02 SSD 512×512 √ √ √ √ √ √ 10.7 0.07 模型 2 √ √ √ √ √ √ √ 7.4 0.16 模型 3 √ √ √ √ √ √ 10.9 0.11 模型 4 √ √ √ √ √ √ 8.7 0.14 模型 5 √ √ √ √ √ 9.0 0.14 注：打钩的表示该层卷积输出的特征图被引出 ·312· 智能系统学报第 14 卷

第2期伍鹏瑛，等：多层卷积特征的真实场景下行人检测研究 ·313· 中的小尺寸行人，导致训练Ioss曲线收敛效果最不同算法在INRIA的测试集上Miss Rate- 差，而增加输入图像大小能有效提高收敛效果， FPPI曲线如图8所示，可以看出本文算法在IN 利用大小相同的图像分别训练SSD模型与PDIS RIA的测试集上取得了最好的检测效果。模型，PDIS的Loss曲线收敛效果较好。因此，本 1.00 ..45.8%H0G 0.80 17.6%Faster R-CNN 0.64 17.2%ACE 文增加图像大小来训练PDIS模型，能够得到最 0.50 -13.8%LDCF 0.40 12 77%R-CNN 好的检测模型。 0.30 ·7.4%本文算法 0.40 --.12.1%SSD300×300 e0.20 0.30 --.10.99%模型3 10.7%SsD512×512 0.20 9.0%模型5 0.10 8.7%模型4 7.4%模型2 0.05 0.10 10-2 101 100 10 每张图片上的误检率 0.05 图8不同算法在NRIA数据集上RxcFPPI曲线 10-2 10- 10 10 每张图片上的误检率 Fig.8 Miss Rate-FPPI curves of different algorithms on INRIA dataset 图66种模型在NRIA数据集上Rv-FPPI曲线本文对真实场景中拍摄的200张图像进行了 Fig.6 Miss Rate-FPPI curves of 6 models on INRIA data- 测试，从中挑选了3张代表性的图像在2个不同 set 30 的模型上分别检测，其结果如图9所示，可以看 --SSD300×300 出，针对图像中的大目标行人，PDIS与SSD相比 25 =PDIS300×300 具有同等的检测能力甚至更优；而对图像中的小 ■■SSD512×512 20 PDIS512×512 目标行人，SSD检测性能很差，但PDIS在小目标检测上达到了非常好的性能，漏检率更低。 5 10 50000 100000150000200000 迭代次数图7不同算法的Ioss下降曲线 Fig.7 Loss curves of different algorithms 4.3与现有流行算法性能对比利用当前流行的多个算法在NRIA的测试集上进行测试，实验表明：在扩增的NRIA行人数据集训练PDIS模型的测试漏检率比现有的比较 (a)SSD算法 (b)本文算法流行的算法都要低，如表4所示，本文的算法取得图9不同算法的行人检测结果了最好的效果。 Fig.9 Pedestrian detection results for different algorithms 表4不同算法在NRIA行人数据集的漏检率 Table 4 Miss rates of different algorithms in the IN- 5结束语 RIA pedestrian dataset % 本文通过引出SSD网络模型中更底层特征算法漏检率图做检测以及增加输入图像大小来增加深度模型 HOGHI 45.8 的分辨率，相比原始的SSD算法，改进的SSD模 ACpls) 17.2 型提高了对小目标行人的检测性能。另外增加 LDCE 13.8 NRIA数据集的数量跟多样性也是本文算法检测 R-CNNI131 12.77 性能提升的主要原因。尽管通过扩增的IN- Faster R-CNN4 17.6 RIA数据集训练改进的SSD模型取得较好的检本文算法 7.4 测效果，但检测性能还有待优化。下一步研究工

中的小尺寸行人，导致训练 loss 曲线收敛效果最差，而增加输入图像大小能有效提高收敛效果，利用大小相同的图像分别训练 SSD 模型与 PDIS 模型，PDIS 的 Loss 曲线收敛效果较好。因此，本文增加图像大小来训练 PDIS 模型，能够得到最好的检测模型。 4.3 与现有流行算法性能对比利用当前流行的多个算法在 INRIA 的测试集上进行测试，实验表明：在扩增的 INRIA 行人数据集训练 PDIS 模型的测试漏检率比现有的比较流行的算法都要低，如表 4 所示，本文的算法取得了最好的效果。不同算法在 INRIA 的测试集上 Miss RateFPPI 曲线如图 8 所示，可以看出本文算法在 INRIA 的测试集上取得了最好的检测效果。本文对真实场景中拍摄的 200 张图像进行了测试，从中挑选了 3 张代表性的图像在 2 个不同的模型上分别检测，其结果如图 9 所示，可以看出，针对图像中的大目标行人，PDIS 与 SSD 相比具有同等的检测能力甚至更优；而对图像中的小目标行人，SSD 检测性能很差，但 PDIS 在小目标检测上达到了非常好的性能，漏检率更低。 5 结束语本文通过引出 SSD 网络模型中更底层特征图做检测以及增加输入图像大小来增加深度模型的分辨率，相比原始的 SSD 算法，改进的 SSD 模型提高了对小目标行人的检测性能。另外增加 INRIA 数据集的数量跟多样性也是本文算法检测性能提升的主要原因。尽管通过扩增的 I NRIA 数据集训练改进的 SSD 模型取得较好的检测效果，但检测性能还有待优化。下一步研究工 0.40 0.30 0.20 0.10 RM 0.05 10−2 10−1 100 101 每张图片上的误检率 10.9% 模型3 9.0% 模型5 8.7% 模型4 7.4% 模型2 12.1% SSD300×300 10.7% SSD512×512 图 6 6 种模型在 INRIA 数据集上 RM-FPPI 曲线 Fig. 6 Miss Rate-FPPI curves of 6 models on INRIA dataset SSD 300×300 PDIS 300×300 SSD 512×512 PDIS 512×512 30 25 20 损失15 10 5 0 50 000 100 000 迭代次数 150 000 200 000 图 7 不同算法的 loss 下降曲线 Fig. 7 Loss curves of different algorithms 0.80 1.00 0.64 0.50 0.40 0.30 0.20 0.10 RM 0.05 10−2 10−1 100 101 每张图片上的误检率 17.6% Faster R-CNN 13.8% LDCF 12.77% R-CNN 7.4% 本文算法 45.8% HOG 17.2% ACE 图 8 不同算法在 INRIA 数据集上 RM-FPPI 曲线 Fig. 8 Miss Rate-FPPI curves of different algorithms on INRIA dataset (a) SSD 算法 (b) 本文算法图 9 不同算法的行人检测结果 Fig. 9 Pedestrian detection results for different algorithms 表 4 不同算法在 INRIA 行人数据集的漏检率 Table 4 Miss rates of different algorithms in the INRIA pedestrian dataset % 算法漏检率 HOG[4] 45.8 ACF[8] 17.2 LDCF[9] 13.8 R-CNN[13] 12.77 Faster R-CNN[14] 17.6 本文算法 7.4 第 2 期伍鹏瑛，等：多层卷积特征的真实场景下行人检测研究 ·313·

·314· 智能系统学报第14卷作主要针对两点：1)应用本文算法在多个基准行 improved detection[J].Advances in neural information 人数据集（如Caltech行人数据集等）上进行实验， processing systems,2014,1:424-432 针对每个数据集的测试结果进行统计分析，优化 [13]ZHANG Shanshan,BENENSON R,SCHIELE B. 本文算法的检测性能：2)继续扩充行人数据集的 Filtered channel features for pedestrian detection[C]//Pro- 数量跟多样性能够进一步的提升算法的检测性能。 ceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA,2015:1751-1760. 参考文献： [14]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Im. agenet classification with deep convolutional neural net- [1]宋婉茹，赵晴晴，陈昌红，等.行人重识别研究综述).智 works[J].Advances in neural information processing sys- 能系统学报，2017,12(6：770-780 tems,2012,25(2):1097-1105 SONG Wanru,ZHAO Qingqing,CHEN Changhong,et al. Survey on pedestrian re-identification research[J].CAAI [15]SIMONYAN K,ZISSERMAN A.Very deep convolu- transactions on intelligent systems,2017,12(6):770-780. tional networks for large-scale image recognition[J].arX- iv:1409.1556.2014 [2]YE Qixiang,LIANG Jixiang,JIAO Jianbin.Pedestrian de- [16]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich tection in video images via error correcting output code feature hierarchies for accurate object detection and se- classification of manifold subclasses[J].IEEE transactions mantic segmentation[C]//Proceedings of 2014 IEEE Con- on intelligent transportation systems,2012,13(1): 193-202. ference on Computer Vision and Pattern Recognition. [3]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single Columbus,USA,2014:580-587. shot multibox detector[C]//Proceedings of 2016 European [17]REN Shaoging,HE Kaiming,GIRSHICK R,et al.Faster Conference on Computer Vision.Cham,Germany,2016: R-CNN:towards real-time object detection with region 21-37. proposal networks[J].IEEE transactions on pattern ana- [4]DALAL N.TRIGGS B.Histograms of oriented gradients lysis and machine intelligence,2017,39(6):1137-1149. for human detection[Cl//IEEE Computer Society Confer- [18]REDMON J,DIVVALA S,GIRSHICK R,et al.You only ence on Computer Vision and Pattern Recognition.San look once:unified,real-time object detection[C]//Pro- Diego,USA,2005:886-893 ceedings of 2016 IEEE Conference on Computer Vision [5]苏松志，李绍滋，陈淑媛，等.行人检测技术综述)电子 and Pattern Recognition.Las Vegas,USA,2016: 学报，2012,40(4)：814-820 779-788. SU Songhi,LI Shaozi,CHEN Shuyuan,et al.A survey on [19]王梦来，李想，陈奇，等.基于CNN的监控视频事件检 pedestrian detection[J].Acta electronica sinica,2012, 测U.自动化学报，2016,42(6)：892-903， 40(4):814-820. WANG Menglai,LI Xiang,CHEN Qi,et al.Surveillance [6]LOWE D G.Distinctive image features from scale-invari- event detection based on CNN[J].Acta automatica sinica. ant keypoints[J].International journal of computer vision, 2016,42(6):892-903 2004,60(2):91-110. [20]HOSANG J,OMRAN M,BENENSON R,et al.Taking a [7]VIOLA P,JONES M.Rapid object detection using a boos- deeper look at pedestrians[Cl//Proceedings of 2015 IEEE ted cascade of simple features[C]//Proceedings of the 2001 Conference on Computer Vision and Pattern Recognition. IEEE Computer Society Conference Computer Vision and Boston,USA,2015:4073-4082. Pattern Recognition.Kauai,USA,2001:511-518 [21]BENENSON R,OMRAN M,HOSANG J,et al.Ten years [8]FERREIRA A J.FIGUEIREDO M A T.Boosting al- of pedestrian detection,what have we learned?[C]//Pro- gorithms:a review of methods,theory,and applications[M]. ceedings of 2014 European Conference on Computer Vis- New York,USA:Springer,2012:35-85. ion.Cham,Germany,2015:613-627. [9]VAPNIK V.The nature of statistical learning theory[M]. [22]吕静，高陈强，杜银和，等.基于双通道特征自适应融合 2nd eds.New York:Springer-Verlag,2000. 的红外行为识别方法).重庆邮电大学学报（自然科学 [10]BREIMAN L.Random forests[J].Machine learning, 版)，2017,293：389-395 2001,45(1)y5-32. LYU Jing,GAO Chengiang,DU Yinhe,et al.Infrared ac- [11]DOLLAR P.APPEL R.BELONGIE S,et al.Fast feature tion recognition method based on adaptive fusion of dual pyramids for object detection[J].IEEE transactions on channel features[J].Journal of Chongqing university of pattern analysis and machine intelligence,2014,36(8): posts and telecommunications (natural science edition), 1532-1545. 2017,29(3:389-395 [12]NAM W.DOLLAR P.HAN J H.Local decorrelation for [23]TIAN Yonglong,LUO Ping,WANG Xiaogang,et al

作主要针对两点：1）应用本文算法在多个基准行人数据集（如 Caltech 行人数据集等）上进行实验，针对每个数据集的测试结果进行统计分析，优化本文算法的检测性能；2）继续扩充行人数据集的数量跟多样性能够进一步的提升算法的检测性能。参考文献：宋婉茹, 赵晴晴, 陈昌红, 等. 行人重识别研究综述[J]. 智能系统学报, 2017, 12(6): 770–780. SONG Wanru, ZHAO Qingqing, CHEN Changhong, et al. Survey on pedestrian re-identification research[J]. CAAI transactions on intelligent systems, 2017, 12(6): 770–780. [1] YE Qixiang, LIANG Jixiang, JIAO Jianbin. Pedestrian detection in video images via error correcting output code classification of manifold subclasses[J]. IEEE transactions on intelligent transportation systems, 2012, 13(1): 193–202. [2] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of 2016 European Conference on Computer Vision. Cham, Germany, 2016: 21–37. [3] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005: 886–893 [4] 苏松志, 李绍滋, 陈淑媛, 等. 行人检测技术综述[J]. 电子学报, 2012, 40(4): 814–820. SU Songhi, LI Shaozi, CHEN Shuyuan, et al. A survey on pedestrian detection[J]. Acta electronica sinica, 2012, 40(4): 814–820. [5] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91–110. [6] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference Computer Vision and Pattern Recognition. Kauai, USA, 2001: 511–518. [7] FERREIRA A J, FIGUEIREDO M A T. Boosting algorithms: a review of methods, theory, and applications[M]. New York, USA: Springer, 2012: 35–85. [8] VAPNIK V. The nature of statistical learning theory[M]. 2nd eds. New York: Springer-Verlag, 2000. [9] BREIMAN L. Random forests[J]. Machine learning, 2001, 45(1): 5–32. [10] DOLLÁR P, APPEL R, BELONGIE S, et al. Fast feature pyramids for object detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(8): 1532–1545. [11] [12] NAM W, DOLLÁR P, HAN J H. Local decorrelation for improved detection[J]. Advances in neural information processing systems, 2014, 1: 424–432. ZHANG Shanshan, BENENSON R, SCHIELE B. Filtered channel features for pedestrian detection[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1751–1760. [13] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012, 25(2): 1097–1105. [14] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv: 1409.1556, 2014. [15] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 580–587. [16] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137–1149. [17] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 779–788. [18] 王梦来, 李想, 陈奇, 等. 基于 CNN 的监控视频事件检测[J]. 自动化学报, 2016, 42(6): 892–903. WANG Menglai, LI Xiang, CHEN Qi, et al. Surveillance event detection based on CNN[J]. Acta automatica sinica, 2016, 42(6): 892–903. [19] HOSANG J, OMRAN M, BENENSON R, et al. Taking a deeper look at pedestrians[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 4073–4082. [20] BENENSON R, OMRAN M, HOSANG J, et al. Ten years of pedestrian detection, what have we learned?[C]//Proceedings of 2014 European Conference on Computer Vision. Cham, Germany, 2015: 613–627. [21] 吕静, 高陈强, 杜银和, 等. 基于双通道特征自适应融合的红外行为识别方法[J]. 重庆邮电大学学报(自然科学版), 2017, 29(3): 389–395. LYU Jing, GAO Chenqiang, DU Yinhe, et al. Infrared action recognition method based on adaptive fusion of dual channel features[J]. Journal of Chongqing university of posts and telecommunications (natural science edition), 2017, 29(3): 389–395. [22] [23] TIAN Yonglong, LUO Ping, WANG Xiaogang, et al. ·314· 智能系统学报第 14 卷

第2期伍鹏瑛，等：多层卷积特征的真实场景下行人检测研究 ·315· Deep learning strong parts for pedestrian detection[C]// [30]王成济，罗志明，钟准，等.一种多层特征融合的人脸检 Proceedings of 2015 IEEE International Conference on 测方法.智能系统学报，2018.13(1)：138-146. Computer Vision.Santiago,Chile,2015:1904-1912. WANG Chengji,LUO Zhiming,ZHONG Zhun,et al. [24]张雅俊，高陈强，李佩，等.基于卷积神经网络的人流量 Face detection method fusing multi-layer features[J]. 统计[.重庆邮电大学学报（自然科学版），2017,29(2)： 265-271. CAAI transactions on intelligent systems,2018,13(1): ZHANG Yajun,GAO Chengiang,LI Pei,et al.Pedestri- 138-146 an counting based on convolutional neural network[J]. 作者简介： Journal of Chongqing university of posts and telecommu- nications(natural science edition),2017,29(2):265-271. 伍鹏瑛，男，1990年生，硕士研究 [25]ZHANG Liliang,LIN Liang,LIANG Xiaodan,et al.Is 生，主要研究方向为计算机视觉、模式 faster r-cnn doing well for pedestrian detection?[C]//Pro- 识别。 ceeding of 2016 European Conference on Computer Vis- ion.Cham,Germany,2016:443-457. [26]ENZWEILER M,GAVRILA D M.Monocular pedestri- an detection:survey and experiments[J].IEEE transac- tions on pattern analysis and machine intelligence,2009 张建明，男，1976年生，副教授， 31(12):2179-2195. 博士，主要研究方向为计算机视觉、智 [27]MOHAN A,PAPAGEORGIOU C,POGGIO T.Ex- 能交通系统。发表学术论文50余篇，其中EI收录26篇，SCI收录9篇。 ample-based object detection in images by components[J]. IEEE transactions on pattern analysis and machine intelli- gence,2001,23(4):349-361. [28]OVERETT G.PETERSSON L.BREWER N.et al.A new pedestrian dataset for supervised learning[C]//Pro- 彭建，男，1971年生，副教授，主要研究方向为目标检测、计算机视 ceedings of 2008 IEEE Intelligent Vehicles Symposium. 觉。发表学术论文20余篇。 Eindhoven,Netherlands,2008:373-378. [29]GIRSHICK R.Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.San- tiago,Chile,.2015:1440-1448

Deep learning strong parts for pedestrian detection[C]// Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1904–1912. 张雅俊, 高陈强, 李佩, 等. 基于卷积神经网络的人流量统计[J]. 重庆邮电大学学报(自然科学版), 2017, 29(2): 265–271. ZHANG Yajun, GAO Chenqiang, LI Pei, et al. Pedestrian counting based on convolutional neural network[J]. Journal of Chongqing university of posts and telecommunications (natural science edition), 2017, 29(2): 265–271. [24] ZHANG Liliang, LIN Liang, LIANG Xiaodan, et al. Is faster r-cnn doing well for pedestrian detection?[C]//Proceeding of 2016 European Conference on Computer Vision. Cham, Germany, 2016: 443–457. [25] ENZWEILER M, GAVRILA D M. Monocular pedestrian detection: survey and experiments[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(12): 2179–2195. [26] MOHAN A, PAPAGEORGIOU C, POGGIO T. Example-based object detection in images by components[J]. IEEE transactions on pattern analysis and machine intelligence, 2001, 23(4): 349–361. [27] OVERETT G, PETERSSON L, BREWER N, et al. A new pedestrian dataset for supervised learning[C]//Proceedings of 2008 IEEE Intelligent Vehicles Symposium. Eindhoven, Netherlands, 2008: 373–378. [28] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1440–1448. [29] 王成济, 罗志明, 钟准, 等. 一种多层特征融合的人脸检测方法[J]. 智能系统学报, 2018, 13(1): 138–146. WANG Chengji, LUO Zhiming, ZHONG Zhun, et al. Face detection method fusing multi-layer features[J]. CAAI transactions on intelligent systems, 2018, 13(1): 138–146. [30] 作者简介：伍鹏瑛，男，1990 年生，硕士研究生，主要研究方向为计算机视觉、模式识别。张建明，男，1976 年生，副教授，博士，主要研究方向为计算机视觉、智能交通系统。发表学术论文 50 余篇，其中 EI 收录 26 篇，SCI 收录 9 篇。彭建，男，1971 年生，副教授，主要研究方向为目标检测、计算机视觉。发表学术论文 20 余篇。第 2 期伍鹏瑛，等：多层卷积特征的真实场景下行人检测研究 ·315·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录