第14卷第2期 智能系统学报 Vol.14 No.2 2019年3月 CAAI Transactions on Intelligent Systems Mar.2019 D0:10.11992/tis.201710019 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180416.1401.010html 多层卷积特征的真实场景下行人检测研究 伍鹏瑛2,张建明2,彭建2,陆朝铨2 (1.长沙理工大学综合交通运输大数据智能处理湖南省重点实验室,湖南长沙410114;2.长沙理工大学计算 机与通信工程学院,湖南长沙410114) 摘要:针对真实场景下的行人检测方法存在漏检、误检率高,以及小尺寸目标检测精度低等问题,提出了一 种基于改进SSD网络的行人检测模型(PDIS)。PDIS通过引出更底层的输出特征图改进了原始SSD网络模型, 并采用卷积神经网络不同层输出的抽象特征对行人目标分别做检测,融合多层检测结果,提升了小目标行人的 检测性能。此外,针对数据集样本多样性能有效地提升检测算法的泛化能力,本文采集了不同光照、姿态、遮 挡等复杂场景下的行人图像,对背景比较复杂的NRIA行人数据集进行了扩充,在扩增的行人数据集上训练 的PDIS模型,提高了在真实场景下的行人检测精度。实验表明:PDIS在INRIA测试集上测试结果达到 93.8%的准确率,漏检率低至7.4%。 关键词:行人检测:卷积神经网络:SSD:真实场景:多尺度特征:目标检测:小目标行人:行人数据集 中图分类号:TP391文献标志码:A文章编号:1673-4785(2019)02-0306-10 中文引用格式:伍鹏瑛,张建明,彭建,等.多层卷积特征的真实场景下行人检测研究{J.智能系统学报,2019,14(2): 306-315. 英文引用格式:VU Pengying,.ZHANGJianming,.PENGJian,,etal.Research on pedestrian detection based on multi--layer convolu- tion feature in real sceneJI.CAAI transactions on intelligent systems,2019,14(2):306-315. Research on pedestrian detection based on multi-layer convolution feature in real scene WU Pengying,ZHANG Jianming,PENG Jian'2,LU Chaoquan'2 (1.Hunan Provincial Key Laboratory of Intelligent Processing of Big Data on Transportation,Changsha University of Science and Technology,Changsha 410114,China;2.School of Computer and Communication Engineering,Changsha University of Science and Technology,Changsha 410114,China) Abstract:Pedestrian detection methods in real scenes face some problems due to the high miss detection and false de- tection as well as the low detection accuracy of small size objects.To solve these problems,a pedestrian detection mod- el based on improved SSD(PDIS)is proposed.The PDIS method improves the original SSD network model by extract- ing the lower-level output feature maps.It employs the abstract features of different convolutional neural network layers to detect pedestrians respectively,and then integrates the detection results of multi layers to increase the pedestrian de- tection performance for small sizes.Considering that the diversity of dataset can effectively enhance the generalization ability of detection algorithm,the paper expands the INRIA pedestrian dataset with complex background by collecting pedestrian images with different illumination,pose and occlusion.The PDIS method trained on expanded pedestrian dataset increases the precision rate of pedestrian detection in real scenes.The experiment results on INRIA test set indic- ate that the precision rate of PDIS algorithm is up to 93.8%and the miss rate is as low as 7.4%. Keywords:pedestrian detection:CNN:single shot multibox detector:real scene:multi-scale features:object detection: small target pedestrians;Pedestrian dataset 收稿日期:2017-10-31.网络出版日期:2018-04-16 行人检测是判断输入的图像或视频中是否含 基金项目:国家自然科学基金项目(61402053):湖南省教育厅 科研重点项目(16A008):湖南省交通厅科技项目 有行人,并准确的找出行人的具体位置。行人检 (201446):长沙理工大学研究生科研创新项目 (CX20I7SS19):长沙理工大学研究生课程建设项目 测作为目标检测的一个子方向,在视频监控、行 (KC201611). 通信作者:张建明.E-mail:jmzhang@csust..edu.cn. 人识别山、图像检索以及先进的驾驶员辅助系统
DOI: 10.11992/tis.201710019 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180416.1401.010.html 多层卷积特征的真实场景下行人检测研究 伍鹏瑛1,2,张建明1,2,彭建1,2,陆朝铨1,2 (1. 长沙理工大学 综合交通运输大数据智能处理湖南省重点实验室,湖南 长沙 410114; 2. 长沙理工大学 计算 机与通信工程学院,湖南 长沙 410114) 摘 要:针对真实场景下的行人检测方法存在漏检、误检率高,以及小尺寸目标检测精度低等问题,提出了一 种基于改进 SSD 网络的行人检测模型 (PDIS)。PDIS 通过引出更底层的输出特征图改进了原始 SSD 网络模型, 并采用卷积神经网络不同层输出的抽象特征对行人目标分别做检测,融合多层检测结果,提升了小目标行人的 检测性能。此外,针对数据集样本多样性能有效地提升检测算法的泛化能力,本文采集了不同光照、姿态、遮 挡等复杂场景下的行人图像,对背景比较复杂的 INRIA 行人数据集进行了扩充,在扩增的行人数据集上训练 的 PDIS 模型,提高了在真实场景下的行人检测精度。实验表明:PDIS 在 INRIA 测试集上测试结果达到 93.8% 的准确率,漏检率低至 7.4%。 关键词:行人检测;卷积神经网络;SSD;真实场景;多尺度特征;目标检测;小目标行人;行人数据集 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)02−0306−10 中文引用格式:伍鹏瑛, 张建明, 彭建, 等. 多层卷积特征的真实场景下行人检测研究[J]. 智能系统学报, 2019, 14(2): 306–315. 英文引用格式:WU Pengying, ZHANG Jianming, PENG Jian, et al. Research on pedestrian detection based on multi-layer convolution feature in real scene[J]. CAAI transactions on intelligent systems, 2019, 14(2): 306–315. Research on pedestrian detection based on multi-layer convolution feature in real scene WU Pengying1,2 ,ZHANG Jianming1,2 ,PENG Jian1,2 ,LU Chaoquan1,2 (1. Hunan Provincial Key Laboratory of Intelligent Processing of Big Data on Transportation, Changsha University of Science and Technology, Changsha 410114, China; 2. School of Computer and Communication Engineering, Changsha University of Science and Technology, Changsha 410114, China) Abstract: Pedestrian detection methods in real scenes face some problems due to the high miss detection and false detection as well as the low detection accuracy of small size objects. To solve these problems, a pedestrian detection model based on improved SSD (PDIS) is proposed. The PDIS method improves the original SSD network model by extracting the lower-level output feature maps. It employs the abstract features of different convolutional neural network layers to detect pedestrians respectively, and then integrates the detection results of multi layers to increase the pedestrian detection performance for small sizes. Considering that the diversity of dataset can effectively enhance the generalization ability of detection algorithm, the paper expands the INRIA pedestrian dataset with complex background by collecting pedestrian images with different illumination, pose and occlusion. The PDIS method trained on expanded pedestrian dataset increases the precision rate of pedestrian detection in real scenes. The experiment results on INRIA test set indicate that the precision rate of PDIS algorithm is up to 93.8% and the miss rate is as low as 7.4%. Keywords: pedestrian detection; CNN; single shot multibox detector; real scene; multi-scale features; object detection; small target pedestrians; Pedestrian dataset 行人检测是判断输入的图像或视频中是否含 有行人,并准确的找出行人的具体位置。行人检 测作为目标检测的一个子方向,在视频监控、行 人识别[1] 、图像检索以及先进的驾驶员辅助系统 收稿日期:2017−10−31. 网络出版日期:2018−04−16. 基金项目:国家自然科学基金项目 (61402053);湖南省教育厅 科研重点项目 (16A008);湖南省交通厅科技项目 (201446) ;长沙理工大学研究生科研创新项 目 (CX2017SS19);长沙理工大学研究生课程建设项目 (KC201611). 通信作者:张建明. E-mail:jmzhang@csust.edu.cn. 第 14 卷第 2 期 智 能 系 统 学 报 Vol.14 No.2 2019 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2019
第2期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·307· 等领域有着广泛的应用。由于行人具有非刚性 征上融合颜色特征、纹理特征等诸多算法;2005 属性,决定了行人检测不同于普通的目标检测, 年Dalal等提出了HOG结合分类器SVM的算 另外存在着许多制约行人检测的因素,如现实场 法,取得了较好的效果,并陆续提出的ACF(ag 景中背景的复杂多样性、光照变化、行人遮挡、姿 gregated channel features)m、LDCF2等算法都具有 态变化、拍摄角度多样化、实时性要求、小目标行 很好的检测效果。2015年Zhang等把HOG特 人等。这些因素给行人检测带来了巨大的挑战, 征结合光流特征进一步提高了行人检测性能。针 因此行人检测一直是计算机视觉领域中的研究热 对在同一张图像有不同尺寸的目标时,传统方法 点和难点。 主要有两种处理方法:1)将原始图像转换成不同 传统的行人检测的效果依赖于特征的选取以 尺寸大小的图像输入固定尺寸的滑动窗口分别提 及分类器的学习。一个好的特征即使结合简单的 取特征,该方法的检测精度较好,但是计算复杂, 分类器仍能够取得不错的检测效果,所以传统的 其流程如图1所示;2)用固定大小不变的图像输 行人检测研究重点在于行人的特征提取及分类。 入多尺度缩放的滑动窗进行特征提取。方法 尽管传统的行人检测算法取得了不少的研究成 2)避免了测试图像的多尺度计算,检测速度较快 果,但是在实际生活场景的检测效果依然不理 但其精度比较差。 想。近年来深度学习的方法在目标检测、语音识 别、图像分类等方面取得了突破性的进展,与传 行 统检测算法相比,卷积神经网络(CNN)通过权值 共享,大大减少了网络的参数,进而降低了算法复杂 人检测器 度。CNN的卷积运算以及下采样能很好的学习到 图像的颜色、纹理等特征,使之对图像的缩放、平移 具有很好的鲁棒性。因此,深度学习算法在行人检 图1多尺度输入图像检测流程 测领域里的检测精度以及实时性都优于传统算法。 Fig.1 Object detection with multi-scale input 针对真实场景下的行人检测精度不高,小目 2012年Krizhevsky等i在ImageNet竞赛上训 标行人的漏检率较高的问题,本文对目前优秀的 练出一个8层的卷积神经网络,取得了视觉领域 深度模型进行了改进。通过引出S$D网络模型 竞赛ILSVRC2012的冠军。在此之后,深度学习 中更底层特征做检测以及增加输入图像大小来增 算法层出不穷,典型的算法有VGG-Nets1、R- 加深度模型的分辨率,提高了对小目标行人的检 CNNl6、Faster R-CNNI;Redmon等usl提出的 测性能。卷积网络中的底层特征能检测到尺寸较 YOLO直接在输出层回归目标位置与类别,加快 小的目标,而深层特征可以检测到尺寸较大的目 了目标检测速度及精度:Liu等提出了SSD融合 标,因此引出SSD网络中多层输出特征图,将检 卷积层的多层输出特征做检测,进一步提高了目 测结果综合后确定目标位置。此外,训练数据集 标检测精度。由于CNN提取的特征比传统特征 的数量跟数据集样本的多样性也是深度学习算法 更具鲁棒性,其良好的特征表达能力提高了行人 取得优秀成果的主要原因。因此本文采用车载摄 检测性能,因此许多研究学者将深度学习算法应 像头拍摄了各种场合、光照、遮挡、姿态等复杂的 用于行人检测领域。文献[19]引入级联CNN网络 背景下的行人视频,在NRIA行人数据集上,扩 在拥挤场景中准确地检测行人;Hosang等2o利用 增了一个复杂场景下的行人数据集CSUSTPD。 SquaresChnFtrs!2产生行人候选窗口用于训练 AlexNet"。文献22]利用光流卷积神经网络对光 1相关工作 流图序列中提取行人特征,该特征具有较强的全 传统的行人检测流程主要由行人图像输入、 局描述能力;Tian等2利用深度学习结合部件模 行人的特征提取、分类与定位、检测结果等几个 型解决行人检测中的遮挡问题。文献24]采用级 模块组成),其研究重点在于行人的特征提取及 联的Adaboost检测器对行人目标进行初步筛选, 分类,比较常见的特征提取算子有SIFT61 再用迁移学习技术训练卷积神经网络来提高检测 Haar、梯度方向直方图HOG等;代表性的分类 精度;Zhang等2s利用级联的决策森林来分类 器有神经网络、Adaboost!1、支持向量机SVM RPN网络(region proposal network)产生的行人候 随机森林RFo等。基于HOG特征的提取极大地 选窗口。 推动了行人检测的发展,并随后出现了在HOG特 训练深度CNN模型时,数据集的数量跟数据
等领域有着广泛的应用[2]。由于行人具有非刚性 属性,决定了行人检测不同于普通的目标检测, 另外存在着许多制约行人检测的因素,如现实场 景中背景的复杂多样性、光照变化、行人遮挡、姿 态变化、拍摄角度多样化、实时性要求、小目标行 人等。这些因素给行人检测带来了巨大的挑战, 因此行人检测一直是计算机视觉领域中的研究热 点和难点。 传统的行人检测的效果依赖于特征的选取以 及分类器的学习。一个好的特征即使结合简单的 分类器仍能够取得不错的检测效果,所以传统的 行人检测研究重点在于行人的特征提取及分类。 尽管传统的行人检测算法取得了不少的研究成 果,但是在实际生活场景的检测效果依然不理 想。近年来深度学习的方法在目标检测、语音识 别、图像分类等方面取得了突破性的进展,与传 统检测算法相比,卷积神经网络 (CNN) 通过权值 共享,大大减少了网络的参数,进而降低了算法复杂 度。CNN 的卷积运算以及下采样能很好的学习到 图像的颜色、纹理等特征,使之对图像的缩放、平移 具有很好的鲁棒性。因此,深度学习算法在行人检 测领域里的检测精度以及实时性都优于传统算法。 针对真实场景下的行人检测精度不高,小目 标行人的漏检率较高的问题,本文对目前优秀的 深度模型进行了改进。通过引出 SSD[3]网络模型 中更底层特征做检测以及增加输入图像大小来增 加深度模型的分辨率,提高了对小目标行人的检 测性能。卷积网络中的底层特征能检测到尺寸较 小的目标,而深层特征可以检测到尺寸较大的目 标,因此引出 SSD 网络中多层输出特征图,将检 测结果综合后确定目标位置。此外,训练数据集 的数量跟数据集样本的多样性也是深度学习算法 取得优秀成果的主要原因。因此本文采用车载摄 像头拍摄了各种场合、光照、遮挡、姿态等复杂的 背景下的行人视频,在 INRIA[4]行人数据集上,扩 增了一个复杂场景下的行人数据集 CSUSTPD。 1 相关工作 传统的行人检测流程主要由行人图像输入、 行人的特征提取、分类与定位、检测结果等几个 模块组成[5] ,其研究重点在于行人的特征提取及 分类,比较常见的特征提取算子 有 SIFT [ 6 ] 、 Haar[7] 、梯度方向直方图 HOG[4]等;代表性的分类 器有神经网络、Adaboost[8] 、支持向量机 SVM[9] 、 随机森林 RF[10]等。基于 HOG 特征的提取极大地 推动了行人检测的发展,并随后出现了在 HOG 特 征上融合颜色特征、纹理特征等诸多算法;2005 年 Dalal 等 [4]提出了 HOG 结合分类器 SVM 的算 法,取得了较好的效果,并陆续提出的 ACF(aggregated channel features)[11] 、LDCF[12]等算法都具有 很好的检测效果。2015 年 Zhang 等 [13]把 HOG 特 征结合光流特征进一步提高了行人检测性能。针 对在同一张图像有不同尺寸的目标时,传统方法 主要有两种处理方法:1) 将原始图像转换成不同 尺寸大小的图像输入固定尺寸的滑动窗口分别提 取特征,该方法的检测精度较好,但是计算复杂, 其流程如图 1 所示;2) 用固定大小不变的图像输 入多尺度缩放的滑动窗进行特征提取。方法 2) 避免了测试图像的多尺度计算,检测速度较快 但其精度比较差。 2012 年 Krizhevsky 等 [14]在 ImageNet 竞赛上训 练出一个 8 层的卷积神经网络,取得了视觉领域 竞赛 ILSVRC 2012 的冠军。在此之后,深度学习 算法层出不穷,典型的算法有 VGG-Net[ 1 5 ] 、RCNN[16] 、Faster R-CNN[17] ;Redmon 等 [18]提出的 YOLO 直接在输出层回归目标位置与类别,加快 了目标检测速度及精度;Liu 等 [3]提出了 SSD 融合 卷积层的多层输出特征做检测,进一步提高了目 标检测精度。由于 CNN 提取的特征比传统特征 更具鲁棒性,其良好的特征表达能力提高了行人 检测性能,因此许多研究学者将深度学习算法应 用于行人检测领域。文献[19]引入级联 CNN 网络 在拥挤场景中准确地检测行人;Hosang 等 [20]利用 SquaresChnFtrs[ 2 1 ]产生行人候选窗口用于训练 AlexNet[14]。文献[22]利用光流卷积神经网络对光 流图序列中提取行人特征,该特征具有较强的全 局描述能力;Tian 等 [23]利用深度学习结合部件模 型解决行人检测中的遮挡问题。文献[24]采用级 联的 Adaboost 检测器对行人目标进行初步筛选, 再用迁移学习技术训练卷积神经网络来提高检测 精度;Zhang 等 [ 2 5 ]利用级联的决策森林来分类 RPN 网络 (region proposal network) 产生的行人候 选窗口。 训练深度 CNN 模型时,数据集的数量跟数据 行人检测器 图 1 多尺度输入图像检测流程 Fig. 1 Object detection with multi-scale input 第 2 期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·307·
·308· 智能系统学报 第14卷 集样本的多样性能增强算法检测的泛化能力。现 和类别的检测算法,整个网络没有生成候选窗口 有的行人数据集如Daimler行人数据集P含训练 的过程。SSD算法的骨干网络结构是VGG16I町 样本集有正样本大小为18×36和48×96的图像。 将VGG16最后两个全连接层改成卷积层再增加 较早公开的MT行人数据集2)含924张宽高为 4个卷积层构造网络结构。表1展示了整个 64×128行人图像,肩到脚的距离约80像素。该 SSD网络中每个卷积层中卷积核的大小、数目, 数据库只含正面和背面两个视角,无负样本,并 卷积的步长,特征图有无填充以及每层输出特征 且未区分训练集和测试集。NICTA行人数据集2 图的大小。图2为SSD算法的目标检测流程图, 标注要求行人高度至少要大于40个像素。这些 SSD检测算法分别把conv4_3、fc7、conv6_2 数据集训练样本存在从大图像中剪切出的单个行 conv7_2、conv82和conv9_2等6个不同卷积层 人图像、分辨率偏低、对小目标行人无标注的问 的特征图引出做检测,其特征图与两个3×3的卷 题,且行人数据集训练样本背景单一。因此,这 积核卷积后得到两个输出,分别作为分类时使用 些数据集不适合用于训练深度卷积网络模型。 的置信度以及回归时使用的位置信息。将每层计 2 SSD网络 算结果合并后传递给损失层,该层对所有层的检 测结果进行综合,通过非极大值抑制输出目标的 SSD算法是一种直接预测目标边界框的坐标 检测结果。 表1SSD网络参数表 Table 1 Parameters of SSD Network 卷积层 卷积核 卷积核数量 步长 填充 输出特征图像素大小 Conv1 1 3×3 64 1 300×300 Conv1_2 3×3 64 1 300×300 Maxpooll 2×2 1 2 0 150×150 Conv2_I 3×3 128 1 1 150×150 Conv2_2 3×3 128 1 150×150 Maxpool2 2×2 1 2 0 75×75 Conv3_1 3×3 256 1 75×75 Conv3_2 3×3 256 1 1 75×75 Conv3_3 3×3 256 1 75×75 Maxpool3 2×2 1 2 0 38×38 Conv4_1 3x3 512 1 38×38 Conv4 2 3×3 512 1 38×38 Conv4 3 3×3 512 1 38×38 Maxpool4 2×2 1 2 0 19×19 Conv5_1 3×3 512 1 19×19 Conv5 2 3×3 512 1 19×19 Conv5_3 3×3 512 1 19×19 Maxpool5 3×3 1 1 1 19×19 Fc6 3×3 1024 1 19×19 Fc7 1×1 1024 0 19×19 Conv6_1 1×1 256 1 0 19×19 Conv6_2 3x3 512 2 1 10×10 Conv7_1 1×1 128 0 10×10 Conv7_2 3×3 256 2 5x5 Conv8_1 1x1 128 1 0 5x5 Conv8_2 3×3 256 0 3×3 Conv9 1 1x1 128 0 3×3 Conv9 2 3×3 256 0 1×1
集样本的多样性能增强算法检测的泛化能力。现 有的行人数据集如 Daimler 行人数据集[26]含训练 样本集有正样本大小为 18×36 和 48×96 的图像。 较早公开的 MIT 行人数据集[27]含 924 张宽高为 64×128 行人图像,肩到脚的距离约 80 像素。该 数据库只含正面和背面两个视角,无负样本,并 且未区分训练集和测试集。NICTA 行人数据集[28] 标注要求行人高度至少要大于 40 个像素。这些 数据集训练样本存在从大图像中剪切出的单个行 人图像、分辨率偏低、对小目标行人无标注的问 题,且行人数据集训练样本背景单一。因此,这 些数据集不适合用于训练深度卷积网络模型。 2 SSD 网络 SSD 算法是一种直接预测目标边界框的坐标 和类别的检测算法,整个网络没有生成候选窗口 的过程。SSD 算法的骨干网络结构是 VGG16[15] , 将 VGG16 最后两个全连接层改成卷积层再增加 4 个卷积层构造网络结构。 表 1 展示了整 个 SSD 网络中每个卷积层中卷积核的大小、数目, 卷积的步长,特征图有无填充以及每层输出特征 图的大小。图 2 为 SSD 算法的目标检测流程图, SSD 检测算法分别把 conv4_3、fc7、conv6_2、 conv7_2、conv8_2 和 conv9_2 等 6 个不同卷积层 的特征图引出做检测,其特征图与两个 3×3 的卷 积核卷积后得到两个输出,分别作为分类时使用 的置信度以及回归时使用的位置信息。将每层计 算结果合并后传递给损失层,该层对所有层的检 测结果进行综合,通过非极大值抑制输出目标的 检测结果。 表 1 SSD 网络参数表 Table 1 Parameters of SSD Network 卷积层 卷积核 卷积核数量 步长 填充 输出特征图像素大小 Conv1_1 3×3 64 1 1 300×300 Conv1_2 3×3 64 1 1 300×300 Maxpool1 2×2 1 2 0 150×150 Conv2_1 3×3 128 1 1 150×150 Conv2_2 3×3 128 1 1 150×150 Maxpool2 2×2 1 2 0 75×75 Conv3_1 3×3 256 1 1 75×75 Conv3_2 3×3 256 1 1 75×75 Conv3_3 3×3 256 1 1 75×75 Maxpool3 2×2 1 2 0 38×38 Conv4_1 3×3 512 1 1 38×38 Conv4_2 3×3 512 1 1 38×38 Conv4_3 3×3 512 1 1 38×38 Maxpool4 2×2 1 2 0 19×19 Conv5_1 3×3 512 1 1 19×19 Conv5_2 3×3 512 1 1 19×19 Conv5_3 3×3 512 1 1 19×19 Maxpool5 3×3 1 1 1 19×19 Fc6 3×3 1 024 1 1 19×19 Fc7 1×1 1 024 1 0 19×19 Conv6_1 1×1 256 1 0 19×19 Conv6_2 3×3 512 2 1 10×10 Conv7_1 1×1 128 1 0 10×10 Conv7_2 3×3 256 2 1 5×5 Conv8_1 1×1 128 1 0 5×5 Conv8_2 3×3 256 1 0 3×3 Conv9_1 1×1 128 1 0 3×3 Conv9_2 3×3 256 1 0 1×1 ·308· 智 能 系 统 学 报 第 14 卷
第2期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·309· 效果,但受卷积神经网络中特定特征层感受野大 小限制,单独一层的特征无法应对多姿态多尺度 入图片 大值抑制 的行人0。因此,本文提出了改进的SSD模型用 于行人检测。 3多层卷积特征的行人检测算法 图2 SSD目标检测流程图 Fig.2 Detection flowchart for SSD object algorithm 3.1基于改进SSD的行人检测算法 SSD算法关键核心点是同时采用底层和顶层 随着深度学习的快速发展,CNN已经广泛地 的特征图做检测。在不同层卷积输出的若干特征 应用于目标检测中,在实时性和准确性上都优于 图中的每个位置处评估不同纵横比的默认框。默 传统算法的性能。SSD算法是以VGG16网络模 认框是指在特征图的每个网格上都有一系列固定 型为基础的前向传播的深度卷积网络模型,对卷 大小的框。每个网格有k个默认框,每个默认框 积后得到的特征图分别预判目标位置跟类别置信 预测c个目标类别的分数和4个偏移。若特征图 度,实现快速且精准目标检测效果。但原始S$D 的大小为mn,即有mn个特征图网格,则该特征 算法对同一张图像中小尺寸目标检测效果较差, 图共有(c+4)×k×m×n个输出。在训练阶段,将默 主要原因有两点:1)输入图像在深度卷积神经网 认框和真实框(ground truth box)进行匹配,一旦匹 络中经过网络的卷积、池化后特征图变小,原始 配成功,则默认框即为正样本,反之则为负样 SSD算法conv43输出的特征图与原始输入图像 本。根据置信度的损失值对负样本进行排序,得 相比缩小至原来的1/8,特征图的变小导致检测的 到靠前的负训练样本,使得正负样本的比例保持 目标丢失了大部分的细节信息,在训练阶段严重 在3:1。在预测阶段,得到默认框的偏移及目标类 的影响了算法对各项参数的学习,且后续的fc7 别相应的置信度。 conv62等层输出的特征图缩小更多,对算法的 SSD网络的目标损失函数表示为 训练影响更大;2)输入图像分辨率的大小对SSD L(wc.1g)-(L()+aLe()) (1) 算法的影响。训练的图像较小,卷积池化后得到 的特征图会对应地减小,使得训练阶段S$D网络 式中:N为匹配到的默认框个数;I为预测框;g为 参数的学习不完全造成过拟合;若输人图像较 真实框;c为多类别目标的置信度;Loe为位置损 大,网络学习的参数大量增加,使得算法计算复 失;Lcot为置信度损失;a通过交叉验证设为l。 位置损失是预测框I和真实框g之间的 杂度增加,速度减慢。 smooth损失2,如式(2)所示,通过对边界框的 本文在权衡算法的精准度及实时性的基础 坐标中心点(x,y)以及宽度w和高度h的偏移进 上,对SSD模型更底层的输出特征图进行特征提 行回归.使得位置损失最小。 取,获取更多特征图的纹理、边缘等细节信息,增 强了SSD模型对行人目标的检测性能,提升对小 Lioc(x,l,g)= ∑∑smoot(-8) (2) iE(Pos)mEcx.cy.w 目标行人的检测能力。图3为本文基于改进SSD 模型的行人检测(pedestrian detection based on im- 式中:8=(g5-d)/d,83=(g3-d)/d,8= proved SSD,PDIS)框架,行人图像通过改进SSD log(g/d),8=log(g/d);g、g分别表示第j个 卷积网络中的各卷积层输出多层次特征图,并在 真实框中心点(x,y):d、d分别表示第i个默认 多层次的特征图上提取特征做检测,将多层特征 框的中心点(x,y):g”、g分别表示第j个真实框宽 图的检测结果进行综合实现行人检测。由图3的 度跟高度;d”、d分别表示第i个默认框的宽度跟高度。 特征图可视化结果可知,底层卷积conv33输出 置信度损失是多类别置信度c的softmax损 的特征图比较大,且纹理、轮廓信息明确,因此该 失如式(3)所示。 层的特征图可以提取到小目标行人的细节信息。 Lconf(x,c) x号log()- ∑og(e (3) conv92卷积层输出的特征图变得很小,原始图 像的大部分信息丢失,尤其小物体信息丢失严 式中:Y=exp(c)/∑pexp(c),表示第i个默认框 重,因此该层只能获取较大目标的行人信息。随 的类别的置信度,p表示目标的类别,0表示目标 着网络层数增加,原始图像的信息会随着输出特 外的背景,x表示第i个默认框与类别p匹配的 征的尺寸变小而减少。底层输出特征图可以检测 第广个真实框相。 较小的行人目标,深层输出的特征可以检测较大 相比现有的目标检测方法,SSD算法不管是 的行人目标,因此PDIS通过结合多层特征图检 在检测速度还是检测精度上都取得了非常优秀的 测结果,提升了多尺寸行人的检测性能
SSD 算法关键核心点是同时采用底层和顶层 的特征图做检测。在不同层卷积输出的若干特征 图中的每个位置处评估不同纵横比的默认框。默 认框是指在特征图的每个网格上都有一系列固定 大小的框。每个网格有 k 个默认框,每个默认框 预测 c 个目标类别的分数和 4 个偏移。若特征图 的大小为 mn,即有 mn 个特征图网格,则该特征 图共有 (c+4)×k×m×n 个输出。在训练阶段,将默 认框和真实框 (ground truth box) 进行匹配,一旦匹 配成功,则默认框即为正样本,反之则为负样 本。根据置信度的损失值对负样本进行排序,得 到靠前的负训练样本,使得正负样本的比例保持 在 3:1。在预测阶段,得到默认框的偏移及目标类 别相应的置信度。 SSD 网络的目标损失函数表示为 L(x, c,l,g) = 1 N (Lconf(x, c)+αLloc(x,l,g)) (1) α 式中:N 为匹配到的默认框个数;l 为预测框;g 为 真实框;c 为多类别目标的置信度;Lloc 为位置损 失;Lconf 为置信度损失; 通过交叉验证设为 1。 位置损失是预测 框 l 和真实 框 g 之 间 的 smoothL1 损失[29] ,如式 (2) 所示,通过对边界框的 坐标中心点 (x,y) 以及宽度 w 和高度 h 的偏移进 行回归,使得位置损失最小。 Lloc(x,l,g) = ∑N i∈(Pos) ∑ m∈{cx,cy,w,h} x k i jsmoothL1(L m i −gˆ m j ) (2) gˆ cx = (g cx j −d cx i )/d w i gˆ cy j = (g cy j −d cy i )/d h i gˆ w j = log(g w j /d w i ) gˆ h j = log(g h j /d h i ) g cx j 、g cy j d cx i 、d cy i g w j g h j d w i d h i 式中: , , , ; 分别表示第 j 个 真实框中心点 (x,y); 分别表示第 i 个默认 框的中心点 (x,y); 、 分别表示第 j 个真实框宽 度跟高度; 、 分别表示第i个默认框的宽度跟高度。 置信度损失是多类别置信度 c 的 softmax 损 失如式 (3) 所示。 Lconf(x, c) = − ∑N i∈Pos x p i j log(ˆc p i )− ∑ i∈Neg log(ˆc 0 i ) (3) cˆ p i = exp(c p i )/ ∑ p exp(c p i ) cˆ p i x p i j 式中: , 表示第 i 个默认框 的类别的置信度,p 表示目标的类别,0 表示目标 外的背景, 表示第 i 个默认框与类别 p 匹配的 第 j 个真实框相。 相比现有的目标检测方法,SSD 算法不管是 在检测速度还是检测精度上都取得了非常优秀的 效果,但受卷积神经网络中特定特征层感受野大 小限制,单独一层的特征无法应对多姿态多尺度 的行人[30]。因此,本文提出了改进的 SSD 模型用 于行人检测。 3 多层卷积特征的行人检测算法 3.1 基于改进 SSD 的行人检测算法 随着深度学习的快速发展,CNN 已经广泛地 应用于目标检测中,在实时性和准确性上都优于 传统算法的性能。SSD 算法是以 VGG16 网络模 型为基础的前向传播的深度卷积网络模型,对卷 积后得到的特征图分别预判目标位置跟类别置信 度,实现快速且精准目标检测效果。但原始 SSD 算法对同一张图像中小尺寸目标检测效果较差, 主要原因有两点:1) 输入图像在深度卷积神经网 络中经过网络的卷积、池化后特征图变小,原始 SSD 算法 conv4_3 输出的特征图与原始输入图像 相比缩小至原来的 1/8,特征图的变小导致检测的 目标丢失了大部分的细节信息,在训练阶段严重 的影响了算法对各项参数的学习,且后续的 fc7、 conv6_2 等层输出的特征图缩小更多,对算法的 训练影响更大;2) 输入图像分辨率的大小对 SSD 算法的影响。训练的图像较小,卷积池化后得到 的特征图会对应地减小,使得训练阶段 SSD 网络 参数的学习不完全造成过拟合;若输入图像较 大,网络学习的参数大量增加,使得算法计算复 杂度增加,速度减慢。 本文在权衡算法的精准度及实时性的基础 上,对 SSD 模型更底层的输出特征图进行特征提 取,获取更多特征图的纹理、边缘等细节信息,增 强了 SSD 模型对行人目标的检测性能,提升对小 目标行人的检测能力。图 3 为本文基于改进 SSD 模型的行人检测 (pedestrian detection based on improved SSD,PDIS) 框架,行人图像通过改进 SSD 卷积网络中的各卷积层输出多层次特征图,并在 多层次的特征图上提取特征做检测,将多层特征 图的检测结果进行综合实现行人检测。由图 3 的 特征图可视化结果可知,底层卷积 conv3_3 输出 的特征图比较大,且纹理、轮廓信息明确,因此该 层的特征图可以提取到小目标行人的细节信息。 conv9_2 卷积层输出的特征图变得很小,原始图 像的大部分信息丢失,尤其小物体信息丢失严 重,因此该层只能获取较大目标的行人信息。随 着网络层数增加,原始图像的信息会随着输出特 征的尺寸变小而减少。底层输出特征图可以检测 较小的行人目标,深层输出的特征可以检测较大 的行人目标,因此 PDIS 通过结合多层特征图检 测结果,提升了多尺寸行人的检测性能。 非极大值抑制 检测 输入图片 VGG16 Conv4_3 Fc7 Conv6_2 Conv7_2 Conv8_2 Con9_2 图 2 SSD 目标检测流程图 Fig. 2 Detection flowchart for SSD object algorithm 第 2 期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·309·
·310· 智能系统学报 第14卷 多层特征图可视化结果 改进B算法多层特征图输出做检测 综合多层特征图的检测结果 图3PDIS框架 Fig.3 PDIS framework PDIS模型通过引出SSD卷积网络中更底层 对小尺寸行人检测效果不理想。因此PDIS模型 conv33输出的特征图做检测。图4为本文改进 把网络中各层次输出的特征图由底层到深层依 之一的PDIS流程图,应用SSD算法卷积层 次引出做检测,检测到行人目标尺寸越来越大。 conv33、conv43、conv7、conv62、conv72、 尽管每一层对图像整体的检测效果不理想,但 conv82和conv92等7个输出层的特征图做检 综合所有层的检测达到了精准的行人检测结果。 测,图中可以看出不同卷积层输出的特征图可以 因此,本文通过修改后的S$D网络,应用多个卷 检测图像中不同尺度的行人,conv33输出的特 积层输出的特征图做检测,实现了图像中多尺度 征图能检测到图像中尺度很小的行人,但对尺寸 的行人检测问题,增加了算法的行人检测分辨 大的行人检测效果很差;卷积层conv92输出的 率,提升了对图像中尺寸相对较小行人的检测 特征图可以检测图像中的尺寸较大的行人,但 效果。 E Auoo 0 检测 检测 检测 检测 检测 分类 分类 分类 分类 分类 分类 综合所有检测结果然后非极大值抑制(NMS) 图4PDIS流程 Fig.4 PDIS flowchart
PDIS 模型通过引出 SSD 卷积网络中更底层 conv3_3 输出的特征图做检测。图 4 为本文改进 之 一 的 PDI S 流程图,应 用 S SD 算法卷积 层 conv3_3、conv4_3、conv7、conv6_2、conv7_2、 conv8_2 和 conv9_2 等 7 个输出层的特征图做检 测,图中可以看出不同卷积层输出的特征图可以 检测图像中不同尺度的行人,conv3_3 输出的特 征图能检测到图像中尺度很小的行人,但对尺寸 大的行人检测效果很差;卷积层 conv9_2 输出的 特征图可以检测图像中的尺寸较大的行人,但 对小尺寸行人检测效果不理想。因此 PDIS 模型 把网络中各层次输出的特征图由底层到深层依 次引出做检测,检测到行人目标尺寸越来越大。 尽管每一层对图像整体的检测效果不理想,但 综合所有层的检测达到了精准的行人检测结果。 因此,本文通过修改后的 SSD 网络,应用多个卷 积层输出的特征图做检测,实现了图像中多尺度 的行人检测问题,增加了算法的行人检测分辨 率,提升了对图像中尺寸相对较小行人的检测 效果。 ··· 多层特征图可视化结果 改进算法多层特征图输出做检测 综合多层特征图的检测结果 SSD 图 3 PDIS 框架 Fig. 3 PDIS framework 输出 conv3_3 特征图 输出 conv4_3 特征图 输出 fc7 特征图 输出 conv6_2 特征图 输出 conv7_2 特征图 输出 conv8_2 特征图 输出 conv9_2 特征图 检测 分类 检测 分类 检测 分类 检测 分类 检测 分类 检测 分类 检测 分类 综合所有检测结果然后非极大值抑制 (NMS) 图 4 PDIS 流程 Fig. 4 PDIS flowchart ·310· 智 能 系 统 学 报 第 14 卷
第2期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·311· PDIS在每层输出特征图上的每个特征图网 大小为300×300。在CNN中经过卷积、池化特征 格预设有4个默认框,在不同输出层的特征图上 图不断减小,原始SSD算法最底层conv43引出 有不同尺寸大小的默认框,在同一个特征图上又 特征图大小为38×38,相比原始图像缩小至原来 有不同纵横比的默认框,实现了图像中各种形状 的1/8,在原始图像中一个8×8的目标在conv4输 和尺寸大小的目标检测。行人的高度跟宽度之比 出的特征图表现为一个像素点,该目标的细节信 一般在1:1、2:1、3:1、1:2这些比例内,不同于原 息完全丢失。卷积输出的特征图会随网络层数的 始SSD算法,本文将默认框的纵横比a,设置为符 增加而减小。导致训练阶几乎无法学习到小目标 合行人的4种比例分别为1:1、2:1、3:1、1:2,加 物体的信息。因此,数据集的训练图像分辨率大 速了行人区域定位。且默认框的尺度定义为 小很大程度影响了卷积神经网络的学习,训练图 =5n+-(k-1),ke,m (4) 像分辨率太小,训练时模型很难收敛,检测精度 m-1 低。本文把训练预设输入图像尺寸大小从300× 式中:w=V瓦,h=S/V瓦,当a,=时s=VSS+I; 300变大到512×512,增加卷积后输出特征图的分 sk、s表示默认框的尺寸,Smin、Smax分别表示0.1和 辨率,能获得原图像中更加丰富、更加细节的信 0.9,m表示PDIS中间层输出做预测特征图层数, 息。测试结果表明:用放大的行人图像训练PDIS 、分别表示每一个默认框的宽度跟高度。 模型能够检测到同一张图像中更小尺寸的行人, PDIS模型融合多层特征图的特征做检测,解 进一步提升了行人小目标检测效果。 决了同一张图像中不同尺度的目标检测问题。通 3.2数据集扩增 过研究用不同层输出特征图以及网络输出层的数 增加数据集的多样性来训练PDIS模型可以 量对算法行人性能的影响,本文在原始SSD的基 增强算法检测的泛化能力。一般使用单一的行人 础上引出更底层卷积conv33的特征图做检测, 数据集训练卷积网络模型时,在其本身数据集上 在该层的特征图上提取特征获得了原始输入行人 测试的效果会很理想,然而在其他数据集上测试 图像的更多细节信息。实验表明引出卷积 时效果往往不好。因此,行人数据集所包含的样 conv33的输出特征图做检测,特征维度的计算 本的数量、样本背景的多样性以及样本中有无对 复杂度相应的增加,实时性相比原始SSD算法有 小尺寸行人目标的标注等因素,在训练CNN的过 所下降,但依然能满足行人检测实时性的要求, 程中会严重影响算法的学习。在训练卷积神经网 并相比原始S$D算法对小尺寸行人检测性能提 络时,深度模型学习的参数往往比较多,用于训 升很高。同时,研究了融合不同卷层基输出的特 练的样本数据量太少,容易造成网络过拟合。此 征图对算法的影响。在引出底层conv33的输出 外,现有的行人数据集公布时间较早,而且训练 特征图做检测的基础上,训练了多个组合不同输 样本基本是从较大图像中剪切出的单个行人图 出特征图的网络模型:模型2引出conv33、 像,背景单一,像素分辨率普遍偏低,因此不适合 conv4_3、fc7、conv62、conv72、conv82和 用于训练深度卷积网络模型。 conv92等7个卷积层的特征图做检测,模型3引 为了增强PDIS模型在行人检测领域的泛化 出conv33、fc7、conv62、conv72、conv82和 能力,本文对已有的NRIA行人数据集进行了扩 conv92等6个卷积层的特征图做检测,模型4引 增。首先,NRIA行人数据集的选取:NRIA行人 出conv3_3、conv53、conv62、conv72、 数据集是目前使用最多的静态行人检测数据集。 conv82和conv92等6个卷积层的特征图做检 其中包含沙滩、机场、城市、山等复杂的场景,且 测,模型5引出conv33、conv53、conv62、 拍摄条件多样,存在光线变化、人体遮挡等情形, conv82和conv92等5个卷积层的特征图做检 符合本文所需求的行人样本的背景多样性。其 测。在扩增的行人数据集分别训练各个PDIS网 次,扩增INRIA行人数据集:INRIA行人数据集 络模型,利用NRIA行人数据集的测试集分别对 中训练集的正样本只包含614张图像(包含2416 模型进行测试。实验表明:不同的网络模型在引 个行人),用于训练CNN模型的数量远远不够。 出不同的特征层以及引出不同层的数目直接影响 本文在各种天气、场景、光照下采集了数万张图 网络模型的检测效果,改进的模型2取得了最好 像,并对图像进行人工筛选标注,目前已有5000 的检测性能。 多张图像用于训练。部分数据如图5所示,扩增 此外,为了进一步提升PDIS模型对小目标的 的行人数据集中包含学校、街道、车站等不同场 检测能力,通过增加输入图像的分辨率提升算法 景下的样本,组合成一个复杂背景下的真实场景 检测性能的鲁棒性。原始的SSD算法输入图像 行人数据集,并对训练样本中姿态变化、遮挡、小
PDIS 在每层输出特征图上的每个特征图网 格预设有 4 个默认框,在不同输出层的特征图上 有不同尺寸大小的默认框,在同一个特征图上又 有不同纵横比的默认框,实现了图像中各种形状 和尺寸大小的目标检测。行人的高度跟宽度之比 一般在 1∶1、2∶1、3∶1、1∶2 这些比例内,不同于原 始 SSD 算法,本文将默认框的纵横比 ar 设置为符 合行人的 4 种比例分别为 1∶1、2∶1、3∶1、1∶2,加 速了行人区域定位。且默认框的尺度定义为 sk = smin + smax − smin m−1 (k−1), k ∈ [1,m] (4) w a k = sk √ ar h a k = sk/ √ ar ar = 1 s ′ k = √ sk sk +1 sk s ′ k w a k h a k 式中: , ,当 时 ; 、 表示默认框的尺寸,smin、smax 分别表示 0.1 和 0.9,m 表示 PDIS 中间层输出做预测特征图层数, 、 分别表示每一个默认框的宽度跟高度。 PDIS 模型融合多层特征图的特征做检测,解 决了同一张图像中不同尺度的目标检测问题。通 过研究用不同层输出特征图以及网络输出层的数 量对算法行人性能的影响,本文在原始 SSD 的基 础上引出更底层卷积 conv3_3 的特征图做检测, 在该层的特征图上提取特征获得了原始输入行人 图像的更多细节信息。实验表明引出卷 积 conv3_3 的输出特征图做检测,特征维度的计算 复杂度相应的增加,实时性相比原始 SSD 算法有 所下降,但依然能满足行人检测实时性的要求, 并相比原始 SSD 算法对小尺寸行人检测性能提 升很高。同时,研究了融合不同卷层基输出的特 征图对算法的影响。在引出底层 conv3_3 的输出 特征图做检测的基础上,训练了多个组合不同输 出特征图的网络模型:模 型 2 引 出 conv3_3、 conv4_3、fc7、conv6_2、conv7_2、conv8_2 和 conv9_2 等 7 个卷积层的特征图做检测,模型 3 引 出 conv3_3、fc7、conv6_2、conv7_2、conv8_2 和 conv9_2 等 6 个卷积层的特征图做检测,模型 4 引 出 conv3_3、 conv5_3、 conv6_2、 conv7_2、 conv8_2 和 conv9_2 等 6 个卷积层的特征图做检 测,模型 5 引出 conv3_3、conv5_3、conv6_2、 conv8_2 和 conv9_2 等 5 个卷积层的特征图做检 测。在扩增的行人数据集分别训练各个 PDIS 网 络模型,利用 INRIA 行人数据集的测试集分别对 模型进行测试。实验表明:不同的网络模型在引 出不同的特征层以及引出不同层的数目直接影响 网络模型的检测效果,改进的模型 2 取得了最好 的检测性能。 此外,为了进一步提升 PDIS 模型对小目标的 检测能力,通过增加输入图像的分辨率提升算法 检测性能的鲁棒性。原始的 SSD 算法输入图像 大小为 300×300。在 CNN 中经过卷积、池化特征 图不断减小,原始 SSD 算法最底层 conv4_3 引出 特征图大小为 38×38,相比原始图像缩小至原来 的 1/8,在原始图像中一个 8×8 的目标在 conv4 输 出的特征图表现为一个像素点,该目标的细节信 息完全丢失。卷积输出的特征图会随网络层数的 增加而减小。导致训练阶几乎无法学习到小目标 物体的信息。因此,数据集的训练图像分辨率大 小很大程度影响了卷积神经网络的学习,训练图 像分辨率太小,训练时模型很难收敛,检测精度 低。本文把训练预设输入图像尺寸大小从 300× 300 变大到 512×512,增加卷积后输出特征图的分 辨率,能获得原图像中更加丰富、更加细节的信 息。测试结果表明:用放大的行人图像训练 PDIS 模型能够检测到同一张图像中更小尺寸的行人, 进一步提升了行人小目标检测效果。 3.2 数据集扩增 增加数据集的多样性来训练 PDIS 模型可以 增强算法检测的泛化能力。一般使用单一的行人 数据集训练卷积网络模型时,在其本身数据集上 测试的效果会很理想,然而在其他数据集上测试 时效果往往不好。因此,行人数据集所包含的样 本的数量、样本背景的多样性以及样本中有无对 小尺寸行人目标的标注等因素,在训练 CNN 的过 程中会严重影响算法的学习。在训练卷积神经网 络时,深度模型学习的参数往往比较多,用于训 练的样本数据量太少,容易造成网络过拟合。此 外,现有的行人数据集公布时间较早,而且训练 样本基本是从较大图像中剪切出的单个行人图 像,背景单一,像素分辨率普遍偏低,因此不适合 用于训练深度卷积网络模型。 为了增强 PDIS 模型在行人检测领域的泛化 能力,本文对已有的 INRIA 行人数据集进行了扩 增。首先,INRIA 行人数据集的选取:INRIA 行人 数据集是目前使用最多的静态行人检测数据集。 其中包含沙滩、机场、城市、山等复杂的场景,且 拍摄条件多样,存在光线变化、人体遮挡等情形, 符合本文所需求的行人样本的背景多样性。其 次,扩增 INRIA 行人数据集:INRIA 行人数据集 中训练集的正样本只包含 614 张图像 (包含 2 416 个行人),用于训练 CNN 模型的数量远远不够。 本文在各种天气、场景、光照下采集了数万张图 像,并对图像进行人工筛选标注,目前已有 5 000 多张图像用于训练。部分数据如图 5 所示,扩增 的行人数据集中包含学校、街道、车站等不同场 景下的样本,组合成一个复杂背景下的真实场景 行人数据集,并对训练样本中姿态变化、遮挡、小 第 2 期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·311·
·312· 智能系统学报 第14卷 目标的行人都进行了标注,如:骑自行车、打伞 TP Rr=TN+FP (7) 拥挤,图像中像素很小的行人等。扩增的数据集 图像使得行人数据集样本背景复杂化、多样化, 式中:TP、FP、FN分别表示将行人样本分类成行 并大大增加了对小目标行人标注数目。实验表 人样本数、将非行人样本分类为行人样本数、将 明:采用本文扩充的行人数据集训练PDIS模型, 行人样本分类成非行人样本数。 不管在真实场景下还是小目标行人检测PDIS都 4.2实验环境与模型对比 取得了非常优秀的效果。 本文的实验环境为Ubuntul44.04系统,处理器 型号为Intel⑧Xeon(R)CPUE5-2670v3@2.30GHz× 24,显卡型号为GeForce GTX TITAN X,显存12GB, 内存32GB. 本文在NRIA行人数据集上,扩增成一个50O0 多张图像的数据集,在该数据集上训练了的6个 不同的模型,如表3所示,输入图像的大小会直接 影响算法的精度和实时性,SSD300×300比SSD 512×512输入图像小,在NRIA的测试集上测试, 一张图像的平均测试时间快了一倍多,但检测精 度有所下降;将原始的SSD网络模型conv33的 图5真实场景下的训练样本 特征图引出做检测,并在此基础上融合多个卷基 Fig.5 Training samples in real scenes 层的特征图做检测,提出了表3的4个检测模 4实验结果与分析 型。实验表明引出conv33的特征图的模型,相 4.1性能评价指标 比原始SSD模型在每张图像的平均检测速度有 本文应用漏检率、准确率来衡量检测算法的 所下降,但测试一张图像最慢速度依然达到 性能,通过在NRIA行人数据集的测试集上测试 0.16s,满足行人检测的实时性要求,并相比原来 训练好的模型,记录每张图像检测窗口,计算检 的S$D算法,本文算法准确率达到了93.8%,漏检 测框跟真实框的IOU值。假设检测框为BB,真 率下降至7.4%。 实框为BB,若IOU值大于阈值时,则BBh与BB 表3不同模型的检测率 是匹配的。本文IOU设定的阈值为0.5,如(5)式 Table 3 Detection rates of different models 所示: 模型 conv conv conv fe conv conv conv conv漏检时间/ IOU= area(BBnBB) >0.5 (5) 334353762728292率/%s aera(BBa UBBst) SSD VVV√√12.10.02 在BBh与BB匹配过程中,未匹配到的BB是 300×300 误检的行人框(false positive,FP),未匹配的BB,是 SSD V10.70.07 漏检的行人框(false negative,.FN,漏检率统计用到 512×512 的标准如表2所示 模型2 7.40.16 表2行人统计量 模型3 V10.90.11 Table 2 Pedestrian statistics 模型4 8.70.14 模型5 9.00.14 真实值 分类结果 注:打钩的表示该层卷积输出的特征图被引出 行人(Positive) 非行人Negative) 行人(Positive) 6种模型在INRIA的测试集上RcFPPI曲线 True Positive(TP) False Positive(FP) 如图6所示,模型2在NRIA的测试集上取得了 非行人(Negative)False Negative(FN)True Negative(TN) 最好的检测效果。 漏检率Ru(Miss Rate)定义为 在训练过程中采用本文扩增的数据集,分别 FN 用300×300与512×512的图像训练原始的SSD模 RM=FN+TP (6) 型及本文改进的模型2,如图7所示,使用300×300 准确率Rp(Precision Rate)定义为 的图像训练原始模型时,无法学习到扩增数据集
目标的行人都进行了标注,如:骑自行车、打伞、 拥挤,图像中像素很小的行人等。扩增的数据集 图像使得行人数据集样本背景复杂化、多样化, 并大大增加了对小目标行人标注数目。实验表 明:采用本文扩充的行人数据集训练 PDIS 模型, 不管在真实场景下还是小目标行人检测 PDIS 都 取得了非常优秀的效果。 4 实验结果与分析 4.1 性能评价指标 BBdt BBgt BBdt BBgt 本文应用漏检率、准确率来衡量检测算法的 性能,通过在 INRIA 行人数据集的测试集上测试 训练好的模型,记录每张图像检测窗口,计算检 测框跟真实框的 IOU 值。假设检测框为 ,真 实框为 ,若 IOU 值大于阈值时,则 与 是匹配的。本文 IOU 设定的阈值为 0.5,如 (5) 式 所示: IOU = area(BBdt ∩ BBgt) aera(BBdt ∪ BBgt) > 0.5 (5) BBdt BBgt BBdt BBgt 在 与 匹配过程中,未匹配到的 是 误检的行人框 (false positive,FP),未匹配的 是 漏检的行人框 (false negative,FN),漏检率统计用到 的标准如表 2 所示 漏检率 RM (Miss Rate) 定义为 RM = FN FN+TP (6) 准确率 RP (Precision Rate) 定义为 RP = TP TN+FP (7) 式中:TP、FP、FN 分别表示将行人样本分类成行 人样本数、将非行人样本分类为行人样本数、将 行人样本分类成非行人样本数。 4.2 实验环境与模型对比 本文的实验环境为 Ubuntu14.04 系统,处理器 型号为 Intel® Xeon(R) CPU E5-2670 v3 @ 2.30 GHz× 24,显卡型号为 GeForce GTX TITAN X,显存 12 GB, 内存 32 GB。 本文在 INRIA 行人数据集上,扩增成一个 5 000 多张图像的数据集,在该数据集上训练了的 6 个 不同的模型,如表 3 所示,输入图像的大小会直接 影响算法的精度和实时性,SSD 300×300 比 SSD 512×512 输入图像小,在 INRIA 的测试集上测试, 一张图像的平均测试时间快了一倍多,但检测精 度有所下降;将原始的 SSD 网络模型 conv3_3 的 特征图引出做检测,并在此基础上融合多个卷基 层的特征图做检测,提出了表 3 的 4 个检测模 型。实验表明引出 conv3_3 的特征图的模型,相 比原始 SSD 模型在每张图像的平均检测速度有 所下降,但测试一张图像最慢速度依然达 到 0.16s,满足行人检测的实时性要求,并相比原来 的 SSD 算法,本文算法准确率达到了 93.8%,漏检 率下降至 7.4%。 6 种模型在 INRIA 的测试集上 RM-FPPI 曲线 如图 6 所示,模型 2 在 INRIA 的测试集上取得了 最好的检测效果。 在训练过程中采用本文扩增的数据集,分别 用 300×300 与 512×512 的图像训练原始的 SSD 模 型及本文改进的模型 2,如图 7 所示,使用 300×300 的图像训练原始模型时,无法学习到扩增数据集 图 5 真实场景下的训练样本 Fig. 5 Training samples in real scenes 表 2 行人统计量 Table 2 Pedestrian statistics 分类结果 真实值 行人 (Positive) 非行人 (Negative) 行人 (Positive) True Positive(TP) False Positive(FP) 非行人 (Negative) False Negative(FN) True Negative(TN) 表 3 不同模型的检测率 Table 3 Detection rates of different models 模型 conv 3_3 conv 4_3 conv 5_3 fc 7 conv 6_2 conv 7_2 conv 8_2 conv 9_2 漏检 率/% 时间/ s SSD 300×300 √ √ √ √ √ √ 12.1 0.02 SSD 512×512 √ √ √ √ √ √ 10.7 0.07 模型 2 √ √ √ √ √ √ √ 7.4 0.16 模型 3 √ √ √ √ √ √ 10.9 0.11 模型 4 √ √ √ √ √ √ 8.7 0.14 模型 5 √ √ √ √ √ 9.0 0.14 注:打钩的表示该层卷积输出的特征图被引出 ·312· 智 能 系 统 学 报 第 14 卷
第2期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·313· 中的小尺寸行人,导致训练Ioss曲线收敛效果最 不同算法在INRIA的测试集上Miss Rate- 差,而增加输入图像大小能有效提高收敛效果, FPPI曲线如图8所示,可以看出本文算法在IN 利用大小相同的图像分别训练SSD模型与PDIS RIA的测试集上取得了最好的检测效果。 模型,PDIS的Loss曲线收敛效果较好。因此,本 1.00 ..45.8%H0G 0.80 17.6%Faster R-CNN 0.64 17.2%ACE 文增加图像大小来训练PDIS模型,能够得到最 0.50 -13.8%LDCF 0.40 12 77%R-CNN 好的检测模型。 0.30 ·7.4%本文算法 0.40 --.12.1%SSD300×300 e0.20 0.30 --.10.99%模型3 10.7%SsD512×512 0.20 9.0%模型5 0.10 8.7%模型4 7.4%模型2 0.05 0.10 10-2 101 100 10 每张图片上的误检率 0.05 图8不同算法在NRIA数据集上RxcFPPI曲线 10-2 10- 10 10 每张图片上的误检率 Fig.8 Miss Rate-FPPI curves of different algorithms on INRIA dataset 图66种模型在NRIA数据集上Rv-FPPI曲线 本文对真实场景中拍摄的200张图像进行了 Fig.6 Miss Rate-FPPI curves of 6 models on INRIA data- 测试,从中挑选了3张代表性的图像在2个不同 set 30 的模型上分别检测,其结果如图9所示,可以看 --SSD300×300 出,针对图像中的大目标行人,PDIS与SSD相比 25 =PDIS300×300 具有同等的检测能力甚至更优;而对图像中的小 ■■SSD512×512 20 PDIS512×512 目标行人,SSD检测性能很差,但PDIS在小目标 检测上达到了非常好的性能,漏检率更低。 5 10 50000 100000150000200000 迭代次数 图7不同算法的Ioss下降曲线 Fig.7 Loss curves of different algorithms 4.3与现有流行算法性能对比 利用当前流行的多个算法在NRIA的测试集 上进行测试,实验表明:在扩增的NRIA行人数 据集训练PDIS模型的测试漏检率比现有的比较 (a)SSD算法 (b)本文算法 流行的算法都要低,如表4所示,本文的算法取得 图9不同算法的行人检测结果 了最好的效果。 Fig.9 Pedestrian detection results for different algorithms 表4不同算法在NRIA行人数据集的漏检率 Table 4 Miss rates of different algorithms in the IN- 5结束语 RIA pedestrian dataset % 本文通过引出SSD网络模型中更底层特征 算法 漏检率 图做检测以及增加输入图像大小来增加深度模型 HOGHI 45.8 的分辨率,相比原始的SSD算法,改进的SSD模 ACpls) 17.2 型提高了对小目标行人的检测性能。另外增加 LDCE 13.8 NRIA数据集的数量跟多样性也是本文算法检测 R-CNNI131 12.77 性能提升的主要原因。尽管通过扩增的IN- Faster R-CNN4 17.6 RIA数据集训练改进的SSD模型取得较好的检 本文算法 7.4 测效果,但检测性能还有待优化。下一步研究工
中的小尺寸行人,导致训练 loss 曲线收敛效果最 差,而增加输入图像大小能有效提高收敛效果, 利用大小相同的图像分别训练 SSD 模型与 PDIS 模型,PDIS 的 Loss 曲线收敛效果较好。因此,本 文增加图像大小来训练 PDIS 模型,能够得到最 好的检测模型。 4.3 与现有流行算法性能对比 利用当前流行的多个算法在 INRIA 的测试集 上进行测试,实验表明:在扩增的 INRIA 行人数 据集训练 PDIS 模型的测试漏检率比现有的比较 流行的算法都要低,如表 4 所示,本文的算法取得 了最好的效果。 不同算法在 INRIA 的测试集上 Miss RateFPPI 曲线如图 8 所示,可以看出本文算法在 INRIA 的测试集上取得了最好的检测效果。 本文对真实场景中拍摄的 200 张图像进行了 测试,从中挑选了 3 张代表性的图像在 2 个不同 的模型上分别检测,其结果如图 9 所示,可以看 出,针对图像中的大目标行人,PDIS 与 SSD 相比 具有同等的检测能力甚至更优;而对图像中的小 目标行人,SSD 检测性能很差,但 PDIS 在小目标 检测上达到了非常好的性能,漏检率更低。 5 结束语 本文通过引出 SSD 网络模型中更底层特征 图做检测以及增加输入图像大小来增加深度模型 的分辨率,相比原始的 SSD 算法,改进的 SSD 模 型提高了对小目标行人的检测性能。另外增加 INRIA 数据集的数量跟多样性也是本文算法检测 性能提升的主要原因。尽管通过扩增 的 I NRIA 数据集训练改进的 SSD 模型取得较好的检 测效果,但检测性能还有待优化。下一步研究工 0.40 0.30 0.20 0.10 RM 0.05 10−2 10−1 100 101 每张图片上的误检率 10.9% 模型3 9.0% 模型5 8.7% 模型4 7.4% 模型2 12.1% SSD300×300 10.7% SSD512×512 图 6 6 种模型在 INRIA 数据集上 RM-FPPI 曲线 Fig. 6 Miss Rate-FPPI curves of 6 models on INRIA dataset SSD 300×300 PDIS 300×300 SSD 512×512 PDIS 512×512 30 25 20 损失15 10 5 0 50 000 100 000 迭代次数 150 000 200 000 图 7 不同算法的 loss 下降曲线 Fig. 7 Loss curves of different algorithms 0.80 1.00 0.64 0.50 0.40 0.30 0.20 0.10 RM 0.05 10−2 10−1 100 101 每张图片上的误检率 17.6% Faster R-CNN 13.8% LDCF 12.77% R-CNN 7.4% 本文算法 45.8% HOG 17.2% ACE 图 8 不同算法在 INRIA 数据集上 RM-FPPI 曲线 Fig. 8 Miss Rate-FPPI curves of different algorithms on INRIA dataset (a) SSD 算法 (b) 本文算法 图 9 不同算法的行人检测结果 Fig. 9 Pedestrian detection results for different algorithms 表 4 不同算法在 INRIA 行人数据集的漏检率 Table 4 Miss rates of different algorithms in the INRIA pedestrian dataset % 算法 漏检率 HOG[4] 45.8 ACF[8] 17.2 LDCF[9] 13.8 R-CNN[13] 12.77 Faster R-CNN[14] 17.6 本文算法 7.4 第 2 期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·313·
·314· 智能系统学报 第14卷 作主要针对两点:1)应用本文算法在多个基准行 improved detection[J].Advances in neural information 人数据集(如Caltech行人数据集等)上进行实验, processing systems,2014,1:424-432 针对每个数据集的测试结果进行统计分析,优化 [13]ZHANG Shanshan,BENENSON R,SCHIELE B. 本文算法的检测性能:2)继续扩充行人数据集的 Filtered channel features for pedestrian detection[C]//Pro- 数量跟多样性能够进一步的提升算法的检测性能。 ceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA,2015:1751-1760. 参考文献: [14]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Im. agenet classification with deep convolutional neural net- [1]宋婉茹,赵晴晴,陈昌红,等.行人重识别研究综述).智 works[J].Advances in neural information processing sys- 能系统学报,2017,12(6:770-780 tems,2012,25(2):1097-1105 SONG Wanru,ZHAO Qingqing,CHEN Changhong,et al. Survey on pedestrian re-identification research[J].CAAI [15]SIMONYAN K,ZISSERMAN A.Very deep convolu- transactions on intelligent systems,2017,12(6):770-780. tional networks for large-scale image recognition[J].arX- iv:1409.1556.2014 [2]YE Qixiang,LIANG Jixiang,JIAO Jianbin.Pedestrian de- [16]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich tection in video images via error correcting output code feature hierarchies for accurate object detection and se- classification of manifold subclasses[J].IEEE transactions mantic segmentation[C]//Proceedings of 2014 IEEE Con- on intelligent transportation systems,2012,13(1): 193-202. ference on Computer Vision and Pattern Recognition. [3]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single Columbus,USA,2014:580-587. shot multibox detector[C]//Proceedings of 2016 European [17]REN Shaoging,HE Kaiming,GIRSHICK R,et al.Faster Conference on Computer Vision.Cham,Germany,2016: R-CNN:towards real-time object detection with region 21-37. proposal networks[J].IEEE transactions on pattern ana- [4]DALAL N.TRIGGS B.Histograms of oriented gradients lysis and machine intelligence,2017,39(6):1137-1149. for human detection[Cl//IEEE Computer Society Confer- [18]REDMON J,DIVVALA S,GIRSHICK R,et al.You only ence on Computer Vision and Pattern Recognition.San look once:unified,real-time object detection[C]//Pro- Diego,USA,2005:886-893 ceedings of 2016 IEEE Conference on Computer Vision [5]苏松志,李绍滋,陈淑媛,等.行人检测技术综述)电子 and Pattern Recognition.Las Vegas,USA,2016: 学报,2012,40(4):814-820 779-788. SU Songhi,LI Shaozi,CHEN Shuyuan,et al.A survey on [19]王梦来,李想,陈奇,等.基于CNN的监控视频事件检 pedestrian detection[J].Acta electronica sinica,2012, 测U.自动化学报,2016,42(6):892-903, 40(4):814-820. WANG Menglai,LI Xiang,CHEN Qi,et al.Surveillance [6]LOWE D G.Distinctive image features from scale-invari- event detection based on CNN[J].Acta automatica sinica. ant keypoints[J].International journal of computer vision, 2016,42(6):892-903 2004,60(2):91-110. [20]HOSANG J,OMRAN M,BENENSON R,et al.Taking a [7]VIOLA P,JONES M.Rapid object detection using a boos- deeper look at pedestrians[Cl//Proceedings of 2015 IEEE ted cascade of simple features[C]//Proceedings of the 2001 Conference on Computer Vision and Pattern Recognition. IEEE Computer Society Conference Computer Vision and Boston,USA,2015:4073-4082. Pattern Recognition.Kauai,USA,2001:511-518 [21]BENENSON R,OMRAN M,HOSANG J,et al.Ten years [8]FERREIRA A J.FIGUEIREDO M A T.Boosting al- of pedestrian detection,what have we learned?[C]//Pro- gorithms:a review of methods,theory,and applications[M]. ceedings of 2014 European Conference on Computer Vis- New York,USA:Springer,2012:35-85. ion.Cham,Germany,2015:613-627. [9]VAPNIK V.The nature of statistical learning theory[M]. [22]吕静,高陈强,杜银和,等.基于双通道特征自适应融合 2nd eds.New York:Springer-Verlag,2000. 的红外行为识别方法).重庆邮电大学学报(自然科学 [10]BREIMAN L.Random forests[J].Machine learning, 版),2017,293:389-395 2001,45(1)y5-32. LYU Jing,GAO Chengiang,DU Yinhe,et al.Infrared ac- [11]DOLLAR P.APPEL R.BELONGIE S,et al.Fast feature tion recognition method based on adaptive fusion of dual pyramids for object detection[J].IEEE transactions on channel features[J].Journal of Chongqing university of pattern analysis and machine intelligence,2014,36(8): posts and telecommunications (natural science edition), 1532-1545. 2017,29(3:389-395 [12]NAM W.DOLLAR P.HAN J H.Local decorrelation for [23]TIAN Yonglong,LUO Ping,WANG Xiaogang,et al
作主要针对两点:1)应用本文算法在多个基准行 人数据集(如 Caltech 行人数据集等)上进行实验, 针对每个数据集的测试结果进行统计分析,优化 本文算法的检测性能;2)继续扩充行人数据集的 数量跟多样性能够进一步的提升算法的检测性能。 参考文献: 宋婉茹, 赵晴晴, 陈昌红, 等. 行人重识别研究综述[J]. 智 能系统学报, 2017, 12(6): 770–780. SONG Wanru, ZHAO Qingqing, CHEN Changhong, et al. Survey on pedestrian re-identification research[J]. CAAI transactions on intelligent systems, 2017, 12(6): 770–780. [1] YE Qixiang, LIANG Jixiang, JIAO Jianbin. Pedestrian detection in video images via error correcting output code classification of manifold subclasses[J]. IEEE transactions on intelligent transportation systems, 2012, 13(1): 193–202. [2] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of 2016 European Conference on Computer Vision. Cham, Germany, 2016: 21–37. [3] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005: 886–893 [4] 苏松志, 李绍滋, 陈淑媛, 等. 行人检测技术综述[J]. 电子 学报, 2012, 40(4): 814–820. SU Songhi, LI Shaozi, CHEN Shuyuan, et al. A survey on pedestrian detection[J]. Acta electronica sinica, 2012, 40(4): 814–820. [5] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91–110. [6] VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference Computer Vision and Pattern Recognition. Kauai, USA, 2001: 511–518. [7] FERREIRA A J, FIGUEIREDO M A T. Boosting algorithms: a review of methods, theory, and applications[M]. New York, USA: Springer, 2012: 35–85. [8] VAPNIK V. The nature of statistical learning theory[M]. 2nd eds. New York: Springer-Verlag, 2000. [9] BREIMAN L. Random forests[J]. Machine learning, 2001, 45(1): 5–32. [10] DOLLÁR P, APPEL R, BELONGIE S, et al. Fast feature pyramids for object detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(8): 1532–1545. [11] [12] NAM W, DOLLÁR P, HAN J H. Local decorrelation for improved detection[J]. Advances in neural information processing systems, 2014, 1: 424–432. ZHANG Shanshan, BENENSON R, SCHIELE B. Filtered channel features for pedestrian detection[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1751–1760. [13] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012, 25(2): 1097–1105. [14] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv: 1409.1556, 2014. [15] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 580–587. [16] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137–1149. [17] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 779–788. [18] 王梦来, 李想, 陈奇, 等. 基于 CNN 的监控视频事件检 测[J]. 自动化学报, 2016, 42(6): 892–903. WANG Menglai, LI Xiang, CHEN Qi, et al. Surveillance event detection based on CNN[J]. Acta automatica sinica, 2016, 42(6): 892–903. [19] HOSANG J, OMRAN M, BENENSON R, et al. Taking a deeper look at pedestrians[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 4073–4082. [20] BENENSON R, OMRAN M, HOSANG J, et al. Ten years of pedestrian detection, what have we learned?[C]//Proceedings of 2014 European Conference on Computer Vision. Cham, Germany, 2015: 613–627. [21] 吕静, 高陈强, 杜银和, 等. 基于双通道特征自适应融合 的红外行为识别方法[J]. 重庆邮电大学学报(自然科学 版), 2017, 29(3): 389–395. LYU Jing, GAO Chenqiang, DU Yinhe, et al. Infrared action recognition method based on adaptive fusion of dual channel features[J]. Journal of Chongqing university of posts and telecommunications (natural science edition), 2017, 29(3): 389–395. [22] [23] TIAN Yonglong, LUO Ping, WANG Xiaogang, et al. ·314· 智 能 系 统 学 报 第 14 卷
第2期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·315· Deep learning strong parts for pedestrian detection[C]// [30]王成济,罗志明,钟准,等.一种多层特征融合的人脸检 Proceedings of 2015 IEEE International Conference on 测方法.智能系统学报,2018.13(1):138-146. Computer Vision.Santiago,Chile,2015:1904-1912. WANG Chengji,LUO Zhiming,ZHONG Zhun,et al. [24]张雅俊,高陈强,李佩,等.基于卷积神经网络的人流量 Face detection method fusing multi-layer features[J]. 统计[.重庆邮电大学学报(自然科学版),2017,29(2): 265-271. CAAI transactions on intelligent systems,2018,13(1): ZHANG Yajun,GAO Chengiang,LI Pei,et al.Pedestri- 138-146 an counting based on convolutional neural network[J]. 作者简介: Journal of Chongqing university of posts and telecommu- nications(natural science edition),2017,29(2):265-271. 伍鹏瑛,男,1990年生,硕士研究 [25]ZHANG Liliang,LIN Liang,LIANG Xiaodan,et al.Is 生,主要研究方向为计算机视觉、模式 faster r-cnn doing well for pedestrian detection?[C]//Pro- 识别。 ceeding of 2016 European Conference on Computer Vis- ion.Cham,Germany,2016:443-457. [26]ENZWEILER M,GAVRILA D M.Monocular pedestri- an detection:survey and experiments[J].IEEE transac- tions on pattern analysis and machine intelligence,2009 张建明,男,1976年生,副教授, 31(12):2179-2195. 博士,主要研究方向为计算机视觉、智 [27]MOHAN A,PAPAGEORGIOU C,POGGIO T.Ex- 能交通系统。发表学术论文50余篇, 其中EI收录26篇,SCI收录9篇。 ample-based object detection in images by components[J]. IEEE transactions on pattern analysis and machine intelli- gence,2001,23(4):349-361. [28]OVERETT G.PETERSSON L.BREWER N.et al.A new pedestrian dataset for supervised learning[C]//Pro- 彭建,男,1971年生,副教授,主 要研究方向为目标检测、计算机视 ceedings of 2008 IEEE Intelligent Vehicles Symposium. 觉。发表学术论文20余篇。 Eindhoven,Netherlands,2008:373-378. [29]GIRSHICK R.Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.San- tiago,Chile,.2015:1440-1448
Deep learning strong parts for pedestrian detection[C]// Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1904–1912. 张雅俊, 高陈强, 李佩, 等. 基于卷积神经网络的人流量 统计[J]. 重庆邮电大学学报(自然科学版), 2017, 29(2): 265–271. ZHANG Yajun, GAO Chenqiang, LI Pei, et al. Pedestrian counting based on convolutional neural network[J]. Journal of Chongqing university of posts and telecommunications (natural science edition), 2017, 29(2): 265–271. [24] ZHANG Liliang, LIN Liang, LIANG Xiaodan, et al. Is faster r-cnn doing well for pedestrian detection?[C]//Proceeding of 2016 European Conference on Computer Vision. Cham, Germany, 2016: 443–457. [25] ENZWEILER M, GAVRILA D M. Monocular pedestrian detection: survey and experiments[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(12): 2179–2195. [26] MOHAN A, PAPAGEORGIOU C, POGGIO T. Example-based object detection in images by components[J]. IEEE transactions on pattern analysis and machine intelligence, 2001, 23(4): 349–361. [27] OVERETT G, PETERSSON L, BREWER N, et al. A new pedestrian dataset for supervised learning[C]//Proceedings of 2008 IEEE Intelligent Vehicles Symposium. Eindhoven, Netherlands, 2008: 373–378. [28] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1440–1448. [29] 王成济, 罗志明, 钟准, 等. 一种多层特征融合的人脸检 测方法[J]. 智能系统学报, 2018, 13(1): 138–146. WANG Chengji, LUO Zhiming, ZHONG Zhun, et al. Face detection method fusing multi-layer features[J]. CAAI transactions on intelligent systems, 2018, 13(1): 138–146. [30] 作者简介: 伍鹏瑛,男,1990 年生,硕士研究 生,主要研究方向为计算机视觉、模式 识别。 张建明,男,1976 年生,副教授, 博士,主要研究方向为计算机视觉、智 能交通系统。发表学术论文 50 余篇, 其中 EI 收录 26 篇,SCI 收录 9 篇。 彭建,男,1971 年生,副教授,主 要研究方向为目标检测、计算机视 觉。发表学术论文 20 余篇。 第 2 期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·315·