正在加载图片...
第2期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·307· 等领域有着广泛的应用。由于行人具有非刚性 征上融合颜色特征、纹理特征等诸多算法;2005 属性,决定了行人检测不同于普通的目标检测, 年Dalal等提出了HOG结合分类器SVM的算 另外存在着许多制约行人检测的因素,如现实场 法,取得了较好的效果,并陆续提出的ACF(ag 景中背景的复杂多样性、光照变化、行人遮挡、姿 gregated channel features)m、LDCF2等算法都具有 态变化、拍摄角度多样化、实时性要求、小目标行 很好的检测效果。2015年Zhang等把HOG特 人等。这些因素给行人检测带来了巨大的挑战, 征结合光流特征进一步提高了行人检测性能。针 因此行人检测一直是计算机视觉领域中的研究热 对在同一张图像有不同尺寸的目标时,传统方法 点和难点。 主要有两种处理方法:1)将原始图像转换成不同 传统的行人检测的效果依赖于特征的选取以 尺寸大小的图像输入固定尺寸的滑动窗口分别提 及分类器的学习。一个好的特征即使结合简单的 取特征,该方法的检测精度较好,但是计算复杂, 分类器仍能够取得不错的检测效果,所以传统的 其流程如图1所示;2)用固定大小不变的图像输 行人检测研究重点在于行人的特征提取及分类。 入多尺度缩放的滑动窗进行特征提取。方法 尽管传统的行人检测算法取得了不少的研究成 2)避免了测试图像的多尺度计算,检测速度较快 果,但是在实际生活场景的检测效果依然不理 但其精度比较差。 想。近年来深度学习的方法在目标检测、语音识 别、图像分类等方面取得了突破性的进展,与传 行 统检测算法相比,卷积神经网络(CNN)通过权值 共享,大大减少了网络的参数,进而降低了算法复杂 人检测器 度。CNN的卷积运算以及下采样能很好的学习到 图像的颜色、纹理等特征,使之对图像的缩放、平移 具有很好的鲁棒性。因此,深度学习算法在行人检 图1多尺度输入图像检测流程 测领域里的检测精度以及实时性都优于传统算法。 Fig.1 Object detection with multi-scale input 针对真实场景下的行人检测精度不高,小目 2012年Krizhevsky等i在ImageNet竞赛上训 标行人的漏检率较高的问题,本文对目前优秀的 练出一个8层的卷积神经网络,取得了视觉领域 深度模型进行了改进。通过引出S$D网络模型 竞赛ILSVRC2012的冠军。在此之后,深度学习 中更底层特征做检测以及增加输入图像大小来增 算法层出不穷,典型的算法有VGG-Nets1、R- 加深度模型的分辨率,提高了对小目标行人的检 CNNl6、Faster R-CNNI;Redmon等usl提出的 测性能。卷积网络中的底层特征能检测到尺寸较 YOLO直接在输出层回归目标位置与类别,加快 小的目标,而深层特征可以检测到尺寸较大的目 了目标检测速度及精度:Liu等提出了SSD融合 标,因此引出SSD网络中多层输出特征图,将检 卷积层的多层输出特征做检测,进一步提高了目 测结果综合后确定目标位置。此外,训练数据集 标检测精度。由于CNN提取的特征比传统特征 的数量跟数据集样本的多样性也是深度学习算法 更具鲁棒性,其良好的特征表达能力提高了行人 取得优秀成果的主要原因。因此本文采用车载摄 检测性能,因此许多研究学者将深度学习算法应 像头拍摄了各种场合、光照、遮挡、姿态等复杂的 用于行人检测领域。文献[19]引入级联CNN网络 背景下的行人视频,在NRIA行人数据集上,扩 在拥挤场景中准确地检测行人;Hosang等2o利用 增了一个复杂场景下的行人数据集CSUSTPD。 SquaresChnFtrs!2产生行人候选窗口用于训练 AlexNet"。文献22]利用光流卷积神经网络对光 1相关工作 流图序列中提取行人特征,该特征具有较强的全 传统的行人检测流程主要由行人图像输入、 局描述能力;Tian等2利用深度学习结合部件模 行人的特征提取、分类与定位、检测结果等几个 型解决行人检测中的遮挡问题。文献24]采用级 模块组成),其研究重点在于行人的特征提取及 联的Adaboost检测器对行人目标进行初步筛选, 分类,比较常见的特征提取算子有SIFT61 再用迁移学习技术训练卷积神经网络来提高检测 Haar、梯度方向直方图HOG等;代表性的分类 精度;Zhang等2s利用级联的决策森林来分类 器有神经网络、Adaboost!1、支持向量机SVM RPN网络(region proposal network)产生的行人候 随机森林RFo等。基于HOG特征的提取极大地 选窗口。 推动了行人检测的发展,并随后出现了在HOG特 训练深度CNN模型时,数据集的数量跟数据等领域有着广泛的应用[2]。由于行人具有非刚性 属性,决定了行人检测不同于普通的目标检测, 另外存在着许多制约行人检测的因素,如现实场 景中背景的复杂多样性、光照变化、行人遮挡、姿 态变化、拍摄角度多样化、实时性要求、小目标行 人等。这些因素给行人检测带来了巨大的挑战, 因此行人检测一直是计算机视觉领域中的研究热 点和难点。 传统的行人检测的效果依赖于特征的选取以 及分类器的学习。一个好的特征即使结合简单的 分类器仍能够取得不错的检测效果,所以传统的 行人检测研究重点在于行人的特征提取及分类。 尽管传统的行人检测算法取得了不少的研究成 果,但是在实际生活场景的检测效果依然不理 想。近年来深度学习的方法在目标检测、语音识 别、图像分类等方面取得了突破性的进展,与传 统检测算法相比,卷积神经网络 (CNN) 通过权值 共享,大大减少了网络的参数,进而降低了算法复杂 度。CNN 的卷积运算以及下采样能很好的学习到 图像的颜色、纹理等特征,使之对图像的缩放、平移 具有很好的鲁棒性。因此,深度学习算法在行人检 测领域里的检测精度以及实时性都优于传统算法。 针对真实场景下的行人检测精度不高,小目 标行人的漏检率较高的问题,本文对目前优秀的 深度模型进行了改进。通过引出 SSD[3]网络模型 中更底层特征做检测以及增加输入图像大小来增 加深度模型的分辨率,提高了对小目标行人的检 测性能。卷积网络中的底层特征能检测到尺寸较 小的目标,而深层特征可以检测到尺寸较大的目 标,因此引出 SSD 网络中多层输出特征图,将检 测结果综合后确定目标位置。此外,训练数据集 的数量跟数据集样本的多样性也是深度学习算法 取得优秀成果的主要原因。因此本文采用车载摄 像头拍摄了各种场合、光照、遮挡、姿态等复杂的 背景下的行人视频,在 INRIA[4]行人数据集上,扩 增了一个复杂场景下的行人数据集 CSUSTPD。 1 相关工作 传统的行人检测流程主要由行人图像输入、 行人的特征提取、分类与定位、检测结果等几个 模块组成[5] ,其研究重点在于行人的特征提取及 分类,比较常见的特征提取算子 有 SIFT [ 6 ] 、 Haar[7] 、梯度方向直方图 HOG[4]等;代表性的分类 器有神经网络、Adaboost[8] 、支持向量机 SVM[9] 、 随机森林 RF[10]等。基于 HOG 特征的提取极大地 推动了行人检测的发展,并随后出现了在 HOG 特 征上融合颜色特征、纹理特征等诸多算法;2005 年 Dalal 等 [4]提出了 HOG 结合分类器 SVM 的算 法,取得了较好的效果,并陆续提出的 ACF(ag￾gregated channel features)[11] 、LDCF[12]等算法都具有 很好的检测效果。2015 年 Zhang 等 [13]把 HOG 特 征结合光流特征进一步提高了行人检测性能。针 对在同一张图像有不同尺寸的目标时,传统方法 主要有两种处理方法:1) 将原始图像转换成不同 尺寸大小的图像输入固定尺寸的滑动窗口分别提 取特征,该方法的检测精度较好,但是计算复杂, 其流程如图 1 所示;2) 用固定大小不变的图像输 入多尺度缩放的滑动窗进行特征提取。方法 2) 避免了测试图像的多尺度计算,检测速度较快 但其精度比较差。 2012 年 Krizhevsky 等 [14]在 ImageNet 竞赛上训 练出一个 8 层的卷积神经网络,取得了视觉领域 竞赛 ILSVRC 2012 的冠军。在此之后,深度学习 算法层出不穷,典型的算法有 VGG-Net[ 1 5 ] 、R￾CNN[16] 、Faster R-CNN[17] ;Redmon 等 [18]提出的 YOLO 直接在输出层回归目标位置与类别,加快 了目标检测速度及精度;Liu 等 [3]提出了 SSD 融合 卷积层的多层输出特征做检测,进一步提高了目 标检测精度。由于 CNN 提取的特征比传统特征 更具鲁棒性,其良好的特征表达能力提高了行人 检测性能,因此许多研究学者将深度学习算法应 用于行人检测领域。文献[19]引入级联 CNN 网络 在拥挤场景中准确地检测行人;Hosang 等 [20]利用 SquaresChnFtrs[ 2 1 ]产生行人候选窗口用于训练 AlexNet[14]。文献[22]利用光流卷积神经网络对光 流图序列中提取行人特征,该特征具有较强的全 局描述能力;Tian 等 [23]利用深度学习结合部件模 型解决行人检测中的遮挡问题。文献[24]采用级 联的 Adaboost 检测器对行人目标进行初步筛选, 再用迁移学习技术训练卷积神经网络来提高检测 精度;Zhang 等 [ 2 5 ]利用级联的决策森林来分类 RPN 网络 (region proposal network) 产生的行人候 选窗口。 训练深度 CNN 模型时,数据集的数量跟数据 行人检测器 图 1 多尺度输入图像检测流程 Fig. 1 Object detection with multi-scale input 第 2 期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·307·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有