正在加载图片...
第2期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·311· PDIS在每层输出特征图上的每个特征图网 大小为300×300。在CNN中经过卷积、池化特征 格预设有4个默认框,在不同输出层的特征图上 图不断减小,原始SSD算法最底层conv43引出 有不同尺寸大小的默认框,在同一个特征图上又 特征图大小为38×38,相比原始图像缩小至原来 有不同纵横比的默认框,实现了图像中各种形状 的1/8,在原始图像中一个8×8的目标在conv4输 和尺寸大小的目标检测。行人的高度跟宽度之比 出的特征图表现为一个像素点,该目标的细节信 一般在1:1、2:1、3:1、1:2这些比例内,不同于原 息完全丢失。卷积输出的特征图会随网络层数的 始SSD算法,本文将默认框的纵横比a,设置为符 增加而减小。导致训练阶几乎无法学习到小目标 合行人的4种比例分别为1:1、2:1、3:1、1:2,加 物体的信息。因此,数据集的训练图像分辨率大 速了行人区域定位。且默认框的尺度定义为 小很大程度影响了卷积神经网络的学习,训练图 =5n+-(k-1),ke,m (4) 像分辨率太小,训练时模型很难收敛,检测精度 m-1 低。本文把训练预设输入图像尺寸大小从300× 式中:w=V瓦,h=S/V瓦,当a,=时s=VSS+I; 300变大到512×512,增加卷积后输出特征图的分 sk、s表示默认框的尺寸,Smin、Smax分别表示0.1和 辨率,能获得原图像中更加丰富、更加细节的信 0.9,m表示PDIS中间层输出做预测特征图层数, 息。测试结果表明:用放大的行人图像训练PDIS 、分别表示每一个默认框的宽度跟高度。 模型能够检测到同一张图像中更小尺寸的行人, PDIS模型融合多层特征图的特征做检测,解 进一步提升了行人小目标检测效果。 决了同一张图像中不同尺度的目标检测问题。通 3.2数据集扩增 过研究用不同层输出特征图以及网络输出层的数 增加数据集的多样性来训练PDIS模型可以 量对算法行人性能的影响,本文在原始SSD的基 增强算法检测的泛化能力。一般使用单一的行人 础上引出更底层卷积conv33的特征图做检测, 数据集训练卷积网络模型时,在其本身数据集上 在该层的特征图上提取特征获得了原始输入行人 测试的效果会很理想,然而在其他数据集上测试 图像的更多细节信息。实验表明引出卷积 时效果往往不好。因此,行人数据集所包含的样 conv33的输出特征图做检测,特征维度的计算 本的数量、样本背景的多样性以及样本中有无对 复杂度相应的增加,实时性相比原始SSD算法有 小尺寸行人目标的标注等因素,在训练CNN的过 所下降,但依然能满足行人检测实时性的要求, 程中会严重影响算法的学习。在训练卷积神经网 并相比原始S$D算法对小尺寸行人检测性能提 络时,深度模型学习的参数往往比较多,用于训 升很高。同时,研究了融合不同卷层基输出的特 练的样本数据量太少,容易造成网络过拟合。此 征图对算法的影响。在引出底层conv33的输出 外,现有的行人数据集公布时间较早,而且训练 特征图做检测的基础上,训练了多个组合不同输 样本基本是从较大图像中剪切出的单个行人图 出特征图的网络模型:模型2引出conv33、 像,背景单一,像素分辨率普遍偏低,因此不适合 conv4_3、fc7、conv62、conv72、conv82和 用于训练深度卷积网络模型。 conv92等7个卷积层的特征图做检测,模型3引 为了增强PDIS模型在行人检测领域的泛化 出conv33、fc7、conv62、conv72、conv82和 能力,本文对已有的NRIA行人数据集进行了扩 conv92等6个卷积层的特征图做检测,模型4引 增。首先,NRIA行人数据集的选取:NRIA行人 出conv3_3、conv53、conv62、conv72、 数据集是目前使用最多的静态行人检测数据集。 conv82和conv92等6个卷积层的特征图做检 其中包含沙滩、机场、城市、山等复杂的场景,且 测,模型5引出conv33、conv53、conv62、 拍摄条件多样,存在光线变化、人体遮挡等情形, conv82和conv92等5个卷积层的特征图做检 符合本文所需求的行人样本的背景多样性。其 测。在扩增的行人数据集分别训练各个PDIS网 次,扩增INRIA行人数据集:INRIA行人数据集 络模型,利用NRIA行人数据集的测试集分别对 中训练集的正样本只包含614张图像(包含2416 模型进行测试。实验表明:不同的网络模型在引 个行人),用于训练CNN模型的数量远远不够。 出不同的特征层以及引出不同层的数目直接影响 本文在各种天气、场景、光照下采集了数万张图 网络模型的检测效果,改进的模型2取得了最好 像,并对图像进行人工筛选标注,目前已有5000 的检测性能。 多张图像用于训练。部分数据如图5所示,扩增 此外,为了进一步提升PDIS模型对小目标的 的行人数据集中包含学校、街道、车站等不同场 检测能力,通过增加输入图像的分辨率提升算法 景下的样本,组合成一个复杂背景下的真实场景 检测性能的鲁棒性。原始的SSD算法输入图像 行人数据集,并对训练样本中姿态变化、遮挡、小PDIS 在每层输出特征图上的每个特征图网 格预设有 4 个默认框,在不同输出层的特征图上 有不同尺寸大小的默认框,在同一个特征图上又 有不同纵横比的默认框,实现了图像中各种形状 和尺寸大小的目标检测。行人的高度跟宽度之比 一般在 1∶1、2∶1、3∶1、1∶2 这些比例内,不同于原 始 SSD 算法,本文将默认框的纵横比 ar 设置为符 合行人的 4 种比例分别为 1∶1、2∶1、3∶1、1∶2,加 速了行人区域定位。且默认框的尺度定义为 sk = smin + smax − smin m−1 (k−1), k ∈ [1,m] (4) w a k = sk √ ar h a k = sk/ √ ar ar = 1 s ′ k = √ sk sk +1 sk s ′ k w a k h a k 式中: , ,当 时 ; 、 表示默认框的尺寸,smin、smax 分别表示 0.1 和 0.9,m 表示 PDIS 中间层输出做预测特征图层数, 、 分别表示每一个默认框的宽度跟高度。 PDIS 模型融合多层特征图的特征做检测,解 决了同一张图像中不同尺度的目标检测问题。通 过研究用不同层输出特征图以及网络输出层的数 量对算法行人性能的影响,本文在原始 SSD 的基 础上引出更底层卷积 conv3_3 的特征图做检测, 在该层的特征图上提取特征获得了原始输入行人 图像的更多细节信息。实验表明引出卷 积 conv3_3 的输出特征图做检测,特征维度的计算 复杂度相应的增加,实时性相比原始 SSD 算法有 所下降,但依然能满足行人检测实时性的要求, 并相比原始 SSD 算法对小尺寸行人检测性能提 升很高。同时,研究了融合不同卷层基输出的特 征图对算法的影响。在引出底层 conv3_3 的输出 特征图做检测的基础上,训练了多个组合不同输 出特征图的网络模型:模 型 2 引 出 conv3_3、 conv4_3、fc7、conv6_2、conv7_2、conv8_2 和 conv9_2 等 7 个卷积层的特征图做检测,模型 3 引 出 conv3_3、fc7、conv6_2、conv7_2、conv8_2 和 conv9_2 等 6 个卷积层的特征图做检测,模型 4 引 出 conv3_3、 conv5_3、 conv6_2、 conv7_2、 conv8_2 和 conv9_2 等 6 个卷积层的特征图做检 测,模型 5 引出 conv3_3、conv5_3、conv6_2、 conv8_2 和 conv9_2 等 5 个卷积层的特征图做检 测。在扩增的行人数据集分别训练各个 PDIS 网 络模型,利用 INRIA 行人数据集的测试集分别对 模型进行测试。实验表明:不同的网络模型在引 出不同的特征层以及引出不同层的数目直接影响 网络模型的检测效果,改进的模型 2 取得了最好 的检测性能。 此外,为了进一步提升 PDIS 模型对小目标的 检测能力,通过增加输入图像的分辨率提升算法 检测性能的鲁棒性。原始的 SSD 算法输入图像 大小为 300×300。在 CNN 中经过卷积、池化特征 图不断减小,原始 SSD 算法最底层 conv4_3 引出 特征图大小为 38×38,相比原始图像缩小至原来 的 1/8,在原始图像中一个 8×8 的目标在 conv4 输 出的特征图表现为一个像素点,该目标的细节信 息完全丢失。卷积输出的特征图会随网络层数的 增加而减小。导致训练阶几乎无法学习到小目标 物体的信息。因此,数据集的训练图像分辨率大 小很大程度影响了卷积神经网络的学习,训练图 像分辨率太小,训练时模型很难收敛,检测精度 低。本文把训练预设输入图像尺寸大小从 300× 300 变大到 512×512,增加卷积后输出特征图的分 辨率,能获得原图像中更加丰富、更加细节的信 息。测试结果表明:用放大的行人图像训练 PDIS 模型能够检测到同一张图像中更小尺寸的行人, 进一步提升了行人小目标检测效果。 3.2 数据集扩增 增加数据集的多样性来训练 PDIS 模型可以 增强算法检测的泛化能力。一般使用单一的行人 数据集训练卷积网络模型时,在其本身数据集上 测试的效果会很理想,然而在其他数据集上测试 时效果往往不好。因此,行人数据集所包含的样 本的数量、样本背景的多样性以及样本中有无对 小尺寸行人目标的标注等因素,在训练 CNN 的过 程中会严重影响算法的学习。在训练卷积神经网 络时,深度模型学习的参数往往比较多,用于训 练的样本数据量太少,容易造成网络过拟合。此 外,现有的行人数据集公布时间较早,而且训练 样本基本是从较大图像中剪切出的单个行人图 像,背景单一,像素分辨率普遍偏低,因此不适合 用于训练深度卷积网络模型。 为了增强 PDIS 模型在行人检测领域的泛化 能力,本文对已有的 INRIA 行人数据集进行了扩 增。首先,INRIA 行人数据集的选取:INRIA 行人 数据集是目前使用最多的静态行人检测数据集。 其中包含沙滩、机场、城市、山等复杂的场景,且 拍摄条件多样,存在光线变化、人体遮挡等情形, 符合本文所需求的行人样本的背景多样性。其 次,扩增 INRIA 行人数据集:INRIA 行人数据集 中训练集的正样本只包含 614 张图像 (包含 2 416 个行人),用于训练 CNN 模型的数量远远不够。 本文在各种天气、场景、光照下采集了数万张图 像,并对图像进行人工筛选标注,目前已有 5 000 多张图像用于训练。部分数据如图 5 所示,扩增 的行人数据集中包含学校、街道、车站等不同场 景下的样本,组合成一个复杂背景下的真实场景 行人数据集,并对训练样本中姿态变化、遮挡、小 第 2 期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·311·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有