正在加载图片...
第2期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·309· 效果,但受卷积神经网络中特定特征层感受野大 小限制,单独一层的特征无法应对多姿态多尺度 入图片 大值抑制 的行人0。因此,本文提出了改进的SSD模型用 于行人检测。 3多层卷积特征的行人检测算法 图2 SSD目标检测流程图 Fig.2 Detection flowchart for SSD object algorithm 3.1基于改进SSD的行人检测算法 SSD算法关键核心点是同时采用底层和顶层 随着深度学习的快速发展,CNN已经广泛地 的特征图做检测。在不同层卷积输出的若干特征 应用于目标检测中,在实时性和准确性上都优于 图中的每个位置处评估不同纵横比的默认框。默 传统算法的性能。SSD算法是以VGG16网络模 认框是指在特征图的每个网格上都有一系列固定 型为基础的前向传播的深度卷积网络模型,对卷 大小的框。每个网格有k个默认框,每个默认框 积后得到的特征图分别预判目标位置跟类别置信 预测c个目标类别的分数和4个偏移。若特征图 度,实现快速且精准目标检测效果。但原始S$D 的大小为mn,即有mn个特征图网格,则该特征 算法对同一张图像中小尺寸目标检测效果较差, 图共有(c+4)×k×m×n个输出。在训练阶段,将默 主要原因有两点:1)输入图像在深度卷积神经网 认框和真实框(ground truth box)进行匹配,一旦匹 络中经过网络的卷积、池化后特征图变小,原始 配成功,则默认框即为正样本,反之则为负样 SSD算法conv43输出的特征图与原始输入图像 本。根据置信度的损失值对负样本进行排序,得 相比缩小至原来的1/8,特征图的变小导致检测的 到靠前的负训练样本,使得正负样本的比例保持 目标丢失了大部分的细节信息,在训练阶段严重 在3:1。在预测阶段,得到默认框的偏移及目标类 的影响了算法对各项参数的学习,且后续的fc7 别相应的置信度。 conv62等层输出的特征图缩小更多,对算法的 SSD网络的目标损失函数表示为 训练影响更大;2)输入图像分辨率的大小对SSD L(wc.1g)-(L()+aLe()) (1) 算法的影响。训练的图像较小,卷积池化后得到 的特征图会对应地减小,使得训练阶段S$D网络 式中:N为匹配到的默认框个数;I为预测框;g为 参数的学习不完全造成过拟合;若输人图像较 真实框;c为多类别目标的置信度;Loe为位置损 大,网络学习的参数大量增加,使得算法计算复 失;Lcot为置信度损失;a通过交叉验证设为l。 位置损失是预测框I和真实框g之间的 杂度增加,速度减慢。 smooth损失2,如式(2)所示,通过对边界框的 本文在权衡算法的精准度及实时性的基础 坐标中心点(x,y)以及宽度w和高度h的偏移进 上,对SSD模型更底层的输出特征图进行特征提 行回归.使得位置损失最小。 取,获取更多特征图的纹理、边缘等细节信息,增 强了SSD模型对行人目标的检测性能,提升对小 Lioc(x,l,g)= ∑∑smoot(-8) (2) iE(Pos)mEcx.cy.w 目标行人的检测能力。图3为本文基于改进SSD 模型的行人检测(pedestrian detection based on im- 式中:8=(g5-d)/d,83=(g3-d)/d,8= proved SSD,PDIS)框架,行人图像通过改进SSD log(g/d),8=log(g/d);g、g分别表示第j个 卷积网络中的各卷积层输出多层次特征图,并在 真实框中心点(x,y):d、d分别表示第i个默认 多层次的特征图上提取特征做检测,将多层特征 框的中心点(x,y):g”、g分别表示第j个真实框宽 图的检测结果进行综合实现行人检测。由图3的 度跟高度;d”、d分别表示第i个默认框的宽度跟高度。 特征图可视化结果可知,底层卷积conv33输出 置信度损失是多类别置信度c的softmax损 的特征图比较大,且纹理、轮廓信息明确,因此该 失如式(3)所示。 层的特征图可以提取到小目标行人的细节信息。 Lconf(x,c) x号log()- ∑og(e (3) conv92卷积层输出的特征图变得很小,原始图 像的大部分信息丢失,尤其小物体信息丢失严 式中:Y=exp(c)/∑pexp(c),表示第i个默认框 重,因此该层只能获取较大目标的行人信息。随 的类别的置信度,p表示目标的类别,0表示目标 着网络层数增加,原始图像的信息会随着输出特 外的背景,x表示第i个默认框与类别p匹配的 征的尺寸变小而减少。底层输出特征图可以检测 第广个真实框相。 较小的行人目标,深层输出的特征可以检测较大 相比现有的目标检测方法,SSD算法不管是 的行人目标,因此PDIS通过结合多层特征图检 在检测速度还是检测精度上都取得了非常优秀的 测结果,提升了多尺寸行人的检测性能。SSD 算法关键核心点是同时采用底层和顶层 的特征图做检测。在不同层卷积输出的若干特征 图中的每个位置处评估不同纵横比的默认框。默 认框是指在特征图的每个网格上都有一系列固定 大小的框。每个网格有 k 个默认框,每个默认框 预测 c 个目标类别的分数和 4 个偏移。若特征图 的大小为 mn,即有 mn 个特征图网格,则该特征 图共有 (c+4)×k×m×n 个输出。在训练阶段,将默 认框和真实框 (ground truth box) 进行匹配,一旦匹 配成功,则默认框即为正样本,反之则为负样 本。根据置信度的损失值对负样本进行排序,得 到靠前的负训练样本,使得正负样本的比例保持 在 3:1。在预测阶段,得到默认框的偏移及目标类 别相应的置信度。 SSD 网络的目标损失函数表示为 L(x, c,l,g) = 1 N (Lconf(x, c)+αLloc(x,l,g)) (1) α 式中:N 为匹配到的默认框个数;l 为预测框;g 为 真实框;c 为多类别目标的置信度;Lloc 为位置损 失;Lconf 为置信度损失; 通过交叉验证设为 1。 位置损失是预测 框 l 和真实 框 g 之 间 的 smoothL1 损失[29] ,如式 (2) 所示,通过对边界框的 坐标中心点 (x,y) 以及宽度 w 和高度 h 的偏移进 行回归,使得位置损失最小。 Lloc(x,l,g) = ∑N i∈(Pos) ∑ m∈{cx,cy,w,h} x k i jsmoothL1(L m i −gˆ m j ) (2) gˆ cx = (g cx j −d cx i )/d w i gˆ cy j = (g cy j −d cy i )/d h i gˆ w j = log(g w j /d w i ) gˆ h j = log(g h j /d h i ) g cx j 、g cy j d cx i 、d cy i g w j g h j d w i d h i 式中: , , , ; 分别表示第 j 个 真实框中心点 (x,y); 分别表示第 i 个默认 框的中心点 (x,y); 、 分别表示第 j 个真实框宽 度跟高度; 、 分别表示第i个默认框的宽度跟高度。 置信度损失是多类别置信度 c 的 softmax 损 失如式 (3) 所示。 Lconf(x, c) = − ∑N i∈Pos x p i j log(ˆc p i )− ∑ i∈Neg log(ˆc 0 i ) (3) cˆ p i = exp(c p i )/ ∑ p exp(c p i ) cˆ p i x p i j 式中: , 表示第 i 个默认框 的类别的置信度,p 表示目标的类别,0 表示目标 外的背景, 表示第 i 个默认框与类别 p 匹配的 第 j 个真实框相。 相比现有的目标检测方法,SSD 算法不管是 在检测速度还是检测精度上都取得了非常优秀的 效果,但受卷积神经网络中特定特征层感受野大 小限制,单独一层的特征无法应对多姿态多尺度 的行人[30]。因此,本文提出了改进的 SSD 模型用 于行人检测。 3 多层卷积特征的行人检测算法 3.1 基于改进 SSD 的行人检测算法 随着深度学习的快速发展,CNN 已经广泛地 应用于目标检测中,在实时性和准确性上都优于 传统算法的性能。SSD 算法是以 VGG16 网络模 型为基础的前向传播的深度卷积网络模型,对卷 积后得到的特征图分别预判目标位置跟类别置信 度,实现快速且精准目标检测效果。但原始 SSD 算法对同一张图像中小尺寸目标检测效果较差, 主要原因有两点:1) 输入图像在深度卷积神经网 络中经过网络的卷积、池化后特征图变小,原始 SSD 算法 conv4_3 输出的特征图与原始输入图像 相比缩小至原来的 1/8,特征图的变小导致检测的 目标丢失了大部分的细节信息,在训练阶段严重 的影响了算法对各项参数的学习,且后续的 fc7、 conv6_2 等层输出的特征图缩小更多,对算法的 训练影响更大;2) 输入图像分辨率的大小对 SSD 算法的影响。训练的图像较小,卷积池化后得到 的特征图会对应地减小,使得训练阶段 SSD 网络 参数的学习不完全造成过拟合;若输入图像较 大,网络学习的参数大量增加,使得算法计算复 杂度增加,速度减慢。 本文在权衡算法的精准度及实时性的基础 上,对 SSD 模型更底层的输出特征图进行特征提 取,获取更多特征图的纹理、边缘等细节信息,增 强了 SSD 模型对行人目标的检测性能,提升对小 目标行人的检测能力。图 3 为本文基于改进 SSD 模型的行人检测 (pedestrian detection based on im￾proved SSD,PDIS) 框架,行人图像通过改进 SSD 卷积网络中的各卷积层输出多层次特征图,并在 多层次的特征图上提取特征做检测,将多层特征 图的检测结果进行综合实现行人检测。由图 3 的 特征图可视化结果可知,底层卷积 conv3_3 输出 的特征图比较大,且纹理、轮廓信息明确,因此该 层的特征图可以提取到小目标行人的细节信息。 conv9_2 卷积层输出的特征图变得很小,原始图 像的大部分信息丢失,尤其小物体信息丢失严 重,因此该层只能获取较大目标的行人信息。随 着网络层数增加,原始图像的信息会随着输出特 征的尺寸变小而减少。底层输出特征图可以检测 较小的行人目标,深层输出的特征可以检测较大 的行人目标,因此 PDIS 通过结合多层特征图检 测结果,提升了多尺寸行人的检测性能。 非极大值抑制 检测 输入图片 VGG16 Conv4_3 Fc7 Conv6_2 Conv7_2 Conv8_2 Con9_2 图 2 SSD 目标检测流程图 Fig. 2 Detection flowchart for SSD object algorithm 第 2 期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·309·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有