第13卷第3期 智能系统学报 Vol.13 No.3 2018年6月 CAAI Transactions on Intelligent Systems Jun.2018 D0:10.11992/tis.201706040 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180411.0849.002.html 自动驾驶场景下小且密集的交通标志检测 葛园园,许有疆,赵帅2,韩亚洪 (1.天津大学计算机科学与技术学院,天津300350:2.中国汽车技术研究中心教据资源中心,天津300300) 摘要:在自动驾驶场景中,交通标志的检测和识别对行车周围环境的理解至关重要。行车过程中拍摄的图片中存 在许多较小的交通标志,它们很难被现有的物体检测方法检测到。为了能够精确地检测到这部分小的交通标志,我 们提出了用浅层VGG16网络作为物体检测框架R-FCN的主体网络,并改进VGG16网络,主要有两个改进点:1)减 小特征图缩放倍数,去掉VGG16网络卷积cov4_3后面的特征图,使用RPN网络在浅层卷积conv4_3上提取候选 框;2)特征拼层,将尺度相同的卷积conv4_1、conv4_2、conv4_3层的特征拼接起来形成组合特征(aggregated feature))。改进后的物体检测框架能够检测到更多的小物体,在驭势科技提供的交通标志数据集上取得了很好的性 能,检测的准确率mAP达到了65%。 关键词:交通标志:目标检测:深度学习:组合特征:卷积神经网络:特征图:候选框:自动驾驶 中图分类号:TP183文献标志码:A文章编号:1673-4785(2018)03-0366-07 中文引用格式:葛园园,许有疆,赵帅,等.自动驾驶场景下小且密集的交通标志检测J.智能系统学报,2018,133:366-372 英文引用格式:GE Yuanyuan,,XU Youjiang,ZHAO Shuai,,etal.Detection of small and dense traffic signs in self-driving scenarios[JI.CAAI transactions on intelligent systems,2018,13(3):366-372. Detection of small and dense traffic signs in self-driving scenarios GE Yuanyuan',XU Youjiang',ZHAO Shuai,HAN Yahong (1.School of Computer Science and Technology,Tianjin University,Tianjin 300350,China;2.Data Resource Center,China Auto- motive Technology and Research Center,Tianjin 300300,China) Abstract:In self-driving scenarios,the detection and recognition of traffic signs is critical to understanding the driving environment.The plethora of small traffic signs are hard to detect by the existing object detection technology.To detect these small traffic signs accurately,we propose the use of the shallow network VGG16 as the R-FCN's backbone and the modification of the VGG16 network.There are mainly two improvements in the VGG16 network.First,we reduce the multiple zooming of feature maps,remove the feature maps behind the VGG16 network convolution conv4_3,and use the RPN network to extract the region proposal in the shallow convolution conv4 3 layer.We then concatenate the feature maps.The features of the layers of the convolutions conv4_1,conv4_2,and conv4_3 are adjoined to form an ag- gregated feature.The improved object detection framework can detect more small objects.We use a dataset of traffic signs to test the performance and mAP accuracy. Keywords:traffic sign;object detection;deep learning,aggregate feature;CNN;feature map;region proposal;self-driv- ing 近年来,随着深度学习技术的发展,自动驾 检测对后续的识别、辅助定位和导航起着决定性的 驶引起了人们的广泛关注。在自动驾驶场景中,交 作用。在真实的拍摄场景中,交通标志种类众多, 通标志的检测和识别起着非常重要的作用。精确的 大小不一,存在着颜色差异,且受到天气、光照、拍 摄角度等因素的影响。这些复杂的因素使得交通标 收稿日期:2017-06-10.网络出版日期:2018-04-11 基金项目:国家自然科学基金项目(61472276). 志的检测变得非常困难,尤其是图片中存在大量小 通信作者:韩亚洪.E-mail:yahong@tju.edu.cn 且密集的交通标志。为了能够更好地解决小物体的
DOI: 10.11992/tis.201706040 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180411.0849.002.html 自动驾驶场景下小且密集的交通标志检测 葛园园1 ,许有疆1 ,赵帅2 ,韩亚洪1 (1. 天津大学 计算机科学与技术学院,天津 300350; 2. 中国汽车技术研究中心 数据资源中心,天津 300300) 摘 要:在自动驾驶场景中,交通标志的检测和识别对行车周围环境的理解至关重要。行车过程中拍摄的图片中存 在许多较小的交通标志,它们很难被现有的物体检测方法检测到。为了能够精确地检测到这部分小的交通标志,我 们提出了用浅层 VGG16 网络作为物体检测框架 R-FCN 的主体网络,并改进 VGG16 网络,主要有两个改进点:1) 减 小特征图缩放倍数,去掉 VGG16 网络卷积 conv4_3 后面的特征图,使用 RPN 网络在浅层卷积 conv4_3 上提取候选 框;2) 特征拼层,将尺度相同的卷积 conv4_1、conv4_2、conv4_3 层的特征拼接起来形成组合特征 (aggregated feature)。改进后的物体检测框架能够检测到更多的小物体,在驭势科技提供的交通标志数据集上取得了很好的性 能,检测的准确率 mAP 达到了 65%。 关键词:交通标志;目标检测;深度学习;组合特征;卷积神经网络;特征图;候选框;自动驾驶 中图分类号:TP183 文献标志码:A 文章编号:1673−4785(2018)03−0366−07 中文引用格式:葛园园, 许有疆, 赵帅, 等. 自动驾驶场景下小且密集的交通标志检测[J]. 智能系统学报, 2018, 13(3): 366–372. 英文引用格式:GE Yuanyuan, XU Youjiang, ZHAO Shuai, et al. Detection of small and dense traffic signs in self-driving scenarios[J]. CAAI transactions on intelligent systems, 2018, 13(3): 366–372. Detection of small and dense traffic signs in self-driving scenarios GE Yuanyuan1 ,XU Youjiang1 ,ZHAO Shuai2 ,HAN Yahong1 (1. School of Computer Science and Technology, Tianjin University, Tianjin 300350, China; 2. Data Resource Center, China Automotive Technology and Research Center, Tianjin 300300, China) Abstract: In self-driving scenarios, the detection and recognition of traffic signs is critical to understanding the driving environment. The plethora of small traffic signs are hard to detect by the existing object detection technology. To detect these small traffic signs accurately, we propose the use of the shallow network VGG16 as the R-FCN ’s backbone and the modification of the VGG16 network. There are mainly two improvements in the VGG16 network. First, we reduce the multiple zooming of feature maps, remove the feature maps behind the VGG16 network convolution conv4_3, and use the RPN network to extract the region proposal in the shallow convolution conv4_3 layer. We then concatenate the feature maps. The features of the layers of the convolutions conv4_1, conv4_2, and conv4_3 are adjoined to form an aggregated feature. The improved object detection framework can detect more small objects. We use a dataset of traffic signs to test the performance and mAP accuracy. Keywords: traffic sign; object detection; deep learning; aggregate feature; CNN; feature map; region proposal; self-driving 近年来,随着深度学习技术[1-8]的发展,自动驾 驶引起了人们的广泛关注。在自动驾驶场景中,交 通标志的检测和识别起着非常重要的作用。精确的 检测对后续的识别、辅助定位和导航起着决定性的 作用。在真实的拍摄场景中,交通标志种类众多, 大小不一,存在着颜色差异,且受到天气、光照、拍 摄角度等因素的影响。这些复杂的因素使得交通标 志的检测变得非常困难,尤其是图片中存在大量小 且密集的交通标志。为了能够更好地解决小物体的 收稿日期:2017−06−10. 网络出版日期:2018−04−11. 基金项目:国家自然科学基金项目 (61472276). 通信作者:韩亚洪. E-mail:yahong@tju.edu.cn. 第 13 卷第 3 期 智 能 系 统 学 报 Vol.13 No.3 2018 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2018
第3期 葛园园,等:自动驾驶场景下小且密集的交通标志检测 ·367· 检测,本文首先对已有的基于深度学习的目标检测做 置回归出目标位置和类别信息,它们网络训练的整 了研究和总结,然后提出自己改进的目标检测框架。 个过程都是端到端的,检测速度非常快,可以达到 现有的基于深度学习的目标检测算法大致可以 实时要求。 分为两大类:一类是基于候选框提取的目标检测算 对于自动驾驶场景下小且密集的交通标志检测 法,另一类是基于回归方法的目标检测算法。下面 来说,上述两大类物体检测框架都存在着一定的缺 介绍这两大类目标检测算法的代表性检测框架。 陷:基于候选框的检测框架相比基于回归方法的检 R-CNN是Ross Girshick等最早提出的用卷 测框架来说,检测精度会高很多,但速度比较慢:基 积神经网络做目标检测的框架,它是基于候选框提 于回归方法的检测框架虽然检测速度比较快,但由 取的目标检测算法。首先通过selective search算法o 于是对图像进行暴力网格划分,对于物体的检测精 提取候选框,然后用这些候选框微调卷积神经网络 度比较差,尤其是对于小且密集物体的检测,效果 训练SVM(支持向量机)分类器,进行边框回归等。 非常差。因此,为了保证自动驾驶场景中小且密集 R-CNN在VOC2012数据集上mAP达到了53.3%, 的交通标志的检测精度,本文提出了对基于候选框 和之前该数据集上最好的检测结果相比提高了 目标检测框架中速度最快的R-FCNs框架进行改 30%。但R-CNN也存在着很大的缺陷,浪费磁盘空 进,进一步保证了小且密集的交通标志的检测精度。 间,训练时间长,检测速度慢。 SPP-Net2在R-CNN的基础上作了改进,提出 1检测框架 了共享卷积层策略,采用空间金字塔下采样(spatial R-FCNI目标检测框架分别以ResNet--50、Res pyramid pooling),将每个候选框映射后的特征归一 Net-1011作为提取特征的主体网络,在PASCAL 化到同样尺度,输入到后面的全连接层中。SPP- VOC数据集上取得了不错的检测效果,但是交通 Net的检测速度比R-CNN快了24~102倍,检测精 标志检测数据集中存在很多较小的物体,卷积网络 度也得到了一定的提高。但SPP-Net的训练过程包 层数越深,最后一层卷积特征图上的特征点对应于 括多个阶段,比较慢。 原图的感受野越大,对小物体的位置定位比较困 Fast R-CNNI将R-CNN与SPP-Net的空间金 难,检测效果比较差。因此,本文采用层数不是很 字塔采样融合到一起,提出了候选框下采样层(ROI 深的VGG161网络作为R-FCN的主体网络,并在 pooling layer),直接将映射后的候选框下采样到 此基础上针对小物体的检测作进一步的改进。本文 7×7大小的特征图输人到后面的全连接层中。Fast 提出的物体检测框架主要是对R-FCN检测框架的 R-CNN还提出了多任务损失函数,直接对候选框进 主体网络进行改进,网络的训练过程和R-FCN中的 行分类和边框回归,检测速度得到了很大提升,使 训练过程保持一致。图1是本文提出的基于改进 得候选框提取成为限制目标检测速度的一个计算瓶 版VGG16的R-FCN小物体检测框架。该检测框 颈。Faster R-CNNl为了解决候选框提取问题,提 架主要是对VGG16作了两个改进,第一个改进是 出了RPN(region proposal network)网铬来提取候选 将VGG16的卷积层conv5_1、conv52、conv53去 框,将RPN网络和Fast R-CNN网络结合到了一 掉,同时去掉conv43后面的pool4层;第二个改进 起。Faster R-CNN的检测精度和速度得到了很大的 是特征拼层,将conv41、conv42、conv43通过L2 提高。 normalization标准化,然后再拼接到一起,称之为 R-FCNI在Faster R-CNN的基础上作了进一 组合特征,然后输入到后续网络中。RPN网络在标 步的改进,提出位置敏感权重图(position-sensitive 准化后的卷积conv43上提取候选框,将候选框和 score maps)来解决图像分类时的旋转不变性和物体 网络最后一组卷积层特征输入到PSROIPooling层 检测上位置的旋转可变性之间的矛盾。R-FCN的 来做后续的物体分类和边框回归。 位置敏感权重图策略使得网络变成了一个全卷积网 2改进方法 络,不再有全连接层,进一步加快了目标检测的速 度和准确率。 本文提出的物体检测框架主要针对交通标志数 以上目标检测算法都是深度学习方面基于候选 据集中的小物体的检测。网络层数越深,最后一层 框的目标检测框架。另一类基于回归方法的目标检 卷积层的感受野越大,会破坏小物体在特征图上的 测框架的典型代表是YOLO1%和SSDm,它们不必 位置信息。R-FCNl物体检测框架使用ResNet--50、 先提取候选框,再进行候选框的分类和位置调整, ResNet-101作为主体网络时.可以很好地检测到较 而是直接对图像进行划分网格,在每个网格对应位 大的物体,但是对于存在大量密集的小物体的数据
检测,本文首先对已有的基于深度学习的目标检测做 了研究和总结,然后提出自己改进的目标检测框架。 现有的基于深度学习的目标检测算法大致可以 分为两大类:一类是基于候选框提取的目标检测算 法,另一类是基于回归方法的目标检测算法。下面 介绍这两大类目标检测算法的代表性检测框架。 R-CNN 是 Ross Girshick 等 [9]最早提出的用卷 积神经网络做目标检测的框架,它是基于候选框提 取的目标检测算法。首先通过 selective search 算法[10] 提取候选框,然后用这些候选框微调卷积神经网络 训练 SVM(支持向量机) 分类器,进行边框回归等。 R-CNN 在 VOC2012 数据集上 mAP[11]达到了 53.3%, 和之前该数据集上最好的检测结果相比提高了 30%。但 R-CNN 也存在着很大的缺陷,浪费磁盘空 间,训练时间长,检测速度慢。 SPP-Net[12]在 R-CNN 的基础上作了改进,提出 了共享卷积层策略,采用空间金字塔下采样 (spatial pyramid pooling),将每个候选框映射后的特征归一 化到同样尺度,输入到后面的全连接层中。SPPNet 的检测速度比 R-CNN 快了 24~102 倍,检测精 度也得到了一定的提高。但 SPP-Net 的训练过程包 括多个阶段,比较慢。 Fast R-CNN[13]将 R-CNN 与 SPP-Net 的空间金 字塔采样融合到一起,提出了候选框下采样层 (ROI pooling layer),直接将映射后的候选框下采样到 7×7 大小的特征图输入到后面的全连接层中。Fast R-CNN 还提出了多任务损失函数,直接对候选框进 行分类和边框回归,检测速度得到了很大提升,使 得候选框提取成为限制目标检测速度的一个计算瓶 颈。Faster R-CNN[14]为了解决候选框提取问题,提 出了 RPN(region proposal network) 网络来提取候选 框,将 RPN 网络和 Fast R-CNN 网络结合到了一 起。Faster R-CNN 的检测精度和速度得到了很大的 提高。 R-FCN[15]在 Faster R-CNN 的基础上作了进一 步的改进,提出位置敏感权重图 (position-sensitive score maps) 来解决图像分类时的旋转不变性和物体 检测上位置的旋转可变性之间的矛盾。R-FCN 的 位置敏感权重图策略使得网络变成了一个全卷积网 络,不再有全连接层,进一步加快了目标检测的速 度和准确率。 以上目标检测算法都是深度学习方面基于候选 框的目标检测框架。另一类基于回归方法的目标检 测框架的典型代表是 YOLO[16]和 SSD[17] ,它们不必 先提取候选框,再进行候选框的分类和位置调整, 而是直接对图像进行划分网格,在每个网格对应位 置回归出目标位置和类别信息,它们网络训练的整 个过程都是端到端的,检测速度非常快,可以达到 实时要求。 对于自动驾驶场景下小且密集的交通标志检测 来说,上述两大类物体检测框架都存在着一定的缺 陷:基于候选框的检测框架相比基于回归方法的检 测框架来说,检测精度会高很多,但速度比较慢;基 于回归方法的检测框架虽然检测速度比较快,但由 于是对图像进行暴力网格划分,对于物体的检测精 度比较差,尤其是对于小且密集物体的检测,效果 非常差。因此,为了保证自动驾驶场景中小且密集 的交通标志的检测精度,本文提出了对基于候选框 目标检测框架中速度最快的 R-FCN[15]框架进行改 进,进一步保证了小且密集的交通标志的检测精度。 1 检测框架 R-FCN[15]目标检测框架分别以 ResNet-50、ResNet-101[18]作为提取特征的主体网络,在 PASCAL VOC[11]数据集上取得了不错的检测效果,但是交通 标志检测数据集中存在很多较小的物体,卷积网络 层数越深,最后一层卷积特征图上的特征点对应于 原图的感受野越大,对小物体的位置定位比较困 难,检测效果比较差。因此,本文采用层数不是很 深的 VGG16[19]网络作为 R-FCN 的主体网络,并在 此基础上针对小物体的检测作进一步的改进。本文 提出的物体检测框架主要是对 R-FCN 检测框架的 主体网络进行改进,网络的训练过程和 R-FCN 中的 训练过程保持一致。图 1 是本文提出的基于改进 版 VGG16 的 R-FCN 小物体检测框架。该检测框 架主要是对 VGG16 作了两个改进,第一个改进是 将 VGG16 的卷积层 conv5_1、conv5_2、conv5_3 去 掉,同时去掉 conv4_3 后面的 pool4 层;第二个改进 是特征拼层,将 conv4_1、conv4_2、conv4_3 通过 L2 normalization[20] 标准化,然后再拼接到一起,称之为 组合特征,然后输入到后续网络中。RPN 网络在标 准化后的卷积 conv4_3 上提取候选框,将候选框和 网络最后一组卷积层特征输入到 PSROIPooling 层 来做后续的物体分类和边框回归。 2 改进方法 本文提出的物体检测框架主要针对交通标志数 据集中的小物体的检测。网络层数越深,最后一层 卷积层的感受野越大,会破坏小物体在特征图上的 位置信息。R-FCN[15]物体检测框架使用 ResNet-50、 ResNet-101 作为主体网络时,可以很好地检测到较 大的物体,但是对于存在大量密集的小物体的数据 第 3 期 葛园园,等:自动驾驶场景下小且密集的交通标志检测 ·367·
·368· 智能系统学报 第13卷 集来说,检测结果没有浅层的VGG16效果好。因 卷积层,第三、四、五组分别有3个卷积层,每一组 此,本文采用VGG161作为R-FCN的主体网络, 的特征图大小相同,前4组特征每组后面都接了 VGG16从conv11到conv5_3总共有13个卷积 1个步长为2的下采样层。本文提出的两个关键改 层,每一层的卷积核大小、移动步长都是相同的,这 进点都是对VGG16网络进行改进,下面对这两个 13个卷积层可以分为5组,第一、二组分别有2个 关键改进点作具体说明。 convl 1 conv4 1 conv4 2 conv4 3 conv5 1 conv5 2 conv5 3 RPN Rols per-Rol Re vote PSROIPooling 图1基于改进版VGG16的R-FCN小物体检测框架 Fig.1 Small-size object detection architecture based on modified VGG16's R-FCN 2.1减小特征图缩放倍数 向量X=(x1,2,…,x)来表示一个输入特征层的所有 VGG16作为R-FCN的主体网络,在卷积cov53 元素,对该特征图进行如下标准化: 上通过RPN网络提取候选框,从conv1_1到conv5 =X2 (1) 3,中间经过了4次步长为2的下采样层,原始图像 到达conv53层边长缩小了16倍,conv53特征图 K6=(∑r (2) 上的一个特征点相当于对应原图的16×16个像素 式中表示标准化后的特征图向量。标准化后的特 点。当RPN网铬从conv53上产生候选框时,有边 征向量元素值比较小,使得网络训练变得比较困 长小于16个像素的候选框被过滤掉了,因为边长小 难,为了更好地训练网络,通常会对标准化后的元 于16个像素的候选框无法映射到从conv53上卷 素通过一个比例因子y进行缩放,假设变化后的元 积得到的后续特征图上,这就造成许多边长小于 素为y,则 16个像素的小物体无法被检测到,或者检测不准确。 yi=Yixi (3) 针对这一问题,本文提出减小特征图缩放倍数的策 最后得到变化后的特征图向量Y=1,2,…y)。 略,也就是说,去掉卷积conv51、conv52、conv5 在网络训练过程中,假设1是需要优化的损失函数, 3和pool4层,在conv43层上通过RPN产生候选 则关于缩放因子y,和输入特征图的更新规则如下: 框,再映射到从conv43上得到的后续特征图上。 alal 这样,原图到conv43边长缩小了8倍,边长在 脉莎 (4) 8~16范围内的小物体可以得到更好的检测效果。 al al I XX 2.2特征拼层 x=(IXTXI (5) RPN网络产生的边长较小的候选框和最后一 票-卫彩 (6) 层卷积特征作映射后得到的特征尺度特别小,只用 cov43层输入到后续的网络中进行分类和边框回 使用如上标准化方式对VGG16同组的卷积层 归特征不充足,对于小物体位置定位来说检测效果 conv41、conv42、conv43进行标准化,然后将它 不是很好,还有待提升。因此,为了能够丰富小物 们拼接起来,称之为组合特征,再输入到后续的网 体的特征信息,使得对于小物体的位置定位更加精 络中训练模型,然后进行分类和边框回归,这一改 确,提出了特征拼层的策略。首先对卷积conv41、 进能够检测到更多的小物体,小物体定位精确度也 conv42、conv43进行L2 normalization。假设用 得到了一定的提升
集来说,检测结果没有浅层的 VGG16 效果好。因 此,本文采用 VGG16[19]作为 R-FCN 的主体网络, VGG16 从 conv1_1 到 conv5_3 总共有 13 个卷积 层,每一层的卷积核大小、移动步长都是相同的,这 13 个卷积层可以分为 5 组,第一、二组分别有 2 个 卷积层,第三、四、五组分别有 3 个卷积层,每一组 的特征图大小相同,前 4 组特征每组后面都接了 1 个步长为 2 的下采样层。本文提出的两个关键改 进点都是对 VGG16 网络进行改进,下面对这两个 关键改进点作具体说明。 2.1 减小特征图缩放倍数 VGG16 作为 R-FCN 的主体网络,在卷积 conv5_3 上通过 RPN 网络提取候选框,从 conv1_1 到 conv5_ 3,中间经过了 4 次步长为 2 的下采样层,原始图像 到达 conv5_3 层边长缩小了 16 倍,conv5_3 特征图 上的一个特征点相当于对应原图的 16×16 个像素 点。当 RPN 网络从 conv5_3 上产生候选框时,有边 长小于 16 个像素的候选框被过滤掉了,因为边长小 于 16 个像素的候选框无法映射到从 conv5_3 上卷 积得到的后续特征图上,这就造成许多边长小于 16 个像素的小物体无法被检测到,或者检测不准确。 针对这一问题,本文提出减小特征图缩放倍数的策 略,也就是说,去掉卷积 conv5_1、conv5_2、conv5_ 3 和 pool4 层,在 conv4_3 层上通过 RPN 产生候选 框,再映射到从 conv4_3 上得到的后续特征图上。 这样,原图到 conv4_3 边长缩小了 8 倍,边长在 8~16 范围内的小物体可以得到更好的检测效果。 2.2 特征拼层 RPN 网络产生的边长较小的候选框和最后一 层卷积特征作映射后得到的特征尺度特别小,只用 conv4_3 层输入到后续的网络中进行分类和边框回 归特征不充足,对于小物体位置定位来说检测效果 不是很好,还有待提升。因此,为了能够丰富小物 体的特征信息,使得对于小物体的位置定位更加精 确,提出了特征拼层的策略。首先对卷积 conv4_1、 conv4_2、conv4_3 进行 L2 normalization[12]。假设用 向量 X = (x1, x2,··· , xd) 来表示一个输入特征层的所有 元素,对该特征图进行如下标准化: Xb = X ∥X∥2 (1) ∥X∥2 = (∑d i=1 |xi | 2 )1/2 (2) Xb γi yi 式中 表示标准化后的特征图向量。标准化后的特 征向量元素值比较小,使得网络训练变得比较困 难,为了更好地训练网络,通常会对标准化后的元 素通过一个比例因子 进行缩放,假设变化后的元 素为 ,则 yi = γibxi (3) Y = (y1, y2,··· , yd) γi 最后得到变化后的特征图向量 。 在网络训练过程中,假设 l 是需要优化的损失函数, 则关于缩放因子 和输入特征图的更新规则如下: ∂l ∂Xb = ∂l ∂γ · γ (4) ∂l ∂X = ∂l ∂Xb ( I ∥X∥2 − XXT ∥X∥ 3 2 ) (5) ∂l ∂γi = ∑ yi ∂l ∂yi bxi (6) 使用如上标准化方式对 VGG16 同组的卷积层 conv4_1、conv4_2、conv4_3 进行标准化,然后将它 们拼接起来,称之为组合特征,再输入到后续的网 络中训练模型,然后进行分类和边框回归,这一改 进能够检测到更多的小物体,小物体定位精确度也 得到了一定的提升。 conv1_1 conv4_1 conv4_2 conv4_3 conv5_1 conv5_2 conv5_3 L2 L2 L2 Rols RPN concatenate conv PSROIPooling Ret per−Rol vote 图 1 基于改进版 VGG16 的 R-FCN 小物体检测框架 Fig. 1 Small-size object detection architecture based on modified VGG16’s R-FCN ·368· 智 能 系 统 学 报 第 13 卷
第3期 葛园园,等:自动驾驶场景下小且密集的交通标志检测 ·369· 3 实验结果及分析 (a)中矩形框区域的放大图,图(d)是图(c)中矩形 框区域的放大图,可以看到图片中存在大量较小的 3.1数据集 交通标志。图3是训练集中交通标志尺寸分布图。 本文实验采用的交通标志检测数据集是由驭势 横轴是训练集中交通标志短边的范围,纵轴是某个 科技提供的。数据集中的图片都是在真实行车环境 范围内的交通标志数量占训练集中所有交通标志的 中拍摄的,总共有10000张分辨率为1280×720的 图片。将该数据集划分为3部分,4000张用来作训 比例。从图3中可以看出有很大一部分交通标志短 练集,1000张用来作验证集,5000张用来作测试 边范围在8~16个像素之间,如果在VGG16网络 集,本文所有实验都是以VGGl6在ImageNet上训 的卷积conv53上产生候选框,从原图到conv53 练好的模型作为基础,在此基础上进行微调,每组 边长缩小了16倍,这部分候选框将很难被检测到。 实验迭代70000次,每10000次保存一个模型,挑 因此,本文通过降低特征图缩小倍数,采用conv4_3 选验证集上最好的模型在测试集上进行测试。图 层的特征来产生候选框,这样短边范围在8~16这 2是交通标志数据集中的一些样本图,图(b)是图 一部分的交通标志将能够被更好地检测出来。 色 (a)原图1 b)原图1放大区域 (c)原图2 (d原图2放大区域 图2交通标志数据集样本图 Fig.2 Sample images from traffic sign dataset 37.14 特征图时对于小物体的定位不是很准确。这也是采 050501510 32.31 用VGG16作为R-FCN的主体网络来解决小物体 检测的原因。 13.65 6.93 3.72 6.25 表1基于不同神经网络R-FCN交通标志检测结果 0 .00% Table 1 Results based on different CNN's R-FCN 0,8) [8,16 6,24 ge 模型 mAP(验证集) mAP(测试集) 短边范围 ReNet-101+R-FCN 0.497 0.499 图3交通标志尺寸分布图 ResNet-50+R-FCN 0.514 0.519 Fig.3 Traffic sign's size distribution VGG16+R-FCN 0.542 0.537 3.2实验结果 本文实验采用mAP(mean average precision)u 表2是采用不同改进版的VGG16作为R-FCN 来衡量最终的测试结果,mAP值越大,表明检测出 的主体网络,分别将conv3_3、conv4_3、conv5_3输 来的结果越准确。表1是以不同深度的卷积神经网 入到RPN网络来提取候选框,并将该层的特征输入 络作为R-FCN的主体网络的测试结果。从mAP值 到后续的R-FCN网络中,RPN网络提取的候选框 中可以看出,主体网络的层数越深,小物体的检测 映射到最后一个卷积层,然后再进行分类和边框回 效果越不好。这是因为神经网络层数越深,最后一 归。从表2中可以看出,在R-FCN物体检测框架上, 层的特征图感受野越大,候选框在映射到最后一层 当降低特征图缩放倍数,用VGG16的卷积conv43
3 实验结果及分析 3.1 数据集 本文实验采用的交通标志检测数据集是由驭势 科技提供的。数据集中的图片都是在真实行车环境 中拍摄的,总共有 10 000 张分辨率为 1 280×720 的 图片。将该数据集划分为 3 部分,4 000 张用来作训 练集,1 000 张用来作验证集,5 000 张用来作测试 集,本文所有实验都是以 VGG16 在 ImageNet 上训 练好的模型作为基础,在此基础上进行微调,每组 实验迭代 70 000 次,每 10 000 次保存一个模型,挑 选验证集上最好的模型在测试集上进行测试。图 2 是交通标志数据集中的一些样本图,图 (b) 是图 (a) 中矩形框区域的放大图,图 (d) 是图 (c) 中矩形 框区域的放大图,可以看到图片中存在大量较小的 交通标志。图 3 是训练集中交通标志尺寸分布图。 横轴是训练集中交通标志短边的范围,纵轴是某个 范围内的交通标志数量占训练集中所有交通标志的 比例。从图 3 中可以看出有很大一部分交通标志短 边范围在 8~16 个像素之间,如果在 VGG16 网络 的卷积 conv5_3 上产生候选框,从原图到 conv5_3 边长缩小了 16 倍,这部分候选框将很难被检测到。 因此,本文通过降低特征图缩小倍数,采用 conv4_3 层的特征来产生候选框,这样短边范围在 8~16 这 一部分的交通标志将能够被更好地检测出来。 3.2 实验结果 本文实验采用 mAP(mean average precision)[11] 来衡量最终的测试结果,mAP 值越大,表明检测出 来的结果越准确。表 1 是以不同深度的卷积神经网 络作为 R-FCN 的主体网络的测试结果。从 mAP 值 中可以看出,主体网络的层数越深,小物体的检测 效果越不好。这是因为神经网络层数越深,最后一 层的特征图感受野越大,候选框在映射到最后一层 特征图时对于小物体的定位不是很准确。这也是采 用 VGG16 作为 R-FCN 的主体网络来解决小物体 检测的原因。 表 2 是采用不同改进版的 VGG16 作为 R-FCN 的主体网络,分别将 conv3_3、conv4_3、conv5_3 输 入到 RPN 网络来提取候选框,并将该层的特征输入 到后续的 R-FCN 网络中,RPN 网络提取的候选框 映射到最后一个卷积层,然后再进行分类和边框回 归。从表 2 中可以看出,在 R-FCN 物体检测框架上, 当降低特征图缩放倍数,用 VGG16 的卷积 conv4_3 表 1 基于不同神经网络 R-FCN 交通标志检测结果 Table 1 Results based on different CNN’s R-FCN 模型 mAP(验证集) mAP(测试集) ReNet-101+R-FCN 0.497 0.499 ResNet-50+R-FCN 0.514 0.519 VGG16+R-FCN 0.542 0.537 (a) ࣋ప1 (c) ࣋ప2 (b) ࣋ప1ᩪ๓ࡦഋ (d) ࣋ప2ᩪ๓ࡦഋ 图 2 交通标志数据集样本图 Fig. 2 Sample images from traffic sign dataset 37.14 ᝬࢌa/cҷ/% 40 35 30 25 20 15 10 5 0 0.00% 32.31 13.65 6.93 3.72 6.25 ⴙ䓥㠯ఠ [0,8) [8,16) [16,24) [24,32) [32,40) [40,48) ı48 图 3 交通标志尺寸分布图 Fig. 3 Traffic sign’s size distribution 第 3 期 葛园园,等:自动驾驶场景下小且密集的交通标志检测 ·369·
·370· 智能系统学报 第13卷 层特征提取候选框时,测试集上检测结果从0.537 表3基于卷积conv41、conv42、conv43不同组合特征的 提升到0.637,提高了10个百分点;用VGG16的卷 检测结果 积conv3_3层特征提取候选框时,检测结果从 Table 3 Results based on conv4_1,conv4_2,and conv4_3 0.537提升到0.596,提高了约6%,没有在卷积 with different aggregated features conv43层上提取候选框的检测效果好。这是因为 mAP mAP 模型 卷积conv33层的特征在网络中处于较浅层特征, (验证集)(测试集) 抽象程度不够,不利于候选框分类。 VGG16(conv4 3)+R-FCN 0.639 0.637 表2基于VGG16网络不同层的R-FCN交通标志检测结果 VGG16(conv4 1+conv4 2)+R-FCN 0.648 0.642 Table 2 Results based on VGG16's different-layer R-FCN VGG16(conv4 1+conv4 2)+R-FCN 0.648 0.642 模型 mAP(验证集)mAP(测试集) VGG16(conv4_2+conv4_3)+R-FCN 0.640 0.636 VGG16(conv3 3)+R-FCN 0.598 0.596 VGG16(conv4 1+conv4 2+conv4 3) 0.650 0.650 +R-FCN VGG16(conv4_3)+R-FCN 0.639 0.637 VGG16(conv5 3)+R-FCN 0.542 0.537 3.3 结果展示 图4展示了本文提出的检测框架检测出来的交 表3是采用VGG16作为R-FCN的主体网络, 通标志与数据集提供的真实目标框作比较,图(a)、(c) 并对主体网络VGGl6进行修改,对conv41、conv4 中的边框是数据集给出的真实目标框,图(b)、(d) 2、conv43分别进行不同的特征组合,并将组合特 中的边框是使用本文的检测框架检测出来的结果。 征输入到R-FCN的后续网络中。可以看到,基本上 可以看出我们的检测框架检测出来的结果更好,可 任意两层特征拼层输入到R-FCN的后续网络中效 以检测到交通标志数据集中真实目标框漏标的交通 果都有提升,特别是将3层特征拼接到一起输入到 标志,数据集中交通标志的漏标情况降低了本文实 R-FCN的后续网络中效果是最好的,达到了65%。 验的结果mAP。 (a)区域1真实目标框 (b)区域1检测结果 (c)区域2真实目标框 (d)区域2检测结果 图4检测结果与ground truth对比 Fig.4 Comparison between the detection results and the ground truth 图5是从两张原始图中裁剪出来的部分区域, 用VGG16作为R-FCN的主体网络,并对VGG16 图(a)、(b)、(c)分别是使用不同模型的检测结果,图 网络进行改进。改进后的检测框架对小物体的检测 (a)是使用卷积conv5_3得到的检测结果,图(b)是 有了很大的提升,在驭势科技提供的存在大量小交 使用卷积conv43得到的检测结果,图(c)是将卷 通标志的数据集上取得了很好的效果。交通标志的 积conv41、conv42、conv43组合层特征输人到 精确检测对自动驾驶起着非常重要的作用,未来自 后续网络得到的检测结果,可以看出两个关键改进 动驾驶的真正到来时代离不开交通标志的精确检测 点结合起来对于小物体的检测效果是最好的。 和分类。本文只是将图片中的所有交通标志检测出 4结束语 来,并没有对这些交通标志进行分类,未来将会继 续研究如何更精确地检测到较小的交通标志,并对 本文提出了针对小物体检测的物体检测框架。 检测出来的交通标志进行分类
层特征提取候选框时,测试集上检测结果从 0.537 提升到 0.637,提高了 10 个百分点;用 VGG16 的卷 积 conv3_3 层特征提取候选框时,检测结果从 0.537 提升到 0.596,提高了约 6%,没有在卷积 conv4_3 层上提取候选框的检测效果好。这是因为 卷积 conv3_3 层的特征在网络中处于较浅层特征, 抽象程度不够,不利于候选框分类。 表 3 是采用 VGG16 作为 R-FCN 的主体网络, 并对主体网络 VGG16 进行修改,对 conv4_1、conv4_ 2、conv4_3 分别进行不同的特征组合,并将组合特 征输入到 R-FCN 的后续网络中。可以看到,基本上 任意两层特征拼层输入到 R-FCN 的后续网络中效 果都有提升,特别是将 3 层特征拼接到一起输入到 R-FCN 的后续网络中效果是最好的,达到了 65%。 3.3 结果展示 图 4 展示了本文提出的检测框架检测出来的交 通标志与数据集提供的真实目标框作比较,图 (a)、(c) 中的边框是数据集给出的真实目标框,图 (b)、(d) 中的边框是使用本文的检测框架检测出来的结果。 可以看出我们的检测框架检测出来的结果更好,可 以检测到交通标志数据集中真实目标框漏标的交通 标志,数据集中交通标志的漏标情况降低了本文实 验的结果 mAP[11]。 图 5 是从两张原始图中裁剪出来的部分区域, 图 (a)、(b)、(c) 分别是使用不同模型的检测结果,图 (a) 是使用卷积 conv5_3 得到的检测结果,图 (b) 是 使用卷积 conv4_3 得到的检测结果,图 (c) 是将卷 积 conv4_1、conv4_2、conv4_3 组合层特征输入到 后续网络得到的检测结果,可以看出两个关键改进 点结合起来对于小物体的检测效果是最好的。 4 结束语 本文提出了针对小物体检测的物体检测框架。 用 VGG16 作为 R-FCN 的主体网络,并对 VGG16 网络进行改进。改进后的检测框架对小物体的检测 有了很大的提升,在驭势科技提供的存在大量小交 通标志的数据集上取得了很好的效果。交通标志的 精确检测对自动驾驶起着非常重要的作用,未来自 动驾驶的真正到来时代离不开交通标志的精确检测 和分类。本文只是将图片中的所有交通标志检测出 来,并没有对这些交通标志进行分类,未来将会继 续研究如何更精确地检测到较小的交通标志,并对 检测出来的交通标志进行分类。 表 2 基于 VGG16 网络不同层的 R-FCN 交通标志检测结果 Table 2 Results based on VGG16’s different-layer R-FCN 模型 mAP(验证集) mAP(测试集) VGG16(conv3_3)+R-FCN 0.598 0.596 VGG16(conv4_3)+R-FCN 0.639 0.637 VGG16(conv5_3)+R-FCN 0.542 0.537 表 3 基于卷积 conv4_1、conv4_2、conv4_3 不同组合特征的 检测结果 Table 3 Results based on conv4_1, conv4_2, and conv4_3 with different aggregated features 模型 mAP (验证集) mAP (测试集) VGG16(conv4_3)+R-FCN 0.639 0.637 VGG16(conv4_1+conv4_2)+R-FCN 0.648 0.642 VGG16(conv4_1+conv4_2)+R-FCN 0.648 0.642 VGG16(conv4_2+conv4_3)+R-FCN 0.640 0.636 VGG16(conv4__1+conv4_2+conv4_3) +R-FCN 0.650 0.650 (a) 区域1真实目标框 (c) 区域2真实目标框 (b) 区域1检测结果 (d) 区域2检测结果 图 4 检测结果与 ground truth 对比 Fig. 4 Comparison between the detection results and the ground truth ·370· 智 能 系 统 学 报 第 13 卷
第3期 葛园园,等:自动驾驶场景下小且密集的交通标志检测 ·371· (a)conv5 3 到 (b)conv4 3 (c)conv41、conv42、conv43 图5使用不同层及组合层检测结果 Fig.5 Using different layers and aggregated-layer-detection results 参考文献: 2826. [8]SAHA S,SINGH G,SAPIENZA M,et al.Deep learning for [1]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classifica- detecting multiple space-time action tubes in videos[J].arX- tion with deep convolutional neural networks[Cl//Proceed- iv:1608.01529,2016. ings of Advances in Neural Information Processing Sys- [9]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich fea- tems.Stateline,NV,USA,2012:1097-1105. ture hierarchies for accurate object detection and semantic [2]SZEGEDY C,LIU Wei,JIA Yangqing,et al.Going deeper segmentation[C]//Proceedings of 2014 IEEE Conference on with convolutions[C]//Proceedings of 2015 IEEE Confer- Computer Vision and Pattern Recognition.Columbus,OH, ence on Computer Vision and Pattern Recognition.Boston, USA.2014:580-587 MA,USA,2015:1-9, [3]CHEN L C,PAPANDREOU G,KOKKINOS I,et al.Se- [10]UIJLINGS J RR,VAN DE SANDE K E A,GEVERS T, et al.Selective search for object recognition[J].Internation- mantic image segmentation with deep convolutional nets and fully connected CRFs[J].arXiv:1412.7062,2015. al journal of computer vision,2013,104(2):154-171 [4]YU Gang,YUAN Junsong.Fast action proposals for hu- [11]EVERINGHAM M,VAN GOOL L,WILLIAMS C K I,et man action detection and search[C]//Proceedings of 2015 al.The Pascal visual object classes(VOC)challenge[J].In- IEEE Conference on Computer Vision and Pattern Recogni- ternational journal of computer vision,2010,88(2): tion.Boston,MA,USA,2015:1302-1311. 303-338 [5]HONG S,YOU T,KWAK S,et al.Online tracking by [12]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Spa- learning discriminative saliency map with convolutional tial pyramid pooling in deep convolutional networks for neural network[Cl//Proceedings of the 32nd International visual recognition[C]//Proceedings of the 13th European Conference on Machine Learning.Lille,France,2015: Conference on Computer Vision.Zurich,Switzerland, 597-606. 2014:346-361. [6]WANG Naiyan,YEUNG D Y.Learning a deep compact [13]GIRSHICK R.Fast R-CNN[C]//Proceedings of 2015 IEEE image representation for visual tracking[Cl//Proceedings of International Conference on Computer Vision.Santiago, the 26th International Conference on Neural Information Chile,.2015:1440-1448. Processing Systems.Lake Tahoe,USA,2013:809-817. [14]Ren S.He K.Girshick R,et al.Faster r-cnn:Towards real- [7]SZEGEDY C,VANHOUCKE V,IOFFE S,et al.Rethink- time object detection with region proposal networks[C]// ing the inception architecture for computer vision[C]//Pro- Proceedings of 2015 Advances in Neural Information Pro- ceedings of 2016 IEEE Conference on Computer Vision and cessing Systems.Montreal,Canada,2015:91-99 Pattern Recognition.Las Vegas,NV,USA,2016:2818- [15]Li Y,He K,Sun J.R-fcn:Object detection via region-
参考文献: Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Proceedings of Advances in Neural Information Processing Systems. Stateline, NV, USA, 2012: 1097-1105. [1] SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 1–9. [2] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. arXiv:1412.7062, 2015. [3] YU Gang, YUAN Junsong. Fast action proposals for human action detection and search[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 1302–1311. [4] HONG S, YOU T, KWAK S, et al. Online tracking by learning discriminative saliency map with convolutional neural network[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France, 2015: 597–606. [5] WANG Naiyan, YEUNG D Y. Learning a deep compact image representation for visual tracking[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, USA, 2013: 809–817. [6] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 2818– [7] 2826. SAHA S, SINGH G, SAPIENZA M, et al. Deep learning for detecting multiple space-time action tubes in videos[J]. arXiv: 1608.01529, 2016. [8] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 580–587. [9] UIJLINGS J R R, VAN DE SANDE K E A, GEVERS T, et al. Selective search for object recognition[J]. International journal of computer vision, 2013, 104(2): 154–171. [10] EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al. The Pascal visual object classes (VOC) challenge[J]. International journal of computer vision, 2010, 88(2): 303–338. [11] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 346–361. [12] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 1440–1448. [13] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards realtime object detection with region proposal networks[C]// Proceedings of 2015 Advances in Neural Information Processing Systems. Montréal,Canada, 2015: 91-99. [14] [15] Li Y, He K, Sun J. R-fcn: Object detection via region- (a) conv5_3 (b) conv4_3 (c) conv4_1ȟDPOW4_2ȟDPOW4_3 图 5 使用不同层及组合层检测结果 Fig. 5 Using different layers and aggregated-layer-detection results 第 3 期 葛园园,等:自动驾驶场景下小且密集的交通标志检测 ·371·
·372· 智能系统学报 第13卷 based fully convolutional networks[Cl//Advances in Neur- 作者简介: al Information Processing Systems.Barcelona,Spain. 葛园园,女,1991年生,硕士研究 2016:379-387. 生,主要研究方向为物体检测。 [16]REDMON J.DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[Cl//Proceed- ings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV,USA,2016:779-788. [17]LIU Wei,ANGUELOV D,ERHAN D,et al.SSD:single 许有疆,男,1992年生,硕士研究 shot multibox detector[C]//Proceedings of 14th European 生,主要研究方向为视频动作识别。 Conference on Computer Vision.Amsterdam,The Nether- lands..2016:21-37. [18]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. Deep residual learning for image recognition[C]//Proceed- ings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV,USA,2016:770-778. 赵帅,男,1988年生,硕士研究 [19]SIMONYAN K,ZISSERMAN A.Very deep convolution- 生,主要研究方向为深度学习与机器 学习、车辆动力学、自动驾驶技术、驾 al networks for large-scale image recognition[]].arXiv: 驶行为分析。 1409.1556,2014. [20]LIU Wei,RABINOVICH A,BERG A C.ParseNet:look- ing wider to see better[J].arXiv:1506.04579,2015
based fully convolutional networks[C]//Advances in Neural Information Processing Systems. Barcelona, Spain, 2016: 379-387. REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 779–788. [16] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 21–37. [17] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770–778. [18] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv: 1409.1556, 2014. [19] LIU Wei, RABINOVICH A, BERG A C. ParseNet: looking wider to see better[J]. arXiv: 1506.04579, 2015. [20] 作者简介: 葛园园,女,1991 年生,硕士研究 生,主要研究方向为物体检测。 许有疆,男,1992 年生,硕士研究 生,主要研究方向为视频动作识别。 赵帅,男,1988 年生,硕士研究 生,主要研究方向为深度学习与机器 学习、车辆动力学、自动驾驶技术、驾 驶行为分析。 ·372· 智 能 系 统 学 报 第 13 卷