正在加载图片...
·760· 智能系统学报 第15卷 的RGB图像、热成像、深度图像、激光雷达点云 表1近年目标检测综述论文对比表 和雷达点云等,也可以提供对汽车自身的感知信 Table 1 Comparison of object detection review papers 息,如车辆的行驶速度、路径等,为连续地感知环 文献 检测目标 划分方法 面向自动驾驶 境提供重要的估计参数。为此,自动驾驶中的数 [4] 2D&3D 基于融合层次 冷 据融合可以在多个任务中发挥作用,比如目标检 ) 2D&3D 基于融合层次 否 测2)、目标跟踪和即时定位与建图(simultaneous [8 2D 不涉及融合 否 localization and mapping,SLAM)P。特别地,不同 [例 3D 不涉及融合 是 于其他应用场景,针对自动驾驶汽车的目标检测 可以利用多种车载传感器。由于这些传感器被安 本文 2D&3D 基于融合层次 是 装以记录前向场景的信息,因此它们包含了对同 一环境的多模态信息,这使得它们既能很容易地 2 融合方法 配对,又能被发掘出互补的信息2。对此最常见 2.1多模态目标检测 的融合模式是激光雷达与RGB相机的融合,激光 2.1.1基于RGB图像 雷达点云可以主动感知较大范围内的物体,因此 在应用深度学习技术前,曾出现了VJ Det、. 不受光照条件的影响,而RGB图像所提供的色 HOG Det等方法B1-3.2008年Felzenszwalb等B 彩、纹理等视觉信息则可以被用于更高精度的视 在所提出的DPM方法中首次涉及了边界框的概 觉任务s27。然而现有的融合方法同样具有问题 念,此后对边界框的回归成为目标检测模型的经 和挑战,如多个传感器之间的配准21、部分传感 典思想。2012年,AlexNet!3)的出现成为了深度 器失灵的情形26,以及对更多样的融合方法的 学习和计算机视觉发展的开端。从此,基于卷积 探究。 神经网络(convolutional neural network,CNN)的方 1.3已有研究 法逐渐成为计算机视觉任务的主流⑧。从2014年 尽管已经有许多基于融合方法的目标检测模 起,Girshick等B6-38]先后提出了R-CNN、Fast R- 型被提出,然而依然没有论文对目标检测模型中 CNN,基于R-CNN发展出来的神经网络成为两步 的融合机制进行完整且深人的研究。表1将本文 目标检测(two-stage detection)的主要基准模型。 与相关的文献综述进行了对比。Eduardo Arnold R-CNN先通过选择搜索(selective search)生成候 等总结了自动驾驶任务中的3D目标检测方法, 选边界框,再通过CNN提取特征,最后进行分 其涉及到部分融合模型,然而仅局限于3D检测 类。此外,为了提高计算性能,Ren等11于2015 的场景,且没有深入分析融合方法的合理性。 年提出了Faster R-CNN,所使用的Region Propos- Feng等总结了自动驾驶中适用于数据融合的数 al Network(RPN)成为经典的目标检测模型的设计 据集、感知任务、融合方法和现有问题等,特别是 思想。此后出现的特征金字塔网络(feature pyr- 对目标检测和语义分割中的融合方法进行了全面 amid networks,FPN))通过融合不同层次的语义 的归纳和分类,然而没有对数据融合的冗余性进 来充分挖掘图像信息,许多模型采用了这种结合 行分析,也没有对基于数据融合的目标检测模型 浅层和深层语义的设计。 中的其他部分进行比较归纳:罗俊海等对基于 与两步检测相对的是单步目标检测(one- 数据融合的目标检测方法进行了综述,且采用了 stage detection),其经典模型是YOLO(you only look 前面两个研究不一样的归纳方法,然而其研究并 once)o和SSD(single shot detector)"。由名字可 非针对特定场景,并且同样缺乏对数据融合的冗 见,单步检测不同于两步检测的提出候选边界框 余性分析或合理性分析。特别地,近年来,目标 再进行分类的模式,而是同时在图像的某一部分 检测中的融合方法缺乏统一、明确的定义,不同 上预测边界框和分类。Redmon等先后提出了 的论文中模糊地遵循了“前融合,中间融合,后融 3个版本的YOL0模型:YOLOO、YOL09000四 合”的分类方法,290,然而各自在具体的实现细 YOLOv31,其中YOLO9000和YOLOv3先后在 节上仍存在差异,且现有的按融合阶段划分的方 预测边界框时使用锚点(anchor)的思想来替代全 法,在集成模型中不能很好地反映出融合步骤对 连接层、采用了多尺度模型、对边界框进行逻辑 于模型的作用。为此,提出了新的根据融合结果 回归,最终实现在提高准确率的同时保持了较高 作用的划分方法,并给出了具体的定义,相关细 的检测速度,且YOLOv3对于小目标的检测性能 节将在下文中描述。 有显著提升。除了YOLO系列网络,2016年提出的 RGB 图像、热成像、深度图像、激光雷达点云 和雷达点云等,也可以提供对汽车自身的感知信 息,如车辆的行驶速度、路径等,为连续地感知环 境提供重要的估计参数。为此,自动驾驶中的数 据融合可以在多个任务中发挥作用,比如目标检 测 [23] 、目标跟踪和即时定位与建图 (simultaneous localization and mapping, SLAM)[24]。特别地,不同 于其他应用场景,针对自动驾驶汽车的目标检测 可以利用多种车载传感器。由于这些传感器被安 装以记录前向场景的信息,因此它们包含了对同 一环境的多模态信息,这使得它们既能很容易地 配对,又能被发掘出互补的信息[23]。对此最常见 的融合模式是激光雷达与 RGB 相机的融合,激光 雷达点云可以主动感知较大范围内的物体,因此 不受光照条件的影响,而 RGB 图像所提供的色 彩、纹理等视觉信息则可以被用于更高精度的视 觉任务[25-27]。然而现有的融合方法同样具有问题 和挑战,如多个传感器之间的配准[28] 、部分传感 器失灵的情形[ 2 6 ] ,以及对更多样的融合方法的 探究[4]。 1.3 已有研究 尽管已经有许多基于融合方法的目标检测模 型被提出,然而依然没有论文对目标检测模型中 的融合机制进行完整且深入的研究。表 1 将本文 与相关的文献综述进行了对比。Eduardo Arnold 等 [9] 总结了自动驾驶任务中的 3D 目标检测方法, 其涉及到部分融合模型,然而仅局限于 3D 检测 的场景,且没有深入分析融合方法的合理性。 Feng 等 [4] 总结了自动驾驶中适用于数据融合的数 据集、感知任务、融合方法和现有问题等,特别是 对目标检测和语义分割中的融合方法进行了全面 的归纳和分类,然而没有对数据融合的冗余性进 行分析,也没有对基于数据融合的目标检测模型 中的其他部分进行比较归纳;罗俊海等[5] 对基于 数据融合的目标检测方法进行了综述,且采用了 前面两个研究不一样的归纳方法,然而其研究并 非针对特定场景,并且同样缺乏对数据融合的冗 余性分析或合理性分析。特别地,近年来,目标 检测中的融合方法缺乏统一、明确的定义,不同 的论文中模糊地遵循了“前融合,中间融合,后融 合”的分类方法[23, 29-30] ,然而各自在具体的实现细 节上仍存在差异,且现有的按融合阶段划分的方 法,在集成模型中不能很好地反映出融合步骤对 于模型的作用。为此,提出了新的根据融合结果 作用的划分方法,并给出了具体的定义,相关细 节将在下文中描述。 表 1 近年目标检测综述论文对比表 Table 1 Comparison of object detection review papers 文献 检测目标 划分方法 面向自动驾驶 [4] 2D&3D 基于融合层次 是 [5] 2D&3D 基于融合层次 否 [8] 2D 不涉及融合 否 [9] 3D 不涉及融合 是 本文 2D&3D 基于融合层次 是 2 融合方法 2.1 多模态目标检测 2.1.1 基于 RGB 图像 在应用深度学习技术前,曾出现了 VJ Det、 HOG Det 等方法[31-33]。2008 年 Felzenszwalb 等 [34] 在所提出的 DPM 方法中首次涉及了边界框的概 念,此后对边界框的回归成为目标检测模型的经 典思想。2012 年,AlexNet[35] 的出现成为了深度 学习和计算机视觉发展的开端。从此,基于卷积 神经网络 (convolutional neural network,CNN) 的方 法逐渐成为计算机视觉任务的主流[8]。从 2014 年 起,Girshick 等 [36-38] 先后提出了 R-CNN、Fast R￾CNN,基于 R-CNN 发展出来的神经网络成为两步 目标检测 (two-stage detection) 的主要基准模型。 R-CNN 先通过选择搜索 (selective search) 生成候 选边界框,再通过 CNN 提取特征,最后进行分 类。此外,为了提高计算性能,Ren 等 [15] 于 2015 年提出了 Faster R-CNN,所使用的 Region Propos￾al Network(RPN) 成为经典的目标检测模型的设计 思想。此后出现的特征金字塔网络 (feature pyr￾amid networks, FPN)[39] 通过融合不同层次的语义 来充分挖掘图像信息,许多模型采用了这种结合 浅层和深层语义的设计。 与两步检测相对的是单步目标检测 (one￾stage detection),其经典模型是 YOLO(you only look once)[40] 和 SSD(single shot detector)[41]。由名字可 见,单步检测不同于两步检测的提出候选边界框 再进行分类的模式,而是同时在图像的某一部分 上预测边界框和分类。Redmon 等先后提出了 3 个版本的 YOLO 模型:YOLO[40] 、YOLO9000[42] 、 YOLOv3[14] ,其中 YOLO9000 和 YOLOv3 先后在 预测边界框时使用锚点 (anchor) 的思想来替代全 连接层、采用了多尺度模型、对边界框进行逻辑 回归,最终实现在提高准确率的同时保持了较高 的检测速度,且 YOLOv3 对于小目标的检测性能 有显著提升。除了 YOLO 系列网络,2016 年提出 ·760· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有