正在加载图片...
第4期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·759· 使在车道线检测这样的基础任务上也很难保持 数据的目标检测方法被不断提出,但大部分模 鲁棒性。此外,不同于目标检测技术的其他应 型依然是基于图像。当前模型主要通过边界框 用场景,自动驾驶汽车上的多种传感器可以提 的重合度来评价效果2,通过设置一个阈值(in 供环境和车辆自身的多模态信息,并且它们在 tersection over union,IoU来决定是否正确预测。 一定程度上存在互补关系。因此,人们期待通 1oU的计算方法一直在变化),但并不影响本文 过融合多模态数据来充分挖掘信息,并最终提 对融合方法的讨论。 高目标检测和其他自动驾驶模型的性能。本文 尽管在特定的数据集上,现有的基于计算机 先回顾了近年来目标检测技术和数据融合技术 视觉和深度学习的目标检测方法取得了优异成 的发展,接着对面向自动驾驶的、基于多模态数 绩,然而面对特定场景,特别是自动驾驶这类对 据融合的目标检测技术进行了全面的概述,并 鲁棒性、检测速度和准确率要求都很高的场景, 比较和讨论了具体的融合理论和方法。与之前 现有模型的性能依然存在不足之处A。例如2014 的研究1不同的是,本文只针对自动驾驶场景 年针对基于车道线检测的综述)提到曝光对于 下的目标检测中的数据融合方法,从层次、计算 视觉任务的影响,即使现有的网络针对小目标 和合理性等多个角度对其进行了全面深人的比 曝光不足、分辨率低6的情形有所改善,然而 较和分析,且进一步地总结了现有模型设计的 极端过曝或欠曝的场景会导致图像数据对环境 策略,并给出了分析和建议。 信息的记录严重损失,对此现有的基于单一图 1背景 像网络依旧没有,也很难出现适用的解决方案。 当自动驾驶汽车在路面上行驶的时候,很容易 11目标检测 遇上光照变化幅度较大的区域,导致相机的记 作为计算机视觉领域的任务之一,目标检测 录失真,这将严重影响自动驾驶汽车的决策。 是许多其他视觉任务的基础,如实例分割阿与目 为此,研究者考虑在视频流中利用连续帧的信 标追踪”,旨在检测出不同类别物体的每个实 息进行目标检测,17,而另一主流研究方向则 例。考虑到数据的易得性和数据特征的丰富程 是利用多种传感器提供的多模态数据进行信息 度,其一般指以RGB图像为主要数据的目标检 融合,再进行目标检测1.2012年德国的研究 测,且通常在图像上使用边界框(bounding box) 者提出了KITTI数据集,其包含了多种车载传 来定位物体并给出物体类别属性的概率⑧。根 感器的数据和检测、分割等多个自动驾驶环境 据定义,通常要求目标检测算法先在图像上搜 感知任务的标注。此后,Waymo2o,、Uber2和 索出可能包含目标的区域,再在此区域上进行 Baidu]等公司先后推出针对自动驾驶的多模态 分类,这种模型是多阶段模型。随着深度学习 数据集,为研究自动驾驶中的数据融合方法提 的发展,单步检测模型(one-stage detection)被提 供了极大便利。 出,其可以在检测的同时进行分类,从而提高了 1.2多模态数据融合 检测速度。此外,针对不同模态的数据,检测的 考虑到上述在基于图像的目标检测模型中 方法也不同。由于自动驾驶汽车上应用了激光 的问题,研究者考虑利用多模态数据的信息的互 雷达、雷达、深度相机(RGB-Depth camera)等多 补来提升模型的鲁棒性。由于信息记录方式的 种传感器,因此自动驾驶中同样需要关注基于 不同,不同的传感器之间往往存在互补性。比 点云、深度图像或其他模态数据的方法,其中点 如RGB相机往往在光照条件不佳时难以记录有 云由激光雷达或雷达提供。对于图像上的目标 效信息,然而主动感知的传感器,如激光雷达、 检测,传统方法的准确率往往不如深度学习方 雷达和深度相机等,则不易受到外部环境条件的 法,而后者则往往需要大型数据集和长时间的 影响。对于激光雷达和雷达,它们记录的点云过 训练来学习特征。对于点云上的目标检测,优 于稀疏,获得的低分辨率数据难以用于高精度的 点是可以利用三维空间信息进行检测,缺点是 检测,而RGB图像则可以提供稠密的数据。因 空间维数的增加导致点云数据往往过于稀疏, 此,如何理解与利用多种模态数据之间的关联与 造成模型拟合的效果不佳。而深度图像,即深 互补之处,成了多模态数据融合在应用中的重要 度相机记录的带有距离信息的RGB图像o),结 问题。 合了图像和点云的特点,但因相机的性能不足 具体到自动驾驶场景,不同的车载传感器既 尚未成为主流。综合来看,尽管针对多种模态 可以提供对同一环境的感知信息,如对前方道路使在车道线检测这样的基础任务上也很难保持 鲁棒性[3]。此外,不同于目标检测技术的其他应 用场景,自动驾驶汽车上的多种传感器可以提 供环境和车辆自身的多模态信息,并且它们在 一定程度上存在互补关系[4]。因此,人们期待通 过融合多模态数据来充分挖掘信息,并最终提 高目标检测和其他自动驾驶模型的性能。本文 先回顾了近年来目标检测技术和数据融合技术 的发展,接着对面向自动驾驶的、基于多模态数 据融合的目标检测技术进行了全面的概述,并 比较和讨论了具体的融合理论和方法。与之前 的研究[4-5] 不同的是,本文只针对自动驾驶场景 下的目标检测中的数据融合方法,从层次、计算 和合理性等多个角度对其进行了全面深入的比 较和分析,且进一步地总结了现有模型设计的 策略,并给出了分析和建议。 1 背景 1.1 目标检测 作为计算机视觉领域的任务之一,目标检测 是许多其他视觉任务的基础,如实例分割[6] 与目 标追踪[7] ,旨在检测出不同类别物体的每个实 例。考虑到数据的易得性和数据特征的丰富程 度,其一般指以 RGB 图像为主要数据的目标检 测,且通常在图像上使用边界框 (bounding box) 来定位物体并给出物体类别属性的概率[8]。根 据定义,通常要求目标检测算法先在图像上搜 索出可能包含目标的区域,再在此区域上进行 分类,这种模型是多阶段模型。随着深度学习 的发展,单步检测模型 (one-stage detection) 被提 出,其可以在检测的同时进行分类,从而提高了 检测速度。此外,针对不同模态的数据,检测的 方法也不同。由于自动驾驶汽车上应用了激光 雷达、雷达、深度相机 (RGB-Depth camera) 等多 种传感器,因此自动驾驶中同样需要关注基于 点云、深度图像或其他模态数据的方法,其中点 云由激光雷达或雷达提供。对于图像上的目标 检测,传统方法的准确率往往不如深度学习方 法 [8] ,而后者则往往需要大型数据集和长时间的 训练来学习特征。对于点云上的目标检测,优 点是可以利用三维空间信息进行检测,缺点是 空间维数的增加导致点云数据往往过于稀疏, 造成模型拟合的效果不佳[9]。而深度图像,即深 度相机记录的带有距离信息的 RGB 图像[10-11] ,结 合了图像和点云的特点,但因相机的性能不足 尚未成为主流。综合来看,尽管针对多种模态 数据的目标检测方法被不断提出,但大部分模 型依然是基于图像。当前模型主要通过边界框 的重合度来评价效果[12] ,通过设置一个阈值 (in￾tersection over union,IoU) 来决定是否正确预测。 IoU 的计算方法一直在变化[13] ,但并不影响本文 对融合方法的讨论。 尽管在特定的数据集上,现有的基于计算机 视觉和深度学习的目标检测方法取得了优异成 绩,然而面对特定场景,特别是自动驾驶这类对 鲁棒性、检测速度和准确率要求都很高的场景, 现有模型的性能依然存在不足之处[4, 8]。例如 2014 年针对基于车道线检测的综述[3] 提到曝光对于 视觉任务的影响,即使现有的网络针对小目标[14] 、 曝光不足[15] 、分辨率低[16] 的情形有所改善,然而 极端过曝或欠曝的场景会导致图像数据对环境 信息的记录严重损失,对此现有的基于单一图 像网络依旧没有,也很难出现适用的解决方案。 当自动驾驶汽车在路面上行驶的时候,很容易 遇上光照变化幅度较大的区域,导致相机的记 录失真,这将严重影响自动驾驶汽车的决策。 为此,研究者考虑在视频流中利用连续帧的信 息进行目标检测[7, 17-18] ,而另一主流研究方向则 是利用多种传感器提供的多模态数据进行信息 融合,再进行目标检测[4-5]。2012 年德国的研究 者提出了 KITTI 数据集[19] ,其包含了多种车载传 感器的数据和检测、分割等多个自动驾驶环境 感知任务的标注。此后,Waymo[20] 、Uber[21] 和 Baidu[22] 等公司先后推出针对自动驾驶的多模态 数据集,为研究自动驾驶中的数据融合方法提 供了极大便利。 1.2 多模态数据融合 考虑到上述在基于图像的目标检测模型中 的问题,研究者考虑利用多模态数据的信息的互 补来提升模型的鲁棒性。由于信息记录方式的 不同,不同的传感器之间往往存在互补性[4]。比 如 RGB 相机往往在光照条件不佳时难以记录有 效信息,然而主动感知的传感器,如激光雷达、 雷达和深度相机等,则不易受到外部环境条件的 影响。对于激光雷达和雷达,它们记录的点云过 于稀疏,获得的低分辨率数据难以用于高精度的 检测,而 RGB 图像则可以提供稠密的数据。因 此,如何理解与利用多种模态数据之间的关联与 互补之处,成了多模态数据融合在应用中的重要 问题。 具体到自动驾驶场景,不同的车载传感器既 可以提供对同一环境的感知信息,如对前方道路 第 4 期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·759·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有