第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0L:10.11992tis.202002010 面向自动驾驶目标检测的深度多模态融合技术 张新钰2,邹镇洪2,李志伟2,刘华平3,李骏2 (1.清华大学汽车安全与节能国家重点实验室,北京100084,2.清华大学车辆与运载学院,北京100084,3.清 华大学计算机科学与技术系,北京100084) 摘要:研究者关注利用多个传感器来提升自动驾驶中目标检测模型的准确率,因此对目标检测中的数据融合 方法进行研究具有重要的学术和应用价值。为此,本文总结了近年来自动驾驶中深度目标检测模型中的数据 融合方法。首先介绍了自动驾驶中深度目标检测技术和数据融合技术的发展,以及已有的研究综述:接着从多 模态目标检测、数据融合的层次、数据融合的计算方法3个方面展开闸述,全面展现了该领域的前沿进展;此 外,本文提出了数据融合的合理性分析,从方法、鲁棒性、冗余性3个角度对数据融合方法进行了讨论;最后讨 论了融合方法的一些公开问题,并从挑战、策略和前景等方面作了总结。 关键词:数据融合;目标检测;自动驾驶:深度学习;多模态;感知;计算机视觉:传感器:综述 中图分类号:TP274;TP212 文献标志码:A文章编号:1673-4785(2020)04-0758-14 中文引用格式:张新钰,邹镇洪,李志伟,等.面向自动驾驶目标检测的深度多模态融合技术.智能系统学报,2020,15(4): 758-771. 英文引用格式:ZHANG Xinyu,.ZOU Zhenhong,.LIZhiwei,,et al Deep multi--modal fusion in object detection for autonomous driv- ing[Jl.CAAI transactions on intelligent systems,2020,15(4):758-771. Deep multi-modal fusion in object detection for autonomous driving ZHANG Xinyu,ZOU Zhenhong2,LI Zhiwei,LIU Huaping,LI Jun'2 (1.State Key Laboratory of Automotive Safety and Energy,Tsinghua University,Beijing 100084,China;2.School of Vehicle and Mobility,Tsinghua University,Beijing 100084,China;3.Department of Computer Science and Technology,Tsinghua University, Beijing 100084,China) Abstract:In autonomous driving,there has been an increasing interest in utilizing multiple sensors to improve the ac- curacy of object detection models.Accordingly,the research on data fusion has important academic and application value.This paper summarizes the data fusion methods in deep object detection models of autonomous driving in recent years.The paper first introduces the development of deep object detection and data fusion in autonomous driving,as well as existing researches and reviews,then expounds from three aspects of multi-modal object detection,fusion levels and calculation methods,comprehensively showing the cutting-edge progress in this field.In addition,this paper pro- poses a rationality analysis of data fusion from another three perspectives:methods,robustness and redundancy.Finally, open issues are discussed,and the challenges,strategy and prospects are summarized. Keywords:data fusion;object detection;autonomous driving;deep learning;multimodal;perception;computer vision; sensor;survey 作为自动驾驶技术的重要组成部分,基于深 注。尽管随着深度学习和计算机视觉领域的发 度学习的目标检测技术持续受到研究人员的关 展,目标检测技术已经取得了显著的进步,特别 是将DARPAU、PASCAL VOC2007等基于图像 收稿日期:2020-02-14. 基金项目:国家重点研发计划项目(2018YFE0204300):北京市 的目标检测任务的基准提升到了较高的水平。 科技计划项目(Z191100007419008);国强研究院项 目(2019GQG1010). 然而,自动驾驶要求模型在复杂多变的场景下 通信作者:刘华平.E-mail:hpliu(@tsinghua.edu.cn 保持较高的准确率,基于单一传感器的算法即
DOI: 10.11992/tis.202002010 面向自动驾驶目标检测的深度多模态融合技术 张新钰1,2,邹镇洪1,2,李志伟1,2,刘华平3 ,李骏1,2 (1. 清华大学 汽车安全与节能国家重点实验室,北京 100084; 2. 清华大学 车辆与运载学院,北京 100084; 3. 清 华大学 计算机科学与技术系,北京 100084) 摘 要:研究者关注利用多个传感器来提升自动驾驶中目标检测模型的准确率,因此对目标检测中的数据融合 方法进行研究具有重要的学术和应用价值。为此,本文总结了近年来自动驾驶中深度目标检测模型中的数据 融合方法。首先介绍了自动驾驶中深度目标检测技术和数据融合技术的发展,以及已有的研究综述;接着从多 模态目标检测、数据融合的层次、数据融合的计算方法 3 个方面展开阐述,全面展现了该领域的前沿进展;此 外,本文提出了数据融合的合理性分析,从方法、鲁棒性、冗余性 3 个角度对数据融合方法进行了讨论;最后讨 论了融合方法的一些公开问题,并从挑战、策略和前景等方面作了总结。 关键词:数据融合;目标检测;自动驾驶;深度学习;多模态;感知;计算机视觉;传感器;综述 中图分类号:TP274; TP212 文献标志码:A 文章编号:1673−4785(2020)04−0758−14 中文引用格式:张新钰, 邹镇洪, 李志伟, 等. 面向自动驾驶目标检测的深度多模态融合技术 [J]. 智能系统学报, 2020, 15(4): 758–771. 英文引用格式:ZHANG Xinyu, ZOU Zhenhong, LI Zhiwei, et al. Deep multi-modal fusion in object detection for autonomous driving[J]. CAAI transactions on intelligent systems, 2020, 15(4): 758–771. Deep multi-modal fusion in object detection for autonomous driving ZHANG Xinyu1,2 ,ZOU Zhenhong1,2 ,LI Zhiwei1,2 ,LIU Huaping3 ,LI Jun1,2 (1. State Key Laboratory of Automotive Safety and Energy, Tsinghua University, Beijing 100084, China; 2. School of Vehicle and Mobility, Tsinghua University, Beijing 100084, China; 3. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China) Abstract: In autonomous driving, there has been an increasing interest in utilizing multiple sensors to improve the accuracy of object detection models. Accordingly, the research on data fusion has important academic and application value. This paper summarizes the data fusion methods in deep object detection models of autonomous driving in recent years. The paper first introduces the development of deep object detection and data fusion in autonomous driving, as well as existing researches and reviews, then expounds from three aspects of multi-modal object detection, fusion levels and calculation methods, comprehensively showing the cutting-edge progress in this field. In addition, this paper proposes a rationality analysis of data fusion from another three perspectives: methods, robustness and redundancy. Finally, open issues are discussed, and the challenges, strategy and prospects are summarized. Keywords: data fusion; object detection; autonomous driving; deep learning; multimodal; perception; computer vision; sensor; survey 作为自动驾驶技术的重要组成部分,基于深 度学习的目标检测技术持续受到研究人员的关 注。尽管随着深度学习和计算机视觉领域的发 展,目标检测技术已经取得了显著的进步,特别 是将 DARPA[1] 、PASCAL VOC2007[2] 等基于图像 的目标检测任务的基准提升到了较高的水平。 然而,自动驾驶要求模型在复杂多变的场景下 保持较高的准确率,基于单一传感器的算法即 收稿日期:2020−02−14. 基金项目:国家重点研发计划项目 (2018YFE0204300);北京市 科技计划项目 (Z191100007419008);国强研究院项 目 (2019GQG1010). 通信作者:刘华平. E-mail:hpliu@tsinghua.edu.cn. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
第4期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·759· 使在车道线检测这样的基础任务上也很难保持 数据的目标检测方法被不断提出,但大部分模 鲁棒性。此外,不同于目标检测技术的其他应 型依然是基于图像。当前模型主要通过边界框 用场景,自动驾驶汽车上的多种传感器可以提 的重合度来评价效果2,通过设置一个阈值(in 供环境和车辆自身的多模态信息,并且它们在 tersection over union,IoU来决定是否正确预测。 一定程度上存在互补关系。因此,人们期待通 1oU的计算方法一直在变化),但并不影响本文 过融合多模态数据来充分挖掘信息,并最终提 对融合方法的讨论。 高目标检测和其他自动驾驶模型的性能。本文 尽管在特定的数据集上,现有的基于计算机 先回顾了近年来目标检测技术和数据融合技术 视觉和深度学习的目标检测方法取得了优异成 的发展,接着对面向自动驾驶的、基于多模态数 绩,然而面对特定场景,特别是自动驾驶这类对 据融合的目标检测技术进行了全面的概述,并 鲁棒性、检测速度和准确率要求都很高的场景, 比较和讨论了具体的融合理论和方法。与之前 现有模型的性能依然存在不足之处A。例如2014 的研究1不同的是,本文只针对自动驾驶场景 年针对基于车道线检测的综述)提到曝光对于 下的目标检测中的数据融合方法,从层次、计算 视觉任务的影响,即使现有的网络针对小目标 和合理性等多个角度对其进行了全面深人的比 曝光不足、分辨率低6的情形有所改善,然而 较和分析,且进一步地总结了现有模型设计的 极端过曝或欠曝的场景会导致图像数据对环境 策略,并给出了分析和建议。 信息的记录严重损失,对此现有的基于单一图 1背景 像网络依旧没有,也很难出现适用的解决方案。 当自动驾驶汽车在路面上行驶的时候,很容易 11目标检测 遇上光照变化幅度较大的区域,导致相机的记 作为计算机视觉领域的任务之一,目标检测 录失真,这将严重影响自动驾驶汽车的决策。 是许多其他视觉任务的基础,如实例分割阿与目 为此,研究者考虑在视频流中利用连续帧的信 标追踪”,旨在检测出不同类别物体的每个实 息进行目标检测,17,而另一主流研究方向则 例。考虑到数据的易得性和数据特征的丰富程 是利用多种传感器提供的多模态数据进行信息 度,其一般指以RGB图像为主要数据的目标检 融合,再进行目标检测1.2012年德国的研究 测,且通常在图像上使用边界框(bounding box) 者提出了KITTI数据集,其包含了多种车载传 来定位物体并给出物体类别属性的概率⑧。根 感器的数据和检测、分割等多个自动驾驶环境 据定义,通常要求目标检测算法先在图像上搜 感知任务的标注。此后,Waymo2o,、Uber2和 索出可能包含目标的区域,再在此区域上进行 Baidu]等公司先后推出针对自动驾驶的多模态 分类,这种模型是多阶段模型。随着深度学习 数据集,为研究自动驾驶中的数据融合方法提 的发展,单步检测模型(one-stage detection)被提 供了极大便利。 出,其可以在检测的同时进行分类,从而提高了 1.2多模态数据融合 检测速度。此外,针对不同模态的数据,检测的 考虑到上述在基于图像的目标检测模型中 方法也不同。由于自动驾驶汽车上应用了激光 的问题,研究者考虑利用多模态数据的信息的互 雷达、雷达、深度相机(RGB-Depth camera)等多 补来提升模型的鲁棒性。由于信息记录方式的 种传感器,因此自动驾驶中同样需要关注基于 不同,不同的传感器之间往往存在互补性。比 点云、深度图像或其他模态数据的方法,其中点 如RGB相机往往在光照条件不佳时难以记录有 云由激光雷达或雷达提供。对于图像上的目标 效信息,然而主动感知的传感器,如激光雷达、 检测,传统方法的准确率往往不如深度学习方 雷达和深度相机等,则不易受到外部环境条件的 法,而后者则往往需要大型数据集和长时间的 影响。对于激光雷达和雷达,它们记录的点云过 训练来学习特征。对于点云上的目标检测,优 于稀疏,获得的低分辨率数据难以用于高精度的 点是可以利用三维空间信息进行检测,缺点是 检测,而RGB图像则可以提供稠密的数据。因 空间维数的增加导致点云数据往往过于稀疏, 此,如何理解与利用多种模态数据之间的关联与 造成模型拟合的效果不佳。而深度图像,即深 互补之处,成了多模态数据融合在应用中的重要 度相机记录的带有距离信息的RGB图像o),结 问题。 合了图像和点云的特点,但因相机的性能不足 具体到自动驾驶场景,不同的车载传感器既 尚未成为主流。综合来看,尽管针对多种模态 可以提供对同一环境的感知信息,如对前方道路
使在车道线检测这样的基础任务上也很难保持 鲁棒性[3]。此外,不同于目标检测技术的其他应 用场景,自动驾驶汽车上的多种传感器可以提 供环境和车辆自身的多模态信息,并且它们在 一定程度上存在互补关系[4]。因此,人们期待通 过融合多模态数据来充分挖掘信息,并最终提 高目标检测和其他自动驾驶模型的性能。本文 先回顾了近年来目标检测技术和数据融合技术 的发展,接着对面向自动驾驶的、基于多模态数 据融合的目标检测技术进行了全面的概述,并 比较和讨论了具体的融合理论和方法。与之前 的研究[4-5] 不同的是,本文只针对自动驾驶场景 下的目标检测中的数据融合方法,从层次、计算 和合理性等多个角度对其进行了全面深入的比 较和分析,且进一步地总结了现有模型设计的 策略,并给出了分析和建议。 1 背景 1.1 目标检测 作为计算机视觉领域的任务之一,目标检测 是许多其他视觉任务的基础,如实例分割[6] 与目 标追踪[7] ,旨在检测出不同类别物体的每个实 例。考虑到数据的易得性和数据特征的丰富程 度,其一般指以 RGB 图像为主要数据的目标检 测,且通常在图像上使用边界框 (bounding box) 来定位物体并给出物体类别属性的概率[8]。根 据定义,通常要求目标检测算法先在图像上搜 索出可能包含目标的区域,再在此区域上进行 分类,这种模型是多阶段模型。随着深度学习 的发展,单步检测模型 (one-stage detection) 被提 出,其可以在检测的同时进行分类,从而提高了 检测速度。此外,针对不同模态的数据,检测的 方法也不同。由于自动驾驶汽车上应用了激光 雷达、雷达、深度相机 (RGB-Depth camera) 等多 种传感器,因此自动驾驶中同样需要关注基于 点云、深度图像或其他模态数据的方法,其中点 云由激光雷达或雷达提供。对于图像上的目标 检测,传统方法的准确率往往不如深度学习方 法 [8] ,而后者则往往需要大型数据集和长时间的 训练来学习特征。对于点云上的目标检测,优 点是可以利用三维空间信息进行检测,缺点是 空间维数的增加导致点云数据往往过于稀疏, 造成模型拟合的效果不佳[9]。而深度图像,即深 度相机记录的带有距离信息的 RGB 图像[10-11] ,结 合了图像和点云的特点,但因相机的性能不足 尚未成为主流。综合来看,尽管针对多种模态 数据的目标检测方法被不断提出,但大部分模 型依然是基于图像。当前模型主要通过边界框 的重合度来评价效果[12] ,通过设置一个阈值 (intersection over union,IoU) 来决定是否正确预测。 IoU 的计算方法一直在变化[13] ,但并不影响本文 对融合方法的讨论。 尽管在特定的数据集上,现有的基于计算机 视觉和深度学习的目标检测方法取得了优异成 绩,然而面对特定场景,特别是自动驾驶这类对 鲁棒性、检测速度和准确率要求都很高的场景, 现有模型的性能依然存在不足之处[4, 8]。例如 2014 年针对基于车道线检测的综述[3] 提到曝光对于 视觉任务的影响,即使现有的网络针对小目标[14] 、 曝光不足[15] 、分辨率低[16] 的情形有所改善,然而 极端过曝或欠曝的场景会导致图像数据对环境 信息的记录严重损失,对此现有的基于单一图 像网络依旧没有,也很难出现适用的解决方案。 当自动驾驶汽车在路面上行驶的时候,很容易 遇上光照变化幅度较大的区域,导致相机的记 录失真,这将严重影响自动驾驶汽车的决策。 为此,研究者考虑在视频流中利用连续帧的信 息进行目标检测[7, 17-18] ,而另一主流研究方向则 是利用多种传感器提供的多模态数据进行信息 融合,再进行目标检测[4-5]。2012 年德国的研究 者提出了 KITTI 数据集[19] ,其包含了多种车载传 感器的数据和检测、分割等多个自动驾驶环境 感知任务的标注。此后,Waymo[20] 、Uber[21] 和 Baidu[22] 等公司先后推出针对自动驾驶的多模态 数据集,为研究自动驾驶中的数据融合方法提 供了极大便利。 1.2 多模态数据融合 考虑到上述在基于图像的目标检测模型中 的问题,研究者考虑利用多模态数据的信息的互 补来提升模型的鲁棒性。由于信息记录方式的 不同,不同的传感器之间往往存在互补性[4]。比 如 RGB 相机往往在光照条件不佳时难以记录有 效信息,然而主动感知的传感器,如激光雷达、 雷达和深度相机等,则不易受到外部环境条件的 影响。对于激光雷达和雷达,它们记录的点云过 于稀疏,获得的低分辨率数据难以用于高精度的 检测,而 RGB 图像则可以提供稠密的数据。因 此,如何理解与利用多种模态数据之间的关联与 互补之处,成了多模态数据融合在应用中的重要 问题。 具体到自动驾驶场景,不同的车载传感器既 可以提供对同一环境的感知信息,如对前方道路 第 4 期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·759·
·760· 智能系统学报 第15卷 的RGB图像、热成像、深度图像、激光雷达点云 表1近年目标检测综述论文对比表 和雷达点云等,也可以提供对汽车自身的感知信 Table 1 Comparison of object detection review papers 息,如车辆的行驶速度、路径等,为连续地感知环 文献 检测目标 划分方法 面向自动驾驶 境提供重要的估计参数。为此,自动驾驶中的数 [4] 2D&3D 基于融合层次 冷 据融合可以在多个任务中发挥作用,比如目标检 ) 2D&3D 基于融合层次 否 测2)、目标跟踪和即时定位与建图(simultaneous [8 2D 不涉及融合 否 localization and mapping,SLAM)P。特别地,不同 [例 3D 不涉及融合 是 于其他应用场景,针对自动驾驶汽车的目标检测 可以利用多种车载传感器。由于这些传感器被安 本文 2D&3D 基于融合层次 是 装以记录前向场景的信息,因此它们包含了对同 一环境的多模态信息,这使得它们既能很容易地 2 融合方法 配对,又能被发掘出互补的信息2。对此最常见 2.1多模态目标检测 的融合模式是激光雷达与RGB相机的融合,激光 2.1.1基于RGB图像 雷达点云可以主动感知较大范围内的物体,因此 在应用深度学习技术前,曾出现了VJ Det、. 不受光照条件的影响,而RGB图像所提供的色 HOG Det等方法B1-3.2008年Felzenszwalb等B 彩、纹理等视觉信息则可以被用于更高精度的视 在所提出的DPM方法中首次涉及了边界框的概 觉任务s27。然而现有的融合方法同样具有问题 念,此后对边界框的回归成为目标检测模型的经 和挑战,如多个传感器之间的配准21、部分传感 典思想。2012年,AlexNet!3)的出现成为了深度 器失灵的情形26,以及对更多样的融合方法的 学习和计算机视觉发展的开端。从此,基于卷积 探究。 神经网络(convolutional neural network,CNN)的方 1.3已有研究 法逐渐成为计算机视觉任务的主流⑧。从2014年 尽管已经有许多基于融合方法的目标检测模 起,Girshick等B6-38]先后提出了R-CNN、Fast R- 型被提出,然而依然没有论文对目标检测模型中 CNN,基于R-CNN发展出来的神经网络成为两步 的融合机制进行完整且深人的研究。表1将本文 目标检测(two-stage detection)的主要基准模型。 与相关的文献综述进行了对比。Eduardo Arnold R-CNN先通过选择搜索(selective search)生成候 等总结了自动驾驶任务中的3D目标检测方法, 选边界框,再通过CNN提取特征,最后进行分 其涉及到部分融合模型,然而仅局限于3D检测 类。此外,为了提高计算性能,Ren等11于2015 的场景,且没有深入分析融合方法的合理性。 年提出了Faster R-CNN,所使用的Region Propos- Feng等总结了自动驾驶中适用于数据融合的数 al Network(RPN)成为经典的目标检测模型的设计 据集、感知任务、融合方法和现有问题等,特别是 思想。此后出现的特征金字塔网络(feature pyr- 对目标检测和语义分割中的融合方法进行了全面 amid networks,FPN))通过融合不同层次的语义 的归纳和分类,然而没有对数据融合的冗余性进 来充分挖掘图像信息,许多模型采用了这种结合 行分析,也没有对基于数据融合的目标检测模型 浅层和深层语义的设计。 中的其他部分进行比较归纳:罗俊海等对基于 与两步检测相对的是单步目标检测(one- 数据融合的目标检测方法进行了综述,且采用了 stage detection),其经典模型是YOLO(you only look 前面两个研究不一样的归纳方法,然而其研究并 once)o和SSD(single shot detector)"。由名字可 非针对特定场景,并且同样缺乏对数据融合的冗 见,单步检测不同于两步检测的提出候选边界框 余性分析或合理性分析。特别地,近年来,目标 再进行分类的模式,而是同时在图像的某一部分 检测中的融合方法缺乏统一、明确的定义,不同 上预测边界框和分类。Redmon等先后提出了 的论文中模糊地遵循了“前融合,中间融合,后融 3个版本的YOL0模型:YOLOO、YOL09000四 合”的分类方法,290,然而各自在具体的实现细 YOLOv31,其中YOLO9000和YOLOv3先后在 节上仍存在差异,且现有的按融合阶段划分的方 预测边界框时使用锚点(anchor)的思想来替代全 法,在集成模型中不能很好地反映出融合步骤对 连接层、采用了多尺度模型、对边界框进行逻辑 于模型的作用。为此,提出了新的根据融合结果 回归,最终实现在提高准确率的同时保持了较高 作用的划分方法,并给出了具体的定义,相关细 的检测速度,且YOLOv3对于小目标的检测性能 节将在下文中描述。 有显著提升。除了YOLO系列网络,2016年提出
的 RGB 图像、热成像、深度图像、激光雷达点云 和雷达点云等,也可以提供对汽车自身的感知信 息,如车辆的行驶速度、路径等,为连续地感知环 境提供重要的估计参数。为此,自动驾驶中的数 据融合可以在多个任务中发挥作用,比如目标检 测 [23] 、目标跟踪和即时定位与建图 (simultaneous localization and mapping, SLAM)[24]。特别地,不同 于其他应用场景,针对自动驾驶汽车的目标检测 可以利用多种车载传感器。由于这些传感器被安 装以记录前向场景的信息,因此它们包含了对同 一环境的多模态信息,这使得它们既能很容易地 配对,又能被发掘出互补的信息[23]。对此最常见 的融合模式是激光雷达与 RGB 相机的融合,激光 雷达点云可以主动感知较大范围内的物体,因此 不受光照条件的影响,而 RGB 图像所提供的色 彩、纹理等视觉信息则可以被用于更高精度的视 觉任务[25-27]。然而现有的融合方法同样具有问题 和挑战,如多个传感器之间的配准[28] 、部分传感 器失灵的情形[ 2 6 ] ,以及对更多样的融合方法的 探究[4]。 1.3 已有研究 尽管已经有许多基于融合方法的目标检测模 型被提出,然而依然没有论文对目标检测模型中 的融合机制进行完整且深入的研究。表 1 将本文 与相关的文献综述进行了对比。Eduardo Arnold 等 [9] 总结了自动驾驶任务中的 3D 目标检测方法, 其涉及到部分融合模型,然而仅局限于 3D 检测 的场景,且没有深入分析融合方法的合理性。 Feng 等 [4] 总结了自动驾驶中适用于数据融合的数 据集、感知任务、融合方法和现有问题等,特别是 对目标检测和语义分割中的融合方法进行了全面 的归纳和分类,然而没有对数据融合的冗余性进 行分析,也没有对基于数据融合的目标检测模型 中的其他部分进行比较归纳;罗俊海等[5] 对基于 数据融合的目标检测方法进行了综述,且采用了 前面两个研究不一样的归纳方法,然而其研究并 非针对特定场景,并且同样缺乏对数据融合的冗 余性分析或合理性分析。特别地,近年来,目标 检测中的融合方法缺乏统一、明确的定义,不同 的论文中模糊地遵循了“前融合,中间融合,后融 合”的分类方法[23, 29-30] ,然而各自在具体的实现细 节上仍存在差异,且现有的按融合阶段划分的方 法,在集成模型中不能很好地反映出融合步骤对 于模型的作用。为此,提出了新的根据融合结果 作用的划分方法,并给出了具体的定义,相关细 节将在下文中描述。 表 1 近年目标检测综述论文对比表 Table 1 Comparison of object detection review papers 文献 检测目标 划分方法 面向自动驾驶 [4] 2D&3D 基于融合层次 是 [5] 2D&3D 基于融合层次 否 [8] 2D 不涉及融合 否 [9] 3D 不涉及融合 是 本文 2D&3D 基于融合层次 是 2 融合方法 2.1 多模态目标检测 2.1.1 基于 RGB 图像 在应用深度学习技术前,曾出现了 VJ Det、 HOG Det 等方法[31-33]。2008 年 Felzenszwalb 等 [34] 在所提出的 DPM 方法中首次涉及了边界框的概 念,此后对边界框的回归成为目标检测模型的经 典思想。2012 年,AlexNet[35] 的出现成为了深度 学习和计算机视觉发展的开端。从此,基于卷积 神经网络 (convolutional neural network,CNN) 的方 法逐渐成为计算机视觉任务的主流[8]。从 2014 年 起,Girshick 等 [36-38] 先后提出了 R-CNN、Fast RCNN,基于 R-CNN 发展出来的神经网络成为两步 目标检测 (two-stage detection) 的主要基准模型。 R-CNN 先通过选择搜索 (selective search) 生成候 选边界框,再通过 CNN 提取特征,最后进行分 类。此外,为了提高计算性能,Ren 等 [15] 于 2015 年提出了 Faster R-CNN,所使用的 Region Proposal Network(RPN) 成为经典的目标检测模型的设计 思想。此后出现的特征金字塔网络 (feature pyramid networks, FPN)[39] 通过融合不同层次的语义 来充分挖掘图像信息,许多模型采用了这种结合 浅层和深层语义的设计。 与两步检测相对的是单步目标检测 (onestage detection),其经典模型是 YOLO(you only look once)[40] 和 SSD(single shot detector)[41]。由名字可 见,单步检测不同于两步检测的提出候选边界框 再进行分类的模式,而是同时在图像的某一部分 上预测边界框和分类。Redmon 等先后提出了 3 个版本的 YOLO 模型:YOLO[40] 、YOLO9000[42] 、 YOLOv3[14] ,其中 YOLO9000 和 YOLOv3 先后在 预测边界框时使用锚点 (anchor) 的思想来替代全 连接层、采用了多尺度模型、对边界框进行逻辑 回归,最终实现在提高准确率的同时保持了较高 的检测速度,且 YOLOv3 对于小目标的检测性能 有显著提升。除了 YOLO 系列网络,2016 年提出 ·760· 智 能 系 统 学 报 第 15 卷
第4期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·761· 的SSD和2017年的Retina-Net也受到了广泛 信息等,根据多重语义信息可以更有效地在点 的研究和使用。此后,仍然不断有各种模型在基 云上进行视觉计算。 准数据集上取得突破,然而这些模型依然遵循了 2.1.3基于RGB-D图像和多光谱图像 单步或两步模型的经典设计。 深度相机,又称RGB-D相机,在RGB图像的 2.1.2基于激光雷达点云 对应像素上提供了深度信息,从而让所提供的 激光雷达由于其主动感知的特性,以及相对 RGB-D图像在一定程度上结合了RGB图像和激 雷达提供了更密集的点云,因此在自动驾驶的传 光雷达的优点。且由于RGB-D所提供的点云和 感器中受到较多的应用4461。图1中给出了 图像自然配准,因此在计算上较单独的激光雷达 KITTI数据集中RGB图像和激光雷达点云的示 点云和RGB图像更加方便。近年来研究者探索 例,其中点云反射强度图被投影到相机成像平 了RGB-D图像的信息挖掘方法,主要是将RGB- 面,且所显示的均为灰度图。激光雷达不仅可以 D图像中的两种信息分拆处理,包括对图像和点 提供较大的感知范围,扫描半径可达50~70m,甚 云投影得到的深度图像的联合处理,、对图像和 至更远,而且激光雷达可以提供环境的深度信息 点云的联合处理0。与深度图像类似的是多光谱 和反射率,且不受环境光照的影响。激光雷达数 图像。多光谱图像可以由多光谱相机或航空相机 据为三维点云格式,因此点云的坐标自然地提供 获得,也可以通过RGB相机和热成像相机(红外 了物体相对激光雷达的三维空间坐标,可以用于 光相机)配准后获得。多光谱图像,特别是基于 三维空间的目标检测;点云的反射强度值反映了 物体表面温度的热成像,可以避免环境可见光源 物体表面的材质,因此不同的物体可以根据反射 对成像的影响,从而可以在包括夜间的多种环境 强度被很容易地区分开。 下获得具有区分度的图像。Rutgers大学2]和 Bonn大学0的研究者分别在2016年发表了基于 多光谱成像的目标检测技术,是最早的一批利用 多光谱图像进行目标检测的研究。此后,浙江大 学的研究人员]探究了多光谱成像在全天候目 标检测下的应用前景,并获得了良好的实验效果。 2.1.4基于其他数据来源 表2中列出了常见的自动驾驶场景中的传感 图1 KITTI数据集示例例 器(或数据来源)以及对应的数据模态、数据提供 Fig.1 KITTI dataset examples 的信息和使用的目标检测任务。 对于点云上的目标检测,现有多种方法,它们 表2多种模态数据的比较 和点云的数据表现方式有关。由于点云的空间特 Table 2 Comparison of multiple modal data 性,它既可以在三维空间中执行三维检测,也可 传感器 模态 包含信息 检测目标 以投影到二维平面,利用基于图像的二维目标检 RGB相机 图像 RGB信息 2D 测模型进行计算4。具体地,投影主要包括前视 全景相机 图像 全景RGB信息 2D 图投影和鸟瞰图投影(bird's eye view,BEV),其 中前视图投影一方面可以得到较为稠密的投影图 深度相机 图像 RGB信息、深度 2D&3D 像,另一方面可以投影到车载相机的像素平面 多光谱相机 图像 多光谱图像 2D 上,从而可以和相机图像融合来执行目标检测。 激光雷达 点云 深度、反射强度 2D&3D 然而在模型中点云的BEV视图受到了更多的应 雷达 点云 深度、径向速度 2D&3D 用,主要有3个原因:1)物体在投影到BEV视图 毫米波雷达 点云 深度、径向速度 2D 时会保留物理尺寸,而其他投影视图会产生透视 高精地图 地图 地图先验信息 2D&3D 效果;2)BEV视图中的物体很少出现遮挡问题, 且在空间上分布离散;3)在道路场景中,由于对 除了上述4种常见的数据,高精地图(HD 象通常位于地面上并且垂直位置的变化很小,因 map)、雷达(radar)和毫米波雷达(millimeter wave 此鸟瞰图有利于获取准确的3D边界框。此外, radar)同样被应用于自动驾驶的目标检测中。 激光雷达还可以在投影图像上提供丰富的语义信 HDNet提供了一种融合激光雷达点云与高精地 息,比如深度信息、反射率信息1和物体高度 图的方法,且点云可以用于高精地图的构建,从
的 SSD[41] 和 2017 年的 Retina-Net[43] 也受到了广泛 的研究和使用。此后,仍然不断有各种模型在基 准数据集上取得突破,然而这些模型依然遵循了 单步或两步模型的经典设计。 2.1.2 基于激光雷达点云 激光雷达由于其主动感知的特性,以及相对 雷达提供了更密集的点云,因此在自动驾驶的传 感器中受到较多的应用[ 4 4 - 4 6 ]。图 1 中给出了 KITTI 数据集中 RGB 图像和激光雷达点云的示 例,其中点云反射强度图被投影到相机成像平 面,且所显示的均为灰度图。激光雷达不仅可以 提供较大的感知范围,扫描半径可达 50~70 m,甚 至更远,而且激光雷达可以提供环境的深度信息 和反射率,且不受环境光照的影响。激光雷达数 据为三维点云格式,因此点云的坐标自然地提供 了物体相对激光雷达的三维空间坐标,可以用于 三维空间的目标检测;点云的反射强度值反映了 物体表面的材质,因此不同的物体可以根据反射 强度被很容易地区分开。 图 1 KITTI 数据集示例[19] Fig. 1 KITTI dataset examples 对于点云上的目标检测,现有多种方法,它们 和点云的数据表现方式有关。由于点云的空间特 性,它既可以在三维空间中执行三维检测[47] ,也可 以投影到二维平面,利用基于图像的二维目标检 测模型进行计算[48]。具体地,投影主要包括前视 图投影和鸟瞰图投影 (bird’s eye view,BEV),其 中前视图投影一方面可以得到较为稠密的投影图 像,另一方面可以投影到车载相机的像素平面 上,从而可以和相机图像融合来执行目标检测。 然而在模型中点云的 BEV 视图受到了更多的应 用,主要有 3 个原因:1)物体在投影到 BEV 视图 时会保留物理尺寸,而其他投影视图会产生透视 效果;2)BEV 视图中的物体很少出现遮挡问题, 且在空间上分布离散;3)在道路场景中,由于对 象通常位于地面上并且垂直位置的变化很小,因 此鸟瞰图有利于获取准确的 3D 边界框。此外, 激光雷达还可以在投影图像上提供丰富的语义信 息,比如深度信息[48] 、反射率信息[48] 和物体高度 信息[49] 等,根据多重语义信息可以更有效地在点 云上进行视觉计算。 2.1.3 基于 RGB-D 图像和多光谱图像 深度相机,又称 RGB-D 相机,在 RGB 图像的 对应像素上提供了深度信息,从而让所提供的 RGB-D 图像在一定程度上结合了 RGB 图像和激 光雷达的优点。且由于 RGB-D 所提供的点云和 图像自然配准,因此在计算上较单独的激光雷达 点云和 RGB 图像更加方便。近年来研究者探索 了 RGB-D 图像的信息挖掘方法,主要是将 RGBD 图像中的两种信息分拆处理,包括对图像和点 云投影得到的深度图像的联合处理[10] 、对图像和 点云的联合处理[50]。与深度图像类似的是多光谱 图像。多光谱图像可以由多光谱相机或航空相机 获得,也可以通过 RGB 相机和热成像相机 (红外 光相机) 配准后获得。多光谱图像,特别是基于 物体表面温度的热成像,可以避免环境可见光源 对成像的影响,从而可以在包括夜间的多种环境 下获得具有区分度的图像。Rutgers 大学[29] 和 Bonn 大学[30] 的研究者分别在 2016 年发表了基于 多光谱成像的目标检测技术,是最早的一批利用 多光谱图像进行目标检测的研究。此后,浙江大 学的研究人员[51] 探究了多光谱成像在全天候目 标检测下的应用前景,并获得了良好的实验效果。 2.1.4 基于其他数据来源 表 2 中列出了常见的自动驾驶场景中的传感 器 (或数据来源) 以及对应的数据模态、数据提供 的信息和使用的目标检测任务。 表 2 多种模态数据的比较 Table 2 Comparison of multiple modal data 传感器 模态 包含信息 检测目标 RGB相机 图像 RGB信息 2D 全景相机 图像 全景RGB信息 2D 深度相机 图像 RGB信息、深度 2D&3D 多光谱相机 图像 多光谱图像 2D 激光雷达 点云 深度、反射强度 2D&3D 雷达 点云 深度、径向速度 2D&3D 毫米波雷达 点云 深度、径向速度 2D 高精地图 地图 地图先验信息 2D&3D 除了上述 4 种常见的数据,高精地图 (HD map)、雷达 (radar) 和毫米波雷达 (millimeter wave radar) 同样被应用于自动驾驶的目标检测中。 HDNet[52] 提供了一种融合激光雷达点云与高精地 图的方法,且点云可以用于高精地图的构建,从 第 4 期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·761·
·762· 智能系统学报 第15卷 而建立起点云和高精地图之间的联系。通过往高 基于雷达21和毫米波雷达的研究s),同样值得 精地图上添加交通语义信息,如信号灯、道路指 关注。 示标志、车辆信息等,可以充分利用道路上的先 2.1.5基于多模态数据的目标检测 验信息,从而提高点云上目标检测模型的性能。 近年来,自动驾驶领域对基于多模态数据融 雷达和毫米波雷达均可以提供点云,但所提供的 合的目标检测技术的研究兴起,一方面是出于上 信息只包含深度(三维空间)信息,且其点云较激 述对单一模态数据的缺陷的考虑,另一方面是出 光雷达点云更为稀疏,因此应用范围不及激光雷 于对车载传感器稳定性的考虑。表3总结了近年 达。然而雷达,特别是毫米波雷达具有更大的射 来自动驾驶场景下基于多模态数据融合的深度目 程,可以提供更大距离的障碍物信息,近年来有 标检测方法。 表3深度目标检测数据融合方法统计 Table 3 Statistics of deep target detection data fusion methods 文献 传感器 点云表示方式 数据融合 特征融合结果融合轴助估计 [53] 毫米波雷达、RGB相机 前视图 [56 激光雷达、RGB相机 前视图、鸟瞰图、体素化 [25] 雷达、长焦相机、短焦相机 前视图 [57] 激光雷达、RGB相机 3D点云、体素化 [261 激光雷达、RGB相机 鸟瞰图 [55] 激光雷达、RGB相机 前视图 [27] 激光雷达、RGB相机 体素化的前视图、鸟瞰图 [58] 激光雷达、RGB相机 鸟瞰图 [50] 深度相机 3D点云 [51] RGB相机、热成像相机 [59] 激光雷达、RGB相机 鸟瞰图 [60] 激光雷达、RGB相机 前视图 [52] 激光雷达、高精地图 高精地图、栅格化鸟瞰图 [61] 激光雷达、道路先验信息 鸟瞰图 [62] 激光雷达、RGB相机 6通道鸟瞰特征图 [28] 激光雷达、RGB相机 前视图 [63] 激光雷达、RGB相机 稀疏深度图、稠密深度图 [64 激光雷达、RGB相机 3D点云 [65] 激光雷达、RGB相机 按深度生成3个前视图 [66 激光雷达、RGB相机 鸟瞰图 [67] 深度相机 前视图 [23] 激光雷达、RGB相机 鸟瞰图、前视图 [68] 激光雷达、RGB相机 3D点云 [48] 激光雷达、RGB相机 稠密深度图、稠密强度图 [10] 深度相机、专家先验信息 前视图 [49] 激光雷达、RGB相机 前视图 [29] RGB相机、热成像相机 [30] RGB相机、热成像相机 [69] 激光雷达、RGB相机 稠密强度图 针对第一方面,近年来不断有针对多模态数 提出的基于HHA采样的激光雷达点云和相机图 据的目标检测方法被提出,如Cho等s提出的对 像的融合方法,两种数据组成了6通道的扩展图 雷达点云、激光雷达点云和相机图像的专家融合 像,用于行人检测:DOU等s提出了融合点云前 方法,用于车辆检测与跟踪;Schlosser等Ia列 向投影的深度图和相机图像的融合方法,是一项
而建立起点云和高精地图之间的联系。通过往高 精地图上添加交通语义信息,如信号灯、道路指 示标志、车辆信息等,可以充分利用道路上的先 验信息,从而提高点云上目标检测模型的性能。 雷达和毫米波雷达均可以提供点云,但所提供的 信息只包含深度 (三维空间) 信息,且其点云较激 光雷达点云更为稀疏,因此应用范围不及激光雷 达。然而雷达,特别是毫米波雷达具有更大的射 程,可以提供更大距离的障碍物信息,近年来有 基于雷达[25] 和毫米波雷达的研究[53] ,同样值得 关注。 2.1.5 基于多模态数据的目标检测 近年来,自动驾驶领域对基于多模态数据融 合的目标检测技术的研究兴起,一方面是出于上 述对单一模态数据的缺陷的考虑,另一方面是出 于对车载传感器稳定性的考虑。表 3 总结了近年 来自动驾驶场景下基于多模态数据融合的深度目 标检测方法。 表 3 深度目标检测数据融合方法统计 Table 3 Statistics of deep target detection data fusion methods 文献 传感器 点云表示方式 数据融合 特征融合 结果融合 辅助估计 [53] 毫米波雷达、RGB相机 前视图 √ √ √ [56] 激光雷达、RGB相机 前视图、鸟瞰图、体素化 √ √ √ √ [25] 雷达、长焦相机、短焦相机 前视图 √ √ [57] 激光雷达、RGB相机 3D点云、体素化 √ √ [26] 激光雷达、RGB相机 鸟瞰图 √ [55] 激光雷达、RGB相机 前视图 √ √ [27] 激光雷达、RGB相机 体素化的前视图、鸟瞰图 √ [58] 激光雷达、RGB相机 鸟瞰图 √ √ [50] 深度相机 3D点云 √ √ [51] RGB相机、热成像相机 / √ √ [59] 激光雷达、RGB相机 鸟瞰图 √ [60] 激光雷达、RGB相机 前视图 √ [52] 激光雷达、高精地图 高精地图、栅格化鸟瞰图 √ √ [61] 激光雷达、道路先验信息 鸟瞰图 √ [62] 激光雷达、RGB相机 6通道鸟瞰特征图 √ √ [28] 激光雷达、RGB相机 前视图 √ [63] 激光雷达、RGB相机 稀疏深度图、稠密深度图 √ √ [64] 激光雷达、RGB相机 3D点云 √ √ [65] 激光雷达、RGB相机 按深度生成3个前视图 √ √ [66] 激光雷达、RGB相机 鸟瞰图 √ √ [67] 深度相机 前视图 √ √ √ [23] 激光雷达、RGB相机 鸟瞰图、前视图 √ [68] 激光雷达、RGB相机 3D点云 √ √ [48] 激光雷达、RGB相机 稠密深度图、稠密强度图 √ [10] 深度相机、专家先验信息 前视图 √ [49] 激光雷达、RGB相机 前视图 √ √ [29] RGB相机、热成像相机 / √ √ √ [30] RGB相机、热成像相机 / √ √ [69] 激光雷达、RGB相机 稠密强度图 √ 针对第一方面,近年来不断有针对多模态数 据的目标检测方法被提出,如 Cho 等 [54] 提出的对 雷达点云、激光雷达点云和相机图像的专家融合 方法,用于车辆检测与跟踪; Schlosse r 等 [ 4 9 ] 提出的基于 HHA 采样的激光雷达点云和相机图 像的融合方法,两种数据组成了 6 通道的扩展图 像,用于行人检测;DOU 等 [55] 提出了融合点云前 向投影的深度图和相机图像的融合方法,是一项 ·762· 智 能 系 统 学 报 第 15 卷
第4期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·763· 通过图像辅助点云上的3D检测的方法;2017年 2.2.1数据融合 清华大学提出MV3D模型P),采用了复杂的网络 数据融合,指输出数据将作为后续模型输入 架构来融合图像与两个视角的点云投影,取得了 的融合操作。一方面,模型可以是完整的模型, 当时的最佳性能。除此外还有众多的数据融合方 也可以是作为集成模型某一分支或某一部分的子 法被提出,下文将从融合的层次、融合的计算方 模型,;另一方面,输入的数据,也即被融合的数 法两个角度来划分不同的融合方法,后一节将对 据,既可以是来自传感器的原始数据或仅经过预 现有模型中数据融合的冗余性进行分析。 处理的数据0,63,6,也可以是集成模型的子模型 2.2数据融合的层次 输出的特征向量、特征图或计算结果556。文 由于激光雷达点云在融合模型中的表示方式 献[67]对由深度相机提供的RGB图像和深度图 影响到融合方法的选择,因此表3中也列出了相 像分别进行处理后融合,文中提供了多个可能的 应的信息。根据Feng等的文献[4],按数据融合 融合位置,当模型提取特征前就通过向量连接 步骤出现在目标检测模型的不同阶段,融合方法 时,融合结果作为后续完整模型的输人,属于数 可以分为前融合(early fusion)、中间融合(middle 据融合,也就是文献[⑤]中所提到的数据级的融 fusion or deep fusion)和后融合(late fusion)3种。 合,或文献[4]中提到的前融合。在DOU等s的 其中,前融合针对原始数据或仅经过预处理的数 研究中,点云被投影到相机像素平面,与语义分 据的融合,后融合将模型的多个分支的运算结果 割后的图像和原始图像进行融合,所得融合图像 融合得到最终结果,中间融合则结合了前融合和 作为后续目标检测模型的输入,且后续模型为完 后融合的特点,将多个模态的数据或其对应的特 整的检测模型,因此是数据融合。在Zhou等s] 征图进行融合,再继续运算。中间融合可以仅存 的论文中,激光雷达点云被投影到RGB图像的像 在于模型的中间步骤,也可以贯穿整个模型。在 素平面,并被添加到图像作为扩展的第4通道,展 部分论文中,3种融合也称为数据级融合、特征级 示了一种常用的与RGB图像融合的方法。 融合和决策级融合。然而,在多层次、多模型结 2.2.2特征融合 合的深度学习模型中,模型分支的结果也是整个 特征融合,指输出数据将作为模型的特征向 模型的中间特征0,大部分融合方法被归为中间 量或特征图(后续统称特征图)的融合操作。具 融合,导致按阶段的划分方法缺乏区分度。为了 体地,特征融合通常指模型输入在模型计算过程 更加直观地区分模型融合的程度,本文从融合的 中的特征图之间的融合操作,且融合的结果继续 层次角度进一步对融合方法作了区分,分别是数 作为当前模型的特征图参与计算2s2,但在某些 据融合、特征融合、结果融合和辅助估计。根据 模型中,原始数据经过预处理后也可能与特征图 本文提出的划分方法,融合方法划分的依据不再 进行特征融合s6-sm。DeepAI在2019年的论文中 是融合步骤在模型中的先后位置,而是融合结果 提及了一种鲁棒性的融合方法,其中点云和图像 在模型中充当的作用,并且融合的划分不会受到 分别由单独的SSD分支处理,其特征图进行交叉 融合数据的形式的限制,从而更加直观地反映了 融合,同样的方法在另一篇车道线检测的论文中 融合操作对于模型的作用。不同融合层次的定义 同样出现。Liang等s提出了一种复杂的融合 和分析如下,且在图2中给出了示例。 模型,其设计的dense fusion模块将4个分支的数 据进行融合,再作为点云和图像两个处理网络的 特征图继续处理,展现了特征层次的融合方法对 数据来源的兼容性。UC Berkley的研究者展现了 种新颖的特征融合方法6,通过设计一个稀疏 (a)数据融合 (b)特征融合 (c)结果融合 矩阵来实现图像到图像的鸟瞰图、点云鸟瞰图到 点云前视图的转化,并通过向量的连接来融合两 输入层 输出层 种模态的特征。两种典型的融合方法在文献[30] 门任意层疆另一模态◇融合操作 中被展现:采用叠加点云到图像的扩展通道的方 法来实现数据融合,通过连接特征图的方法来实 (d结果融合(e)辅助估计 现特征融合。 图2不同融合层次示例 2.2.3结果融合 Fig.2 Examples of different levels of fusion 结果融合,指输出数据作为模型的最终目标
通过图像辅助点云上的 3D 检测的方法;2017 年 清华大学提出 MV3D 模型[23] ,采用了复杂的网络 架构来融合图像与两个视角的点云投影,取得了 当时的最佳性能。除此外还有众多的数据融合方 法被提出,下文将从融合的层次、融合的计算方 法两个角度来划分不同的融合方法,后一节将对 现有模型中数据融合的冗余性进行分析。 2.2 数据融合的层次 由于激光雷达点云在融合模型中的表示方式 影响到融合方法的选择,因此表 3 中也列出了相 应的信息。根据 Feng 等的文献 [4],按数据融合 步骤出现在目标检测模型的不同阶段,融合方法 可以分为前融合 (early fusion)、中间融合 (middle fusion or deep fusion) 和后融合 (late fusion)3 种。 其中,前融合针对原始数据或仅经过预处理的数 据的融合,后融合将模型的多个分支的运算结果 融合得到最终结果,中间融合则结合了前融合和 后融合的特点,将多个模态的数据或其对应的特 征图进行融合,再继续运算。中间融合可以仅存 在于模型的中间步骤,也可以贯穿整个模型。在 部分论文中,3 种融合也称为数据级融合、特征级 融合和决策级融合[5]。然而,在多层次、多模型结 合的深度学习模型中,模型分支的结果也是整个 模型的中间特征[70] ,大部分融合方法被归为中间 融合,导致按阶段的划分方法缺乏区分度。为了 更加直观地区分模型融合的程度,本文从融合的 层次角度进一步对融合方法作了区分,分别是数 据融合、特征融合、结果融合和辅助估计。根据 本文提出的划分方法,融合方法划分的依据不再 是融合步骤在模型中的先后位置,而是融合结果 在模型中充当的作用,并且融合的划分不会受到 融合数据的形式的限制,从而更加直观地反映了 融合操作对于模型的作用。不同融合层次的定义 和分析如下,且在图 2 中给出了示例。 (a) 数据融合 (b) 特征融合 (c) 结果融合 输出层 另一模态 融合操作 特征 提取层 任意层 (d) 结果融合 (e) 辅助估计 输入层 图 2 不同融合层次示例 Fig. 2 Examples of different levels of fusion 2.2.1 数据融合 数据融合,指输出数据将作为后续模型输入 的融合操作。一方面,模型可以是完整的模型, 也可以是作为集成模型某一分支或某一部分的子 模型,;另一方面,输入的数据,也即被融合的数 据,既可以是来自传感器的原始数据或仅经过预 处理的数据[30, 63, 67] ,也可以是集成模型的子模型 输出的特征向量、特征图或计算结果[ 5 5 - 5 6 ]。文 献 [67] 对由深度相机提供的 RGB 图像和深度图 像分别进行处理后融合,文中提供了多个可能的 融合位置,当模型提取特征前就通过向量连接 时,融合结果作为后续完整模型的输入,属于数 据融合,也就是文献 [5] 中所提到的数据级的融 合,或文献 [4] 中提到的前融合。在 DOU 等 [55] 的 研究中,点云被投影到相机像素平面,与语义分 割后的图像和原始图像进行融合,所得融合图像 作为后续目标检测模型的输入,且后续模型为完 整的检测模型,因此是数据融合。在 Zhou 等 [53] 的论文中,激光雷达点云被投影到 RGB 图像的像 素平面,并被添加到图像作为扩展的第 4 通道,展 示了一种常用的与 RGB 图像融合的方法。 2.2.2 特征融合 特征融合,指输出数据将作为模型的特征向 量或特征图 (后续统称特征图) 的融合操作。具 体地,特征融合通常指模型输入在模型计算过程 中的特征图之间的融合操作,且融合的结果继续 作为当前模型的特征图参与计算[25-26] ,但在某些 模型中,原始数据经过预处理后也可能与特征图 进行特征融合[56-57]。DeepAI 在 2019 年的论文中 提及了一种鲁棒性的融合方法,其中点云和图像 分别由单独的 SSD 分支处理,其特征图进行交叉 融合,同样的方法在另一篇车道线检测的论文中 同样出现[71]。Liang 等 [56] 提出了一种复杂的融合 模型,其设计的 dense fusion 模块将 4 个分支的数 据进行融合,再作为点云和图像两个处理网络的 特征图继续处理,展现了特征层次的融合方法对 数据来源的兼容性。UC Berkley 的研究者展现了 一种新颖的特征融合方法[59] ,通过设计一个稀疏 矩阵来实现图像到图像的鸟瞰图、点云鸟瞰图到 点云前视图的转化,并通过向量的连接来融合两 种模态的特征。两种典型的融合方法在文献 [30] 中被展现:采用叠加点云到图像的扩展通道的方 法来实现数据融合,通过连接特征图的方法来实 现特征融合。 2.2.3 结果融合 结果融合,指输出数据作为模型的最终目标 第 4 期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·763·
·764· 智能系统学报 第15卷 输出,或者输入数据本身是目标输出且融合的结 征融合是最常见的融合方法之一,研究者认为这 果用于结果修正的融合操作。按定义,结果融合 可能是因为特征融合可以有效地利用不同模态的 主要包括并行的模型分支的计算结果的融合操 深层语义信息。文献[29-30,49,63-67中对不同 作,以及串行模型中,后续子模型在已有结果上 位置的融合进行了测试,实验结果表明,较为靠 进行的针对同一目标输出的优化计算。在文 后的特征融合更有利于挖掘信息,提升模型性 献[69]中,模型将基于点云和基于图像两个分支 能,然而过于靠后的融合只能提取高层语义信 的提取的区域建议(region proposal)进行融合,从 息,反而降低了融合对模型性能的提升。现有的 而得到所有的候选检测框,由于目标检测模型的 模型更多地考虑了多层次、多步、带有自适应权 候选框由区域建议回归得到,因此可以视为针对 重的融合方式,如文献[10]和[60]中均考虑了自 候选框的结果融合。类似的融合在文献[29]中也 适应权重,研究者基于LSTM设计了门控单元, 有体现。文献[48]可以视为一项只包含结果融合 通过计算不同模态对融合模型的贡献来分配权 的研究。其所提及的融合模型对3个模型分支的 重,从而使得模型可以自适应地选择最有力的数 边界框融合,虽然此后仍有特征提取的操作,但 据模态。Freiburg大学的研究者o简单地融合了 由于融合后的计算仅针对边界框(网络输入)的 基于深度图和RGB图像训练的模型,实验表明, 提升,因此将后续对边界框处理的整个子网络视 带有权重的融合能够有效地反馈各模态数据在融 为结果融合模块。类似的设计见于文献[68],所 合模型中的实际贡献。然而,现有的实验场景仍 提出的模型同样专注于对已有的检测框融合、调 然过于简单,当应用场景发生明显、复杂的变化 整,这部分的融合操作仅限于对已有结果的提 时,如何设计一个鲁棒的自适应融合权重计算模 升,因此属于结果融合。除此之外,结果融合还 型,依然是一个开放问题。 广泛地被应用于文献[51,62-66]中。 2.3 数据融合的计算方法 2.2.4辅助估计 在目标检测的融合方法中,出现过多种多样 辅助估计,指基于某些模态的数据,对另一模 的融合计算方法,主要可以归为连接法、合并法、 型的数据进行估计,以使其获得更佳的表示。不 相加法、子网络法和辅助估计法5种。与文献[4] 同于上述3种融合方式,辅助估计没有减少数据 不同的是,本文的分类方法添加了子网络法,并 的模态,且辅助估计模块的存在与否不影响融合 提供了专家混合法(mixture of experts)的几种可 模型的完整性xs86s。从表3可见,辅助估计并 能形式。 非常用的融合方法,因为其要求融合的数据模态 2.3.1连接法 之间同时具有较强的相关性与较多的信息互补关 作为最直接的融合方法之一,连接法直接将 系,相关性弱的数据之间难以计算先验估计,信 不同模态的数据或其特征图相连接,特征的增加 息互补较少的数据之间难以获得数据质量的明显 直接体现在数据或特征图的维数增加上30,s7,67 提升。在自动驾驶的感知方面,较为常见的是激 常见的连接方式有两种:1)第二模态的特征图 光雷达和RGB图像之间的辅助估计28,s61,如 (数据)拼接到第一模态的特征图(数据)上,特征 KITTI的depth completion任务,它要求基于图 图的层数不变,但每层的尺寸变大,这种方法又 像和稀疏点云估计得到稠密点云。文献[56]中 称concatenate;2)将第2模态的特征图(数据)作 的Depth Completion模块,其网络基于由稀疏点 为第一模态的特征图(数据)的扩展通道,融合后 云深度图和图像拼接得到的4通道扩展图像,估 的特征图通道变多,每个通道的尺寸不变。前一 计出稠密的点云深度图,从而为后续的检测提供 种融合方式多见于特征融合阶段,第2种融合方 更佳丰富的空间深度信息。BMW的研究者关 式多见于数据融合阶段,但为了将第2种融合方 注了多模态数据融合的另一个问题:传感器或数 式用于特征融合,可以在融合后使用1×1卷积来 据的配准。它们将点云强度图投影到图像平面进 调整通道数。第2种方法可以理解为extended 行校准,估计出了从点云到图像平面的投影矩 channel。PointFusion模型将点云和RGB图像 阵。最新的研究中也涉及了辅助估计,模型通 分别提取的特征图使用concatenate连接,文献[5l] 过雷达点云的深度信息来学习图像中物体的缩放 同样也使用了concatenate,而文献[49,53]则采用 与距离的关系,从而为图像上的目标检测选择合 了扩展通道的形式。 适的候选框。 2.3.2合并法 表3总结了近年来自动驾驶场景下基于多模 合并法适用于多个同类候选元素,如多个分 态数据融合的深度目标检测方法,不难发现,特 支的同类目标输出的融合和候选框的融合2,s
输出,或者输入数据本身是目标输出且融合的结 果用于结果修正的融合操作。按定义,结果融合 主要包括并行的模型分支的计算结果的融合操 作,以及串行模型中,后续子模型在已有结果上 进行的针对同一目标输出的优化计算[56]。在文 献 [69] 中,模型将基于点云和基于图像两个分支 的提取的区域建议 (region proposal) 进行融合,从 而得到所有的候选检测框,由于目标检测模型的 候选框由区域建议回归得到,因此可以视为针对 候选框的结果融合。类似的融合在文献 [29] 中也 有体现。文献 [48] 可以视为一项只包含结果融合 的研究。其所提及的融合模型对 3 个模型分支的 边界框融合,虽然此后仍有特征提取的操作,但 由于融合后的计算仅针对边界框 (网络输入) 的 提升,因此将后续对边界框处理的整个子网络视 为结果融合模块。类似的设计见于文献 [68],所 提出的模型同样专注于对已有的检测框融合、调 整,这部分的融合操作仅限于对已有结果的提 升,因此属于结果融合。除此之外,结果融合还 广泛地被应用于文献 [51, 62-66] 中。 2.2.4 辅助估计 辅助估计,指基于某些模态的数据,对另一模 型的数据进行估计,以使其获得更佳的表示。不 同于上述 3 种融合方式,辅助估计没有减少数据 的模态,且辅助估计模块的存在与否不影响融合 模型的完整性[28, 53, 56, 58]。从表 3 可见,辅助估计并 非常用的融合方法,因为其要求融合的数据模态 之间同时具有较强的相关性与较多的信息互补关 系,相关性弱的数据之间难以计算先验估计,信 息互补较少的数据之间难以获得数据质量的明显 提升。在自动驾驶的感知方面,较为常见的是激 光雷达和 RGB 图像之间的辅助估计[ 2 8 , 5 6 ] ,如 KITTI 的 depth completion 任务[19] ,它要求基于图 像和稀疏点云估计得到稠密点云。文献 [56] 中 的 Depth Completion 模块,其网络基于由稀疏点 云深度图和图像拼接得到的 4 通道扩展图像,估 计出稠密的点云深度图,从而为后续的检测提供 更佳丰富的空间深度信息。BMW 的研究者[28] 关 注了多模态数据融合的另一个问题:传感器或数 据的配准。它们将点云强度图投影到图像平面进 行校准,估计出了从点云到图像平面的投影矩 阵。最新的研究[53] 中也涉及了辅助估计,模型通 过雷达点云的深度信息来学习图像中物体的缩放 与距离的关系,从而为图像上的目标检测选择合 适的候选框。 表 3 总结了近年来自动驾驶场景下基于多模 态数据融合的深度目标检测方法,不难发现,特 征融合是最常见的融合方法之一,研究者认为这 可能是因为特征融合可以有效地利用不同模态的 深层语义信息。文献 [29-30, 49, 63-67] 中对不同 位置的融合进行了测试,实验结果表明,较为靠 后的特征融合更有利于挖掘信息,提升模型性 能,然而过于靠后的融合只能提取高层语义信 息,反而降低了融合对模型性能的提升。现有的 模型更多地考虑了多层次、多步、带有自适应权 重的融合方式,如文献 [10] 和 [60] 中均考虑了自 适应权重,研究者基于 LSTM[72] 设计了门控单元, 通过计算不同模态对融合模型的贡献来分配权 重,从而使得模型可以自适应地选择最有力的数 据模态。Freiburg 大学的研究者[10] 简单地融合了 基于深度图和 RGB 图像训练的模型,实验表明, 带有权重的融合能够有效地反馈各模态数据在融 合模型中的实际贡献。然而,现有的实验场景仍 然过于简单,当应用场景发生明显、复杂的变化 时,如何设计一个鲁棒的自适应融合权重计算模 型,依然是一个开放问题。 2.3 数据融合的计算方法 在目标检测的融合方法中,出现过多种多样 的融合计算方法,主要可以归为连接法、合并法、 相加法、子网络法和辅助估计法 5 种。与文献 [4] 不同的是,本文的分类方法添加了子网络法,并 提供了专家混合法 (mixture of experts) 的几种可 能形式。 2.3.1 连接法 1×1 作为最直接的融合方法之一,连接法直接将 不同模态的数据或其特征图相连接,特征的增加 直接体现在数据或特征图的维数增加上[30, 57, 67]。 常见的连接方式有两种:1)第二模态的特征图 (数据) 拼接到第一模态的特征图 (数据) 上,特征 图的层数不变,但每层的尺寸变大,这种方法又 称 concatenate;2)将第 2 模态的特征图 (数据) 作 为第一模态的特征图 (数据) 的扩展通道,融合后 的特征图通道变多,每个通道的尺寸不变。前一 种融合方式多见于特征融合阶段,第 2 种融合方 式多见于数据融合阶段,但为了将第 2 种融合方 式用于特征融合,可以在融合后使用 卷积来 调整通道数。第 2 种方法可以理解为 extended channel。PointFusion 模型[64] 将点云和 RGB 图像 分别提取的特征图使用 concatenate 连接,文献 [51] 同样也使用了 concatenate,而文献 [49, 53] 则采用 了扩展通道的形式。 2.3.2 合并法 合并法适用于多个同类候选元素,如多个分 支的同类目标输出的融合和候选框的融合[25, 51]。 ·764· 智 能 系 统 学 报 第 15 卷
第4期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·765· 文献[5)对模型分支输出的边界框和分类结果采 合输出和高层特征的方法十分相似,文献51,6,6例 用了加权求和的形式,文献[25]采用了长短两个 中将多个分支的结果用NN融合后作为特征继 焦距的相机,因此具有两个视野的图像,其中长 续计算,而文献[23]则融合了多个分支的特征图 焦距相机的图像是短焦距相机图像的子集,同时 作为特征继续计算,两者在结构上的相似性与它 也具有更高的分辨率。因此模型将长焦相机图像 们性能的表现之间的关系还有待探究。 中的边界框叠加到短焦相机图像的对应位置上, 2.3.5专家混合法 以在保持视野的同时提高模型对远处小目标的检 不同于上述可以泛化的方法,对于特定组合 测性能。 的多模态数据,需要使用特定的融合方法。文 2.3.3相加法 献[54]为了融合RGB图像、激光雷达点云和雷 相加法通常应用于特征图的融合6@,6@1和感兴 达点云,提出了一种基于运动模型的目标跟踪算 趣区域(region of interest,,RO)的处理,后者包括 法,以针对性将3种模态中的信息充分用于目标 ROI的合并)以及ROI叠加到特征图上作为检 检测和追踪。文献[65]采用了三阶段的目标检 测的约束条件66。有些模型考虑通过特征图的加 测方法,首先在分段点云中生成检测种子,再根 权求和来融合特征6,对于ROI区域,既可以当 据种子计算锚点(anchor),最终生成并调整检测 作普通的特征图来直接合并,也可以作为模型的 框。一种常见的任务是对稠密点云的估计,文 多层次约束。如文献[66]提出的方法,不断根据 献[56,63]中均对点云的深度图进行了补全估 点云滤波减少搜索范围,将点云投影到图像上, 计,以获得更稠密的空间信息。值得注意的是, 并在点云范围内进行检测和分类。 专家融合法多见于非常用模态数据和先验信息 2.3.4子网络法 的融合,比如高精地图52,、地图语义信息6和 为了提升结果融合的效果,部分模型采用子 专家先验信息,其中地图语义信息和专家先验 网络来提取已有的目标输出的结果的特征,从而 信息的融合在深度学习模型中较为少见,对其的 生成更精细的检测结果,这里的网络又称为网中 研究还有待开拓。 网(network in network,NiN)。文献[68]中设计了 3数据融合的合理性分析 一个结果融合网络,对两个单独分支的检测框和 分类结果分别进行了融合;类似地,文献[48]对 尽管上述的数据融合模型都在实验中获得了 3个分支输出的结果重新提取特征,经过多层感 良好的表现,很少有人去探究其中的原理,现有 知机(MLP)和非极大抑制算法(NMS)后回归得 的融合模型中也很少有控制融合模型变量的对比 到新的边界框和分类结果。此外,使用NN来融 实验,表4中展示了近年论文中的分析实验。 表4数据融合的合理性分析 Table 4 Analysis of the rationality of data fusion 文献 传感器 合理性分析 方法 [51] RGB相机、热成像相机 融合方法分析 比较不同层次融合对性能的提升 [63] 激光雷达、RGB相机 融合方法分析 比较不同层次融合对性能的提升 [67刀 深度相机 融合方法分析 比较不同层次融合对性能的提升 [49] 激光雷达、RGB相机 融合方法分析 比较不同层次融合对性能的提升 [29咧 RGB相机、热成像相机 融合方法分析 比较不同层次融合对性能的提升 [30] RGB相机、热成像相机 融合方法分析 比较不同层次融合对性能的提升 [25] 雷达、长焦相机、短焦相机 融合方法分析、数据沉余性分析 对比融合方法、融合与否的模型性能 [56 激光雷达、RGB相机 融合方法分析、数据冗余性分析 比较不同层次和模态融合对性能的提升 [26 激光雷达、RGB相机 模型鲁棒性分析 使用随机模态丢失来提升模型鲁棒性 [52] 激光雷达、高精地图 模型鲁棒性分析 使用随机模态丢失来提升模型鲁棒性 [60] 激光雷达、RGB相机 模型鲁棒性分析 对多模态数据加噪声来验证模型的鲁棒性 [10] 深度相机、专家先验信息 模型鲁棒性分析 在连续变化的场景中测试融合的鲁棒性
文献 [51] 对模型分支输出的边界框和分类结果采 用了加权求和的形式,文献 [25] 采用了长短两个 焦距的相机,因此具有两个视野的图像,其中长 焦距相机的图像是短焦距相机图像的子集,同时 也具有更高的分辨率。因此模型将长焦相机图像 中的边界框叠加到短焦相机图像的对应位置上, 以在保持视野的同时提高模型对远处小目标的检 测性能。 2.3.3 相加法 相加法通常应用于特征图的融合[60, 62] 和感兴 趣区域 (region of interest,ROI) 的处理,后者包括 ROI 的合并[23] 以及 ROI 叠加到特征图上作为检 测的约束条件[66]。有些模型考虑通过特征图的加 权求和来融合特征[60] ,对于 ROI 区域,既可以当 作普通的特征图来直接合并,也可以作为模型的 多层次约束。如文献 [66] 提出的方法,不断根据 点云滤波减少搜索范围,将点云投影到图像上, 并在点云范围内进行检测和分类。 2.3.4 子网络法 为了提升结果融合的效果,部分模型采用子 网络来提取已有的目标输出的结果的特征,从而 生成更精细的检测结果,这里的网络又称为网中 网 (network in network,NiN)。文献 [68] 中设计了 一个结果融合网络,对两个单独分支的检测框和 分类结果分别进行了融合;类似地,文献 [48] 对 3 个分支输出的结果重新提取特征,经过多层感 知机 (MLP) 和非极大抑制算法 (NMS) 后回归得 到新的边界框和分类结果。此外,使用 NiN 来融 合输出和高层特征的方法十分相似,文献[51, 56, 65] 中将多个分支的结果用 NiN 融合后作为特征继 续计算,而文献 [23] 则融合了多个分支的特征图 作为特征继续计算,两者在结构上的相似性与它 们性能的表现之间的关系还有待探究。 2.3.5 专家混合法 不同于上述可以泛化的方法,对于特定组合 的多模态数据,需要使用特定的融合方法。文 献 [54] 为了融合 RGB 图像、激光雷达点云和雷 达点云,提出了一种基于运动模型的目标跟踪算 法,以针对性将 3 种模态中的信息充分用于目标 检测和追踪。文献 [65] 采用了三阶段的目标检 测方法,首先在分段点云中生成检测种子,再根 据种子计算锚点 (anchor),最终生成并调整检测 框。一种常见的任务是对稠密点云的估计,文 献 [56, 63] 中均对点云的深度图进行了补全估 计,以获得更稠密的空间信息。值得注意的是, 专家融合法多见于非常用模态数据和先验信息 的融合,比如高精地图[52, 75] 、地图语义信息[61] 和 专家先验信息[10] ,其中地图语义信息和专家先验 信息的融合在深度学习模型中较为少见,对其的 研究还有待开拓。 3 数据融合的合理性分析 尽管上述的数据融合模型都在实验中获得了 良好的表现,很少有人去探究其中的原理,现有 的融合模型中也很少有控制融合模型变量的对比 实验,表 4 中展示了近年论文中的分析实验。 表 4 数据融合的合理性分析 Table 4 Analysis of the rationality of data fusion 文献 传感器 合理性分析 方法 [51] RGB相机、热成像相机 融合方法分析 比较不同层次融合对性能的提升 [63] 激光雷达、RGB相机 融合方法分析 比较不同层次融合对性能的提升 [67] 深度相机 融合方法分析 比较不同层次融合对性能的提升 [49] 激光雷达、RGB相机 融合方法分析 比较不同层次融合对性能的提升 [29] RGB相机、热成像相机 融合方法分析 比较不同层次融合对性能的提升 [30] RGB相机、热成像相机 融合方法分析 比较不同层次融合对性能的提升 [25] 雷达、长焦相机、短焦相机 融合方法分析、数据冗余性分析 对比融合方法、融合与否的模型性能 [56] 激光雷达、RGB相机 融合方法分析、数据冗余性分析 比较不同层次和模态融合对性能的提升 [26] 激光雷达、RGB相`机 模型鲁棒性分析 使用随机模态丢失来提升模型鲁棒性 [52] 激光雷达、高精地图 模型鲁棒性分析 使用随机模态丢失来提升模型鲁棒性 [60] 激光雷达、RGB相机 模型鲁棒性分析 对多模态数据加噪声来验证模型的鲁棒性 [10] 深度相机、专家先验信息 模型鲁棒性分析 在连续变化的场景中测试融合的鲁棒性 第 4 期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·765·
·766· 智能系统学报 第15卷 文献[4)中提及,目前仍缺乏足够的关于数据 作状态并通过数据融合获得了一个鲁棒的模型。 融合的冗余性的分析。不仅仅是冗余性分析,关 关于自适应模型,文献「10们和文献「60们中均考虑 于融合模型的鲁棒性的分析也很少。但现有的研 了自适应权重,从而使得模型可以自适应地选择 究中较多地涉及了融合方法的研究,包括对融合 最有力的数据模态。 层次和融合操作方法的对比实验,为后续的研究 33数据冗余性分析 提供了一定的实证支持。本文将融合方法的分 尽管不断有新的融合模型被提出,但却很少 析、模型的鲁棒性分析和数据冗余性分析并称为 有研究定量或定性地分析,不同模态的数据融合 数据融合模型的合理性分析。如表4所示,本文 对模型性能的可能提升程度。为此存在两个问 综述了自动驾驶场景下目标检测模型中的数据融 题:1)两个不同模态的数据融合造成的信息增 合方法的合理性研究进展,后续的研究将能在此 益;2)不同模态数据的融合对模型不确定性的减 基础上开展。3个方面的分析如下: 少的影响有多大。根据目前的了解,只有文献[56 3.1融合方法分析 量化比较了不同模态数据对于融合效果的贡献 如上文所述,目标检测中包含了多样的可能 (激光雷达点云和图像、建图模块mapping、深度 的融合方法,不仅体现在融合层次的多样性上, 图、修正模块refine的融合)。此外,而文献[25] 而且也体现在融合的具体计算方法的多样性上。 中对融合信息(雷达点云)对模型影响的探究也 通常的做法是根据控制变量原则,分别在模型的 体现了数据的冗余性分析。现有的实验结果表 不同阶段进行融合并比较结果做6,列,而文献25) 明,在大部分任务上,数据融合对模型的性能有 则比较了融合与否(RGB图像是否融合雷达点 提升,但不是所有任务都有提升,并且融合模型 云)以及融合方式(连接法或相加法)对模型的影 的效率也需要加入考虑。 响。现有的实验结果表明,中间融合(对应本文 3.4融合实践的挑战与策略 所述特征融合)得到了最佳结果,并且较晚的融 3.4.1挑战 合比较早的融合和过于晚的融合更佳,而对于最 尽管不断有基于数据融合的自动驾驶的目标 佳融合阶段,目前还没有研究给出相关估计。而 检测模型出现,然而目前依然缺乏对此的系统的 对于融合的操作方法,尽管文献[4]给出了一个 描述和深入的探究。一方面,缺乏针对目标检测 全面的综述,但目前还没有量化的比较。 中的数据融合方法的理论研究;另一方面,目前 3.2模型鲁棒性分析 使用的融合方法仍显得过于简单。从融合的合 融合模型可以有效地结合多种模态数据的优 理性分析,即使只考虑现有的方法也存在很多工 点,挖掘场景更深层次的语义信息。然而在实际 作有待完成,不仅缺乏不同方法之间的对比实 应用中,可能遇到极端的场景和数据,或者遇上 验,而且融合模型的可解释性也是一个重要问 传感器异常的情况,两种情形都将导致模型缺乏 题。本文建议从模型的鲁棒性和数据冗余性两个 部分模态的数据或被输入部分模态的异常数据。 角度来考虑融合的可解释性。 与单一模态的模型不同,由于具有多个模态数据 根据现有的论文方法,在融合方面主要的挑 的输入,多模态模型可能在部分模态数据失效的 战包括但不限于:可解释的融合计算、对最佳融 同时持续运行而不被察觉,但模型的性能已经受 合阶段的估计、对融合数据的异常检测、自适应 到影响:另一种情况则与之相反,研究人员希望 的融合机制、跨模态数据融合的信息增益估计以 多模态模型可以在部分模态失效的时候,融合模 及数据融合对模型不确定性变化程度的估计。当 型可以尽可能地减少部分模态损失导致的模型性 前已经出现了一些验证实验和对比实验,但还需 能的下降26,60。综上所述,模型的鲁棒性应体现 要更深层次的研究。 在两个方面:对异常数据的检测;自适应调节0。 3.4.2策略 相对于自适应模型,融合模型中对异常数据的检 尽管现有的模型可能会在融合计算上偏向某 测还不多,且现有的模型鲁棒性的研究主要在实 一方法,但目前仍然没有定量的分析或者推导来 验验证阶段:文献[52]采用随机模态丢失的方法 证明某一方法的优越性。然而,在表4所记录的 来训练模型,一方面可以提升模型的鲁棒性,另 论文中,对融合层次比较的实验结果基本支持中 一方面验证了多模态模型在模态缺失的情形下依 间融合优于前融合和后融合这一观点,对应到本 旧可以具有一定的准确率。类似地,文献[26]采 文的分类方法中则为特征融合优于数据融合和结 用了同样的方法,模拟了雪雾天气下传感器的工 果融合。然而,按传统的前中后阶段划分对于集
文献 [4] 中提及,目前仍缺乏足够的关于数据 融合的冗余性的分析。不仅仅是冗余性分析,关 于融合模型的鲁棒性的分析也很少。但现有的研 究中较多地涉及了融合方法的研究,包括对融合 层次和融合操作方法的对比实验,为后续的研究 提供了一定的实证支持。本文将融合方法的分 析、模型的鲁棒性分析和数据冗余性分析并称为 数据融合模型的合理性分析。如表 4 所示,本文 综述了自动驾驶场景下目标检测模型中的数据融 合方法的合理性研究进展,后续的研究将能在此 基础上开展。3 个方面的分析如下: 3.1 融合方法分析 如上文所述,目标检测中包含了多样的可能 的融合方法,不仅体现在融合层次的多样性上, 而且也体现在融合的具体计算方法的多样性上。 通常的做法是根据控制变量原则,分别在模型的 不同阶段进行融合并比较结果[29, 63, 67, 73] ,而文献 [25] 则比较了融合与否 (RGB 图像是否融合雷达点 云) 以及融合方式 (连接法或相加法) 对模型的影 响。现有的实验结果表明,中间融合 (对应本文 所述特征融合) 得到了最佳结果,并且较晚的融 合比较早的融合和过于晚的融合更佳,而对于最 佳融合阶段,目前还没有研究给出相关估计。而 对于融合的操作方法,尽管文献 [4] 给出了一个 全面的综述,但目前还没有量化的比较。 3.2 模型鲁棒性分析 融合模型可以有效地结合多种模态数据的优 点,挖掘场景更深层次的语义信息。然而在实际 应用中,可能遇到极端的场景和数据,或者遇上 传感器异常的情况,两种情形都将导致模型缺乏 部分模态的数据或被输入部分模态的异常数据。 与单一模态的模型不同,由于具有多个模态数据 的输入,多模态模型可能在部分模态数据失效的 同时持续运行而不被察觉,但模型的性能已经受 到影响;另一种情况则与之相反,研究人员希望 多模态模型可以在部分模态失效的时候,融合模 型可以尽可能地减少部分模态损失导致的模型性 能的下降[26, 60]。综上所述,模型的鲁棒性应体现 在两个方面:对异常数据的检测;自适应调节[10]。 相对于自适应模型,融合模型中对异常数据的检 测还不多,且现有的模型鲁棒性的研究主要在实 验验证阶段:文献 [52] 采用随机模态丢失的方法 来训练模型,一方面可以提升模型的鲁棒性,另 一方面验证了多模态模型在模态缺失的情形下依 旧可以具有一定的准确率。类似地,文献 [26] 采 用了同样的方法,模拟了雪雾天气下传感器的工 作状态并通过数据融合获得了一个鲁棒的模型。 关于自适应模型,文献 [10] 和文献 [60] 中均考虑 了自适应权重,从而使得模型可以自适应地选择 最有力的数据模态。 3.3 数据冗余性分析 尽管不断有新的融合模型被提出,但却很少 有研究定量或定性地分析,不同模态的数据融合 对模型性能的可能提升程度。为此存在两个问 题 :1)两个不同模态的数据融合造成的信息增 益;2)不同模态数据的融合对模型不确定性的减 少的影响有多大。根据目前的了解,只有文献 [56] 量化比较了不同模态数据对于融合效果的贡献 (激光雷达点云和图像、建图模块 mapping、深度 图、修正模块 refine 的融合)。此外,而文献 [25] 中对融合信息 (雷达点云) 对模型影响的探究也 体现了数据的冗余性分析。现有的实验结果表 明,在大部分任务上,数据融合对模型的性能有 提升,但不是所有任务都有提升[25] ,并且融合模型 的效率也需要加入考虑。 3.4 融合实践的挑战与策略 3.4.1 挑战 尽管不断有基于数据融合的自动驾驶的目标 检测模型出现,然而目前依然缺乏对此的系统的 描述和深入的探究。一方面,缺乏针对目标检测 中的数据融合方法的理论研究;另一方面,目前 使用的融合方法仍显得过于简单[4]。从融合的合 理性分析,即使只考虑现有的方法也存在很多工 作有待完成,不仅缺乏不同方法之间的对比实 验,而且融合模型的可解释性也是一个重要问 题。本文建议从模型的鲁棒性和数据冗余性两个 角度来考虑融合的可解释性。 根据现有的论文方法,在融合方面主要的挑 战包括但不限于:可解释的融合计算、对最佳融 合阶段的估计、对融合数据的异常检测、自适应 的融合机制、跨模态数据融合的信息增益估计以 及数据融合对模型不确定性变化程度的估计。当 前已经出现了一些验证实验和对比实验,但还需 要更深层次的研究。 3.4.2 策略 尽管现有的模型可能会在融合计算上偏向某 一方法,但目前仍然没有定量的分析或者推导来 证明某一方法的优越性。然而,在表 4 所记录的 论文中,对融合层次比较的实验结果基本支持中 间融合优于前融合和后融合这一观点,对应到本 文的分类方法中则为特征融合优于数据融合和结 果融合。然而,按传统的前中后阶段划分对于集 ·766· 智 能 系 统 学 报 第 15 卷
第4期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·767· 成模型中的融合方法区分度不够高,因此简单地 进一步地,考虑仿生的角度,认知信息加工理 进行“中间融合”并不能很好地指导模型的设计。 论把人脑活动理解成一个信息加工系统,外界刺 相反地,应当考虑融合的对象对于原始数据语义 激导致多种感受器产生瞬时记忆,随后转换为工 表征的深浅程度。 作记忆,并结合长时记忆进行对外界信息的理解 近年来,出现了在一定程度上超越“特定阶段 判断。针对基于多源传感器的车辆环境感知系统 的融合”的融合模式,例如自适应阶段的融合、同 基础,本文相应地提出一种面向自动驾驶的多模 模态数据的融合等。在文献[71]中通过在神经网 态认知融合框架的建议:通过特异性处理、多阶 络的多层对不同模态数据的处理分支进行耦合, 段多层次的融合等方式,提高道路场景下目标检 让神经网络学习融合参数,进而达到学习最优融 测、语义分割等任务的准确率和鲁棒性:提升目 合位置的目的。然而,由于会显著增加计算量, 标跟踪的精度,进而增强车辆环境感知系统的准 因此在深层网络中应当预先筛选融合的可能位 确性和可靠性,为自动驾驶车辆迈向现实提供有 置,缩小搜索范围。特别地,由于多模态数据的 力的理论依据和技术支持。 特征表示可能不同,现有方法通常考虑独立的前 图3给出了一种面向自动驾驶的多模态认知 处理流程,并采取中间融合(特征融合)为主的策 融合框架。考虑到多模态数据的特征空间不一 略。然而文献[74中给出了新的思路,其采用图 致,对多模态数据进行针对性的特征提取,然后 像序列数据结合LSTM网络结构进行车道线检 在多模态整合模块中融合多通道特征;融合过程 测,挖掘了同一模态数据的潜在关联。同时,将 将结合来自连续帧的先验知识,能够增强整个系 非时序数据组合为时序数据,则可以和时序数 统对环境的认知能力,大幅提高目标检测、语义 据,例如音频,建立时序上的联系。除了独立的 分割、目标跟踪等算法在曝光异常、雨雾天气等 预处理分支外,多模态数据可以依据各自的特点 异常场景下的准确率和鲁棒性。 重组数据形式,以实现更有效的融合。 多通道呈现 瞬时记忆 工作记忆 特征 点云 激光 点云 多模态整合 提取 特征 日标检测 激光点 视觉 云特征 语义分割 视觉 特征 图像 特征 图像 提取 特征 特征 融合 目标跟踪 毫米 特征 点云 毫米波点云特征 波 点云 提取■ 特征 长时记忆 先验知识 图3多模态认知融合框架 Fig.3 Multimodal cognitive fusion framework 此外,根据最近的研究趋势,针对多任务学习 4结束语 的集成模型取得较好的效果,6,6创,这表明不同 数据融合是自动驾驶的感知任务的重要趋 任务所挖掘的数据信息在一定程度上适用于其他 势,为此本文提供了对自动驾驶场景下目标检测 任务。然而两个问题可能成为集成模型设计的限 中的多模态数据融合方法的综述。本文介绍了目 制,一是自动驾驶对模型复杂度和实时性的要 标检测和数据融合的背景,并按融合层次、融合 求,使得模型不应当过于复杂;二是模型鲁棒性 计算方法两个方面总结了当前的研究。我们认 的限制,根据上述融合的合理性分析,复杂的模 为,传统的“前中后”的划分方法对集成模型中的 型需要考虑部分模态数据异常的情形,因此复杂 融合方法区分度不足,为此本文采用了新的层次 的模型需要保证更高的鲁棒性。 定义方法并给出了明确的定义,从而能够帮助研
成模型中的融合方法区分度不够高,因此简单地 进行“中间融合”并不能很好地指导模型的设计。 相反地,应当考虑融合的对象对于原始数据语义 表征的深浅程度。 近年来,出现了在一定程度上超越“特定阶段 的融合”的融合模式,例如自适应阶段的融合、同 模态数据的融合等。在文献 [71] 中通过在神经网 络的多层对不同模态数据的处理分支进行耦合, 让神经网络学习融合参数,进而达到学习最优融 合位置的目的。然而,由于会显著增加计算量, 因此在深层网络中应当预先筛选融合的可能位 置,缩小搜索范围。特别地,由于多模态数据的 特征表示可能不同,现有方法通常考虑独立的前 处理流程,并采取中间融合 (特征融合) 为主的策 略。然而文献 [74] 中给出了新的思路,其采用图 像序列数据结合 LSTM 网络结构进行车道线检 测,挖掘了同一模态数据的潜在关联。同时,将 非时序数据组合为时序数据,则可以和时序数 据,例如音频,建立时序上的联系。除了独立的 预处理分支外,多模态数据可以依据各自的特点 重组数据形式,以实现更有效的融合。 进一步地,考虑仿生的角度,认知信息加工理 论把人脑活动理解成一个信息加工系统,外界刺 激导致多种感受器产生瞬时记忆,随后转换为工 作记忆,并结合长时记忆进行对外界信息的理解 判断。针对基于多源传感器的车辆环境感知系统 基础,本文相应地提出一种面向自动驾驶的多模 态认知融合框架的建议:通过特异性处理、多阶 段多层次的融合等方式,提高道路场景下目标检 测、语义分割等任务的准确率和鲁棒性;提升目 标跟踪的精度,进而增强车辆环境感知系统的准 确性和可靠性,为自动驾驶车辆迈向现实提供有 力的理论依据和技术支持。 图 3 给出了一种面向自动驾驶的多模态认知 融合框架。考虑到多模态数据的特征空间不一 致,对多模态数据进行针对性的特征提取,然后 在多模态整合模块中融合多通道特征;融合过程 将结合来自连续帧的先验知识,能够增强整个系 统对环境的认知能力,大幅提高目标检测、语义 分割、目标跟踪等算法在曝光异常、雨雾天气等 异常场景下的准确率和鲁棒性。 多通道呈现 激光 点云 点云 特征 特征 提取 毫米 波 点云 点云 特征 长时记忆 先验知识 特征 毫米波点云特征 提取 视觉 图像 图像 特征 视觉 特征 激光点 云特征 多模态整合 目标检测 语义分割 目标跟踪 特征 融合 特征 提取 瞬时记忆 工作记忆 . . . . . . . . . . . . 图 3 多模态认知融合框架 Fig. 3 Multimodal cognitive fusion framework 此外,根据最近的研究趋势,针对多任务学习 的集成模型取得较好的效果[23, 56, 62] ,这表明不同 任务所挖掘的数据信息在一定程度上适用于其他 任务。然而两个问题可能成为集成模型设计的限 制,一是自动驾驶对模型复杂度和实时性的要 求,使得模型不应当过于复杂;二是模型鲁棒性 的限制,根据上述融合的合理性分析,复杂的模 型需要考虑部分模态数据异常的情形,因此复杂 的模型需要保证更高的鲁棒性。 4 结束语 数据融合是自动驾驶的感知任务的重要趋 势,为此本文提供了对自动驾驶场景下目标检测 中的多模态数据融合方法的综述。本文介绍了目 标检测和数据融合的背景,并按融合层次、融合 计算方法两个方面总结了当前的研究。我们认 为,传统的“前中后”的划分方法对集成模型中的 融合方法区分度不足,为此本文采用了新的层次 定义方法并给出了明确的定义,从而能够帮助研 第 4 期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·767·