正在加载图片...
第4期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·761· 的SSD和2017年的Retina-Net也受到了广泛 信息等,根据多重语义信息可以更有效地在点 的研究和使用。此后,仍然不断有各种模型在基 云上进行视觉计算。 准数据集上取得突破,然而这些模型依然遵循了 2.1.3基于RGB-D图像和多光谱图像 单步或两步模型的经典设计。 深度相机,又称RGB-D相机,在RGB图像的 2.1.2基于激光雷达点云 对应像素上提供了深度信息,从而让所提供的 激光雷达由于其主动感知的特性,以及相对 RGB-D图像在一定程度上结合了RGB图像和激 雷达提供了更密集的点云,因此在自动驾驶的传 光雷达的优点。且由于RGB-D所提供的点云和 感器中受到较多的应用4461。图1中给出了 图像自然配准,因此在计算上较单独的激光雷达 KITTI数据集中RGB图像和激光雷达点云的示 点云和RGB图像更加方便。近年来研究者探索 例,其中点云反射强度图被投影到相机成像平 了RGB-D图像的信息挖掘方法,主要是将RGB- 面,且所显示的均为灰度图。激光雷达不仅可以 D图像中的两种信息分拆处理,包括对图像和点 提供较大的感知范围,扫描半径可达50~70m,甚 云投影得到的深度图像的联合处理,、对图像和 至更远,而且激光雷达可以提供环境的深度信息 点云的联合处理0。与深度图像类似的是多光谱 和反射率,且不受环境光照的影响。激光雷达数 图像。多光谱图像可以由多光谱相机或航空相机 据为三维点云格式,因此点云的坐标自然地提供 获得,也可以通过RGB相机和热成像相机(红外 了物体相对激光雷达的三维空间坐标,可以用于 光相机)配准后获得。多光谱图像,特别是基于 三维空间的目标检测;点云的反射强度值反映了 物体表面温度的热成像,可以避免环境可见光源 物体表面的材质,因此不同的物体可以根据反射 对成像的影响,从而可以在包括夜间的多种环境 强度被很容易地区分开。 下获得具有区分度的图像。Rutgers大学2]和 Bonn大学0的研究者分别在2016年发表了基于 多光谱成像的目标检测技术,是最早的一批利用 多光谱图像进行目标检测的研究。此后,浙江大 学的研究人员]探究了多光谱成像在全天候目 标检测下的应用前景,并获得了良好的实验效果。 2.1.4基于其他数据来源 表2中列出了常见的自动驾驶场景中的传感 图1 KITTI数据集示例例 器(或数据来源)以及对应的数据模态、数据提供 Fig.1 KITTI dataset examples 的信息和使用的目标检测任务。 对于点云上的目标检测,现有多种方法,它们 表2多种模态数据的比较 和点云的数据表现方式有关。由于点云的空间特 Table 2 Comparison of multiple modal data 性,它既可以在三维空间中执行三维检测,也可 传感器 模态 包含信息 检测目标 以投影到二维平面,利用基于图像的二维目标检 RGB相机 图像 RGB信息 2D 测模型进行计算4。具体地,投影主要包括前视 全景相机 图像 全景RGB信息 2D 图投影和鸟瞰图投影(bird's eye view,BEV),其 中前视图投影一方面可以得到较为稠密的投影图 深度相机 图像 RGB信息、深度 2D&3D 像,另一方面可以投影到车载相机的像素平面 多光谱相机 图像 多光谱图像 2D 上,从而可以和相机图像融合来执行目标检测。 激光雷达 点云 深度、反射强度 2D&3D 然而在模型中点云的BEV视图受到了更多的应 雷达 点云 深度、径向速度 2D&3D 用,主要有3个原因:1)物体在投影到BEV视图 毫米波雷达 点云 深度、径向速度 2D 时会保留物理尺寸,而其他投影视图会产生透视 高精地图 地图 地图先验信息 2D&3D 效果;2)BEV视图中的物体很少出现遮挡问题, 且在空间上分布离散;3)在道路场景中,由于对 除了上述4种常见的数据,高精地图(HD 象通常位于地面上并且垂直位置的变化很小,因 map)、雷达(radar)和毫米波雷达(millimeter wave 此鸟瞰图有利于获取准确的3D边界框。此外, radar)同样被应用于自动驾驶的目标检测中。 激光雷达还可以在投影图像上提供丰富的语义信 HDNet提供了一种融合激光雷达点云与高精地 息,比如深度信息、反射率信息1和物体高度 图的方法,且点云可以用于高精地图的构建,从的 SSD[41] 和 2017 年的 Retina-Net[43] 也受到了广泛 的研究和使用。此后,仍然不断有各种模型在基 准数据集上取得突破,然而这些模型依然遵循了 单步或两步模型的经典设计。 2.1.2 基于激光雷达点云 激光雷达由于其主动感知的特性,以及相对 雷达提供了更密集的点云,因此在自动驾驶的传 感器中受到较多的应用[ 4 4 - 4 6 ]。图 1 中给出了 KITTI 数据集中 RGB 图像和激光雷达点云的示 例,其中点云反射强度图被投影到相机成像平 面,且所显示的均为灰度图。激光雷达不仅可以 提供较大的感知范围,扫描半径可达 50~70 m,甚 至更远,而且激光雷达可以提供环境的深度信息 和反射率,且不受环境光照的影响。激光雷达数 据为三维点云格式,因此点云的坐标自然地提供 了物体相对激光雷达的三维空间坐标,可以用于 三维空间的目标检测;点云的反射强度值反映了 物体表面的材质,因此不同的物体可以根据反射 强度被很容易地区分开。 图 1 KITTI 数据集示例[19] Fig. 1 KITTI dataset examples 对于点云上的目标检测,现有多种方法,它们 和点云的数据表现方式有关。由于点云的空间特 性,它既可以在三维空间中执行三维检测[47] ,也可 以投影到二维平面,利用基于图像的二维目标检 测模型进行计算[48]。具体地,投影主要包括前视 图投影和鸟瞰图投影 (bird’s eye view,BEV),其 中前视图投影一方面可以得到较为稠密的投影图 像,另一方面可以投影到车载相机的像素平面 上,从而可以和相机图像融合来执行目标检测。 然而在模型中点云的 BEV 视图受到了更多的应 用,主要有 3 个原因:1)物体在投影到 BEV 视图 时会保留物理尺寸,而其他投影视图会产生透视 效果;2)BEV 视图中的物体很少出现遮挡问题, 且在空间上分布离散;3)在道路场景中,由于对 象通常位于地面上并且垂直位置的变化很小,因 此鸟瞰图有利于获取准确的 3D 边界框。此外, 激光雷达还可以在投影图像上提供丰富的语义信 息,比如深度信息[48] 、反射率信息[48] 和物体高度 信息[49] 等,根据多重语义信息可以更有效地在点 云上进行视觉计算。 2.1.3 基于 RGB-D 图像和多光谱图像 深度相机,又称 RGB-D 相机,在 RGB 图像的 对应像素上提供了深度信息,从而让所提供的 RGB-D 图像在一定程度上结合了 RGB 图像和激 光雷达的优点。且由于 RGB-D 所提供的点云和 图像自然配准,因此在计算上较单独的激光雷达 点云和 RGB 图像更加方便。近年来研究者探索 了 RGB-D 图像的信息挖掘方法,主要是将 RGB￾D 图像中的两种信息分拆处理,包括对图像和点 云投影得到的深度图像的联合处理[10] 、对图像和 点云的联合处理[50]。与深度图像类似的是多光谱 图像。多光谱图像可以由多光谱相机或航空相机 获得,也可以通过 RGB 相机和热成像相机 (红外 光相机) 配准后获得。多光谱图像,特别是基于 物体表面温度的热成像,可以避免环境可见光源 对成像的影响,从而可以在包括夜间的多种环境 下获得具有区分度的图像。Rutgers 大学[29] 和 Bonn 大学[30] 的研究者分别在 2016 年发表了基于 多光谱成像的目标检测技术,是最早的一批利用 多光谱图像进行目标检测的研究。此后,浙江大 学的研究人员[51] 探究了多光谱成像在全天候目 标检测下的应用前景,并获得了良好的实验效果。 2.1.4 基于其他数据来源 表 2 中列出了常见的自动驾驶场景中的传感 器 (或数据来源) 以及对应的数据模态、数据提供 的信息和使用的目标检测任务。 表 2 多种模态数据的比较 Table 2 Comparison of multiple modal data 传感器 模态 包含信息 检测目标 RGB相机 图像 RGB信息 2D 全景相机 图像 全景RGB信息 2D 深度相机 图像 RGB信息、深度 2D&3D 多光谱相机 图像 多光谱图像 2D 激光雷达 点云 深度、反射强度 2D&3D 雷达 点云 深度、径向速度 2D&3D 毫米波雷达 点云 深度、径向速度 2D 高精地图 地图 地图先验信息 2D&3D 除了上述 4 种常见的数据,高精地图 (HD map)、雷达 (radar) 和毫米波雷达 (millimeter wave radar) 同样被应用于自动驾驶的目标检测中。 HDNet[52] 提供了一种融合激光雷达点云与高精地 图的方法,且点云可以用于高精地图的构建,从 第 4 期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·761·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有