正在加载图片...
·764· 智能系统学报 第15卷 输出,或者输入数据本身是目标输出且融合的结 征融合是最常见的融合方法之一,研究者认为这 果用于结果修正的融合操作。按定义,结果融合 可能是因为特征融合可以有效地利用不同模态的 主要包括并行的模型分支的计算结果的融合操 深层语义信息。文献[29-30,49,63-67中对不同 作,以及串行模型中,后续子模型在已有结果上 位置的融合进行了测试,实验结果表明,较为靠 进行的针对同一目标输出的优化计算。在文 后的特征融合更有利于挖掘信息,提升模型性 献[69]中,模型将基于点云和基于图像两个分支 能,然而过于靠后的融合只能提取高层语义信 的提取的区域建议(region proposal)进行融合,从 息,反而降低了融合对模型性能的提升。现有的 而得到所有的候选检测框,由于目标检测模型的 模型更多地考虑了多层次、多步、带有自适应权 候选框由区域建议回归得到,因此可以视为针对 重的融合方式,如文献[10]和[60]中均考虑了自 候选框的结果融合。类似的融合在文献[29]中也 适应权重,研究者基于LSTM设计了门控单元, 有体现。文献[48]可以视为一项只包含结果融合 通过计算不同模态对融合模型的贡献来分配权 的研究。其所提及的融合模型对3个模型分支的 重,从而使得模型可以自适应地选择最有力的数 边界框融合,虽然此后仍有特征提取的操作,但 据模态。Freiburg大学的研究者o简单地融合了 由于融合后的计算仅针对边界框(网络输入)的 基于深度图和RGB图像训练的模型,实验表明, 提升,因此将后续对边界框处理的整个子网络视 带有权重的融合能够有效地反馈各模态数据在融 为结果融合模块。类似的设计见于文献[68],所 合模型中的实际贡献。然而,现有的实验场景仍 提出的模型同样专注于对已有的检测框融合、调 然过于简单,当应用场景发生明显、复杂的变化 整,这部分的融合操作仅限于对已有结果的提 时,如何设计一个鲁棒的自适应融合权重计算模 升,因此属于结果融合。除此之外,结果融合还 型,依然是一个开放问题。 广泛地被应用于文献[51,62-66]中。 2.3 数据融合的计算方法 2.2.4辅助估计 在目标检测的融合方法中,出现过多种多样 辅助估计,指基于某些模态的数据,对另一模 的融合计算方法,主要可以归为连接法、合并法、 型的数据进行估计,以使其获得更佳的表示。不 相加法、子网络法和辅助估计法5种。与文献[4] 同于上述3种融合方式,辅助估计没有减少数据 不同的是,本文的分类方法添加了子网络法,并 的模态,且辅助估计模块的存在与否不影响融合 提供了专家混合法(mixture of experts)的几种可 模型的完整性xs86s。从表3可见,辅助估计并 能形式。 非常用的融合方法,因为其要求融合的数据模态 2.3.1连接法 之间同时具有较强的相关性与较多的信息互补关 作为最直接的融合方法之一,连接法直接将 系,相关性弱的数据之间难以计算先验估计,信 不同模态的数据或其特征图相连接,特征的增加 息互补较少的数据之间难以获得数据质量的明显 直接体现在数据或特征图的维数增加上30,s7,67 提升。在自动驾驶的感知方面,较为常见的是激 常见的连接方式有两种:1)第二模态的特征图 光雷达和RGB图像之间的辅助估计28,s61,如 (数据)拼接到第一模态的特征图(数据)上,特征 KITTI的depth completion任务,它要求基于图 图的层数不变,但每层的尺寸变大,这种方法又 像和稀疏点云估计得到稠密点云。文献[56]中 称concatenate;2)将第2模态的特征图(数据)作 的Depth Completion模块,其网络基于由稀疏点 为第一模态的特征图(数据)的扩展通道,融合后 云深度图和图像拼接得到的4通道扩展图像,估 的特征图通道变多,每个通道的尺寸不变。前一 计出稠密的点云深度图,从而为后续的检测提供 种融合方式多见于特征融合阶段,第2种融合方 更佳丰富的空间深度信息。BMW的研究者关 式多见于数据融合阶段,但为了将第2种融合方 注了多模态数据融合的另一个问题:传感器或数 式用于特征融合,可以在融合后使用1×1卷积来 据的配准。它们将点云强度图投影到图像平面进 调整通道数。第2种方法可以理解为extended 行校准,估计出了从点云到图像平面的投影矩 channel。PointFusion模型将点云和RGB图像 阵。最新的研究中也涉及了辅助估计,模型通 分别提取的特征图使用concatenate连接,文献[5l] 过雷达点云的深度信息来学习图像中物体的缩放 同样也使用了concatenate,而文献[49,53]则采用 与距离的关系,从而为图像上的目标检测选择合 了扩展通道的形式。 适的候选框。 2.3.2合并法 表3总结了近年来自动驾驶场景下基于多模 合并法适用于多个同类候选元素,如多个分 态数据融合的深度目标检测方法,不难发现,特 支的同类目标输出的融合和候选框的融合2,s。输出,或者输入数据本身是目标输出且融合的结 果用于结果修正的融合操作。按定义,结果融合 主要包括并行的模型分支的计算结果的融合操 作,以及串行模型中,后续子模型在已有结果上 进行的针对同一目标输出的优化计算[56]。在文 献 [69] 中,模型将基于点云和基于图像两个分支 的提取的区域建议 (region proposal) 进行融合,从 而得到所有的候选检测框,由于目标检测模型的 候选框由区域建议回归得到,因此可以视为针对 候选框的结果融合。类似的融合在文献 [29] 中也 有体现。文献 [48] 可以视为一项只包含结果融合 的研究。其所提及的融合模型对 3 个模型分支的 边界框融合,虽然此后仍有特征提取的操作,但 由于融合后的计算仅针对边界框 (网络输入) 的 提升,因此将后续对边界框处理的整个子网络视 为结果融合模块。类似的设计见于文献 [68],所 提出的模型同样专注于对已有的检测框融合、调 整,这部分的融合操作仅限于对已有结果的提 升,因此属于结果融合。除此之外,结果融合还 广泛地被应用于文献 [51, 62-66] 中。 2.2.4 辅助估计 辅助估计,指基于某些模态的数据,对另一模 型的数据进行估计,以使其获得更佳的表示。不 同于上述 3 种融合方式,辅助估计没有减少数据 的模态,且辅助估计模块的存在与否不影响融合 模型的完整性[28, 53, 56, 58]。从表 3 可见,辅助估计并 非常用的融合方法,因为其要求融合的数据模态 之间同时具有较强的相关性与较多的信息互补关 系,相关性弱的数据之间难以计算先验估计,信 息互补较少的数据之间难以获得数据质量的明显 提升。在自动驾驶的感知方面,较为常见的是激 光雷达和 RGB 图像之间的辅助估计[ 2 8 , 5 6 ] ,如 KITTI 的 depth completion 任务[19] ,它要求基于图 像和稀疏点云估计得到稠密点云。文献 [56] 中 的 Depth Completion 模块,其网络基于由稀疏点 云深度图和图像拼接得到的 4 通道扩展图像,估 计出稠密的点云深度图,从而为后续的检测提供 更佳丰富的空间深度信息。BMW 的研究者[28] 关 注了多模态数据融合的另一个问题:传感器或数 据的配准。它们将点云强度图投影到图像平面进 行校准,估计出了从点云到图像平面的投影矩 阵。最新的研究[53] 中也涉及了辅助估计,模型通 过雷达点云的深度信息来学习图像中物体的缩放 与距离的关系,从而为图像上的目标检测选择合 适的候选框。 表 3 总结了近年来自动驾驶场景下基于多模 态数据融合的深度目标检测方法,不难发现,特 征融合是最常见的融合方法之一,研究者认为这 可能是因为特征融合可以有效地利用不同模态的 深层语义信息。文献 [29-30, 49, 63-67] 中对不同 位置的融合进行了测试,实验结果表明,较为靠 后的特征融合更有利于挖掘信息,提升模型性 能,然而过于靠后的融合只能提取高层语义信 息,反而降低了融合对模型性能的提升。现有的 模型更多地考虑了多层次、多步、带有自适应权 重的融合方式,如文献 [10] 和 [60] 中均考虑了自 适应权重,研究者基于 LSTM[72] 设计了门控单元, 通过计算不同模态对融合模型的贡献来分配权 重,从而使得模型可以自适应地选择最有力的数 据模态。Freiburg 大学的研究者[10] 简单地融合了 基于深度图和 RGB 图像训练的模型,实验表明, 带有权重的融合能够有效地反馈各模态数据在融 合模型中的实际贡献。然而,现有的实验场景仍 然过于简单,当应用场景发生明显、复杂的变化 时,如何设计一个鲁棒的自适应融合权重计算模 型,依然是一个开放问题。 2.3 数据融合的计算方法 在目标检测的融合方法中,出现过多种多样 的融合计算方法,主要可以归为连接法、合并法、 相加法、子网络法和辅助估计法 5 种。与文献 [4] 不同的是,本文的分类方法添加了子网络法,并 提供了专家混合法 (mixture of experts) 的几种可 能形式。 2.3.1 连接法 1×1 作为最直接的融合方法之一,连接法直接将 不同模态的数据或其特征图相连接,特征的增加 直接体现在数据或特征图的维数增加上[30, 57, 67]。 常见的连接方式有两种:1)第二模态的特征图 (数据) 拼接到第一模态的特征图 (数据) 上,特征 图的层数不变,但每层的尺寸变大,这种方法又 称 concatenate;2)将第 2 模态的特征图 (数据) 作 为第一模态的特征图 (数据) 的扩展通道,融合后 的特征图通道变多,每个通道的尺寸不变。前一 种融合方式多见于特征融合阶段,第 2 种融合方 式多见于数据融合阶段,但为了将第 2 种融合方 式用于特征融合,可以在融合后使用 卷积来 调整通道数。第 2 种方法可以理解为 extended channel。PointFusion 模型[64] 将点云和 RGB 图像 分别提取的特征图使用 concatenate 连接,文献 [51] 同样也使用了 concatenate,而文献 [49, 53] 则采用 了扩展通道的形式。 2.3.2 合并法 合并法适用于多个同类候选元素,如多个分 支的同类目标输出的融合和候选框的融合[25, 51]。 ·764· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有