时，SemanticFusion 简单实现了 SLAM 技术对语义分割的

正在加载图片...

760 工程科学学报，第43卷.第6期表1面向场景的语义地图与面向对象的语义地图对比 V2算法进行目标检测，以粗略估计物体位置，然 Table 1 Comparison of scene-oriented semantic maps with object- 后运用Canny运算符检测深度图像上目标对象的 oriented semantic maps 边缘，并基于区域增长算法对边缘进行处理，以完 Scene-oriented semantic maps Object-oriented semantic maps 成物体的精确分割.SRM算法通过非深度学习的 (SemanticFusionl0) (MaskFusion!s) 语义分割算法，解决了传统语义地图构建过程中计算资源大的问题，从而提高了语义地图构建的 Input 实时性.Cui等6在该方向取得了比较好的地图构建结果，该算法利用边缘计算实现了数据的实时处理，并使用云端服务器处理数据，一定程度上 Ground Truth 解决了实时性问题.MIT提出的Kimera算法s例将面向对象的语义地图构建方法提升到比较成熟的层次，其基于模块化的思想构建SLAM系统，该系 Output 统可以在CPU上运行.在语义地图构建方面， Kimera使用双目相机获取三维点云，并利用深度学习获取环境语义信息，然后利用集束投影 Semanti (Bundled raycasting)在处理三维点云的同时映射 cmap 语义标签，最后使用贝叶斯滤波更新每个体素的语义标签.虽然该算法在语义地图构建的精度方时，SemanticFusion简单实现了SLAM技术对语义面达到了较高的水平，但是该算法语义融合的实分割的优化，即根据SLAM输出的帧间特征点匹时性较差配关系，优化CNN对单张图片的语义分割效果，同时，部分学者倾向于通过控制计算资源的极大地提高了语义地图的精度，体现了SLAM系调用解决面向场景的语义地图构建算法存在的实统对深度学习研究的优化作用.但是，该算法需要时性和精度问题.Webb等针对语义地图构建极大的计算资源，难以在机器人上进行实际部署系统中精度和实时性展开研究，提出了一种语义使用.同时，虽然该算法在一定程度上提高了语义地图自动参数调整方法，通过对语义模型准确性分割的准确性，但是提升的效果非常有限，仅和计算资源消耗进行衡量，自动调节语义融合的 3.3%.与SemanticFusion算法类似，Ma等62基于参数，保证系统的实时性.Ehlers等u提出了高层卷积神经网络提出了一种自监督的方式生成环境次的管理语义地图构建的方法，考虑到机器人需语义信息，该算法根据多视图的语义信息一致性要在多样的场景中开展工作，而单一的参数不能进行语义信息融合，实现了像素级的语义地图构保证机器人在任意场景中建图效果均为最优，因建.但是这种基于卷积神经网络的语义信息提取此通过预先设定地图构建参数，并根据语义识别技术忽视了图像信息的前后帧联系，这种算法虽结果，自动选择设定好的参数，从而挑选最佳的传然利用多视图进行语义约束，但是语义关联的帧感器和建图参数构建语义地图数较少.因此，Xiang与Fox61提出了基于递归神面向场景的语义地图大多采用深度学习的方经网络的DA-RNN算法，直接对视频帧进行语义法，将2D的语义信息映射到3D的点云中，目前相信息提取，并将语义信息与KinectFusion算法6构关研究基本围绕语义分割方法和语义融合方法展建的三维地图融合，实现了环境语义地图构建开.一方面，从地图应用的角度考虑，虽然面向场早期的面向场景的语义地图构建算法虽然提景的语义地图可以辅助机器人更好的认识环境，出了完整的语义地图构建框架，但是其计算资源构造表现力更好的环境地图，但是这种地图构建消耗大，难以在机器人上实际部署使用，针对此问方法不利于机器人认识环境中的个体，机器人无题，研究人员提出了轻量化的面向场景的语义地图法与环境中的个体进行交互，在一定程度限制了构建方法.Mao等I6基于RTABMAPIS阿和YOLO7) 机器人的智能化程度.另一方面，从算法的效果考算法提出了用于语义地图构建的SEMANTIC- 虑，此类算法需要对场景中所有物体进行像素级 RTAB-MAP(SRM)算法，该算法不直接使用深度语义分割，计算量大，导致实时性普遍不理想，而学习方法对图像进行语义分割，而是使用YOLO 且需要对语义融合结果进行充分优化，否则难以时，SemanticFusion 简单实现了 SLAM 技术对语义分割的优化，即根据 SLAM 输出的帧间特征点匹配关系，优化 CNN 对单张图片的语义分割效果，极大地提高了语义地图的精度，体现了 SLAM 系统对深度学习研究的优化作用. 但是，该算法需要极大的计算资源，难以在机器人上进行实际部署使用. 同时，虽然该算法在一定程度上提高了语义分割的准确性，但是提升的效果非常有限，仅 3.3%. 与 SemanticFusion 算法类似，Ma 等[62] 基于卷积神经网络提出了一种自监督的方式生成环境语义信息，该算法根据多视图的语义信息一致性进行语义信息融合，实现了像素级的语义地图构建. 但是这种基于卷积神经网络的语义信息提取技术忽视了图像信息的前后帧联系，这种算法虽然利用多视图进行语义约束，但是语义关联的帧数较少. 因此，Xiang 与 Fox[63] 提出了基于递归神经网络的 DA-RNN 算法，直接对视频帧进行语义信息提取，并将语义信息与 KinectFusion 算法[64] 构建的三维地图融合，实现了环境语义地图构建. 早期的面向场景的语义地图构建算法虽然提出了完整的语义地图构建框架，但是其计算资源消耗大，难以在机器人上实际部署使用，针对此问题，研究人员提出了轻量化的面向场景的语义地图构建方法. Mao 等[65] 基于 RTABMAP[66] 和 YOLO[67] 算法提出了用于语义地图构建的 SEMANTICRTAB-MAP (SRM) 算法，该算法不直接使用深度学习方法对图像进行语义分割，而是使用 YOLO V2 算法进行目标检测，以粗略估计物体位置，然后运用 Canny 运算符检测深度图像上目标对象的边缘，并基于区域增长算法对边缘进行处理，以完成物体的精确分割. SRM 算法通过非深度学习的语义分割算法，解决了传统语义地图构建过程中计算资源大的问题，从而提高了语义地图构建的实时性. Cui 等[68] 在该方向取得了比较好的地图构建结果，该算法利用边缘计算实现了数据的实时处理，并使用云端服务器处理数据，一定程度上解决了实时性问题. MIT 提出的 Kimera 算法[69] 将面向对象的语义地图构建方法提升到比较成熟的层次，其基于模块化的思想构建 SLAM 系统，该系统可以在 CPU 上运行. 在语义地图构建方面， Kimera 使用双目相机获取三维点云，并利用深度学习获取环境语义信息，然后利用集束投影（Bundled raycasting）在处理三维点云的同时映射语义标签，最后使用贝叶斯滤波更新每个体素的语义标签. 虽然该算法在语义地图构建的精度方面达到了较高的水平，但是该算法语义融合的实时性较差. 同时，部分学者倾向于通过控制计算资源的调用解决面向场景的语义地图构建算法存在的实时性和精度问题. Webb 等[70] 针对语义地图构建系统中精度和实时性展开研究，提出了一种语义地图自动参数调整方法，通过对语义模型准确性和计算资源消耗进行衡量，自动调节语义融合的参数，保证系统的实时性. Ehlers 等[71] 提出了高层次的管理语义地图构建的方法，考虑到机器人需要在多样的场景中开展工作，而单一的参数不能保证机器人在任意场景中建图效果均为最优，因此通过预先设定地图构建参数，并根据语义识别结果，自动选择设定好的参数，从而挑选最佳的传感器和建图参数构建语义地图. 面向场景的语义地图大多采用深度学习的方法，将 2D 的语义信息映射到 3D 的点云中，目前相关研究基本围绕语义分割方法和语义融合方法展开. 一方面，从地图应用的角度考虑，虽然面向场景的语义地图可以辅助机器人更好的认识环境，构造表现力更好的环境地图，但是这种地图构建方法不利于机器人认识环境中的个体，机器人无法与环境中的个体进行交互，在一定程度限制了机器人的智能化程度. 另一方面，从算法的效果考虑，此类算法需要对场景中所有物体进行像素级语义分割，计算量大，导致实时性普遍不理想，而且需要对语义融合结果进行充分优化，否则难以表 1 面向场景的语义地图与面向对象的语义地图对比 Table 1 Comparison of scene-oriented semantic maps with objectoriented semantic maps Scene-oriented semantic maps (SemanticFusion[60] ) Object-oriented semantic maps (MaskFusion[61] ) Input Ground Truth Output Semanti cmap · 760 · 工程科学学报，第 43 卷，第 6 期

<<向上翻页向下翻页>>

点击下载：基于环境语义信息的同步定位与地图构建方法综述