正在加载图片...
760 工程科学学报,第43卷.第6期 表1面向场景的语义地图与面向对象的语义地图对比 V2算法进行目标检测,以粗略估计物体位置,然 Table 1 Comparison of scene-oriented semantic maps with object- 后运用Canny运算符检测深度图像上目标对象的 oriented semantic maps 边缘,并基于区域增长算法对边缘进行处理,以完 Scene-oriented semantic maps Object-oriented semantic maps 成物体的精确分割.SRM算法通过非深度学习的 (SemanticFusionl0) (MaskFusion!s) 语义分割算法,解决了传统语义地图构建过程中 计算资源大的问题,从而提高了语义地图构建的 Input 实时性.Cui等6在该方向取得了比较好的地图 构建结果,该算法利用边缘计算实现了数据的实 时处理,并使用云端服务器处理数据,一定程度上 Ground Truth 解决了实时性问题.MIT提出的Kimera算法s例将 面向对象的语义地图构建方法提升到比较成熟的 层次,其基于模块化的思想构建SLAM系统,该系 Output 统可以在CPU上运行.在语义地图构建方面, Kimera使用双目相机获取三维点云,并利用深度 学习获取环境语义信息,然后利用集束投影 Semanti (Bundled raycasting)在处理三维点云的同时映射 cmap 语义标签,最后使用贝叶斯滤波更新每个体素的 语义标签.虽然该算法在语义地图构建的精度方 时,SemanticFusion简单实现了SLAM技术对语义 面达到了较高的水平,但是该算法语义融合的实 分割的优化,即根据SLAM输出的帧间特征点匹 时性较差 配关系,优化CNN对单张图片的语义分割效果, 同时,部分学者倾向于通过控制计算资源的 极大地提高了语义地图的精度,体现了SLAM系 调用解决面向场景的语义地图构建算法存在的实 统对深度学习研究的优化作用.但是,该算法需要 时性和精度问题.Webb等针对语义地图构建 极大的计算资源,难以在机器人上进行实际部署 系统中精度和实时性展开研究,提出了一种语义 使用.同时,虽然该算法在一定程度上提高了语义 地图自动参数调整方法,通过对语义模型准确性 分割的准确性,但是提升的效果非常有限,仅 和计算资源消耗进行衡量,自动调节语义融合的 3.3%.与SemanticFusion算法类似,Ma等62基于 参数,保证系统的实时性.Ehlers等u提出了高层 卷积神经网络提出了一种自监督的方式生成环境 次的管理语义地图构建的方法,考虑到机器人需 语义信息,该算法根据多视图的语义信息一致性 要在多样的场景中开展工作,而单一的参数不能 进行语义信息融合,实现了像素级的语义地图构 保证机器人在任意场景中建图效果均为最优,因 建.但是这种基于卷积神经网络的语义信息提取 此通过预先设定地图构建参数,并根据语义识别 技术忽视了图像信息的前后帧联系,这种算法虽 结果,自动选择设定好的参数,从而挑选最佳的传 然利用多视图进行语义约束,但是语义关联的帧 感器和建图参数构建语义地图 数较少.因此,Xiang与Fox61提出了基于递归神 面向场景的语义地图大多采用深度学习的方 经网络的DA-RNN算法,直接对视频帧进行语义 法,将2D的语义信息映射到3D的点云中,目前相 信息提取,并将语义信息与KinectFusion算法6构 关研究基本围绕语义分割方法和语义融合方法展 建的三维地图融合,实现了环境语义地图构建 开.一方面,从地图应用的角度考虑,虽然面向场 早期的面向场景的语义地图构建算法虽然提 景的语义地图可以辅助机器人更好的认识环境, 出了完整的语义地图构建框架,但是其计算资源 构造表现力更好的环境地图,但是这种地图构建 消耗大,难以在机器人上实际部署使用,针对此问 方法不利于机器人认识环境中的个体,机器人无 题,研究人员提出了轻量化的面向场景的语义地图 法与环境中的个体进行交互,在一定程度限制了 构建方法.Mao等I6基于RTABMAPIS阿和YOLO7) 机器人的智能化程度.另一方面,从算法的效果考 算法提出了用于语义地图构建的SEMANTIC- 虑,此类算法需要对场景中所有物体进行像素级 RTAB-MAP(SRM)算法,该算法不直接使用深度 语义分割,计算量大,导致实时性普遍不理想,而 学习方法对图像进行语义分割,而是使用YOLO 且需要对语义融合结果进行充分优化,否则难以时,SemanticFusion 简单实现了 SLAM 技术对语义 分割的优化,即根据 SLAM 输出的帧间特征点匹 配关系,优化 CNN 对单张图片的语义分割效果, 极大地提高了语义地图的精度,体现了 SLAM 系 统对深度学习研究的优化作用. 但是,该算法需要 极大的计算资源,难以在机器人上进行实际部署 使用. 同时,虽然该算法在一定程度上提高了语义 分割的准确性 ,但是提升的效果非常有限 , 仅 3.3%. 与 SemanticFusion 算法类似,Ma 等[62] 基于 卷积神经网络提出了一种自监督的方式生成环境 语义信息,该算法根据多视图的语义信息一致性 进行语义信息融合,实现了像素级的语义地图构 建. 但是这种基于卷积神经网络的语义信息提取 技术忽视了图像信息的前后帧联系,这种算法虽 然利用多视图进行语义约束,但是语义关联的帧 数较少. 因此,Xiang 与 Fox[63] 提出了基于递归神 经网络的 DA-RNN 算法,直接对视频帧进行语义 信息提取,并将语义信息与 KinectFusion 算法[64] 构 建的三维地图融合,实现了环境语义地图构建. 早期的面向场景的语义地图构建算法虽然提 出了完整的语义地图构建框架,但是其计算资源 消耗大,难以在机器人上实际部署使用,针对此问 题,研究人员提出了轻量化的面向场景的语义地图 构建方法. Mao 等[65] 基于 RTABMAP[66] 和 YOLO[67] 算法提出了用于语义地图构建 的 SEMANTIC￾RTAB-MAP (SRM) 算法,该算法不直接使用深度 学习方法对图像进行语义分割,而是使用 YOLO V2 算法进行目标检测,以粗略估计物体位置,然 后运用 Canny 运算符检测深度图像上目标对象的 边缘,并基于区域增长算法对边缘进行处理,以完 成物体的精确分割. SRM 算法通过非深度学习的 语义分割算法,解决了传统语义地图构建过程中 计算资源大的问题,从而提高了语义地图构建的 实时性. Cui 等[68] 在该方向取得了比较好的地图 构建结果,该算法利用边缘计算实现了数据的实 时处理,并使用云端服务器处理数据,一定程度上 解决了实时性问题. MIT 提出的 Kimera 算法[69] 将 面向对象的语义地图构建方法提升到比较成熟的 层次,其基于模块化的思想构建 SLAM 系统,该系 统可以在 CPU 上运行. 在语义地图构建方面 , Kimera 使用双目相机获取三维点云,并利用深度 学习获取环境语义信息 ,然后利用集束投影 (Bundled raycasting)在处理三维点云的同时映射 语义标签,最后使用贝叶斯滤波更新每个体素的 语义标签. 虽然该算法在语义地图构建的精度方 面达到了较高的水平,但是该算法语义融合的实 时性较差. 同时,部分学者倾向于通过控制计算资源的 调用解决面向场景的语义地图构建算法存在的实 时性和精度问题. Webb 等[70] 针对语义地图构建 系统中精度和实时性展开研究,提出了一种语义 地图自动参数调整方法,通过对语义模型准确性 和计算资源消耗进行衡量,自动调节语义融合的 参数,保证系统的实时性. Ehlers 等[71] 提出了高层 次的管理语义地图构建的方法,考虑到机器人需 要在多样的场景中开展工作,而单一的参数不能 保证机器人在任意场景中建图效果均为最优,因 此通过预先设定地图构建参数,并根据语义识别 结果,自动选择设定好的参数,从而挑选最佳的传 感器和建图参数构建语义地图. 面向场景的语义地图大多采用深度学习的方 法,将 2D 的语义信息映射到 3D 的点云中,目前相 关研究基本围绕语义分割方法和语义融合方法展 开. 一方面,从地图应用的角度考虑,虽然面向场 景的语义地图可以辅助机器人更好的认识环境, 构造表现力更好的环境地图,但是这种地图构建 方法不利于机器人认识环境中的个体,机器人无 法与环境中的个体进行交互,在一定程度限制了 机器人的智能化程度. 另一方面,从算法的效果考 虑,此类算法需要对场景中所有物体进行像素级 语义分割,计算量大,导致实时性普遍不理想,而 且需要对语义融合结果进行充分优化,否则难以 表 1    面向场景的语义地图与面向对象的语义地图对比 Table 1    Comparison  of  scene-oriented  semantic  maps  with  object￾oriented semantic maps Scene-oriented semantic maps (SemanticFusion[60] ) Object-oriented semantic maps (MaskFusion[61] ) Input Ground Truth Output Semanti cmap · 760 · 工程科学学报,第 43 卷,第 6 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有