正在加载图片...
·772· 智能系统学报 第11卷 g2o(general graph optimization)(]LM(leven- 10 -Proposed berg-marquardt)算法实现。 8 -Tango 6 文献[29]提出的RGB_D SLAM算法的位姿图 4 里每个边具有一个权重,从而在优化过程中,不确定 2 0 性高的边比不确定性低的边需要变化更多去补偿误 2 差,并在最后,对图里的每个顶点进行额外的闭环检 0 5 10 15 20-4-202468 x/m m 测且重新优化整个图。文献[67]里,在闭环校正步 (a)正视图 (b)俯视图 骤使用了位姿图优化技术去实现旋转,平移及尺度 图3与Tango的性能比较[ 漂浮的有效校正。文献[13]在闭环检测成功后构 Fig.3 Performance comparison with tango(7) 建了本质图,并对该图进行位姿图优化。本质图包 共160m的轨迹开始于(0,0,0)点,走到建筑 含所有的关键帧,但相比于covisibility图[],减少 物的第3层,然后再返回到初始点。其中,Google 了关键帧之间的边约束。本质图包含生成树、闭环 Tango积累1.4m的误差,而该提出的方法仅有 连接及covisibility图里权重较大的边。 0.5m的漂移。 3视觉SLAM主要发展趋势及研究热点 即使在视觉与MU融合的系统里,当机器人运 动较为剧烈时,由于其不确定性增大,还是会导致定 3.1多传感器融合 位失败,从而系统的鲁棒性有待进一步提高。并且 相机能够捕捉场景的丰富细节,而惯性测量单 为在现实生活中实现实时定位,其计算复杂度也需 元(inertial measurement unit,IMU)有高的帧率且相 要进行改进。 对小的能够获得准确的短时间估计,这两个传感器 3.2SLAM与深度学习的结合 能够相互互补,从而一起使用能够获得更好的结果。 随着深度学习在计算机视觉领域的大成功,大 最初的视觉与MU结合的位姿估计是用滤波 家对深度学习在机器人领域的应用有很大的兴趣。 方法解决的,用IMU的测量值作为预测值,视觉的 SLAM是一个大系统,里面有很多子模块,例如闭环 测量值用于更新。文献[69]提出了一种基于EKF 检测,立体匹配等,都可通过深度学习的使用来获得 的MU与单目视觉的实时融合方法,提出一种测量 更优的结果。 模型能够表示一个静态特征被多个相机所观察时的 文献[73]提出了一种基于深度学习的立体匹 几何约束,该测量模型是最优的且不需要在EKF的 配方法,用卷积神经网络来学习小图像块间的相似 状态向量里包括特征的3-D坐标。文献[70]将融 性,该卷积神经网络输出的结果用于线性化立体匹 合问题分为两个线程进行处理,连续图像之间的惯 配代价。文献[74]通过整合局部敏感散列法和新 性测量和特征跟踪被局部地在第1个线程进行处 的语义搜寻空间划分的优化技术,使用卷积神经网 理,提供高频率的位置估计,第2个线程包含一个间 络和大的地图达到实时的位置识别。文献[75]使 歇工作的光束法平差的迭代估计,能够减少线性误 用卷积神经网络去学习视觉里程计的最佳的视觉特 差的影响。许多结果都已证明在准确性上基于优化 征和最优的估计器。文献[76]提出了一种重定位 的视觉SLAM优于基于滤波的SLAM方法。文献 系统,使用贝叶斯卷积神经网络从单个彩色图像计 [71]将MU的误差以全概率的形式融合到路标的 算出六个自由度的相机位姿及其不确定性。 重投影误差里,构成将被优化的联合非线性误差函 数,其中通过关键帧来边缘化之前的状态去维持一 4视觉SLAM的优缺点分析 个固定大小的优化窗口,保证实时操作。考虑到基 4.1单目视觉SLAM的优缺点 于优化方法的视觉-惯导导航的计算复杂度问题, 单目相机应用灵活、简单、价格低。但是,单目 文献[72]通过预积分选出的关键帧之间的惯性测 视觉SLAM在每个时刻只能获取一张图像,且只能 量来进行解决,预积分能够精确地概括数百个惯性 依靠获得的图像数据计算环境物体的方向信息,无 测量到一个单独的相对运动约束,这个预积分的 法直接获得可靠的深度信息,从而初始地图创建及 MU模型能被完美地融合到视觉-惯性的因子图的 特征点的深度恢复都比较困难。此外,尺度不确定 框架下。该系统的实验结果表明该系统要比Google 性是单目SLAM的主要特点,它是主要的误差源之 的Tango还要精确2,如图3所示。 一,但是正是尺度不确定性才使得单目SLAM能够g2o( general graph optimization) [66] 里的 LM ( leven⁃ berg⁃marquardt)算法实现。 文献[29]提出的 RGB_D SLAM 算法的位姿图 里每个边具有一个权重,从而在优化过程中,不确定 性高的边比不确定性低的边需要变化更多去补偿误 差,并在最后,对图里的每个顶点进行额外的闭环检 测且重新优化整个图。 文献[67]里,在闭环校正步 骤使用了位姿图优化技术去实现旋转,平移及尺度 漂浮的有效校正。 文献[13] 在闭环检测成功后构 建了本质图,并对该图进行位姿图优化。 本质图包 含所有的关键帧,但相比于 covisibility 图[68] ,减少 了关键帧之间的边约束。 本质图包含生成树、闭环 连接及 covisibility 图里权重较大的边。 3 视觉 SLAM 主要发展趋势及研究热点 3.1 多传感器融合 相机能够捕捉场景的丰富细节,而惯性测量单 元(inertial measurement unit,IMU)有高的帧率且相 对小的能够获得准确的短时间估计,这两个传感器 能够相互互补,从而一起使用能够获得更好的结果。 最初的视觉与 IMU 结合的位姿估计是用滤波 方法解决的,用 IMU 的测量值作为预测值,视觉的 测量值用于更新。 文献[69]提出了一种基于 EKF 的 IMU 与单目视觉的实时融合方法,提出一种测量 模型能够表示一个静态特征被多个相机所观察时的 几何约束,该测量模型是最优的且不需要在 EKF 的 状态向量里包括特征的 3⁃D 坐标。 文献[70] 将融 合问题分为两个线程进行处理,连续图像之间的惯 性测量和特征跟踪被局部地在第 1 个线程进行处 理,提供高频率的位置估计,第 2 个线程包含一个间 歇工作的光束法平差的迭代估计,能够减少线性误 差的影响。 许多结果都已证明在准确性上基于优化 的视觉 SLAM 优于基于滤波的 SLAM 方法。 文献 [71]将 IMU 的误差以全概率的形式融合到路标的 重投影误差里,构成将被优化的联合非线性误差函 数,其中通过关键帧来边缘化之前的状态去维持一 个固定大小的优化窗口,保证实时操作。 考虑到基 于优化方法的视觉-惯导导航的计算复杂度问题, 文献[72]通过预积分选出的关键帧之间的惯性测 量来进行解决,预积分能够精确地概括数百个惯性 测量到一个单独的相对运动约束,这个预积分的 IMU 模型能被完美地融合到视觉-惯性的因子图的 框架下。 该系统的实验结果表明该系统要比 Google 的 Tango 还要精确[72] ,如图 3 所示。 (a)正视图 (b)俯视图 图 3 与 Tango 的性能比较[72] Fig.3 Performance comparison with tango [72] 共 160 m 的轨迹开始于(0,0,0) 点,走到建筑 物的第 3 层,然后再返回到初始点。 其中,Google Tango 积累 1. 4 m 的误差,而该提出的方法仅有 0.5 m的漂移。 即使在视觉与 IMU 融合的系统里,当机器人运 动较为剧烈时,由于其不确定性增大,还是会导致定 位失败,从而系统的鲁棒性有待进一步提高。 并且 为在现实生活中实现实时定位,其计算复杂度也需 要进行改进。 3.2 SLAM 与深度学习的结合 随着深度学习在计算机视觉领域的大成功,大 家对深度学习在机器人领域的应用有很大的兴趣。 SLAM 是一个大系统,里面有很多子模块,例如闭环 检测,立体匹配等,都可通过深度学习的使用来获得 更优的结果。 文献[73]提出了一种基于深度学习的立体匹 配方法,用卷积神经网络来学习小图像块间的相似 性,该卷积神经网络输出的结果用于线性化立体匹 配代价。 文献[74]通过整合局部敏感散列法和新 的语义搜寻空间划分的优化技术,使用卷积神经网 络和大的地图达到实时的位置识别。 文献[75] 使 用卷积神经网络去学习视觉里程计的最佳的视觉特 征和最优的估计器。 文献[76] 提出了一种重定位 系统,使用贝叶斯卷积神经网络从单个彩色图像计 算出六个自由度的相机位姿及其不确定性。 4 视觉 SLAM 的优缺点分析 4.1 单目视觉 SLAM 的优缺点 单目相机应用灵活、简单、价格低。 但是,单目 视觉 SLAM 在每个时刻只能获取一张图像,且只能 依靠获得的图像数据计算环境物体的方向信息,无 法直接获得可靠的深度信息,从而初始地图创建及 特征点的深度恢复都比较困难。 此外,尺度不确定 性是单目 SLAM 的主要特点,它是主要的误差源之 一,但是正是尺度不确定性才使得单目 SLAM 能够 ·772· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有