第13卷第1期 智能系统学报 Vol.13 No.I 2018年2月 CAAI Transactions on Intelligent Systems Feb.2018 D0:10.11992/tis.201703006 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180131.0858.002.html 视觉同时定位与地图创建综述 周彦,李雅芳,王冬丽,裴廷睿 (湘潭大学信息工程学院.湖南湘潭411105) 摘要:同时定位与地图创建(simultaneous localization and mapping,SLAM)自1986年提出以来一直是机器人领域 的热点问题,被认为是实现真正全自主移动机器人的关键。其目的是让机器人在未知环境下实现自身定位同时创建 出环境地图。视觉SLAM(visual simultaneous localization and mapping,VSLAM)是仅用相机作为传感器的定位与制 图。随着计算机视觉和机器人技术的发展,VSLAM已成为无人系统领域的研究焦点。本文对VSLAM的最新研究 现状进行总结,阐述了VSLAM中的主要问题,分别介绍了VSLAM基于滤波和图优化的实现方法,并探讨了 VSLAM的研究与发展方向。 关键词:计算机视觉:同时定位与地图创建:VSLAM:机器人:滤波:图优化:综述:深度学习 中图分类号:TP24文献标志码:A文章编号:1673-4785(2018)01-0097-10 中文引用格式:周彦,李雅芳,王冬丽,等.视觉同时定位与地图创建综述J.智能系统学报,2018,13(1):97-106. 英文引用格式:ZHOU Yan,LI Yafang,WANG Dongli,.etal.A survey of VSLAM[J.CAAI transactions on intelligent systems, 2018,13(1:97-106. A survey of VSLAM ZHOU Yan,LI Yafang,WANG Dongli,PEI Tingrui (College of Information Engineering,Xiangtan University,Xiangtan 411105,China) Abstract:Simultaneous localization and mapping(SLAM),an essential task for an autonomy robot,has been a hot top- ic in the field of robotics since the concept first proposed in 1986.The purpose is to make a robot locate itself in an un- known environment while simultaneously construct a map of the environment.Visual SLAM(VSLAM)refers to that one using a camera or cameras as the sole sensor.With the development of computer vision and robotics,VSLAM has become the focus in the field of unmanned systems.In this paper,we survey the recent progress of VSLAM.After identifying the main problems in the development of VSLAM.we introduce the VSLAM methods based on both filter and graph optimizations.Finally,the further study and development directions of VSLAM are given. Keywords:computer vision;simultaneous localization and mapping;VSLAM;robot;filter,graph optimization;survey; deep learning 移动机器人为实现自主导航,面临着在哪里、了机器人领域的热点研究问题。目前,已经有了 到哪里、怎么去3个需要解决的关键问题。“在哪 很多有效方法来解决已知环境中(有环境先验信 里”是机器人对自身的定位,后两个问题即机器人需 息)机器人自主定位与已知机器人位置情况下的地 要解决的路径规划问题。对自主移动机器人来说, 图创建问题。然而在很多环境中,机器人无法利 定位是重中之重,是路径规划的基石。在定位中, 用全局定位系统进行定位,而且事先获取环境先验 机器人首当其冲的任务便是感知周围的环境,并对 信息很困难,甚至是不可能的1,此情此景下,机器 之加以描述。移动机器人的定位和地图创建已成为 人需要在没有环境先验信息的情况下,在移动过程 收稿日期:2017-03-03.网络出版日期:2018-01-31. 基金项目:国家自然科学基金项目(61773330,61372049,61100140, 中一边计算自身位置,一边构建环境地图,于是移 61104210):湖南省自然科学基金项目(2017JJ2253):湖 南省教育厅优秀青年基金项目(17B259), 动机器人的同时定位与地图创建(SLAM0问题 通信作者:周彦.E-mail:yanzhou@xtu.edu.cn. 应运而生
DOI: 10.11992/tis.201703006 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180131.0858.002.html 视觉同时定位与地图创建综述 周彦,李雅芳,王冬丽,裴廷睿 (湘潭大学 信息工程学院,湖南 湘潭 411105) 摘 要:同时定位与地图创建 (simultaneous localization and mapping,SLAM) 自 1986 年提出以来一直是机器人领域 的热点问题,被认为是实现真正全自主移动机器人的关键。其目的是让机器人在未知环境下实现自身定位同时创建 出环境地图。视觉 SLAM (visual simultaneous localization and mapping,VSLAM) 是仅用相机作为传感器的定位与制 图。随着计算机视觉和机器人技术的发展,VSLAM 已成为无人系统领域的研究焦点。本文对 VSLAM 的最新研究 现状进行总结,阐述了 VSLAM 中的主要问题,分别介绍了 VSLAM 基于滤波和图优化的实现方法,并探讨了 VSLAM 的研究与发展方向。 关键词:计算机视觉;同时定位与地图创建;VSLAM;机器人;滤波;图优化;综述;深度学习 中图分类号:TP24 文献标志码:A 文章编号:1673−4785(2018)01−0097−10 中文引用格式:周彦, 李雅芳, 王冬丽, 等. 视觉同时定位与地图创建综述[J]. 智能系统学报, 2018, 13(1): 97–106. 英文引用格式:ZHOU Yan, LI Yafang, WANG Dongli, et al. A survey of VSLAM[J]. CAAI transactions on intelligent systems, 2018, 13(1): 97–106. A survey of VSLAM ZHOU Yan,LI Yafang,WANG Dongli,PEI Tingrui (College of Information Engineering, Xiangtan University, Xiangtan 411105, China) Abstract: Simultaneous localization and mapping (SLAM), an essential task for an autonomy robot, has been a hot topic in the field of robotics since the concept first proposed in 1986. The purpose is to make a robot locate itself in an unknown environment while simultaneously construct a map of the environment. Visual SLAM (VSLAM) refers to that one using a camera or cameras as the sole sensor. With the development of computer vision and robotics, VSLAM has become the focus in the field of unmanned systems. In this paper, we survey the recent progress of VSLAM. After identifying the main problems in the development of VSLAM, we introduce the VSLAM methods based on both filter and graph optimizations. Finally, the further study and development directions of VSLAM are given. Keywords: computer vision; simultaneous localization and mapping; VSLAM; robot; filter; graph optimization; survey; deep learning 移动机器人为实现自主导航,面临着在哪里、 到哪里、怎么去 3 个需要解决的关键问题。“在哪 里”是机器人对自身的定位,后两个问题即机器人需 要解决的路径规划问题。对自主移动机器人来说, 定位是重中之重,是路径规划的基石。在定位中, 机器人首当其冲的任务便是感知周围的环境,并对 之加以描述。移动机器人的定位和地图创建已成为 了机器人领域的热点研究问题[1-2]。目前,已经有了 很多有效方法来解决已知环境中(有环境先验信 息)机器人自主定位与已知机器人位置情况下的地 图创建问题[1]。然而在很多环境中,机器人无法利 用全局定位系统进行定位,而且事先获取环境先验 信息很困难,甚至是不可能的[3] ,此情此景下,机器 人需要在没有环境先验信息的情况下,在移动过程 中一边计算自身位置,一边构建环境地图,于是移 动机器人的同时定位与地图创建 (SLAM) 问题 [4-5] 应运而生。 收稿日期:2017−03−03. 网络出版日期:2018−01−31. 基金项目:国家自然科学基金项目 (61773330, 61372049, 61100140, 61104210);湖南省自然科学基金项目 (2017JJ2253);湖 南省教育厅优秀青年基金项目 (17B259). 通信作者:周彦. E-mail:yanzhou@xtu.edu.cn. 第 13 卷第 1 期 智 能 系 统 学 报 Vol.13 No.1 2018 年 2 月 CAAI Transactions on Intelligent Systems Feb. 2018
·98· 智能系统学报 第13卷 SLAM也称为CML(concurrent mapping and 似性越高。对于浮点型描述子采用欧氏距离,对于 localization).最先由Smith Self和Cheeseman于 二进制字符型描述子使用汉明距离(Hamming dis- 1986年提出5-6。这一理论是实现真正全自主移动 tance),汉明距离指两个描述子(二进制串)不同位 机器人的关键已经成为共识7-)。SLAM以传感器 数的个数。当特征点数量非常大时,快速近似最近 作为划分标准,主要分为激光、视觉两大类。其中, 邻(FLANN)算法I能够满足SLAM的实时性需求。 激光SLAM研究较早,理论和工程均比较成熟,视 常用的特征提取和匹配算法有SIFT算法、 觉SLAM尚处于实验室研究阶段。SLAM早期研 SURF算法和ORB算法。SIFT算法中使用斑检 究侧重于使用滤波理论来最小化运动物体的位姿和 测方法和浮点型特征描述子,在建立高斯差分空间 地图路标点的噪声。自21世纪以来,学者们借鉴运 金字塔的基础上提取出具有尺度不变性的特征点, 动恢复结构SfM(structure from motion)中的方式例, 然后对特征点邻域内的点的梯度方向进行直方图统 以优化理论为基础求解SLAM问题,该方法通常以 计。特征点的主方向就是直方图中比重最大的方 位姿图的形式描述机器人各时刻的状态,又称为基 向,必要时可选一个辅方向。SFT特征集旋转不变 于图优化的SLAM,在VSLAM领域中取得了主导 性、尺度不变性、对图像变形和光照鲁棒等优点于 地位10-1 一身,不足之处是计算量大,计算速度慢,需要在 1 VSLAM存在的问题分析 GPU加速的情况下才可满足SLAM的实时性需 求。SURF1算法是对SIFT算法的改进,使用基于 1.1特征点提取、描述与匹配 DoH的斑点特征检测方法;在特征点的描述上, 图像的特征一般可划分为点特征、直线特征以 SURF算法通过积分图,利用两个方向上的Harr小 及边缘、轮廓特征,其中线、边缘、轮廓等特征在高 波模板进行梯度计算,然后对邻域内点的梯度方向 维空间进行处理,计算量大;点特征对遮挡相对鲁 以扇形的方式进行统计,得到特征点的主方向。SURF 棒、提取速度快并且识别性好,所以应用较多。局 算法速度快且稳定性好,应用也较为广泛。Ethan- 部特征点不仅能够保留图像重要特征信息,而且也 Rublee在2011年提出的ORBI1算法使用改进的 使得信息的数据量减少,使计算速度和匹配速度都 FAST特征点检测算法,ORB的特征描述子采用改 加快,因此基于特征的VSLAM普遍采用点特征。图1 进后的二进制字符串特征描述子BRIEF。由于采 标出了可作为图像特征的部分。 用速度极快的二进制描述子,ORB使得整个图像特 角点 征提取的环节大大加速。 边缘 1.2特征点深度获取 单日相机无法直接获取深度信息,深度信息通 过反深度法(inverse depth)、三角测量(三角化)、粒 子滤波法等来获取。Civera等提出了反深度法, 该方法旨在减少深度分布非高斯性的影响。反深度 图1可作为图像特征的部分:角点、边缘、斑点 法为获得较好的线性效果,在EKF系统里使用深度 Fig.1 Parts that can be used as image features:corner, edge,blob 的倒数进行更新。三角测量最早由高斯提出,是指 斑点和角点是局部特征点中比较流行的两种。 通过在两个不同地点观察同一个点的夹角,确定出 斑点的重要特征是与周围区域有颜色和灰度上的差 该点的距离(深度)。使用关键帧与稀疏捆集调整 (sparse bundle adjustment,SBA)框架的VSLAM系 别。斑点检测方法应用最广泛的是利用高斯拉普拉 统,如文献[18-21],均采用了该方法。Davison等2 斯算子检测的方法(LOG),以及利用像素点海森矩 采用的Particle Filter方法会在特征所在的深度方向 阵(二阶微分)及其行列式值的方法(DOH)。角点 上生成多个粒子,通过粒子的匹配、更新来得到特 描述的是两条边的交点,其检测方法常用Harris角 征点深度的概率分布,不足之处是容易增加系统的 点检测算法和FAST角点检测算法。对特征点的描 不一致性,致使最后概率估计发散。 述有浮点型特征描述子和二进制字符串特征描述 双目相机一般由左和右两个水平放置的相机组 子。提取特征点后需对两幅图像进行特征匹配,特 成,通过同步采集到的左右相机的图像,计算图像 征匹配采用计算描述子间距离的方法,距离越小相 之间的视差,来估计每一个像素的深度
SLAM 也称为 CML (concurrent mapping and localization),最先由 Smith Self 和 Cheeseman 于 1986 年提出[5-6]。这一理论是实现真正全自主移动 机器人的关键已经成为共识[7-8]。SLAM 以传感器 作为划分标准,主要分为激光、视觉两大类。其中, 激光 SLAM 研究较早,理论和工程均比较成熟,视 觉 SLAM 尚处于实验室研究阶段[1]。SLAM 早期研 究侧重于使用滤波理论来最小化运动物体的位姿和 地图路标点的噪声。自 21 世纪以来,学者们借鉴运 动恢复结构 SfM(structure from motion) 中的方式[9] , 以优化理论为基础求解 SLAM 问题,该方法通常以 位姿图的形式描述机器人各时刻的状态,又称为基 于图优化的 SLAM,在 VSLAM 领域中取得了主导 地位[10-11]。 1 VSLAM 存在的问题分析 1.1 特征点提取、描述与匹配 图像的特征一般可划分为点特征、直线特征以 及边缘、轮廓特征,其中线、边缘、轮廓等特征在高 维空间进行处理,计算量大;点特征对遮挡相对鲁 棒、提取速度快并且识别性好,所以应用较多。局 部特征点不仅能够保留图像重要特征信息,而且也 使得信息的数据量减少,使计算速度和匹配速度都 加快,因此基于特征的 VSLAM 普遍采用点特征。图 1 标出了可作为图像特征的部分。 斑点和角点是局部特征点中比较流行的两种。 斑点的重要特征是与周围区域有颜色和灰度上的差 别。斑点检测方法应用最广泛的是利用高斯拉普拉 斯算子检测的方法(LOG),以及利用像素点海森矩 阵(二阶微分)及其行列式值的方法(DOH)。角点 描述的是两条边的交点,其检测方法常用 Harris 角 点检测算法和 FAST 角点检测算法。对特征点的描 述有浮点型特征描述子和二进制字符串特征描述 子。提取特征点后需对两幅图像进行特征匹配,特 征匹配采用计算描述子间距离的方法,距离越小相 似性越高。对于浮点型描述子采用欧氏距离,对于 二进制字符型描述子使用汉明距离(Hamming distance),汉明距离指两个描述子(二进制串)不同位 数的个数。当特征点数量非常大时,快速近似最近 邻(FLANN)算法[12]能够满足 SLAM 的实时性需求。 常用的特征提取和匹配算法有 SIFT 算法、 SURF 算法和 ORB 算法。SIFT[13]算法中使用斑检 测方法和浮点型特征描述子,在建立高斯差分空间 金字塔的基础上提取出具有尺度不变性的特征点, 然后对特征点邻域内的点的梯度方向进行直方图统 计。特征点的主方向就是直方图中比重最大的方 向,必要时可选一个辅方向。SIFT 特征集旋转不变 性、尺度不变性、对图像变形和光照鲁棒等优点于 一身,不足之处是计算量大,计算速度慢,需要在 GPU 加速的情况下才可满足 SLAM 的实时性需 求。SURF[14]算法是对 SIFT 算法的改进,使用基于 DoH 的斑点特征检测方法;在特征点的描述上, SURF 算法通过积分图,利用两个方向上的 Harr 小 波模板进行梯度计算,然后对邻域内点的梯度方向 以扇形的方式进行统计,得到特征点的主方向。SURF 算法速度快且稳定性好,应用也较为广泛。EthanRublee 在 2011 年提出的 ORB[15]算法使用改进的 FAST 特征点检测算法,ORB 的特征描述子采用改 进后的二进制字符串特征描述子 BRIEF[16]。由于采 用速度极快的二进制描述子,ORB 使得整个图像特 征提取的环节大大加速。 1.2 特征点深度获取 单目相机无法直接获取深度信息,深度信息通 过反深度法(inverse depth)、三角测量(三角化)、粒 子滤波法等来获取。Civera 等 [17]提出了反深度法, 该方法旨在减少深度分布非高斯性的影响。反深度 法为获得较好的线性效果,在 EKF 系统里使用深度 的倒数进行更新。三角测量最早由高斯提出,是指 通过在两个不同地点观察同一个点的夹角,确定出 该点的距离(深度)。使用关键帧与稀疏捆集调整 (sparse bundle adjustment,SBA)框架的 VSLAM 系 统,如文献[18-21],均采用了该方法。Davison 等 [22] 采用的 Particle Filter 方法会在特征所在的深度方向 上生成多个粒子, 通过粒子的匹配、更新来得到特 征点深度的概率分布,不足之处是容易增加系统的 不一致性,致使最后概率估计发散。 双目相机一般由左和右两个水平放置的相机组 成,通过同步采集到的左右相机的图像,计算图像 之间的视差,来估计每一个像素的深度。 㻾◥ 䓥㑄 ᪽◥ 图 1 可作为图像特征的部分:角点、边缘、斑点 Fig. 1 Parts that can be used as image features: corner, edge, blob ·98· 智 能 系 统 学 报 第 13 卷
第1期 周彦,等:视觉同时定位与地图创建综述 ·99· 图2中,O、OR为左右相机的光圈中心,黑色 境中的同一物体。在大方向上,特征匹配解决了 框为成像平面,∫为焦距,M、为成像的平面坐标, SLAM中的数据关联问题,但这个过程中带有误 R为负数。根据几何关系,由相似三角形P-P- 差,所以对图像特征匹配的结果优化是必要的,主 P和P-O-OR得 要方法有固定区域匹配、Active Matching、l-Point z-f b-u+ug RANAC、几何约束等。 b PTAM(parallel tracking and mapping)W及其改 整理得 进算法主要使用固定区域匹配的方法。PTAM假定 fb Z=- -,d =u-ug 前后两帧图像中像素距离在一个阈值内,超出这个 式中d为P在左眼相机图像和右眼相机图像中的 阈值就认为是错误匹配,该法适用于特征点距离相 横坐标之差,叫做视差。根据视差就可以估计一个 机稍远、深度变化不大的场合,不适用于相机快速 像素离相机的距离。 运动的场合。 基于EKF滤波的VSLAM系统多采用Davis-. on提出的Active Matching2a方法。Active Match- ing方法中,在使用EKF系统运动模型获得系统状 态预测的基础上,估计环境中的特征点在相机中的 投影位置,再进一步处理即可得到图像中特征点的 左眼像素 右眼像素 分布区域。此方法对相机的绝大部分运动情况鲁 01 09 棒,但如果出现相机姿态估计协方差较大的情况, 52 左眼相机 右眼相机 几何模型 易产生大的特征匹配估计区域,可能匹配错误。 图2双目相机模型 为去除Active Matching中的错误匹配,Civera Fig.2 Binocular camera model Grasa等提出1-Point RANSAC2方法。该方法用 深度相机主动测量每个像素的深度直接获取深 随机选择的一个匹配点的匹配信息来更新相机姿 度信息P。目前的RGB-D相机按原理可分为两大 态,之后计算其他匹配点与估计图像位置的距离, 类,即通过红外结构光(structured light)来测量像素 并判断这个距离是否在一定的阈值范围内,若不 距离和通过飞行时间法(time of flight,.ToF)测量像 在,被认为是外点并剔除它,最后利用得到的内点 素距离。在结构光原理中,相机向探测目标发射一 集来更新整个滤波器状态。该方法主要应用在基 于EKF滤波的SLAM系统中,由于频繁地更新系 束光线(通常是红外光),根据返回的结构光图案, 统状态,运算时间代价比较大。 计算像素离自身的距离。在ToF中,相机向目标发 射脉冲光,然后根据发送到返回之间的光束飞行时 几何约束方法利用PNP(perspective N points)P阿 对极几何2等剔除误匹配点。该方法因利用几何求 间,确定物体离自身的距离。在测量深度之后, 解,不需要频繁更新系统状态,故而能获得较好的 RGB-D相机完成深度与彩色图像像素之间的配对, 系统运行速度。但是对于不同的情况该方法需要具 输出一一对应的彩色图和深度图。图3是RGB-D 体问题具体分析,使用相对应的几何约束条件,相 相机的原理图。 应地增加了系统的复杂性。 结构光原理 飞行时间原理 1.4累积误差 SLAM中的误差来源主要为里程计误差、观测 发射 返回 发射 返回 误差和错误的数据关联带来的误差3个方面。在 VSLAM中,环境的先验信息和机器人的位置都是 时间差 未知的,位置误差(视觉里程计误差)不能根据环境 结构光发射器结构光接收器 脉冲光发射器 脉冲光接收器 先验信息得到有效纠正,故而随着机器人运动距离 的增大位置误差也逐渐累积。位置误差的增大会造 图3RGB-D相机原理图 成错误的数据关联,相应的特征标志的误差也跟着 Fig.3 Schematic of RGB-D camera 增大:反过来,机器人的位置误差因为参考了有误 1.3数据关联的优化问题 差的特征也会增大。因此,里程计误差与特征标志 SLAM中数据关联是对两个路标(VSLAM中 之间相互影响使整个VSLAM系统产生累积误差, 路标指图像特征)进行匹配,确定它们是否对应环 无法保证地图和轨迹的全局一致性。图4中,累积误
图 2 中,OL、OR 为左右相机的光圈中心,黑色 框为成像平面,f 为焦距,uL、uR 为成像的平面坐标, uR 为负数。根据几何关系,由相似三角形 P-PLPR 和 P-OL-OR, 得 z− f z = b−uL +uR b 整理得 z = f b d ,d = uL −uR 式中 d 为 P 在左眼相机图像和右眼相机图像中的 横坐标之差,叫做视差。根据视差就可以估计一个 像素离相机的距离 z。 深度相机主动测量每个像素的深度直接获取深 度信息[23]。目前的 RGB-D 相机按原理可分为两大 类,即通过红外结构光(structured light)来测量像素 距离和通过飞行时间法(time of flight, ToF)测量像 素距离。在结构光原理中,相机向探测目标发射一 束光线(通常是红外光),根据返回的结构光图案, 计算像素离自身的距离。在 ToF 中,相机向目标发 射脉冲光,然后根据发送到返回之间的光束飞行时 间,确定物体离自身的距离。在测量深度之后, RGB-D 相机完成深度与彩色图像像素之间的配对, 输出一一对应的彩色图和深度图。图 3 是 RGB-D 相机的原理图。 1.3 数据关联的优化问题 SLAM 中数据关联是对两个路标(VSLAM 中 路标指图像特征)进行匹配,确定它们是否对应环 境中的同一物体。在大方向上,特征匹配解决了 SLAM 中的数据关联问题,但这个过程中带有误 差,所以对图像特征匹配的结果优化是必要的,主 要方法有固定区域匹配、Active Matching、1-Point RANAC、几何约束等。 PTAM(parallel tracking and mapping) [18] 及其改 进算法主要使用固定区域匹配的方法。PTAM 假定 前后两帧图像中像素距离在一个阈值内,超出这个 阈值就认为是错误匹配,该法适用于特征点距离相 机稍远、深度变化不大的场合,不适用于相机快速 运动的场合。 基于 EKF 滤波的 VSLAM 系统多采用 Davison 提出的 Active Matching[24]方法。Active Matching 方法中,在使用 EKF 系统运动模型获得系统状 态预测的基础上,估计环境中的特征点在相机中的 投影位置,再进一步处理即可得到图像中特征点的 分布区域。此方法对相机的绝大部分运动情况鲁 棒,但如果出现相机姿态估计协方差较大的情况, 易产生大的特征匹配估计区域,可能匹配错误。 为去除 Active Matching 中的错误匹配,Civera、 Grasa 等提出 1-Point RANSAC[25-26]方法。该方法用 随机选择的一个匹配点的匹配信息来更新相机姿 态,之后计算其他匹配点与估计图像位置的距离, 并判断这个距离是否在一定的阈值范围内,若不 在,被认为是外点并剔除它,最后利用得到的内点 集来更新整个滤波器状态。该方法主要应用在基 于 EKF 滤波的 SLAM 系统中,由于频繁地更新系 统状态,运算时间代价比较大。 几何约束方法利用 PNP(perspective N points) [27] 、 对极几何[28]等剔除误匹配点。该方法因利用几何求 解,不需要频繁更新系统状态,故而能获得较好的 系统运行速度。但是对于不同的情况该方法需要具 体问题具体分析,使用相对应的几何约束条件,相 应地增加了系统的复杂性。 1.4 累积误差 SLAM 中的误差来源主要为里程计误差、观测 误差和错误的数据关联带来的误差 3 个方面。在 VSLAM 中,环境的先验信息和机器人的位置都是 未知的,位置误差(视觉里程计误差)不能根据环境 先验信息得到有效纠正,故而随着机器人运动距离 的增大位置误差也逐渐累积。位置误差的增大会造 成错误的数据关联,相应的特征标志的误差也跟着 增大;反过来,机器人的位置误差因为参考了有误 差的特征也会增大。因此,里程计误差与特征标志 之间相互影响使整个 VSLAM 系统产生累积误差, 无法保证地图和轨迹的全局一致性。图 4 中,累积误 P ጒⱨ㉌ टⱨ㉌ ദ㏫ z P PL b PR f OL OR uL −uR ጒⱨⰤᱦ टⱨⰤᱦ ܌ҁὍಷ 图 2 双目相机模型 Fig. 2 Binocular camera model ⤲࣋上㵸ᬢ䬠⤲ ࣋اٴᲰgal ࣽᄰ 䔀ఊ ࣽᄰ 䔀ఊ ㏿Ჰࣽاٴᄰஔ ㏿Ჰاٴᣑᩢஔ 㘵۞ࣽاٴᄰஔ 㘵۞اٴᣑᩢஔ ᬢ䬠ጚ 图 3 RGB-D 相机原理图 Fig. 3 Schematic of RGB-D camera 第 1 期 周彦,等:视觉同时定位与地图创建综述 ·99·
·100· 智能系统学报 第13卷 差使得估计轨迹和真实轨迹相差很大。当前VSLAM 2.1基于滤波器的实现方法 系统多采用回环检测的方式减小这一误差。回环检 2.l.1基于扩展卡尔曼滤波器(extended kalman 测是指机器人识别出曾经到达过的场景的能力,当 filter,EKF)EKF-VSLAM 机器人看到两张相似图片时,计算图像数据的相似 21世纪之前,SLAM中的状态估计主要使用 性,如果回环检测成功,可以显著地减小累积误 滤波的方法。在SLAM中,系统的状态由机器人的 差。回环检测在VSLAM中意义重大,既关系到估 位姿和地图信息(路标)组成。用卡尔曼滤波器 计的地图和轨迹在长时间下的正确性,也可在跟丢 (KF)实现SLAM必须遵循运动方程和观测方程都 时进行重定位,大大增强了系统的鲁棒性。 符合线性高斯模型、系统的状态服从高斯分布这两 个假设。基于KF的SLAM由系统状态预测和更新 两步组成,与此同时,对地图进行加入新路标、删除 旧路标等操作。KF中,假设系统都是线性的,但是 现实中,机器人的运动模型与观测模型往往都是非 线性的。对此,通常采用一阶泰勒展开来近似表示 (a)真实轨迹 (b)出现累积误差的轨迹 非线性模型的扩展卡尔曼滤波器(extended Kalman 图4真实轨迹与出现累积误差的轨迹 filter,EKF)方法来实现SLAM。 Fig.4 Real track and track with accumulated error 卡尔曼滤波器是实现SLAM的基本方法之一网 2 VSLAM实现方法 其协方差矩阵描述了机器人的位置和地图的不确定 信息。当机器人连续观测到环境中的特征标志时, VSLAM的实现方法分为基于滤波器的方法和 所有协方差矩阵子阵的行列式呈单调递减。每一时 基于图优化的方法。其中,基于滤波器的方法只估 刻机器人能观测到路标不会很多,只有少数几个。 计当前时刻的位姿,是一种增量式算法:基于图优 基于卡尔曼滤波器的SLAM的时间复杂度为 化的方法根据所有观测到的信息,对整个机器人运 O(n,n表示地图中的特征标志数B0。为了达到降 动轨迹进行估计。前者又称为在线SLAM,后者又 低SLAM的时间复杂度的目的,Leonard等提出 称为全SLAM(FULL SLAM)。表1给出了常用的 了DSM(decoupled stochastic mapping)方法, 开源VSLAM方案,其中有使用滤波方法的,也有 DSM中机器人位置估计被各子地图分别保存,当机 使用优化方法的,本文2.1和2.2节将对典型方案 器人从1个子地图运动到另1个子地图时,将前 详述。 1个子地图的信息以EKF的方式传送给后1个子 表1常用开源VSLAM方案 地图。Williams等提出的基于CLSF(constrained Table 1 Commonly used open source VSLAM solutions local submap filter)的SLAM方法涉及全局坐标已 方案名称 传感器形式 地址 知的子地图,首先构建出这些子地图,然后机器人 MonoSLAM 单目 https://github.com/hanmekim/Sc 运动过程中只利用观测信息更新自身位置和局部子 eneLib2 地图中的特征标志,并且在时效范围内向全局地图 PTAM 单目 http://www.robots.ox.ac.uk/-gk/ 传递局部子地图信息。Guivant等提出了1种没 PTAM/ ORB-SLAM 单目为主htp://webdiis.unizar..es/-raulmu 有任何信息丢失的SLAM优化算法CEKF(com- r/orbslam/ pressed extended Kalman filter))。在CEKF中,已观 LSD-SLAM 单目为主http:/vision.in.tum.de/research/ 测到的地图路标一分为二分成A与B两部分,比较 vslam/Isdslam 特别的是,用A来记录活动子地图(机器人当前位 SVO 单目 https://github.com/uzh- rpg/rpg_svo 置的邻域)。当机器人在A中运动时,机器人的位 DTAM RGBD https://github.com/anuranbaka/ 置与地图A通过观测信息得到实时更新,与此同 OpenDTAM 时,地图B受到子观测信息的影响被递归地记录; DVO RGBD https://github.com/tum- vision/dvo slam 当机器人运动到A的区域之外时,观测信息被传送 RTAB-MAP 双目/RGBD https:/github.com/introlab/tab 给子地图B,地图B进行一次性更新,新的活动子 map 地图同时被创建。 RGBD-SLAM-V2 RGBD https://github.com/felixendres/rg bdslam v2 为了降低SLAM的时间复杂度,Thrun等也 Elastic Fusion 单目 https://github.com/mp3guy/Elast 提出去相关的方法,即基于稀疏信息滤波器(sparse icFusion extended information filter,.SElF)的SLAM方法,该
差使得估计轨迹和真实轨迹相差很大。当前 VSLAM 系统多采用回环检测的方式减小这一误差。回环检 测是指机器人识别出曾经到达过的场景的能力,当 机器人看到两张相似图片时,计算图像数据的相似 性,如果回环检测成功,可以显著地减小累积误 差。回环检测在 VSLAM 中意义重大,既关系到估 计的地图和轨迹在长时间下的正确性,也可在跟丢 时进行重定位,大大增强了系统的鲁棒性。 2 VSLAM 实现方法 VSLAM 的实现方法分为基于滤波器的方法和 基于图优化的方法。其中,基于滤波器的方法只估 计当前时刻的位姿,是一种增量式算法;基于图优 化的方法根据所有观测到的信息,对整个机器人运 动轨迹进行估计。前者又称为在线 SLAM,后者又 称为全 SLAM(FULL SLAM)。表 1 给出了常用的 开源 VSLAM 方案,其中有使用滤波方法的,也有 使用优化方法的,本文 2.1 和 2.2 节将对典型方案 详述。 2.1 基于滤波器的实现方法 2.1.1 基于扩展卡尔曼滤波器(extended kalman filter, EKF)的 EKF-VSLAM 21 世纪之前, SLAM 中的状态估计主要使用 滤波的方法。在 SLAM 中,系统的状态由机器人的 位姿和地图信息 (路标) 组成。用卡尔曼滤波器 (KF) 实现 SLAM 必须遵循运动方程和观测方程都 符合线性高斯模型、系统的状态服从高斯分布这两 个假设。基于 KF 的 SLAM 由系统状态预测和更新 两步组成,与此同时,对地图进行加入新路标、删除 旧路标等操作。KF 中,假设系统都是线性的,但是 现实中,机器人的运动模型与观测模型往往都是非 线性的。对此,通常采用一阶泰勒展开来近似表示 非线性模型的扩展卡尔曼滤波器 (extended Kalman filter,EKF) 方法来实现 SLAM。 卡尔曼滤波器是实现 SLAM 的基本方法之一[29]。 其协方差矩阵描述了机器人的位置和地图的不确定 信息。当机器人连续观测到环境中的特征标志时, 所有协方差矩阵子阵的行列式呈单调递减。每一时 刻机器人能观测到路标不会很多,只有少数几个。 基于卡尔曼滤波器的 SLAM 的时间复杂度为 O(n 2 ),n 表示地图中的特征标志数[30]。为了达到降 低 SLAM 的时间复杂度的目的,Leonard 等 [31]提出 了 DSM (decoupled stochastic mapping) 方法。 DSM 中机器人位置估计被各子地图分别保存,当机 器人从 1 个子地图运动到另 1 个子地图时,将前 1 个子地图的信息以 EKF 的方式传送给后 1 个子 地图。Williams 等 [32]提出的基于 CLSF (constrained local submap filter) 的 SLAM 方法涉及全局坐标已 知的子地图,首先构建出这些子地图,然后机器人 运动过程中只利用观测信息更新自身位置和局部子 地图中的特征标志,并且在时效范围内向全局地图 传递局部子地图信息。Guivant 等 [33]提出了 1 种没 有任何信息丢失的 SLAM 优化算法 CEKF ( compressed extended Kalman filter)。在 CEKF 中,已观 测到的地图路标一分为二分成 A 与 B 两部分,比较 特别的是,用 A 来记录活动子地图 (机器人当前位 置的邻域)。当机器人在 A 中运动时,机器人的位 置与地图 A 通过观测信息得到实时更新,与此同 时,地图 B 受到子观测信息的影响被递归地记录; 当机器人运动到 A 的区域之外时,观测信息被传送 给子地图 B,地图 B 进行一次性更新,新的活动子 地图同时被创建。 为了降低 SLAM 的时间复杂度,Thrun 等 [34]也 提出去相关的方法,即基于稀疏信息滤波器 (sparse extended information filter,SEIF) 的 SLAM 方法,该 表 1 常用开源 VSLAM 方案 Table 1 Commonly used open source VSLAM solutions 方案名称 传感器形式 地址 MonoSLAM 单目 https://github.com/hanmekim/Sc eneLib2 PTAM 单目 http://www.robots.ox.ac.uk/~gk/ PTAM/ ORB-SLAM 单目为主 http://webdiis.unizar.es/~raulmu r/orbslam/ LSD-SLAM 单目为主 http://vision.in.tum.de/research/ vslam/lsdslam SVO 单目 https://github.com/uzhrpg/rpg_svo DTAM RGBD https://github.com/anuranbaka/ OpenDTAM DVO RGBD https://github.com/tumvision/dvo_slam RTAB-MAP 双目/RGBD https://github.com/introlab/rtab map RGBD-SLAM-V2 RGBD https://github.com/felixendres/rg bdslam_v2 Elastic Fusion 单目 https://github.com/mp3guy/Elast icFusion (a) ⱋ䒔䔥 (b) ܦ⣜㉛⼛䄛ጚ⮰䒔䔥 图 4 真实轨迹与出现累积误差的轨迹 Fig. 4 Real track and track with accumulated error ·100· 智 能 系 统 学 报 第 13 卷
第1期 周彦,等:视觉同时定位与地图创建综述 ·101· 方法中,只对约束关系进行局部更新,这种局部更 线性优化的方法(现代SLAM系统)可以取得更好 新使得信息矩阵近似于系数矩阵,有效降低 的效果1o SLAM的时间复杂度。 另外,在2011年滤波方面出现了基于RFS Davisonl3s于2007年提出的MonoSLAM,是第 (random finite set)的方法B。RFS是滤波中新兴的 一个基于EKF方法实时的单目VSLAM系统,虽然 潮流B8),RFS是以集合为元素的集合,此集合中的 初步解决了实时的问题,能够在线创建稀疏地图, 元素及元素个数都是随机变量。文献38]对环境地 漂移多少仍然不能确定,目前已经停止对其的开发。 图和传感器观测信息用RFS建模,构造联合目标状 图S是基于EKF的单目VSLAM流程图。 态变量的RFS。依据贝叶斯滤波框架,利用概率假 设密度滤波(probability hypothesis density,.PHD)B9 传感器信息 实现对机器人位姿和环境地图同时估计。该算法避 免了数据关联的问题,相对于EKF和P℉能更有效 地表达SLAM问题。 开始/ 运动模型 EKF 待征 新特 2.2现代SLAM系统:基于非线性优化的方法 EKF预测 更新 转换 征点 现代S1AM系统分为两个部分:前端和后端。 前端提取传感器数据构建模型用于状态估计,后 数据 测量 6维特征 端根据前端提供的数据进行优化。这个架构如图6 关联 模型 到3维特征 所示。 前端 后端 视 特征点 传感器数据 图像 初始化 特征提取 致据关联 优化 图5基于EKF的单目VSLAM流程图 短期(跟踪 Fig.5 Flowchart of EKF-based monocular VSLAM 长期(回环 2.1.2基于粒子滤波器的FastSLAM M.Montemerlo等B6-3提出了1种基于粒子滤 波器(particle filter,PF)的FastSLAM方法。Fast- 图6典型SLAM系统 Fig.6 Typical SLAM system SLAM包含了机器人定位和特征标志位置估计两个 当前SLAM事实标准形成来源于Lu和Milios 过程。粒子滤波器法中机器人可能的运动路径用粒 它是Gutmann和Konoligel研究的后续。典型的 子表示,1个粒子对应着1种可能,每条路径的好坏 SLAM系统如图6所示,前端进行特征提取、数据 由利用观测信息计算得到的粒子权重来评价。对于 关联和初值优化。前端的数据关联模块包括1个短 每个粒子来说机器人的运动路径是确定的,故特征 标志之间相互独立且其观测信息只与机器人的位姿 期(局部)数据关联模块和1个长期(回环)数据关 联模块。通常意义下的数据关联问题在SLAM中 有关。FastSLAM的时间复杂度为O(kn),其中 k为粒子个数0。用树形数据结构优化后的时间复 是指递增定位与建图过程中如何确定当前连续的传 杂度可以达到O(k log n)B0。FastSLAM能够比较 感器观测之间或者当前时刻的观测与最近所创建的 好地表示机器人的非线性、非高斯运动模型。 局部地图中特征间的关联关系,这也称为短期(局 EKF存在非线性误差,且需要存储、维护和更 部)数据关联;回环检测中的数据关联研究机器人 新状态量的均值和方差。如果把路标也加入状态的 沿不同的路径回到某一循环的起点时,如何确定当 话,由于V SLAM中路标数量很大,这个存储量是 前创建的局部地图中的特征与以前所创建的循环起 相当大的,且与状态量呈平方增长(因为要存储协 点处地图中的特征间的关联关系,这称为长期(回 方差矩阵)。因此,EKF普遍被认为不适用于大型 环)数据关联。短期的数据关联模块负责关联传感 场景。P℉采样所需的粒子数量,随维度的增加呈指 器中连续的观测值对应的特征:得到1帧图像数据 数增长,所以仅限于低维的问题,对高维问题不适 后,对其进行预处理,筛选出关键帧,对图像进行特 用。除此之外,滤波器方法在一定程度上假设了马 征提取、匹配以及运动求解并得到局部地图,也就 尔可夫性,如果当前帧与很久之前的帧有关(例如 是视觉里程计(visual odometry,VO);长期的数据 回环),那么滤波器就会难以处理这种情况。因为 关联负责将新的观测值关联到旧的路标上,也就是 滤波这些明显的缺点,在同等计算量的情况下,非 回环(loop closure)
方法中,只对约束关系进行局部更新,这种局部更 新使得信息矩阵近似于系数矩阵,有效降 低 SLAM 的时间复杂度。 Davison[35]于 2007 年提出的 MonoSLAM,是第 一个基于 EKF 方法实时的单目 VSLAM 系统,虽然 初步解决了实时的问题,能够在线创建稀疏地图, 漂移多少仍然不能确定,目前已经停止对其的开发。 图 5 是基于 EKF 的单目 VSLAM 流程图。 2.1.2 基于粒子滤波器的 FastSLAM M. Montemerlo 等 [36-37]提出了 1 种基于粒子滤 波器 (particle filter, PF) 的 FastSLAM 方法。 FastSLAM 包含了机器人定位和特征标志位置估计两个 过程。粒子滤波器法中机器人可能的运动路径用粒 子表示,1 个粒子对应着 1 种可能,每条路径的好坏 由利用观测信息计算得到的粒子权重来评价。对于 每个粒子来说机器人的运动路径是确定的,故特征 标志之间相互独立且其观测信息只与机器人的位姿 有关。FastSLAM 的时间复杂度为 O (kn) ,其中 k 为粒子个数[30]。用树形数据结构优化后的时间复 杂度可以达到 O (k log n) [30]。 FastSLAM 能够比较 好地表示机器人的非线性 、非高斯运动模型。 EKF 存在非线性误差,且需要存储、维护和更 新状态量的均值和方差。如果把路标也加入状态的 话,由于 V SLAM 中路标数量很大,这个存储量是 相当大的,且与状态量呈平方增长(因为要存储协 方差矩阵)。因此,EKF 普遍被认为不适用于大型 场景。PF 采样所需的粒子数量,随维度的增加呈指 数增长,所以仅限于低维的问题,对高维问题不适 用。除此之外,滤波器方法在一定程度上假设了马 尔可夫性,如果当前帧与很久之前的帧有关(例如 回环),那么滤波器就会难以处理这种情况。因为 滤波这些明显的缺点,在同等计算量的情况下,非 线性优化的方法(现代 SLAM 系统)可以取得更好 的效果[10]。 另外,在 2011 年滤波方面出现了基于 RFS (random finite set) 的方法[38]。RFS 是滤波中新兴的 潮流[38] ,RFS 是以集合为元素的集合,此集合中的 元素及元素个数都是随机变量。文献[38]对环境地 图和传感器观测信息用 RFS 建模,构造联合目标状 态变量的 RFS。依据贝叶斯滤波框架,利用概率假 设密度滤波(probability hypothesis density, PHD) [39] 实现对机器人位姿和环境地图同时估计。该算法避 免了数据关联的问题,相对于 EKF 和 PF 能更有效 地表达 SLAM 问题。 2.2 现代 SLAM 系统:基于非线性优化的方法 现代 SlAM 系统分为两个部分:前端和后端[1]。 前端提取传感器数据构建模型用于状态估计,后 端根据前端提供的数据进行优化。这个架构如图 6 所示。 当前 SLAM 事实标准形成来源于 Lu 和 Milios[40] , 它是 Gutmann 和 Konolige[41]研究的后续。典型的 SLAM 系统如图 6 所示,前端进行特征提取、数据 关联和初值优化。前端的数据关联模块包括 1 个短 期(局部)数据关联模块和 1 个长期 (回环) 数据关 联模块。通常意义下的数据关联问题在 SLAM 中 是指递增定位与建图过程中如何确定当前连续的传 感器观测之间或者当前时刻的观测与最近所创建的 局部地图中特征间的关联关系,这也称为短期(局 部)数据关联;回环检测中的数据关联研究机器人 沿不同的路径回到某一循环的起点时,如何确定当 前创建的局部地图中的特征与以前所创建的循环起 点处地图中的特征间的关联关系,这称为长期(回 环)数据关联。短期的数据关联模块负责关联传感 器中连续的观测值对应的特征:得到 1 帧图像数据 后,对其进行预处理,筛选出关键帧,对图像进行特 征提取、匹配以及运动求解并得到局部地图,也就 是视觉里程计(visual odometry,VO);长期的数据 关联负责将新的观测值关联到旧的路标上,也就是 回环(loop closure)。 ᐬ/ ֈ₎ ьᙋஔԍᖛ 䓼ߔὍಷ EKF 䶰≷ ᢚ 㖀ڟ EKF ᰠ ≷䛻 Ὅಷ 6 㐠➥ᒭ ݜ3 㐠➥ᒭ ➥ᒭ◥ ࡂ݉ ➥ᒭ 䒘ᢎ ➥ ᒭ◥ 㻲䶽 ప N N Y Y 图 5 基于 EKF 的单目 VSLAM 流程图 Fig. 5 Flowchart of EKF-based monocular VSLAM ьᙋஔᢚ ࡂф 〚ऺ 〚ݹ ➥ᒭं ᢚڟ㖀 ⴙ(䌋䍖) 䪫(ఊ⣛) 图 6 典型 SLAM 系统 Fig. 6 Typical SLAM system 第 1 期 周彦,等:视觉同时定位与地图创建综述 ·101·
·102· 智能系统学报 第13卷 前端对视觉传感器得到的图像的处理考虑两帧 程以及全局位姿图的回环检测与优化线程三线程完 的信息,出现错误匹配后便无法进行,视觉里程计 成SLAM.能够确保地图与轨迹的全局一致性。其 也存在累积误差:后端用来解决这些问题,对全局 中,实时跟踪特征点线程对每帧新来的图像提取 进行优化。后端优化不仅仅考虑相邻两帧之间的信 ORB特征,并与最近的关键帧比较,计算特征点的 息,而且把所有帧(包括很久之前的状态)的信息都 位置并粗略估计相机位姿;局部捆集优化线程求解 考虑进来,其本质上是1个线性最小二乘问题。与 1个包括局部空间内的特征点与相机位姿的BA 此同时,后端也将信息反馈给前端用于回环检测、 (bundle adjustment)问题;全局位姿图的回环检测与 验证等。上述优化问题在SLAM中表示成图(图论 优化线程对全局的地图关键帧进行回环检测,消除 意义上的图)的形式。1个图由若干个顶点,以及连 累积误差。继PTAM的双线程结构之后,ORB-SLAM 接着这些顶点的边组成:用顶点表示优化变量,用 的三线程结构又给研究者带来新的思路。相比于 边表示误差项。于是对任意1个上述形式的非线性 PTAM,ORB-SLAM有着更为宽松的关键帧选取策 最小二乘问题可以构建与之对应的1个图。后端优 略。ORB-SLAM在优化位姿时循环优化4次,确保 化工具常用g2o、Google Ceres、GTSAM等。 得到更多的正确匹配。所有的这些改进使得ORB- 2.2.1基于特征提取的VSLAM SLAM具有更好的鲁棒性,即使在较差的场景也能 2007年,Klein等u8提出的PTAM(parallel 顺利工作。ORB-SLAM2提供单目、双目和RGBD tracking and mapping)是基于关键帧的单目VSLAM 接口,这使得它具有更好的泛用性。然而,ORB的 系统。PTAM提出并实现了跟踪与建图过程的并行 建图部分只含有稀疏的地图点,只能满足定位需 化。这是视觉SLAM中首次出现前后端的概念,对 求,用于导航就不足了。另外,整个ORB-SLAM系 后来许多视觉SLAM系统的设计提供了方向。PTAM 统都采用特征点进行计算,对于每张图都要计算 将姿态跟踪和建立地图设计为两个线程:姿态跟踪 ORB特征,这使得ORB-SLAM系统非常耗时。 线程(前端)不修改地图,只是用已知地图来快速跟 2.2.2基于直接法的VSLAM 踪;建立地图线程(后端)引入关键帧机制,把若干 特征点法在VSLM中占据着主流地位,但关键 个关键帧串起来继而优化其轨迹和地图,此过程专 点的提取与描述子的计算非常耗时,而且使用特征 注于地图的建立、维护和更新。PTAM在选取关键 点时,只使用到特征点的信息,其他的像素点都被 帧、匹配特征、估计相机位置方面十分出色,PTAM 忽略了。针对这些缺点,出现了直接法VSLAM,该 在重定位上(跟踪失败后需要进行重定位以继续跟 法既不必提取关键点也不必计算描述子,而是基于 踪)也表现突出,然而该算法没有设计回环检测部 灰度不变假设,根据像素来直接计算相机运动。直 分,且缺少帧数过多时的处理,视图不变特性较差, 接法是从光流4演变而来的,光流描述了像素在图 鲁棒性不够,需要人工干预地图的构建过程。 像中的运动,而直接法则附带1个相机运动模型。 RGBD-SLAM-V2是F.Endres在2014年提 直接法中,假设在各个视角下,1个空间点成像的灰 出的一种使用深度相机计算SLAM的系统。RGBD- 度值是恒定不变的。该方法直接根据像素亮度信 SLAM-V2前端提取3-D点的图像特征,进行匹配 息,估计相机的运动。直接法完全舍去了关键点提 渲染点云,后端建立位姿图并用g20进行优化,最 取和描述子计算,不仅避开了耗时的特征提取,而 后输出地图。RGBD-SLAM-V2仅使用深度相机一 且保留了所有特征信息。 RGBD相机,同时采用SLAM领域里的图像特征提 文献[46]里的DTAM(dense tracking and map- 取、回环检测、点云、图优化等目前非常流行的技 ping),继续使用关键帧的架构,但对关键帧的处理 术,效果良好,但特征点提取、点云渲染都是费时的 与传统的特征点提取大相径庭。DTAM中的直接 环节,算法实时性有待改进。 法(direct method)在默认环境亮度不变的前提下, 2015年,ORB-SLAM4算法被提出。ORB- 对每一个像素的深度数据进行反深度(inverse SLAM整合当前各种主流的方式计算SLAM,是现 depth)计算和不断优化,从而建立稠密地图并且稳 代SLAM系统中非常完善且易用的算法之一。ORB- 定地跟踪。DTAM准、稳,但对每一个像素都计算 SLAM整个系统都是围绕着ORB特征实现的,对 使得实时计算困难,需通过GPU加速。 输入的图像信息处理时使用ORB特征,在视觉里 文献[47]中J.Enge等在2014年提出了LSD 程计与回环检测环节使用ORB字典。ORB-SLAM SLAM(large-scale direct monocular SLAM),LSD- 创新地使用实时跟踪特征点线程、局部捆集优化线 SLAM是直接法在单目SLAM中的实现。LSD-
前端对视觉传感器得到的图像的处理考虑两帧 的信息,出现错误匹配后便无法进行,视觉里程计 也存在累积误差;后端用来解决这些问题,对全局 进行优化。后端优化不仅仅考虑相邻两帧之间的信 息,而且把所有帧(包括很久之前的状态)的信息都 考虑进来,其本质上是 1 个线性最小二乘问题。与 此同时,后端也将信息反馈给前端用于回环检测、 验证等。上述优化问题在 SLAM 中表示成图(图论 意义上的图)的形式。1 个图由若干个顶点,以及连 接着这些顶点的边组成;用顶点表示优化变量,用 边表示误差项。于是对任意 1 个上述形式的非线性 最小二乘问题可以构建与之对应的 1 个图。后端优 化工具常用 g2o、Google Ceres、GTSAM 等。 2.2.1 基于特征提取的 VSLAM 2007 年,Klein 等 [18]提出的 PTAM (parallel tracking and mapping) 是基于关键帧的单目 VSLAM 系统。PTAM 提出并实现了跟踪与建图过程的并行 化。这是视觉 SLAM 中首次出现前后端的概念,对 后来许多视觉 SLAM 系统的设计提供了方向。PTAM 将姿态跟踪和建立地图设计为两个线程:姿态跟踪 线程(前端)不修改地图,只是用已知地图来快速跟 踪;建立地图线程(后端)引入关键帧机制,把若干 个关键帧串起来继而优化其轨迹和地图,此过程专 注于地图的建立、维护和更新。PTAM 在选取关键 帧、匹配特征、估计相机位置方面十分出色,PTAM 在重定位上(跟踪失败后需要进行重定位以继续跟 踪)也表现突出,然而该算法没有设计回环检测部 分,且缺少帧数过多时的处理,视图不变特性较差, 鲁棒性不够,需要人工干预地图的构建过程。 RGBD-SLAM-V2[42] 是 F. Endres 在 2014 年提 出的一种使用深度相机计算 SLAM 的系统。RGBDSLAM-V2 前端提取 3-D 点的图像特征,进行匹配, 渲染点云,后端建立位姿图并用 g2o 进行优化,最 后输出地图。RGBD-SLAM-V2 仅使用深度相机—— RGBD 相机,同时采用 SLAM 领域里的图像特征提 取、回环检测、点云、图优化等目前非常流行的技 术,效果良好,但特征点提取、点云渲染都是费时的 环节,算法实时性有待改进。 2015 年,ORB-SLAM[43]算法被提出。ORBSLAM 整合当前各种主流的方式计算 SLAM,是现 代 SLAM 系统中非常完善且易用的算法之一。ORBSLAM 整个系统都是围绕着 ORB 特征实现的,对 输入的图像信息处理时使用 ORB 特征,在视觉里 程计与回环检测环节使用 ORB 字典。ORB-SLAM 创新地使用实时跟踪特征点线程、局部捆集优化线 程以及全局位姿图的回环检测与优化线程三线程完 成 SLAM,能够确保地图与轨迹的全局一致性。其 中,实时跟踪特征点线程对每帧新来的图像提取 ORB 特征,并与最近的关键帧比较,计算特征点的 位置并粗略估计相机位姿;局部捆集优化线程求解 1 个包括局部空间内的特征点与相机位姿的 BA (bundle adjustment)问题;全局位姿图的回环检测与 优化线程对全局的地图关键帧进行回环检测,消除 累积误差。继 PTAM 的双线程结构之后,ORB-SLAM 的三线程结构又给研究者带来新的思路。相比于 PTAM,ORB-SLAM 有着更为宽松的关键帧选取策 略。ORB-SLAM 在优化位姿时循环优化 4 次,确保 得到更多的正确匹配。所有的这些改进使得 ORBSLAM 具有更好的鲁棒性,即使在较差的场景也能 顺利工作。ORB-SLAM2[44]提供单目、双目和 RGBD 接口,这使得它具有更好的泛用性。然而,ORB 的 建图部分只含有稀疏的地图点,只能满足定位需 求,用于导航就不足了。另外,整个 ORB-SLAM 系 统都采用特征点进行计算,对于每张图都要计算 ORB 特征,这使得 ORB-SLAM 系统非常耗时。 2.2.2 基于直接法的 VSLAM 特征点法在 VSLM 中占据着主流地位,但关键 点的提取与描述子的计算非常耗时,而且使用特征 点时,只使用到特征点的信息,其他的像素点都被 忽略了。针对这些缺点,出现了直接法 VSLAM,该 法既不必提取关键点也不必计算描述子,而是基于 灰度不变假设,根据像素来直接计算相机运动。直 接法是从光流[45]演变而来的,光流描述了像素在图 像中的运动,而直接法则附带 1 个相机运动模型。 直接法中,假设在各个视角下,1 个空间点成像的灰 度值是恒定不变的。该方法直接根据像素亮度信 息,估计相机的运动。直接法完全舍去了关键点提 取和描述子计算,不仅避开了耗时的特征提取,而 且保留了所有特征信息。 文献[46]里的 DTAM(dense tracking and mapping),继续使用关键帧的架构,但对关键帧的处理 与传统的特征点提取大相径庭。DTAM 中的直接 法(direct method)在默认环境亮度不变的前提下, 对每一个像素的深度数据进行反深度(inverse depth)计算和不断优化,从而建立稠密地图并且稳 定地跟踪。 DTAM 准、稳,但对每一个像素都计算 使得实时计算困难,需通过 GPU 加速。 文献[47]中 J. Engel 等在 2014 年提出了 LSDSLAM(large-scale direct monocular SLAM),LSDSLAM 是直接法在单目 SLAM 中的实现。LSD- ·102· 智 能 系 统 学 报 第 13 卷
第1期 周彦,等:视觉同时定位与地图创建综述 ·103· SLAM放弃了BA(bundle adjustment)的方法,利用 们致力于降低算法复杂度、诚小误差、提高效率和 直接法构建了半稠密地图,可在实时应用中运行」 精度、提高鲁棒性等。但是在以下几个方面还需要 非常适合机器人使用。LSD-SLAM对相机内参和 更进一步研究。 相机曝光非常敏感,且相机快速运动时不容易跟 1)静态环境到动态环境 踪。LSD-SLAM中相机定位的精度明显比PTAM 目前,大部分VSLAM系统仍然局限于研究理 和ORB低。在回环检测部分,目前尚未有在直接 想情况下的静态环境,然而事与愿违,现实中的环 法上实现的回环检测方式,LSD-SLAM仍需依赖基 境通常是复杂的动态环境,在动态环境下研究 于特征的回环检测方法。 VSLAM具有重要的意义。动态环境中在语义地图 文献[481中Forster等提出了介于直接方式和基 下做VSLAM是一个可选择的方法。利用语义地图先 于特征的方法之间的半直接法SVO。SVO中特征 判断物体是否为可动物体,然后继续下一步的动作。 点与直接法混合使用,跟踪一些关键点(无描述子 2)与人工智能相结合的VSLAM实现方法 的角点),然后用直接法,根据这些关键点周围的信 可以将人工智能领域的方法引入到VSLAM中网, 息,估计相机的运动和位置。SVO不必计算描述 寻找更有效的VSLAM算法,如文献[51]。上文提 子,处理的信息少,速度极快,在4轴飞行器上效果 及的语义地图也可尝试用深度学习的方式实现。 很好。然而,SVO为了速度和轻量化,没有回环检 3)多传感器融合 测、后端优化部分,这导致了SVO必然存在累计误 本文所提到的算法都是在仅用相机作为传感器 差,且跟丢后难以重定位。 的前提下,而在算法的实用方面,仅用单一传感器 直接法可以构建半稠密乃至稠密的地图,而特 的VSLAM有固有局限,如相机快速运动下不容易 征,点法因为自身局限是无法做到的。对比稀疏的点 跟踪、难以处理动态的障碍物等,因此,将不同的传 云地图,比如ORB-SLAM或PTAM,构建稠密的地 感器数据融合起来进行互补,可使系统更加鲁棒 图对相机定位和导航意义更加深刻,作用也更加突 精度更高。例如,惯导组合的VSLAM更能适用于 出。直接法只要求有像素梯度即可估计相机运动. 复杂的场景。惯性传感器(MU)能够测量传感器 而无须特征点。上文中的DTAM和LSD-SLAM可 本体的加速度和角速度,与相机传感器互补,两者 以对环境进行稠密或半稠密的地图构建,相机位姿 融合之后能得到更完善的VSLAM系统,然而如何 通过图像像素的灰度直接优化。直接法避开了提取 有效结合这两者是值得深入探讨的问题。 特征这一繁琐和耗时的过程,大大提高了系统效 4)多机器人协作 率,且在图像模糊、低纹理环境和高频纹理的情况 对于单个机器人的VSLAM系统已经有不少的 下有着更好的鲁棒性。 解决方案,然而多机器人VSLAM领域还有通信拓 然而,直接法有其局限性。这些方法采用一个 扑、任务规划和地图融合等方面有待研究四。 表面反射模型,灰度值不变这一严苛的假设需要严 上述VSLAM发展方向中,结合深度学习的 格遵守。灰度间的差异计算是直接法赖以实现的基 VSLAM和多传感融合VSLAM将在SALM领域占 础,如果环境亮度或者图像整体灰度变化,例如环 据重要地位;动态环境下的VSLAM和多机器人协 境突然发生光线变换或者相机突然调整曝光参数, 作VSLAM仍需砥砺前行。 整体的图像就会变亮或变暗,于是灰度不变假设不 参考文献: 再成立,算法失败。梯度不明显的像素对环境重构 的精度影响很大,对于非深度相机需要更多的观测 [1]CADENA C,CARLONE L,CARRILLO H,et al.Simultan- 信息以弥补深度的不确定性。直接法可能会受到快 eous localization and mapping:present,future,and the ro- 门、自动增益和自动曝光的影响,而且对相机的图 bust-perception age[Z].Computer science,2016. 像采集速率也有较高的要求。相反,基于特征的 [2]FUENTES-PACHECO J,RUIZ-ASCENCIO J,RENDON- MANCHA J M.Visual simultaneous localization and map- VSLAM方法得益于其较好的视图不变特性,可以 ping:a survey[J].Artificial intelligence review,2015,43(1) 在更宽的条件下匹配特征、捆集调整和优化相机位 55-81 姿。文献[49]也指出了特征点法相比直接法的优势。 [3]于金霞,王路,蔡自兴.未知环境中移动机器人自定位技 3结束语 术M.北京:电子工业出版社,2011 YU Jinxia,WANG Lu,CAI Zixing.Self-localization tech- 综上所述,随着机器视觉技术的兴起,VSLAM nologies of mobile robot in unknown environment[M] 成为机器人领域越来越热的问题,该领域的研究者 Beijing:Publishing House of Electronics Industry,2011
SLAM 放弃了 BA (bundle adjustment) 的方法,利用 直接法构建了半稠密地图,可在实时应用中运行, 非常适合机器人使用。LSD-SLAM 对相机内参和 相机曝光非常敏感,且相机快速运动时不容易跟 踪。LSD-SLAM 中相机定位的精度明显比 PTAM 和 ORB 低 [43]。在回环检测部分,目前尚未有在直接 法上实现的回环检测方式,LSD-SLAM 仍需依赖基 于特征的回环检测方法。 文献[48]中 Forster 等提出了介于直接方式和基 于特征的方法之间的半直接法 SVO。SVO 中特征 点与直接法混合使用,跟踪一些关键点(无描述子 的角点),然后用直接法,根据这些关键点周围的信 息,估计相机的运动和位置。SVO 不必计算描述 子,处理的信息少,速度极快,在 4 轴飞行器上效果 很好。然而,SVO 为了速度和轻量化,没有回环检 测、后端优化部分,这导致了 SVO 必然存在累计误 差,且跟丢后难以重定位。 直接法可以构建半稠密乃至稠密的地图,而特 征点法因为自身局限是无法做到的。对比稀疏的点 云地图,比如 ORB-SLAM 或 PTAM,构建稠密的地 图对相机定位和导航意义更加深刻,作用也更加突 出。直接法只要求有像素梯度即可估计相机运动, 而无须特征点。上文中的 DTAM 和 LSD-SLAM 可 以对环境进行稠密或半稠密的地图构建,相机位姿 通过图像像素的灰度直接优化。直接法避开了提取 特征这一繁琐和耗时的过程,大大提高了系统效 率,且在图像模糊、低纹理环境和高频纹理的情况 下有着更好的鲁棒性。 然而,直接法有其局限性。这些方法采用一个 表面反射模型,灰度值不变这一严苛的假设需要严 格遵守。灰度间的差异计算是直接法赖以实现的基 础,如果环境亮度或者图像整体灰度变化,例如环 境突然发生光线变换或者相机突然调整曝光参数, 整体的图像就会变亮或变暗,于是灰度不变假设不 再成立,算法失败。梯度不明显的像素对环境重构 的精度影响很大,对于非深度相机需要更多的观测 信息以弥补深度的不确定性。直接法可能会受到快 门、自动增益和自动曝光的影响,而且对相机的图 像采集速率也有较高的要求。相反,基于特征的 VSLAM 方法得益于其较好的视图不变特性,可以 在更宽的条件下匹配特征、捆集调整和优化相机位 姿。文献[49]也指出了特征点法相比直接法的优势。 3 结束语 综上所述,随着机器视觉技术的兴起,VSLAM 成为机器人领域越来越热的问题,该领域的研究者 们致力于降低算法复杂度 、减小误差、提高效率和 精度、提高鲁棒性等。但是在以下几个方面还需要 更进一步研究。 1)静态环境到动态环境 目前,大部分 VSLAM 系统仍然局限于研究理 想情况下的静态环境,然而事与愿违,现实中的环 境通常是复杂的动态环境,在动态环境下研究 VSLAM 具有重要的意义。动态环境中在语义地图 下做 VSLAM 是一个可选择的方法。利用语义地图先 判断物体是否为可动物体,然后继续下一步的动作。 2)与人工智能相结合的 VSLAM 实现方法 可以将人工智能领域的方法引入到 VSLAM 中 [50] , 寻找更有效的 VSLAM 算法,如文献[51]。上文提 及的语义地图也可尝试用深度学习的方式实现。 3)多传感器融合 本文所提到的算法都是在仅用相机作为传感器 的前提下,而在算法的实用方面,仅用单一传感器 的 VSLAM 有固有局限,如相机快速运动下不容易 跟踪、难以处理动态的障碍物等,因此,将不同的传 感器数据融合起来进行互补,可使系统更加鲁棒、 精度更高。例如,惯导组合的 VSLAM 更能适用于 复杂的场景。惯性传感器 (IMU) 能够测量传感器 本体的加速度和角速度,与相机传感器互补,两者 融合之后能得到更完善的 VSLAM 系统,然而如何 有效结合这两者是值得深入探讨的问题。 4)多机器人协作 对于单个机器人的 VSLAM 系统已经有不少的 解决方案,然而多机器人 VSLAM 领域还有通信拓 扑、任务规划和地图融合等方面有待研究[52]。 上述 VSLAM 发展方向中,结合深度学习的 VSLAM 和多传感融合 VSLAM 将在 SALM 领域占 据重要地位;动态环境下的 VSLAM 和多机器人协 作 VSLAM 仍需砥砺前行。 参考文献: CADENA C, CARLONE L, CARRILLO H, et al. Simultaneous localization and mapping: present, future, and the robust-perception age[Z]. Computer science, 2016. [1] FUENTES-PACHECO J, RUIZ-ASCENCIO J, RENDÓNMANCHA J M. Visual simultaneous localization and mapping: a survey[J]. Artificial intelligence review, 2015, 43(1): 55–81. [2] 于金霞, 王璐, 蔡自兴. 未知环境中移动机器人自定位技 术[M]. 北京: 电子工业出版社, 2011. YU Jinxia, WANG Lu, CAI Zixing. Self-localization technologies of mobile robot in unknown environment[M]. Beijing: Publishing House of Electronics Industry, 2011. [3] 第 1 期 周彦,等:视觉同时定位与地图创建综述 ·103·
·104· 智能系统学报 第13卷 [4)刘浩敏,章国锋,鲍虎军.基于单目视觉的同时定位与地 ceedings of the 11th European Conference on Computer 图构建方法综述),计算机辅助设计与图形学学报,2016, Vision.Heraklion,Crete,Greece,2010:778-792 28(6):855-868. [17]CIVERA J,DAVISON A J,MONTIEL J MM.Inverse LIU Haomin,ZHANG Guofeng,BAO Hujun.A survey of depth parametrization for monocular SLAM[J].IEEE monocular simultaneous localization and mapping[J].Journ- transactions on robotics,2008,24(5):932-945. al of computer-aided design and computer graphics,2016, [18]KLEIN G,MURRAY D.Parallel tracking and mapping for 28(6):855-868. small AR workspaces[C]//Proceedings of the 6th IEEE and [5]SMITH R,SELF M,CHEESEMAN P.Estimating uncer- ACM International Symposium on Mixed and Augmented tain spatial relationships in robotics[J].Machine intelli- Reality.Nara,Japan,2007:225-234 gence and pattern recognition,1988,1(5):435-461. [19]KLEIN G,MURRAY D.Improving the agility of key- 6]SMITH R C,CHEESEMAN P.On the representation and frame-based SLAM[C]//Proceedings of the 10th European estimation of spatial uncertainty[J].The international journ- Conference on Computer Vision.Marseille,France,2008: al of robotics research,1986,5(4):56-68. 802-815. 7]CSORBA M.Simultaneous localisation and map [20]WEISS S,SIEGWART R.Real-time metric state estima- building[D].Oxford:University of Oxford,1997:699-704. tion for modular vision-inertial systems[Cl//Proceedings of [8]DISSANAYAKE M W M G,NEWMAN P,CLARK S,et 2011 IEEE International Conference on Robotics and al.A solution to the simultaneous localization and map Automation.Shanghai,China,2011:4531-4537. building (SLAM)problem[J].IEEE transactions on robotics [21]JAMA M,SCHINSTOCK D.Parallel tracking and map- and automation,2001,17(3):229-241. ping for controlling VTOL airframe[J].Journal of control [9]AGARWAL S,SNAVELY N,SIMON I,et al.Building science and engineering,2011,2011:413074 Rome in a day[C]//Proceedings of the 12th IEEE Interna- [22]DAVISON A J.SLAM with a single camera[C]//Proceed- tional Conference on Computer Vision.Kyoto,Japan,2009: ings of Workshop on Concurrent Mapping and Localiza- 72-79. tion for Autonomous Mobile Robots in Conjunction with [10]STRASDAT H,MONTIEL J MM,DAVISON A J.Real- ICRA.Washington,DC,USA,2002. time monocular SLAM:why filter?[C]//Proceedings of [23]祝风翔.基于图像的深度获取方法研究D].杭州,中国: 2010 IEEE International Conference on Robotics and 浙江大学,2016 Automation.Anchorage,AK,USA,2010:2657-2664. ZHU Fengxiang.Depth map acquisition method study 「11]梁明杰,闵华清,罗荣华.基于图优化的同时定位与地图 based on image[D].Hangzhou,China:Zhejiang University, 创建综述U.机器人,2013,35(4):500-512 2016 LIANG Mingjie,MIN Huaging,LUO Ronghua.Graph- [24]DAVISON A J.Active search for real-time vision[J].Pro- based SLAM:a survey[J].Robot,2013,35(4):500-512. ceedings of the 10th IEEE International Conference on [12]MUJA M,LOWE D G.Fast approximate nearest neigh- Computer Vision.Beijing,China,2005:66-73. bors with automatic algorithm configuration[C]//Proceed- [25]CIVERA J,GRASA O G,DAVISON A J,et al.1-point ings of the 4th International Conference on Computer Vis- RANSAC for EKF-based structure from motion[C]//Pro- ion Theory and Applications.Lisboa,Portugal,2009: ceedings of 2009 IEEE/RSJ International Conference on 331-340. Intelligent Robots and Systems.St.Louis,MO,USA, [13]LOWE D G.Distinctive image features from scale-invari- 2009:3498-3504 ant keypoints[J].International journal of computer vision, [26]CIVERA J,GRASA O G,DAVISON A J,et al.1-Point 2004,60(2):91-110. RANSAC for extended Kalman filtering:application to [14]BAY H,ESS A,TUYTELAARS T,et al.Speeded-up ro- real-time structure from motion and visual odometry[J]. bust features (SURF)[J].Computer vision and image un- Journal of field robotics,2010,27(5):609-631. derstanding,2008,110(3):346-359. [27]GUERRA E,MUNGUIA R,BOLEA Y,et al.Validation [15]RUBLEE E,RABAUD V,KONOLIGE K,et al.ORB:an of data association for monocular SLAM[J].Mathematical efficient alternative to SIFT or SURF[C]//Proceedings of problems in engineering,2013,2013:671376 2011 IEEE International Conference on Computer Vision. [28]EADE E,DRUMMOND T.Scalable monocular SLAM Barcelona,Spain,2011:2564-2571. [Cl//Proceedings of 2006 IEEE Computer Society Confer- 16]CALONDER M,LEPETIT V,STRECHA C,et al.BRIEF: ence on Computer Vision and Pattern Recognition.New binary robust independent elementary features[C]//Pro- York,NY,USA,2006:469-476
刘浩敏, 章国锋, 鲍虎军. 基于单目视觉的同时定位与地 图构建方法综述[J]. 计算机辅助设计与图形学学报, 2016, 28(6): 855–868. LIU Haomin, ZHANG Guofeng, BAO Hujun. A survey of monocular simultaneous localization and mapping[J]. Journal of computer-aided design and computer graphics, 2016, 28(6): 855–868. [4] SMITH R, SELF M, CHEESEMAN P. Estimating uncertain spatial relationships in robotics[J]. Machine intelligence and pattern recognition, 1988, 1(5): 435–461. [5] SMITH R C, CHEESEMAN P. On the representation and estimation of spatial uncertainty[J]. The international journal of robotics research, 1986, 5(4): 56–68. [6] CSORBA M. Simultaneous localisation and map building[D]. Oxford: University of Oxford, 1997: 699–704. [7] DISSANAYAKE M W M G, NEWMAN P, CLARK S, et al. A solution to the simultaneous localization and map building (SLAM) problem[J]. IEEE transactions on robotics and automation, 2001, 17(3): 229–241. [8] AGARWAL S, SNAVELY N, SIMON I, et al. Building Rome in a day[C]//Proceedings of the 12th IEEE International Conference on Computer Vision. Kyoto, Japan, 2009: 72–79. [9] STRASDAT H, MONTIEL J M M, DAVISON A J. Realtime monocular SLAM: why filter?[C]//Proceedings of 2010 IEEE International Conference on Robotics and Automation. Anchorage, AK, USA, 2010: 2657–2664. [10] 梁明杰, 闵华清, 罗荣华. 基于图优化的同时定位与地图 创建综述[J]. 机器人, 2013, 35(4): 500–512. LIANG Mingjie, MIN Huaqing, LUO Ronghua. Graphbased SLAM: a survey[J]. Robot, 2013, 35(4): 500–512. [11] MUJA M, LOWE D G. Fast approximate nearest neighbors with automatic algorithm configuration[C]//Proceedings of the 4th International Conference on Computer Vision Theory and Applications. Lisboa, Portugal, 2009: 331–340. [12] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004, 60(2): 91–110. [13] BAY H, ESS A, TUYTELAARS T, et al. Speeded-up robust features (SURF)[J]. Computer vision and image understanding, 2008, 110(3): 346–359. [14] RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona, Spain, 2011: 2564–2571. [15] CALONDER M, LEPETIT V, STRECHA C, et al. BRIEF: binary robust independent elementary features[C]//Pro- [16] ceedings of the 11th European Conference on Computer Vision. Heraklion, Crete, Greece, 2010: 778–792. CIVERA J, DAVISON A J, MONTIEL J M M. Inverse depth parametrization for monocular SLAM[J]. IEEE transactions on robotics, 2008, 24(5): 932–945. [17] KLEIN G, MURRAY D. Parallel tracking and mapping for small AR workspaces[C]//Proceedings of the 6th IEEE and ACM International Symposium on Mixed and Augmented Reality. Nara, Japan, 2007: 225–234. [18] KLEIN G, MURRAY D. Improving the agility of keyframe-based SLAM[C]//Proceedings of the 10th European Conference on Computer Vision. Marseille, France, 2008: 802–815. [19] WEISS S, SIEGWART R. Real-time metric state estimation for modular vision-inertial systems[C]//Proceedings of 2011 IEEE International Conference on Robotics and Automation. Shanghai, China, 2011: 4531–4537. [20] JAMA M, SCHINSTOCK D. Parallel tracking and mapping for controlling VTOL airframe[J]. Journal of control science and engineering, 2011, 2011: 413074. [21] DAVISON A J. SLAM with a single camera[C]//Proceedings of Workshop on Concurrent Mapping and Localization for Autonomous Mobile Robots in Conjunction with ICRA. Washington, DC, USA, 2002. [22] 祝风翔. 基于图像的深度获取方法研究[D]. 杭州, 中国: 浙江大学, 2016. ZHU Fengxiang. Depth map acquisition method study based on image[D]. Hangzhou, China: Zhejiang University, 2016. [23] DAVISON A J. Active search for real-time vision[J]. Proceedings of the 10th IEEE International Conference on Computer Vision. Beijing, China, 2005: 66–73. [24] CIVERA J, GRASA O G, DAVISON A J, et al. 1-point RANSAC for EKF-based structure from motion[C]//Proceedings of 2009 IEEE/RSJ International Conference on Intelligent Robots and Systems. St. Louis, MO, USA, 2009: 3498–3504. [25] CIVERA J, GRASA O G, DAVISON A J, et al. 1-Point RANSAC for extended Kalman filtering: application to real-time structure from motion and visual odometry[J]. Journal of field robotics, 2010, 27(5): 609–631. [26] GUERRA E, MUNGUIA R, BOLEA Y, et al. Validation of data association for monocular SLAM[J]. Mathematical problems in engineering, 2013, 2013: 671376. [27] EADE E, DRUMMOND T. Scalable monocular SLAM [C]//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY, USA, 2006: 469–476. [28] ·104· 智 能 系 统 学 报 第 13 卷
第1期 周彦,等:视觉同时定位与地图创建综述 ·105· [29]LEONARD JJ,DURRANT-WHYTE H F.Simultaneous [41]GUTMANN JS,KONOLIGE K.Incremental mapping of map building and localization for an autonomous mobile large cyclic environments[C]//Proceedings of 1999 IEEE robot[C]//Proceedings of Intelligence for Mechanical Sys- International Symposium on Computational Intelligence in tems,Proceedings IROS'91.IEEE/RSJ International Work- Robotics and Automation.Monterey,CA.USA,1999: shop on Intelligent Robots and Systems'91.Osaka,Japan, 318-325. 1991:1442-1447 [42]ENDRES F,HESS J,STURM J,et al.3-D mapping with 「30]罗荣华,洪炳镕.移动机器人同时定位与地图创建研究 an RGB-D camera[J].IEEE transactions on robotics,2014. 进展).机器人,2004,26(2):182-186. 30(1上177-187. LUO Ronghua,HONG Bingrong.The progress of simul- [43]MUR-ARTAL R.MONTIEL J MM.TARDOS J D.ORB. taneous localization and mapping for mobile robot[J].Ro- SLAM:a versatile and accurate monocular SLAM bot,2004,26(2):182-186. system[J].IEEE transactions on robotics,2015,31(5): [31]LEONARD JJ,FEDER H JS.Decoupled stochastic map- 1147-1163 ping[J].IEEE journal of oceanic engineering,2001,26(4): [44]MUR-ARTAL R,TARDOS J D.ORB-SLAM2:an open- 561-571 source SLAM system for monocular,stereo,and RGB-D 32]WILLIAMS S B.Efficient solutions to autonomous map- cameras[J].IEEE transactions on robotics,2017,23(5): ping and navigation problems[D].Sydney,Australia:Uni- 1255-1262 versity of Sydney,2001. [45]BLESER G,HENDEBY G.Using optical flow as light- [33]GUIVANT J E,NEBOT E M.Optimization of the simul- weight SLAM alternative[Cl//Proceedings of the 8th IEEE taneous localization and map-building algorithm for real- International Symposium on Mixed and Augmented Real- time implementation[J].IEEE transactions on robotics and ity.Orlando,FL,USA,2009:175-176. automation,.2001,17(3):242-257. [46]NEWCOMBE R A,LOVEGROVE S J,DAVISON A J. [34]THRUN S,LIU Yufeng,KOLLER D,et al.Simultaneous DTAM:dense tracking and mapping in real-time[C]//Pro- localization and mapping with sparse extended informa- ceedings of 2011 IEEE International Conference on Com- tion filters[J].The international journal of robotics re- puter Vision.Barcelona,Spain,2011:2320-2327. search,2004,23(7/8:693-716. [47]ENGEL J,SCHOPS T.CREMERS D.LSD-SLAM:large- 35]DAVISON A J,REID I D,MOLTON N D,et al.Mono- scale direct monocular SLAM[Cl//Proceedings of the 13th SLAM:real-time single camera SLAM[J].IEEE transac- European Conference on Computer Vision.Zurich, tions on pattern analysis and machine intelligence,2007, Switzerland,2014:834-849. 29(6):1052-1067 [48]FORSTER C,PIZZOLI M,SCARAMUZZA D.SVO:fast [36]MONTEMERLO M,THRUN S,KOLLER D,et al.Fast- semi-direct monocular visual odometry[C]//Proceedings of SLAM:a factored solution to the simultaneous localiza- 2014 IEEE International Conference on Robotics and tion and mapping problem[C]//Proceedings of the 18th In- Automation.Hong Kong,China,2014:15-22. ternational Conference on Artificial Intelligence.Pitts- [49]TORR P H S,ZISSERMAN A.Feature based methods for burgh,PA,USA,2002:2004. structure and motion estimation[M].TRIGGS B,ZISSER- [37]MONTEMERLO M,THRUN S.Simultaneous localiza- MAN A,SZELISKI R.Vision Algorithms:Theory and tion and mapping with unknown data association using Practice.Berlin,Heidelberg,Germany:Springer,2000: FastSLAM[C]//Proceedings of 2003 IEEE International 278-294. Conference on Robotics and Automation.Taipei,Taiwan, [50]林辉灿吕强,张洋,等.稀疏和稠密的VSLAM的研究 China.2003:1985-1991. 进展.机器人,2016.38(5):621-631. [38]MULLANE J.VO B N.ADAMS M D.et al.A random-fi- LIN Huican,LYU Qiang,ZHANG Yang,et al.The sparse nite-set approach to Bayesian SLAM[J].IEEE transactions and dense VSLAM:a survey[J].Robot,2016,38(5): on robotics,.2011,27(2):268-282. 621-631. [39]ADAMS M,VO B N,MAHLER R,et al.SLAM gets a [51]GAO Xiang,ZHANG Tao.Unsupervised learning to de- PHD:new concepts in map estimation[J].IEEE robotics tect loops using deep neural networks for visual SLAM and automation magazine,2014,21(2):26-37. system[J].Autonomous robots,2017,41(1):1-18. [40]LU F,MILIOS E.Globally consistent range scan align- [52]张国良,汤文俊,曾静,等.考虑通信状况的多机器人 ment for environment mapping[J].Autonomous robots, CSLAM问题综述[J].自动化学报,2014,40(10): 1997,4(4):333-349 2073-2088
LEONARD J J, DURRANT-WHYTE H F. Simultaneous map building and localization for an autonomous mobile robot[C]//Proceedings of Intelligence for Mechanical Systems, Proceedings IROS’91. IEEE/RSJ International Workshop on Intelligent Robots and Systems’91. Osaka, Japan, 1991: 1442–1447. [29] 罗荣华, 洪炳镕. 移动机器人同时定位与地图创建研究 进展[J]. 机器人, 2004, 26(2): 182–186. LUO Ronghua, HONG Bingrong. The progress of simultaneous localization and mapping for mobile robot[J]. Robot, 2004, 26(2): 182–186. [30] LEONARD J J, FEDER H J S. Decoupled stochastic mapping[J]. IEEE journal of oceanic engineering, 2001, 26(4): 561–571. [31] WILLIAMS S B. Efficient solutions to autonomous mapping and navigation problems[D]. Sydney, Australia: University of Sydney, 2001. [32] GUIVANT J E, NEBOT E M. Optimization of the simultaneous localization and map-building algorithm for realtime implementation[J]. IEEE transactions on robotics and automation, 2001, 17(3): 242–257. [33] THRUN S, LIU Yufeng, KOLLER D, et al. Simultaneous localization and mapping with sparse extended information filters[J]. The international journal of robotics research, 2004, 23(7/8): 693–716. [34] DAVISON A J, REID I D, MOLTON N D, et al. MonoSLAM: real-time single camera SLAM[J]. IEEE transactions on pattern analysis and machine intelligence, 2007, 29(6): 1052–1067. [35] MONTEMERLO M, THRUN S, KOLLER D, et al. FastSLAM: a factored solution to the simultaneous localization and mapping problem[C]//Proceedings of the 18th International Conference on Artificial Intelligence. Pittsburgh, PA, USA, 2002: 2004. [36] MONTEMERLO M, THRUN S. Simultaneous localization and mapping with unknown data association using FastSLAM[C]//Proceedings of 2003 IEEE International Conference on Robotics and Automation. Taipei, Taiwan, China, 2003: 1985–1991. [37] MULLANE J, VO B N, ADAMS M D, et al. A random-finite-set approach to Bayesian SLAM[J]. IEEE transactions on robotics, 2011, 27(2): 268–282. [38] ADAMS M, VO B N, MAHLER R, et al. SLAM gets a PHD: new concepts in map estimation[J]. IEEE robotics and automation magazine, 2014, 21(2): 26–37. [39] LU F, MILIOS E. Globally consistent range scan alignment for environment mapping[J]. Autonomous robots, 1997, 4(4): 333–349. [40] GUTMANN J S, KONOLIGE K. Incremental mapping of large cyclic environments[C]//Proceedings of 1999 IEEE International Symposium on Computational Intelligence in Robotics and Automation. Monterey, CA, USA, 1999: 318–325. [41] ENDRES F, HESS J, STURM J, et al. 3-D mapping with an RGB-D camera[J]. IEEE transactions on robotics, 2014, 30(1): 177–187. [42] MUR-ARTAL R, MONTIEL J M M, TARDOS J D. ORBSLAM: a versatile and accurate monocular SLAM system[J]. IEEE transactions on robotics, 2015, 31(5): 1147–1163. [43] MUR-ARTAL R, TARDÓS J D. ORB-SLAM2: an opensource SLAM system for monocular, stereo, and RGB-D cameras[J]. IEEE transactions on robotics, 2017, 23(5): 1255–1262. [44] BLESER G, HENDEBY G. Using optical flow as lightweight SLAM alternative[C]//Proceedings of the 8th IEEE International Symposium on Mixed and Augmented Reality. Orlando, FL, USA, 2009: 175–176. [45] NEWCOMBE R A, LOVEGROVE S J, DAVISON A J. DTAM: dense tracking and mapping in real-time[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona, Spain, 2011: 2320–2327. [46] ENGEL J, SCHÖPS T, CREMERS D. LSD-SLAM: largescale direct monocular SLAM[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014: 834–849. [47] FORSTER C, PIZZOLI M, SCARAMUZZA D. SVO: fast semi-direct monocular visual odometry[C]//Proceedings of 2014 IEEE International Conference on Robotics and Automation. Hong Kong, China, 2014: 15–22. [48] TORR P H S, ZISSERMAN A. Feature based methods for structure and motion estimation[M]. TRIGGS B, ZISSERMAN A, SZELISKI R. Vision Algorithms: Theory and Practice. Berlin, Heidelberg, Germany: Springer, 2000: 278–294. [49] 林辉灿, 吕强, 张洋, 等. 稀疏和稠密的 VSLAM 的研究 进展[J]. 机器人, 2016, 38(5): 621–631. LIN Huican, LYU Qiang, ZHANG Yang, et al. The sparse and dense VSLAM: a survey[J]. Robot, 2016, 38(5): 621–631. [50] GAO Xiang, ZHANG Tao. Unsupervised learning to detect loops using deep neural networks for visual SLAM system[J]. Autonomous robots, 2017, 41(1): 1–18. [51] 张国良, 汤文俊, 曾静, 等. 考虑通信状况的多机器人 CSLAM 问题综述[J]. 自动化学报, 2014, 40(10): 2073–2088. [52] 第 1 期 周彦,等:视觉同时定位与地图创建综述 ·105·
·106· 智能系统学报 第13卷 ZHANG Guoliang,TANG Wenjun,ZENG Jing,et al.An 李雅芳,女,1993年生,硕士研究 生。主要研究方向为图像处理与机器 overview on the cooperative SLAM problem of multi-ro- 视觉。 bot systems considering communication conditions[J]. Acta automatica sinica,2014,40(10):2073-2088. 作者简介: 周彦,男,1978年生,副教授,博 土,主要研究方向为多传感器信息融 王冬丽,女,1980年生,副教授 合、图像处理与机器视觉。发表学术 博士,主要研究方向为模式识别与机 论文40余篇,其中被SCI收录10余 器视觉。发表学术论文30余篇。目 篇。目前主持国家自然科学基金项目 前主持国家自然科学基金项目1项。 1项,参与国家自然科学基金项目 曾参与国家自然科学基金、上海市自 4项:曾参与及主持973”、国家自然科 然科学基金等项目。 学基金等项目15项。 2018第10届EEE通信软件和网络国际会议(ICCSN2018) 2018 10th International Conference on Communication Software and Networks (ICCSN 2018) 2018年第十届通信软件和网络国际会议将于2018年7月6一9日在中国成都召开。会议旨在促进通信软件 和网络等领域的学术交流与合作,热忱欢迎从事相关技术研究的专家、学者和专业技术人员踊跃投稿并参加大 会。EEE,电子科技大学联合举办,中电54所,通信网信息传输与分发技术重点实验室,是本次会议的协办方,广 东工业大学为技术支持单位,《电子技术应用》是会议的赞助方。 出版和检索说明: 文章将会根据主题推荐JCM或者EEE录用,请以通知书为准完成注册。 1.Journal of Communications(JCM)期刊为Scopus检索期刊,目前该JCM期刊Scopus检索正常。 2.ICCSN2018由IEEE出版至ICCSN会议论文集,并按照EEE要求会后按时提交到IEEE审查,审查通过 的论文集将进入IEEE Xplore并被Ei Compendex检索。 ICCSN2017论文集已整体进入IEEE Xplore数据库,检索结果即将公布。 征稿: 主题:关于通信软件和网络。 详细信息请见:htp:www.iccsn.org/cfp.html 投稿: L.直接把文章发到会议邮箱:iccsn_conference@l63.com 2.上传文章到电子投稿系统--htp:/www.easychair.org/conferences/?conf=iccsn2018 详细信息请见-http:ww.iccsn..org/guide.html 会议联系方式: 会议邮箱:iccsn_conference(@l63.com 会议网址:htp:/www.iccsn..org
ZHANG Guoliang, TANG Wenjun, ZENG Jing, et al. An overview on the cooperative SLAM problem of multi-robot systems considering communication conditions[J]. Acta automatica sinica, 2014, 40(10): 2073–2088. 作者简介: 周彦,男,1978 年生,副教授,博 士,主要研究方向为多传感器信息融 合、图像处理与机器视觉。发表学术 论文 40 余篇,其中被 SCI 收录 10 余 篇。目前主持国家自然科学基金项目 1 项,参与国家自然科学基金项目 4 项;曾参与及主持“973”、国家自然科 学基金等项目 15 项。 李雅芳,女,1993 年生,硕士研究 生。主要研究方向为图像处理与机器 视觉。 王冬丽,女,1980 年生,副教授, 博士,主要研究方向为模式识别与机 器视觉。发表学术论文 30 余篇。目 前主持国家自然科学基金项目 1 项。 曾参与国家自然科学基金、上海市自 然科学基金等项目。 2018 第 10 届 IEEE 通信软件和网络国际会议(ICCSN2018) 2018 10th International Conference on Communication Software and Networks (ICCSN 2018) 2018 年第十届通信软件和网络国际会议将于 2018 年 7 月 6—9 日在中国成都召开。会议旨在促进通信软件 和网络等领域的学术交流与合作,热忱欢迎从事相关技术研究的专家、学者和专业技术人员踊跃投稿并参加大 会。IEEE,电子科技大学联合举办, 中电 54 所,通信网信息传输与分发技术重点实验室,是本次会议的协办方,广 东工业大学为技术支持单位,《电子技术应用》是会议的赞助方。 出版和检索说明: 文章将会根据主题推荐 JCM 或者 IEEE 录用,请以通知书为准完成注册。 1. Journal of Communications (JCM) 期刊为 Scopus 检索期刊, 目前该 JCM 期刊 Scopus 检索正常。 2. ICCSN 2018 由 IEEE 出版至 ICCSN 会议论文集,并按照 IEEE 要求会后按时提交到 IEEE 审查,审查通过 的论文集将进入 IEEE Xplore 并被 Ei Compendex 检索。 ICCSN 2017 论文集已整体进入 IEEE Xplore 数据库,检索结果即将公布。 征稿: 主题:关于通信软件和网络。 详细信息请见:http://www.iccsn.org/cfp.html 投稿: 1. 直接把文章发到会议邮箱:iccsn_conference@163.com 2. 上传文章到电子投稿系统----http://www.easychair.org/conferences/?conf=iccsn2018 详细信息请见----http://www.iccsn.org/guide.html 会议联系方式: 会议邮箱: iccsn_conference@163.com 会议网址:http://www.iccsn.org/ ·106· 智 能 系 统 学 报 第 13 卷