第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992/tis.202004023 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20200904.1708.002.html 视觉SLAM研究进展 王霞,左一凡 (北京理工大学光电成像技术与系统教育部重点实验室,北京100081) 摘要:视觉SLAM是指相机作为传感器进行自身定位同步创建环境地图。SLAM在机器人、无人机和无人车 导航中具有重要作用,定位精度会影响避障精度,地图构建质量直接影响后续路径规划等算法的性能,是智能 移动体应用的核心算法。本文介绍主流的视觉SLAM系统架构,包括几种最常见的视觉传感器,以及前端的功 能和基于优化的后端。并根据视觉SLAM系统的度量地图的种类不同将视觉SLAM分为稀疏视觉SLAM、半 稠密视觉SLAM和稠密视觉SLAM3种,分别介绍其标志性成果和研究进展,提出视觉SLAM目前存在的问题 以及未来可能的发展。 关键词:视觉同步定位与创建地图:稀疏视觉SLAM:半稠密视觉SLAM:稠密视觉SLAM:视觉传感器:优化; 视觉SLAM系统;度量地图 中图分类号:TP391文献标志码:A文章编号:1673-4785(2020)05-0825-10 中文引用格式:王霞,左一凡.视觉SLAM研究进展.智能系统学报,2020,15(⑤):825-834 英文引用格式:WANG Xia,ZUO Yifan.Advances in visual SLAM researchJ.CAAI transactions on intelligent systems,2020, 15(5:825-834. Advances in visual SLAM research WANG Xia,ZUO Yifan (Key Laboratory of Photo-electronic Imaging Technology and System,Ministry of Education of China,Beijing Institute of Techno- logy,Beijing 100081,China) Abstract:Visual SLAM,i.e.,simultaneous localization and mapping with cameras,plays an important role in the navig- ation of robots,unmanned aerial vehicles,and unmanned vehicles.As the location accuracy affects the obstacle avoid- ance accuracy and the mapping quality directly affects the path planning performance,the visual SLAM algorithm is the core aspect of intelligent mobile applications.This paper introduces the architecture of the mainstream visual SLAM system,including several common visual sensors,the function of the front end,and the optimized back end.According to the type of the metric map model created by the visual SLAM system,visual SLAM can be classified into three types: sparse visual SLAM,semi-dense visual SLAM,and dense visual SLAM.The landmark achievements and research pro- gress of visual SLAM are reviewed in this paper,and its current problems and possible future developments are discussed. Keywords:visual simultaneous localization and mapping;sparse visual SLAM:SemiDense visual SLAM;dense visual SLAM:visual sensors;optimization;visual SLAM system;metric map 同步地图构建和定位(simultaneous localiza-机器人要想精确移动,必须有精确的环境地图: tion and mapping,SLAM)包含定位和建图两方面,然而,为了建立一个精确的地图,必须知道移动 是移动机器人领域的一个重要的开放问题:移动 机器人精确的位置山,所以,这是一个相辅相成的 过程。1990年,有学者首次提出利用拓展卡尔曼 滤波器对机器人姿态的后验分布进行增量估计。 收稿日期:2020-04-23.网络出版日期:2020-09-08. 基金项目:装备预先研究项目(41417070401). 事实上,在未知的位置、未知的环境中,机器人通 通信作者:左一凡.E-mail:zuoyifan bit(@outlook.com 过在运动过程中反复观察环境特征确定自身位
DOI: 10.11992/tis.202004023 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20200904.1708.002.html 视觉 SLAM 研究进展 王霞,左一凡 (北京理工大学 光电成像技术与系统教育部重点实验室,北京 100081) 摘 要:视觉 SLAM 是指相机作为传感器进行自身定位同步创建环境地图。SLAM 在机器人、无人机和无人车 导航中具有重要作用,定位精度会影响避障精度,地图构建质量直接影响后续路径规划等算法的性能,是智能 移动体应用的核心算法。本文介绍主流的视觉 SLAM 系统架构,包括几种最常见的视觉传感器,以及前端的功 能和基于优化的后端。并根据视觉 SLAM 系统的度量地图的种类不同将视觉 SLAM 分为稀疏视觉 SLAM、半 稠密视觉 SLAM 和稠密视觉 SLAM 3 种,分别介绍其标志性成果和研究进展,提出视觉 SLAM 目前存在的问题 以及未来可能的发展。 关键词:视觉同步定位与创建地图;稀疏视觉 SLAM;半稠密视觉 SLAM;稠密视觉 SLAM;视觉传感器;优化; 视觉 SLAM 系统;度量地图 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)05−0825−10 中文引用格式:王霞, 左一凡. 视觉 SLAM 研究进展 [J]. 智能系统学报, 2020, 15(5): 825–834. 英文引用格式:WANG Xia, ZUO Yifan. Advances in visual SLAM research[J]. CAAI transactions on intelligent systems, 2020, 15(5): 825–834. Advances in visual SLAM research WANG Xia,ZUO Yifan (Key Laboratory of Photo-electronic Imaging Technology and System, Ministry of Education of China, Beijing Institute of Technology, Beijing 100081, China) Abstract: Visual SLAM, i.e., simultaneous localization and mapping with cameras, plays an important role in the navigation of robots, unmanned aerial vehicles, and unmanned vehicles. As the location accuracy affects the obstacle avoidance accuracy and the mapping quality directly affects the path planning performance, the visual SLAM algorithm is the core aspect of intelligent mobile applications. This paper introduces the architecture of the mainstream visual SLAM system, including several common visual sensors, the function of the front end, and the optimized back end. According to the type of the metric map model created by the visual SLAM system, visual SLAM can be classified into three types: sparse visual SLAM, semi-dense visual SLAM, and dense visual SLAM. The landmark achievements and research progress of visual SLAM are reviewed in this paper, and its current problems and possible future developments are discussed. Keywords: visual simultaneous localization and mapping; sparse visual SLAM; SemiDense visual SLAM; dense visual SLAM; visual sensors; optimization; visual SLAM system; metric map 同步地图构建和定位 (simultaneous localization and mapping, SLAM) 包含定位和建图两方面, 是移动机器人领域的一个重要的开放问题:移动 机器人要想精确移动,必须有精确的环境地图; 然而,为了建立一个精确的地图,必须知道移动 机器人精确的位置[1] ,所以,这是一个相辅相成的 过程。1990 年,有学者首次提出利用拓展卡尔曼 滤波器对机器人姿态的后验分布进行增量估计[2]。 事实上,在未知的位置、未知的环境中,机器人通 过在运动过程中反复观察环境特征确定自身位 收稿日期:2020−04−23. 网络出版日期:2020−09−08. 基金项目:装备预先研究项目 (41417070401). 通信作者:左一凡. E-mail:zuoyifan_bit@outlook.com. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
·826· 智能系统学报 第15卷 置,然后根据自己的位置构建一个增量的周边环 些SLAM系统包含重定位模块,作为更稳定和准 境地图,从而达到同时定位和地图构建的目的。 确的视觉SLAM附加模块。本文主要介绍几种 随着中央处理器(central processing unit,.CPU)和 重要的视觉传感器,并根据数据的稀疏程度分类 图形处理器(graphic processing unit,,GPU的发展, 综述视觉SLAM的现阶段成果。 图形处理能力越来越强大。相机传感器变得更价 廉、更轻便,同时具有更多功能。在过去的十几 1视觉SLAM系统 年中,视觉SLAM发展迅速。该系统可在微PC 视觉SLAM(visual SLAM,VSLAM)系统的架 和嵌入式设备上运行,甚至可在智能手机等移动 构包括两个主要部分:前端和后端。前端抓取传 设备上运行B-。视觉SLAM可使用单目相机、立 感器数据,并进行状态估计,后端对前端产生的 体相机等视觉传感器进行数据采集、前端视觉里 数据进行优化。后端可为前端提供反馈,并进行 程计、后端优化、回环检测和地图构建等1。有 回环检测。该体系结构如图1所示。 前端 后端 传感器数据 SLAM估计 特征提取 据关联 最大后验估计 短期关 往追踪 长期关联(回环检测) 图1典型的SLAM系统图 Fig.1 A typical SLAM system 1.1 视觉传感器 而是异步地测量每个像素的亮度变化)。事件相 大多数视觉传感器是基于相机,相机可以分为 机具有非常高的动态范围、高时间分辨率、低功 单目相机、立体相机、RGB-D相机和事件相机等四。 耗,并且不会出现运动模糊。因此,事件相机在 1.1.1单目相机 高速、高动态范围的情况下性能优于传统相机。 单目相机定位和建图具有和现实世界的真实 事件相机包含动态视觉传感器4、动线传感器阁 比例关系,但没有真实的深度信息和绝对尺度, 动态和主动像素视觉传感器和异步基于时间 这称为尺度模糊2。基于单目相机的SLAM必须 的图像传感器。 进行初始化来确定尺度,而且面临漂移问题,但 以上4种视觉传感器各有其优缺点,如表1 单目相机价格低廉、计算速度快,在SLAM领域 所示。 受到广泛应用。 1.1.2立体相机 表14种视觉传感器的优缺点 Table 1 Advantages and disadvantages of 4 kinds of visu- 立体相机是两个单目相机的组合,其中两个 al sensor 相机之间的距离是已知的,称之为基线。使用立 传感器类型 体相机,可以通过定标、较正、匹配和计算4个步 优点 缺点 骤获取深度信息,进而确定尺度信息,但这个过 成本低、结构 没有深度信息和 单目相机 程会消耗很大的计算资源。 简单、速度快 尺度信息 可通过基线 1.1.3RGB-D相机 立体相机 计算量巨大 RGB-D相机也称为深度相机,因为这种相机 估计深度 可估计像素 测量范围窄、 可以直接以像素形式输出深度信息。深度相机可 RGB-D相机 以通过立体视觉、结构光和飞行时间(time of flight,. 级深度信息 噪声大 高动态范围、高时间分 噪声大、特征点 TOF)技术来实现。结构光理论是指红外激光向 事件相机 辨率、低延时、低功耗 难以提取 物体表面发射具有结构特征的图案,红外相机收 集不同深度的表面图案的变化信息。TOF通过测 1.2 VSLAM前端 量激光飞行的时间计算距离。 在实际的机器人应用中,可能很难将传感器 1.1.4事件相机 的测量值直接写成传感器状态量的解析函数。例 事件相机不是以固定的速率捕获即时消息, 如,原始传感器数据是一个图像,那么可能很难
置,然后根据自己的位置构建一个增量的周边环 境地图,从而达到同时定位和地图构建的目的。 随着中央处理器 (central processing unit, CPU) 和 图形处理器 (graphic processing unit, GPU) 的发展, 图形处理能力越来越强大。相机传感器变得更价 廉、更轻便,同时具有更多功能。在过去的十几 年中,视觉 SLAM 发展迅速。该系统可在微 PC 和嵌入式设备上运行,甚至可在智能手机等移动 设备上运行[3-7]。视觉 SLAM 可使用单目相机、立 体相机等视觉传感器进行数据采集、前端视觉里 程计、后端优化、回环检测和地图构建等[8]。有 些 SLAM 系统包含重定位模块,作为更稳定和准 确的视觉 SLAM 附加模块[9]。本文主要介绍几种 重要的视觉传感器,并根据数据的稀疏程度分类 综述视觉 SLAM 的现阶段成果。 1 视觉 SLAM 系统 视觉 SLAM(visual SLAM, VSLAM) 系统的架 构包括两个主要部分:前端和后端。前端抓取传 感器数据,并进行状态估计,后端对前端产生的 数据进行优化。后端可为前端提供反馈,并进行 回环检测[10]。该体系结构如图 1 所示。 数据关联 短期关联(特征追踪) 长期关联(回环检测) 特征提取 前端 传感器数据 后端 最大后验估计 SLAM估计 图 1 典型的 SLAM 系统图 Fig. 1 A typical SLAM system 1.1 视觉传感器 大多数视觉传感器是基于相机,相机可以分为 单目相机、立体相机、RGB-D 相机和事件相机等[11]。 1.1.1 单目相机 单目相机定位和建图具有和现实世界的真实 比例关系,但没有真实的深度信息和绝对尺度, 这称为尺度模糊[12]。基于单目相机的 SLAM 必须 进行初始化来确定尺度,而且面临漂移问题,但 单目相机价格低廉、计算速度快,在 SLAM 领域 受到广泛应用。 1.1.2 立体相机 立体相机是两个单目相机的组合,其中两个 相机之间的距离是已知的,称之为基线。使用立 体相机,可以通过定标、较正、匹配和计算 4 个步 骤获取深度信息,进而确定尺度信息,但这个过 程会消耗很大的计算资源。 1.1.3 RGB-D 相机 RGB-D 相机也称为深度相机,因为这种相机 可以直接以像素形式输出深度信息。深度相机可 以通过立体视觉、结构光和飞行时间 (time of flight, TOF) 技术来实现。结构光理论是指红外激光向 物体表面发射具有结构特征的图案,红外相机收 集不同深度的表面图案的变化信息。TOF 通过测 量激光飞行的时间计算距离。 1.1.4 事件相机 事件相机不是以固定的速率捕获即时消息, 而是异步地测量每个像素的亮度变化[13]。事件相 机具有非常高的动态范围、高时间分辨率、低功 耗,并且不会出现运动模糊。因此,事件相机在 高速、高动态范围的情况下性能优于传统相机。 事件相机包含动态视觉传感器[14-17] 、动线传感器[18] 、 动态和主动像素视觉传感器[19] 和异步基于时间 的图像传感器[20]。 以上 4 种视觉传感器各有其优缺点,如表 1 所示。 表 1 4 种视觉传感器的优缺点 Table 1 Advantages and disadvantages of 4 kinds of visual sensor 传感器类型 优点 缺点 单目相机 成本低、结构 简单、速度快 没有深度信息和 尺度信息 立体相机 可通过基线 估计深度 计算量巨大 RGB-D相机 可估计像素 级深度信息 测量范围窄、 噪声大 事件相机 高动态范围、高时间分 辨率、低延时、低功耗 噪声大、特征点 难以提取 1.2 VSLAM 前端 在实际的机器人应用中,可能很难将传感器 的测量值直接写成传感器状态量的解析函数。例 如,原始传感器数据是一个图像,那么可能很难 ·826· 智 能 系 统 学 报 第 15 卷
第5期 王霞,等:视觉SLAM研究进展 ·827· 将每个像素的强度表示为SLAM状态的函数:这 模型,可以建立第k个因子与相应变量X的依赖 是由于无法设计一个足够普遍、但又易于处理的 关系。p(K)项和pX)项都称之为因子,通过节 函数来表示环境与传感器状态的关系;即使存在 点建立约束。因子图可直观表示约束,如图2展 这样一种普遍的表示,也很难写出一个将测量值 示了一个用因子图表示的简单的SLAM问题。 与传感器状态联系起来的解析函数。因此,在数 其中蓝色代表机器人位姿,绿色代表地标点坐 据进入SLAM后端之前,通常需要一个前端模块 标,红色为相机标定参数,黑色方块是因子,代表 提取传感器原始图像的相关特征。例如,在 变量间的约束。通过因子图的方式可以表示复杂 VSLAM中,前端提取特征点位置,后端可根据这 的多优化变量模型。 些特征点的位置进行优化处理。同时,前端模块 负责初始化,例如单目SLAM中的初始化,利用 多角度观测图像三角化将尺度信息固定。 前端数据关联模块包括短期数据关联和长期 数据关联,短期数据关联负责联系传感器数据的 帧间特征点及追踪特征点,常用的方法有特征匹 配和光流法等。长期关联是关联新的信息是否和 过去的所有信息有关联,即回环检测,常用的方 图2因子图表示的SLAM 法有词袋法和深度学习0。 Fig.2 SLAM as a factor graph 1.3基于优化的SLAM后端 假设测量噪声8是零均值的高斯噪声,其信 早期SLAM后端主要是基于滤波的方法,但 息矩阵表示为2,则式(2)中的似然可表示为 由于优化方法的精度明显优于滤波的方法而逐渐 成为主流。文献[21-22]综述了滤波的方法,本文 p(zlXz)o expl()l (3) 主要介绍基于优化的SLAM后端。 在SLAM问题中,需要估计的未知变量X包 其中,lelg=e2e,同理,假设先验可以写为 括机器人的位姿和路标点的物理坐标。给定观测 p(X)oc exp -2h(K)-a6,ho)为给定的函数,0 数据Z={a:k=1,2,…,m,观测方程可表示为未知 为先验均值,2为信息矩阵。因为最大后验相当 变量X的函数。例如4=h(X)+,其中XSX, 于最小后验的负对数,所以最大后验估计可写为 ()是已知的测量或观测函数,8是随机测量误 差。根据贝叶斯理论,通过X的测量值X估计最 X'=arg min-log(p(X) p(zlX))= 大后验概率p(XZ☑: (4) arg min〉h,(Xe)-zl喝 X=arg max p(XZ☑)= (1) arg max p(ZX)p(X) 式(4)是一个最小二乘问题,在SLAM问题 式中:p(ZX)是给定X的观测量Z的似然;p(X)称 中,()是一个非线性函数。求解相机位姿即求 为X的先验概率。先验概率包含X所有的先验信 解此最小二乘问题。通常使用Gauss-Newton法 息;在没有先验信息的情况下,先验概率为常量, 或者Levenberg-Marquardt法求解,得到优化变量X 在优化中不起作用,最大后验估计简化为似然估 2度量地图模型的VSLAM系统 计。不同于卡尔曼滤波的方法,最大后验概率估 计不需要区分运动模型和观测模型,这两个模型 度量地图是对环境结构的一种表示方法。选 都被视为因子整合到估计的过程中。 择合适的SLAM度量表示方法十分重要,会影响 假设测量值Z是独立的,即噪声不相关,将 很多研究领域,例如长时间导航、环境交互和人 式(1)因式分解为 机交互等领域。根据利用图像信息的方法不同, 可分为直接法和特征点法,直接法会产生半稠密 X'=arg max p(X) (X)= (2) 和稠密的结构,特征点法会产生稀疏的结构。本 文根据SLAM系统产生的不同稀疏程度结构的 arg max p(X)p(zalX) 特点,将VSLAM分为稀疏VSLAM、半稠密VSLAM 式(2)可以用因子图来解释,因子图是一种图 和稠密VSLAM
将每个像素的强度表示为 SLAM 状态的函数;这 是由于无法设计一个足够普遍、但又易于处理的 函数来表示环境与传感器状态的关系;即使存在 这样一种普遍的表示,也很难写出一个将测量值 与传感器状态联系起来的解析函数。因此,在数 据进入 SLAM 后端之前,通常需要一个前端模块 提取传感器原始图像的相关特征。例如, 在 VSLAM 中,前端提取特征点位置,后端可根据这 些特征点的位置进行优化处理。同时,前端模块 负责初始化,例如单目 SLAM 中的初始化,利用 多角度观测图像三角化将尺度信息固定。 前端数据关联模块包括短期数据关联和长期 数据关联,短期数据关联负责联系传感器数据的 帧间特征点及追踪特征点,常用的方法有特征匹 配和光流法等。长期关联是关联新的信息是否和 过去的所有信息有关联,即回环检测,常用的方 法有词袋法和深度学习[10]。 1.3 基于优化的 SLAM 后端 早期 SLAM 后端主要是基于滤波的方法,但 由于优化方法的精度明显优于滤波的方法而逐渐 成为主流。文献 [21-22] 综述了滤波的方法,本文 主要介绍基于优化的 SLAM 后端。 Z = {zk : k = 1,2,··· ,m} zk = hk(Xk)+εk Xk ⊆ X hk(·) εk p(X|Z) 在 SLAM 问题中,需要估计的未知变量 X 包 括机器人的位姿和路标点的物理坐标。给定观测 数据 ,观测方程可表示为未知 变量 X 的函数。例如 ,其中 , 是已知的测量或观测函数, 是随机测量误 差。根据贝叶斯理论,通过 X 的测量值 X *估计最 大后验概率 : X ∗ · =arg max X p(X|Z) = arg max X p(Z|X)p(X) (1) 式中: p(Z|X) 是给定 X 的观测量 Z 的似然; p(X) 称 为 X 的先验概率。先验概率包含 X 所有的先验信 息;在没有先验信息的情况下,先验概率为常量, 在优化中不起作用,最大后验估计简化为似然估 计。不同于卡尔曼滤波的方法,最大后验概率估 计不需要区分运动模型和观测模型,这两个模型 都被视为因子整合到估计的过程中。 假设测量值 Z 是独立的,即噪声不相关,将 式 (1) 因式分解为 X ∗ = arg max X p(X) ∏m k=1 p(zk |X) = arg max X p(X) ∏m k=1 p(zk |Xk) (2) 式 (2) 可以用因子图来解释,因子图是一种图 p(zk |Xk) p(X) 模型,可以建立第 k 个因子与相应变量 Xk 的依赖 关系。 项和 项都称之为因子,通过节 点建立约束。因子图可直观表示约束,如图 2 展 示了一个用因子图表示的简单的 SLAM 问题。 其中蓝色代表机器人位姿,绿色代表地标点坐 标,红色为相机标定参数,黑色方块是因子,代表 变量间的约束。通过因子图的方式可以表示复杂 的多优化变量模型。 p c1 u1 x1 l 1 K l 2 x2 x3 v1 v2 v3 v4 c2 u2 图 2 因子图表示的 SLAM Fig. 2 SLAM as a factor graph εk Ωk 假设测量噪声 是零均值的高斯噪声,其信 息矩阵表示为 ,则式 (2) 中的似然可表示为 p(zk |Xk) ∝ exp( − 1 2 ||hk(Xk)−zk ||2 Ωk ) (3) ||e||2 Ω = e TΩe p(X) ∝ exp( − 1 2 ||h0(X)−z0 ||2 Ωk ) h0(·) z0 Ω0 其 中 , ,同理,假设先验可以写为 , 为给定的函数, 为先验均值, 为信息矩阵。因为最大后验相当 于最小后验的负对数,所以最大后验估计可写为 X ∗ = arg min X −log(p(X) ∏m k=1 p(zk |Xk)) = arg min X ∑m k=0 ||hk(Xk)−zk ||2 Ωk (4) hk(·) 式 (4) 是一个最小二乘问题,在 SLAM 问题 中, 是一个非线性函数。求解相机位姿即求 解此最小二乘问题。通常使用 Gauss-Newton 法 或者 Levenberg-Marquardt 法求解,得到优化变量 X。 2 度量地图模型的 VSLAM 系统 度量地图是对环境结构的一种表示方法。选 择合适的 SLAM 度量表示方法十分重要,会影响 很多研究领域,例如长时间导航、环境交互和人 机交互等领域。根据利用图像信息的方法不同, 可分为直接法和特征点法,直接法会产生半稠密 和稠密的结构,特征点法会产生稀疏的结构。本 文根据 SLAM 系统产生的不同稀疏程度结构的 特点,将 VSLAM 分为稀疏 VSLAM、半稠密 VSLAM 和稠密 VSLAM。 第 5 期 王霞,等:视觉 SLAM 研究进展 ·827·
·828… 智能系统学报 第15卷 2.1稀疏VSLAM 此PTAM的出现对于SLAM的发展具有重要意 稀疏VSLAM的前端算法以特征点匹配为 义。同样,PTAM也存在场景小、跟踪容易丢失 主,光流追踪以及直接法等方法也在不断发展, 等特点。 但特征匹配仍为稀疏VSLAM的主流前端算法。 2009年,K1ein等提出关键帧的概念和重定 后端算法主要分为基于滤波的算法和基于优化的 位的方法。同年,此团队又提出应用于照相手机 算法,早期由于算力的限制,主要以基于滤波的 的基于关键帧的SLAM系统2.2015年,建立了 后端算法为主,随着CPU和GPU的发展,基于优 ORB-SLAM),一种基于ORB特征匹配2的单目 化的后端由于其具有更好的精度而逐渐成为主流。 实时SLAM系统,此系统在稀疏VSLAM领域具 MonoSLAM是在2007年提出的一种可以通 有里程碑意义,系统十分完善,可应用于多种场 过单目相机实现实时场景三维重建的算法2),该 景,对于运动杂波具有较强的鲁棒性。具有追 算法首次实现单目SLAM系统,可实现实时且无 踪、建图、重定位和回环检测功能,其标志性地使 漂移的运动恢复结构,后端使用拓展的卡尔曼滤 用3个线程(如图3所示),分别为特征点追踪线 波算法,前端使用稀疏的特征点匹配,实现在线 程、局部重投影误差优化线程和基于位姿图的全 稀疏地图的持续构建。虽然MonoSLAM应用场 局优化线程。对于选择重建点和关键帧具有良好 景很窄,特征点也容易丢失,但作为第一个SLAM 鲁棒性,可生成增量地图,这使得基于特征点的 系统,具有里程碑意义。2007年,一种专门为小 SLAM成为当时的主流。目前此项目源代码已开 型AR工作空间中手持摄像机设计的系统一 源。2017年的ORB-SLAM227支持单目相机、立 PTAM系统出现2,此系统首次将特征点追踪和 体相机和RGB-D相机的SLAM系统,可在CPU 地图构建分为两个独立的任务,使用并行处理的 上实时工作。 方式,并首次使用重投影误差进行后端优化,因 Tracking Extract Initial ose estimation from last frame or Track New keyframe rame ORB local map relocalisation decision Map initialization Map Keyframe Place Mappoints recognition Keyframe insertion Keyframes Visual Recent vocabulary mappoints Covisibility culling Recognition graph database Spanning New points creation tree Loop correction Loop detection Local BA Local Optimize essential Loop Compute Candidates keyframe sim3 culling graph fusion detection Loop closing 图3ORB-SLAM的三线程结构 Fig.3 Three-thread structure of ORB-SLAM 与其他基于特征点提取的稀疏VSLAM不 上鲁棒的概率深度估计算法,能够有效地跟踪像 同,Forster等2在2016年提出了一种半直接VO 素的角点和边。该算法可以很容易地扩展到多个 (semi-direct visual odometry,SVO),是一种直接法 相机跟踪,包括运动先验,并可适用于大视场相 和特征点混合的方法,它使用直接的方法跟踪和 机,如鱼眼和反折射相机。相对于其他VSLAM, 三角化像素,这些像素具有较高的图像梯度,但 SVO的优点是速度快、计算要求低。但只适用于 依赖于基于特征方法的联合优化。半直接VO加 平面运动,而且没有后端优化和回环检测,不是
2.1 稀疏 VSLAM 稀疏 VSLAM 的前端算法以特征点匹配为 主,光流追踪以及直接法等方法也在不断发展, 但特征匹配仍为稀疏 VSLAM 的主流前端算法。 后端算法主要分为基于滤波的算法和基于优化的 算法,早期由于算力的限制,主要以基于滤波的 后端算法为主,随着 CPU 和 GPU 的发展,基于优 化的后端由于其具有更好的精度而逐渐成为主流。 MonoSLAM 是在 2007 年提出的一种可以通 过单目相机实现实时场景三维重建的算法[23] ,该 算法首次实现单目 SLAM 系统,可实现实时且无 漂移的运动恢复结构,后端使用拓展的卡尔曼滤 波算法,前端使用稀疏的特征点匹配,实现在线 稀疏地图的持续构建。虽然 MonoSLAM 应用场 景很窄,特征点也容易丢失,但作为第一个 SLAM 系统,具有里程碑意义。2007 年,一种专门为小 型 AR 工作空间中手持摄像机设计的系统— PTAM 系统出现[24] ,此系统首次将特征点追踪和 地图构建分为两个独立的任务,使用并行处理的 方式,并首次使用重投影误差进行后端优化,因 此 PTAM 的出现对于 SLAM 的发展具有重要意 义。同样,PTAM 也存在场景小、跟踪容易丢失 等特点。 2009 年,Klein 等 [5] 提出关键帧的概念和重定 位的方法。同年,此团队又提出应用于照相手机 的基于关键帧的 SLAM 系统[25]。2015 年,建立了 ORB-SLAM[3] ,一种基于 ORB 特征匹配[26] 的单目 实时 SLAM 系统,此系统在稀疏 VSLAM 领域具 有里程碑意义,系统十分完善,可应用于多种场 景,对于运动杂波具有较强的鲁棒性。具有追 踪、建图、重定位和回环检测功能,其标志性地使 用 3 个线程 (如图 3 所示),分别为特征点追踪线 程、局部重投影误差优化线程和基于位姿图的全 局优化线程。对于选择重建点和关键帧具有良好 鲁棒性,可生成增量地图,这使得基于特征点的 SLAM 成为当时的主流。目前此项目源代码已开 源。2017 年的 ORB-SLAM2[27] 支持单目相机、立 体相机和 RGB-D 相机的 SLAM 系统,可在 CPU 上实时工作。 Keyframe insertion Local mapping Recent mappoints culling New points creation Local BA Local keyframe culling Keyframe Frame Map initialization Place recognition Visual vocabulary Map Mappoints Keyframes Covisibility graph Spanning tree Loop correction Loop detection Loop closing Optimize essential graph Loop fusion Compute sim3 Candidates detection Recognition database Tracking Extract ORB Initial ose estimation from last frame or relocalisation Track local map New keyframe decision 图 3 ORB-SLAM 的三线程结构 Fig. 3 Three-thread structure of ORB-SLAM 与其他基于特征点提取的稀疏 VSLAM 不 同,Forster 等 [28] 在 2016 年提出了一种半直接 VO (semi-direct visual odometry, SVO),是一种直接法 和特征点混合的方法,它使用直接的方法跟踪和 三角化像素,这些像素具有较高的图像梯度,但 依赖于基于特征方法的联合优化。半直接 VO 加 上鲁棒的概率深度估计算法,能够有效地跟踪像 素的角点和边。该算法可以很容易地扩展到多个 相机跟踪,包括运动先验,并可适用于大视场相 机,如鱼眼和反折射相机。相对于其他 VSLAM, SVO 的优点是速度快、计算要求低。但只适用于 平面运动,而且没有后端优化和回环检测,不是 ·828· 智 能 系 统 学 报 第 15 卷
第5期 王霞,等:视觉SLAM研究进展 ·829· 完整的SLAM系统。2018年,L00等29提出利用 的半稠密VSLAM系统。 神经网络预测单目图像深度的SVO版本,可根据 LSD-SLAM是2014年Engel等B6提出的一 单图像深度来预测网络的深度预测结果,通过初 种直接(无特征)单目SLAM算法,与目前最先进 始化特征点处深度的均值和方差改进SVO建图。 的直接方法相比,可构建大规模、一致的环境地 此外,还有大量优秀的稀疏VSLAM系统。 图,标志着半稠密VSLAM的成功应用,其运行结 2016年,Zhang等0提出ENFT-sfm系统,它是一 果如图4所示。2015年立体相机直接SLAM算 种特征跟踪方法,能够有效地匹配一个或多个视 法在标准CPU上以高帧速率实时运行叨,此前很 频序列之间的特征点对应。升级版的ENFT- 少见到使用CPU实时建立半稠密地图的算法。 SLAM可大规模运行。DS0是2017年Engel等B则 此方法的创新性在于直接基于所有高对比度像 提出的基于单目相机在不需要检测和描述特征点 素(包括角、边和高纹理区域)的亮度一致性对图 的情况下,采用直接法和稀疏法建立的一个可视 像进行对齐,同时,通过固定基线的立体摄像机 化导航系统。2018年,Schlegel等B提出一种简 设置的静态立体以及利用摄像机运动的临时多视 单的轻量级立体VSLAM,此方法重点在数据结 点立体估计这些像素的深度。2015年,Caruso等 构和算法提升方面,可达到目前最优秀算法级别 将鱼眼相机引入直接单目SLAM方法,使直接法 的准确性,同时大大减少计算资源。OpenVSLAM SLAM支持广角相机。但LSD-SLAM同时有着 是Sumikura等B2019年提出的一个具有高可用 直接法SLAM的缺点,对相机内参和曝光敏感, 性和可扩展性的可视化SLAM框架,基于具有稀 相机快速运动时容易丢失。 疏特征的间接SLAM算法。传统的开源 VSLAM框架并不适合作为第三方程序调用,此 框架易于扩展和使用,该系统支持透视、鱼眼等 相机,甚至支持自己设计的相机模型。2019年, 通过使用AprilTag基准标记实现SLAM的 TagSLAM系统出现Bw。该系统提供了一个前端 图4LSD-SLAM运行图 的GT-SAM因子图优化器,此优化器可设计大量 Fig.4 LSD-SLAM running figure 的实验,包括完整SLAM系统、相机标定、视觉定 基于事件相机的SLAM系统的早期代表为 位、回环检测以及位姿估计等。UcoSLAM是 2013年Weikersdorfer等B提出的一种对单个像 2019年提出的一种融合自然地标和人工地标的 素事件进行操作的算法,可生成具有精确机器人 同步定位方法B。多数SLAM方法使用自然地 定位的高质量2D环境地图。2014年又提出了一 标(如关键点)。但是,自然地标随着时间的推移 种基于事件的动态视觉传感器与一个基于帧的 是不稳定的,在许多情况下是重复的,或者不足 RGB-D传感器融合的SLAM系统,以产生一个深 以进行鲁棒的跟踪(例如在室内建筑物中)。另一 度增强的3D点图0。EV0是2016年提出的一种 方面,基于人工地标的其他方法(例如平方基准 基于事件的视觉里程计算法,此算法成功地利 标记)可通过放置在环境中的地标帮助跟踪和重 用了事件相机的特性来跟踪快速的相机运动,同 新定位。UcoSLAM提出了一种将这两种方法相 时恢复了半密集的3D环境地图。由于事件相机 结合的方法,以实现在许多场景下的长期鲁棒跟 的性质,算法不受运动模糊的影响,并在具有挑 踪,且具有更好的准确性。 战性的高动态范围条件下运行良好,光照变化强 综上所述,稀疏VSLAM由于其计算量小、速 烈。2018年,Zhou等42提出了一种基于立体事 度快,一度成为VSLAM的主流方法,但稀疏 件相机的SLAM系统,可进行半稠密的三维重建。 VSLAM无法构建稠密地图,对于路径规划以及 2.3稠密VSLAM 场景理解等高层任务无法很好地实现。 稠密VSLAM由于可构建三维稠密地图并应 2.2半稠密VSLAM 用于路径规划中,使其具有前者不具备的优势 由于特征点法只能产生稀疏的结构,半稠密 在近些年得到了广泛关注。与半稠密VSLAM类 VSLAM主要以直接法和半直接法为主,直接法 似,稠密VSLAM也是以直接法和半直接法为主。 不需要提取特征点,直接根据像素变化估计相机 DTAM是2011年Newcombe等41提出的一 运动,因此计算量远高于特征点法,其起步也晚 种不依赖于特征提取而是依赖于稠密的逐像素方 于基于特征点法的VSLAM。本文介绍几种经典 法,使用RGB-D相机和一种非凸优化框架中最小
完整的 SLAM 系统。2018 年,Loo 等 [29] 提出利用 神经网络预测单目图像深度的 SVO 版本,可根据 单图像深度来预测网络的深度预测结果,通过初 始化特征点处深度的均值和方差改进 SVO 建图。 此外,还有大量优秀的稀疏 VSLAM 系统。 2016 年,Zhang 等 [30] 提出 ENFT-sfm 系统,它是一 种特征跟踪方法,能够有效地匹配一个或多个视 频序列之间的特征点对应。升级版的 ENFTSLAM 可大规模运行。DSO 是 2017 年 Engel 等 [31] 提出的基于单目相机在不需要检测和描述特征点 的情况下,采用直接法和稀疏法建立的一个可视 化导航系统。2018 年,Schlegel 等 [32] 提出一种简 单的轻量级立体 VSLAM,此方法重点在数据结 构和算法提升方面,可达到目前最优秀算法级别 的准确性,同时大大减少计算资源。OpenVSLAM 是 Sumikura 等 [33] 2019 年提出的一个具有高可用 性和可扩展性的可视化 SLAM 框架,基于具有稀 疏特征的间 接 SLA M 算法。传统的开 源 VSLAM 框架并不适合作为第三方程序调用,此 框架易于扩展和使用,该系统支持透视、鱼眼等 相机,甚至支持自己设计的相机模型。2019 年, 通过使 用 AprilTa g 基准标记实 现 SLAM 的 TagSLAM 系统出现[34]。该系统提供了一个前端 的 GT-SAM 因子图优化器,此优化器可设计大量 的实验,包括完整 SLAM 系统、相机标定、视觉定 位、回环检测以及位姿估计等。UcoSLAM 是 2019 年提出的一种融合自然地标和人工地标的 同步定位方法[35]。多数 SLAM 方法使用自然地 标 (如关键点)。但是,自然地标随着时间的推移 是不稳定的,在许多情况下是重复的,或者不足 以进行鲁棒的跟踪 (例如在室内建筑物中)。另一 方面,基于人工地标的其他方法 (例如平方基准 标记) 可通过放置在环境中的地标帮助跟踪和重 新定位。UcoSLAM 提出了一种将这两种方法相 结合的方法,以实现在许多场景下的长期鲁棒跟 踪,且具有更好的准确性。 综上所述,稀疏 VSLAM 由于其计算量小、速 度快,一度成为 VSLAM 的主流方法,但稀疏 VSLAM 无法构建稠密地图,对于路径规划以及 场景理解等高层任务无法很好地实现。 2.2 半稠密 VSLAM 由于特征点法只能产生稀疏的结构,半稠密 VSLAM 主要以直接法和半直接法为主,直接法 不需要提取特征点,直接根据像素变化估计相机 运动,因此计算量远高于特征点法,其起步也晚 于基于特征点法的 VSLAM。本文介绍几种经典 的半稠密 VSLAM 系统。 LSD-SLAM 是 2014 年 Engel 等 [36] 提出的一 种直接 (无特征) 单目 SLAM 算法,与目前最先进 的直接方法相比,可构建大规模、一致的环境地 图,标志着半稠密 VSLAM 的成功应用,其运行结 果如图 4 所示。2015 年立体相机直接 SLAM 算 法在标准 CPU 上以高帧速率实时运行[37] ,此前很 少见到使用 CPU 实时建立半稠密地图的算法。 此方法的创新性在于直接基于所有高对比度像 素 (包括角、边和高纹理区域) 的亮度一致性对图 像进行对齐,同时,通过固定基线的立体摄像机 设置的静态立体以及利用摄像机运动的临时多视 点立体估计这些像素的深度。2015 年,Caruso 等 [38] 将鱼眼相机引入直接单目 SLAM 方法,使直接法 SLAM 支持广角相机。但 LSD-SLAM 同时有着 直接法 SLAM 的缺点,对相机内参和曝光敏感, 相机快速运动时容易丢失。 图 4 LSD-SLAM 运行图 Fig. 4 LSD-SLAM running figure 基于事件相机的 SLAM 系统的早期代表为 2013 年 Weikersdorfer 等 [39] 提出的一种对单个像 素事件进行操作的算法,可生成具有精确机器人 定位的高质量 2D 环境地图。2014 年又提出了一 种基于事件的动态视觉传感器与一个基于帧的 RGB-D 传感器融合的 SLAM 系统,以产生一个深 度增强的 3D 点图[40]。EVO 是 2016 年提出的一种 基于事件的视觉里程计算法[41] ,此算法成功地利 用了事件相机的特性来跟踪快速的相机运动,同 时恢复了半密集的 3D 环境地图。由于事件相机 的性质,算法不受运动模糊的影响,并在具有挑 战性的高动态范围条件下运行良好,光照变化强 烈。2018 年,Zhou 等 [42] 提出了一种基于立体事 件相机的 SLAM 系统,可进行半稠密的三维重建。 2.3 稠密 VSLAM 稠密 VSLAM 由于可构建三维稠密地图并应 用于路径规划中,使其具有前者不具备的优势, 在近些年得到了广泛关注。与半稠密 VSLAM 类 似,稠密 VSLAM 也是以直接法和半直接法为主。 DTAM 是 2011 年 Newcombe 等 [43] 提出的一 种不依赖于特征提取而是依赖于稠密的逐像素方 法,使用 RGB-D 相机和一种非凸优化框架中最小 第 5 期 王霞,等:视觉 SLAM 研究进展 ·829·
·830· 智能系统学报 第15卷 化全局空间正则化的能量泛函实现实时地追踪与 方法,该方法基于一种内存管理方法,它限制了 重建系统。这是直接法SLAM系统的典型例子, 用于回环检测的位置数量,从而使计算时间保持 具有里程碑意义。 在实时约束下。包括将最近观察到的位置保存在 Newcombe等在2011年提出了Kinect Fu- 工作内存(WM)中,用于回环检测,并将其他位置 sion,一个使用Kinect传感器的实时建图和追踪 转移到长期内存(LTM中。当在当前位置和存 系统,通过ICP算法跟踪深度相机的数据,并构建 储在WM中的位置之间找到匹配时,可以更新并 稠密的地图。同年,Izadi等也提出了一个使用 记住存储在LTM中的相关位置,以便进行回环检 Kinect传感器进行三维重建的系统,这是第一个 测50.1年后,该团队又将SLAM系统与全局回 基于深度相机的三维重建系统。2012年,Whelan 环检测结合,解决多机器人初始值定位问题5。 等46l提出了KinectFusion算法的一个扩展算 2019年,该团队继续发展了RTSB-MAP系统,使 法一Kintinuous,它允许扩展尺度环境的实时稠 其能同时支持视觉和激光雷达SLAM。 密建图。相比于KinectFusion,此算法的区域空间 除上述系统外,稠密VSLAM系统还包括基 可以动态变化,通过三角网格代替点云创建地 于光度和深度误差的DVOs3s,能够实时重建非 图,该系统实现了一组能够实时操作的分层多线 刚性变形场景的密集SLAM系统的DynamicFu- 程组件,地图绘制能力大大超出了原始KinectFu- sion、VolumeDeform和Fusion4Dss-s刃。实现在线 sion算法的范围,其运行结果图如图5所示。 增量地图的ElasticFusion's8-s9。基于CPU的体素 2013年,Whelan等7又对Kintinuous算法进行了 表示的三维重建系统InfiniTAM v3系统和统一的 扩展,提出3点补充:1)融合多种6自由度相机进 框架,即InfiniTAM!,60-6。此外,2014年,EN- 行稳健跟踪;2)实现基于GPU的新型稠密RGB- DRES等I62]提出一种新型的建图系统RGBD- D视觉里程计算法;3)采用先进的融合实时表面 SLAM-V2,只使用RGB-D传感器生成高精度的 着色技术。这些扩展可为机器人和虚拟现实应用 3D地图。2016年,Greene等6提出MLM SLAM 提升构建密集的全彩色空间扩展环境模型的能 系统,一种基于单目相机、无需GPU即可在线重 力,同时在具有挑战性的几何和视觉特征的场景 建稠密的三维模型,从而解决了多分辨率深度估 中保持鲁棒。2015年,Whelan等1又提出了一 计和空间平滑处理问题。 种新的SLAM系统,能够在数百米范围内实时生 2.4发展趋势 成高质量的全局一致性地表重建,且只需要一个 当前SLAM地图表达主要使用点云图和截断 低成本的商品级RGB-D传感器,实现了比使用原 符号距离函数(truncated signed-distance function, 始RGB-D点云更高质量的地图。此方案创新性 TSDF)进行三维建模,这些表示方法有两个主要 地使用一个基于GPU的3D循环缓冲区技巧,高 缺陷。第一,浪费大量内存,点和体素这两种表 效地扩展稠密图融合方法,并克服了相机位姿估 示都需要大量参数去编码一个简单的环境。第 计在各种环境中的局限性。 二,这两种表示都不能完整表达环境信息。比如 机器人无法确定在房间内移动还是走廊中移动。 因此,通过增加语义信息数据关联、人机交互等 方式为SLAM提供更强有力的数据支撑是地图 表示的趋势。 现在已有大量关于SLAM建图的研究,但是 很少有人研究可以指导研究人员进行地图选择的 标准和地图的评价指标。例如简单的室内环境、 图5 Kintinuous运行结果图 简单的参数变化可以满足三维环境表达,但网格 Fig.5 Kintinuous running figure 表示对复杂的室外环境更适用。因此,制定一套 Labbe等I91在2011年提出的RTAB-MAP系 评价不同地图表示以及指导研究者选择地图的标 统,是利用RGB-D传感器的经典SLAM系统,可 准也是亟待解决的问题。 利用RGB-D相机进行同步定位和局部建图、可在 设计环境表示方法是一个困难的问题,而且 大规模和长时间SLAM中实时回环检测的方法, 设计的表示方法往往不够灵活,缺乏适应性,如 克服了回环检测随着时间推移影响实时处理的不 何让机器人根据所处环境的变化自动设计地图表 足。两年后此团队又提出了基于外观的回环检测 示形式也是重要的发展方向,尤其对于长时间导
化全局空间正则化的能量泛函实现实时地追踪与 重建系统。这是直接法 SLAM 系统的典型例子, 具有里程碑意义。 Newcombe 等 [44] 在 2011 年提出了 Kinect Fusion,一个使用 Kinect 传感器的实时建图和追踪 系统,通过 ICP 算法跟踪深度相机的数据,并构建 稠密的地图。同年,Izadi 等 [45] 也提出了一个使用 Kinect 传感器进行三维重建的系统,这是第一个 基于深度相机的三维重建系统。2012 年,Whelan 等 [ 4 6 ] 提出了 KinectFusion 算法的一个扩展算 法—Kintinuous,它允许扩展尺度环境的实时稠 密建图。相比于 KinectFusion,此算法的区域空间 可以动态变化,通过三角网格代替点云创建地 图,该系统实现了一组能够实时操作的分层多线 程组件,地图绘制能力大大超出了原始 KinectFusion 算法的范围,其运行结果图如图 5 所示。 2013 年,Whelan 等 [47] 又对 Kintinuous 算法进行了 扩展,提出 3 点补充:1) 融合多种 6 自由度相机进 行稳健跟踪;2) 实现基于 GPU 的新型稠密 RGBD 视觉里程计算法;3) 采用先进的融合实时表面 着色技术。这些扩展可为机器人和虚拟现实应用 提升构建密集的全彩色空间扩展环境模型的能 力,同时在具有挑战性的几何和视觉特征的场景 中保持鲁棒。2015 年,Whelan 等 [48] 又提出了一 种新的 SLAM 系统,能够在数百米范围内实时生 成高质量的全局一致性地表重建,且只需要一个 低成本的商品级 RGB-D 传感器,实现了比使用原 始 RGB-D 点云更高质量的地图。此方案创新性 地使用一个基于 GPU 的 3D 循环缓冲区技巧,高 效地扩展稠密图融合方法,并克服了相机位姿估 计在各种环境中的局限性。 图 5 Kintinuous 运行结果图 Fig. 5 Kintinuous running figure Labbé等 [49] 在 2011 年提出的 RTAB-MAP 系 统,是利用 RGB-D 传感器的经典 SLAM 系统,可 利用 RGB-D 相机进行同步定位和局部建图、可在 大规模和长时间 SLAM 中实时回环检测的方法, 克服了回环检测随着时间推移影响实时处理的不 足。两年后此团队又提出了基于外观的回环检测 方法,该方法基于一种内存管理方法,它限制了 用于回环检测的位置数量,从而使计算时间保持 在实时约束下。包括将最近观察到的位置保存在 工作内存 (WM) 中,用于回环检测,并将其他位置 转移到长期内存 (LTM) 中。当在当前位置和存 储在 WM 中的位置之间找到匹配时,可以更新并 记住存储在 LTM 中的相关位置,以便进行回环检 测 [50]。1 年后,该团队又将 SLAM 系统与全局回 环检测结合,解决多机器人初始值定位问题[51]。 2019 年,该团队继续发展了 RTSB-MAP 系统,使 其能同时支持视觉和激光雷达 SLAM[52]。 除上述系统外,稠密 VSLAM 系统还包括基 于光度和深度误差的 DVO[53-54] ,能够实时重建非 刚性变形场景的密集 SLAM 系统的 DynamicFusion、VolumeDeform 和 Fusion4D[55-57]。实现在线 增量地图的 ElasticFusion[58-59]。基于 CPU 的体素 表示的三维重建系统 InfiniTAM v3 系统和统一的 框架,即 InfiniTAM[6, 60-61]。此外,2014 年,ENDRES 等 [ 6 2 ] 提出一种新型的建图系统 RGBDSLAM-V2,只使用 RGB-D 传感器生成高精度的 3D 地图。2016 年,Greene 等 [63] 提出 MLM SLAM 系统,一种基于单目相机、无需 GPU 即可在线重 建稠密的三维模型,从而解决了多分辨率深度估 计和空间平滑处理问题。 2.4 发展趋势 当前 SLAM 地图表达主要使用点云图和截断 符号距离函数 (truncated signed-distance function, TSDF) 进行三维建模,这些表示方法有两个主要 缺陷。第一,浪费大量内存,点和体素这两种表 示都需要大量参数去编码一个简单的环境。第 二,这两种表示都不能完整表达环境信息。比如 机器人无法确定在房间内移动还是走廊中移动。 因此,通过增加语义信息数据关联、人机交互等 方式为 SLAM 提供更强有力的数据支撑是地图 表示的趋势。 现在已有大量关于 SLAM 建图的研究,但是 很少有人研究可以指导研究人员进行地图选择的 标准和地图的评价指标。例如简单的室内环境、 简单的参数变化可以满足三维环境表达,但网格 表示对复杂的室外环境更适用。因此,制定一套 评价不同地图表示以及指导研究者选择地图的标 准也是亟待解决的问题。 设计环境表示方法是一个困难的问题,而且 设计的表示方法往往不够灵活,缺乏适应性,如 何让机器人根据所处环境的变化自动设计地图表 示形式也是重要的发展方向,尤其对于长时间导 ·830· 智 能 系 统 学 报 第 15 卷
第5期 王霞,等:视觉SLAM研究进展 ·831· 航有着巨大的促进作用。 数学公式推导出的导航函数仍优于学习得到的导 航函数。所以基于最大后验概率的后端SLAM 3机遇和挑战 依旧是目前的主流。事实上,人类识别物体的运 SLAM的概念早在1986年由Smith等6提 动是基于感知,而不是图像的特征。SLAM中的 出,由于没有发现海森矩阵的稀疏性导致长期未 深度学习可实现目标识别和分割,帮助SLAM系 被实际应用,经历了几十年的发展,VSLAM已经 统更好地感知周围环境。语义SLAM还可以在 被广泛应用于机器人、无人机、无人车和增强现 全局优化、循环关闭和重定位等方面发挥作用。 实等领域,但SLAM对环境光照、高速运动、运动 传统的SLAM依赖于点、线(PL-SLAM、Struct- 干扰等问题较为敏感,如何提升系统的鲁棒性以 SLAM、面等几何特征来推断环境结构。在大 及长时间构建大规模地图等问题都是值得挑战的 规模场景中,高精度实时定位的目标可以通过语 领域。在SLAM主要应用的两大场景是基于智 义SLAM来实现6。 能手机或无人机等嵌人式平台和3D重建、场景 4结束语 理解和深度学习。如何平衡实时性和准确性是一 个重要的开放性问题。针对动态、非结构化、复 本文介绍了常见的VSLAM系统并根据数据 杂、不确定和大规模等诸多环境的解决方案仍有 的稀疏性将VSLAM分为3类,分别介绍了3种 待探索。此外,VSLAM和语义信息以及与其他 类型的VSLAM发展历程,最后提出了VSLAM 类型传感器的结合也给SLAM带来了新的机遇 的机遇与挑战。从近些年的发展来看,VSLAM 和挑战。 在向鲁棒性、实时性更强的方向发展,也有越来 3.1鲁棒性 越多的新型技术不断涌现,使得VSLAM已经应 VSLAM仍然面临着光照条件、高动态环境、 用于实际生活中,尤其是视觉惯导融合领域,已 快速运动、强烈旋转和低纹理环境等问题。首 在无人车和手持设备中实现应用,但对于许多应 先,利用新型传感器可以解决高动态和光照条件 用环境,许多重大的挑战仍亟需解决,如实现长 等问题。例如,动态视觉传感器这样的事件相机 时间鲁棒的感知和导航、挑战光环境下导航等。 每秒可产生100万个事件,这对于高速、高动态 随着新的系统、新型传感器和新的计算工具等的 范围内的快速运动已经足够。其次,结合语义特 开发,相信未来VSLAM技术一定会在导航定位 征,如边缘、平面、表面特征可减少对特征的依 领域发挥重要作用。 赖,可以解决低纹理环境等问题。语义SLAM也 是一个重要的研究方向。第三,每一次运动信息 参考文献: 都会减少一次定位不确定性,但同时也增大一次 [1]LEONARD JJ.DURRANT-WHYTE H F.Simultaneous 计算量,如何平衡精度与计算量之间的关系,进 map building and localization for an autonomous mobile 行大尺度地图构建仍是一个重要问题。 robot[C]//Proceedings IROS'91:IEEE/RSJ International 3.2多传感器融合 Workshop on Intelligent Robots and Systems'91.Osaka, 实际的机器人和硬件设备通常携带不止一种 Japan,1991:1442-1447. 传感器,往往是多个传感器的融合。新的传感器 [2]SMITH R,SELF M,CHEESEMAN P.Estimating uncer- 的诞生往往是SLAM的一大驱动因素。例如,将 tain spatial relationships in robotics[M]//COX I J,WILF- 视觉信息与MU信息相结合,实现了两个传感器 ONG G Y.Autonomous Robot Vehicles.New York,USA: 的互补优势,为SLAM的小型化和低成本提供了 Springer,1990:167-193. 非常有效的解决方案。事件相机有可能解决高动 [3]MUR-ARTAL R,MONTIEL J MM,TARDOS J D.ORB- 态环境等问题。目前的传感器包括激光雷达、声 SLAM:a versatile and accurate monocular SLAM system[J].IEEE transactions on robotics,2015,31(5): 纳、IMU、红外、相机、GPS、雷达等。传感器的选 1147-1163 择取决于环境和所需的地图类型。 [4]QIN Tong,LI Peiliang,SHEN Shaojie.VINS-MONO:a 3.3基于深度学习的SLAM robust and versatile monocular visual-inertial state estimat- 深度学习在机器视觉的众多领域获得了成 or[J].IEEE transactions on robotics,2018,34(4): 功,也不断有学者将深度学习引入SLAM的各个 10041020. 模块,例如回环检测、特征识别等,甚至深度学习 [5]KLEIN G,MURRAY D.Parallel tracking and mapping on 理论上可以代替整个SLAM系统,但基于精确的 a camera phone[C]//Proceedings of the 2009 8th IEEE In-
航有着巨大的促进作用。 3 机遇和挑战 SLAM 的概念早在 1986 年由 Smith 等 [64] 提 出,由于没有发现海森矩阵的稀疏性导致长期未 被实际应用,经历了几十年的发展,VSLAM 已经 被广泛应用于机器人、无人机、无人车和增强现 实等领域,但 SLAM 对环境光照、高速运动、运动 干扰等问题较为敏感,如何提升系统的鲁棒性以 及长时间构建大规模地图等问题都是值得挑战的 领域。在 SLAM 主要应用的两大场景是基于智 能手机或无人机等嵌入式平台和 3D 重建、场景 理解和深度学习。如何平衡实时性和准确性是一 个重要的开放性问题。针对动态、非结构化、复 杂、不确定和大规模等诸多环境的解决方案仍有 待探索[65]。此外,VSLAM 和语义信息以及与其他 类型传感器的结合也给 SLAM 带来了新的机遇 和挑战。 3.1 鲁棒性 VSLAM 仍然面临着光照条件、高动态环境、 快速运动、强烈旋转和低纹理环境等问题。首 先,利用新型传感器可以解决高动态和光照条件 等问题。例如,动态视觉传感器这样的事件相机 每秒可产生 100 万个事件,这对于高速、高动态 范围内的快速运动已经足够。其次,结合语义特 征,如边缘、平面、表面特征可减少对特征的依 赖,可以解决低纹理环境等问题。语义 SLAM 也 是一个重要的研究方向。第三,每一次运动信息 都会减少一次定位不确定性,但同时也增大一次 计算量,如何平衡精度与计算量之间的关系,进 行大尺度地图构建仍是一个重要问题。 3.2 多传感器融合 实际的机器人和硬件设备通常携带不止一种 传感器,往往是多个传感器的融合。新的传感器 的诞生往往是 SLAM 的一大驱动因素。例如,将 视觉信息与 IMU 信息相结合,实现了两个传感器 的互补优势,为 SLAM 的小型化和低成本提供了 非常有效的解决方案。事件相机有可能解决高动 态环境等问题。目前的传感器包括激光雷达、声 纳、IMU、红外、相机、GPS、雷达等。传感器的选 择取决于环境和所需的地图类型。 3.3 基于深度学习的 SLAM 深度学习在机器视觉的众多领域获得了成 功,也不断有学者将深度学习引入 SLAM 的各个 模块,例如回环检测、特征识别等,甚至深度学习 理论上可以代替整个 SLAM 系统,但基于精确的 数学公式推导出的导航函数仍优于学习得到的导 航函数。所以基于最大后验概率的后端 SLAM 依旧是目前的主流。事实上,人类识别物体的运 动是基于感知,而不是图像的特征。SLAM 中的 深度学习可实现目标识别和分割,帮助 SLAM 系 统更好地感知周围环境。语义 SLAM 还可以在 全局优化、循环关闭和重定位等方面发挥作用。 传统的 SLAM 依赖于点、线 (PL-SLAM[66] 、StructSLAM[67] )、面等几何特征来推断环境结构。在大 规模场景中,高精度实时定位的目标可以通过语 义 SLAM 来实现[68]。 4 结束语 本文介绍了常见的 VSLAM 系统并根据数据 的稀疏性将 VSLAM 分为 3 类,分别介绍了 3 种 类型的 VSLAM 发展历程,最后提出了 VSLAM 的机遇与挑战。从近些年的发展来看,VSLAM 在向鲁棒性、实时性更强的方向发展,也有越来 越多的新型技术不断涌现,使得 VSLAM 已经应 用于实际生活中,尤其是视觉惯导融合领域,已 在无人车和手持设备中实现应用,但对于许多应 用环境,许多重大的挑战仍亟需解决,如实现长 时间鲁棒的感知和导航、挑战光环境下导航等。 随着新的系统、新型传感器和新的计算工具等的 开发,相信未来 VSLAM 技术一定会在导航定位 领域发挥重要作用。 参考文献: LEONARD J J, DURRANT-WHYTE H F. Simultaneous map building and localization for an autonomous mobile robot[C]//Proceedings IROS’91: IEEE/RSJ International Workshop on Intelligent Robots and Systems’ 91. Osaka, Japan, 1991: 1442−1447. [1] SMITH R, SELF M, CHEESEMAN P. Estimating uncertain spatial relationships in robotics[M]//COX I J, WILFONG G Y. Autonomous Robot Vehicles. New York, USA: Springer, 1990: 167−193. [2] MUR-ARTAL R, MONTIEL J M M, TARDOS J D. ORBSLAM: a versatile and accurate monocular SLAM system[J]. IEEE transactions on robotics, 2015, 31(5): 1147–1163. [3] QIN Tong, LI Peiliang, SHEN Shaojie. VINS-MONO: a robust and versatile monocular visual-inertial state estimator[J]. IEEE transactions on robotics, 2018, 34(4): 1004–1020. [4] KLEIN G, MURRAY D. Parallel tracking and mapping on a camera phone[C]//Proceedings of the 2009 8th IEEE In- [5] 第 5 期 王霞,等:视觉 SLAM 研究进展 ·831·
·832· 智能系统学报 第15卷 ternational Symposium on Mixed and Augmented Reality 2010:4229-4232 Orlando,USA,2009:83-86. [18]POSCH C,HOFSTATTER M,MATOLIN D,et al.A [6]KAHLER O,PRISACARIU V A.REN C Y,et al.Very dual-line optical transient sensor with on-chip precision high frame rate volumetric integration of depth images on time-stamp generation[C]//Proceedings of 2007 IEEE In- mobile devices[J].IEEE transactions on visualization and ternational Solid-State Circuits Conference.Digest of computer graphics,2015,21(11):1241-1250. Technical Papers.San Francisco,USA,2007:500-618. [7]LYNEN S,SATTLER T,BOSSE M,et al.Get out of my [19]BRANDLI C.BERNER R.YANG Minhao,et al.A 240x lab:large-scale,real-time visual-inertial localization[C]// 180 130 dB 3 us latency global shutter spatiotemporal vis- Proceedings of Robotics:Science and Systems.Rome, ion sensor[J].IEEE journal of solid-state circuits,2014, Italy,2015. 49(10):2333-2341. [8]高翔,张涛,刘毅,等.视觉SLAM十四讲M.北京:电 [20]POSCH C.MATOLIN D,WOHLGENANNT R.A 子工业出版社,2017:13-19. QVGA 143 dB dynamic range frame-free PWM image [9]TAKETOMI T,UCHIYAMA H,IKEDA S.Visual slam sensor with lossless pixel-level video compression and algorithms:a survey from 2010 to 2016[J].IPSJ transac- time-domain CDS[J].IEEE journal of solid-state circuits, tions on computer vision and applications,2017,9(1):16. 2011,46(1):259-275 [10]CADENA C,CARLONE L,CARRILLO H,et al.Past, [21]BAILEY T,DURRANT-WHYTE H.Simultaneous Loc- present,and future of simultaneous localization and map- alization and Mapping(SLAM):Part II[J].IEEE robotics& ping:toward the robust-perception age[J].IEEE transac- automation magazine,2006,13(3):108-117. tions on robotics,2016,32(6):1309-1332. [22]DURRANT-WHYTE H.BAILEY T.Simultaneous local- [11]HUANG Baichuan,ZHAO Jun,LIU Jingbin.A survey of ization and mapping:Part I[J].IEEE robotics automa- simultaneous localization and mapping with an envision tion magazine,2006,13(2):99-110. in 6G wireless networks[EB/OL].(2020-02-14)[2020-03- [23]DAVISON A J,REID I D,MOLTON N D,et al.Mono- 20].https://arxiv.org/pdf/1909.05214.pdf. SLAM:real-time single camera SLAM[J].IEEE transac- [12]刘浩敏,章国锋,鲍虎军.基于单目视觉的同时定位与 tions on pattern analysis and machine intelligence,2007, 地图构建方法综述).计算机辅助设计与图形学学报, 29(6):1052-1067. 2016,28(6):855-868. [24]KLEIN G.MURRAY D.Parallel tracking and mapping LIU Haomin,ZHANG Guofeng,BAO Hujun.A survey for small AR workspaces[Cl//Proceedings of the 2007 6th of monocular simultaneous localization and mapping[J]. IEEE and ACM International Symposium on Mixed and Journal of computer-aided design&computer graphics, Augmented Reality.Nara,Japan,2007:225-234. 2016,28(6):855-868. [25]KLEIN G,MURRAY D.Improving the agility of key- [13]GALLEGO G,DELBRUCK T,ORCHARD G,et al. frame-based SLAM[C]//Proceedings of the 10th European Event-based vision:a survey[J].arXiv:1904.08405,2019. Conference on Computer Vision.Marseille,France,2008: [14]LICHTSTEINER P,POSCH C,DELBRUCK T.A 802-815. 128x128 120 dB 15 us latency asynchronous temporal [26]RUBLEE E,RABAUD V,KONOLIGE K,et al.ORB:an contrast vision sensor[J].IEEE journal of solid-state cir- efficient alternative to SIFT or SURF[C]//Proceedings of cuits,2008.43(2):566-576. 2011 International Conference on Computer Vision.Bar- [15]SON B.SUH Y,KIM S,et al.4.1 A 640x480 dynamic celona,.Spain,2011:2564-2571. vision sensor with a 9um pixel and 300meps address- [27]MUR-ARTAL R,TARDOS J D.ORB-SLAM2:an open- event representation[C]//Proceedings of 2017IEEE Inter- source SLAM system for monocular,stereo,and RGB-D national Solid-State Circuits Conference.San Francisco, cameras[J].IEEE transactions on robotics,2017,33(5): USA.2017:66-67 1255-1262. [16]POSCH C,MATOLIN D,WOHLGENANNT R,et al.A [28]FORSTER C.ZHANG Zichao,GASSNER M.et al. microbolometer asynchronous dynamic vision sensor for SVO:semidirect visual odometry for monocular and mul- LWIR[J].IEEE sensors journal,2009,9(6):654-664. ticamera systems[J].IEEE transactions on robotics,2017, [17]HOFSTATTER M,SCHON P,POSCH C.A SPARC- 33(2):249-265 compatible general purpose address-event processor with [29]LOO S Y,AMIRI A J,MASHOHOR S,et al.CNN-SVO: 20-bit 10ns-resolution asynchronous sensor data interface improving the mapping in semi-direct visual odometry us- in 0.18 um CMOS[Cl//Proceedings of 2010 IEEE Interna- ing single-image depth prediction[EB/OL].(2018-10- tional Symposium on Circuits and Systems.Paris,France, 01)[2020-02-03].https://arxiv.org/abs/180.01011
ternational Symposium on Mixed and Augmented Reality. Orlando, USA, 2009: 83−86. KÄHLER O, PRISACARIU V A, REN C Y, et al. Very high frame rate volumetric integration of depth images on mobile devices[J]. IEEE transactions on visualization and computer graphics, 2015, 21(11): 1241–1250. [6] LYNEN S, SATTLER T, BOSSE M, et al. Get out of my lab: large-scale, real-time visual-inertial localization[C]// Proceedings of Robotics: Science and Systems. Rome, Italy, 2015. [7] 高翔, 张涛, 刘毅, 等. 视觉 SLAM 十四讲 [M]. 北京: 电 子工业出版社, 2017: 13−19. [8] TAKETOMI T, UCHIYAMA H, IKEDA S. Visual slam algorithms: a survey from 2010 to 2016[J]. IPSJ transactions on computer vision and applications, 2017, 9(1): 16. [9] CADENA C, CARLONE L, CARRILLO H, et al. Past, present, and future of simultaneous localization and mapping: toward the robust-perception age[J]. IEEE transactions on robotics, 2016, 32(6): 1309–1332. [10] HUANG Baichuan, ZHAO Jun, LIU Jingbin. A survey of simultaneous localization and mapping with an envision in 6G wireless networks[EB/OL]. (2020-02-14)[2020-03- 20]. https://arxiv.org/pdf/1909.05214.pdf. [11] 刘浩敏, 章国锋, 鲍虎军. 基于单目视觉的同时定位与 地图构建方法综述 [J]. 计算机辅助设计与图形学学报, 2016, 28(6): 855–868. LIU Haomin, ZHANG Guofeng, BAO Hujun. A survey of monocular simultaneous localization and mapping[J]. Journal of computer-aided design & computer graphics, 2016, 28(6): 855–868. [12] GALLEGO G, DELBRUCK T, ORCHARD G, et al. Event-based vision: a survey[J]. arXiv: 1904.08405, 2019. [13] LICHTSTEINER P, POSCH C, DELBRUCK T. A 128×128 120 dB 15 μs latency asynchronous temporal contrast vision sensor[J]. IEEE journal of solid-state circuits, 2008, 43(2): 566–576. [14] SON B, SUH Y, KIM S, et al. 4.1 A 640×480 dynamic vision sensor with a 9μm pixel and 300meps addressevent representation[C]//Proceedings of 2017 IEEE International Solid-State Circuits Conference. San Francisco, USA, 2017: 66−67. [15] POSCH C, MATOLIN D, WOHLGENANNT R, et al. A microbolometer asynchronous dynamic vision sensor for LWIR[J]. IEEE sensors journal, 2009, 9(6): 654–664. [16] HOFSTÄTTER M, SCHÖN P, POSCH C. A SPARCcompatible general purpose address-event processor with 20-bit l0ns-resolution asynchronous sensor data interface in 0.18 μm CMOS[C]//Proceedings of 2010 IEEE International Symposium on Circuits and Systems. Paris, France, [17] 2010: 4229−4232. POSCH C, HOFSTATTER M, MATOLIN D, et al. A dual-line optical transient sensor with on-chip precision time-stamp generation[C]//Proceedings of 2007 IEEE International Solid-State Circuits Conference. Digest of Technical Papers. San Francisco, USA, 2007: 500−618. [18] BRANDLI C, BERNER R, YANG Minhao, et al. A 240× 180 130 dB 3 μs latency global shutter spatiotemporal vision sensor[J]. IEEE journal of solid-state circuits, 2014, 49(10): 2333–2341. [19] POSCH C, MATOLIN D, WOHLGENANNT R. A QVGA 143 dB dynamic range frame-free PWM image sensor with lossless pixel-level video compression and time-domain CDS[J]. IEEE journal of solid-state circuits, 2011, 46(1): 259–275. [20] BAILEY T, DURRANT-WHYTE H. Simultaneous Localization and Mapping (SLAM): Part II[J]. IEEE robotics & automation magazine, 2006, 13(3): 108–117. [21] DURRANT-WHYTE H, BAILEY T. Simultaneous localization and mapping: Part I[J]. IEEE robotics & automation magazine, 2006, 13(2): 99–110. [22] DAVISON A J, REID I D, MOLTON N D, et al. MonoSLAM: real-time single camera SLAM[J]. IEEE transactions on pattern analysis and machine intelligence, 2007, 29(6): 1052–1067. [23] KLEIN G, MURRAY D. Parallel tracking and mapping for small AR workspaces[C]//Proceedings of the 2007 6th IEEE and ACM International Symposium on Mixed and Augmented Reality. Nara, Japan, 2007: 225−234. [24] KLEIN G, MURRAY D. Improving the agility of keyframe-based SLAM[C]//Proceedings of the 10th European Conference on Computer Vision. Marseille, France, 2008: 802−815. [25] RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain, 2011: 2564−2571. [26] MUR-ARTAL R, TARDÓS J D. ORB-SLAM2: an opensource SLAM system for monocular, stereo, and RGB-D cameras[J]. IEEE transactions on robotics, 2017, 33(5): 1255–1262. [27] FORSTER C, ZHANG Zichao, GASSNER M, et al. SVO: semidirect visual odometry for monocular and multicamera systems[J]. IEEE transactions on robotics, 2017, 33(2): 249–265. [28] LOO S Y, AMIRI A J, MASHOHOR S, et al. CNN-SVO: improving the mapping in semi-direct visual odometry using single-image depth prediction[EB/OL]. (2018-10- 01)[2020-02-03]. https://arxiv.org/abs/1810.01011. [29] ·832· 智 能 系 统 学 报 第 15 卷
第5期 王霞,等:视觉SLAM研究进展 ·833· [30]ZHANG Guofeng,LIU Haomin,DONG Zilong,et al.Ef- [42]ZHOU Yi,GALLEGO G,REBECQ H,et al.Semi-dense ficient non-consecutive feature tracking for robust struc- 3D reconstruction with a stereo event camera[C]//Pro- ture-from-motion[J].IEEE transactions on image pro- ceedings of the 15th European Conference on Computer cessing,2016,25(12):5957-5970. Vision.Munich,Germany,2018:242-258. [31]ENGEL J,KOLTUN V,CREMERS D.Direct sparse [43]NEWCOMBE R A,LOVEGROVE S J,DAVISON A J. odometry[J].IEEE transactions on pattern analysis and DTAM:dense tracking and mapping in real-time[C]//Pro- machine intelligence,2018,40(3):611-625. ceedings of 2011 International Conference on Computer [32]SCHLEGEL D.COLOSI M.GRISETTI G.ProSLAM: Vision.Barcelona,Spain,2011:2320-2327. graph SLAM from a programmer's perspective[EB/OL]. [44]NEWCOMBE R A,IZADI S,HILLIGES O,et al.Kinect- (2017-09-13)[2020-02-04].https:/arxiv.org/abs/ Fusion:real-time dense surface mapping and 1709.04377. tracking[C]//Proceedings of the 2011 10th IEEE Interna- [33]SUMIKURA S.SHIBUYA M,SAKURADA K tional Symposium on Mixed and Augmented Reality. Openvslam:a versatile visual slam framework[C]//Pro- Basel,Switzerland,2011:127-136. ceedings of the 27th ACM International Conference on [45]IZADI S,KIM D,HILLIGES O,et al.KinectFusion:real- Multimedia.Nice,France,2019. time 3D reconstruction and interaction using a moving [34]PFROMMER B.DANIILIDIS K.TagSLAM:robust slam depth camera[C]//Proceedings of the 24th Annual ACM with fiducial markers[EB/OL].(2019-10-01)[2020-02- Symposium on User Interface Software and Technology 05].https://arxiv.org/abs/1910.00679. Santa Barbara,USA,2011:559-568. [35]MUNOZ-SALINAS R,MEDINA-CARNICER R. [46]WHELAN T,KAESS M.FALLON M,et al.Kintinuous: UcoSLAM:simultaneous localization and mapping by fu- spatially extended kinectfusion[C]//Proceedings of RSS sion of keypoints and squared planar markers[J].Pattern Workshop on RGB-D:Advanced Reasoning with Depth recognition,2020.101:107193 Cameras.Sydney,Australia,2012. [36]ENGEL J,SCHOPS T,CREMERS D.LSD-SLAM: [47]WHELAN T,JOHANNSSON H.KAESS M,et al.Ro- large-scale direct monocular SLAM[C]//Proceedings of bust real-time visual odometry for dense RGB-D map- the 13th European Conference on Computer Vision. ping[C]//Proceedings of 2013 IEEE International Confer- Zurich.Switzerland.2014. ence on Robotics and Automation.Karlsruhe,Germany, [37]ENGEL J,STUCKLER J,CREMERS D.Large-scale dir- 2013:5724-5731. ect SLAM with stereo cameras[Cl//Proceedings of 2015 [48]WHELAN T.KAESS M.JOHANNSSON H.et al.Real- IEEE/RSJ International Conference on Intelligent Robots time large-scale dense RGB-D SLAM with volumetric fu- and Systems.Hamburg,Germany,2015:1935-1942. sion[J].The international journal of robotics research, [38]CARUSO D,ENGEL J.CREMERS D.Large-scale dir- 2015,34(4/5):598-626. ect SLAM for omnidirectional cameras[C]//Proceedings [49]LABBE M,MICHAUD F.Memory management for real- of 2015 IEEE/RSJ International Conference on Intelli- time appearance-based loop closure detection[C]//Pro- gent Robots and Systems.Hamburg,Germany,2015: ceedings of 2011 IEEE/RSJ International Conference on 141-148 Intelligent Robots and Systems.San Francisco,USA, [39]WEIKERSDORFER D.HOFFMANN R.CONRADT J. 2011:1271-1276. Simultaneous localization and mapping for event-based [50]LABBE MM.MICHAUD F.Appearance-based loop vision systems[C]//Proceedings of the 9th International closure detection for online large-scale and long-term op- Conference on Computer Vision Systems.Petersburg, eration[J].IEEE transactions on robotics,2013,29(3): Russia,2013:133-142. 734745. [40]WEIKERSDORFER D.ADRIAN D B,CREMERS D,et [51]LABBE M.MICHAUD F.Online global loop closure de- al.Event-based 3D SLAM with a depth-augmented dy- tection for large-scale multi-session graph-based namic vision sensor[Cl//Proceedings of 2014 IEEE Inter- slam[C]//Proceedings of 2014 IEEE/RSJ International national Conference on Robotics and Automation.Hong Conference on Intelligent Robots and Systems.Chicago, Kong,China,2014:359-364 USA,2014:2661-2666 [41]REBECQ H,HORSTSCHAEFER T.GALLEGO G,et al. [52]LABBE M,MICHAUD F.RTAB-Map as an open-source EVO:a geometric approach to event-based 6-DOF paral- lidar and visual simultaneous localization and mapping lel tracking and mapping in real time[J].IEEE robotics library for large-scale and long-term online operation[J]. and automation letters,2017,2(2):593-600. Journal of field robotics,2019,36(2):416-446
ZHANG Guofeng, LIU Haomin, DONG Zilong, et al. Efficient non-consecutive feature tracking for robust structure-from-motion[J]. IEEE transactions on image processing, 2016, 25(12): 5957–5970. [30] ENGEL J, KOLTUN V, CREMERS D. Direct sparse odometry[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(3): 611–625. [31] SCHLEGEL D, COLOSI M, GRISETTI G. ProSLAM: graph SLAM from a programmer’s perspective[EB/OL]. (2017-09-13)[2020-02-04]. https://arxiv.org/abs/ 1709.04377. [32] SUMIKURA S, SHIBUYA M, SAKURADA K. Openvslam: a versatile visual slam framework[C]//Proceedings of the 27th ACM International Conference on Multimedia. Nice, France, 2019. [33] PFROMMER B, DANIILIDIS K. TagSLAM: robust slam with fiducial markers[EB/OL]. (2019-10-01)[2020-02- 05]. https://arxiv.org/abs/1910.00679. [34] MUÑOZ-SALINAS R, MEDINA-CARNICER R. UcoSLAM: simultaneous localization and mapping by fusion of keypoints and squared planar markers[J]. Pattern recognition, 2020, 101: 107193. [35] ENGEL J, SCHÖPS T, CREMERS D. LSD-SLAM: large-scale direct monocular SLAM[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland, 2014. [36] ENGEL J, STÜCKLER J, CREMERS D. Large-scale direct SLAM with stereo cameras[C]//Proceedings of 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany, 2015: 1935−1942. [37] CARUSO D, ENGEL J, CREMERS D. Large-scale direct SLAM for omnidirectional cameras[C]//Proceedings of 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg, Germany, 2015: 141−148. [38] WEIKERSDORFER D, HOFFMANN R, CONRADT J. Simultaneous localization and mapping for event-based vision systems[C]//Proceedings of the 9th International Conference on Computer Vision Systems. Petersburg, Russia, 2013: 133−142. [39] WEIKERSDORFER D, ADRIAN D B, CREMERS D, et al. Event-based 3D SLAM with a depth-augmented dynamic vision sensor[C]//Proceedings of 2014 IEEE International Conference on Robotics and Automation. Hong Kong, China, 2014: 359−364. [40] REBECQ H, HORSTSCHAEFER T, GALLEGO G, et al. EVO: a geometric approach to event-based 6-DOF parallel tracking and mapping in real time[J]. IEEE robotics and automation letters, 2017, 2(2): 593–600. [41] ZHOU Yi, GALLEGO G, REBECQ H, et al. Semi-dense 3D reconstruction with a stereo event camera[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany, 2018: 242−258. [42] NEWCOMBE R A, LOVEGROVE S J, DAVISON A J. DTAM: dense tracking and mapping in real-time[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain, 2011: 2320−2327. [43] NEWCOMBE R A, IZADI S, HILLIGES O, et al. KinectFusion: real-time dense surface mapping and tracking[C]//Proceedings of the 2011 10th IEEE International Symposium on Mixed and Augmented Reality. Basel, Switzerland, 2011: 127−136. [44] IZADI S, KIM D, HILLIGES O, et al. KinectFusion: realtime 3D reconstruction and interaction using a moving depth camera[C]//Proceedings of the 24th Annual ACM Symposium on User Interface Software and Technology. Santa Barbara, USA, 2011: 559−568. [45] WHELAN T, KAESS M, FALLON M, et al. Kintinuous: spatially extended kinectfusion[C]//Proceedings of RSS Workshop on RGB-D: Advanced Reasoning with Depth Cameras. Sydney, Australia, 2012. [46] WHELAN T, JOHANNSSON H, KAESS M, et al. Robust real-time visual odometry for dense RGB-D mapping[C]//Proceedings of 2013 IEEE International Conference on Robotics and Automation. Karlsruhe, Germany, 2013: 5724−5731. [47] WHELAN T, KAESS M, JOHANNSSON H, et al. Realtime large-scale dense RGB-D SLAM with volumetric fusion[J]. The international journal of robotics research, 2015, 34(4/5): 598–626. [48] LABBÉ M, MICHAUD F. Memory management for realtime appearance-based loop closure detection[C]//Proceedings of 2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. San Francisco, USA, 2011: 1271−1276. [49] LABBÉ M M, MICHAUD F. Appearance-based loop closure detection for online large-scale and long-term operation[J]. IEEE transactions on robotics, 2013, 29(3): 734–745. [50] LABBÉ M, MICHAUD F. Online global loop closure detection for large-scale multi-session graph-based slam[C]//Proceedings of 2014 IEEE/RSJ International Conference on Intelligent Robots and Systems. Chicago, USA, 2014: 2661−2666. [51] LABBÉ M, MICHAUD F. RTAB-Map as an open-source lidar and visual simultaneous localization and mapping library for large-scale and long-term online operation[J]. Journal of field robotics, 2019, 36(2): 416–446. [52] 第 5 期 王霞,等:视觉 SLAM 研究进展 ·833·
·834· 智能系统学报 第15卷 [53]KERL C,STURM J,CREMERS D.Dense visual SLAM 2014,301少:177-187 for RGB-D cameras[C]//Proceedings of 2013 IEEE/RSJ [63]GREENE W N.OK K,LOMMEL P,et al.Multi-level International Conference on Intelligent Robots and Sys- mapping:real-time dense monocular SLAM[C]//Proceed- tems.Tokyo,Japan,2013:2100-2106. ings of 2016 IEEE International Conference on Robotics [54]KERLC,STURM J,CREMERS D.Robust odometry es- and Automation.Stockholm,Sweden,2016:833-840. timation for RGB-D cameras[C]//Proceedings of 2013 [64]SMITH R C,CHEESEMAN P.On the representation and IEEE International Conference on Robotics and Automa- estimation of spatial uncertainty[J].The international tion.Karlsruhe,Germany,2013:3748-3754. journal of robotics research,1986,5(4):56-68 [55]NEWCOMBE R A,FOX D,SEITZ S M.Dynamicfusion: [65]SUALEH M.KIM G W.Simultaneous localization and reconstruction and tracking of non-rigid scenes in real- mapping in the epoch of semantics:a survey[]].Interna- time[C]//Proceedings of IEEE Conference on Computer tional journal of control,automation and systems,2019, Vision and Pattern Recognition.Boston,USA,2015: 17(3:729-742. 343-352 [66]GOMEZ-OJEDA R.MORENO F A.ZUNIGA-NOEL D. [56]INNMANN M,ZOLLHOFER M,NIEBNER M,et al. et al.PL-SLAM:a stereo SLAM system through the com- Volumedeform:real-time volumetric non-rigid recon- bination of points and line segments[J].IEEE transac- struction[C]//Proceedings of the 14th European Confer- tions on robotics,2019,35(3):734-746. ence on Computer Vision.Amsterdam,The Netherlands. [67]ZHOU Huizhong,ZOU Danping,PEI Ling,et al. 2016:362-379 StructSLAM:visual SLAM with building structure [57]DOU Mingsong,KHAMIS S,DEGTYAREV Y,et al.Fu- lines[J].IEEE transactions on vehicular technology,2015, sion4D:real-time performance capture of challenging 64(4):13641375. scenes[J].ACM transactions on graphics,2016,35(4): [68]ATANASOV N.BOWMAN S L.DANIILIDIS K.et al. 114 A unifying view of geometry,semantics,and data associ- [58]WHELAN T.LEUTENEGGER S,SALAS MORENO R. ation in SLAM[Cl//Proceedings of the 27th International et al.Elasticfusion:dense SLAM without a pose Joint Conference on Artificial Intelligence.Stockholm, graph[C]//Proceedings of Robotics:Science and Systems. Sweden,2018:5204-5208. Rome,Italy,2015. 作者简介: [59]WHELAN T.SALAS-MORENO R F,GLOCKER B,et 王霞,副教授,博士生导师,光电 al.ElasticFusion:real-time dense SLAM and light source 成像与信息工程研究所副所长,主要 estimation[J].The international journal of robotics re- 研究方向为光电成像技术和光电检测 search,2016,35(14):1697-1716. 技术。主持省部级以上项目和横向合 作项目多项。获授权国家国防发明专 [60]KAHLER O,PRISACARIU V A.MURRAY D W.Real- 利10余项,研究成果获省级技术发明 time large-scale dense 3D reconstruction with loop clos- 二等奖1项、科技进步三等奖3项、中 ure[Cl//Proceedings of the 14th European Conference on 国电子科技集团公司科技进步三等奖1项。编辑出版教材 Computer Vision.Amsterdam,The Netherlands,2016: 2部,发表学术论文70余篇。 500-516. [61]PRISACARIU V A.KAHLER O.GOLODETZ S.et al. 左一凡,博士研究生,主要研究方 向为视觉SLAM、多传感器融合导航。 InfiniTAM v3:a framework for large-scale 3D recon- struction with loop closure[EB/OL].(2017-08-02)[2020- 02-2].htp:/arxiv.org/abs/1708.00783. [62]ENDRES F,HESS J,STURM J,et al.3-D mapping with an RGB-D camera[J].IEEE transactions on robotics
KERL C, STURM J, CREMERS D. Dense visual SLAM for RGB-D cameras[C]//Proceedings of 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. Tokyo, Japan, 2013: 2100−2106. [53] KERL C, STURM J, CREMERS D. Robust odometry estimation for RGB-D cameras[C]//Proceedings of 2013 IEEE International Conference on Robotics and Automation. Karlsruhe, Germany, 2013: 3748−3754. [54] NEWCOMBE R A, FOX D, SEITZ S M. Dynamicfusion: reconstruction and tracking of non-rigid scenes in realtime[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 343−352. [55] INNMANN M, ZOLLHÖFER M, NIEßNER M, et al. Volumedeform: real-time volumetric non-rigid reconstruction[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 362−379. [56] DOU Mingsong, KHAMIS S, DEGTYAREV Y, et al. Fusion4D: real-time performance capture of challenging scenes[J]. ACM transactions on graphics, 2016, 35(4): 114. [57] WHELAN T, LEUTENEGGER S, SALAS MORENO R, et al. Elasticfusion: dense SLAM without a pose graph[C]//Proceedings of Robotics: Science and Systems. Rome, Italy, 2015. [58] WHELAN T, SALAS-MORENO R F, GLOCKER B, et al. ElasticFusion: real-time dense SLAM and light source estimation[J]. The international journal of robotics research, 2016, 35(14): 1697–1716. [59] KÄHLER O, PRISACARIU V A, MURRAY D W. Realtime large-scale dense 3D reconstruction with loop closure[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 500−516. [60] PRISACARIU V A, KÄHLER O, GOLODETZ S, et al. InfiniTAM v3: a framework for large-scale 3D reconstruction with loop closure[EB/OL]. (2017-08-02)[2020- 02-25]. http://arxiv.org/abs/1708.00783. [61] ENDRES F, HESS J, STURM J, et al. 3-D mapping with an RGB-D camera[J]. IEEE transactions on robotics, [62] 2014, 30(1): 177–187. GREENE W N, OK K, LOMMEL P, et al. Multi-level mapping: real-time dense monocular SLAM[C]//Proceedings of 2016 IEEE International Conference on Robotics and Automation. Stockholm, Sweden, 2016: 833−840. [63] SMITH R C, CHEESEMAN P. On the representation and estimation of spatial uncertainty[J]. The international journal of robotics research, 1986, 5(4): 56–68. [64] SUALEH M, KIM G W. Simultaneous localization and mapping in the epoch of semantics: a survey[J]. International journal of control, automation and systems, 2019, 17(3): 729–742. [65] GOMEZ-OJEDA R, MORENO F A, ZUÑIGA-NOËL D, et al. PL-SLAM: a stereo SLAM system through the combination of points and line segments[J]. IEEE transactions on robotics, 2019, 35(3): 734–746. [66] ZHOU Huizhong, ZOU Danping, PEI Ling, et al. StructSLAM: visual SLAM with building structure lines[J]. IEEE transactions on vehicular technology, 2015, 64(4): 1364–1375. [67] ATANASOV N, BOWMAN S L, DANIILIDIS K, et al. A unifying view of geometry, semantics, and data association in SLAM[C]// Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm, Sweden, 2018: 5204−5208. [68] 作者简介: 王霞,副教授,博士生导师,光电 成像与信息工程研究所副所长,主要 研究方向为光电成像技术和光电检测 技术。主持省部级以上项目和横向合 作项目多项。获授权国家/国防发明专 利 10 余项,研究成果获省级技术发明 二等奖 1 项、科技进步三等奖 3 项、中 国电子科技集团公司科技进步三等奖 1 项。编辑出版教材 2 部,发表学术论文 70 余篇。 左一凡,博士研究生,主要研究方 向为视觉 SLAM、多传感器融合导航。 ·834· 智 能 系 统 学 报 第 15 卷