第16卷第6期 智能系统学报 Vol.16 No.6 2021年11月 CAAI Transactions on Intelligent Systems Now.2021 D0:10.11992tis.202010036 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20210910.1533.004.html 一种融入注意力和预测的特征选择SLAM算法 曾毓菁2,3,姜勇23 (1.东北大学信息科学与工程学院,辽宁沈阳110006:2.中国科学院沈阳自动化研究所,辽宁沈阳110016,3.中 国科学院网络化控制系统重点实验室,辽宁沈阳110016,4.中国科学院机器人与智能制造创新研究院,辽宁 沈阳110169) 摘要:针对SLAM(simultaneous localization and mapping)在急转弯、快速运动场景中定位失败的问题,提出一 种融入注意力和预测的特征选择即时定位与地图创建(SLAM)算法,选择随着相机的运动更有可能保持在视 野中的特征点,舍去即将消失在视野中的特征点。首先利用logdet度量量化特征选择的可行性,然后计算特征 点的信息矩阵,再从检测到的特征中通过贪婪算法选择k个特征(近似的)最大化logdet度量,最后结合ORB SLAM2的实际实验表明,该算法在复杂场景(如急转弯、快速运动)中可以确保定位的准确性。 关键词:即时定位与地图创建;视觉;注意力;预测:特征选择;logdet度量:延迟求值;贪婪算法;信息矩阵 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)06-1039-06 中文引用格式:曾毓菁,姜勇.一种融入注意力和预测的特征选择SL4M算法.智能系统学报,2021,16(6):1039-1044. 英文引用格式:ZENGYujing,JIANG Yong.Feature selection simultaneous localization and mapping algorithm incorporating at-- tention and anticipation J.CAAI transactions on intelligent systems,2021,16(6):1039-1044. Feature selection simultaneous localization and mapping algorithm incorporating attention and anticipation ZENG Yujing'234,JIANG Yong4 (1.School of Information Science and Engineering,Northeastern University,Shenyang 110006,China;2.Shenyang Institute of Auto- mation,Chinese Academy of Sciences,Shenyang 110016,China;3.Key Laboratory of Networked Control Systems,Chinese Academy of Sciences,Shenyang 110016,China;4.Institutes for Robotics and Intelligent Manufacturing,Chinese Academy of Sci- ences,Shenyang 110169,China) Abstract:A simultaneous localization and mapping(SLAM)algorithm incorporating attention and anticipation is pro- posed to solve the localization failure problem of SLAM in the scene of sharp turning and fast movement.The al- gorithm can select feature points that are more likely to remain in the field of view as the camera moves and discard fea- tures that are about to disappear from the field of view.The logdet metric is used to measure the feasibility of quantify- ing the feature selection first.The information matrix of the feature points is then calculated.From the detected features, a greedy algorithm is used to select k features(approximately)to maximize the logdet metric.The actual test combined with ORB-SLAM2 shows that the algorithm can ensure positioning accuracy in complex scenarios,such as in the scene of sharp turning and fast movement. Keywords:SLAM:vision;attention;anticipation;feature selection:logdet metric;lazy evaluation;greedy algorithm;in- formation matrix 人类在日常生活中可以不间断地处理大量获 致认为,人类可以高效地处理面临的大量数据是 取来自外界的信息,如在高速公路上驾驶汽车, 由于我们能够优先考虑视觉场景的某些方面,而 或在拥挤的街道上行走。在认知科学中,人们一 忽视其他方面。这是人类的一种视觉注意力机制, 是一种认知过程,通过选择相关信息,过滤掉不 收稿日期:2020-10-29.网络出版日期:2021-09-13. 基金项目:国家自然科学基金项目(52075531) 相关的刺激,使人类能够解析大量的视觉数据, 通信作者:姜勇.E-mail:jiangyong(@sia.com. 从而在有限的资源下实现性能的最大化。机器
DOI: 10.11992/tis.202010036 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210910.1533.004.html 一种融入注意力和预测的特征选择 SLAM 算法 曾毓菁1,2,3,4,姜勇2,3,4 (1. 东北大学 信息科学与工程学院,辽宁 沈阳 110006; 2. 中国科学院 沈阳自动化研究所,辽宁 沈阳 110016; 3. 中 国科学院 网络化控制系统重点实验室,辽宁 沈阳 110016; 4. 中国科学院 机器人与智能制造创新研究院,辽宁 沈阳 110169) 摘 要:针对 SLAM (simultaneous localization and mapping) 在急转弯、快速运动场景中定位失败的问题,提出一 种融入注意力和预测的特征选择即时定位与地图创建 (SLAM) 算法,选择随着相机的运动更有可能保持在视 野中的特征点,舍去即将消失在视野中的特征点。首先利用 logdet 度量量化特征选择的可行性,然后计算特征 点的信息矩阵,再从检测到的特征中通过贪婪算法选择 k 个特征 (近似的) 最大化 logdet 度量,最后结合 ORBSLAM2 的实际实验表明,该算法在复杂场景 (如急转弯、快速运动) 中可以确保定位的准确性。 关键词:即时定位与地图创建;视觉;注意力;预测;特征选择;logdet 度量;延迟求值;贪婪算法;信息矩阵 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)06−1039−06 中文引用格式:曾毓菁, 姜勇. 一种融入注意力和预测的特征选择 SLAM 算法 [J]. 智能系统学报, 2021, 16(6): 1039–1044. 英文引用格式:ZENG Yujing, JIANG Yong. Feature selection simultaneous localization and mapping algorithm incorporating attention and anticipation[J]. CAAI transactions on intelligent systems, 2021, 16(6): 1039–1044. Feature selection simultaneous localization and mapping algorithm incorporating attention and anticipation ZENG Yujing1,2,3,4 ,JIANG Yong2,3,4 (1. School of Information Science and Engineering, Northeastern University, Shenyang 110006, China; 2. Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China; 3. Key Laboratory of Networked Control Systems, Chinese Academy of Sciences, Shenyang 110016, China; 4. Institutes for Robotics and Intelligent Manufacturing, Chinese Academy of Sciences, Shenyang 110169, China) Abstract: A simultaneous localization and mapping (SLAM) algorithm incorporating attention and anticipation is proposed to solve the localization failure problem of SLAM in the scene of sharp turning and fast movement. The algorithm can select feature points that are more likely to remain in the field of view as the camera moves and discard features that are about to disappear from the field of view. The logdet metric is used to measure the feasibility of quantifying the feature selection first. The information matrix of the feature points is then calculated. From the detected features, a greedy algorithm is used to select k features (approximately) to maximize the logdet metric. The actual test combined with ORB-SLAM2 shows that the algorithm can ensure positioning accuracy in complex scenarios, such as in the scene of sharp turning and fast movement. Keywords: SLAM; vision; attention; anticipation; feature selection; logdet metric; lazy evaluation; greedy algorithm; information matrix 人类在日常生活中可以不间断地处理大量获 取来自外界的信息,如在高速公路上驾驶汽车, 或在拥挤的街道上行走。在认知科学中,人们一 致认为,人类可以高效地处理面临的大量数据是 由于我们能够优先考虑视觉场景的某些方面,而 忽视其他方面。这是人类的一种视觉注意力机制, 是一种认知过程,通过选择相关信息,过滤掉不 相关的刺激,使人类能够解析大量的视觉数据, 从而在有限的资源下实现性能的最大化[1]。机器 收稿日期:2020−10−29. 网络出版日期:2021−09−13. 基金项目:国家自然科学基金项目 (52075531). 通信作者:姜勇. E-mail:jiangyong@sia.com. 第 16 卷第 6 期 智 能 系 统 学 报 Vol.16 No.6 2021 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2021
·1040· 智能系统学报 第16卷 人虽然做不到人类这样,但这种视觉注意力机制 动状态的相互关联性而产生的特征效用,引入预 是值得机器人自主定位导航借鉴的。 测机制,利用注意力和预测选择特征来减少跟踪 国内外学者开展了很多通过主动特征选择提 特征的丢失,通过滤去那些将丢失在视野中的特 高视觉SLAM和视觉里程计性能的研究。Ouer- 征点,增加SLAM系统的稳定性,特征选择器知 hani等)利用注意的路标点构建拓扑地图,在导 道机器人的意图(未来的运动),并相应地选择更 航过程中,利用相同的视觉注意模型检测最突出 有可能出现在未来视野中的特征,可以用更少的 的视觉特征,与注意的路标点相匹配获取特征 含信息多的特征点来提高优化效率。 点。Newman等,考虑一个装备了相机和激光测 距仪的机器人,并利用基于外观的视觉显著性概 1注意力和预测机制 念进行特征选择,提高SLAM回环检测的稳定 本文提出的注意力和预测机制是从当前帧检 性,在室内环境中可以很好地检测到回环(大约 测到的特征F中选择子集S传递给SLAM后端 100m)。Sola等指出尽管许多特征可能在机器 进行非线性优化,整体流程如图1所示。 人环境的给定视图中可见,只有少数这样的特征 传感器 特征选择 后端非线 是估计机器人的位置和方向所必需的。它们利用 建图 数据 性优化 共视性作为标准,自动选择特征最优集。Frintrop 等)使用注意力框架进行特征选择和主动视角控 回环检测 制,能够克服使用相对较小视野的单目视觉SLAM 系统的一些限制,提高姿态估计的准确性。该特 图1整体流程 征选择系统是基于VOCUS模型的,其包含一个 Fig.1 Whole process 自底向上的注意力系统(根据特征外观计算显著 为了最大限度地提高运动估计的性能,特征 性),还包含一个自顶向下的机制(考虑任务性能)。 子集应该最多具有k个特征,这些特征对于减少 Hochdorfer等提出了一种基于区域覆盖的特征 基于视觉状态估计的不确定性是最有效的。可以 点评级和选择机制,解决了随着特征数量不断增 把这个问题先简单地表述为 加,运算资源占用率越来越高的问题,为SLAM fS),≤k (1) 算法在服务机器人整个生命周期中的应用,甚至 这个问题的解决依赖于度量方程∫的选择, 在不同的环境中的应用做出了贡献。Strasdat等m 它将量化特征子集的可行性。特征选择与控制理 提出了一种基于强化学习方法的特征选择,减轻 论中的传感器布置问题有着密切的联系,尽管由 了机器人在SLAM建图中的计算负担。Shi等例 于二元选择变量的引入,传感器选择问题已被证 提出了一种特征选择方法来提高SLAM中数据关 明是NP-hard问题,如著名的旅行商问题,但最 联的鲁棒性,防止了不好的特征被初始化,更好 近的研究结果表明利用子模块代价函数、贪婪算 地保证了SLAM估计的一致性。Cvisic等9通过 法能够近似地找到式(1)的解,同时保证其次优 稳定的特征选择加速了立体视觉里程计的计算, 性。本文确定了度量方程,该度量可以表示子 减少了SLAM轨迹漂移,该特征选择是基于统分 模块性,可以量化状态估计的不确定性。更重要 的(将特征均匀地分布在整个图像中)和基于外观 的是,通过它应该能得到最相关的特征点。1)该 的排名。最近在计算机视觉领域的研究表明利用 度量必须鼓励选择最显著的特征,因为这些特征 注意力机制可以减少神经网络的计算负担。Mih 更有可能在连续帧中被重新观察到。2)度量必须 等通过引入瞥见的概念,减少了使用递归神经 奖励那些在视场中停留较长时间的特征。因此 网络进行目标检测和跟踪的步骤,可以在图像感 预测是一个关键的方面:利用度量必须知道,在一 兴趣的区域提供更高的分辨率。文献[1]是最早 定的运动下,哪些特征更有可能留在相机的视场 使用信息理论结构来推理视觉特征的论文之一,提 中。3)度量必须奖励提供更多信息的特征,以减 出了一个基于模型的跟踪问题,在该问题中,运 少不确定性。 动相机的状态必须通过对已知特征的观察来估计。 本文的方法受Carlone等1的启发,文中提出 视觉SLAM在面对快速变动场景时,由于缺 了两种量化特征子集可行性的度量,最小特征值入n 乏可跟踪特征,基于视觉的感知技术往往会失败。 度量和行列式logdet度量,并且通过严谨的数学 这是一个众所周知的问题,在文献中经常被讨论 证明,证明了logdet度量的可行性。在式(I)之 (例如,见文献[12-13)。本文基于环境和相机运 后,使用logdet度量16来计算状态估计不确定
人虽然做不到人类这样,但这种视觉注意力机制 是值得机器人自主定位导航借鉴的。 国内外学者开展了很多通过主动特征选择提 高视觉 SLAM 和视觉里程计性能的研究。Ouerhani 等 [2] 利用注意的路标点构建拓扑地图,在导 航过程中,利用相同的视觉注意模型检测最突出 的视觉特征,与注意的路标点相匹配获取特征 点。Newman 等 [3] 考虑一个装备了相机和激光测 距仪的机器人,并利用基于外观的视觉显著性概 念进行特征选择,提高 SLAM 回环检测的稳定 性,在室内环境中可以很好地检测到回环 (大约 100 m)。Sola 等 [4] 指出尽管许多特征可能在机器 人环境的给定视图中可见,只有少数这样的特征 是估计机器人的位置和方向所必需的。它们利用 共视性作为标准,自动选择特征最优集。Frintrop 等 [5] 使用注意力框架进行特征选择和主动视角控 制,能够克服使用相对较小视野的单目视觉 SLAM 系统的一些限制,提高姿态估计的准确性。该特 征选择系统是基于 VOCUS 模型的[5] ,其包含一个 自底向上的注意力系统 (根据特征外观计算显著 性),还包含一个自顶向下的机制 (考虑任务性能)。 Hochdorfer 等 [6] 提出了一种基于区域覆盖的特征 点评级和选择机制,解决了随着特征数量不断增 加,运算资源占用率越来越高的问题,为 SLAM 算法在服务机器人整个生命周期中的应用,甚至 在不同的环境中的应用做出了贡献。Strasdat 等 [7] 提出了一种基于强化学习方法的特征选择,减轻 了机器人在 SLAM 建图中的计算负担。Shi 等 [8] 提出了一种特征选择方法来提高 SLAM 中数据关 联的鲁棒性,防止了不好的特征被初始化,更好 地保证了 SLAM 估计的一致性。Cvisic 等 [9] 通过 稳定的特征选择加速了立体视觉里程计的计算, 减少了 SLAM 轨迹漂移,该特征选择是基于统分 的 (将特征均匀地分布在整个图像中) 和基于外观 的排名。最近在计算机视觉领域的研究表明利用 注意力机制可以减少神经网络的计算负担。Mnih 等 [10] 通过引入瞥见的概念,减少了使用递归神经 网络进行目标检测和跟踪的步骤,可以在图像感 兴趣的区域提供更高的分辨率。文献 [11] 是最早 使用信息理论结构来推理视觉特征的论文之一,提 出了一个基于模型的跟踪问题,在该问题中,运 动相机的状态必须通过对已知特征的观察来估计。 视觉 SLAM 在面对快速变动场景时,由于缺 乏可跟踪特征,基于视觉的感知技术往往会失败。 这是一个众所周知的问题,在文献中经常被讨论 (例如,见文献 [12-13])。本文基于环境和相机运 动状态的相互关联性而产生的特征效用,引入预 测机制,利用注意力和预测选择特征来减少跟踪 特征的丢失,通过滤去那些将丢失在视野中的特 征点,增加 SLAM 系统的稳定性,特征选择器知 道机器人的意图 (未来的运动),并相应地选择更 有可能出现在未来视野中的特征,可以用更少的 含信息多的特征点来提高优化效率。 1 注意力和预测机制 F S 本文提出的注意力和预测机制是从当前帧检 测到的特征 中选择子集 传递给 SLAM 后端 进行非线性优化,整体流程如图 1 所示。 传感器 数据 前端视觉 里程计 特征选择 后端非线 性优化 建图 回环检测 图 1 整体流程 Fig. 1 Whole process κ 为了最大限度地提高运动估计的性能,特征 子集应该最多具有 个特征,这些特征对于减少 基于视觉状态估计的不确定性是最有效的。可以 把这个问题先简单地表述为 max S⊂F f(S), |S| ⩽ κ (1) 这个问题的解决依赖于度量方程 f 的选择, 它将量化特征子集的可行性。特征选择与控制理 论中的传感器布置问题有着密切的联系,尽管由 于二元选择变量的引入,传感器选择问题已被证 明是 NP-hard 问题[14] ,如著名的旅行商问题,但最 近的研究结果表明利用子模块代价函数、贪婪算 法能够近似地找到式 (1) 的解,同时保证其次优 性 [15]。本文确定了度量方程,该度量可以表示子 模块性,可以量化状态估计的不确定性。更重要 的是,通过它应该能得到最相关的特征点。1) 该 度量必须鼓励选择最显著的特征,因为这些特征 更有可能在连续帧中被重新观察到。2) 度量必须 奖励那些在视场中停留较长时间的特征。因此, 预测是一个关键的方面:利用度量必须知道,在一 定的运动下,哪些特征更有可能留在相机的视场 中。3) 度量必须奖励提供更多信息的特征,以减 少不确定性。 λmin 本文的方法受 Carlone 等 [16] 的启发,文中提出 了两种量化特征子集可行性的度量,最小特征值 度量和行列式 logdet 度量,并且通过严谨的数学 证明,证明了 logdet 度量的可行性。在式 (1) 之 后,使用 logdet 度量[16] 来计算状态估计不确定 ·1040· 智 能 系 统 学 报 第 16 卷
第6期 曾毓菁,等:一种融入注意力和预测的特征选择SLAM算法 ·1041· 性。设k+1为获得一个新选择特征集的时刻,则 视投影模型,并且可以进行有效的计算。为此, x中包含前一帧的优化位姿,这是优化后端的最新 必须将像素测量表示为想要估计的未知状态的线 位姿估计(见图2),注意到在前一帧k和当前帧 性函数。假设a是h时刻第I特征在相机坐标 k+1之间将进行特征选择。用k+H[x+1…x+H] 系下的像素观测,它满足: 表示在H时间段上的状态向量,其中+k+H是待 uux(R")'(p"-"n》=0 (3) 优化的预测的状态向量。此外,设Pk+H为与 式中:p”是特征点1在世界坐标系下的位置; x4+H关联的估计误差的协方差矩阵,它的逆矩阵 (Rh,t"h)是相机在h时刻的位姿。该模型的物 称为信息矩阵,表示为P+HP+H。有了这些定 理意义是在相机坐标系下的像素观测方向和测量 义后,logdet度量可以写成 方向共线,如图3所示,其中叉乘度量了其共线性 faet(S)=logdet((S))=logde . (2) 的偏差。在以k+H状态函数的状态空间形式下 形成一个线性系统,把这个问题当作一个最大似 式中:4,是第I个特征的信息矩阵;p是第I个特 然估计问题来解决,这样就能从特征点提供的 征被跟踪到的概率,其可以通过对特征检测得分 k+H中提取出H时间段的信息矩阵Po。 进行归一化得到?,保证信息较多的特征更容易 保留,这是一种期望的行为。 像素坐标系 相机坐标系 共线 状态向量xa 0 k+H 20 Hz 未来时间轴 X“世界坐标系 图2时间轴 图3向量共线 Fig.2 Time line Fig.3 Vector collinear 1.1贪婪算法 将时间段内每个时刻的状态定义为x= 本文使用带有延迟求值的贪婪算法图选择 [pt"(机器人的预测姿态),其中R=exp(p), k个特征(近似的)最大化logdet度量。作为输入, R=exp(),R"mh=exp(p)exp(),为了之后公式 需要一定数量的特征F供系统选择,每个新特征 点的预测信息矩阵{4eF,以及未来H时间段的 的表达方便,将Rh、h表示为R和t,然后用 这些量参数化线性系统。将式(3)的左边表示为 信息矩阵2k+H。为了保持对特征跟踪的一致性, f(0,),并用全微分公式将其线性化: 需要对之前确定的有用的特征进行跟踪。当在未 来帧中检测到这些特征时,它们将自动传递给优 fe.0=fe.0+eg-9+ 亦kant-) (4) d 化后端。 算法1带有延迟求值的贪婪算法 lon=-Uu. 1)输入2k+H,d,1=1,2…,N和K,令S#=; Uu(Rpr。 2)for循环i=1,2,…,k; 第1特征在时间段H内的贡献为4,可以表 3)计算fS#U{)上界,[U1,U2,…,Uw]=(2k+H 示为 A=AA (5) 41,42,…,4w 4)根据上界值对特征点进行降序排序,F= Uu(RiP) -U sort(U,U2,…,Uw): A= (6) 5)初始化,fmx=-1,lnx=-1; U+m(R+HP) -U+HY 6)for循环1eF; 最后将其用在贪婪算法中。 7)如果U,fm,则fs=fS#U0,Imax=l: 9)S=SUImaxo 为了测试本文的方法,使用EuRoC数据集四 1.2视觉特征信息矩阵 该数据集是使用一个配备了视觉惯性)传感器 本文使用线性侧量模型,它简化了非线性透 的AscTech Firefly六旋翼飞行器采集的,其包含
k+1 xk bxk:k+H ∆ = [ xkbxk+1 ···bxk+H ] bxk+1:k+H Pk:k+H bxk:k+H Ωk:k+H ∆ =P −1 k:k+H 性。设 为获得一个新选择特征集的时刻,则 中包含前一帧的优化位姿,这是优化后端的最新 位姿估计 (见图 2),注意到在前一帧 k 和当前帧 k + 1 之间将进行特征选择。用 表示在 H 时间段上的状态向量,其中 是待 优化的预测的状态向量。此外,设 为与 关联的估计误差的协方差矩阵,它的逆矩阵 称为信息矩阵,表示为 。有了这些定 义后,logdet 度量可以写成 fdet(S ) = log det(Ωk:k+H(S)) = log det ∑ l∈S pl∆l (2) ∆l l pl 式中: 是第 个特征的信息矩阵; 是第 l 个特 征被跟踪到的概率,其可以通过对特征检测得分 进行归一化得到[8] ,保证信息较多的特征更容易 保留,这是一种期望的行为。 k−s+1 k k+1 ... k+H 20 Hz 未来时间轴 状态向量 xk: k+H 图 2 时间轴 Fig. 2 Time line 1.1 贪婪算法 κ F {∆l}l∈F Ω¯ k:k+H 本文使用带有延迟求值[17] 的贪婪算法[18] 选择 个特征 (近似的) 最大化 logdet 度量。作为输入, 需要一定数量的特征 供系统选择,每个新特征 点的预测信息矩阵 ,以及未来 H 时间段的 信息矩阵 。为了保持对特征跟踪的一致性, 需要对之前确定的有用的特征进行跟踪。当在未 来帧中检测到这些特征时,它们将自动传递给优 化后端。 算法 1 带有延迟求值的贪婪算法 Ω¯ k:k+H ∆l l = 1,2,··· ,N κ S # 1) 输入 , , 和 ,令 = ϕ ; 2) for 循环 i = 1,2,··· , κ ; f(S # ∪{l}) [U1,U2,··· ,UN] = ( Ω¯ k:k+H, ∆1,∆2,··· ,∆N) 3) 计算 上界, ; F ↓ = sort(U1,U2,··· ,UN) 4) 根据上界值对特征点进行降序排序, ; 5) 初始化, fmax = −1,lmax = −1 ; l ∈ F ↓ 6) for 循环 ; 7) 如果 Ul fmax fmax = f(S # 8) 如果 ,则 ∪l),lmax = l ; S # = S # 9) ∪lmax。 1.2 视觉特征信息矩阵 本文使用线性测量模型,它简化了非线性透 uhl h l 视投影模型,并且可以进行有效的计算。为此, 必须将像素测量表示为想要估计的未知状态的线 性函数。假设 是 时刻第 特征在相机坐标 系下的像素观测,它满足: uhl ×( ( R W cam,h )T (p W l − t W cam,h )) = 03 (3) p W l l R W cam,h t W cam,h h xˆ k:k+H xˆ k:k+H 式中: 是特征点 在世界坐标系下的位置; ( , ) 是相机在 时刻的位姿。该模型的物 理意义是在相机坐标系下的像素观测方向和测量 方向共线,如图 3 所示,其中叉乘度量了其共线性 的偏差。在以 状态函数的状态空间形式下 形成一个线性系统,把这个问题当作一个最大似 然估计问题[19] 来解决,这样就能从特征点提供的 中提取出 H 时间段的信息矩阵[20]。 相机坐标系 世界坐标系 像素坐标系 共线 x X Z y z uhl p W l Y O O 图 3 向量共线 Fig. 3 Vector collinear xh = [φt W cam,h ] ∆R = exp(φ ∧ ) bR = exp(ϕ ∧ ) R W cam,h = exp(φ ∧ ) exp(ϕ ∧ ) R W cam,h t W cam,h R t f(φ, t) 将时间段内每个时刻的状态定义为 (机器人的预测姿态),其中 , , ,为了之后公式 的表达方便,将 、 表示为 和 ,然后用 这些量参数化线性系统。将式 (3) 的左边表示为 ,并用全微分公式[21] 将其线性化: f(φ, t) = f( ˆφ, tˆ)+ ∂ f ∂φ| ( ˆφ,tˆ)(φ−φˆ)+ ∂ f ∂t | ( ˆφ,tˆ)(t − tˆ) (4) ∂ f ∂t |( ˆφ,tˆ) = ∂ f ∂t |(0,tˆ) = −Ukl ∂ f ∂φ|( ˆφ,tˆ) = ∂ f ∂φ|(0,tˆ) = Ukl(R pˆ ) ∧ 式中: , 。 第 l 特征在时间段 H 内的贡献为 ∆l 可以表 示为 ∆l = A TA (5) A = Ukl(Rˆ k pl) ∧ ··· −Ukl . . . . . . U(k+H)l(Rˆ k+H pl) ∧ ··· −U(k+H)l (6) 最后将其用在贪婪算法中。 2 实验分析 为了测试本文的方法,使用 EuRoC 数据集[22] , 该数据集是使用一个配备了视觉惯性[23] 传感器 的 AscTech Firefly 六旋翼飞行器采集的,其包含 第 6 期 曾毓菁,等:一种融入注意力和预测的特征选择 SLAM 算法 ·1041·
·1042· 智能系统学报 第16卷 简单场景和复杂场景。在本文中,使用收集自一 个工厂大厅环境的数据集MH01-easy、MH02- easy、MH03-medium、MH04-difficult、MH05-difi- cut,随着场景复杂度提高,飞行器速度依次递增 且有更多的急转弯。为了更好地说明算法的效 果,对比了ORB-SLAM221和Random两种情况, ORB-SLAM2是不添加本文算法的SLAM系统, Random是一种在ORB-SLAM2选择好特征点的 帧上随机地选择跟本文算法同样数量特征点的情 2 (a)上一时刻快照 况。使用ATE(绝对轨迹误差)中的RMSE(均方根 误差),即RMSE(F1):= 之s (trans(F,) 为位姿误差)作为比较标准的,结果如图4所示。 虽然本文算法的绝对轨迹误差平均比ORB-SLAM2 大0.025m,但相对这5个工厂数据集真值轨迹长 度来说是很小的,值得关注的是我们只传递了 20个特征点去SLAM后端优化。而随机选择的 Random随着场景复杂度的不断提高误差也在不 断增大,在MH05-hard中更是达到了0.259m的 (b)当前时刻快照 误差。 图5本文算法向左急转弯时的快照 Fig.5 Snapshot of our algorithm during a sharp left turn 0.30,口ORB-SLAM2■本文算法臼随机算法 0.25 -地面其值一随机算法=本文算法一ORB-SLAM2 s020 0.10 ⊙ 0 20 40 60 80100120 0.05 ts (a)x轴方向位置比较 MHO1 MH02 MH03 MH04 MHO5 数据集名称 -地面其值一随机算法=本文算法一ORB.SLAM2 10- 图4ORB-SLAM2、Random和本文算法的表现 0 Fig.4 Performance of ORB-SLAM2,Random and our al- -10 gorithm 0 30 40 60 80100120 ts 为了更好地理解所提出方法所带来的性能提 (b)y轴方向位置比较 升,在图5按时间顺序给出了生成的一些快照。每 -地面其值-随机算法-本文算法一ORB-SLAM2 个子图显示了关键帧中待选择特征(绿色方块) 和选择的特征(加粗黑色方块)。这些关键帧是 MH03-medium数据集向左急转弯时获取的。注 20 40 60 80 100120 tis 意到两幅图选择的特征大部分都集中在画面左 (c):轴方向位置比较 侧,也就是相机急转弯的方向,随着相机的运动 图6ORB-SLAM2、Random和本文算法的轨迹 这些特征更有可能保持在视野中。这是因为,本 Fig.6 Trajectory of ORB-SLAM2,Random,and our al- 文所提出的注意力和预测机制充分利用了平台的 gorithm 即时运动信息。在图6中给出了ORB-SLAM2、 3结束语 Random和本文算法运行在MHO5-difficult的轨迹 图。从图6中都可以看出,本文的算法虽然没有 本文提出的注意力和预测机制保留了前端检 ORB-SLAM2跟地面真值贴合度那么高,但却明 测到的含信息最丰富的视觉特征,并将其反馈给 显优于Random。 估计后端。该机制的特点:1)本质上具有预测
RMSE(F1:n) := 1 n ∑n i=1 trans(Fi) 2 1/2 trans(Fi) 简单场景和复杂场景。在本文中,使用收集自一 个工厂大厅环境的数据集 MH01-easy、MH02- easy、MH03-medium、MH04-difficult、MH05-difficult,随着场景复杂度提高,飞行器速度依次递增 且有更多的急转弯。为了更好地说明算法的效 果,对比了 ORB-SLAM2[24] 和 Random 两种情况, ORB-SLAM2 是不添加本文算法的 SLAM 系统, Random 是一种在 ORB-SLAM2 选择好特征点的 帧上随机地选择跟本文算法同样数量特征点的情 况。使用 ATE(绝对轨迹误差) 中的 RMSE(均方根 误差),即 ( 为位姿误差) 作为比较标准[25] ,结果如图 4 所示。 虽然本文算法的绝对轨迹误差平均比 ORB-SLAM2 大 0.025 m,但相对这 5 个工厂数据集真值轨迹长 度来说是很小的,值得关注的是我们只传递了 20 个特征点去 SLAM 后端优化。而随机选择的 Random 随着场景复杂度的不断提高误差也在不 断增大,在 MH05-hard 中更是达到了 0.259 m 的 误差。 MH01 MH02 MH03 MH04 MH05 0 0.05 0.10 0.15 0.20 0.25 0.30 ATE/m ORB-SLAM2 本文算法 数据集名称 随机算法 图 4 ORB-SLAM2、Random 和本文算法的表现 Fig. 4 Performance of ORB-SLAM2、Random and our algorithm 为了更好地理解所提出方法所带来的性能提 升,在图 5 按时间顺序给出了生成的一些快照。每 个子图显示了关键帧中待选择特征 (绿色方块) 和选择的特征 (加粗黑色方块)。这些关键帧是 MH03-medium 数据集向左急转弯时获取的。注 意到两幅图选择的特征大部分都集中在画面左 侧,也就是相机急转弯的方向,随着相机的运动 这些特征更有可能保持在视野中。这是因为,本 文所提出的注意力和预测机制充分利用了平台的 即时运动信息。在图 6 中给出了 ORB-SLAM2、 Random 和本文算法运行在 MH05-difficult 的轨迹 图。从图 6 中都可以看出,本文的算法虽然没有 ORB-SLAM2 跟地面真值贴合度那么高,但却明 显优于 Random。 (a) 上一时刻快照 (b) 当前时刻快照 图 5 本文算法向左急转弯时的快照 Fig. 5 Snapshot of our algorithm during a sharp left turn 15 10 5 4 2 0 20 40 60 80 100 120 0 −5 −10 地面真值 本文算法 随机算法 ORB-SLAM2 地面真值 本文算法 随机算法 ORB-SLAM2 地面真值 本文算法 随机算法 ORB-SLAM2 t/s 0 20 40 60 80 100 120 t/s 0 20 40 60 80 100 120 t/s x/m y/m z/m (a) x 轴方向位置比较 (b) y 轴方向位置比较 (c) z 轴方向位置比较 图 6 ORB-SLAM2、Random 和本文算法的轨迹 Fig. 6 Trajectory of ORB-SLAM2, Random, and our algorithm 3 结束语 本文提出的注意力和预测机制保留了前端检 测到的含信息最丰富的视觉特征,并将其反馈给 估计后端。该机制的特点:1) 本质上具有预测 ·1042· 智 能 系 统 学 报 第 16 卷
第6期 曾毓菁,等:一种融入注意力和预测的特征选择SLAM算法 ·1043· 性,能够感知机器人未来的运动,并据此选择特 [10]MNIH V,HEESS N,GRAVES A,et al.Recurrent mod- 征。正如我们在实验中看到的,在急转弯和快速 els of visual attention[Cl//Proceedings of the 27th Inter- 变动的情况下能确保定位的准确性。2)它具有贪 national Conference on Neural Information Processing 婪性,利用带有延迟求值的贪梦算法保证了Iog Systems.Montreal,Canada,2014:2204-2212 det度量的次优性。本文在EuRoC工厂大厅环境 [11]DAVISON A J.Active search for real-time 数据集中进行了大量特征选择实验,实验结果表 vision[C]//Tenth IEEE International Conference on 明本文加入的注意力和预测的特征选择算法对 Computer Vision.Beijing,China,2005:66-73. SLAM系统性能影响很大,使用很少的特征点也 [12]SHEN Shaojie,MULGAONKAR Y.MICHAEL N.et 能达到定位的精度要求。 al.Vision-based state estimation and trajectory control 以后的研究中,将进一步研究如何联合优化 towards high-speed flight with a quadrotor[Cl//Proceed- 视觉和IMU,以提高注意力和预测机制的稳定性 ings of Robotics:Science and Systems X.Berlin.Ger- 和适应性。 many,2013:865-878. 参考文献: [13]FALANGA D,MUEGGLER E,FAESSLER M.et al. Aggressive quadrotor flight through narrow gaps with [1]CARRASCO M.Visual attention:The past 25 years[J]. onboard sensing and computing using active vision Vision research2011.51(13:1484-1525. [C]//IEEE International Conference on Robotics and [2]OUERHANI N,BUR A,HUGLI H.Visual attention- Automation.Singapore,Singapore,2017:5774-5781 based robot self-localization[C]//Proceedings of the [14]BIAN Fang,KEMPE D,GOVINDAN R.Utility-based European Conference on Mobile Robotics.Ancona,Italy, sensor selection[Cl//5th International Conference on In- 2005:8-13. formation Processing in Sensor Networks.Nashville. [3]NEWMAN P,HO K.SLAM-loop closing with visually USA,2006:11-18. salient features[C]//IEEE International Conference on Ro- [15]SHAMAIAH M,BANERJEE S,VIKALO H.Greedy botics and Automation.Barcelona,Spain,2005:635-642. sensor selection:leveraging submodularity[C]//49th [4]SALA P,SIM R,SHOKOUFANDEH A,et al.Landmark IEEE Conference on Decision and Control.Atlanta, selection for vision-based navigation[J].IEEE transac- USA,2010:2572-2577 tions on robotics,2006,22(2):334-349. [16]CARLONE L.KARAMAN S.Attention and anticipa- [5]FRINTROP S,JENSFELT P.Attentional landmarks and tion in fast visual-inertial navigation[C]//2017 IEEE In active gaze control for visual SLAM[J].IEEE transac- ternational Conference on Robotics and Automation tions on robotics,2008.24(5):1054-1065. (ICRA).Singapore,Singapore,2017:3886-3893. [6]HOCHDORFER S,SCHLEGEL C.Landmark rating and [17]JOHNSSON T.Efficient compilation of lazy evaluation selection according to localization coverage:addressing [C]//Proceedings of the 1984 SIGPLAN symposium on the challenge of lifelong operation of SLAM in service Compiler construction.Montreal,Canada,1984:58-69. robots[Cl//IEEE/RSJ International Conference on Intelli- [18]常友渠,肖贵元,曾敏.贪婪算法的探讨与研究.重 gent Robots and Systems.St.Louis,USA,2009: 庆电力高等专科学校学报,2008.13(3):40-42 382-387. CHANG Youqu,XIAO Guiyuan,ZENG Ming.Discus- [7]STRASDAT H.STACHNISS C,BURGARD W.Which sion and research on greedy algorithm[J].Journal of landmark is useful?Learning selection policies for navig- Chongqing Electric Power College,2008,13(3):40-42. ation in unknown environments[C]//2009 IEEE Interna- [19]赵军圣,庄光明,王增桂.最大似然估计方法介绍, tional Conference on Robotics and Automation.Kobe,Ja- 长春理工大学学报,2010(6):53-54. pan,2009:1410-1415 ZHAO Junsheng,ZHUANG Guangming,WANG Zeng- [8]SHI Zongying,LIU Zhibin,WU Xianliang,et al.Feature gui.Introduction to maximum likelihood estimation selection for reliable data association in visual SLAM[J]. method[J].Journal of Changchun University of Science Machine vision and applications,2013,24(4):667-682. and Technology,2010(6):53-54. [9]CVISIC I,PETROVIC I.Stereo odometry based on care- [20]LANCASTER T.The covariance matrix of the informa- ful feature selection and tracking[C]//European Confer- tion matrix test[J].Econometrica,1984,52(4):1051- ence on Mobile Robots.Lincoln,UK.2015:1-6. 1053
性,能够感知机器人未来的运动,并据此选择特 征。正如我们在实验中看到的,在急转弯和快速 变动的情况下能确保定位的准确性。2) 它具有贪 婪性,利用带有延迟求值的贪婪算法保证了 logdet 度量的次优性。本文在 EuRoC 工厂大厅环境 数据集中进行了大量特征选择实验,实验结果表 明本文加入的注意力和预测的特征选择算法对 SLAM 系统性能影响很大,使用很少的特征点也 能达到定位的精度要求。 以后的研究中,将进一步研究如何联合优化 视觉和 IMU,以提高注意力和预测机制的稳定性 和适应性。 参考文献: CARRASCO M. Visual attention: The past 25 years[J]. Vision research, 2011, 51(13): 1484–1525. [1] OUERHANI N, BUR A, HÜGLI H. Visual attentionbased robot self-localization[C]//Proceedings of the European Conference on Mobile Robotics. Ancona, Italy, 2005: 8−13. [2] NEWMAN P, HO K. SLAM-loop closing with visually salient features[C]//IEEE International Conference on Robotics and Automation. Barcelona, Spain, 2005: 635−642. [3] SALA P, SIM R, SHOKOUFANDEH A, et al. Landmark selection for vision-based navigation[J]. IEEE transactions on robotics, 2006, 22(2): 334–349. [4] FRINTROP S, JENSFELT P. Attentional landmarks and active gaze control for visual SLAM[J]. IEEE transactions on robotics, 2008, 24(5): 1054–1065. [5] HOCHDORFER S, SCHLEGEL C. Landmark rating and selection according to localization coverage: addressing the challenge of lifelong operation of SLAM in service robots[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. St. Louis, USA, 2009: 382−387. [6] STRASDAT H, STACHNISS C, BURGARD W. Which landmark is useful? Learning selection policies for navigation in unknown environments[C]//2009 IEEE International Conference on Robotics and Automation. Kobe, Japan, 2009: 1410−1415. [7] SHI Zongying, LIU Zhibin, WU Xianliang, et al. Feature selection for reliable data association in visual SLAM[J]. Machine vision and applications, 2013, 24(4): 667–682. [8] CVIŠIĆ I, PETROVIĆ I. Stereo odometry based on careful feature selection and tracking[C]//European Conference on Mobile Robots. Lincoln, UK, 2015: 1−6. [9] MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada, 2014: 2204−2212. [10] DAVISON A J. Active search for real-time vision[C]//Tenth IEEE International Conference on Computer Vision. Beijing, China, 2005: 66−73. [11] SHEN Shaojie, MULGAONKAR Y, MICHAEL N, et al. Vision-based state estimation and trajectory control towards high-speed flight with a quadrotor[C]//Proceedings of Robotics: Science and Systems X. Berlin, Germany, 2013: 865−878. [12] FALANGA D, MUEGGLER E, FAESSLER M, et al. Aggressive quadrotor flight through narrow gaps with onboard sensing and computing using active vision [C]//IEEE International Conference on Robotics and Automation. Singapore, Singapore, 2017: 5774−5781. [13] BIAN Fang, KEMPE D, GOVINDAN R. Utility-based sensor selection[C]//5th International Conference on Information Processing in Sensor Networks. Nashville, USA, 2006: 11−18. [14] SHAMAIAH M, BANERJEE S, VIKALO H. Greedy sensor selection: leveraging submodularity[C]//49th IEEE Conference on Decision and Control. Atlanta, USA, 2010: 2572−2577. [15] CARLONE L, KARAMAN S. Attention and anticipation in fast visual-inertial navigation[C]//2017 IEEE International Conference on Robotics and Automation (ICRA). Singapore, Singapore, 2017: 3886−3893. [16] JOHNSSON T. Efficient compilation of lazy evaluation [C]//Proceedings of the 1984 SIGPLAN symposium on Compiler construction. Montreal, Canada, 1984: 58−69. [17] 常友渠, 肖贵元, 曾敏. 贪婪算法的探讨与研究 [J]. 重 庆电力高等专科学校学报, 2008, 13(3): 40–42. CHANG Youqu, XIAO Guiyuan, ZENG Ming. Discussion and research on greedy algorithm[J]. Journal of Chongqing Electric Power College, 2008, 13(3): 40–42. [18] 赵军圣, 庄光明, 王增桂. 最大似然估计方法介绍 [J]. 长春理工大学学报, 2010(6): 53–54. ZHAO Junsheng, ZHUANG Guangming, WANG Zenggui. Introduction to maximum likelihood estimation method[J]. Journal of Changchun University of Science and Technology, 2010(6): 53–54. [19] LANCASTER T. The covariance matrix of the information matrix test[J]. Econometrica, 1984, 52(4): 1051– 1053. [20] 第 6 期 曾毓菁,等:一种融入注意力和预测的特征选择 SLAM 算法 ·1043·
·1044· 智能系统学报 第16卷 [21]同济大学.高等数学.北京:高等教育出版社,2001.8. 作者简介: [22]BURRI M,NIKOLIC J,GOHL P,et al.The EuRoC mi- 曾毓菁,硕士研究生,主要研究方 cro aerial vehicle datasets[J].The international journal of 向为三维重建、SLAM、配网带电作业 robotics research,2016,35(10):1157-1163 机器人环境感知。 [23]ESSER P.DAWES H,COLLETT J,et al.IMU:inertial sensing of vertical CoM movement[J].Journal of bio- mechanics,2009,42(10):1578-1581. [24]MUR-ARTAL R,TARDOS J D.ORB-SLAM2:an 姜勇,研究员,博士,主要研究方 open-source SLAM system for monocular,stereo,and 向为机器人智能控制、多传感器融合、 RGB-D cameras[J].IEEE transactions on robotics,2017, 特种机器人控制系统设计与集成。负 33(5):1255-1262 责及参加完成了国家863重点项目 [25]STURM J,ENGELHARD N.ENDRES F,et al.A 国家自然科学基金青年及面上项目、 benchmark for the evaluation of RGB-D SLAM sys- 中科院知识创新工程重大项目、辽宁 省自然科学基金项目、机器人学重点 tems[Cl//IEEE/RSJ International Conference on Intelli- 实验室项目、国网及南网重点项目等20余项。获国家发明 gent Robots and Systems(IROS).Vilamoura-Algarve, 专利授权3项、实用新型专利4项,登记软件著作权2项,参 Portugal,.2012:573-580. 编专著2部,发表学术论文20余篇。 2021中国人工智能大会在成都开幕 转自央视新闻客户端 10月12日,2021中国人工智能大会(CCAI2021)在四川成都开幕,23位中外院士领衔,近百位学术技术 精英共聚西南人工智能新高地,开展前沿探索与前瞻思考。 大会以“智启非凡”为主题,以“强化自立、硬化创新、深化融合、优化协同”为目标,为期两天,共设置 8场主题报告、1场院士尖峰对话、9大专题论坛、6个同期活动,深入呈现人工智能学术研究,以及技术创新 与行业应用的最新成果,引领智能科技在进步中与多领域融合发展,激发传统行业变革活力。 为进一步聚集产学研用多方力量,加速科技成果转化应用,促进地方智能产业发展,成都市高新区管委 会与中国人工智能大会签署了《共建科创中国人工智能会地联合创新中心战略合作协议》。未来,该中心 将成为学会与成都携手开展学术交流、技术合作、人才培训等多种科创服务的重要平台。 开幕式上,四川昇腾人工智能生态创新中心也正式揭牌。该项目依托人工智能计算中心,将打造公共算 力服务、应用创新孵化、产业聚合发展、科研创新和人才培养等四个平台,为企业、高校、科研院所、政府部 门等提供人工智能算力,并联合四川高校院所、高科技企业共同发展人工智能产业。 (总台记者韩民权)
[21] 同济大学. 高等数学. 北京: 高等教育出版社, 2001.8. BURRI M, NIKOLIC J, GOHL P, et al. The EuRoC micro aerial vehicle datasets[J]. The international journal of robotics research, 2016, 35(10): 1157–1163. [22] ESSER P, DAWES H, COLLETT J, et al. IMU: inertial sensing of vertical CoM movement[J]. Journal of biomechanics, 2009, 42(10): 1578–1581. [23] MUR-ARTAL R, TARDÓS J D. ORB-SLAM2: an open-source SLAM system for monocular, stereo, and RGB-D cameras[J]. IEEE transactions on robotics, 2017, 33(5): 1255–1262. [24] STURM J, ENGELHARD N, ENDRES F, et al. A benchmark for the evaluation of RGB-D SLAM systems[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Vilamoura-Algarve, Portugal, 2012: 573−580. [25] 作者简介: 曾毓菁,硕士研究生,主要研究方 向为三维重建、SLAM、配网带电作业 机器人环境感知。 姜勇,研究员,博士,主要研究方 向为机器人智能控制、多传感器融合、 特种机器人控制系统设计与集成。负 责及参加完成了国家 863 重点项目、 国家自然科学基金青年及面上项目、 中科院知识创新工程重大项目、辽宁 省自然科学基金项目、机器人学重点 实验室项目、国网及南网重点项目等 20 余项。获国家发明 专利授权 3 项、实用新型专利 4 项,登记软件著作权 2 项,参 编专著 2 部,发表学术论文 20 余篇。 2021 中国人工智能大会在成都开幕 转自 央视新闻客户端 10 月 12 日,2021 中国人工智能大会(CCAI 2021)在四川成都开幕,23 位中外院士领衔,近百位学术技术 精英共聚西南人工智能新高地,开展前沿探索与前瞻思考。 大会以“智启非凡”为主题,以“强化自立、硬化创新、深化融合、优化协同”为目标,为期两天,共设置 8 场主题报告、1 场院士尖峰对话、9 大专题论坛、6 个同期活动,深入呈现人工智能学术研究,以及技术创新 与行业应用的最新成果,引领智能科技在进步中与多领域融合发展,激发传统行业变革活力。 为进一步聚集产学研用多方力量,加速科技成果转化应用,促进地方智能产业发展,成都市高新区管委 会与中国人工智能大会签署了《共建科创中国·人工智能会地联合创新中心战略合作协议》。未来,该中心 将成为学会与成都携手开展学术交流、技术合作、人才培训等多种科创服务的重要平台。 开幕式上,四川昇腾人工智能生态创新中心也正式揭牌。该项目依托人工智能计算中心,将打造公共算 力服务、应用创新孵化、产业聚合发展、科研创新和人才培养等四个平台,为企业、高校、科研院所、政府部 门等提供人工智能算力,并联合四川高校院所、高科技企业共同发展人工智能产业。 (总台记者 韩民权) ·1044· 智 能 系 统 学 报 第 16 卷