【机器学习】基于深度强化学习的室内视觉局部路径规划

团购合买资源类别：文库，文档格式：PDF，文档页数：11，文件大小：4.98MB

第17卷第5期智能系统学报 Vol.17 No.5 2022年9月 CAAI Transactions on Intelligent Systems Sep.2022 D0:10.11992/tis.202107059 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20220623.1044.004html 基于深度强化学习的室内视觉局部路径规划朱少凯，孟庆浩，金晟，戴旭阳 (天津大学电气自动化与信息工程学院机器人与自主系统研究所，天津300072) 摘要：传统的机器人局部路径规划方法多为已有先验地图的情况设计，导致其在与视觉(simultaneous localiza tion and mapping,SLAM)结合的导航中效果不佳。为此传统的机器人局部路径规划方法多为已有先验地图的情况设计，导致其在与视觉SLAM结合的导航中效果不佳。为此，本文提出一种基于深度强化学习的视觉局部路径规划策略。首先，基于视觉同时定位与建图(SLAM)技术建立周围环境的栅格地图，并使用A*算法规划全局路径；其次，综合考虑避障、机器人行走效率、位姿跟踪等问题，构建基于深度强化学习的局部路径规划策略，设计以前进、左转、右转为基本元素的离散动作空间.以及基于彩色图、深度图、特征点图等视觉观测的状态空间，利用近端策略优化(proximal policy optimization,PPO)算法学习和探索最佳状态动作映射网络。Habitat仿真平台运行结果表明，所提出的局部路径规划策略能够在实时创建的地图上规划出一条最优或次优路径。相比于传统的局部路径规划算法，平均成功率提高了53.9%，位姿跟踪丢失率减小了66.5%，碰撞率减小了30.1%。关键词：视觉导航；深度学习；强化学习；局部路径规划；避障；视觉SLAM;近端策略优化：移动机器人中图分类号：TP391文献标志码：A文章编号：1673-4785(2022)05-0908-11 中文引用格式：朱少凯，孟庆浩，金晟，等.基于深度强化学习的室内视觉局部路径规划.智能系统学报，2022,17(5)： 908-918. 英文引用格式：ZHU Shaokai,,MENG Qinghao,JIN Sheng,etal.Indoor visual local path planning based on deep reinforcement learning[J].CAAI transactions on intelligent systems,2022,17(5):908-918. Indoor visual local path planning based on deep reinforcement learning ZHU Shaokai,MENG Qinghao,JIN Sheng,DAI Xuyang (Institute of Robotics and Autonomous Systems,School of Electrical and Information Engineering,Tianjin University,300072, China) Abstract:Traditional robot local path planning methods are mostly designed for situations with prior maps,thus lead- ing to poor results in navigation when combined with visual simultaneous localization and mapping(SLAM).Therefore, this paper proposes a visual local path planning strategy based on deep reinforcement learning.First,a grid map of the surrounding environment is built based on the visual SLAM technology,and the global path is planned using the A*al- gorithm.Second,considering the problems of obstacle avoidance,robot walking efficiency,and pose tracking,a local path planning strategy is constructed based on deep reinforcement learning to design the discrete action space with for- ward movement,left turn,and right turn as the basic elements,as well as the state space based on visual observation maps,such as color,depth,and feature point maps.The proximal policy optimization(PPO)algorithm is used to learn and explore the best state-action mapping network.The running results of the habitat simulation platform show that the proposed local path planning strategy can design an optimal or sub-optimal path on a map generated in real time.Com- pared with traditional local path planning algorithms,the average success rate of the proposed strategy is increased by 53.9%,and the average tracking failure rate and collision rate are reduced by 66.5%and 30.1%,respectively. Keywords:visual navigation:deep learning:reinforcement learning:local path planning;obstacle avoidance;visual SLAM;proximal policy optimization(PPO);mobile robot 收稿日期：2021-07-27.网络出版日期：2022-06-24 视觉导航是一类新兴的导航技术，具有使用基金项目：中国博士后科学基金项目(2021M692390):天津市自成本低、获取信息丰富的优点，成为近些年来机然科学基金项目(20 JCZDJC00150,20 JCYBJC00320). 通信作者：金最.E-mail:shengjin@ju.edu.cn. 器人领域的研究热点之一。路径规划是移动

DOI: 10.11992/tis.202107059 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20220623.1044.004.html 基于深度强化学习的室内视觉局部路径规划朱少凯，孟庆浩，金晟，戴旭阳（天津大学电气自动化与信息工程学院机器人与自主系统研究所，天津 300072）摘要：传统的机器人局部路径规划方法多为已有先验地图的情况设计，导致其在与视觉 (simultaneous localization and mapping, SLAM) 结合的导航中效果不佳。为此传统的机器人局部路径规划方法多为已有先验地图的情况设计，导致其在与视觉 SLAM 结合的导航中效果不佳。为此，本文提出一种基于深度强化学习的视觉局部路径规划策略。首先，基于视觉同时定位与建图 (SLAM) 技术建立周围环境的栅格地图，并使用 A*算法规划全局路径；其次，综合考虑避障、机器人行走效率、位姿跟踪等问题，构建基于深度强化学习的局部路径规划策略，设计以前进、左转、右转为基本元素的离散动作空间，以及基于彩色图、深度图、特征点图等视觉观测的状态空间，利用近端策略优化 (proximal policy optimization, PPO) 算法学习和探索最佳状态动作映射网络。Habitat 仿真平台运行结果表明，所提出的局部路径规划策略能够在实时创建的地图上规划出一条最优或次优路径。相比于传统的局部路径规划算法，平均成功率提高了 53.9%，位姿跟踪丢失率减小了 66.5%，碰撞率减小了 30.1%。关键词：视觉导航；深度学习；强化学习；局部路径规划；避障；视觉 SLAM；近端策略优化；移动机器人中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2022)05−0908−11 中文引用格式：朱少凯, 孟庆浩, 金晟, 等. 基于深度强化学习的室内视觉局部路径规划 [J]. 智能系统学报, 2022, 17(5): 908–918. 英文引用格式：ZHU Shaokai, MENG Qinghao, JIN Sheng, et al. Indoor visual local path planning based on deep reinforcement learning[J]. CAAI transactions on intelligent systems, 2022, 17(5): 908–918. Indoor visual local path planning based on deep reinforcement learning ZHU Shaokai，MENG Qinghao，JIN Sheng，DAI Xuyang (Institute of Robotics and Autonomous Systems, School of Electrical and Information Engineering, Tianjin University, 300072, China) Abstract: Traditional robot local path planning methods are mostly designed for situations with prior maps, thus leading to poor results in navigation when combined with visual simultaneous localization and mapping (SLAM). Therefore, this paper proposes a visual local path planning strategy based on deep reinforcement learning. First, a grid map of the surrounding environment is built based on the visual SLAM technology, and the global path is planned using the A* algorithm. Second, considering the problems of obstacle avoidance, robot walking efficiency, and pose tracking, a local path planning strategy is constructed based on deep reinforcement learning to design the discrete action space with forward movement, left turn, and right turn as the basic elements, as well as the state space based on visual observation maps, such as color, depth, and feature point maps. The proximal policy optimization (PPO) algorithm is used to learn and explore the best state–action mapping network. The running results of the habitat simulation platform show that the proposed local path planning strategy can design an optimal or sub-optimal path on a map generated in real time. Compared with traditional local path planning algorithms, the average success rate of the proposed strategy is increased by 53.9%, and the average tracking failure rate and collision rate are reduced by 66.5% and 30.1%, respectively. Keywords: visual navigation; deep learning; reinforcement learning; local path planning; obstacle avoidance; visual SLAM; proximal policy optimization (PPO); mobile robot 视觉导航是一类新兴的导航技术，具有使用成本低、获取信息丰富的优点，成为近些年来机器人领域的研究热点之一[1-4]。路径规划是移动收稿日期：2021−07−27. 网络出版日期：2022−06−24. 基金项目：中国博士后科学基金项目 (2021M692390)；天津市自然科学基金项目 (20JCZDJC00150, 20JCYBJC00320). 通信作者：金晟. E-mail：shengjin@tju.edu.cn. 第 17 卷第 5 期智能系统学报 Vol.17 No.5 2022 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2022

·909· 朱少凯，等：基于深度强化学习的室内视觉局部路径规划第5期机器人实现自主视觉导航的关键技术之一，分为法依赖于真实先验位姿。在实际的视觉导航任务全局路径规划算法和局部路径规划算法。常用中，机器人需要依靠视觉传感器来获取位姿和环的全局路径规划算法有A◆算法和D*算法可境地图。因此，如何合理地设计局部路径规划机等。局部路径规划算法根据全局路径和部分环境制，使局部路径规划能够和视觉SLAM方法更好信息，输出机器人运动控制指令，使机器人大致地配合，最大限度地避免碰撞和位姿跟踪丢失、沿着全局路径的轨迹移动。动态窗口法(dynamic 提升导航成功率是这类方法的关键，也是至今仍 window algorithm,DWA)作为一种广泛使用的局未被探索的问题。部路径规划算法，具有良好的避障能力，且计算针对以上问题，本文在视觉SLAM和全局路量小、实时性高，是机器人操作系统(robot operat-. 径规划算法的基础上，提出一种基于深度强化学 ing system,ROS)的默认局部路径规划算法。习的室内视觉局部路径规划策略。该策略在强化但是，当环境变得复杂时，DWA算法容易陷入局学习PPO(proximal policy optimization)算法的基部极小值点，同时无法保证规划出的路径是最优础上，充分考虑了机器人避障、防止视觉SLAM 的。时间弹性带(timed elastic band.TEB)算法是跟踪丢失以及机器人行走效率等多方面因素，设另一种广泛使用的局部路径规划算法，采用图优计奖励函数和网络结构，在大量的场景下学习最化的方法迭代求解局部路径规划问题，有较高的佳状态-动作映射网络，提高移动机器人导航成操作性9。模型预测控制(model predictive control, 功率。既避免了部分传统路径规划算法调参复杂 MPC)能根据机器人当前的运动状态预测其未来的问题，又具有很好的泛化性，且与视觉SLAM 几个时间步的轨迹，通过二次规划方法来优化，模块契合。最终，在三维物理仿真平台Habitat例求出一个最优局部路径规划解o。但是，TEB和中利用机器人对该局部路径规划策略进行相关仿 MPC算法有非常多的参数需要设置，所以在复杂真分析，证实了所提出策略的有效性。的环境应用时需要配备较高性能的计算机和花大本文的创新点主要包括：1)提出了一种基于量时间手工调参。综上所述，传统的局部路径规深度强化学习的移动机器人室内视觉局部路径规划方法存在参数调整耗时，缺乏对新环境的泛化划算法，合理地设计了环境交互机制与观测的状能力等问题。此外，当与视觉SLAM协同工作时，态空间：2)研究了多样的奖励函数，加快了算法传统局部路径规划算法仅仅考虑机器人运动代价的收敛速度，提高了模型的性能，最大限度地避等因素，没有考虑机器人在视觉SLAM过程中易免了碰撞和位姿跟踪的丢失、可尽快到达局部目在低纹理区域跟踪丢失的问题，以上原因导致传标点。3)将局部路径规划模型融入总体导航框统局部路径规划算法应用于基于视觉SLAM的架，与视觉SLAM模块、全局路径规划、仿真平台导航时表现较差。相互配合，有助于长距离室内复杂场景下的点导航。深度强化学习自提出以来逐渐得到国内外学 1问题描述者的广泛关注，其相关理论和应用研究都得到了不同程度的发展。由于其“交互式学习”和“试机器人在室内导航的过程中，在低纹理区域错学习”的特点，适用于很多问题的决策，已成为易发生视觉SLAM跟踪失败现象。因此，考虑机机器人控制领域的研究热点，其中也包括局部路器人快速接近局部目标点的同时，还要兼顾低纹径规划任务。张福海等]以激光雷达作为环境理区域、障碍物等诸多不利因素对于视觉导航任感知器，并构造了基于Q-learning的强化学习模务造成的影响。本文设计的局部目标点导航策型，将其应用在了局部路径规划任务中，提高了略，可以实现规避障碍物、保证跟踪稳定性以避移动机器人对未知环境的适应性。Guldenring等W 免视觉SLAM失败、成功到达局部目标点的目的。利用激光雷达来获取动态环境信息，并根据环境局部路径规划策略是与视觉SLAM模块、全数据基于PPO的强化学习算法进行局部路径规局路径规划、仿真平台相互配合的，它们的关系划。Balakrishnan等l在A*全局路径规划算法基如图l所示。首先，选用Habitat仿真平台，机器础上，利用深度强化学习训练了一种局部路径规人在该平台中能以实体的形式存在。该平台能实划策略，以到达局部目标点。然而，该方法依赖时地提供机器人在当前位置所采集到的彩色图、于真实先验地图。Chaplot等u同样训练了一种深度图，并实时检测机器人是否发生碰撞等。对基于深度强化学习的局部路径规划策略，并与全于每一个导航任务，仿真平台会给定机器人的初局策略相结合，以完成视觉探索任务。但是该方始位置和机器人距离全局目标点的相对位置。其

机器人实现自主视觉导航的关键技术之一，分为全局路径规划算法和局部路径规划算法[5]。常用的全局路径规划算法有 A*算法[ 6 ] 和 D*算法[ 7 ] 等。局部路径规划算法根据全局路径和部分环境信息，输出机器人运动控制指令，使机器人大致沿着全局路径的轨迹移动。动态窗口法 (dynamic window algorithm, DWA) 作为一种广泛使用的局部路径规划算法，具有良好的避障能力，且计算量小、实时性高，是机器人操作系统 (robot operating system, ROS) 的默认局部路径规划算法[8]。但是，当环境变得复杂时，DWA 算法容易陷入局部极小值点，同时无法保证规划出的路径是最优的。时间弹性带 (timed elastic band, TEB) 算法是另一种广泛使用的局部路径规划算法，采用图优化的方法迭代求解局部路径规划问题，有较高的操作性[9]。模型预测控制 (model predictive control, MPC) 能根据机器人当前的运动状态预测其未来几个时间步的轨迹，通过二次规划方法来优化，求出一个最优局部路径规划解[10]。但是，TEB 和 MPC 算法有非常多的参数需要设置，所以在复杂的环境应用时需要配备较高性能的计算机和花大量时间手工调参。综上所述，传统的局部路径规划方法存在参数调整耗时，缺乏对新环境的泛化能力等问题。此外，当与视觉 SLAM 协同工作时，传统局部路径规划算法仅仅考虑机器人运动代价等因素，没有考虑机器人在视觉 SLAM 过程中易在低纹理区域跟踪丢失的问题，以上原因导致传统局部路径规划算法应用于基于视觉 SLAM 的导航时表现较差。深度强化学习自提出以来逐渐得到国内外学者的广泛关注，其相关理论和应用研究都得到了不同程度的发展[11-12]。由于其“交互式学习”和“试错学习”的特点，适用于很多问题的决策，已成为机器人控制领域的研究热点，其中也包括局部路径规划任务。张福海等[13] 以激光雷达作为环境感知器，并构造了基于 Q-learning 的强化学习模型，将其应用在了局部路径规划任务中，提高了移动机器人对未知环境的适应性。Guldenring 等 [14] 利用激光雷达来获取动态环境信息，并根据环境数据基于 PPO 的强化学习算法进行局部路径规划。Balakrishnan 等 [15] 在 A*全局路径规划算法基础上，利用深度强化学习训练了一种局部路径规划策略，以到达局部目标点。然而，该方法依赖于真实先验地图。Chaplot 等 [16] 同样训练了一种基于深度强化学习的局部路径规划策略，并与全局策略相结合，以完成视觉探索任务。但是该方法依赖于真实先验位姿。在实际的视觉导航任务中，机器人需要依靠视觉传感器来获取位姿和环境地图。因此，如何合理地设计局部路径规划机制，使局部路径规划能够和视觉 SLAM 方法更好地配合，最大限度地避免碰撞和位姿跟踪丢失、提升导航成功率是这类方法的关键，也是至今仍未被探索的问题。针对以上问题，本文在视觉 SLAM 和全局路径规划算法的基础上，提出一种基于深度强化学习的室内视觉局部路径规划策略。该策略在强化学习 PPO[17] (proximal policy optimization) 算法的基础上，充分考虑了机器人避障、防止视觉 SLAM 跟踪丢失以及机器人行走效率等多方面因素，设计奖励函数和网络结构，在大量的场景下学习最佳状态–动作映射网络，提高移动机器人导航成功率。既避免了部分传统路径规划算法调参复杂的问题，又具有很好的泛化性，且与视觉 SLAM 模块契合。最终，在三维物理仿真平台 Habitat[18] 中利用机器人对该局部路径规划策略进行相关仿真分析，证实了所提出策略的有效性。本文的创新点主要包括：1）提出了一种基于深度强化学习的移动机器人室内视觉局部路径规划算法，合理地设计了环境交互机制与观测的状态空间； 2）研究了多样的奖励函数，加快了算法的收敛速度，提高了模型的性能，最大限度地避免了碰撞和位姿跟踪的丢失、可尽快到达局部目标点。3）将局部路径规划模型融入总体导航框架，与视觉 SLAM 模块、全局路径规划、仿真平台相互配合，有助于长距离室内复杂场景下的点导航。 1 问题描述机器人在室内导航的过程中，在低纹理区域易发生视觉 SLAM 跟踪失败现象。因此，考虑机器人快速接近局部目标点的同时，还要兼顾低纹理区域、障碍物等诸多不利因素对于视觉导航任务造成的影响。本文设计的局部目标点导航策略，可以实现规避障碍物、保证跟踪稳定性以避免视觉 SLAM 失败、成功到达局部目标点的目的。局部路径规划策略是与视觉 SLAM 模块、全局路径规划、仿真平台相互配合的，它们的关系如图 1 所示。首先，选用 Habitat 仿真平台，机器人在该平台中能以实体的形式存在。该平台能实时地提供机器人在当前位置所采集到的彩色图、深度图，并实时检测机器人是否发生碰撞等。对于每一个导航任务，仿真平台会给定机器人的初始位置和机器人距离全局目标点的相对位置。其 ·909· 朱少凯，等：基于深度强化学习的室内视觉局部路径规划第 5 期

第17卷智能系统学报 ·910· 次，机器人通过视觉SLAM模块与三维重建技术2刘 2基于深度强化学习的路径规划得到室内三维环境的稠密点云地图，然后将一定高度范围内的点云投影之后，获得用于导航的二 2.1模型建立维栅格地图。此外，视觉SLAM模块还能实时提大多数强化学习可以用部分可观测马尔科夫供机器人在当前位置所采集到的ORB(oriented 决策过程(POMDP)描述，POMDP用一个五元组 FAST and rotated BRIEF)特征点图Pa并实时监测 (S,A,PR,y)来表示。其中S为机器人状态空间，机器人当前的位姿跟踪状态（跟踪正常/跟踪丢 A为机器人动作空间，P为从一个状态到另一个失)。然后，在得到的二维栅格地图基础上，使用状态的转换概率，R为奖励，Y表示折扣因子。常 A*算法规划全局路径。局部目标点位置的确定用演员-评论家(actor-.critic,AC)算法来解决该部依赖于全局路径，如图2所示，以机器人当前位置分可观测的马尔科夫决策问题。AC算法基于策为圆心，半径为r的圆与全局路径的交点即为局略梯度方法，并通过最大化平均回报来直接更新部路径规划目标点。最后，局部路径规划策略的策略。在执行策略参数π时，累积每个时间步动目标是使机器人从起点成功移动到局部目标点的作的预期奖励来计算价值函数，如式(1)所示。位置，同时兼顾避障、避免跟踪失败的目的。在随后，按式(2)的贝尔曼方程迭代直至策略参数本文中，局部路径规划策略的输入是当前时刻的收敛至最优。观测（包括：彩色图、深度图、特征点图、当前位 V"(s)=EyR(s,π(s) (1) 置与局部目标点之间的距离和方向)，输出是机 "(s1)=argmax(R(s,.(s,))+ 器人当前时刻所采取的动作。训练目标是避免发 (2) 生碰撞和视觉SLAM跟踪丢失的同时，采取尽量 Pnlr》-vid- 少的动作运动到局部目标点。当机器人到达局部式(1)和(2)中，E为求期望函数，S,代表1时刻机目标点或机器人行动步数达到步数限制时，则开器人观测状态，R(s,π(s》为当前策略在状态S,下始规划下一个局部目标点，以此循环，直到机器的奖励值，V(s)为最优状态值函数，y为折扣因人到达全局目标点。当机器人在行走过程中发生子。P(s,S41|π(s》为状态转移概率。对于从状态碰撞或视觉SLAM跟踪丢失时，则认为导航任务 s,可以到达的任何状态S1,π”(S)为能够使得状失败。态S1获得最优价值的策略。 2.2框架设计 Habitat仿真器深度强化学习中，智能体(Agent)负责与环境静态障碍全局目标点交互，是算法的应用对象。外部环境(Ev)是客 RGB图全局路径观测深度图「改进规划器观存在，用于制定奖惩规则和交互机制。本文将 RGB图像 ORB-SLAM 局部局部路径规划问题转换到深度强化学习的框架中深度图相对位置特征点图相标点观测空间进行求解。在交互过程中，需要定义相应的接口机器人模型状态标准，主要有step、reset、.render3个函数。动作局部路径 1)step函数：负责制定Agent与Env的交互机规划器 PPO-agent 制和奖惩规则，在基于深度强化学习的局部路径图1总体导航架构规划策略根据当前状态s求解出动作后，该函数 Fig.1 Overall navigation framework 能够返回执行后的奖励，以及是否结束的标志位done。此外，该函数能返回下一时刻的状态 S+1。该函数是将局部路径规划问题转换到深度强化学习问题的关键，是算法设计中最重要的函数，(s,a,,s+i,done)构成了局部路径规划策略训练所需要的基本数据单元。全局起始点 2)reset函数：定义一个回合(episode)为Agent 目标点与Env的一次完整交互。Agent通过与Env多次交互积累经验，从而学到好的局部路径规划策图2局部导航示意图略。回合结束的判断标志位为done,当其为True Fig.2 Schematic diagram of the local navigation 时，回合结束。此时，Agent和Env需要通过该re

次，机器人通过视觉 SLAM 模块与三维重建技术[19-21] 得到室内三维环境的稠密点云地图，然后将一定高度范围内的点云投影之后，获得用于导航的二维栅格地图。此外，视觉 SLAM 模块还能实时提供机器人在当前位置所采集到的 ORB (oriented FAST and rotated BRIEF) 特征点图[22] 并实时监测机器人当前的位姿跟踪状态（跟踪正常/跟踪丢失）。然后，在得到的二维栅格地图基础上，使用 A*算法规划全局路径。局部目标点位置的确定依赖于全局路径，如图 2 所示，以机器人当前位置为圆心，半径为 r 的圆与全局路径的交点即为局部路径规划目标点。最后，局部路径规划策略的目标是使机器人从起点成功移动到局部目标点的位置，同时兼顾避障、避免跟踪失败的目的。在本文中，局部路径规划策略的输入是当前时刻的观测（包括：彩色图、深度图、特征点图、当前位置与局部目标点之间的距离和方向），输出是机器人当前时刻所采取的动作。训练目标是避免发生碰撞和视觉 SLAM 跟踪丢失的同时，采取尽量少的动作运动到局部目标点。当机器人到达局部目标点或机器人行动步数达到步数限制时，则开始规划下一个局部目标点，以此循环，直到机器人到达全局目标点。当机器人在行走过程中发生碰撞或视觉 SLAM 跟踪丢失时，则认为导航任务失败。全局目标点全局路径规划器状态动作观测空间局部目标点静态障碍特征点图 Habitat 仿真器观测 RGB 图像深度图相对位置机器人模型碰撞检测运动控制 RGB 图深度图改进 ORB-SLAM 局部路径规划器 PPO-agent 图 1 总体导航架构 Fig. 1 Overall navigation framework 局部目标点全局起始点目标点图 2 局部导航示意图 Fig. 2 Schematic diagram of the local navigation 2 基于深度强化学习的路径规划 2.1 模型建立 (S,A,P,R, γ) γ π 大多数强化学习可以用部分可观测马尔科夫决策过程 (POMDP) 描述，POMDP 用一个五元组来表示。其中 S 为机器人状态空间， A 为机器人动作空间，P 为从一个状态到另一个状态的转换概率，R 为奖励，表示折扣因子。常用演员–评论家 (actor-critic, AC) 算法来解决该部分可观测的马尔科夫决策问题。AC 算法基于策略梯度方法，并通过最大化平均回报来直接更新策略。在执行策略参数时，累积每个时间步动作的预期奖励来计算价值函数，如式 (1) 所示。随后，按式 (2) 的贝尔曼方程迭代直至策略参数收敛至最优。 V ∗ (st) = E [ ΣγR(st , π(st))] (1) π ∗ (st+1) = argmax( R(st , π(st))+ w xk=1 P(st ,st+1 | π(st))·V ∗ (st+1)dst+1 ) (2) R(st , π(st)) V ∗ (st) P(st ,st+1 | π(st)) π ′′ (st+1) 式 (1) 和 (2) 中，E 为求期望函数，st 代表 t 时刻机器人观测状态，为当前策略在状态 st 下的奖励值，为最优状态值函数，γ 为折扣因子。为状态转移概率。对于从状态 st 可以到达的任何状态 st+1，为能够使得状态 st+1 获得最优价值的策略。 2.2 框架设计深度强化学习中，智能体 (Agent) 负责与环境交互，是算法的应用对象。外部环境 (Env) 是客观存在，用于制定奖惩规则和交互机制。本文将局部路径规划问题转换到深度强化学习的框架中进行求解。在交互过程中，需要定义相应的接口标准，主要有 step、reset、render 3 个函数。 si a1 a1 ri st+1 (si ,at ,rt ,si+1,done) 1) step 函数：负责制定 Agent 与 Env 的交互机制和奖惩规则，在基于深度强化学习的局部路径规划策略根据当前状态求解出动作后，该函数能够返回执行后的奖励，以及是否结束的标志位 done。此外，该函数能返回下一时刻的状态。该函数是将局部路径规划问题转换到深度强化学习问题的关键，是算法设计中最重要的函数，构成了局部路径规划策略训练所需要的基本数据单元。 2) reset 函数：定义一个回合 (episode) 为 Agent 与 Env 的一次完整交互。Agent 通过与 Env 多次交互积累经验，从而学到好的局部路径规划策略。回合结束的判断标志位为 done，当其为 True 时，回合结束。此时，Agent 和 Env 需要通过该 re- 第 17 卷智能系统学报 ·910·

·911· 朱少凯，等：基于深度强化学习的室内视觉局部路径规划第5期 st函数重新初始化，开始新一轮的交互。为了保右转3个动作，每个动作执行时间为1S,左转和证Agent和Env的可持续性交互，回合结束在机右转的角速度为0.3rad/s,前进速度为0.lml/s。器人到达局部目标点、发生碰撞、视觉SLAM跟踪失败、到达每回合的最大步数限制时触发。 3)render函数：局部路径规划策略需要与视觉SLAM模块、全局路径规划、仿真平台相互配合。为了便于算法调试，使用render函数来输出可视化窗口显示机器人当前的状态及所处环境，如彩色图(RGB)、深度图(Depth)、全局地图、路径规划等。 (a)跟踪正常 (b)跟踪失败 step函数、reset函数、render函数构成了Env 图3ORB特征点跟踪图部分。step函数负责Agent与Env之间的交互， Fig.3 Pictures of ORB feature point tracking 其中嵌套了负责重置的reset函数和负责显示功充分考虑了机器人避障、防止视觉SLAM在能的render函数。低纹理区域跟踪丢失以及机器人行走效率等多方 2.3可观测状态与奖励函数设计面因素，把奖励函数分为6个部分。其中，避障、 step函数是基于深度强化学习的局部路径规距离、视觉SLAM的奖励函数部分分别用rbv、rs 划策略实施的重点，其中涉及到两个关键问题： ram表示，1、2、3为相应部分奖励的系数。该一是如何描述可观测状态空间，另一个是如何设 3部分奖励函数已能够满足点导航的基本需求。计奖励函数。前者反映了机器人在局部路径规划然而，由于算法初期网络训练不充分，机器人在的实施过程中需要注意的环境信息，后者能指导面对障碍和低纹理区域时会选择错误的动作导致局部路径规划策略向目标方向更新。碰撞、跟踪失败。在很多次试错之后，PPO算法在机器人的局部路径规划任务中，Agent所能的Actor网络才会在面对障碍时选择正确的动观测到的状态S来源于自身所装备的RGB-D相作，此时算法才开始收敛。所以仅依靠上述3部机以及视觉SLAM模块，具体可用一个五元组(s 分的奖励函数训练局部路径规划算法会存在训练 Septh,Sas,Sangles,Smpt)来表示。其中Seb和Seph来源时间长、算法收敛速度慢的缺点。为了加快算法于RGB-D相机，分别表示彩色图和深度图；Ss表收敛速度，提高模型性能，本文又设计了角度、特示机器人与局部目标点的相对距离，计算方法如征点数及到达局部目标点的奖励，分别使用、式(3)所示；see为机器人当前朝向角与机器人和 rus表示，入4、s、6为系数。为方便表示，Sus表示局部目标点连线角度的差值，设机器人在二维栅机器人运行状态，其值域为{0,1,2,3}，分别表示机格地图上的坐标为(x,),朝向角为B,局部目标器人正常运行、碰撞、视觉SLAM跟踪丢失和到点坐标为(x2,,se计算方式如式(4)：达局部目标点。 5as=V(x2-)尸+G2-y)月 (3) 1)避障避障是导航的基本要求，机器人撞到障碍物 Sangle=arccos cos(B)(y2-y1)+sin(B)(x2-x1) (4) 就意味着本次导航任务的失败，机器人运动过程 Sm为采样时刻当前帧的特征点图的位置矩发生碰撞，会产生一个较大的负值奖励。具体设阵，包含了特征点在图像帧上的位置和数量信计如式（⑤）：息。在ORB-SLAM221算法中，ORB特征点的匹入1， Ssts =1 配是实现前端视觉里程计的基础，特征点在图像 10,其他 (5) 中的位置和数量包含了视觉SLAM跟踪稳定的 2)距离信息。如图3所示，图3(b)由图(a)采样位置向导航过程中需要逐步减小与局部目标点的距左旋转30°后得到。在图3(a)所示采样位置视觉离，故根据执行当前策略动作后与局部目标点距 SLAM跟踪成功，在图3(b)所示采样位置则跟踪离的变化量设计相应奖励函数。设当前时刻机器丢失。由图3(a)可知，特征点集中于右半部分，人坐标为(x,y,),执行当前策略得出的动作a,后左半部分特征较为稀疏，相机此时左转视觉坐标为(x+1,y+1),局部目标点坐标为(xa,)。可 SLAM跟踪失败的风险较高。定义动作空间A(a, 以简单在笛卡尔坐标系上计算得到执行动作后， aa,),其3个元素分别代表机器人左转、前行和距目标点的距离变化量为

set 函数重新初始化，开始新一轮的交互。为了保证 Agent 和 Env 的可持续性交互，回合结束在机器人到达局部目标点、发生碰撞、视觉 SLAM 跟踪失败、到达每回合的最大步数限制时触发。 3) render 函数：局部路径规划策略需要与视觉 SLAM 模块、全局路径规划、仿真平台相互配合。为了便于算法调试，使用 render 函数来输出可视化窗口显示机器人当前的状态及所处环境，如彩色图 (RGB)、深度图 (Depth)、全局地图、路径规划等。 step 函数、reset 函数、render 函数构成了 Env 部分。step 函数负责 Agent 与 Env 之间的交互，其中嵌套了负责重置的 reset 函数和负责显示功能的 render 函数。 2.3 可观测状态与奖励函数设计 step 函数是基于深度强化学习的局部路径规划策略实施的重点，其中涉及到两个关键问题：一是如何描述可观测状态空间，另一个是如何设计奖励函数。前者反映了机器人在局部路径规划的实施过程中需要注意的环境信息，后者能指导局部路径规划策略向目标方向更新。在机器人的局部路径规划任务中，Agent 所能观测到的状态 S 来源于自身所装备的 RGB-D 相机以及视觉 SLAM 模块，具体可用一个五元组 (srgb, sdepth, sdis, sangle, smpt) 来表示。其中 srgb 和 sdepth 来源于 RGB-D 相机，分别表示彩色图和深度图；sdis 表示机器人与局部目标点的相对距离，计算方法如式 (3) 所示；sangle 为机器人当前朝向角与机器人和局部目标点连线角度的差值，设机器人在二维栅格地图上的坐标为 (x1 , y1 )，朝向角为 β，局部目标点坐标为 (x2 , y2 )，sangle 计算方式如式 (4)： sdis = √ (x2 − x1) 2 +(y2 −y1) 2 (3) sangle = arccos( cos(β)(y2 −y1)+sin(β)(x2 − x1) sdis ) (4) smpt 为采样时刻当前帧的特征点图的位置矩阵，包含了特征点在图像帧上的位置和数量信息。在 ORB-SLAM2[23] 算法中，ORB 特征点的匹配是实现前端视觉里程计的基础，特征点在图像中的位置和数量包含了视觉 SLAM 跟踪稳定的信息。如图 3 所示，图 3 (b) 由图 (a) 采样位置向左旋转 30°后得到。在图 3(a) 所示采样位置视觉 SLAM 跟踪成功，在图 3(b) 所示采样位置则跟踪丢失。由图 3(a) 可知，特征点集中于右半部分，左半部分特征较为稀疏，相机此时左转视觉 SLAM 跟踪失败的风险较高。定义动作空间 A(al , af , ar )，其 3 个元素分别代表机器人左转、前行和右转 3 个动作，每个动作执行时间为 1 s，左转和右转的角速度为 0.3 rad/s, 前进速度为 0.1 m/s。 (a) 跟踪正常 (b) 跟踪失败图 3 ORB 特征点跟踪图 Fig. 3 Pictures of ORB feature point tracking 充分考虑了机器人避障、防止视觉 SLAM 在低纹理区域跟踪丢失以及机器人行走效率等多方面因素，把奖励函数分为 6 个部分。其中，避障、距离、视觉 SLAM 的奖励函数部分分别用 robv、rdis、 rslam 表示，λ1、λ2、λ3 为相应部分奖励的系数。该 3 部分奖励函数已能够满足点导航的基本需求。然而，由于算法初期网络训练不充分，机器人在面对障碍和低纹理区域时会选择错误的动作导致碰撞、跟踪失败。在很多次试错之后，PPO 算法的 Actor 网络才会在面对障碍时选择正确的动作，此时算法才开始收敛。所以仅依靠上述 3 部分的奖励函数训练局部路径规划算法会存在训练时间长、算法收敛速度慢的缺点。为了加快算法收敛速度，提高模型性能，本文又设计了角度、特征点数及到达局部目标点的奖励，分别使用 rangle、rnmpt、 rbonus 表示，λ4、λ5、λ6 为系数。为方便表示，ssts 表示机器人运行状态，其值域为{0,1,2,3}，分别表示机器人正常运行、碰撞、视觉 SLAM 跟踪丢失和到达局部目标点。 1）避障避障是导航的基本要求，机器人撞到障碍物就意味着本次导航任务的失败，机器人运动过程发生碰撞，会产生一个较大的负值奖励。具体设计如式 (5)： rasv = { λ1 , ssts = 1 0, 其他 (5) 2）距离导航过程中需要逐步减小与局部目标点的距离，故根据执行当前策略动作后与局部目标点距离的变化量设计相应奖励函数。设当前时刻机器人坐标为（xt , yt），执行当前策略得出的动作 at 后坐标为（xt+1 , yt+1），局部目标点坐标为 (xd , yd )。可以简单在笛卡尔坐标系上计算得到执行动作后，距目标点的距离变化量为 ·911· 朱少凯，等：基于深度强化学习的室内视觉局部路径规划第 5 期

第17卷智能系统学报 ·912· △d= V(x-x)+-y4)-V-x+n-ya) TRPO算法相比，PPO算法计算复杂度更低，算法 (6) 的训练速度更快，可实施性更强。算法的基本框对应的奖励函数为架如图4所示。 rds=2△d (7) 更新 3)视觉SLAM跟踪在训练过程中，若机器人视觉SLAM跟踪稳定运行，执行某一动作后，若视觉SLAM跟踪能 Actor网络环境保持运行，不给予奖励，若执行动作后跟踪丢失，则导航失败，给予一个较大的负值奖励，即如式(8) ,存储所示： m=人心，5=2 Critic网络容器 10,其他 (8) Se de re Seti. 4)角度正确的导航方向是机器人能到达目标点的前提，为防止机器人在调整方向时出现奖励稀疏的图4基于Actor-Critie框架的PPO算法示意图 Fig.4 Schematic diagram of PPO algorithm based on Act- 问题，根据机器人动作执行前后其与局部目标点 or-Critic framework 的相对角度的变化量给予奖励。设当前时刻机器基于Actor-.Critic框架的PPO算法包含Act 人与局部目标点的相对角度为a,执行当前策略 or和Critic双网络。Actor网络负责生成策略，其得出的动作后变为a,对应奖励为网络参数为OA。Critic网络通过计算优势函数 Tangle =A (lal-la+) (9) An来评估当前策略，其网络参数为0e。Actor网络 5)特征点数目标函数如式(13)所示。本文使用的ORB-SLAM2算法进行同时定位 LcliP (0A)=E[re,An,clip(ro,1-s,1+)A] (13) 与建图。对ORB特征点的数量与视觉SLAM具有很强的关联性，当前帧中的特征点数高于一定 -器 (14) 数量时，视觉SLAM跟踪丢失的风险很低，而低式中：clip为剪切函数，e为剪切参数；e为n次采于一定数值时，跟踪丢失的风险将会急剧上升。样的期望函数。π，(anIn)是待优化的策略网络，设执行动作前后，当前帧ORB特征点的数量分别 πAu(an|sn)为当前用于收集数据的策略网络，通过为nmpt,和nmpt+,则对应奖励为重要性采样来估计新策略。两者比值越接近1，说明新旧策略更新偏移越小。更新过程中，PPO I'nmpt =s Ig nmpt+ (10) nmpt, 算法利用式(13)中的剪切函数来限制策略的更新 6)达成目标奖励幅度。当新旧策略更新偏移量过大时，使用剪切为了使局部路径策略更快向局部目标点收项代替，这样确保新旧策略的偏离程度不至于太敛，在训练过程中，若机器人顺利到达局部目标大，让Actor网络以一种相对平稳的方式进行更点，意味着当前策略更加接近目标策略，给予额新，收敛速度更快。外的正奖励值，加快算法的训练速度，故设计如 Actor网络根据当前状态生成机器人当前动式(11)所示奖励函数。作，机器人执行当前动作后产生新状态并获得奖 6,S=3 励为一次完整交互过程，按训练批次的大小将多 nos={0.其他 (11) 次交互数据进行存储，用于更新Actor网络和Critic 综上，综合奖励函数为网络，获得相对最优的网络参数。 r=Toby +rdis rangle rampt rslam rbonus (12) 2.5网络结构 2.4PPO算法 PPO算法包含了Actor和Critic两个神经网本文采用PPO算法来训练局部路径规划算络。Actor网络结构如图5所示，整个网络包含了法，这是一种基于策略梯度的算法，采用Actor- 一个Resnet18网络P,4个全连接层(fully connected, Critic架构集成了双网络的算法结构，并改进了基 FC)和一个Softmax层。PPO算法的观测状态空于置信域策略优化的强化学习算法P((trust region 间为SSeb,Sdepth,Sais,Sangles,Smp）,RGB图像Sgb、深度 policy optimization,.TRPO)的步长选择机制。与图像Sdepi及ORB特征点图矩阵Smpt整合而成的

∆d = √ (xt − xd) 2 +(yt −yd) 2− √ (xt+1 − xd) 2 +(yt+1 −yd) 2 (6) 对应的奖励函数为 rdis = λ2∆d (7) 3）视觉 SLAM 跟踪在训练过程中，若机器人视觉 SLAM 跟踪稳定运行，执行某一动作后，若视觉 SLAM 跟踪能保持运行，不给予奖励，若执行动作后跟踪丢失，则导航失败，给予一个较大的负值奖励，即如式 (8) 所示： rslam = { −λ3, ssts = 2 0, 其他 (8) 4）角度正确的导航方向是机器人能到达目标点的前提，为防止机器人在调整方向时出现奖励稀疏的问题，根据机器人动作执行前后其与局部目标点的相对角度的变化量给予奖励。设当前时刻机器人与局部目标点的相对角度为 αt，执行当前策略得出的动作后变为 αt+1，对应奖励为 rangle = λ4 (|αt |−|αt+1|) (9) 5）特征点数本文使用的 ORB-SLAM2 算法进行同时定位与建图。对 ORB 特征点的数量与视觉 SLAM 具有很强的关联性，当前帧中的特征点数高于一定数量时，视觉 SLAM 跟踪丢失的风险很低，而低于一定数值时，跟踪丢失的风险将会急剧上升。设执行动作前后，当前帧 ORB 特征点的数量分别为 nmptt 和 nmptt+1，则对应奖励为 rnmpt = λ5 lg( nmptt+1 nmptt ) (10) 6）达成目标奖励为了使局部路径策略更快向局部目标点收敛，在训练过程中，若机器人顺利到达局部目标点，意味着当前策略更加接近目标策略，给予额外的正奖励值，加快算法的训练速度，故设计如式 (11) 所示奖励函数。 rbonus = { λ6 , S sts = 3 0, 其他 (11) 综上，综合奖励函数为 r = robv +rdis +rangle +rnmpt +rslam +rbonus (12) 2.4 PPO 算法本文采用 PPO 算法来训练局部路径规划算法，这是一种基于策略梯度的算法，采用 ActorCritic 架构集成了双网络的算法结构，并改进了基于置信域策略优化的强化学习算法[24] (trust region policy optimization, TRPO) 的步长选择机制。与 TRPO 算法相比，PPO 算法计算复杂度更低，算法的训练速度更快，可实施性更强。算法的基本框架如图 4 所示。 sn an 存储 sn+1 An 更新 rn Actor 网络环境 Critic 网络容器 {sn , an , rn , sn+1, …} 图 4 基于 Actor-Critic 框架的 PPO 算法示意图 Fig. 4 Schematic diagram of PPO algorithm based on Actor-Critic framework θA 基于 Actor-Critic 框架的 PPO 算法包含 Actor 和 Critic 双网络。Actor 网络负责生成策略，其网络参数为。Critic 网络通过计算优势函数 An 来评估当前策略，其网络参数为 θc。Actor 网络目标函数如式 (13) 所示。 L clip (θA) = En [ rθA An, clip( rθA ,1−ε,1+ε ) An ] (13) rθA = πθA (an | sn) πθAold (an | sn) (14) ε πθA (an | tn) πAold (an | sn) 式中：clip 为剪切函数，ε 为剪切参数；为 n 次采样的期望函数。是待优化的策略网络，为当前用于收集数据的策略网络，通过重要性采样来估计新策略。两者比值越接近 1，说明新旧策略更新偏移越小。更新过程中，PPO 算法利用式 (13) 中的剪切函数来限制策略的更新幅度。当新旧策略更新偏移量过大时，使用剪切项代替，这样确保新旧策略的偏离程度不至于太大，让 Actor 网络以一种相对平稳的方式进行更新，收敛速度更快。 Actor 网络根据当前状态生成机器人当前动作，机器人执行当前动作后产生新状态并获得奖励为一次完整交互过程，按训练批次的大小将多次交互数据进行存储，用于更新 Actor 网络和 Critic 网络，获得相对最优的网络参数。 2.5 网络结构 PPO 算法包含了 Actor 和 Critic 两个神经网络。Actor 网络结构如图 5 所示，整个网络包含了一个 Resnet18 网络[25] ，4 个全连接层 (fully connected, FC) 和一个 Softmax 层。PPO 算法的观测状态空间为 S(srgb, sdepth, sdis, sangle, smpt)，RGB 图像 srgb、深度图像 sdepth 及 ORB 特征点图矩阵 smpt 整合而成的第 17 卷智能系统学报 ·912·

·913· 朱少凯，等：基于深度强化学习的室内视觉局部路径规划第5期 640×480×5的张量，作为Resnet18网络的输入，作空间中的动作。Actor网络的参数设置如表1 S和Snee分别作为全连接层的输入，三者均输出所示，Critic网络结构及参数与Actor网络大致相一维的向量，将其输出进行拼接(Concat),后接两同，FC4层作为输出层，输出一维数据，用来估计个全连接层和一个Softmax层，输出PPO算法动状态价值函数。状态(State) 拼接 (Concat 动作(Actor) a FC3 FC4 Softmax a, S FC1 FC2 图5 Actor网络结构 Fig.5 Actor network structure 表1网络参数设置 Table 1 Network parameters setting 层输入 Activation 输出 Resnet18 512×512×5 Relu 512 FC1 2 Relu 512 FC2 1 Relu 512 FC3 1536 Relu 300 FC4 300 Relu 3 Softmax 3 (a)Edgemere场景(b)Eastville场景(c)Mosquito场景图6导航地图可视化 3仿真结果与分析 Fig.6 Navigation map visualization 仿真过程中，局部路径规划策略的训练相关 3.1实验环境及参数设置参数如表2所示。本文选择前进动作时，距离变仿真所使用硬件平台为一台CPU型号为Intel 化为0.1m,选择转向动作时，角度变化为0.3rad。 Core i9-10900X,内存为64GB,显卡类型为NVIDIA 为了使机器人快速接近局部目标点，需先快速调 RTX3090的台式机。软件方面装有：Ubuntu18.04 整航向角，再向局部目标点快速移动，可通过设系统、python3.6版本，Pytorch 1.7.1版本，ROS 计奖励函数，使得角度奖励比距离奖励略大。因 Melodic版本。仿真器使用Facebook公开的室内此，距离奖励系数和角度奖励系数可根据经验分仿真平台Habitat⑧。训练集采用Gibson数据集，别设置为20和40。如2.3节所述，本文在设计特包含72个不同场景。算法在与训练集不同的征点奖励函数部分时采用以10为底数的对数函 3个Gibson数据集26场景{Edgemere、Eastville、数。在实验过程中，可注意到机器人在纹理较丰 Mosquito}中测试，每个场景均包含71个导航任富的区域时，图像帧中的特征点数变化幅度不务。{Edgemere、Eastville、Mosquito}场景中导航任大，大概在850~950。而机器人在由纹理较丰富务的平均最短路径距离P(geodesic distance along 的区域向低纹理区域运动时，相邻帧之间的特征 the shortest path,GDSP)分别为3.24m、7.51m、点变化幅度较大，比值nmpt41/nmpL,大概在1.3~ 10.84m,可分别代表简单、中等和困难3种场景， 18。因此，特征点奖励系数可根据经验设置为如图6所示。可以看到，Edgemere场景的布局相 80。此外，本文将碰撞和跟踪失败时的奖励值设对最简单，Mosquito场景的布局相对最复杂。为-30，以此降低导致碰撞和跟踪失败的动作选

640×480×5 的张量，作为 Resnet18 网络的输入， sdis 和 sangle 分别作为全连接层的输入，三者均输出一维的向量，将其输出进行拼接 (Concat)，后接两个全连接层和一个 Softmax 层，输出 PPO 算法动作空间中的动作。Actor 网络的参数设置如表 1 所示，Critic 网络结构及参数与 Actor 网络大致相同，FC4 层作为输出层，输出一维数据，用来估计状态价值函数。 Srgb Sdepth Smpt FC1 al af ar srgb sdepth smpt sangle sdis FC2 Sdis Sangle FC4 Softmax 状态 (State) Resnet18 拼接 (Concat) FC3 动作 (Actor) 图 5 Actor 网络结构 Fig. 5 Actor network structure 表 1 网络参数设置 Table 1 Network parameters setting 层输入 Activation 输出 Resnet18 512×512×5 Relu 512 FC1 2 Relu 512 FC2 1 Relu 512 FC3 1536 Relu 300 FC4 300 Relu 3 Softmax 3 — 3 3 仿真结果与分析 3.1 实验环境及参数设置仿真所使用硬件平台为一台 CPU 型号为 Intel Core i9-10900X，内存为 64 GB，显卡类型为 NVIDIA RTX 3090 的台式机。软件方面装有：Ubuntu 18.04 系统、python 3.6 版本，Pytorch 1.7.1 版本，ROS Melodic 版本。仿真器使用 Facebook 公开的室内仿真平台 Habitat[18]。训练集采用 Gibson 数据集，包含 72 个不同场景。算法在与训练集不同的 3 个 Gibson 数据集[26] 场景{Edgemere、Eastville、 Mosquito}中测试，每个场景均包含 71 个导航任务。{Edgemere、Eastville、Mosquito}场景中导航任务的平均最短路径距离[26] （geodesic distance along the shortest path, GDSP）分别为 3.24 m、7.51 m、 10.84 m，可分别代表简单、中等和困难 3 种场景，如图 6 所示。可以看到，Edgemere 场景的布局相对最简单，Mosquito 场景的布局相对最复杂。 (a) Edgemere 场景 (b) Eastville 场景 (c) Mosquito 场景图 6 导航地图可视化 Fig. 6 Navigation map visualization nmptt+1 /nmptt 仿真过程中，局部路径规划策略的训练相关参数如表 2 所示。本文选择前进动作时，距离变化为 0.1 m，选择转向动作时，角度变化为 0.3 rad。为了使机器人快速接近局部目标点，需先快速调整航向角，再向局部目标点快速移动，可通过设计奖励函数，使得角度奖励比距离奖励略大。因此，距离奖励系数和角度奖励系数可根据经验分别设置为 20 和 40。如 2.3 节所述，本文在设计特征点奖励函数部分时采用以 10 为底数的对数函数。在实验过程中，可注意到机器人在纹理较丰富的区域时，图像帧中的特征点数变化幅度不大，大概在 850~950。而机器人在由纹理较丰富的区域向低纹理区域运动时，相邻帧之间的特征点变化幅度较大，比值大概在 1.3~ 1.8。因此，特征点奖励系数可根据经验设置为 80。此外，本文将碰撞和跟踪失败时的奖励值设为−30，以此降低导致碰撞和跟踪失败的动作选 ·913· 朱少凯，等：基于深度强化学习的室内视觉局部路径规划第 5 期

第17卷智能系统学报 ·914· 择概率。为了提高正常到达局部目标点的动作选题，无法保证跟踪的稳定性。因此，在3个场景的择概率，本文将顺利到达局部目标点的额外奖励任务中均会发生较高的跟踪丢失率。设为80。 3)所提出的方法在所有的场景任务中都取得表2算法训练参数了最好的性能，可以在室内杂乱环境中也能较好 Table 2 Algorithm training parameters 完成导航任务。具体来说，本文所述方法在所有实验参数值场景任务中相比于传统的路径规划算法的平均成优化器功率提高了53.9%，位姿跟踪丢失率减小了66.5%， Adam 碰撞率减小了30.1%。这说明相比于传统的局部折扣因子y 0.8 路径规划方法，本文所提出的方法能够实现到达批量大小 64 局部目标点的同时，更好地规避障碍物，并保证剪切参数ε 跟踪稳定性。 0.2 4)在表3~5中，本文所提出的方法在Edgemere Actor初始学习率 4×10￥场景任务中表现最好，在Eastville场景任务中表 Critic初始学习率 2×105 现次之，在Mosquito场景任务中表现相对较差。奖励函数系数[1~6 [30,20,40, 这是因为Mosquito场景的面积相对更大，包含了 8030.801 多个房间和障碍物，导航任务也相对较难，起点 3.2结果及分析与终点距离较长。而Edgemere场景的面积相对为了证明所述方法的有效性和优越性，对比较小，仅包含一个卧室和卫生间。了DWA、TEB、MPC算法和路径跟随(path follow- 5类算法导航成功率、碰撞率以及SLAM跟 er,PF)算法。DWA、TEB、MPC算法是ROS系统踪丢失的概率随导航距离的变化分别如图7的中默认的局部路径规划算法，可作为很好的比较 3种图所示，随着导航距离增加，各类算法碰撞概基准；P℉算法是文献[2刀中提到的一种路径跟随率和SLAM跟踪概率都有所增加，但本文提出算算法，算法基于PD的离散控制实现机器人沿着法的导航效果对导航距离更加鲁棒，尤其是SLAM 规划出的全局路径行走。在行走过程中，若机器跟踪丢失概率受导航距离影响很小。人没有面朝局部目标点（当前位置与局部目标的表3不同算法在Edgemere场景任务中的平均结果对比朝向角超过15°)，则执行左转或右转以缩小自身 Table 3 Comparison of the average results of different al- 朝向角，否则执行前进动作。当机器人与全局目 gorithms in the Edgemere scene task 标点的距离小于0.2m时，则认为一个导航任务算法 SR TFR CR 成功。本文 74.65 1.41 23.94 本文计算了相应的成功率(success rate,SR)、跟踪丢失率(tracking failure rate,TFR)、碰撞率 PF 14.08 9.86 76.06 (collision rate,CR)。表3-5分别给出了使用不同 DWA 55.32 32.39 12.29 方法在Edgemere、Eastville和Mosquito3种场景 TEB 59.15 30.99 9.86 任务中的平均结果对比。可以得到以下几点结论： MPC 50.70 36.62 12.68 1)P℉算法在所有场景任务中表现都相对较差，这是因为该算法仅仅沿着规划出的全局路径表4不同算法在Eastville场景任务中的平均结果对比行走，没有考虑如何避障。当全局路径附近存在 Table 4 Comparison of the average results of different al- 障碍物时，该算法很难避免发生碰撞。因此，在 gorithms in the Eastville scene task 所有场景的任务中，该算法的平均碰撞率均是最算法 SR TFR CR 高的。本文 56.33 11.27 32.40 2)DWA、TEB、MPC算法运行时需要载入局 PF 5.63 14.08 80.29 部地图，根据参数对行走轨迹进行采样，选择运动代价最小的轨迹。因此，DWA、TEB、MPC算 DWA 25.35 21.13 53.52 法在进行视觉导航时具有一定的避障能力。但 TEB 23.94 26.76 49.30 是，DWA、TEB、MPC算法没有考虑机器人在视 MPC 21.13 53.52 25.35 觉SLAM过程中易在低纹理区域跟踪丢失的问

择概率。为了提高正常到达局部目标点的动作选择概率，本文将顺利到达局部目标点的额外奖励设为 80。表 2 算法训练参数 Table 2 Algorithm training parameters 实验参数值优化器 Adam 折扣因子γ 0.8 批量大小 64 剪切参数ε 0.2 Actor初始学习率 4×10−4 Critic初始学习率 2×10−5 奖励函数系数[λ1~λ6 ] [30, 20, 40, 80, 30, 80] 3.2 结果及分析为了证明所述方法的有效性和优越性，对比了 DWA、TEB、MPC 算法和路径跟随 (path follower, PF) 算法。DWA、TEB、MPC 算法是 ROS 系统中默认的局部路径规划算法，可作为很好的比较基准；PF 算法是文献 [27] 中提到的一种路径跟随算法，算法基于 PID 的离散控制实现机器人沿着规划出的全局路径行走。在行走过程中，若机器人没有面朝局部目标点（当前位置与局部目标的朝向角超过 15 °），则执行左转或右转以缩小自身朝向角，否则执行前进动作。当机器人与全局目标点的距离小于 0.2 m 时，则认为一个导航任务成功。本文计算了相应的成功率 (success rate, SR)、跟踪丢失率 (tracking failure rate, TFR)、碰撞率 (collision rate, CR)。表 3~5 分别给出了使用不同方法在 Edgemere、Eastville 和 Mosquito 3 种场景任务中的平均结果对比。可以得到以下几点结论： 1) PF 算法在所有场景任务中表现都相对较差，这是因为该算法仅仅沿着规划出的全局路径行走，没有考虑如何避障。当全局路径附近存在障碍物时，该算法很难避免发生碰撞。因此，在所有场景的任务中，该算法的平均碰撞率均是最高的。 2) DWA、TEB、MPC 算法运行时需要载入局部地图，根据参数对行走轨迹进行采样，选择运动代价最小的轨迹。因此，DWA、TEB、MPC 算法在进行视觉导航时具有一定的避障能力。但是，DWA、TEB、MPC 算法没有考虑机器人在视觉 SLAM 过程中易在低纹理区域跟踪丢失的问题，无法保证跟踪的稳定性。因此，在 3 个场景的任务中均会发生较高的跟踪丢失率。 3) 所提出的方法在所有的场景任务中都取得了最好的性能，可以在室内杂乱环境中也能较好完成导航任务。具体来说，本文所述方法在所有场景任务中相比于传统的路径规划算法的平均成功率提高了 53.9%，位姿跟踪丢失率减小了 66.5%，碰撞率减小了 30.1%。这说明相比于传统的局部路径规划方法，本文所提出的方法能够实现到达局部目标点的同时，更好地规避障碍物，并保证跟踪稳定性。 4) 在表 3~5 中，本文所提出的方法在 Edgemere 场景任务中表现最好，在 Eastville 场景任务中表现次之，在 Mosquito 场景任务中表现相对较差。这是因为 Mosquito 场景的面积相对更大，包含了多个房间和障碍物，导航任务也相对较难，起点与终点距离较长。而 Edgemere 场景的面积相对较小，仅包含一个卧室和卫生间。 5 类算法导航成功率、碰撞率以及 SLAM 跟踪丢失的概率随导航距离的变化分别如图 7 的 3 种图所示，随着导航距离增加，各类算法碰撞概率和 SLAM 跟踪概率都有所增加，但本文提出算法的导航效果对导航距离更加鲁棒，尤其是 SLAM 跟踪丢失概率受导航距离影响很小。表 3 不同算法在 Edgemere 场景任务中的平均结果对比 Table 3 Comparison of the average results of different algorithms in the Edgemere scene task 算法 SR TFR CR 本文 74.65 1.41 23.94 PF 14.08 9.86 76.06 DWA 55.32 32.39 12.29 TEB 59.15 30.99 9.86 MPC 50.70 36.62 12.68 表 4 不同算法在 Eastville 场景任务中的平均结果对比 Table 4 Comparison of the average results of different algorithms in the Eastville scene task 算法 SR TFR CR 本文 56.33 11.27 32.40 PF 5.63 14.08 80.29 DWA 25.35 21.13 53.52 TEB 23.94 26.76 49.30 MPC 21.13 53.52 25.35 第 17 卷智能系统学报 ·914·

·915· 朱少凯，等：基于深度强化学习的室内视觉局部路径规划第5期表5不同算法在Mosquito场景任务中的平均结果对比成视觉SLAM失败。而DWA方法虽然没有发生 Table 5 Comparison of the average results of different al- 跟踪丢失现象，但在第5~15个关键帧之间特征点 gorithms in the Mosquito scene task 急剧下降，有很大的跟踪丢失风险。类似地，TEB 算法 SR TFR CR 方法在第30~45个关键帧之间特征点急剧下降，本文 45.07 14.08 40.85 也存在较大的跟踪丢失风险。相反，采用本文所 PE 2.86 15.49 81.65 提出的方法后，机器人在行走过程中所跟踪到的 DWA 18.31 23.94 57.75 特征始终维持在580个以上，具有较强的稳定 TEB 23.94 28.17 47.89 性。3种方法的轨迹对比如图9所示（起点在左 MPC 23.94 26.76 49.30 上角)。绿色轨迹代表本文所提出的方法的行走过程，红色轨迹代表DWA方法的行走过程，蓝色 1.0 本文算法轨迹代表PF方法的行走过程，青色轨迹代表TEB PF 0.8 -DWA 方法的行走过程，紫色轨迹代表MPC方法的行走 -TEB 过程。由于P℉方法和MPC方法在行走的前15步 -MPC 0.6 时就跟踪失败，轨迹长度较短。机器人在沿着DWA 方法规划出的轨迹行走时，需要近距离，DWA方 0.4 法有沿墙行走的习惯，容易发生碰撞。 03 1000 800 10 15 25 600 -GF -DWA 导航距离m 400 (a)成功率 MPC 200 OURS 0 20 40 6080100120140 0.8 关键帧数本文算法 PF 图8 特征点个数对比(Edgemere场景的第30个导航 0.6 DWA 任务) -TEB Fig.8 Comparisons of the number of feature points (The 0.4 MPC 30th navigation mission of the Edgemere scene) 0.2 10 15 20 25 导航距离/m (b)碰撞率 0.8 一本文算法一PF 0.6 -DWA TEB -MPC 0.2 10 15 20 25 图9轨迹对比导航距离m Fig.9 Trajectory comparison (c)跟踪失败率为了更客观地衡量本文奖励函数的设计对于图7性能-导航距离变化曲线模型性能的影响，使用消融实验证明其有效性。 Fig.7 Performance-navigation distance change curves 消融实验是深度强化学习研究中确定某种方法是为了进一步验证所述方法在避免视觉SLAM 否有效的最直接的方式。本文在500个任务组成跟踪失败方面的有效性，以Edgemere场景的第的训练集中对所提出的6部分奖励函数进行消融 30个导航任务为例，将机器人行走过程中的特征实验，训练过程中每次剔除其中一部分奖励函数点个数进行对比统计。如图8所示，P℉方法和以查看对模型指标的影响。评价指标包括成功 MPC方法在低纹理区域发生了跟踪丢失现象，造率、跟踪丢失率和碰撞率。实验结果如图10所

表 5 不同算法在 Mosquito 场景任务中的平均结果对比 Table 5 Comparison of the average results of different algorithms in the Mosquito scene task 算法 SR TFR CR 本文 45.07 14.08 40.85 PF 2.86 15.49 81.65 DWA 18.31 23.94 57.75 TEB 23.94 28.17 47.89 MPC 23.94 26.76 49.30 1.0 0.8 0.6 0.4 0.2 0 成功率 1.0 0.8 0.6 0.4 0.2 碰撞率 0.8 0.6 0.4 0.2 0 跟踪失败率 5 10 15 20 25 5 10 15 20 25 5 10 15 20 25 本文算法 PF DWA TEB MPC 本文算法 PF DWA TEB MPC 本文算法 PF DWA TEB MPC 导航距离/m 0 导航距离/m (a) 成功率 (b) 碰撞率导航距离/m (c) 跟踪失败率图 7 性能–导航距离变化曲线 Fig. 7 Performance-navigation distance change curves 为了进一步验证所述方法在避免视觉 SLAM 跟踪失败方面的有效性，以 Edgemere 场景的第 30 个导航任务为例，将机器人行走过程中的特征点个数进行对比统计。如图 8 所示，PF 方法和 MPC 方法在低纹理区域发生了跟踪丢失现象，造成视觉 SLAM 失败。而 DWA 方法虽然没有发生跟踪丢失现象，但在第 5~15 个关键帧之间特征点急剧下降，有很大的跟踪丢失风险。类似地，TEB 方法在第 30~45 个关键帧之间特征点急剧下降，也存在较大的跟踪丢失风险。相反，采用本文所提出的方法后，机器人在行走过程中所跟踪到的特征始终维持在 580 个以上，具有较强的稳定性。3 种方法的轨迹对比如图 9 所示（起点在左上角）。绿色轨迹代表本文所提出的方法的行走过程，红色轨迹代表 DWA 方法的行走过程，蓝色轨迹代表 PF 方法的行走过程，青色轨迹代表 TEB 方法的行走过程，紫色轨迹代表 MPC 方法的行走过程。由于 PF 方法和 MPC 方法在行走的前 15 步时就跟踪失败，轨迹长度较短。机器人在沿着 DWA 方法规划出的轨迹行走时，需要近距离，DWA 方法有沿墙行走的习惯，容易发生碰撞。 1 000 800 600 400 200 0 0 20 40 60 80 100 120 140 特征点数关键帧数 GF DWA TEB MPC OURS 图 8 特征点个数对比（Edgemere 场景的第 30 个导航任务） Fig. 8 Comparisons of the number of feature points (The 30th navigation mission of the Edgemere scene) 图 9 轨迹对比 Fig. 9 Trajectory comparison 为了更客观地衡量本文奖励函数的设计对于模型性能的影响，使用消融实验证明其有效性。消融实验是深度强化学习研究中确定某种方法是否有效的最直接的方式。本文在 500 个任务组成的训练集中对所提出的 6 部分奖励函数进行消融实验，训练过程中每次剔除其中一部分奖励函数以查看对模型指标的影响。评价指标包括成功率、跟踪丢失率和碰撞率。实验结果如图 10 所 ·915· 朱少凯，等：基于深度强化学习的室内视觉局部路径规划第 5 期

第17卷智能系统学报 ·916· 示。同时使用6部分奖励函数时，模型在点导航 4结论问题上具有最好的性能。其他6个消融实验在各种指标上都略逊于6种奖励函数同时使用的效本文针对传统局部路径规划算法不适用于基果，证明了这6种奖励函数在点导航任务上具有于视觉$LAM导航的问题，使用深度强化学习算快速到达局部目标点，并降低碰撞率和跟踪丢失法训练局部路径规划策略，根据输入输出数据特率的能力。另外，在删除角度奖励部分后，模型点进行Actor网络和Critic网络的设计，根据一般的性能有较大程度的下降，说明在本文的点导航导航需求和视觉SLAM工作特点设计奖励函数，任务中，角度奖励相比另外5种奖励更能提升模在Habitat仿真平台中使用点导航数据集进行训型的性能。练，最终得到训练好的策略。在与传统导航策略 0.5 的对比中，训练好的策略在防止视觉SLAM失败避障导航方面都表现出良好的性能，最终在3种 0.4 不同难度场景中的导航成功率，均有巨大提升。下一步计划，考虑将视觉SLAM建立的二维地图 0.3 纳入强化学习的观测空间，使局部导航策略的决策具有记忆性；对特征点分布进行分析，不仅考本文算法虑特征点的数量，还要考虑将特征点分布对SLAM 稳定性的影响。参考文献： 100 200 300 400 500 任务数量 [1]PANDEY A.Mobile robot navigation and obstacle avoid- (a)成功率 1.0 ance techniques:a review[J].International robotics& 一本文算法 wo rspt automation journal,2017,2(3):96-105. w/o angle [2] YASUDA Y D V.MARTINS L E G.CAPPABIANCO F A M.Autonomous visual navigation for mobile robots:a 06 systematic literature review[J].ACM computing surveys, 2021,53(1):13 [3] FANG Baofu.MEI Gaofei,YUAN Xiaohui,et al.Visual SLAM for robot navigation in healthcare facility[J].Pat- 02 tern recognition,2021,113:107822. [4] YANG Shaowu,SCHERER S A,YI Xiaodong,et al. 100 200 300 400 500 Multi-camera visual SLAM for autonomous navigation of 任务数量 (b)碰撞率 micro aerial vehicles[J].Robotics and autonomous sys- 1.0 tems,2017,93:116-134 本文算法 [5] 张瑜，宋荆洲，张琪祁.基于改进动态窗口法的户外清 0.8 扫机器人局部路径规划[J].机器人，2020,42(5)： -w/o slam 617-625. 0.6 ZHANG Yu,SONG Jingzhou,ZHANG Qiqi.Local path planning of outdoor cleaning robot based on an improved 0.4 DWA[JU.Robot,.2020,42(5):617-625 0.2 [6] 王殿君.基于改进A·算法的室内移动机器人路径规划[J].清华大学学报（自然科学版），2012,52(8)： 1085-1089 100 200300 400 500 任务数量 WANG Dianjun.Indoor mobile-robot path planning (©)跟踪失败率 based on an improved A*algorithm[J].Journal of 图10 消融实验结果图 tsinghua university (science and technology edition), Fig.10 Results of ablation experiments 2012,52(8):1085-1089

示。同时使用 6 部分奖励函数时，模型在点导航问题上具有最好的性能。其他 6 个消融实验在各种指标上都略逊于 6 种奖励函数同时使用的效果，证明了这 6 种奖励函数在点导航任务上具有快速到达局部目标点，并降低碰撞率和跟踪丢失率的能力。另外，在删除角度奖励部分后，模型的性能有较大程度的下降，说明在本文的点导航任务中，角度奖励相比另外 5 种奖励更能提升模型的性能。 4 结论本文针对传统局部路径规划算法不适用于基于视觉 SLAM 导航的问题，使用深度强化学习算法训练局部路径规划策略，根据输入输出数据特点进行 Actor 网络和 Critic 网络的设计，根据一般导航需求和视觉 SLAM 工作特点设计奖励函数，在 Habitat 仿真平台中使用点导航数据集进行训练，最终得到训练好的策略。在与传统导航策略的对比中，训练好的策略在防止视觉 SLAM 失败避障导航方面都表现出良好的性能，最终在 3 种不同难度场景中的导航成功率，均有巨大提升。下一步计划，考虑将视觉 SLAM 建立的二维地图纳入强化学习的观测空间，使局部导航策略的决策具有记忆性；对特征点分布进行分析，不仅考虑特征点的数量，还要考虑将特征点分布对 SLAM 稳定性的影响。参考文献： PANDEY A. Mobile robot navigation and obstacle avoidance techniques: a review[J]. International robotics & automation journal, 2017, 2(3): 96–105. [1] YASUDA Y D V, MARTINS L E G, CAPPABIANCO F A M. Autonomous visual navigation for mobile robots: a systematic literature review[J]. ACM computing surveys, 2021, 53(1): 13. [2] FANG Baofu, MEI Gaofei, YUAN Xiaohui, et al. Visual SLAM for robot navigation in healthcare facility[J]. Pattern recognition, 2021, 113: 107822. [3] YANG Shaowu, SCHERER S A, YI Xiaodong, et al. Multi-camera visual SLAM for autonomous navigation of micro aerial vehicles[J]. Robotics and autonomous systems, 2017, 93: 116–134. [4] 张瑜, 宋荆洲, 张琪祁. 基于改进动态窗口法的户外清扫机器人局部路径规划 [J]. 机器人, 2020, 42(5): 617–625. ZHANG Yu, SONG Jingzhou, ZHANG Qiqi. Local path planning of outdoor cleaning robot based on an improved DWA[J]. Robot, 2020, 42(5): 617–625. [5] 王殿君. 基于改进 A*算法的室内移动机器人路径规划 [J]. 清华大学学报(自然科学版), 2012, 52(8): 1085–1089. WANG Dianjun. Indoor mobile-robot path planning based on an improved A* algorithm[J]. Journal of tsinghua university (science and technology edition), 2012, 52(8): 1085–1089. [6] 0.5 0.4 0.3 0.2 0.1 0 100 200 300 400 500 成功率任务数量本文算法 w/o nmpt w/o dis w/o angle w/o bonus w/o obv w/o slam 本文算法 w/o nmpt w/o dis w/o angle w/o bonus w/o obv w/o slam 本文算法 w/o nmpt w/o dis w/o angle w/o bonus w/o obv w/o slam (a) 成功率 1.0 0.8 0.6 0.4 0.2 0 100 200 300 400 500 碰撞率任务数量 1.0 0.8 0.6 0.4 0.2 0 100 200 300 400 500 跟踪失败率任务数量 (b) 碰撞率 (c) 跟踪失败率图 10 消融实验结果图 Fig. 10 Results of ablation experiments 第 17 卷智能系统学报 ·916·

·917· 朱少凯，等：基于深度强化学习的室内视觉局部路径规划第5期 [7]张飞，白伟，乔耀华，等.基于改进D*算法的无人机室 dis Ababa,2020 内路径规划).智能系统学报，2019,14(4：662-669. [17]SCHULMAN J,WOLSKI F.DHARIWAL P,et al.Prox- ZHANG Fei,BAI Wei,QIAO Yaohua,et al.UAV in- imal policy optimization algorithms[EB/OL].(2017- door path planning based on improved D*algorithm[J]. 08-28)[2020-12-12].https://arxiv.org/abs/1707.06347. CAAI transactions on intelligent systems,2019,14(4): [18]SAVVA M,KADIAN A,MAKSYMETS O,et al.Habit- 662-669. at:a platform for embodied Al research[C]//2019 [8]FOX D.BURGARD W.THRUN S.The dynamic win- IEEE/CVF International Conference on Computer Vision dow approach to collision avoidance[J].IEEE robotics& (ICCV).Seoul,IEEE,2019:9338-9346. automation magazine,1997,4(1):23-33 [19]林志林，张国良，王蜂，等.一种基于VSLAM的室内导 [9]ROESMANN C,FEITEN W,WOESCH T,et al.Traject- 航地图制备方法.电光与控制，2018,25(1)少98-103. ory modification considering dynamic constraints of LIN Zhilin,ZHANG Guoliang,WANG Feng,et al.A autonomous robots[C]//ROBOTIK 2012;7th German method for indoor navigation mapping based on Conference on Robotics.Munich,VDE.2012:1-6. VSLAMIJ].Electronics optics control,2018,25(1): [10]Rosmann C.Time-optimal nonlinear model predictive 98-103 control[D].Dissertation,Technische Universitat Dortmund, [20]马跃龙，曹雪峰，万刚，等.一种基于深度相机的机器人 2019. 室内导航点云地图生成方法.测绘工程，2018,27(3)： [11]CHEN Chunlin,LI Hanxiong,DONG Daoyi.Hybrid con- 6-10,15. trol for robot navigation-A hierarchical Q-learning al- MA Yuelong,CAO Xuefeng,WAN Gang,et al.A meth- gorithm[J].IEEE robotics&automation magazine,2008, od of generating point cloud maps for indoor auto-naviga- 15(2):37-47. tion of robots based on depth camera[J].Engineering of [12]VAN HASSELT H,GUEZ A,SILVER D.Deep rein- surveying and mapping,2018,27(3):6-10,15. forcement learning with double q-learning[C]//Proceed- [21]张毅，陈起，罗元.室内环境下移动机器人三维视觉 ings of the AAAI Conference on Artificial Intelligence, SLAM[J].智能系统学报，2015,10(4)615-619 Arizona,USA2016:2094-2100. ZHANG Yi.CHEN Qi,LUO Yuan.Three dimensional [13]张福海，李宁，袁儒鹏，等.基于强化学习的机器人路径 visual SLAM for mobile robots in indoor environ- 规划算法[.华中科技大学学报（自然科学版），2018， ments[J].CAAI transactions on intelligent systems,2015, 46(12:65-70. 10(4):615-619. ZHANG Fuhai,LI Ning,YUAN Rupeng,et al.Robot [22]RUBLEE E,RABAUD V.KONOLIGE K,et al.ORB:an path planning algorithm based on reinforcement efficient alternative to SIFT or SURF[C]//2011 Interna- learning[J].Journal of Huazhong university of science tional Conference on Computer Vision.Barcelona,IEEE, and technology (natural science edition),2018,46(12): 2011:2564-2571. 65-70. [23]MUR-ARTAL R,TARDOS J D.ORB-SLAM2:an open- [14]GULDENRING R.GORNER M.HENDRICH N.et al. source SLAM system for monocular,stereo,and RGB-D Learning local planners for human-aware navigation in cameras[J].IEEE transactions on robotics,2017,33(5): indoor environments[C]//2020 IEEE/RSJ International 1255-1262 Conference on Intelligent Robots and Systems (IROS). [24]SCHULMAN J,LEVINE S,ABBEEL P,et al.Trust re- Las Vegas,IEEE,2021:6053-6060 gion policy optimization[C]//International Conference on [15]BALAKRISHNAN K,CHAKRAVARTY P,SHRIVA- Machine Learning(PMLR),Lille,2015:1889-1897. STAVA S.An A*curriculum approach to reinforcement [25]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. learning for RGBD indoor robot navigation[EB/OL]. Deep residual learning for image recognition[C]//2016 (2021-01-01)[2021-12-12].https:/arxiv.org/abs/ IEEE Conference on Computer Vision and Pattern Recog- 2101.01774 nition.Las Vegas,IEEE,2016:770-778. [16]CHAPLOT D S,GANDHI D,GUPTA S,et al.Learning [26]XIA Fei,ZAMIR A R,HE Zhiyang,et al.Gibson env: to explore using active neural slam[C]//2020 Internation- real-world perception for embodied agents[C]//2018 al Conference on Learning Representations(ICLR),Ad- IEEE/CVF Conference on Computer Vision and Pattern

张飞, 白伟, 乔耀华, 等. 基于改进 D*算法的无人机室内路径规划 [J]. 智能系统学报, 2019, 14(4): 662–669. ZHANG Fei, BAI Wei, QIAO Yaohua, et al. UAV indoor path planning based on improved D* algorithm[J]. CAAI transactions on intelligent systems, 2019, 14(4): 662–669. [7] FOX D, BURGARD W, THRUN S. The dynamic window approach to collision avoidance[J]. IEEE robotics & automation magazine, 1997, 4(1): 23–33. [8] ROESMANN C, FEITEN W, WOESCH T, et al. Trajectory modification considering dynamic constraints of autonomous robots[C]//ROBOTIK 2012; 7th German Conference on Robotics. Munich, VDE, 2012: 1−6. [9] Rösmann C. Time-optimal nonlinear model predictive control[D]. Dissertation, Technische Universität Dortmund, 2019. [10] CHEN Chunlin, LI Hanxiong, DONG Daoyi. Hybrid control for robot navigation-A hierarchical Q-learning algorithm[J]. IEEE robotics & automation magazine, 2008, 15(2): 37–47. [11] VAN HASSELT H, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[C] // Proceedings of the AAAI Conference on Artificial Intelligence, Arizona, USA 2016: 2094−2100. [12] 张福海, 李宁, 袁儒鹏, 等. 基于强化学习的机器人路径规划算法 [J]. 华中科技大学学报(自然科学版), 2018, 46(12): 65–70. ZHANG Fuhai, LI Ning, YUAN Rupeng, et al. Robot path planning algorithm based on reinforcement learning[J]. Journal of Huazhong university of science and technology (natural science edition), 2018, 46(12): 65–70. [13] GULDENRING R, GÖRNER M, HENDRICH N, et al. Learning local planners for human-aware navigation in indoor environments[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Las Vegas, IEEE, 2021: 6053−6060. [14] BALAKRISHNAN K, CHAKRAVARTY P, SHRIVASTAVA S. An A* curriculum approach to reinforcement learning for RGBD indoor robot navigation[EB/OL]. (2021−01−01)[2021−12−12]. https://arxiv. org/abs/ 2101.01774. [15] CHAPLOT D S, GANDHI D, GUPTA S, et al. Learning to explore using active neural slam[C]// 2020 International Conference on Learning Representations (ICLR), Ad- [16] dis Ababa, 2020. SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. (2017− 08−28)[2020−12−12]. https://arxiv.org/abs/1707.06347. [17] SAVVA M, KADIAN A, MAKSYMETS O, et al. Habitat: a platform for embodied AI research[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, IEEE, 2019: 9338−9346. [18] 林志林, 张国良, 王蜂, 等. 一种基于 VSLAM 的室内导航地图制备方法 [J]. 电光与控制, 2018, 25(1): 98–103. LIN Zhilin, ZHANG Guoliang, WANG Feng, et al. A method for indoor navigation mapping based on VSLAM[J]. Electronics optics & control, 2018, 25(1): 98–103. [19] 马跃龙, 曹雪峰, 万刚, 等. 一种基于深度相机的机器人室内导航点云地图生成方法 [J]. 测绘工程, 2018, 27(3): 6–10,15. MA Yuelong, CAO Xuefeng, WAN Gang, et al. A method of generating point cloud maps for indoor auto-navigation of robots based on depth camera[J]. Engineering of surveying and mapping, 2018, 27(3): 6–10,15. [20] 张毅, 陈起, 罗元. 室内环境下移动机器人三维视觉 SLAM[J]. 智能系统学报, 2015, 10(4): 615–619. ZHANG Yi, CHEN Qi, LUO Yuan. Three dimensional visual SLAM for mobile robots in indoor environments[J]. CAAI transactions on intelligent systems, 2015, 10(4): 615–619. [21] RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//2011 International Conference on Computer Vision. Barcelona, IEEE, 2011: 2564−2571. [22] MUR-ARTAL R, TARDÓS J D. ORB-SLAM2: an opensource SLAM system for monocular, stereo, and RGB-D cameras[J]. IEEE transactions on robotics, 2017, 33(5): 1255–1262. [23] SCHULMAN J, LEVINE S, ABBEEL P, et al. Trust region policy optimization[C]//International Conference on Machine Learning(PMLR), Lille, 2015: 1889−1897. [24] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, IEEE, 2016: 770−778. [25] XIA Fei, ZAMIR A R, HE Zhiyang, et al. Gibson env: real-world perception for embodied agents[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern [26] ·917· 朱少凯，等：基于深度强化学习的室内视觉局部路径规划第 5 期

点击进入文档下载页（PDF格式）

共11页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录