正在加载图片...
·909· 朱少凯,等:基于深度强化学习的室内视觉局部路径规划 第5期 机器人实现自主视觉导航的关键技术之一,分为 法依赖于真实先验位姿。在实际的视觉导航任务 全局路径规划算法和局部路径规划算法。常用 中,机器人需要依靠视觉传感器来获取位姿和环 的全局路径规划算法有A◆算法和D*算法可 境地图。因此,如何合理地设计局部路径规划机 等。局部路径规划算法根据全局路径和部分环境 制,使局部路径规划能够和视觉SLAM方法更好 信息,输出机器人运动控制指令,使机器人大致 地配合,最大限度地避免碰撞和位姿跟踪丢失、 沿着全局路径的轨迹移动。动态窗口法(dynamic 提升导航成功率是这类方法的关键,也是至今仍 window algorithm,DWA)作为一种广泛使用的局 未被探索的问题。 部路径规划算法,具有良好的避障能力,且计算 针对以上问题,本文在视觉SLAM和全局路 量小、实时性高,是机器人操作系统(robot operat-. 径规划算法的基础上,提出一种基于深度强化学 ing system,ROS)的默认局部路径规划算法。 习的室内视觉局部路径规划策略。该策略在强化 但是,当环境变得复杂时,DWA算法容易陷入局 学习PPO(proximal policy optimization)算法的基 部极小值点,同时无法保证规划出的路径是最优 础上,充分考虑了机器人避障、防止视觉SLAM 的。时间弹性带(timed elastic band.TEB)算法是 跟踪丢失以及机器人行走效率等多方面因素,设 另一种广泛使用的局部路径规划算法,采用图优 计奖励函数和网络结构,在大量的场景下学习最 化的方法迭代求解局部路径规划问题,有较高的 佳状态-动作映射网络,提高移动机器人导航成 操作性9。模型预测控制(model predictive control, 功率。既避免了部分传统路径规划算法调参复杂 MPC)能根据机器人当前的运动状态预测其未来 的问题,又具有很好的泛化性,且与视觉SLAM 几个时间步的轨迹,通过二次规划方法来优化, 模块契合。最终,在三维物理仿真平台Habitat例 求出一个最优局部路径规划解o。但是,TEB和 中利用机器人对该局部路径规划策略进行相关仿 MPC算法有非常多的参数需要设置,所以在复杂 真分析,证实了所提出策略的有效性。 的环境应用时需要配备较高性能的计算机和花大 本文的创新点主要包括:1)提出了一种基于 量时间手工调参。综上所述,传统的局部路径规 深度强化学习的移动机器人室内视觉局部路径规 划方法存在参数调整耗时,缺乏对新环境的泛化 划算法,合理地设计了环境交互机制与观测的状 能力等问题。此外,当与视觉SLAM协同工作时, 态空间:2)研究了多样的奖励函数,加快了算法 传统局部路径规划算法仅仅考虑机器人运动代价 的收敛速度,提高了模型的性能,最大限度地避 等因素,没有考虑机器人在视觉SLAM过程中易 免了碰撞和位姿跟踪的丢失、可尽快到达局部目 在低纹理区域跟踪丢失的问题,以上原因导致传 标点。3)将局部路径规划模型融入总体导航框 统局部路径规划算法应用于基于视觉SLAM的 架,与视觉SLAM模块、全局路径规划、仿真平台 导航时表现较差。 相互配合,有助于长距离室内复杂场景下的点导航。 深度强化学习自提出以来逐渐得到国内外学 1问题描述 者的广泛关注,其相关理论和应用研究都得到了 不同程度的发展。由于其“交互式学习”和“试 机器人在室内导航的过程中,在低纹理区域 错学习”的特点,适用于很多问题的决策,已成为 易发生视觉SLAM跟踪失败现象。因此,考虑机 机器人控制领域的研究热点,其中也包括局部路 器人快速接近局部目标点的同时,还要兼顾低纹 径规划任务。张福海等]以激光雷达作为环境 理区域、障碍物等诸多不利因素对于视觉导航任 感知器,并构造了基于Q-learning的强化学习模 务造成的影响。本文设计的局部目标点导航策 型,将其应用在了局部路径规划任务中,提高了 略,可以实现规避障碍物、保证跟踪稳定性以避 移动机器人对未知环境的适应性。Guldenring等W 免视觉SLAM失败、成功到达局部目标点的目的。 利用激光雷达来获取动态环境信息,并根据环境 局部路径规划策略是与视觉SLAM模块、全 数据基于PPO的强化学习算法进行局部路径规 局路径规划、仿真平台相互配合的,它们的关系 划。Balakrishnan等l在A*全局路径规划算法基 如图l所示。首先,选用Habitat仿真平台,机器 础上,利用深度强化学习训练了一种局部路径规 人在该平台中能以实体的形式存在。该平台能实 划策略,以到达局部目标点。然而,该方法依赖 时地提供机器人在当前位置所采集到的彩色图、 于真实先验地图。Chaplot等u同样训练了一种 深度图,并实时检测机器人是否发生碰撞等。对 基于深度强化学习的局部路径规划策略,并与全 于每一个导航任务,仿真平台会给定机器人的初 局策略相结合,以完成视觉探索任务。但是该方 始位置和机器人距离全局目标点的相对位置。其机器人实现自主视觉导航的关键技术之一,分为 全局路径规划算法和局部路径规划算法[5]。常用 的全局路径规划算法有 A*算法[ 6 ] 和 D*算法[ 7 ] 等。局部路径规划算法根据全局路径和部分环境 信息,输出机器人运动控制指令,使机器人大致 沿着全局路径的轨迹移动。动态窗口法 (dynamic window algorithm, DWA) 作为一种广泛使用的局 部路径规划算法,具有良好的避障能力,且计算 量小、实时性高,是机器人操作系统 (robot operat￾ing system, ROS) 的默认局部路径规划算法[8]。 但是,当环境变得复杂时,DWA 算法容易陷入局 部极小值点,同时无法保证规划出的路径是最优 的。时间弹性带 (timed elastic band, TEB) 算法是 另一种广泛使用的局部路径规划算法,采用图优 化的方法迭代求解局部路径规划问题,有较高的 操作性[9]。模型预测控制 (model predictive control, MPC) 能根据机器人当前的运动状态预测其未来 几个时间步的轨迹,通过二次规划方法来优化, 求出一个最优局部路径规划解[10]。但是,TEB 和 MPC 算法有非常多的参数需要设置,所以在复杂 的环境应用时需要配备较高性能的计算机和花大 量时间手工调参。综上所述,传统的局部路径规 划方法存在参数调整耗时,缺乏对新环境的泛化 能力等问题。此外,当与视觉 SLAM 协同工作时, 传统局部路径规划算法仅仅考虑机器人运动代价 等因素,没有考虑机器人在视觉 SLAM 过程中易 在低纹理区域跟踪丢失的问题,以上原因导致传 统局部路径规划算法应用于基于视觉 SLAM 的 导航时表现较差。 深度强化学习自提出以来逐渐得到国内外学 者的广泛关注,其相关理论和应用研究都得到了 不同程度的发展[11-12]。由于其“交互式学习”和“试 错学习”的特点,适用于很多问题的决策,已成为 机器人控制领域的研究热点,其中也包括局部路 径规划任务。张福海等[13] 以激光雷达作为环境 感知器,并构造了基于 Q-learning 的强化学习模 型,将其应用在了局部路径规划任务中,提高了 移动机器人对未知环境的适应性。Guldenring 等 [14] 利用激光雷达来获取动态环境信息,并根据环境 数据基于 PPO 的强化学习算法进行局部路径规 划。Balakrishnan 等 [15] 在 A*全局路径规划算法基 础上,利用深度强化学习训练了一种局部路径规 划策略,以到达局部目标点。然而,该方法依赖 于真实先验地图。Chaplot 等 [16] 同样训练了一种 基于深度强化学习的局部路径规划策略,并与全 局策略相结合,以完成视觉探索任务。但是该方 法依赖于真实先验位姿。在实际的视觉导航任务 中,机器人需要依靠视觉传感器来获取位姿和环 境地图。因此,如何合理地设计局部路径规划机 制,使局部路径规划能够和视觉 SLAM 方法更好 地配合,最大限度地避免碰撞和位姿跟踪丢失、 提升导航成功率是这类方法的关键,也是至今仍 未被探索的问题。 针对以上问题,本文在视觉 SLAM 和全局路 径规划算法的基础上,提出一种基于深度强化学 习的室内视觉局部路径规划策略。该策略在强化 学习 PPO[17] (proximal policy optimization) 算法的基 础上,充分考虑了机器人避障、防止视觉 SLAM 跟踪丢失以及机器人行走效率等多方面因素,设 计奖励函数和网络结构,在大量的场景下学习最 佳状态–动作映射网络,提高移动机器人导航成 功率。既避免了部分传统路径规划算法调参复杂 的问题,又具有很好的泛化性,且与视觉 SLAM 模块契合。最终,在三维物理仿真平台 Habitat[18] 中利用机器人对该局部路径规划策略进行相关仿 真分析,证实了所提出策略的有效性。 本文的创新点主要包括:1)提出了一种基于 深度强化学习的移动机器人室内视觉局部路径规 划算法,合理地设计了环境交互机制与观测的状 态空间; 2)研究了多样的奖励函数,加快了算法 的收敛速度,提高了模型的性能,最大限度地避 免了碰撞和位姿跟踪的丢失、可尽快到达局部目 标点。3)将局部路径规划模型融入总体导航框 架,与视觉 SLAM 模块、全局路径规划、仿真平台 相互配合,有助于长距离室内复杂场景下的点导航。 1 问题描述 机器人在室内导航的过程中,在低纹理区域 易发生视觉 SLAM 跟踪失败现象。因此,考虑机 器人快速接近局部目标点的同时,还要兼顾低纹 理区域、障碍物等诸多不利因素对于视觉导航任 务造成的影响。本文设计的局部目标点导航策 略,可以实现规避障碍物、保证跟踪稳定性以避 免视觉 SLAM 失败、成功到达局部目标点的目的。 局部路径规划策略是与视觉 SLAM 模块、全 局路径规划、仿真平台相互配合的,它们的关系 如图 1 所示。首先,选用 Habitat 仿真平台,机器 人在该平台中能以实体的形式存在。该平台能实 时地提供机器人在当前位置所采集到的彩色图、 深度图,并实时检测机器人是否发生碰撞等。对 于每一个导航任务,仿真平台会给定机器人的初 始位置和机器人距离全局目标点的相对位置。其 ·909· 朱少凯,等:基于深度强化学习的室内视觉局部路径规划 第 5 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有