第17卷第4期 智能系统学报 Vol.17 No.4 2022年7月 CAAI Transactions on Intelligent Systems Jul.2022 D0:10.11992/tis.202106044 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20220505.1636.004.html 动态环境下分布式异构多机器人避障方法研究 欧阳勇平,魏长赞,蔡帛良2 (1.河海大学机电工程学院,江苏常州213022:2.英国卡迪夫大学工学院,威尔士卡迪夫CF103A) 摘要:多机器人系统在联合搜救、智慧车间、智能交通等领域得到了日益广泛的应用。目前,多个机器人之 间、机器人与动态环境之间的路径规划和导航避障仍需依赖精确的环境地图,给多机器人系统在非结构环境下 的协调与协作带来了挑战。针对上述问题,本文提出了不依赖精确地图的分布式异构多机器人导航避障方法, 建立了基于深度强化学习的多特征策略梯度优化算法,并考虑了人机协同环境下的社会范式,使分布式机器人 能够通过与环境的试错交互,学习最优的导航避障策略:并在Gazebo仿真环境下进行了最优策略的训练学习, 同时将模型移植到多个异构实体机器人上,将机器人控制信号解码,进行真实环境测试。实验结果表明:本文 提出的多特征策略梯度优化算法能够通过自学习获得最优的导航避障策略,为分布式异构多机器人在动态环 境下的应用提供了一种技术参考。 关键词:异构多机器人;深度强化学习:非结构环境;多特征策略梯度:动态避障:自学习;分布式控制:控制策略 中图分类号:TP273+.2文献标志码:A文章编号:1673-4785(2022)04-0752-12 中文引用格式:欧阳勇平,魏长蒉,蔡帛良.动态环境下分布式异构多机器人避障方法研究川智能系统学报,2022,17(4): 752-763. 英文引用格式:OUYANG Yongping,WEI Changyun,CAI Boliang.Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments[J.CAAI transactions on intelligent systems,2022,17(4):752-763. Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments OUYANG Yongping',WEI Changyun',CAI Boliang'2 (1.College of Mechanical and Electrical Engineering,Hohai University,Changzhou 213022,China;2.School of Engineering. Cardiff University,CardiffCF103AT,UK) Abstract:Multirobot systems have been widely used in cooperative search and rescue missions,intelligent warehouses. intelligent transportation,and other fields.At present,the path planning and collision avoidance problems between mul- tiple robots and the dynamic environment still rely on accurate maps,which brings challenges to the coordination and cooperation of multirobot systems in unstructured environments.To address the above problem,this paper presents a navigation and collision avoidance approach that does not require accurate maps and is based on the deep reinforcement learning framework.A multifeatured policy gradients algorithm is proposed in this work,and social norms are also in- tegrated so that the learning agent can obtain the optimal control policy via trial-and-error interactions with the environ- ment.The optimal policy is trained and obtained in the Gazebo environment,and afterward,the optimal policy is trans- ferred to several heterogeneous real robots by decoding the control signals.The experimental results show that the multi- feature policy gradients algorithm proposed can obtain the optimal navigation collision avoidance policy through self- learning,and it provides a technical reference for the application of distributed heterogeneous multirobot systems in dy- namic environments. Keywords:heterogeneous multi-robot systems;deep reinforcement learning,non-structural environment;multi-feature policy gradients;dynamic collision avoidance;self-learning;distributed control;control policy 收稿日期:2021-06-25.网络出版日期:2022-05-06 基金项目:国家自然科学基金项目(61703138):中央高校基本 科研业务费项目(B200202224). 随着多机器人系统(multi-robot system,MRS) 通信作者:魏长赞.E-mail:c.wei@hhu.edu.cn. 的广泛应用,其路径规划和导航避障领域一直是
DOI: 10.11992/tis.202106044 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20220505.1636.004.html 动态环境下分布式异构多机器人避障方法研究 欧阳勇平1 ,魏长赟1 ,蔡帛良1,2 (1. 河海大学 机电工程学院,江苏 常州 213022; 2. 英国卡迪夫大学 工学院,威尔士 卡迪夫 CF10 3A) 摘 要:多机器人系统在联合搜救、智慧车间、智能交通等领域得到了日益广泛的应用。目前,多个机器人之 间、机器人与动态环境之间的路径规划和导航避障仍需依赖精确的环境地图,给多机器人系统在非结构环境下 的协调与协作带来了挑战。针对上述问题,本文提出了不依赖精确地图的分布式异构多机器人导航避障方法, 建立了基于深度强化学习的多特征策略梯度优化算法,并考虑了人机协同环境下的社会范式,使分布式机器人 能够通过与环境的试错交互,学习最优的导航避障策略;并在 Gazebo 仿真环境下进行了最优策略的训练学习, 同时将模型移植到多个异构实体机器人上,将机器人控制信号解码,进行真实环境测试。实验结果表明:本文 提出的多特征策略梯度优化算法能够通过自学习获得最优的导航避障策略,为分布式异构多机器人在动态环 境下的应用提供了一种技术参考。 关键词:异构多机器人;深度强化学习;非结构环境;多特征策略梯度;动态避障;自学习;分布式控制;控制策略 中图分类号:TP273+.2 文献标志码:A 文章编号:1673−4785(2022)04−0752−12 中文引用格式:欧阳勇平, 魏长赟, 蔡帛良. 动态环境下分布式异构多机器人避障方法研究 [J]. 智能系统学报, 2022, 17(4): 752–763. 英文引用格式:OUYANG Yongping, WEI Changyun, CAI Boliang. Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments[J]. CAAI transactions on intelligent systems, 2022, 17(4): 752–763. Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments OUYANG Yongping1 ,WEI Changyun1 ,CAI Boliang1,2 (1. College of Mechanical and Electrical Engineering, Hohai University, Changzhou 213022, China; 2. School of Engineering, Cardiff University, Cardiff CF10 3AT, UK) Abstract: Multirobot systems have been widely used in cooperative search and rescue missions, intelligent warehouses, intelligent transportation, and other fields. At present, the path planning and collision avoidance problems between multiple robots and the dynamic environment still rely on accurate maps, which brings challenges to the coordination and cooperation of multirobot systems in unstructured environments. To address the above problem, this paper presents a navigation and collision avoidance approach that does not require accurate maps and is based on the deep reinforcement learning framework. A multifeatured policy gradients algorithm is proposed in this work, and social norms are also integrated so that the learning agent can obtain the optimal control policy via trial-and-error interactions with the environment. The optimal policy is trained and obtained in the Gazebo environment, and afterward, the optimal policy is transferred to several heterogeneous real robots by decoding the control signals. The experimental results show that the multifeature policy gradients algorithm proposed can obtain the optimal navigation collision avoidance policy through selflearning, and it provides a technical reference for the application of distributed heterogeneous multirobot systems in dynamic environments. Keywords: heterogeneous multi-robot systems; deep reinforcement learning; non-structural environment; multi-feature policy gradients; dynamic collision avoidance; self-learning; distributed control; control policy 随着多机器人系统 (multi-robot system,MRS) 的广泛应用,其路径规划和导航避障领域一直是 收稿日期:2021−06−25. 网络出版日期:2022−05−06. 基金项目:国家自然科学基金项目(61703138);中央高校基本 科研业务费项目(B200202224). 通信作者:魏长赟. E-mail:c.wei@hhu.edu.cn. 第 17 卷第 4 期 智 能 系 统 学 报 Vol.17 No.4 2022 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2022
第4期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·753· 学者们关注的热点话题。传统的机器人避障算法 主要有粒子群寻优算法山、基于障碍物的几何构 型得到避障策略)、Khatib)提出了最优避碰策略 (optimal reciprocal collision avoidance,ORCA) 衍生的其他避障算法等,但这些导航模型在环境 复杂的情况下调整效果不佳,不适用于动态环 激光传感器 机器人 境。近年来,在基于强化学习的多机器人导航避 目标位置 障算法中,相关学者们提出了构建状态空间到动 目前航向 障碍物 ◆目标方位 作空间的映射的控制逻辑,也即策略映射8),其 ◆激光序列信息 中Zhang等I提出了一种以深度确定性策略梯度 (deep deterministic policy gradient,.DDPG)为基a础的 图1机器人导航避障模型 机器人控制模型,最终构建了基于激光雷达和位 Fig.1 Robot navigation and collision avoidance model 置信息的策略映射,但算法的收敛速度慢,训练 在图中机器人所获得的状态信息为目标点相 效率较低。Chents1则提出了一种异步DDPG算 对自身的极坐标位置(P,(图中黄色箭头),激光 法(asynchronous DDPG,ADDPG),使用多个机器 传感器所捕获的周围环境信息s=,2,…,l12s](红 色线)且每条激光编号从0开始沿图中绿色箭头 人在同一个实验环境中进行实验,提高了经验的 方向递增。 搜集效率,缩短了算法的训练时间,但没有考虑 其中,极坐标位置信息(p,)的计算公式为 移动机器人的导航避障规则。因此设计一种受客 观条件限制较低,且可以实现人机协同的机器人 p=Vx-xw)2+0-yw)月 避障算法对于提高异构多机器人的工作效率和安 0=sign(y,×vw)arccos V:'Vw 全性具有重要意义。 (ivalv. 式中:(x,y)和(xw,y)分别是机器人和目标点在全 故本文在此提出了基于深度强化学习的多特 局坐标系下的坐标,y,和v分别是机器人的速度矢 征策略梯度优化算法,并引入人机协同环境下的 量和从机器人指向目标点的矢量。 社会范式以及提出经验优先采样机制,不仅使多 最终上述两部分信息经过归一化处理后连同 机器人移动按照一定规则避障,而且提高了算法 上一时刻的机器人动作信息a,-被组成一个状态 的训练速度以及控制精度,同时搭建了分布式多 信息5,并传递给强化学习算法进行计算,其中归 机器人的控制模型,在Gazebo仿真环境下进行算 一化公式为 法的训练学习,最后在现实环境下的多异构机器 p=pl店 人平台上验证了导航避障方法的可行性。 0=8/π lili/lmax 1问题描述 式中:是环境中的最大对角线长度,最大感知距 离lm=3m。基于上述提出的不依赖精确地图导 多机器人路径规划是在工作环境中为各个机 航的异构多机器人导航避障模型,本文将在后续 器人都找到一条从起始点到目标点的最优无碰撞 仿真与真实实验中进一步介绍。 路径。其中,单个机器人前往目标点不仅需要考 虑与环境内的障碍物避免碰撞,还需避免在移动 2深度强化学习控制模型 时与其他机器人发生碰撞。因此,如何为环境内 2.1马尔可夫决策过程 的各个机器人在寻找路径时不发生碰撞是存在的 为各个机器人寻找一条最优无碰撞路径问题 难题。 可以简化为马尔可夫决策过程。马尔可夫决策过 本文以深度强化学习模型为基础,为解决异 程(Markov decision process,MDP)作为强化学习 构多机器人在动态环境下导航避障问题,搭建了 理论的基础,具有重要的理论价值。MDP的数学 不依赖精确地图机器人导航避障模型,机器人仅 要素可以表述为五元组,即(S,A,P,R,y),其中: 装有激光雷达传感器,只需对原始的测量信号进 S表示状态空间,表示MDP所在环境下所有 行获取和处理,即可实现异构多机器人的导航避 可能状态的集合; 障。具体模型如图1所示。 A表示动作空间,表示对应状态下所有可采取
学者们关注的热点话题。传统的机器人避障算法 主要有粒子群寻优算法[1] 、基于障碍物的几何构 型得到避障策略[2] 、Khatib[3] 提出了最优避碰策略 (optimal reciprocal collision avoidance, ORCA) 及其 衍生的其他避障算法等,但这些导航模型在环境 复杂的情况下调整效果不佳,不适用于动态环 境。近年来,在基于强化学习的多机器人导航避 障算法中,相关学者们提出了构建状态空间到动 作空间的映射的控制逻辑,也即策略映射[4-8] ,其 中 Zhang 等 [4] 提出了一种以深度确定性策略梯度 (deep deterministic policy gradient, DDPG) 为基础的 机器人控制模型,最终构建了基于激光雷达和位 置信息的策略映射,但算法的收敛速度慢,训练 效率较低。Chen[5] 则提出了一种异步 DDPG 算 法 (asynchronous DDPG, ADDPG),使用多个机器 人在同一个实验环境中进行实验,提高了经验的 搜集效率,缩短了算法的训练时间,但没有考虑 移动机器人的导航避障规则。因此设计一种受客 观条件限制较低,且可以实现人机协同的机器人 避障算法对于提高异构多机器人的工作效率和安 全性具有重要意义。 故本文在此提出了基于深度强化学习的多特 征策略梯度优化算法,并引入人机协同环境下的 社会范式以及提出经验优先采样机制,不仅使多 机器人移动按照一定规则避障,而且提高了算法 的训练速度以及控制精度,同时搭建了分布式多 机器人的控制模型,在 Gazebo 仿真环境下进行算 法的训练学习,最后在现实环境下的多异构机器 人平台上验证了导航避障方法的可行性。 1 问题描述 多机器人路径规划是在工作环境中为各个机 器人都找到一条从起始点到目标点的最优无碰撞 路径。其中,单个机器人前往目标点不仅需要考 虑与环境内的障碍物避免碰撞,还需避免在移动 时与其他机器人发生碰撞。因此,如何为环境内 的各个机器人在寻找路径时不发生碰撞是存在的 难题。 本文以深度强化学习模型为基础,为解决异 构多机器人在动态环境下导航避障问题,搭建了 不依赖精确地图机器人导航避障模型,机器人仅 装有激光雷达传感器,只需对原始的测量信号进 行获取和处理,即可实现异构多机器人的导航避 障。具体模型如图 1 所示。 激光传感器 机器人 目标位置 目前航向 目标方位 激光序列信息 障碍物 负 正 图 1 机器人导航避障模型 Fig. 1 Robot navigation and collision avoidance model (ρ, θ) ς = [l1,l2,··· ,l128] 在图中机器人所获得的状态信息为目标点相 对自身的极坐标位置 (图中黄色箭头),激光 传感器所捕获的周围环境信息 (红 色线)且每条激光编号从 0 开始沿图中绿色箭头 方向递增。 其中,极坐标位置信息 (ρ, θ) 的计算公式为 ρ = √ (xt − xw) 2 +(yt −yw) 2 θ = sign(vt ×vw) arccos( vt · vw |vt | |vw| ) (xt , yt) (xw, yw) vt vw 式中: 和 分别是机器人和目标点在全 局坐标系下的坐标, 和 分别是机器人的速度矢 量和从机器人指向目标点的矢量。 at−1 st 最终上述两部分信息经过归一化处理后连同 上一时刻的机器人动作信息 被组成一个状态 信息 ,并传递给强化学习算法进行计算,其中归 一化公式为 ρ¯ = ρ/ξ θ¯ = θ/π li = li/lmax ξ lmax = 3 m 式中: 是环境中的最大对角线长度,最大感知距 离 。基于上述提出的不依赖精确地图导 航的异构多机器人导航避障模型,本文将在后续 仿真与真实实验中进一步介绍。 2 深度强化学习控制模型 2.1 马尔可夫决策过程 (S,A,P,R, γ) 为各个机器人寻找一条最优无碰撞路径问题 可以简化为马尔可夫决策过程。马尔可夫决策过 程 (Markov decision process,MDP) 作为强化学习 理论的基础,具有重要的理论价值。MDP 的数学 要素可以表述为五元组,即 ,其中: S 表示状态空间,表示 MDP 所在环境下所有 可能状态的集合; A 表示动作空间,表示对应状态下所有可采取 第 4 期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·753·
·754· 智能系统学报 第17卷 的动作的集合: agent DDPG(MADDPG)☒ P表示状态的条件转移概率,表示代理在t时 其中,DQN引入了两个重要策略实现了强化 刻s,状态下采取动作a后,在t+1时刻的状态s41的 学习算法与深度神经网络的融合。第一个策略是 状态为s的概率,其公式表述为 目标网络的阶段性更新策略,保证了训练Q网络 P(s'ls,a)=P(st=s'ls:=s,a=a) 的Q值稳定性。另一个策略是经验回放机制,这 R为MDP的评价函数,是算法在s状态下执行 个机制使得算法可以多次重复利用代理获得的经 动作a后变换为s的过程对算法目标结果好坏的 验,通过重复性采样,提高了经验的利用率,并有 量化评价标准,其定义为 效降低了样本数据间的及关联参数,具体训练流 R(s,a,)=E[R4is,=S,a,=a,S41=](I) 程如图3所示。 y是折扣因子,表示MDP中每一个决策环节 对相对于决策过程中未来的决策环节的重要性, 代理 环境 y≤1恒成立,表示算法更看重当前奖励而不是未 Sp an Sui 来的奖励。 MDP的实际流程可以表示为图2,环境中受 算法控制的代理对象在状态so∈S的条件下初始 O(s a) 经验池 化,并由算法根据状态so选择建议动作ao∈S并由 Q网络 数 代理对象完成该动作,环境根据所执行的动作, 更 根据条件转移概率P(slso,ao)转移至下一状态s1, () 目标 Q网络 同时,环境给出对应奖励ro(so,ao,s)。此后算法根 DQN 据状态5选择新的建议动作,并重复执行上述步 图3DQN算法训练流程 骤直至达到终止条件。 Fig.3 DQN algorithm training process DQN是应用于离散动作空间的算法,这导致 无法应对控制精度高、动作空间复杂的问题。而 DDPG作为解决连续控制型问题的算法适合本文 图2马尔可夫决策过程 所遇到的难题,其算法流程如图4所示。 Fig.2 Markov decision process 代理 环境 2.2深度强化学习 Sn an r,Sw 深度强化学习(deep reinforcement learning) 算法模型是以一种通用的形式将深度学习的感知 + 策略网络π口 Q网络 经 能力与强化学习的决策能力相结合,并能够通过 k步更新】 步更新 端对端的学习方式实现从原始输入到输出的直接 目标策略网络 新 目标Q网络 控制,在模拟环境中,从个人收集的所有数据都 用于在中央服务器中进行训练",例如深度Q学 习网络(deep Q-learning,DQN)2解决了使用强化 图4DDPG算法训练流程 Fig.4 DDPG algorithm training process 学习算法求解Atari游戏最优决策问题,此后,又 有诸如深度确定策略网络梯度(deep deterministic 3多特征策略梯度优化算法 policy gradient,.DDPG)l),信赖邻域策略梯度优化 (trust region policy optimization,TRPO)l,近似策 在现有的深度确定性策略梯度算法的基础上 略梯度优化(proximal policy optimization,PPO)l 通过对机器人导航任务的任务奖励进行拆分,并 等算法都取得了较好的成果,实验证明,深度强 构建了各自的Q值网络用于优化策略网络,并在 化学习可以处理解决复杂的高纬度状态动作映射 此基础上行构建了基于策略梯度优化算法的多特 问题,从而实现更全面感知决策,具有较强的实 征策略梯度优化算法。 用性i6-20。在一些多智能体强化学习(multi-agent 3.1策略网络优化 reinforcement learning,MARL)研究工作中,集中 针对前述算法中将机器人的导航奖励设计为 训练和分散执行方案用于训练多智能体系统,例 统一奖励值的算法中存在的奖励显著性下降的问 counterfactual multi-agent (COMA)multi- 题,本文将机器人的导航问题分为避障任务和导
的动作的集合; P t st a t+1 st+1 s ′ 表示状态的条件转移概率,表示代理在 时 刻 状态下采取动作 后,在 时刻的状态 的 状态为 的概率,其公式表述为 P(s ′ |s,a) = P(st+1 = s ′ |st = s,at = a) R s a s ′ 为 MDP 的评价函数,是算法在 状态下执行 动作 后变换为 的过程对算法目标结果好坏的 量化评价标准,其定义为 R(s,a,s ′ ) = E[Rt+1 |st = s,at = a,st+1 = s ′ ] (1) γ γ ⩽ 1 是折扣因子,表示 MDP 中每一个决策环节 对相对于决策过程中未来的决策环节的重要性, 恒成立,表示算法更看重当前奖励而不是未 来的奖励。 s0 ∈ S s0 a0 ∈ S P(s1|s0,a0) s1 r0(s0,a0,s1) s1 MDP 的实际流程可以表示为图 2,环境中受 算法控制的代理对象在状态 的条件下初始 化,并由算法根据状态 选择建议动作 并由 代理对象完成该动作,环境根据所执行的动作, 根据条件转移概率 转移至下一状态 , 同时,环境给出对应奖励 。此后算法根 据状态 选择新的建议动作,并重复执行上述步 骤直至达到终止条件。 s0 a0 s1 a1 s2 r0 r1 r2 a2 图 2 马尔可夫决策过程 Fig. 2 Markov decision process 2.2 深度强化学习 深度强化学习 (deep reinforcement learning) 算法模型是以一种通用的形式将深度学习的感知 能力与强化学习的决策能力相结合,并能够通过 端对端的学习方式实现从原始输入到输出的直接 控制,在模拟环境中,从个人收集的所有数据都 用于在中央服务器中进行训练[9-11] ,例如深度 Q 学 习网络 (deep Q-learning, DQN)[12] 解决了使用强化 学习算法求解 Atari 游戏最优决策问题,此后,又 有诸如深度确定策略网络梯度 (deep deterministic policy gradient, DDPG)[13] ,信赖邻域策略梯度优化 (trust region policy optimization, TRPO)[14] ,近似策 略梯度优化 (proximal policy optimization, PPO)[15] 等算法都取得了较好的成果,实验证明,深度强 化学习可以处理解决复杂的高纬度状态动作映射 问题,从而实现更全面感知决策,具有较强的实 用性[16-20]。在一些多智能体强化学习 (multi-agent reinforcement learning, MARL) 研究工作中,集中 训练和分散执行方案用于训练多智能体系统,例 如 counterfactual multi-agent (COMA) [21] 和 multiagent DDPG(MADDPG) [22]。 其中,DQN 引入了两个重要策略实现了强化 学习算法与深度神经网络的融合。第一个策略是 目标网络的阶段性更新策略,保证了训练 Q 网络 的 Q 值稳定性。另一个策略是经验回放机制,这 个机制使得算法可以多次重复利用代理获得的经 验,通过重复性采样,提高了经验的利用率,并有 效降低了样本数据间的及关联参数,具体训练流 程如图 3 所示。 代理 环境 at+1 st+1 at+1 Q 网络 目标 Q 网络 参 经验池 数 更 新 DQN st , at , r, st+1 Q (st , at ) Q (st+1, a) 图 3 DQN 算法训练流程 Fig. 3 DQN algorithm training process DQN 是应用于离散动作空间的算法,这导致 无法应对控制精度高、动作空间复杂的问题。而 DDPG 作为解决连续控制型问题的算法适合本文 所遇到的难题,其算法流程如图 4 所示。 代理 环境 at st st , at , r, st+1 策略网络 πθ 目标策略网络 π'θ 参 数 更 新 经 验 回 放 Q 网络 目标 Q 网络 k 步更新 k 步更新 图 4 DDPG 算法训练流程 Fig. 4 DDPG algorithm training process 3 多特征策略梯度优化算法 在现有的深度确定性策略梯度算法的基础上 通过对机器人导航任务的任务奖励进行拆分,并 构建了各自的 Q 值网络用于优化策略网络,并在 此基础上行构建了基于策略梯度优化算法的多特 征策略梯度优化算法。 3.1 策略网络优化 针对前述算法中将机器人的导航奖励设计为 统一奖励值的算法中存在的奖励显著性下降的问 题,本文将机器人的导航问题分为避障任务和导 ·754· 智 能 系 统 学 报 第 17 卷
第4期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·755· 航任务,分别对2个任务进行量化评价并构建避 2个Q网络对状态s的策略梯度: 障Q值网络和导航Q值网络,分别使用2个Q值 (e)= 网络计算2个Q值对策略网络参数的梯度,从而 1又,.logr(a.ls.)0(sa.) cEB 实现对策略网络的优化,本文将其称为多特征策 (e)= 略梯度优化算法(multi-.featured policy gradients, ∑7,og((a MFPG)。 因此在MFPG算法中策略网络π,的策略梯度 MFPG将机器人的任务奖励分为两部分,分 是7J=[VJav,VJCa],因此,最终的策略参数更新 别称为导航奖励和避障奖励,因此在本算法中, 公式为 算法在t时刻的经验则定义为 p=p+a.Φ7eJ(e) (2) e:=(smarra,ICA,s 式中Φ是策略梯度权重,表示每个策略梯度分量 式中:表示t时刻的导航任务奖励,表示t时 的重要程度,其值与任务奖励、Q网络损失值相关。 刻的避障任务奖励。由2个奖励构建的Q值网络 综上所述,本文所述多特征策略梯度算法的 分别为 流程图如图5所示,从图中可以看出,所提出的多 (ON(s,a)=Ex(G(r)Is,=s,a,=a) 特征策略梯度优化方法通过将对奖励信息进行划 OCA(s,a)=E(G(rCA)Is,=s.a,=a) 分,并分别由划分的两个奖励构建Q网络,并在 其中Q公和Q分别代表由导航任务奖励和避障 最终构建关于策略网络的优化梯度,实现了对策 任务奖励构建的Q值网络,根据式(1)计算出 略网络的优化。 MFPG 导航Q网路 Actor 网络 避障Q网络 TD_误差 最小化 导航Q目标 Actor 网络 目标网络 目标Q 避障O目标 网络 图5多特征策略梯度优化算法 Fig.5 MFPG algorithm 3.2社会范式的奖惩函数设计 件下的社会范式,因此将离散化的指标性奖励精 借鉴人类社会发展过程中产生的行动规则 确为基于实时状态的奖励可以有效提高算法的训 (例如右侧通行等),引入了社会范式奖励,其具 练速度。 体方式如图6所示:当受控机器人(红)与其他机 器人(黑)进行交互且产生图示的位置关系时候 受控机器人会受到负奖励,从而降低出现图示位 置关系的概率。然而,这种方法只是在图示状态 下对机器人赋予了一个离散的负奖励信息,而且 图6离散的社会范式奖励 由于负奖励的判断范围较广(阴影所示区域),导 Fig.6 Discrete social paradigm rewards 致负奖励信息只能用于定性分析受控机器人状 综上,本研究在前文研究的基础上,针对现有 态,而不能用于提高算法的控制精度,且由于算 导航算法中提出的离散式社会规范奖励存在的奖 法本身奖励稀疏,导致算法更无法学习在图示条 励稀疏、离散的社会负奖励信息只能定性分析机
航任务,分别对 2 个任务进行量化评价并构建避 障 Q 值网络和导航 Q 值网络,分别使用 2 个 Q 值 网络计算 2 个 Q 值对策略网络参数的梯度,从而 实现对策略网络的优化,本文将其称为多特征策 略梯度优化算法(multi-featured policy gradients, MFPG)。 t MFPG 将机器人的任务奖励分为两部分,分 别称为导航奖励和避障奖励,因此在本算法中, 算法在 时刻的经验则定义为 et = {st ,at ,r Nav t ,r CA t ,st+1} r Nav t t r CA t 式中: 表示 时刻的导航任务奖励, 表示 t 时 刻的避障任务奖励。由 2 个奖励构建的 Q 值网络 分别为 { Q Nav π (s,a) = Eπ(Gt(r Nav )|st = s,at = a) Q CA π (s,a) = Eπ(Gt(r CA)|st = s,at = a) Q Nav π Q CA 其中 和 π 分别代表由导航任务奖励和避障 任务奖励构建的 Q 值网络,根据式 (1) 计算出 2 个 Q 网络对状态 st的策略梯度: ∇φ J Nav(e) = 1 m ∑ e∈B ∇φ logπ(ae |se)Q Nav π (se ,ae) ∇φ J CA(e) = 1 m ∑ e∈B ∇φ logπ(ae |se)Q CA π (se ,ae) πφ ∇φ J = [∇φ J Nav ,∇φ J CA] 因此在 MFPG 算法中策略网络 的策略梯度 是 ,因此,最终的策略参数更新 公式为 φ = φ+α·Φ T∇φ J(e) (2) 式中 Φ 是策略梯度权重,表示每个策略梯度分量 的重要程度,其值与任务奖励、Q 网络损失值相关。 综上所述,本文所述多特征策略梯度算法的 流程图如图 5 所示,从图中可以看出,所提出的多 特征策略梯度优化方法通过将对奖励信息进行划 分,并分别由划分的两个奖励构建 Q 网络,并在 最终构建关于策略网络的优化梯度,实现了对策 略网络的优化。 导航 Q 目标 网络 避障 Q 目标 网络 导航 Q 网络 避障 Q 网络 Actor 目标网络 Actor 网络 A Q Qπ NAV Qπ CA A' S S' MFPG 目标 Q 最小化 TD_误差 图 5 多特征策略梯度优化算法 Fig. 5 MFPG algorithm 3.2 社会范式的奖惩函数设计 借鉴人类社会发展过程中产生的行动规则 (例如右侧通行等),引入了社会范式奖励,其具 体方式如图 6 所示:当受控机器人(红)与其他机 器人(黑)进行交互且产生图示的位置关系时候 受控机器人会受到负奖励,从而降低出现图示位 置关系的概率。然而,这种方法只是在图示状态 下对机器人赋予了一个离散的负奖励信息,而且 由于负奖励的判断范围较广(阴影所示区域),导 致负奖励信息只能用于定性分析受控机器人状 态,而不能用于提高算法的控制精度,且由于算 法本身奖励稀疏,导致算法更无法学习在图示条 件下的社会范式,因此将离散化的指标性奖励精 确为基于实时状态的奖励可以有效提高算法的训 练速度。 图 6 离散的社会范式奖励 Fig. 6 Discrete social paradigm rewards 综上,本研究在前文研究的基础上,针对现有 导航算法中提出的离散式社会规范奖励存在的奖 励稀疏、离散的社会负奖励信息只能定性分析机 第 4 期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·755·
·756· 智能系统学报 第17卷 器人的社会范式状态的问题提出了一种新的基于 90° 激光雷达信息的连续空间社会范式奖励计算方 120° 60° 法,其计算公式为 -4 n=[ruse(Umin).G(]9 150° 30° 上式表示naer(lnmn)G(a)的值最终在[-9.9,9.9]的 6 边界区间内,其中rser(lm)表示当前激光雷达探测 区域最小值的计算奖励,ln=la/MAx表示激光雷 180 09 00.250.500.751.0 达的最小探测值的正则化值,MAx表示激光雷达 雷达射线 (a)带有偏置奖励参数的奖励分布 的最大侦测范围,G()表示激光雷达最小值所在 方位引起的奖励偏置因子,其中表示激光雷达传 909 120° 609 感器探测到最短激光值所在位置的正则化序号 值,其具体表述及序号关系详述于图1。上述两 150° 值的计算公式为 ∫aser(lnin)=-emw -6 1G(z)=U-D×(1-) 式中:k表示避障增益,o表示避障奖励的偏移量, 80 00.250.500.751.00 在本文中两者分别为20和0.5,该奖励值随l的 雷达射线 (b)无偏置奖励参数的奖励分布 变化如图7所示。 图8奖励分布 Fig.8 Bonus distribution 3.3经验优先采样机制 在经验回放过程中,经验的选择会影响Q网 一5 络的收敛速度,进而影响策略网络的训练。而传 -6 统的均匀采样不能显著提高Q网络的训练速度, -7 因此,本文采用了基于Q网络损失值的经验优先 0 0.2 0.40.60.8 1.0 雷达射线长度 采样算法并进行改进,其核心在于根据Q值网络 图7避障奖励值变化 的损失值构建每一条经验的采样优先性,其主要 Fig.7 Changes of obstacle avoidance bonus value 流程为:对于每条经验e及其Q值网络的损失L(e), 此外,U和D分别表示偏置上限和偏置零点的 定义其采样优先度为 位置,在本文中U和D分别为3和2.5。因而,避障 Lo(e:) P(e)= 奖励函数的最终计算公式为 ∑.Le -l0,l1min≤0.1 式中ε表示采样优先度指数,当ε=0时代表算法采 = (n, Imin >0.1 用均匀采样方法。在经验采样时,算法按照概率 将上式标绘在平面直角坐标系中得到图8(a), P(e,)随机选择经验组成训练经验组。因此,在实 同时作为对比,图8(b)也标绘了G(a)=1时的奖励 际训练时,每条经验被采样的概率正比于其损 分布。 失函数L(e),因此可以显著提高Q网络的收敛 从图8(a)的奖励状态分布可知,如果距离机 速度。 器人最近的障碍物位于机器人两侧时,无偏置的 此外,由于Q值网络的更新会改变Q值网络 奖励算法将输出同样的奖励结果,这导致了两辆 的分布,从而改变经验e,的Q值期望,因此基于优 车辆在相遇时,无法准确对对方的形为进行预测 先级的经验回放算法会引入偏差,需要对优先采 并进行有效规避,从而导致发生碰撞,而带有偏 样获得的经验添加重要性修正权重以降低偏差, 置的奖励计算方法可以对机器人左右两侧的信息 其计算公式为 进行有效区分,从而保证强化学习算法在训练过 1 程中对于左侧和右侧的障碍物表现出明显的倾向 w(e)=8-Pea 性,因此可以保证车辆在相遇时会根据自身预设 式中:B表示经验样本集合的容量,s表示算法的 的策略倾向实现在无通讯信息条件下多机器人间 修正权重,因此,修正后的策略网络的参数更新 的安全导航避障。 公式为
器人的社会范式状态的问题提出了一种新的基于 激光雷达信息的连续空间社会范式奖励计算方 法,其计算公式为 rl = [rlaser(lmin)·G(z)]| 9.9 −9.9 rlaser(lmin)·G(z) [−9.9,9.9] rlaser(lmin) lmin = lmin/lMAX lMAX G(z) z 上式表示 的值最终在 的 边界区间内,其中 表示当前激光雷达探测 区域最小值的计算奖励, 表示激光雷 达的最小探测值的正则化值, 表示激光雷达 的最大侦测范围, 表示激光雷达最小值所在 方位引起的奖励偏置因子,其中 表示激光雷达传 感器探测到最短激光值所在位置的正则化序号 值,其具体表述及序号关系详述于图 1。上述两 值的计算公式为 { rlaser(lmin) = −e kl (lmin−ol ) G(z) = U − D×(1−z) kl ol lmin 式中: 表示避障增益, 表示避障奖励的偏移量, 在本文中两者分别为 20 和 0.5,该奖励值随 的 变化如图 7 所示。 −6 −7 −8 −4 −5 −3 −2 −1 0 0 0.2 0.4 0.6 0.8 1.0 奖励值 雷达射线长度 图 7 避障奖励值变化 Fig. 7 Changes of obstacle avoidance bonus value U D U D 此外, 和 分别表示偏置上限和偏置零点的 位置,在本文中 和 分别为 3 和 2.5。因而,避障 奖励函数的最终计算公式为 r CA t = −10, lmin ⩽ 0.1 r1 , lmin > 0.1 G(z) = 1 将上式标绘在平面直角坐标系中得到图 8(a), 同时作为对比,图 8(b) 也标绘了 时的奖励 分布。 从图 8(a) 的奖励状态分布可知,如果距离机 器人最近的障碍物位于机器人两侧时,无偏置的 奖励算法将输出同样的奖励结果,这导致了两辆 车辆在相遇时,无法准确对对方的形为进行预测 并进行有效规避,从而导致发生碰撞,而带有偏 置的奖励计算方法可以对机器人左右两侧的信息 进行有效区分,从而保证强化学习算法在训练过 程中对于左侧和右侧的障碍物表现出明显的倾向 性,因此可以保证车辆在相遇时会根据自身预设 的策略倾向实现在无通讯信息条件下多机器人间 的安全导航避障。 雷达射线 (a) 带有偏置奖励参数的奖励分布 180° 150° 0 0.25 0.50 0.75 1.00 120° 90° 60° 30° 0°奖励值 −6 −8 −4 −2 雷达射线 (b) 无偏置奖励参数的奖励分布 180° 150° 0 0.25 0.50 0.75 1.00 120° 90° 60° 30° 0°奖励值 −6 −8 −4 −2 图 8 奖励分布 Fig. 8 Bonus distribution 3.3 经验优先采样机制 ei Lθ(ei) 在经验回放过程中,经验的选择会影响 Q 网 络的收敛速度,进而影响策略网络的训练。而传 统的均匀采样不能显著提高 Q 网络的训练速度, 因此,本文采用了基于 Q 网络损失值的经验优先 采样算法并进行改进,其核心在于根据 Q 值网络 的损失值构建每一条经验的采样优先性,其主要 流程为:对于每条经验 及其 Q 值网络的损失 , 定义其采样优先度为 P(ei) = Lθ(ei) ε ∑ e Lθ(e) ε ε ε = 0 P(ei) ei Lθ(ei) 式中 表示采样优先度指数,当 时代表算法采 用均匀采样方法。在经验采样时,算法按照概率 随机选择经验组成训练经验组。因此,在实 际训练时,每条经验 被采样的概率正比于其损 失函数 ,因此可以显著提高 Q 网络的收敛 速度。 ei 此外,由于 Q 值网络的更新会改变 Q 值网络 的分布,从而改变经验 的 Q 值期望,因此基于优 先级的经验回放算法会引入偏差,需要对优先采 样获得的经验添加重要性修正权重以降低偏差, 其计算公式为 ω(ei) = ( 1 |B| · P(ei) )ς 式中: |B| 表示经验样本集合的容量, ς 表示算法的 修正权重,因此,修正后的策略网络的参数更新 公式为 ·756· 智 能 系 统 学 报 第 17 卷
第4期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·757· +p+au(e)Lo(e)VJ(e) 本研究使用Gazebo物理仿真环境作为机器 而在本研究中,由于Q值损失函数LS(e,),Lv(e,】 人在实际环境中的模拟环境,并使用了Turtlebot3 不为单一值,因此在本文中,需要对经验的采样 作为虚拟实验机器人,其装载有一个激光雷达扫 优先级算法进行修改,本文使用了线性加权法修 描仪,其探测距离为3.5m,激光雷达的采样率为 改了经验采样优先级,因此经验采样优先级的算 128Hz,采样范围为180°。 法更新为 4.2实验环境 nL(e,)+[zLv(e P(e)= 本文所述ROS系统基于Ubuntul8.04,使用虚 ∑.n,Le)+Le可 拟机器人为Turtlebot3 waffle,在Gazebo中构建避 当新的经验ew被加人到经验池中时,会替代 障模拟环境如图10所示,本实验中=20。图中, 当前经验池中采样优先度最小的经验,其采样优 绿色圆形区域为机器人的目标点区域,红色区域 先级会被设置为1。 则表示障碍物,实际执行时,机器人将在一个非 综上,多特征策略梯度算法的主要流程如下: 障碍物且非目标点的区域随机初始化,并在3个 1)初始化策略网络,2个Q值网络[Q,Q]; 目标点中随机选择一个作为任务目标。 2)创建目标策略网络和目标Q值网络π。, [Q",Q],其参数来自π。和[Q",Q]; 3)初始化经验池N,其最大容量为: 4)当不满足终止条件时,获取当前代理状 态S; 5)根据当前状态选择动作a,=π(s),并由代 理执行; 6)获取下一时刻状态s1与奖励心,: 7)将当前经验e,={s,a,,A,5+加入经验池; 8)如果W≥n,根据Q值网络更新方式从 W采样训练经验集合1B,更新Q值网络Q公w和 图10机器人导航实验环境 Fig.10 Robot navigation experiment environment Q,按照公式(2)更新策略网络参数; 9)如果达到策略网络更新条件,中*←中; 4.3实验结果 10)如果达到Q值网络更新条件,←a 通过训练,获得了基于MFPG算法的机器人 A*←GA; 导航模型,在训练过程中,与传统DDPG算法以 11)返回更新后策略网络π60 及加入奖励偏执的DDPG算法相比,机器人每步 动作获得的奖励值及对应Q值随训练步长的变 4单机器人实验及结果分析 化如图11所示。 3种算法在训练过程中均具有收敛特征,但 4.1基于ROS的移动机器人控制架构 本文构建了基于ROS的多机器人控制系统 相比较而言,带有偏置奖励的DDPG算法稳定性 较差,训练过程中奖励值和Q值均出现大幅度波 以供强化学习算法进行机器人路径导航训练学 动,且方差区间较高,而标准DDPG算法则表现 习,每个机器人与ROS主机的信息构图框架图如 出相对稳定的特征,并具有较为稳定的方差区 图9所示。 间,Q值和奖励在训练过程中变化稳定,表明算 ROS topic Robot 國 任务分配 法可以较好的应对多机器人避障问题,但仍存在 坐标转换 Gazebe /odometry 训练过程中训练速度较慢等问题,而在本文所述 模块 状态处理 多目标策略梯度优化算法中,从导航和避障奖励 强化学习 瑞口 中可以看出,算法在训练早期(1000步)时已经可 展國 奖励计算 laser scar 以稳定获得较高奖励且在后续训练过程中仍能 动作执行动作反馈 保持稳定,且方差较小,同时Q值网络方差较小, /cmd vel 接口 且数值变化稳定,导航方面Q值的增长速度明显 图9基于ROS的单机器人控制系统 优于标准DDPG算法,说明本文所述多目标策略 Fig.9 Single robot control system based on ROS 梯度优化算法可以较好的完成多机器人避障任
φ ← φ+αω(e)Lθ(e)∇φ J(e) [L CA θ (ei),L Nav θ 而在本研究中,由于Q值损失函数 (ei)] 不为单一值,因此在本文中,需要对经验的采样 优先级算法进行修改,本文使用了线性加权法修 改了经验采样优先级,因此经验采样优先级的算 法更新为 P(ei) = η1L CA θ (ei)+[η2L Nav θ (ei)]ε ∑ e [ η1L CA θ (ei)+η2L Nav θ (ei) ] 当新的经验enew被加入到经验池中时,会替代 当前经验池中采样优先度最小的经验,其采样优 先级会被设置为 1。 综上,多特征策略梯度算法的主要流程如下: [Q Nav π ,Q CA π 1) 初始化策略网络,2 个 Q 值网络 ] ; π ∗ ϕ [Q Nav π ∗ ,Q CA π ∗ ] πϕ [Q Nav π ,Q CA π ] 2) 创建目标策略网络和目标 Q 值网络 , ,其参数来自 和 ; 3) 初始化经验池 N ,其最大容量为n; st 4) 当不满足终止条件时,获取当前代理状 态 ; 5) 根据当前状态选择动作at = πϕ(st) ,并由代 理执行; st+1 r Nav t ,r CA 6 t ) 获取下一时刻状态 与奖励 ; et = {st ,at ,r Nav t ,r CA t 7) 将当前经验 ,st+1} 加入经验池; |N| ⩾ n |N| |B| Q Nav π Q CA π 8 ) 如 果 , 根 据 Q 值网络更新方式从 采样训练经验集合 ,更新 Q 值网络 和 ,按照公式(2)更新策略网络参数; 9) 如果达到策略网络更新条件, ϕ∗ ← ϕ ; θ Nav∗ ← θ Nav θ CA∗ ← θ CA 10) 如果达到 Q 值网络更新条件, , ; 11) 返回更新后策略网络πϕ。 4 单机器人实验及结果分析 4.1 基于 ROS 的移动机器人控制架构 本文构建了基于 ROS 的多机器人控制系统 以供强化学习算法进行机器人路径导航训练学 习,每个机器人与 ROS 主机的信息构图框架图如 图 9 所示。 Gazebo 物理 模拟 引擎 ROS topic Robot /odometry /laser_scan 激光信息 处理模块 前一时刻 目标坐标 坐标转换 模块 任务目标 处理模块 状态处理 奖励计算 强化学习 端口 任务分配 主机 动作执行 动作反馈 /cmd_vel 接口 图 9 基于 ROS 的单机器人控制系统 Fig. 9 Single robot control system based on ROS 本研究使用 Gazebo 物理仿真环境作为机器 人在实际环境中的模拟环境,并使用了 Turtlebot3 作为虚拟实验机器人,其装载有一个激光雷达扫 描仪,其探测距离为 3.5 m,激光雷达的采样率为 128 Hz,采样范围为 180°。 4.2 实验环境 ξ = 20 本文所述 ROS 系统基于 Ubuntu18.04,使用虚 拟机器人为 Turtlebot3 waffle,在 Gazebo 中构建避 障模拟环境如图 10 所示,本实验中 。图中, 绿色圆形区域为机器人的目标点区域,红色区域 则表示障碍物,实际执行时,机器人将在一个非 障碍物且非目标点的区域随机初始化,并在 3 个 目标点中随机选择一个作为任务目标。 图 10 机器人导航实验环境 Fig. 10 Robot navigation experiment environment 4.3 实验结果 通过训练,获得了基于 MFPG 算法的机器人 导航模型,在训练过程中,与传统 DDPG 算法以 及加入奖励偏执的 DDPG 算法相比,机器人每步 动作获得的奖励值及对应 Q 值随训练步长的变 化如图 11 所示。 3 种算法在训练过程中均具有收敛特征,但 相比较而言,带有偏置奖励的 DDPG 算法稳定性 较差,训练过程中奖励值和 Q 值均出现大幅度波 动,且方差区间较高,而标准 DDPG 算法则表现 出相对稳定的特征,并具有较为稳定的方差区 间,Q 值和奖励在训练过程中变化稳定,表明算 法可以较好的应对多机器人避障问题,但仍存在 训练过程中训练速度较慢等问题,而在本文所述 多目标策略梯度优化算法中,从导航和避障奖励 中可以看出,算法在训练早期(1 000 步)时已经可 以稳定获得较高奖励且在后续训练过程中仍能 保持稳定,且方差较小,同时 Q 值网络方差较小, 且数值变化稳定,导航方面 Q 值的增长速度明显 优于标准 DDPG 算法,说明本文所述多目标策略 梯度优化算法可以较好的完成多机器人避障任 第 4 期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·757·
·758· 智能系统学报 第17卷 务。经过多次测试,机器人导航避障成功率约为 根据其位置调整其航向向右前方行驶(25~29s), 95.3% 从而成功躲避了移动障碍物,31s至47s机器人 10.0 按照自身信息及位置导航至目标点。 7.5 5.0 2.5 0 11s 13s -2.5 -5.0 17s ·合G+G+G+广oG 19 -7.5 0 1000200030004000500060007000 23s 训练步数 25s (a)训练过程中的奖励值 29s 200 35s 150 (a)单机器人动态障碍物避障测试1 100 0 -50 01000200030004000500060007000 训练步数 (b)训练过程中的Q值 图11模型训练 Fig.11 Model training 4.4现实环境实验测试 本节将前述小节中的机器人避障算法模型移 (⑥)单机器人的静态寻路测试轨迹1 植进入基于ROS的移动机器人平台中,并在实验 场地分别进行静态寻路测试和动态障碍物避障测 试,最终得到结果如图12所示,展示了2个导航 过程的行进示意和轨迹图。 在图12(a)和(b)中可以观察到机器人从地图 (©)单机器人的静态寻路测试轨迹2 左侧中间出发向右侧的通道行进,其行进图如图 Is 所示。途中经过3个障碍物,并两次与动态障碍 物相遇,从行进图中可以发现,第1~5s,机器人发 11s 现右前方障碍物,并向着第1个和第2个障碍物 13s 之间的空间前进,第7s出现移动障碍物,机器人 17s 19s 判断形势,在11s向左侧规避,但在13s发现移 23s 动障碍物已经快速达到左侧,因此在13~15s恢复 25s 正常航向,向右前侧出发,并调整姿态,避让第3 29s 31s 个障碍物,此时移动障碍物从右侧出现,并在21s 35s 37s 快速移动到机器人右侧,此时机器人已经经过第 41s 3个障碍物,向左前侧前进(21s),并在23~35s正 43s 常导航直至抵达任务规定目标点。 47s (d单机器人动态障碍物避障测试2 在图12(c)和(d)中机器人从地图右侧中间出 发,向其左前侧的区域前进,途中机器人经过3个 图12单机器人静态测试结果 静态障碍物并与动态障碍物进行一次相遇,图 Fig.12 Single robot static test results 中,1~9s机器人探测到前方的两个障碍物,并选 从图中可以看出,移动机器可以准确完成机 择从二者中间的空间经过,11s开始,动态障碍物 器人控制以及寻路任务,且对于移动障碍物具有 开始出现,19~23s机器人探测到移动障碍物,并 明显的避障及寻路特征,说明训练所得算法在移
务。经过多次测试,机器人导航避障成功率约为 95.3%。 0 2 000 3 000 4 000 5 000 6 000 1 000 7 000 训练步数 (b) 训练过程中的 Q 值 Q 值 −50 0 50 100 150 200 QMFPG CA QMFPG Nav QDDPG SN QDDPG 0 2 000 3 000 4 000 5 000 6 000 1 000 7 000 训练步数 (a) 训练过程中的奖励值 奖励值 −5.0 −7.5 −2.5 0 2.5 5.0 7.5 10.0 rMFPG CA rMFPG Nav rDDPG SN rDDPG 图 11 模型训练 Fig. 11 Model training 4.4 现实环境实验测试 本节将前述小节中的机器人避障算法模型移 植进入基于 ROS 的移动机器人平台中,并在实验 场地分别进行静态寻路测试和动态障碍物避障测 试,最终得到结果如图 12 所示,展示了 2 个导航 过程的行进示意和轨迹图。 在图 12(a) 和 (b) 中可以观察到机器人从地图 左侧中间出发向右侧的通道行进,其行进图如图 所示。途中经过 3 个障碍物,并两次与动态障碍 物相遇,从行进图中可以发现,第 1~5 s,机器人发 现右前方障碍物,并向着第 1 个和第 2 个障碍物 之间的空间前进,第 7 s 出现移动障碍物,机器人 判断形势,在 11 s 向左侧规避,但在 13 s 发现移 动障碍物已经快速达到左侧,因此在 13~15 s 恢复 正常航向,向右前侧出发,并调整姿态,避让第 3 个障碍物,此时移动障碍物从右侧出现,并在 21 s 快速移动到机器人右侧,此时机器人已经经过第 3 个障碍物,向左前侧前进(21 s),并在 23~35 s 正 常导航直至抵达任务规定目标点。 在图 12(c) 和 (d) 中机器人从地图右侧中间出 发,向其左前侧的区域前进,途中机器人经过 3 个 静态障碍物并与动态障碍物进行一次相遇,图 中,1~9 s 机器人探测到前方的两个障碍物,并选 择从二者中间的空间经过,11s 开始,动态障碍物 开始出现,19~23 s 机器人探测到移动障碍物,并 根据其位置调整其航向向右前方行驶 (25~29 s), 从而成功躲避了移动障碍物,31 s 至 47 s 机器人 按照自身信息及位置导航至目标点。 (a) 单机器人动态障碍物避障测试 1 (b) 单机器人的静态寻路测试轨迹 1 (c) 单机器人的静态寻路测试轨迹 2 1s 7s 13s 19s 25s 31s 5s 11s 17s 23s 29s 35s (d) 单机器人动态障碍物避障测试 2 1s 7s 13s 19s 25s 31s 37s 43s 5s 11s 17s 23s 29s 35s 41s 47s 图 12 单机器人静态测试结果 Fig. 12 Single robot static test results 从图中可以看出,移动机器可以准确完成机 器人控制以及寻路任务,且对于移动障碍物具有 明显的避障及寻路特征,说明训练所得算法在移 ·758· 智 能 系 统 学 报 第 17 卷
第4期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·759· 动机器人控制中可以执行有障碍物状态下的寻路 样,并进行学习,逐渐提高算法的决策能力。 和动态避障任务。 5.2控制信号解码 由于Turtlebot3与远程主机使用WIFI网络连 5分布式异构多机器人实验 接,实际执行过程中容易受到无线信号影响,因 本节将在先前基础上建立多机器人系统的控 此,需要对两个Turtlebot3的动作信息进行处理以 制流程,搭建用于多机器人导航的虚拟环境并进 保证动作信息在通信延迟较高的环境下仍然可以 行训练,最后使用多台移动机器人平台进行寻路 正常运行。 实验。 为了保证机器人的动作信息能够正常执行导 5.1分布式多机器人控制结构 航算法,将应用在机器人上的策略数值进行了缩 由于训练过程中机器人需要在环境中进行 放,保证机器人能正常执行动作策略,其具体计 初期探索并积累经验池的经验,使用多机器人系 算公式为 统在训练早期可以有效提高经验搜集效率,缩短 2 a=3元arctan(16ms,》 训练模型学习时间,从而提高算法训练效率,因 此本文在前述单机器人导航任务实验的基础上, 式中:à,表示缩放后的策略数值,此后提出了实体 构建了多机器人训练的流程模型,其流程图可见 机器人控制时的策略融合方法,其公式为 图13。 ay=[a,a-1a-2[0.625l,0.25l-10.125L-2J 式中:1,表示时刻的状态补偿参数,用来降低由于 通信阻塞情况导致的策略误差,其定义为 经验信息 1,a0≥0 1201. 其他 虚拟环境 9 执行任务时,为了保证算法能同时开始执行 经验优先 多特征策略 人工势场 回放算法 梯度优化 算法 导航动作,在Liux系统中搭建了一个本地NTP RNay N 服务器用于保证Turtlebot3、远程主机和板载主机 经验池M 4≥m 之间的时间统一,实际执行时,板载主机通过 WIFI连接向远程主机申请进行时间校验,并根据 返回时间对自身信息进行校验,此后两个主机将 图13多机器人训练流程 选择同一时间执行导航任务。 Fig.13 Multi-robot training process 5.3模拟厂区的导航及避障测试及分析 1)算法获取虚拟环境中机器人的信息(激光雷 5.3.1训练环境 达传感器数值,坐标位置信息),并进行预处理; 本节在前述机器人控制架构的基础上构建了 2)将上述预处理后得到的状态信息和动作 模拟厂区环境,其环境如图14所示。 信息和奖励信息一起添加进经验回放池,留待 训练: 3)判断当前经验池的状态,如果没有达到经 验回放池上限,则使用人工势场算法,根据机器 人的状态信息进行判断,并提出决策信息。 4)如果经验回放池达到上限,则开始强化学 习算法的网络训练,神经网络会替代人工势场算 法作为多机器人系统的控制算法,同时搜集新的 经验信息替换已有的经验: 5)重复3)4),直到达到终止条件。 其中为了提高早期经验搜集效率,增加经验 池中优质经验比例,提高算法学习效率,在经验 池达到上限之前,在环境中的各个机器人采用人 工势场法进行导航,当经验池达到上限时,MFPG 图14训练环境 开始根据改进的人工势场算法对经验池进行采 Fig.14 Training environment
动机器人控制中可以执行有障碍物状态下的寻路 和动态避障任务。 5 分布式异构多机器人实验 本节将在先前基础上建立多机器人系统的控 制流程,搭建用于多机器人导航的虚拟环境并进 行训练,最后使用多台移动机器人平台进行寻路 实验。 5.1 分布式多机器人控制结构 由于训练过程中机器人需要在环境中进行 初期探索并积累经验池的经验,使用多机器人系 统在训练早期可以有效提高经验搜集效率,缩短 训练模型学习时间,从而提高算法训练效率,因 此本文在前述单机器人导航任务实验的基础上, 构建了多机器人训练的流程模型,其流程图可见 图 13。 虚拟环境 多特征策略 梯度优化 经验优先 回放算法 经验信息 at st st st+1 at 经验池 M R Nav R CA πθ N Y 人工势场 算法 |M|≥m 图 13 多机器人训练流程 Fig. 13 Multi-robot training process 1) 算法获取虚拟环境中机器人的信息(激光雷 达传感器数值,坐标位置信息),并进行预处理; 2) 将上述预处理后得到的状态信息和动作 信息和奖励信息一起添加进经验回放池,留待 训练; 3) 判断当前经验池的状态,如果没有达到经 验回放池上限,则使用人工势场算法,根据机器 人的状态信息进行判断,并提出决策信息。 4) 如果经验回放池达到上限,则开始强化学 习算法的网络训练,神经网络会替代人工势场算 法作为多机器人系统的控制算法,同时搜集新的 经验信息替换已有的经验; 5) 重复 3)~4),直到达到终止条件。 其中为了提高早期经验搜集效率,增加经验 池中优质经验比例,提高算法学习效率,在经验 池达到上限之前,在环境中的各个机器人采用人 工势场法进行导航,当经验池达到上限时,MFPG 开始根据改进的人工势场算法对经验池进行采 样,并进行学习,逐渐提高算法的决策能力。 5.2 控制信号解码 由于 Turtlebot3 与远程主机使用 WIFI 网络连 接,实际执行过程中容易受到无线信号影响,因 此,需要对两个 Turtlebot3 的动作信息进行处理以 保证动作信息在通信延迟较高的环境下仍然可以 正常运行。 为了保证机器人的动作信息能够正常执行导 航算法,将应用在机器人上的策略数值进行了缩 放,保证机器人能正常执行动作策略,其具体计 算公式为 aˆt = 2 3π arctan(16π(st)) 式中:aˆt表示缩放后的策略数值,此后提出了实体 机器人控制时的策略融合方法,其公式为 af = [ˆat aˆt−1 aˆt−2]·[0.625It 0.25It−1 0.125It−2] T It 式中: 表示 t 时刻的状态补偿参数,用来降低由于 通信阻塞情况导致的策略误差,其定义为 It= { 1, at · θ ⩾ 0 0.7, 其他 执行任务时,为了保证算法能同时开始执行 导航动作,在 Linux 系统中搭建了一个本地 NTP 服务器用于保证 Turtlebot3、远程主机和板载主机 之间的时间统一,实际执行时,板载主机通过 WIFI 连接向远程主机申请进行时间校验,并根据 返回时间对自身信息进行校验,此后两个主机将 选择同一时间执行导航任务。 5.3 模拟厂区的导航及避障测试及分析 5.3.1 训练环境 本节在前述机器人控制架构的基础上构建了 模拟厂区环境,其环境如图 14 所示。 1 2 4 3 图 14 训练环境 Fig. 14 Training environment 第 4 期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·759·
·760· 智能系统学报 第17卷 我们选用4个移动机器人进行算法的训练以 障和导航问题中相对标准DDPG算法具有显著 及测试。在训练过程中,每个机器人随机选择图 优势。 中绿色圆形区域和绿色方框区作为算法的任务初 始点,并随机选择除该机器人初始点以外的其他 任务初始点作为导航目标。机器人通过算法输出 的运动指令向目标区域进行移动,完成各自的导 航任务。在算法的性能测试过程中,车辆被随机 分配至四个圆形区域,而其导航目标位置为该车 的起始点在模拟工厂环境的对角位置,即对于为 1的机器人,其目标位置设置在3。 5.3.2训练结果 经过200轮训练后,对所得模型进行效果较 好者进行性能测试对比,得到两算法在模拟厂区 环境下的性能测试结果如表1所示。在本实验 ·Rob1 中,实验参数为总训练回合数:400,单回合最多 ·Rob3 Rob4 执250步,ROS系统运行频率45Hz,5=20。 (a)特征策略优化算法轨迹 表1算法性能对比 Table 1 Comparison of algorithm performance 平均碰撞距离 最小距离圆面积 算法 成功率 均值 方差 均值 方差 标准DDPG73.3% 4.52 6.45 60.76 34.4 MFPG 80.5% 2.84 5.27 5.5 12.23 在测试中,采用了平均碰撞距离作为算法导 航性能的衡量标准,其定义为:机器人发生碰撞 时,距离目标点的直线距离,较小的平均碰撞距 离反映算法具有较好的导航能力。从表中可以看 Robl ·Rob2 出,相比较标准DDPG算法,本文所述多特征策 ◆Rob3 Rob4 略优化算法具有更高的成功率,并且平均碰撞距 (b)标准DDPG算法轨迹 离和最小距离圆面积的均值和方差也是小于标 图15路径轨迹 准DDPG算法,说明所提出的基于多特征策略梯 Fig.15 Path trajectory 度优化方法的多机器人导航具有较高的可靠性。 此外,为保证本算法所训练模型不受机器人 将上述2种算法在模拟厂区环境中的路径轨 迹标绘在图中可以得到图15。 数目的影响,使用在前述算法所训练的模型在 从图中可以看出,多特征策略优化算法控制 8个机器人的模拟工厂环境中进行了寻路测试, 下的多机器人轨迹相对平滑,具有较小的波动, 由于实验机器人数目增加,为保证每个机器人的 且多机器人在相遇时具有较为规范的避让动作, 控制频率符合模型的控制频率,本次实验中ROS 保证了多机器人系统在执行过程中的控制稳定 系统的控制频率为90Hz,获得寻路轨迹如图16 性,而标准DDPG算法在导航过程中则具有较 所示。 多的控制波动,说明算法在执行过程中存在决策 从图中可以看出,多个机器人在执行任务过 稳定性差的情况,且在多个机器人相遇时,机器 程中在车流量较高的中心区域可以正常通行,且 人轨迹波动严重,这说明算法在多机器人相遇时 均遵循右手通行原则,保证了多机器人系统运行 处理动态障碍物能力较差,这对多机器人系统而 时的安全性,测试结果表明所提出的算法模型不 言是致命的,而统计结果也表明了所提出的多特 受多机器人系统中机器人数目的影响,因而提高 征策略梯度优化方法在多机器人系统中的动态避 了该方法在多机器人系统中的应用范围
我们选用 4 个移动机器人进行算法的训练以 及测试。在训练过程中,每个机器人随机选择图 中绿色圆形区域和绿色方框区作为算法的任务初 始点,并随机选择除该机器人初始点以外的其他 任务初始点作为导航目标。机器人通过算法输出 的运动指令向目标区域进行移动,完成各自的导 航任务。在算法的性能测试过程中,车辆被随机 分配至四个圆形区域,而其导航目标位置为该车 的起始点在模拟工厂环境的对角位置,即对于为 1 的机器人,其目标位置设置在 3。 5.3.2 训练结果 ξ = 20 经过 200 轮训练后,对所得模型进行效果较 好者进行性能测试对比,得到两算法在模拟厂区 环境下的性能测试结果如表 1 所示。在本实验 中,实验参数为总训练回合数:400,单回合最多 执 250 步,ROS 系统运行频率 45 Hz, 。 表 1 算法性能对比 Table 1 Comparison of algorithm performance 算法 成功率 平均碰撞距离 最小距离圆面积 均值 方差 均值 方差 标准DDPG 73.3% 4.52 6.45 60.76 34.4 MFPG 80.5% 2.84 5.27 5.5 12.23 在测试中,采用了平均碰撞距离作为算法导 航性能的衡量标准,其定义为:机器人发生碰撞 时,距离目标点的直线距离,较小的平均碰撞距 离反映算法具有较好的导航能力。从表中可以看 出,相比较标准 DDPG 算法,本文所述多特征策 略优化算法具有更高的成功率,并且平均碰撞距 离和最小距离圆面积的均值和方差也是小于标 准 DDPG 算法,说明所提出的基于多特征策略梯 度优化方法的多机器人导航具有较高的可靠性。 将上述 2 种算法在模拟厂区环境中的路径轨 迹标绘在图中可以得到图 15。 从图中可以看出,多特征策略优化算法控制 下的多机器人轨迹相对平滑,具有较小的波动, 且多机器人在相遇时具有较为规范的避让动作, 保证了多机器人系统在执行过程中的控制稳定 性,而标准 DDPG 算法在导航过程中则具有较 多的控制波动,说明算法在执行过程中存在决策 稳定性差的情况,且在多个机器人相遇时,机器 人轨迹波动严重,这说明算法在多机器人相遇时 处理动态障碍物能力较差,这对多机器人系统而 言是致命的,而统计结果也表明了所提出的多特 征策略梯度优化方法在多机器人系统中的动态避 障和导航问题中相对标准 DDPG 算法具有显著 优势。 Rob1 Rob2 Rob3 Rob4 (a) 特征策略优化算法轨迹 (b) 标准 DDPG 算法轨迹 Rob1 Rob2 Rob3 Rob4 图 15 路径轨迹 Fig. 15 Path trajectory 此外,为保证本算法所训练模型不受机器人 数目的影响,使用在前述算法所训练的模型在 8 个机器人的模拟工厂环境中进行了寻路测试, 由于实验机器人数目增加,为保证每个机器人的 控制频率符合模型的控制频率,本次实验中 ROS 系统的控制频率为 90 Hz,获得寻路轨迹如图 16 所示。 从图中可以看出,多个机器人在执行任务过 程中在车流量较高的中心区域可以正常通行,且 均遵循右手通行原则,保证了多机器人系统运行 时的安全性,测试结果表明所提出的算法模型不 受多机器人系统中机器人数目的影响,因而提高 了该方法在多机器人系统中的应用范围。 ·760· 智 能 系 统 学 报 第 17 卷
第4期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·761· 13s 21s 25s 33s 37s 45 49s 57 (a)多机器人实验车辆测试1 Robl Rob2 Rob3 10s Rob4 22s Robe 37 34s ·Rob8 46s 图168机器人寻路路径轨迹 51s Fig.16 8 Robot path trajectory 70s 63s 5.4实体机器人实验 66s 本次测试使用的控制主机与前述相同,场地 (b)多机器人实验车辆测试2 参数=5,运行速度0.4m/s。机器人的抵达目标 图17多机器人动态避障导航实验 Fig.17 的感知半径为0.5m,本次实验共计使用了2台远 Dynamic obstacle avoidance navigation experi- ment of multiple robots 程主机和1台板载主机,3台主机均连接至同一 其具体轨迹如图18所示,轨迹图18(a)和 无线网络,2台Turtlebot3机器人具有自己的IP 18(b)中红色机器人从图中上方向下方移动,而黄 地址,并由2台远程主机控制,为保证能够对 色机器人则从下方向上方移动,而轨迹图1中板 2台Turtlebot.3进行区分,也方便板载机器人获取 载机器人则从左侧移动至右侧,而在18(b)中则 其位置信息,在机器人顶端分别安装了红色和黄 从右侧移动至左侧,图中蓝色虚线表示板载主机 色的标识盒。 机器人的路径轨迹,绿色虚线表示黄色机器人的 在行进图17(a)中黄色小车从下方开始从左 路径轨迹,红色虚线则表示红色机器人的路径轨 侧运动并在达到边界后向右上侧运动,最终抵达 迹信息。 目标点,而红色小车则在13s与板载主机机器人 相遇,而后红色机器人感知到板载机器人位置, 并执行避让动作,并在红色机器人与板载机器人 之间出现可以通行的空间时,从板载主机机器人 侧后方向前行驶,避免了与板载主机机器人的碰 撞,二者在最后分别抵达目标点。 而在行进图17(b)中,黄色机器人运行时感知 (a)多移动机器人实机测试轨迹1 到板载主机机器人位置,选择从右侧行进,但在 运行过程中判断与板载主机机器人发生碰撞的可 能行较高,因此在33s时选择机器人板载机器人 侧后方行进,并在脱离板载主机机器人碰撞范围 后向目标点行进,最终抵达目标,而板载主机机 器人则探测到其左侧存在红色机器人并向其运动 (b)多移动机器人实机测试轨迹2 方向前方运行,因此选择向红色机器人后侧转 图18机器人轨迹 弯,红色机器人则选择向左前方运行,以避让板 Fig.18 Robot trajectory 载主机机器人,而板载主机机器人在红色机器人 实验结果显示,3辆移动机器人平台在实验 离开后向目标点导航,最终二者顺利抵达目 过程中可以感知到其他机器人的移动位置并执行 标点。 相应的回避动作,最终安全抵达实验预定的目标
Rob1 Rob2 Rob3 Rob4 Rob5 Rob6 Rob7 Rob8 图 16 8 机器人寻路路径轨迹 Fig. 16 8 Robot path trajectory 5.4 实体机器人实验 ξ = 5 本次测试使用的控制主机与前述相同,场地 参数 ,运行速度 0.4 m/s。机器人的抵达目标 的感知半径为 0.5 m,本次实验共计使用了 2 台远 程主机和 1 台板载主机, 3 台主机均连接至同一 无线网络,2 台 Turtlebot3 机器人具有自己的 IP 地址,并由 2 台远程主机控制,为保证能够对 2 台 Turtlebot3 进行区分,也方便板载机器人获取 其位置信息,在机器人顶端分别安装了红色和黄 色的标识盒。 在行进图 17(a) 中黄色小车从下方开始从左 侧运动并在达到边界后向右上侧运动,最终抵达 目标点,而红色小车则在 13 s 与板载主机机器人 相遇,而后红色机器人感知到板载机器人位置, 并执行避让动作,并在红色机器人与板载机器人 之间出现可以通行的空间时,从板载主机机器人 侧后方向前行驶,避免了与板载主机机器人的碰 撞,二者在最后分别抵达目标点。 而在行进图 17(b) 中,黄色机器人运行时感知 到板载主机机器人位置,选择从右侧行进,但在 运行过程中判断与板载主机机器人发生碰撞的可 能行较高,因此在 33 s 时选择机器人板载机器人 侧后方行进,并在脱离板载主机机器人碰撞范围 后向目标点行进,最终抵达目标,而板载主机机 器人则探测到其左侧存在红色机器人并向其运动 方向前方运行,因此选择向红色机器人后侧转 弯,红色机器人则选择向左前方运行,以避让板 载主机机器人,而板载主机机器人在红色机器人 离开后向目标点导航,最终二者顺利抵达目 标点。 (a) 多机器人实验车辆测试 1 1s 13s 25s 37s 49s 9s 21s 33s 45s 57s (b) 多机器人实验车辆测试 2 1s 13s 25s 37s 49s 51s 63s 10s 22s 34s 46s 58s 70s 66s 图 17 多机器人动态避障导航实验 Fig. 17 Dynamic obstacle avoidance navigation experiment of multiple robots 其具体轨迹如图 18 所示,轨迹图 18(a) 和 18(b) 中红色机器人从图中上方向下方移动,而黄 色机器人则从下方向上方移动,而轨迹图 1 中板 载机器人则从左侧移动至右侧,而在 18(b) 中则 从右侧移动至左侧,图中蓝色虚线表示板载主机 机器人的路径轨迹,绿色虚线表示黄色机器人的 路径轨迹,红色虚线则表示红色机器人的路径轨 迹信息。 (a) 多移动机器人实机测试轨迹 1 (b) 多移动机器人实机测试轨迹 2 图 18 机器人轨迹 Fig. 18 Robot trajectory 实验结果显示,3 辆移动机器人平台在实验 过程中可以感知到其他机器人的移动位置并执行 相应的回避动作,最终安全抵达实验预定的目标 第 4 期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·761·