【智能系统】动态环境下分布式异构多机器人避障方法研究

团购合买资源类别：文库，文档格式：PDF，文档页数：12，文件大小：8.37MB

第17卷第4期智能系统学报 Vol.17 No.4 2022年7月 CAAI Transactions on Intelligent Systems Jul.2022 D0:10.11992/tis.202106044 网络出版地址：https:/kns.cnki.net/kcms/detail/23.1538.TP.20220505.1636.004.html 动态环境下分布式异构多机器人避障方法研究欧阳勇平，魏长赞，蔡帛良2 (1.河海大学机电工程学院，江苏常州213022：2.英国卡迪夫大学工学院，威尔士卡迪夫CF103A) 摘要：多机器人系统在联合搜救、智慧车间、智能交通等领域得到了日益广泛的应用。目前，多个机器人之间、机器人与动态环境之间的路径规划和导航避障仍需依赖精确的环境地图，给多机器人系统在非结构环境下的协调与协作带来了挑战。针对上述问题，本文提出了不依赖精确地图的分布式异构多机器人导航避障方法，建立了基于深度强化学习的多特征策略梯度优化算法，并考虑了人机协同环境下的社会范式，使分布式机器人能够通过与环境的试错交互，学习最优的导航避障策略：并在Gazebo仿真环境下进行了最优策略的训练学习，同时将模型移植到多个异构实体机器人上，将机器人控制信号解码，进行真实环境测试。实验结果表明：本文提出的多特征策略梯度优化算法能够通过自学习获得最优的导航避障策略，为分布式异构多机器人在动态环境下的应用提供了一种技术参考。关键词：异构多机器人；深度强化学习：非结构环境；多特征策略梯度：动态避障：自学习；分布式控制：控制策略中图分类号：TP273+.2文献标志码：A文章编号：1673-4785(2022)04-0752-12 中文引用格式：欧阳勇平，魏长蒉，蔡帛良.动态环境下分布式异构多机器人避障方法研究川智能系统学报，2022,17(4)： 752-763. 英文引用格式：OUYANG Yongping,WEI Changyun,CAI Boliang.Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments[J.CAAI transactions on intelligent systems,2022,17(4):752-763. Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments OUYANG Yongping',WEI Changyun',CAI Boliang'2 (1.College of Mechanical and Electrical Engineering,Hohai University,Changzhou 213022,China;2.School of Engineering. Cardiff University,CardiffCF103AT,UK) Abstract:Multirobot systems have been widely used in cooperative search and rescue missions,intelligent warehouses. intelligent transportation,and other fields.At present,the path planning and collision avoidance problems between mul- tiple robots and the dynamic environment still rely on accurate maps,which brings challenges to the coordination and cooperation of multirobot systems in unstructured environments.To address the above problem,this paper presents a navigation and collision avoidance approach that does not require accurate maps and is based on the deep reinforcement learning framework.A multifeatured policy gradients algorithm is proposed in this work,and social norms are also in- tegrated so that the learning agent can obtain the optimal control policy via trial-and-error interactions with the environ- ment.The optimal policy is trained and obtained in the Gazebo environment,and afterward,the optimal policy is trans- ferred to several heterogeneous real robots by decoding the control signals.The experimental results show that the multi- feature policy gradients algorithm proposed can obtain the optimal navigation collision avoidance policy through self- learning,and it provides a technical reference for the application of distributed heterogeneous multirobot systems in dy- namic environments. Keywords:heterogeneous multi-robot systems;deep reinforcement learning,non-structural environment;multi-feature policy gradients;dynamic collision avoidance;self-learning;distributed control;control policy 收稿日期：2021-06-25.网络出版日期：2022-05-06 基金项目：国家自然科学基金项目(61703138)：中央高校基本科研业务费项目(B200202224). 随着多机器人系统(multi-robot system,MRS) 通信作者：魏长赞.E-mail:c.wei@hhu.edu.cn. 的广泛应用，其路径规划和导航避障领域一直是

DOI: 10.11992/tis.202106044 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20220505.1636.004.html 动态环境下分布式异构多机器人避障方法研究欧阳勇平1 ，魏长赟1 ，蔡帛良1,2 （1. 河海大学机电工程学院，江苏常州 213022; 2. 英国卡迪夫大学工学院，威尔士卡迪夫 CF10 3A）摘要：多机器人系统在联合搜救、智慧车间、智能交通等领域得到了日益广泛的应用。目前，多个机器人之间、机器人与动态环境之间的路径规划和导航避障仍需依赖精确的环境地图，给多机器人系统在非结构环境下的协调与协作带来了挑战。针对上述问题，本文提出了不依赖精确地图的分布式异构多机器人导航避障方法，建立了基于深度强化学习的多特征策略梯度优化算法，并考虑了人机协同环境下的社会范式，使分布式机器人能够通过与环境的试错交互，学习最优的导航避障策略；并在 Gazebo 仿真环境下进行了最优策略的训练学习，同时将模型移植到多个异构实体机器人上，将机器人控制信号解码，进行真实环境测试。实验结果表明：本文提出的多特征策略梯度优化算法能够通过自学习获得最优的导航避障策略，为分布式异构多机器人在动态环境下的应用提供了一种技术参考。关键词：异构多机器人；深度强化学习；非结构环境；多特征策略梯度；动态避障；自学习；分布式控制；控制策略中图分类号：TP273+.2 文献标志码：A 文章编号：1673−4785(2022)04−0752−12 中文引用格式：欧阳勇平, 魏长赟, 蔡帛良. 动态环境下分布式异构多机器人避障方法研究 [J]. 智能系统学报, 2022, 17(4): 752–763. 英文引用格式：OUYANG Yongping, WEI Changyun, CAI Boliang. Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments[J]. CAAI transactions on intelligent systems, 2022, 17(4): 752–763. Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments OUYANG Yongping1 ，WEI Changyun1 ，CAI Boliang1,2 (1. College of Mechanical and Electrical Engineering, Hohai University, Changzhou 213022, China; 2. School of Engineering, Cardiff University, Cardiff CF10 3AT, UK) Abstract: Multirobot systems have been widely used in cooperative search and rescue missions, intelligent warehouses, intelligent transportation, and other fields. At present, the path planning and collision avoidance problems between multiple robots and the dynamic environment still rely on accurate maps, which brings challenges to the coordination and cooperation of multirobot systems in unstructured environments. To address the above problem, this paper presents a navigation and collision avoidance approach that does not require accurate maps and is based on the deep reinforcement learning framework. A multifeatured policy gradients algorithm is proposed in this work, and social norms are also integrated so that the learning agent can obtain the optimal control policy via trial-and-error interactions with the environment. The optimal policy is trained and obtained in the Gazebo environment, and afterward, the optimal policy is transferred to several heterogeneous real robots by decoding the control signals. The experimental results show that the multifeature policy gradients algorithm proposed can obtain the optimal navigation collision avoidance policy through selflearning, and it provides a technical reference for the application of distributed heterogeneous multirobot systems in dynamic environments. Keywords: heterogeneous multi-robot systems; deep reinforcement learning; non-structural environment; multi-feature policy gradients; dynamic collision avoidance; self-learning; distributed control; control policy 随着多机器人系统 (multi-robot system，MRS) 的广泛应用，其路径规划和导航避障领域一直是收稿日期：2021−06−25. 网络出版日期：2022−05−06. 基金项目：国家自然科学基金项目（61703138）；中央高校基本科研业务费项目（B200202224）. 通信作者：魏长赟. E-mail：c.wei@hhu.edu.cn. 第 17 卷第 4 期智能系统学报 Vol.17 No.4 2022 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2022

第4期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·753· 学者们关注的热点话题。传统的机器人避障算法主要有粒子群寻优算法山、基于障碍物的几何构型得到避障策略)、Khatib)提出了最优避碰策略 (optimal reciprocal collision avoidance,ORCA) 衍生的其他避障算法等，但这些导航模型在环境复杂的情况下调整效果不佳，不适用于动态环激光传感器机器人境。近年来，在基于强化学习的多机器人导航避目标位置障算法中，相关学者们提出了构建状态空间到动目前航向障碍物 ◆目标方位作空间的映射的控制逻辑，也即策略映射8)，其 ◆激光序列信息中Zhang等I提出了一种以深度确定性策略梯度 (deep deterministic policy gradient,.DDPG)为基a础的图1机器人导航避障模型机器人控制模型，最终构建了基于激光雷达和位 Fig.1 Robot navigation and collision avoidance model 置信息的策略映射，但算法的收敛速度慢，训练在图中机器人所获得的状态信息为目标点相效率较低。Chents1则提出了一种异步DDPG算对自身的极坐标位置(P,(图中黄色箭头)，激光法(asynchronous DDPG,ADDPG),使用多个机器传感器所捕获的周围环境信息s=,2,…,l12s](红色线)且每条激光编号从0开始沿图中绿色箭头人在同一个实验环境中进行实验，提高了经验的方向递增。搜集效率，缩短了算法的训练时间，但没有考虑其中，极坐标位置信息(p,)的计算公式为移动机器人的导航避障规则。因此设计一种受客观条件限制较低，且可以实现人机协同的机器人 p=Vx-xw)2+0-yw)月避障算法对于提高异构多机器人的工作效率和安 0=sign(y,×vw)arccos V:'Vw 全性具有重要意义。 (ivalv. 式中：(x,y)和(xw,y)分别是机器人和目标点在全故本文在此提出了基于深度强化学习的多特局坐标系下的坐标，y,和v分别是机器人的速度矢征策略梯度优化算法，并引入人机协同环境下的量和从机器人指向目标点的矢量。社会范式以及提出经验优先采样机制，不仅使多最终上述两部分信息经过归一化处理后连同机器人移动按照一定规则避障，而且提高了算法上一时刻的机器人动作信息a,-被组成一个状态的训练速度以及控制精度，同时搭建了分布式多信息5，并传递给强化学习算法进行计算，其中归机器人的控制模型，在Gazebo仿真环境下进行算一化公式为法的训练学习，最后在现实环境下的多异构机器 p=pl店人平台上验证了导航避障方法的可行性。 0=8/π lili/lmax 1问题描述式中：是环境中的最大对角线长度，最大感知距离lm=3m。基于上述提出的不依赖精确地图导多机器人路径规划是在工作环境中为各个机航的异构多机器人导航避障模型，本文将在后续器人都找到一条从起始点到目标点的最优无碰撞仿真与真实实验中进一步介绍。路径。其中，单个机器人前往目标点不仅需要考虑与环境内的障碍物避免碰撞，还需避免在移动 2深度强化学习控制模型时与其他机器人发生碰撞。因此，如何为环境内 2.1马尔可夫决策过程的各个机器人在寻找路径时不发生碰撞是存在的为各个机器人寻找一条最优无碰撞路径问题难题。可以简化为马尔可夫决策过程。马尔可夫决策过本文以深度强化学习模型为基础，为解决异程(Markov decision process,MDP)作为强化学习构多机器人在动态环境下导航避障问题，搭建了理论的基础，具有重要的理论价值。MDP的数学不依赖精确地图机器人导航避障模型，机器人仅要素可以表述为五元组，即(S,A,P,R,y),其中：装有激光雷达传感器，只需对原始的测量信号进 S表示状态空间，表示MDP所在环境下所有行获取和处理，即可实现异构多机器人的导航避可能状态的集合；障。具体模型如图1所示。 A表示动作空间，表示对应状态下所有可采取

学者们关注的热点话题。传统的机器人避障算法主要有粒子群寻优算法[1] 、基于障碍物的几何构型得到避障策略[2] 、Khatib[3] 提出了最优避碰策略 (optimal reciprocal collision avoidance, ORCA) 及其衍生的其他避障算法等，但这些导航模型在环境复杂的情况下调整效果不佳，不适用于动态环境。近年来，在基于强化学习的多机器人导航避障算法中，相关学者们提出了构建状态空间到动作空间的映射的控制逻辑，也即策略映射[4-8] ，其中 Zhang 等 [4] 提出了一种以深度确定性策略梯度 (deep deterministic policy gradient, DDPG) 为基础的机器人控制模型，最终构建了基于激光雷达和位置信息的策略映射，但算法的收敛速度慢，训练效率较低。Chen[5] 则提出了一种异步 DDPG 算法 (asynchronous DDPG, ADDPG)，使用多个机器人在同一个实验环境中进行实验，提高了经验的搜集效率，缩短了算法的训练时间，但没有考虑移动机器人的导航避障规则。因此设计一种受客观条件限制较低，且可以实现人机协同的机器人避障算法对于提高异构多机器人的工作效率和安全性具有重要意义。故本文在此提出了基于深度强化学习的多特征策略梯度优化算法，并引入人机协同环境下的社会范式以及提出经验优先采样机制，不仅使多机器人移动按照一定规则避障，而且提高了算法的训练速度以及控制精度，同时搭建了分布式多机器人的控制模型，在 Gazebo 仿真环境下进行算法的训练学习，最后在现实环境下的多异构机器人平台上验证了导航避障方法的可行性。 1 问题描述多机器人路径规划是在工作环境中为各个机器人都找到一条从起始点到目标点的最优无碰撞路径。其中，单个机器人前往目标点不仅需要考虑与环境内的障碍物避免碰撞，还需避免在移动时与其他机器人发生碰撞。因此，如何为环境内的各个机器人在寻找路径时不发生碰撞是存在的难题。本文以深度强化学习模型为基础，为解决异构多机器人在动态环境下导航避障问题，搭建了不依赖精确地图机器人导航避障模型，机器人仅装有激光雷达传感器，只需对原始的测量信号进行获取和处理，即可实现异构多机器人的导航避障。具体模型如图 1 所示。激光传感器机器人目标位置目前航向目标方位激光序列信息障碍物负正图 1 机器人导航避障模型 Fig. 1 Robot navigation and collision avoidance model (ρ, θ) ς = [l1,l2,··· ,l128] 在图中机器人所获得的状态信息为目标点相对自身的极坐标位置（图中黄色箭头），激光传感器所捕获的周围环境信息（红色线）且每条激光编号从 0 开始沿图中绿色箭头方向递增。其中，极坐标位置信息 (ρ, θ) 的计算公式为          ρ = √ (xt − xw) 2 +(yt −yw) 2 θ = sign(vt ×vw) arccos( vt · vw |vt | |vw| ) (xt , yt) (xw, yw) vt vw 式中：和分别是机器人和目标点在全局坐标系下的坐标，和分别是机器人的速度矢量和从机器人指向目标点的矢量。 at−1 st 最终上述两部分信息经过归一化处理后连同上一时刻的机器人动作信息被组成一个状态信息，并传递给强化学习算法进行计算，其中归一化公式为    ρ¯ = ρ/ξ θ¯ = θ/π li = li/lmax ξ lmax = 3 m 式中：是环境中的最大对角线长度，最大感知距离。基于上述提出的不依赖精确地图导航的异构多机器人导航避障模型，本文将在后续仿真与真实实验中进一步介绍。 2 深度强化学习控制模型 2.1 马尔可夫决策过程 (S,A,P,R, γ) 为各个机器人寻找一条最优无碰撞路径问题可以简化为马尔可夫决策过程。马尔可夫决策过程 (Markov decision process，MDP) 作为强化学习理论的基础，具有重要的理论价值。MDP 的数学要素可以表述为五元组，即，其中： S 表示状态空间，表示 MDP 所在环境下所有可能状态的集合； A 表示动作空间，表示对应状态下所有可采取第 4 期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·753·

·754· 智能系统学报第17卷的动作的集合： agent DDPG(MADDPG)☒ P表示状态的条件转移概率，表示代理在t时其中，DQN引入了两个重要策略实现了强化刻s,状态下采取动作a后，在t+1时刻的状态s41的学习算法与深度神经网络的融合。第一个策略是状态为s的概率，其公式表述为目标网络的阶段性更新策略，保证了训练Q网络 P(s'ls,a)=P(st=s'ls:=s,a=a) 的Q值稳定性。另一个策略是经验回放机制，这 R为MDP的评价函数，是算法在s状态下执行个机制使得算法可以多次重复利用代理获得的经动作a后变换为s的过程对算法目标结果好坏的验，通过重复性采样，提高了经验的利用率，并有量化评价标准，其定义为效降低了样本数据间的及关联参数，具体训练流 R(s,a,)=E[R4is,=S,a,=a,S41=](I) 程如图3所示。 y是折扣因子，表示MDP中每一个决策环节对相对于决策过程中未来的决策环节的重要性，代理环境 y≤1恒成立，表示算法更看重当前奖励而不是未 Sp an Sui 来的奖励。 MDP的实际流程可以表示为图2，环境中受算法控制的代理对象在状态so∈S的条件下初始 O(s a) 经验池化，并由算法根据状态so选择建议动作ao∈S并由 Q网络数代理对象完成该动作，环境根据所执行的动作，更根据条件转移概率P(slso,ao)转移至下一状态s1, () 目标 Q网络同时，环境给出对应奖励ro(so,ao,s)。此后算法根 DQN 据状态5选择新的建议动作，并重复执行上述步图3DQN算法训练流程骤直至达到终止条件。 Fig.3 DQN algorithm training process DQN是应用于离散动作空间的算法，这导致无法应对控制精度高、动作空间复杂的问题。而 DDPG作为解决连续控制型问题的算法适合本文图2马尔可夫决策过程所遇到的难题，其算法流程如图4所示。 Fig.2 Markov decision process 代理环境 2.2深度强化学习 Sn an r,Sw 深度强化学习(deep reinforcement learning) 算法模型是以一种通用的形式将深度学习的感知 + 策略网络π口 Q网络经能力与强化学习的决策能力相结合，并能够通过 k步更新】步更新端对端的学习方式实现从原始输入到输出的直接目标策略网络新目标Q网络控制，在模拟环境中，从个人收集的所有数据都用于在中央服务器中进行训练"，例如深度Q学习网络(deep Q-learning,DQN)2解决了使用强化图4DDPG算法训练流程 Fig.4 DDPG algorithm training process 学习算法求解Atari游戏最优决策问题，此后，又有诸如深度确定策略网络梯度(deep deterministic 3多特征策略梯度优化算法 policy gradient,.DDPG)l),信赖邻域策略梯度优化 (trust region policy optimization,TRPO)l,近似策在现有的深度确定性策略梯度算法的基础上略梯度优化(proximal policy optimization,PPO)l 通过对机器人导航任务的任务奖励进行拆分，并等算法都取得了较好的成果，实验证明，深度强构建了各自的Q值网络用于优化策略网络，并在化学习可以处理解决复杂的高纬度状态动作映射此基础上行构建了基于策略梯度优化算法的多特问题，从而实现更全面感知决策，具有较强的实征策略梯度优化算法。用性i6-20。在一些多智能体强化学习(multi-agent 3.1策略网络优化 reinforcement learning,MARL)研究工作中，集中针对前述算法中将机器人的导航奖励设计为训练和分散执行方案用于训练多智能体系统，例统一奖励值的算法中存在的奖励显著性下降的问 counterfactual multi-agent (COMA)multi- 题，本文将机器人的导航问题分为避障任务和导

的动作的集合； P t st a t+1 st+1 s ′ 表示状态的条件转移概率，表示代理在时刻状态下采取动作后，在时刻的状态的状态为的概率，其公式表述为 P(s ′ |s,a) = P(st+1 = s ′ |st = s,at = a) R s a s ′ 为 MDP 的评价函数，是算法在状态下执行动作后变换为的过程对算法目标结果好坏的量化评价标准，其定义为 R(s,a,s ′ ) = E[Rt+1 |st = s,at = a,st+1 = s ′ ] (1) γ γ ⩽ 1 是折扣因子，表示 MDP 中每一个决策环节对相对于决策过程中未来的决策环节的重要性，恒成立，表示算法更看重当前奖励而不是未来的奖励。 s0 ∈ S s0 a0 ∈ S P(s1|s0,a0) s1 r0(s0,a0,s1) s1 MDP 的实际流程可以表示为图 2，环境中受算法控制的代理对象在状态的条件下初始化，并由算法根据状态选择建议动作并由代理对象完成该动作，环境根据所执行的动作，根据条件转移概率转移至下一状态，同时，环境给出对应奖励。此后算法根据状态选择新的建议动作，并重复执行上述步骤直至达到终止条件。 s0 a0 s1 a1 s2 r0 r1 r2 a2 图 2 马尔可夫决策过程 Fig. 2 Markov decision process 2.2 深度强化学习深度强化学习 (deep reinforcement learning) 算法模型是以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制，在模拟环境中，从个人收集的所有数据都用于在中央服务器中进行训练[9-11] ，例如深度 Q 学习网络 (deep Q-learning, DQN)[12] 解决了使用强化学习算法求解 Atari 游戏最优决策问题，此后，又有诸如深度确定策略网络梯度 (deep deterministic policy gradient, DDPG)[13] ，信赖邻域策略梯度优化 (trust region policy optimization, TRPO)[14] ，近似策略梯度优化 (proximal policy optimization, PPO)[15] 等算法都取得了较好的成果，实验证明，深度强化学习可以处理解决复杂的高纬度状态动作映射问题，从而实现更全面感知决策，具有较强的实用性[16-20]。在一些多智能体强化学习 (multi-agent reinforcement learning, MARL) 研究工作中，集中训练和分散执行方案用于训练多智能体系统，例如 counterfactual multi-agent (COMA) [21] 和 multiagent DDPG(MADDPG) [22]。其中，DQN 引入了两个重要策略实现了强化学习算法与深度神经网络的融合。第一个策略是目标网络的阶段性更新策略，保证了训练 Q 网络的 Q 值稳定性。另一个策略是经验回放机制，这个机制使得算法可以多次重复利用代理获得的经验，通过重复性采样，提高了经验的利用率，并有效降低了样本数据间的及关联参数，具体训练流程如图 3 所示。代理环境 at+1 st+1 at+1 Q 网络目标 Q 网络参经验池数更新 DQN st , at , r, st+1 Q (st , at ) Q (st+1, a) 图 3 DQN 算法训练流程 Fig. 3 DQN algorithm training process DQN 是应用于离散动作空间的算法，这导致无法应对控制精度高、动作空间复杂的问题。而 DDPG 作为解决连续控制型问题的算法适合本文所遇到的难题，其算法流程如图 4 所示。代理环境 at st st , at , r, st+1 策略网络 πθ 目标策略网络 π'θ 参数更新经验回放 Q 网络目标 Q 网络 k 步更新 k 步更新图 4 DDPG 算法训练流程 Fig. 4 DDPG algorithm training process 3 多特征策略梯度优化算法在现有的深度确定性策略梯度算法的基础上通过对机器人导航任务的任务奖励进行拆分，并构建了各自的 Q 值网络用于优化策略网络，并在此基础上行构建了基于策略梯度优化算法的多特征策略梯度优化算法。 3.1 策略网络优化针对前述算法中将机器人的导航奖励设计为统一奖励值的算法中存在的奖励显著性下降的问题，本文将机器人的导航问题分为避障任务和导 ·754· 智能系统学报第 17 卷

第4期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·755· 航任务，分别对2个任务进行量化评价并构建避 2个Q网络对状态s的策略梯度：障Q值网络和导航Q值网络，分别使用2个Q值 (e)= 网络计算2个Q值对策略网络参数的梯度，从而 1又，.logr(a.ls.)0(sa.) cEB 实现对策略网络的优化，本文将其称为多特征策 (e)= 略梯度优化算法(multi-.featured policy gradients, ∑7，og((a MFPG)。因此在MFPG算法中策略网络π，的策略梯度 MFPG将机器人的任务奖励分为两部分，分是7J=[VJav,VJCa],因此，最终的策略参数更新别称为导航奖励和避障奖励，因此在本算法中，公式为算法在t时刻的经验则定义为 p=p+a.Φ7eJ(e) (2) e:=(smarra,ICA,s 式中Φ是策略梯度权重，表示每个策略梯度分量式中：表示t时刻的导航任务奖励，表示t时的重要程度，其值与任务奖励、Q网络损失值相关。刻的避障任务奖励。由2个奖励构建的Q值网络综上所述，本文所述多特征策略梯度算法的分别为流程图如图5所示，从图中可以看出，所提出的多 (ON(s,a)=Ex(G(r)Is,=s,a,=a) 特征策略梯度优化方法通过将对奖励信息进行划 OCA(s,a)=E(G(rCA)Is,=s.a,=a) 分，并分别由划分的两个奖励构建Q网络，并在其中Q公和Q分别代表由导航任务奖励和避障最终构建关于策略网络的优化梯度，实现了对策任务奖励构建的Q值网络，根据式(1)计算出略网络的优化。 MFPG 导航Q网路 Actor 网络避障Q网络 TD_误差最小化导航Q目标 Actor 网络目标网络目标Q 避障O目标网络图5多特征策略梯度优化算法 Fig.5 MFPG algorithm 3.2社会范式的奖惩函数设计件下的社会范式，因此将离散化的指标性奖励精借鉴人类社会发展过程中产生的行动规则确为基于实时状态的奖励可以有效提高算法的训 (例如右侧通行等)，引入了社会范式奖励，其具练速度。体方式如图6所示：当受控机器人（红）与其他机器人（黑）进行交互且产生图示的位置关系时候受控机器人会受到负奖励，从而降低出现图示位置关系的概率。然而，这种方法只是在图示状态下对机器人赋予了一个离散的负奖励信息，而且图6离散的社会范式奖励由于负奖励的判断范围较广（阴影所示区域），导 Fig.6 Discrete social paradigm rewards 致负奖励信息只能用于定性分析受控机器人状综上，本研究在前文研究的基础上，针对现有态，而不能用于提高算法的控制精度，且由于算导航算法中提出的离散式社会规范奖励存在的奖法本身奖励稀疏，导致算法更无法学习在图示条励稀疏、离散的社会负奖励信息只能定性分析机

航任务，分别对 2 个任务进行量化评价并构建避障 Q 值网络和导航 Q 值网络，分别使用 2 个 Q 值网络计算 2 个 Q 值对策略网络参数的梯度，从而实现对策略网络的优化，本文将其称为多特征策略梯度优化算法（multi-featured policy gradients, MFPG）。 t MFPG 将机器人的任务奖励分为两部分，分别称为导航奖励和避障奖励，因此在本算法中，算法在时刻的经验则定义为 et = {st ,at ,r Nav t ,r CA t ,st+1} r Nav t t r CA t 式中：表示时刻的导航任务奖励，表示 t 时刻的避障任务奖励。由 2 个奖励构建的 Q 值网络分别为 { Q Nav π (s,a) = Eπ(Gt(r Nav )|st = s,at = a) Q CA π (s,a) = Eπ(Gt(r CA)|st = s,at = a) Q Nav π Q CA 其中和 π 分别代表由导航任务奖励和避障任务奖励构建的 Q 值网络，根据式 (1) 计算出 2 个 Q 网络对状态 st的策略梯度：    ∇φ J Nav(e) = 1 m ∑ e∈B ∇φ logπ(ae |se)Q Nav π (se ,ae) ∇φ J CA(e) = 1 m ∑ e∈B ∇φ logπ(ae |se)Q CA π (se ,ae) πφ ∇φ J = [∇φ J Nav ,∇φ J CA] 因此在 MFPG 算法中策略网络的策略梯度是，因此，最终的策略参数更新公式为 φ = φ+α·Φ T∇φ J(e) (2) 式中 Φ 是策略梯度权重，表示每个策略梯度分量的重要程度，其值与任务奖励、Q 网络损失值相关。综上所述，本文所述多特征策略梯度算法的流程图如图 5 所示，从图中可以看出，所提出的多特征策略梯度优化方法通过将对奖励信息进行划分，并分别由划分的两个奖励构建 Q 网络，并在最终构建关于策略网络的优化梯度，实现了对策略网络的优化。导航 Q 目标网络避障 Q 目标网络导航 Q 网络避障 Q 网络 Actor 目标网络 Actor 网络 A Q Qπ NAV Qπ CA A' S S' MFPG 目标 Q 最小化 TD_误差图 5 多特征策略梯度优化算法 Fig. 5 MFPG algorithm 3.2 社会范式的奖惩函数设计借鉴人类社会发展过程中产生的行动规则（例如右侧通行等），引入了社会范式奖励，其具体方式如图 6 所示：当受控机器人（红）与其他机器人（黑）进行交互且产生图示的位置关系时候受控机器人会受到负奖励，从而降低出现图示位置关系的概率。然而，这种方法只是在图示状态下对机器人赋予了一个离散的负奖励信息，而且由于负奖励的判断范围较广（阴影所示区域），导致负奖励信息只能用于定性分析受控机器人状态，而不能用于提高算法的控制精度，且由于算法本身奖励稀疏，导致算法更无法学习在图示条件下的社会范式，因此将离散化的指标性奖励精确为基于实时状态的奖励可以有效提高算法的训练速度。图 6 离散的社会范式奖励 Fig. 6 Discrete social paradigm rewards 综上，本研究在前文研究的基础上，针对现有导航算法中提出的离散式社会规范奖励存在的奖励稀疏、离散的社会负奖励信息只能定性分析机第 4 期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·755·

·756· 智能系统学报第17卷器人的社会范式状态的问题提出了一种新的基于 90° 激光雷达信息的连续空间社会范式奖励计算方 120° 60° 法，其计算公式为 -4 n=[ruse(Umin).G(]9 150° 30° 上式表示naer(lnmn)G(a)的值最终在[-9.9,9.9]的 6 边界区间内，其中rser(lm)表示当前激光雷达探测区域最小值的计算奖励，ln=la/MAx表示激光雷 180 09 00.250.500.751.0 达的最小探测值的正则化值，MAx表示激光雷达雷达射线 (a)带有偏置奖励参数的奖励分布的最大侦测范围，G()表示激光雷达最小值所在方位引起的奖励偏置因子，其中表示激光雷达传 909 120° 609 感器探测到最短激光值所在位置的正则化序号值，其具体表述及序号关系详述于图1。上述两 150° 值的计算公式为 ∫aser(lnin）=-emw -6 1G(z)=U-D×(1-) 式中：k表示避障增益，o表示避障奖励的偏移量， 80 00.250.500.751.00 在本文中两者分别为20和0.5，该奖励值随l的雷达射线 (b)无偏置奖励参数的奖励分布变化如图7所示。图8奖励分布 Fig.8 Bonus distribution 3.3经验优先采样机制在经验回放过程中，经验的选择会影响Q网一5 络的收敛速度，进而影响策略网络的训练。而传 -6 统的均匀采样不能显著提高Q网络的训练速度， -7 因此，本文采用了基于Q网络损失值的经验优先 0 0.2 0.40.60.8 1.0 雷达射线长度采样算法并进行改进，其核心在于根据Q值网络图7避障奖励值变化的损失值构建每一条经验的采样优先性，其主要 Fig.7 Changes of obstacle avoidance bonus value 流程为：对于每条经验e及其Q值网络的损失L(e), 此外，U和D分别表示偏置上限和偏置零点的定义其采样优先度为位置，在本文中U和D分别为3和2.5。因而，避障 Lo(e:) P(e)= 奖励函数的最终计算公式为 ∑.Le -l0,l1min≤0.1 式中ε表示采样优先度指数，当ε=0时代表算法采 = (n, Imin >0.1 用均匀采样方法。在经验采样时，算法按照概率将上式标绘在平面直角坐标系中得到图8(a), P(e,)随机选择经验组成训练经验组。因此，在实同时作为对比，图8(b)也标绘了G(a)=1时的奖励际训练时，每条经验被采样的概率正比于其损分布。失函数L(e),因此可以显著提高Q网络的收敛从图8(a)的奖励状态分布可知，如果距离机速度。器人最近的障碍物位于机器人两侧时，无偏置的此外，由于Q值网络的更新会改变Q值网络奖励算法将输出同样的奖励结果，这导致了两辆的分布，从而改变经验e,的Q值期望，因此基于优车辆在相遇时，无法准确对对方的形为进行预测先级的经验回放算法会引入偏差，需要对优先采并进行有效规避，从而导致发生碰撞，而带有偏样获得的经验添加重要性修正权重以降低偏差，置的奖励计算方法可以对机器人左右两侧的信息其计算公式为进行有效区分，从而保证强化学习算法在训练过 1 程中对于左侧和右侧的障碍物表现出明显的倾向 w(e）=8-Pea 性，因此可以保证车辆在相遇时会根据自身预设式中：B表示经验样本集合的容量，s表示算法的的策略倾向实现在无通讯信息条件下多机器人间修正权重，因此，修正后的策略网络的参数更新的安全导航避障。公式为

器人的社会范式状态的问题提出了一种新的基于激光雷达信息的连续空间社会范式奖励计算方法，其计算公式为 rl = [rlaser(lmin)·G(z)]| 9.9 −9.9 rlaser(lmin)·G(z) [−9.9,9.9] rlaser(lmin) lmin = lmin/lMAX lMAX G(z) z 上式表示的值最终在的边界区间内，其中表示当前激光雷达探测区域最小值的计算奖励，表示激光雷达的最小探测值的正则化值，表示激光雷达的最大侦测范围，表示激光雷达最小值所在方位引起的奖励偏置因子，其中表示激光雷达传感器探测到最短激光值所在位置的正则化序号值，其具体表述及序号关系详述于图 1。上述两值的计算公式为 { rlaser(lmin) = −e kl (lmin−ol ) G(z) = U − D×(1−z) kl ol lmin 式中：表示避障增益，表示避障奖励的偏移量，在本文中两者分别为 20 和 0.5，该奖励值随的变化如图 7 所示。 −6 −7 −8 −4 −5 −3 −2 −1 0 0 0.2 0.4 0.6 0.8 1.0 奖励值雷达射线长度图 7 避障奖励值变化 Fig. 7 Changes of obstacle avoidance bonus value U D U D 此外，和分别表示偏置上限和偏置零点的位置，在本文中和分别为 3 和 2.5。因而，避障奖励函数的最终计算公式为 r CA t =    −10, lmin ⩽ 0.1 r1 , lmin > 0.1 G(z) = 1 将上式标绘在平面直角坐标系中得到图 8(a)，同时作为对比，图 8(b) 也标绘了时的奖励分布。从图 8(a) 的奖励状态分布可知，如果距离机器人最近的障碍物位于机器人两侧时，无偏置的奖励算法将输出同样的奖励结果，这导致了两辆车辆在相遇时，无法准确对对方的形为进行预测并进行有效规避，从而导致发生碰撞，而带有偏置的奖励计算方法可以对机器人左右两侧的信息进行有效区分，从而保证强化学习算法在训练过程中对于左侧和右侧的障碍物表现出明显的倾向性，因此可以保证车辆在相遇时会根据自身预设的策略倾向实现在无通讯信息条件下多机器人间的安全导航避障。雷达射线 (a) 带有偏置奖励参数的奖励分布 180° 150° 0 0.25 0.50 0.75 1.00 120° 90° 60° 30° 0°奖励值 −6 −8 −4 −2 雷达射线 (b) 无偏置奖励参数的奖励分布 180° 150° 0 0.25 0.50 0.75 1.00 120° 90° 60° 30° 0°奖励值 −6 −8 −4 −2 图 8 奖励分布 Fig. 8 Bonus distribution 3.3 经验优先采样机制 ei Lθ(ei) 在经验回放过程中，经验的选择会影响 Q 网络的收敛速度，进而影响策略网络的训练。而传统的均匀采样不能显著提高 Q 网络的训练速度，因此，本文采用了基于 Q 网络损失值的经验优先采样算法并进行改进，其核心在于根据 Q 值网络的损失值构建每一条经验的采样优先性，其主要流程为：对于每条经验及其 Q 值网络的损失，定义其采样优先度为 P(ei) = Lθ(ei) ε ∑ e Lθ(e) ε ε ε = 0 P(ei) ei Lθ(ei) 式中表示采样优先度指数，当时代表算法采用均匀采样方法。在经验采样时，算法按照概率随机选择经验组成训练经验组。因此，在实际训练时，每条经验被采样的概率正比于其损失函数，因此可以显著提高 Q 网络的收敛速度。 ei 此外，由于 Q 值网络的更新会改变 Q 值网络的分布，从而改变经验的 Q 值期望，因此基于优先级的经验回放算法会引入偏差，需要对优先采样获得的经验添加重要性修正权重以降低偏差，其计算公式为 ω(ei) = ( 1 |B| · P(ei) )ς 式中： |B| 表示经验样本集合的容量， ς 表示算法的修正权重，因此，修正后的策略网络的参数更新公式为 ·756· 智能系统学报第 17 卷

第4期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·757· +p+au(e)Lo(e)VJ(e) 本研究使用Gazebo物理仿真环境作为机器而在本研究中，由于Q值损失函数LS(e,),Lv(e,】人在实际环境中的模拟环境，并使用了Turtlebot3 不为单一值，因此在本文中，需要对经验的采样作为虚拟实验机器人，其装载有一个激光雷达扫优先级算法进行修改，本文使用了线性加权法修描仪，其探测距离为3.5m,激光雷达的采样率为改了经验采样优先级，因此经验采样优先级的算 128Hz,采样范围为180°。法更新为 4.2实验环境 nL(e,）+[zLv(e P(e)= 本文所述ROS系统基于Ubuntul8.04,使用虚 ∑.n,Le)+Le可拟机器人为Turtlebot3 waffle,在Gazebo中构建避当新的经验ew被加人到经验池中时，会替代障模拟环境如图10所示，本实验中=20。图中，当前经验池中采样优先度最小的经验，其采样优绿色圆形区域为机器人的目标点区域，红色区域先级会被设置为1。则表示障碍物，实际执行时，机器人将在一个非综上，多特征策略梯度算法的主要流程如下：障碍物且非目标点的区域随机初始化，并在3个 1)初始化策略网络，2个Q值网络[Q,Q]; 目标点中随机选择一个作为任务目标。 2)创建目标策略网络和目标Q值网络π。， [Q",Q],其参数来自π。和[Q",Q]; 3)初始化经验池N,其最大容量为： 4)当不满足终止条件时，获取当前代理状态S; 5)根据当前状态选择动作a,=π(s),并由代理执行； 6)获取下一时刻状态s1与奖励心，： 7)将当前经验e,={s,a,,A,5+加入经验池； 8)如果W≥n,根据Q值网络更新方式从 W采样训练经验集合1B,更新Q值网络Q公w和图10机器人导航实验环境 Fig.10 Robot navigation experiment environment Q,按照公式(2)更新策略网络参数； 9)如果达到策略网络更新条件，中*←中； 4.3实验结果 10)如果达到Q值网络更新条件，←a 通过训练，获得了基于MFPG算法的机器人 A*←GA; 导航模型，在训练过程中，与传统DDPG算法以 11)返回更新后策略网络π60 及加入奖励偏执的DDPG算法相比，机器人每步动作获得的奖励值及对应Q值随训练步长的变 4单机器人实验及结果分析化如图11所示。 3种算法在训练过程中均具有收敛特征，但 4.1基于ROS的移动机器人控制架构本文构建了基于ROS的多机器人控制系统相比较而言，带有偏置奖励的DDPG算法稳定性较差，训练过程中奖励值和Q值均出现大幅度波以供强化学习算法进行机器人路径导航训练学动，且方差区间较高，而标准DDPG算法则表现习，每个机器人与ROS主机的信息构图框架图如出相对稳定的特征，并具有较为稳定的方差区图9所示。间，Q值和奖励在训练过程中变化稳定，表明算 ROS topic Robot 國任务分配法可以较好的应对多机器人避障问题，但仍存在坐标转换 Gazebe /odometry 训练过程中训练速度较慢等问题，而在本文所述模块状态处理多目标策略梯度优化算法中，从导航和避障奖励强化学习瑞口中可以看出，算法在训练早期(1000步)时已经可展國奖励计算 laser scar 以稳定获得较高奖励且在后续训练过程中仍能动作执行动作反馈保持稳定，且方差较小，同时Q值网络方差较小， /cmd vel 接口且数值变化稳定，导航方面Q值的增长速度明显图9基于ROS的单机器人控制系统优于标准DDPG算法，说明本文所述多目标策略 Fig.9 Single robot control system based on ROS 梯度优化算法可以较好的完成多机器人避障任

φ ← φ+αω(e)Lθ(e)∇φ J(e) [L CA θ (ei),L Nav θ 而在本研究中，由于Q值损失函数 (ei)] 不为单一值，因此在本文中，需要对经验的采样优先级算法进行修改，本文使用了线性加权法修改了经验采样优先级，因此经验采样优先级的算法更新为 P(ei) = η1L CA θ (ei)+[η2L Nav θ (ei)]ε ∑ e [ η1L CA θ (ei)+η2L Nav θ (ei) ] 当新的经验enew被加入到经验池中时，会替代当前经验池中采样优先度最小的经验，其采样优先级会被设置为 1。综上，多特征策略梯度算法的主要流程如下： [Q Nav π ,Q CA π 1) 初始化策略网络，2 个 Q 值网络 ] ； π ∗ ϕ [Q Nav π ∗ ,Q CA π ∗ ] πϕ [Q Nav π ,Q CA π ] 2) 创建目标策略网络和目标 Q 值网络，，其参数来自和； 3) 初始化经验池 N ，其最大容量为n； st 4) 当不满足终止条件时，获取当前代理状态； 5) 根据当前状态选择动作at = πϕ(st) ，并由代理执行； st+1 r Nav t ,r CA 6 t ) 获取下一时刻状态与奖励； et = {st ,at ,r Nav t ,r CA t 7) 将当前经验 ,st+1} 加入经验池； |N| ⩾ n |N| |B| Q Nav π Q CA π 8 ) 如果，根据 Q 值网络更新方式从采样训练经验集合，更新 Q 值网络和，按照公式（2）更新策略网络参数; 9) 如果达到策略网络更新条件， ϕ∗ ← ϕ ； θ Nav∗ ← θ Nav θ CA∗ ← θ CA 10) 如果达到 Q 值网络更新条件，，； 11) 返回更新后策略网络πϕ。 4 单机器人实验及结果分析 4.1 基于 ROS 的移动机器人控制架构本文构建了基于 ROS 的多机器人控制系统以供强化学习算法进行机器人路径导航训练学习，每个机器人与 ROS 主机的信息构图框架图如图 9 所示。 Gazebo 物理模拟引擎 ROS topic Robot /odometry /laser_scan 激光信息处理模块前一时刻目标坐标坐标转换模块任务目标处理模块状态处理奖励计算强化学习端口任务分配主机动作执行动作反馈 /cmd_vel 接口图 9 基于 ROS 的单机器人控制系统 Fig. 9 Single robot control system based on ROS 本研究使用 Gazebo 物理仿真环境作为机器人在实际环境中的模拟环境，并使用了 Turtlebot3 作为虚拟实验机器人，其装载有一个激光雷达扫描仪，其探测距离为 3.5 m，激光雷达的采样率为 128 Hz，采样范围为 180°。 4.2 实验环境 ξ = 20 本文所述 ROS 系统基于 Ubuntu18.04，使用虚拟机器人为 Turtlebot3 waffle，在 Gazebo 中构建避障模拟环境如图 10 所示，本实验中。图中，绿色圆形区域为机器人的目标点区域，红色区域则表示障碍物，实际执行时，机器人将在一个非障碍物且非目标点的区域随机初始化，并在 3 个目标点中随机选择一个作为任务目标。图 10 机器人导航实验环境 Fig. 10 Robot navigation experiment environment 4.3 实验结果通过训练，获得了基于 MFPG 算法的机器人导航模型，在训练过程中，与传统 DDPG 算法以及加入奖励偏执的 DDPG 算法相比，机器人每步动作获得的奖励值及对应 Q 值随训练步长的变化如图 11 所示。 3 种算法在训练过程中均具有收敛特征，但相比较而言，带有偏置奖励的 DDPG 算法稳定性较差，训练过程中奖励值和 Q 值均出现大幅度波动，且方差区间较高，而标准 DDPG 算法则表现出相对稳定的特征，并具有较为稳定的方差区间，Q 值和奖励在训练过程中变化稳定，表明算法可以较好的应对多机器人避障问题，但仍存在训练过程中训练速度较慢等问题，而在本文所述多目标策略梯度优化算法中，从导航和避障奖励中可以看出，算法在训练早期（1 000 步）时已经可以稳定获得较高奖励且在后续训练过程中仍能保持稳定，且方差较小，同时 Q 值网络方差较小，且数值变化稳定，导航方面 Q 值的增长速度明显优于标准 DDPG 算法，说明本文所述多目标策略梯度优化算法可以较好的完成多机器人避障任第 4 期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·757·

·758· 智能系统学报第17卷务。经过多次测试，机器人导航避障成功率约为根据其位置调整其航向向右前方行驶(25~29s), 95.3% 从而成功躲避了移动障碍物，31s至47s机器人 10.0 按照自身信息及位置导航至目标点。 7.5 5.0 2.5 0 11s 13s -2.5 -5.0 17s ·合G+G+G+广oG 19 -7.5 0 1000200030004000500060007000 23s 训练步数 25s (a)训练过程中的奖励值 29s 200 35s 150 (a)单机器人动态障碍物避障测试1 100 0 -50 01000200030004000500060007000 训练步数 (b)训练过程中的Q值图11模型训练 Fig.11 Model training 4.4现实环境实验测试本节将前述小节中的机器人避障算法模型移 (⑥)单机器人的静态寻路测试轨迹1 植进入基于ROS的移动机器人平台中，并在实验场地分别进行静态寻路测试和动态障碍物避障测试，最终得到结果如图12所示，展示了2个导航过程的行进示意和轨迹图。在图12(a)和(b)中可以观察到机器人从地图 (©)单机器人的静态寻路测试轨迹2 左侧中间出发向右侧的通道行进，其行进图如图 Is 所示。途中经过3个障碍物，并两次与动态障碍物相遇，从行进图中可以发现，第1~5s,机器人发 11s 现右前方障碍物，并向着第1个和第2个障碍物 13s 之间的空间前进，第7s出现移动障碍物，机器人 17s 19s 判断形势，在11s向左侧规避，但在13s发现移 23s 动障碍物已经快速达到左侧，因此在13~15s恢复 25s 正常航向，向右前侧出发，并调整姿态，避让第3 29s 31s 个障碍物，此时移动障碍物从右侧出现，并在21s 35s 37s 快速移动到机器人右侧，此时机器人已经经过第 41s 3个障碍物，向左前侧前进(21s),并在23~35s正 43s 常导航直至抵达任务规定目标点。 47s (d单机器人动态障碍物避障测试2 在图12(c)和(d)中机器人从地图右侧中间出发，向其左前侧的区域前进，途中机器人经过3个图12单机器人静态测试结果静态障碍物并与动态障碍物进行一次相遇，图 Fig.12 Single robot static test results 中，1~9s机器人探测到前方的两个障碍物，并选从图中可以看出，移动机器可以准确完成机择从二者中间的空间经过，11s开始，动态障碍物器人控制以及寻路任务，且对于移动障碍物具有开始出现，19~23s机器人探测到移动障碍物，并明显的避障及寻路特征，说明训练所得算法在移

务。经过多次测试，机器人导航避障成功率约为 95.3%。 0 2 000 3 000 4 000 5 000 6 000 1 000 7 000 训练步数 (b) 训练过程中的 Q 值 Q 值 −50 0 50 100 150 200 QMFPG CA QMFPG Nav QDDPG SN QDDPG 0 2 000 3 000 4 000 5 000 6 000 1 000 7 000 训练步数 (a) 训练过程中的奖励值奖励值 −5.0 −7.5 −2.5 0 2.5 5.0 7.5 10.0 rMFPG CA rMFPG Nav rDDPG SN rDDPG 图 11 模型训练 Fig. 11 Model training 4.4 现实环境实验测试本节将前述小节中的机器人避障算法模型移植进入基于 ROS 的移动机器人平台中，并在实验场地分别进行静态寻路测试和动态障碍物避障测试，最终得到结果如图 12 所示，展示了 2 个导航过程的行进示意和轨迹图。在图 12(a) 和 (b) 中可以观察到机器人从地图左侧中间出发向右侧的通道行进，其行进图如图所示。途中经过 3 个障碍物，并两次与动态障碍物相遇，从行进图中可以发现，第 1~5 s，机器人发现右前方障碍物，并向着第 1 个和第 2 个障碍物之间的空间前进，第 7 s 出现移动障碍物，机器人判断形势，在 11 s 向左侧规避，但在 13 s 发现移动障碍物已经快速达到左侧，因此在 13~15 s 恢复正常航向，向右前侧出发，并调整姿态，避让第 3 个障碍物，此时移动障碍物从右侧出现，并在 21 s 快速移动到机器人右侧，此时机器人已经经过第 3 个障碍物，向左前侧前进（21 s），并在 23~35 s 正常导航直至抵达任务规定目标点。在图 12(c) 和 (d) 中机器人从地图右侧中间出发，向其左前侧的区域前进，途中机器人经过 3 个静态障碍物并与动态障碍物进行一次相遇，图中，1~9 s 机器人探测到前方的两个障碍物，并选择从二者中间的空间经过，11s 开始，动态障碍物开始出现，19~23 s 机器人探测到移动障碍物，并根据其位置调整其航向向右前方行驶 (25~29 s)，从而成功躲避了移动障碍物，31 s 至 47 s 机器人按照自身信息及位置导航至目标点。 (a) 单机器人动态障碍物避障测试 1 (b) 单机器人的静态寻路测试轨迹 1 (c) 单机器人的静态寻路测试轨迹 2 1s 7s 13s 19s 25s 31s 5s 11s 17s 23s 29s 35s (d) 单机器人动态障碍物避障测试 2 1s 7s 13s 19s 25s 31s 37s 43s 5s 11s 17s 23s 29s 35s 41s 47s 图 12 单机器人静态测试结果 Fig. 12 Single robot static test results 从图中可以看出，移动机器可以准确完成机器人控制以及寻路任务，且对于移动障碍物具有明显的避障及寻路特征，说明训练所得算法在移 ·758· 智能系统学报第 17 卷

第4期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·759· 动机器人控制中可以执行有障碍物状态下的寻路样，并进行学习，逐渐提高算法的决策能力。和动态避障任务。 5.2控制信号解码由于Turtlebot3与远程主机使用WIFI网络连 5分布式异构多机器人实验接，实际执行过程中容易受到无线信号影响，因本节将在先前基础上建立多机器人系统的控此，需要对两个Turtlebot3的动作信息进行处理以制流程，搭建用于多机器人导航的虚拟环境并进保证动作信息在通信延迟较高的环境下仍然可以行训练，最后使用多台移动机器人平台进行寻路正常运行。实验。为了保证机器人的动作信息能够正常执行导 5.1分布式多机器人控制结构航算法，将应用在机器人上的策略数值进行了缩由于训练过程中机器人需要在环境中进行放，保证机器人能正常执行动作策略，其具体计初期探索并积累经验池的经验，使用多机器人系算公式为统在训练早期可以有效提高经验搜集效率，缩短 2 a=3元arctan(16ms,》训练模型学习时间，从而提高算法训练效率，因此本文在前述单机器人导航任务实验的基础上，式中：à，表示缩放后的策略数值，此后提出了实体构建了多机器人训练的流程模型，其流程图可见机器人控制时的策略融合方法，其公式为图13。 ay=[a,a-1a-2[0.625l,0.25l-10.125L-2J 式中：1，表示时刻的状态补偿参数，用来降低由于通信阻塞情况导致的策略误差，其定义为经验信息 1,a0≥0 1201. 其他虚拟环境 9 执行任务时，为了保证算法能同时开始执行经验优先多特征策略人工势场回放算法梯度优化算法导航动作，在Liux系统中搭建了一个本地NTP RNay N 服务器用于保证Turtlebot3、远程主机和板载主机经验池M 4≥m 之间的时间统一，实际执行时，板载主机通过 WIFI连接向远程主机申请进行时间校验，并根据返回时间对自身信息进行校验，此后两个主机将图13多机器人训练流程选择同一时间执行导航任务。 Fig.13 Multi-robot training process 5.3模拟厂区的导航及避障测试及分析 1)算法获取虚拟环境中机器人的信息（激光雷 5.3.1训练环境达传感器数值，坐标位置信息)，并进行预处理；本节在前述机器人控制架构的基础上构建了 2)将上述预处理后得到的状态信息和动作模拟厂区环境，其环境如图14所示。信息和奖励信息一起添加进经验回放池，留待训练： 3)判断当前经验池的状态，如果没有达到经验回放池上限，则使用人工势场算法，根据机器人的状态信息进行判断，并提出决策信息。 4)如果经验回放池达到上限，则开始强化学习算法的网络训练，神经网络会替代人工势场算法作为多机器人系统的控制算法，同时搜集新的经验信息替换已有的经验： 5)重复3)4)，直到达到终止条件。其中为了提高早期经验搜集效率，增加经验池中优质经验比例，提高算法学习效率，在经验池达到上限之前，在环境中的各个机器人采用人工势场法进行导航，当经验池达到上限时，MFPG 图14训练环境开始根据改进的人工势场算法对经验池进行采 Fig.14 Training environment

动机器人控制中可以执行有障碍物状态下的寻路和动态避障任务。 5 分布式异构多机器人实验本节将在先前基础上建立多机器人系统的控制流程，搭建用于多机器人导航的虚拟环境并进行训练，最后使用多台移动机器人平台进行寻路实验。 5.1 分布式多机器人控制结构由于训练过程中机器人需要在环境中进行初期探索并积累经验池的经验，使用多机器人系统在训练早期可以有效提高经验搜集效率，缩短训练模型学习时间，从而提高算法训练效率，因此本文在前述单机器人导航任务实验的基础上，构建了多机器人训练的流程模型，其流程图可见图 13。虚拟环境多特征策略梯度优化经验优先回放算法经验信息 at st st st+1 at 经验池 M R Nav R CA πθ N Y 人工势场算法 |M|≥m 图 13 多机器人训练流程 Fig. 13 Multi-robot training process 1) 算法获取虚拟环境中机器人的信息（激光雷达传感器数值，坐标位置信息），并进行预处理； 2) 将上述预处理后得到的状态信息和动作信息和奖励信息一起添加进经验回放池，留待训练； 3) 判断当前经验池的状态，如果没有达到经验回放池上限，则使用人工势场算法，根据机器人的状态信息进行判断，并提出决策信息。 4) 如果经验回放池达到上限，则开始强化学习算法的网络训练，神经网络会替代人工势场算法作为多机器人系统的控制算法，同时搜集新的经验信息替换已有的经验； 5) 重复 3)~4)，直到达到终止条件。其中为了提高早期经验搜集效率，增加经验池中优质经验比例，提高算法学习效率，在经验池达到上限之前，在环境中的各个机器人采用人工势场法进行导航，当经验池达到上限时，MFPG 开始根据改进的人工势场算法对经验池进行采样，并进行学习，逐渐提高算法的决策能力。 5.2 控制信号解码由于 Turtlebot3 与远程主机使用 WIFI 网络连接，实际执行过程中容易受到无线信号影响，因此，需要对两个 Turtlebot3 的动作信息进行处理以保证动作信息在通信延迟较高的环境下仍然可以正常运行。为了保证机器人的动作信息能够正常执行导航算法，将应用在机器人上的策略数值进行了缩放，保证机器人能正常执行动作策略，其具体计算公式为 aˆt = 2 3π arctan(16π(st)) 式中：aˆt表示缩放后的策略数值，此后提出了实体机器人控制时的策略融合方法，其公式为 af = [ˆat aˆt−1 aˆt−2]·[0.625It 0.25It−1 0.125It−2] T It 式中：表示 t 时刻的状态补偿参数，用来降低由于通信阻塞情况导致的策略误差，其定义为 It= { 1, at · θ ⩾ 0 0.7, 其他执行任务时，为了保证算法能同时开始执行导航动作，在 Linux 系统中搭建了一个本地 NTP 服务器用于保证 Turtlebot3、远程主机和板载主机之间的时间统一，实际执行时，板载主机通过 WIFI 连接向远程主机申请进行时间校验，并根据返回时间对自身信息进行校验，此后两个主机将选择同一时间执行导航任务。 5.3 模拟厂区的导航及避障测试及分析 5.3.1 训练环境本节在前述机器人控制架构的基础上构建了模拟厂区环境，其环境如图 14 所示。 1 2 4 3 图 14 训练环境 Fig. 14 Training environment 第 4 期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·759·

·760· 智能系统学报第17卷我们选用4个移动机器人进行算法的训练以障和导航问题中相对标准DDPG算法具有显著及测试。在训练过程中，每个机器人随机选择图优势。中绿色圆形区域和绿色方框区作为算法的任务初始点，并随机选择除该机器人初始点以外的其他任务初始点作为导航目标。机器人通过算法输出的运动指令向目标区域进行移动，完成各自的导航任务。在算法的性能测试过程中，车辆被随机分配至四个圆形区域，而其导航目标位置为该车的起始点在模拟工厂环境的对角位置，即对于为 1的机器人，其目标位置设置在3。 5.3.2训练结果经过200轮训练后，对所得模型进行效果较好者进行性能测试对比，得到两算法在模拟厂区环境下的性能测试结果如表1所示。在本实验 ·Rob1 中，实验参数为总训练回合数：400，单回合最多 ·Rob3 Rob4 执250步，ROS系统运行频率45Hz,5=20。 (a)特征策略优化算法轨迹表1算法性能对比 Table 1 Comparison of algorithm performance 平均碰撞距离最小距离圆面积算法成功率均值方差均值方差标准DDPG73.3% 4.52 6.45 60.76 34.4 MFPG 80.5% 2.84 5.27 5.5 12.23 在测试中，采用了平均碰撞距离作为算法导航性能的衡量标准，其定义为：机器人发生碰撞时，距离目标点的直线距离，较小的平均碰撞距离反映算法具有较好的导航能力。从表中可以看 Robl ·Rob2 出，相比较标准DDPG算法，本文所述多特征策 ◆Rob3 Rob4 略优化算法具有更高的成功率，并且平均碰撞距 (b)标准DDPG算法轨迹离和最小距离圆面积的均值和方差也是小于标图15路径轨迹准DDPG算法，说明所提出的基于多特征策略梯 Fig.15 Path trajectory 度优化方法的多机器人导航具有较高的可靠性。此外，为保证本算法所训练模型不受机器人将上述2种算法在模拟厂区环境中的路径轨迹标绘在图中可以得到图15。数目的影响，使用在前述算法所训练的模型在从图中可以看出，多特征策略优化算法控制 8个机器人的模拟工厂环境中进行了寻路测试，下的多机器人轨迹相对平滑，具有较小的波动，由于实验机器人数目增加，为保证每个机器人的且多机器人在相遇时具有较为规范的避让动作，控制频率符合模型的控制频率，本次实验中ROS 保证了多机器人系统在执行过程中的控制稳定系统的控制频率为90Hz,获得寻路轨迹如图16 性，而标准DDPG算法在导航过程中则具有较所示。多的控制波动，说明算法在执行过程中存在决策从图中可以看出，多个机器人在执行任务过稳定性差的情况，且在多个机器人相遇时，机器程中在车流量较高的中心区域可以正常通行，且人轨迹波动严重，这说明算法在多机器人相遇时均遵循右手通行原则，保证了多机器人系统运行处理动态障碍物能力较差，这对多机器人系统而时的安全性，测试结果表明所提出的算法模型不言是致命的，而统计结果也表明了所提出的多特受多机器人系统中机器人数目的影响，因而提高征策略梯度优化方法在多机器人系统中的动态避了该方法在多机器人系统中的应用范围

我们选用 4 个移动机器人进行算法的训练以及测试。在训练过程中，每个机器人随机选择图中绿色圆形区域和绿色方框区作为算法的任务初始点，并随机选择除该机器人初始点以外的其他任务初始点作为导航目标。机器人通过算法输出的运动指令向目标区域进行移动，完成各自的导航任务。在算法的性能测试过程中，车辆被随机分配至四个圆形区域，而其导航目标位置为该车的起始点在模拟工厂环境的对角位置，即对于为 1 的机器人，其目标位置设置在 3。 5.3.2 训练结果 ξ = 20 经过 200 轮训练后，对所得模型进行效果较好者进行性能测试对比，得到两算法在模拟厂区环境下的性能测试结果如表 1 所示。在本实验中，实验参数为总训练回合数：400，单回合最多执 250 步，ROS 系统运行频率 45 Hz，。表 1 算法性能对比 Table 1 Comparison of algorithm performance 算法成功率平均碰撞距离最小距离圆面积均值方差均值方差标准DDPG 73.3% 4.52 6.45 60.76 34.4 MFPG 80.5% 2.84 5.27 5.5 12.23 在测试中，采用了平均碰撞距离作为算法导航性能的衡量标准，其定义为：机器人发生碰撞时，距离目标点的直线距离，较小的平均碰撞距离反映算法具有较好的导航能力。从表中可以看出，相比较标准 DDPG 算法，本文所述多特征策略优化算法具有更高的成功率，并且平均碰撞距离和最小距离圆面积的均值和方差也是小于标准 DDPG 算法，说明所提出的基于多特征策略梯度优化方法的多机器人导航具有较高的可靠性。将上述 2 种算法在模拟厂区环境中的路径轨迹标绘在图中可以得到图 15。从图中可以看出，多特征策略优化算法控制下的多机器人轨迹相对平滑，具有较小的波动，且多机器人在相遇时具有较为规范的避让动作，保证了多机器人系统在执行过程中的控制稳定性，而标准 DDPG 算法在导航过程中则具有较多的控制波动，说明算法在执行过程中存在决策稳定性差的情况，且在多个机器人相遇时，机器人轨迹波动严重，这说明算法在多机器人相遇时处理动态障碍物能力较差，这对多机器人系统而言是致命的，而统计结果也表明了所提出的多特征策略梯度优化方法在多机器人系统中的动态避障和导航问题中相对标准 DDPG 算法具有显著优势。 Rob1 Rob2 Rob3 Rob4 (a) 特征策略优化算法轨迹 (b) 标准 DDPG 算法轨迹 Rob1 Rob2 Rob3 Rob4 图 15 路径轨迹 Fig. 15 Path trajectory 此外，为保证本算法所训练模型不受机器人数目的影响，使用在前述算法所训练的模型在 8 个机器人的模拟工厂环境中进行了寻路测试，由于实验机器人数目增加，为保证每个机器人的控制频率符合模型的控制频率，本次实验中 ROS 系统的控制频率为 90 Hz，获得寻路轨迹如图 16 所示。从图中可以看出，多个机器人在执行任务过程中在车流量较高的中心区域可以正常通行，且均遵循右手通行原则，保证了多机器人系统运行时的安全性，测试结果表明所提出的算法模型不受多机器人系统中机器人数目的影响，因而提高了该方法在多机器人系统中的应用范围。 ·760· 智能系统学报第 17 卷

第4期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·761· 13s 21s 25s 33s 37s 45 49s 57 (a)多机器人实验车辆测试1 Robl Rob2 Rob3 10s Rob4 22s Robe 37 34s ·Rob8 46s 图168机器人寻路路径轨迹 51s Fig.16 8 Robot path trajectory 70s 63s 5.4实体机器人实验 66s 本次测试使用的控制主机与前述相同，场地 (b)多机器人实验车辆测试2 参数=5，运行速度0.4m/s。机器人的抵达目标图17多机器人动态避障导航实验 Fig.17 的感知半径为0.5m,本次实验共计使用了2台远 Dynamic obstacle avoidance navigation experi- ment of multiple robots 程主机和1台板载主机，3台主机均连接至同一其具体轨迹如图18所示，轨迹图18(a)和无线网络，2台Turtlebot3机器人具有自己的IP 18(b)中红色机器人从图中上方向下方移动，而黄地址，并由2台远程主机控制，为保证能够对色机器人则从下方向上方移动，而轨迹图1中板 2台Turtlebot.3进行区分，也方便板载机器人获取载机器人则从左侧移动至右侧，而在18(b)中则其位置信息，在机器人顶端分别安装了红色和黄从右侧移动至左侧，图中蓝色虚线表示板载主机色的标识盒。机器人的路径轨迹，绿色虚线表示黄色机器人的在行进图17(a)中黄色小车从下方开始从左路径轨迹，红色虚线则表示红色机器人的路径轨侧运动并在达到边界后向右上侧运动，最终抵达迹信息。目标点，而红色小车则在13s与板载主机机器人相遇，而后红色机器人感知到板载机器人位置，并执行避让动作，并在红色机器人与板载机器人之间出现可以通行的空间时，从板载主机机器人侧后方向前行驶，避免了与板载主机机器人的碰撞，二者在最后分别抵达目标点。而在行进图17(b)中，黄色机器人运行时感知 (a)多移动机器人实机测试轨迹1 到板载主机机器人位置，选择从右侧行进，但在运行过程中判断与板载主机机器人发生碰撞的可能行较高，因此在33s时选择机器人板载机器人侧后方行进，并在脱离板载主机机器人碰撞范围后向目标点行进，最终抵达目标，而板载主机机器人则探测到其左侧存在红色机器人并向其运动 (b)多移动机器人实机测试轨迹2 方向前方运行，因此选择向红色机器人后侧转图18机器人轨迹弯，红色机器人则选择向左前方运行，以避让板 Fig.18 Robot trajectory 载主机机器人，而板载主机机器人在红色机器人实验结果显示，3辆移动机器人平台在实验离开后向目标点导航，最终二者顺利抵达目过程中可以感知到其他机器人的移动位置并执行标点。相应的回避动作，最终安全抵达实验预定的目标

Rob1 Rob2 Rob3 Rob4 Rob5 Rob6 Rob7 Rob8 图 16 8 机器人寻路路径轨迹 Fig. 16 8 Robot path trajectory 5.4 实体机器人实验 ξ = 5 本次测试使用的控制主机与前述相同，场地参数，运行速度 0.4 m/s。机器人的抵达目标的感知半径为 0.5 m，本次实验共计使用了 2 台远程主机和 1 台板载主机， 3 台主机均连接至同一无线网络，2 台 Turtlebot3 机器人具有自己的 IP 地址，并由 2 台远程主机控制，为保证能够对 2 台 Turtlebot3 进行区分，也方便板载机器人获取其位置信息，在机器人顶端分别安装了红色和黄色的标识盒。在行进图 17(a) 中黄色小车从下方开始从左侧运动并在达到边界后向右上侧运动，最终抵达目标点，而红色小车则在 13 s 与板载主机机器人相遇，而后红色机器人感知到板载机器人位置，并执行避让动作，并在红色机器人与板载机器人之间出现可以通行的空间时，从板载主机机器人侧后方向前行驶，避免了与板载主机机器人的碰撞，二者在最后分别抵达目标点。而在行进图 17(b) 中，黄色机器人运行时感知到板载主机机器人位置，选择从右侧行进，但在运行过程中判断与板载主机机器人发生碰撞的可能行较高，因此在 33 s 时选择机器人板载机器人侧后方行进，并在脱离板载主机机器人碰撞范围后向目标点行进，最终抵达目标，而板载主机机器人则探测到其左侧存在红色机器人并向其运动方向前方运行，因此选择向红色机器人后侧转弯，红色机器人则选择向左前方运行，以避让板载主机机器人，而板载主机机器人在红色机器人离开后向目标点导航，最终二者顺利抵达目标点。 (a) 多机器人实验车辆测试 1 1s 13s 25s 37s 49s 9s 21s 33s 45s 57s (b) 多机器人实验车辆测试 2 1s 13s 25s 37s 49s 51s 63s 10s 22s 34s 46s 58s 70s 66s 图 17 多机器人动态避障导航实验 Fig. 17 Dynamic obstacle avoidance navigation experiment of multiple robots 其具体轨迹如图 18 所示，轨迹图 18(a) 和 18(b) 中红色机器人从图中上方向下方移动，而黄色机器人则从下方向上方移动，而轨迹图 1 中板载机器人则从左侧移动至右侧，而在 18(b) 中则从右侧移动至左侧，图中蓝色虚线表示板载主机机器人的路径轨迹，绿色虚线表示黄色机器人的路径轨迹，红色虚线则表示红色机器人的路径轨迹信息。 (a) 多移动机器人实机测试轨迹 1 (b) 多移动机器人实机测试轨迹 2 图 18 机器人轨迹 Fig. 18 Robot trajectory 实验结果显示，3 辆移动机器人平台在实验过程中可以感知到其他机器人的移动位置并执行相应的回避动作，最终安全抵达实验预定的目标第 4 期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·761·

点击进入文档下载页（PDF格式）

共12页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录