φ ← φ+αω(e)Lθ(e)∇φ J(e) [L CA θ (ei),

正在加载图片...

第4期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·757· +p+au(e)Lo(e)VJ(e) 本研究使用Gazebo物理仿真环境作为机器而在本研究中，由于Q值损失函数LS(e,),Lv(e,】人在实际环境中的模拟环境，并使用了Turtlebot3 不为单一值，因此在本文中，需要对经验的采样作为虚拟实验机器人，其装载有一个激光雷达扫优先级算法进行修改，本文使用了线性加权法修描仪，其探测距离为3.5m,激光雷达的采样率为改了经验采样优先级，因此经验采样优先级的算 128Hz,采样范围为180°。法更新为 4.2实验环境 nL(e,）+[zLv(e P(e)= 本文所述ROS系统基于Ubuntul8.04,使用虚 ∑.n,Le)+Le可拟机器人为Turtlebot3 waffle,在Gazebo中构建避当新的经验ew被加人到经验池中时，会替代障模拟环境如图10所示，本实验中=20。图中，当前经验池中采样优先度最小的经验，其采样优绿色圆形区域为机器人的目标点区域，红色区域先级会被设置为1。则表示障碍物，实际执行时，机器人将在一个非综上，多特征策略梯度算法的主要流程如下：障碍物且非目标点的区域随机初始化，并在3个 1)初始化策略网络，2个Q值网络[Q,Q]; 目标点中随机选择一个作为任务目标。 2)创建目标策略网络和目标Q值网络π。， [Q",Q],其参数来自π。和[Q",Q]; 3)初始化经验池N,其最大容量为： 4)当不满足终止条件时，获取当前代理状态S; 5)根据当前状态选择动作a,=π(s),并由代理执行； 6)获取下一时刻状态s1与奖励心，： 7)将当前经验e,={s,a,,A,5+加入经验池； 8)如果W≥n,根据Q值网络更新方式从 W采样训练经验集合1B,更新Q值网络Q公w和图10机器人导航实验环境 Fig.10 Robot navigation experiment environment Q,按照公式(2)更新策略网络参数； 9)如果达到策略网络更新条件，中*←中； 4.3实验结果 10)如果达到Q值网络更新条件，←a 通过训练，获得了基于MFPG算法的机器人 A*←GA; 导航模型，在训练过程中，与传统DDPG算法以 11)返回更新后策略网络π60 及加入奖励偏执的DDPG算法相比，机器人每步动作获得的奖励值及对应Q值随训练步长的变 4单机器人实验及结果分析化如图11所示。 3种算法在训练过程中均具有收敛特征，但 4.1基于ROS的移动机器人控制架构本文构建了基于ROS的多机器人控制系统相比较而言，带有偏置奖励的DDPG算法稳定性较差，训练过程中奖励值和Q值均出现大幅度波以供强化学习算法进行机器人路径导航训练学动，且方差区间较高，而标准DDPG算法则表现习，每个机器人与ROS主机的信息构图框架图如出相对稳定的特征，并具有较为稳定的方差区图9所示。间，Q值和奖励在训练过程中变化稳定，表明算 ROS topic Robot 國任务分配法可以较好的应对多机器人避障问题，但仍存在坐标转换 Gazebe /odometry 训练过程中训练速度较慢等问题，而在本文所述模块状态处理多目标策略梯度优化算法中，从导航和避障奖励强化学习瑞口中可以看出，算法在训练早期(1000步)时已经可展國奖励计算 laser scar 以稳定获得较高奖励且在后续训练过程中仍能动作执行动作反馈保持稳定，且方差较小，同时Q值网络方差较小， /cmd vel 接口且数值变化稳定，导航方面Q值的增长速度明显图9基于ROS的单机器人控制系统优于标准DDPG算法，说明本文所述多目标策略 Fig.9 Single robot control system based on ROS 梯度优化算法可以较好的完成多机器人避障任φ ← φ+αω(e)Lθ(e)∇φ J(e) [L CA θ (ei),L Nav θ 而在本研究中，由于Q值损失函数 (ei)] 不为单一值，因此在本文中，需要对经验的采样优先级算法进行修改，本文使用了线性加权法修改了经验采样优先级，因此经验采样优先级的算法更新为 P(ei) = η1L CA θ (ei)+[η2L Nav θ (ei)]ε ∑ e [ η1L CA θ (ei)+η2L Nav θ (ei) ] 当新的经验enew被加入到经验池中时，会替代当前经验池中采样优先度最小的经验，其采样优先级会被设置为 1。综上，多特征策略梯度算法的主要流程如下： [Q Nav π ,Q CA π 1) 初始化策略网络，2 个 Q 值网络 ] ； π ∗ ϕ [Q Nav π ∗ ,Q CA π ∗ ] πϕ [Q Nav π ,Q CA π ] 2) 创建目标策略网络和目标 Q 值网络，，其参数来自和； 3) 初始化经验池 N ，其最大容量为n； st 4) 当不满足终止条件时，获取当前代理状态； 5) 根据当前状态选择动作at = πϕ(st) ，并由代理执行； st+1 r Nav t ,r CA 6 t ) 获取下一时刻状态与奖励； et = {st ,at ,r Nav t ,r CA t 7) 将当前经验 ,st+1} 加入经验池； |N| ⩾ n |N| |B| Q Nav π Q CA π 8 ) 如果，根据 Q 值网络更新方式从采样训练经验集合，更新 Q 值网络和，按照公式（2）更新策略网络参数; 9) 如果达到策略网络更新条件， ϕ∗ ← ϕ ； θ Nav∗ ← θ Nav θ CA∗ ← θ CA 10) 如果达到 Q 值网络更新条件，，； 11) 返回更新后策略网络πϕ。 4 单机器人实验及结果分析 4.1 基于 ROS 的移动机器人控制架构本文构建了基于 ROS 的多机器人控制系统以供强化学习算法进行机器人路径导航训练学习，每个机器人与 ROS 主机的信息构图框架图如图 9 所示。 Gazebo 物理模拟引擎 ROS topic Robot /odometry /laser_scan 激光信息处理模块前一时刻目标坐标坐标转换模块任务目标处理模块状态处理奖励计算强化学习端口任务分配主机动作执行动作反馈 /cmd_vel 接口图 9 基于 ROS 的单机器人控制系统 Fig. 9 Single robot control system based on ROS 本研究使用 Gazebo 物理仿真环境作为机器人在实际环境中的模拟环境，并使用了 Turtlebot3 作为虚拟实验机器人，其装载有一个激光雷达扫描仪，其探测距离为 3.5 m，激光雷达的采样率为 128 Hz，采样范围为 180°。 4.2 实验环境 ξ = 20 本文所述 ROS 系统基于 Ubuntu18.04，使用虚拟机器人为 Turtlebot3 waffle，在 Gazebo 中构建避障模拟环境如图 10 所示，本实验中。图中，绿色圆形区域为机器人的目标点区域，红色区域则表示障碍物，实际执行时，机器人将在一个非障碍物且非目标点的区域随机初始化，并在 3 个目标点中随机选择一个作为任务目标。图 10 机器人导航实验环境 Fig. 10 Robot navigation experiment environment 4.3 实验结果通过训练，获得了基于 MFPG 算法的机器人导航模型，在训练过程中，与传统 DDPG 算法以及加入奖励偏执的 DDPG 算法相比，机器人每步动作获得的奖励值及对应 Q 值随训练步长的变化如图 11 所示。 3 种算法在训练过程中均具有收敛特征，但相比较而言，带有偏置奖励的 DDPG 算法稳定性较差，训练过程中奖励值和 Q 值均出现大幅度波动，且方差区间较高，而标准 DDPG 算法则表现出相对稳定的特征，并具有较为稳定的方差区间，Q 值和奖励在训练过程中变化稳定，表明算法可以较好的应对多机器人避障问题，但仍存在训练过程中训练速度较慢等问题，而在本文所述多目标策略梯度优化算法中，从导航和避障奖励中可以看出，算法在训练早期（1 000 步）时已经可以稳定获得较高奖励且在后续训练过程中仍能保持稳定，且方差较小，同时 Q 值网络方差较小，且数值变化稳定，导航方面 Q 值的增长速度明显优于标准 DDPG 算法，说明本文所述多目标策略梯度优化算法可以较好的完成多机器人避障任第 4 期欧阳勇平，等：动态环境下分布式异构多机器人避障方法研究 ·757·

<<向上翻页向下翻页>>

点击下载：【智能系统】动态环境下分布式异构多机器人避障方法研究