正在加载图片...
第4期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·757· +p+au(e)Lo(e)VJ(e) 本研究使用Gazebo物理仿真环境作为机器 而在本研究中,由于Q值损失函数LS(e,),Lv(e,】 人在实际环境中的模拟环境,并使用了Turtlebot3 不为单一值,因此在本文中,需要对经验的采样 作为虚拟实验机器人,其装载有一个激光雷达扫 优先级算法进行修改,本文使用了线性加权法修 描仪,其探测距离为3.5m,激光雷达的采样率为 改了经验采样优先级,因此经验采样优先级的算 128Hz,采样范围为180°。 法更新为 4.2实验环境 nL(e,)+[zLv(e P(e)= 本文所述ROS系统基于Ubuntul8.04,使用虚 ∑.n,Le)+Le可 拟机器人为Turtlebot3 waffle,在Gazebo中构建避 当新的经验ew被加人到经验池中时,会替代 障模拟环境如图10所示,本实验中=20。图中, 当前经验池中采样优先度最小的经验,其采样优 绿色圆形区域为机器人的目标点区域,红色区域 先级会被设置为1。 则表示障碍物,实际执行时,机器人将在一个非 综上,多特征策略梯度算法的主要流程如下: 障碍物且非目标点的区域随机初始化,并在3个 1)初始化策略网络,2个Q值网络[Q,Q]; 目标点中随机选择一个作为任务目标。 2)创建目标策略网络和目标Q值网络π。, [Q",Q],其参数来自π。和[Q",Q]; 3)初始化经验池N,其最大容量为: 4)当不满足终止条件时,获取当前代理状 态S; 5)根据当前状态选择动作a,=π(s),并由代 理执行; 6)获取下一时刻状态s1与奖励心,: 7)将当前经验e,={s,a,,A,5+加入经验池; 8)如果W≥n,根据Q值网络更新方式从 W采样训练经验集合1B,更新Q值网络Q公w和 图10机器人导航实验环境 Fig.10 Robot navigation experiment environment Q,按照公式(2)更新策略网络参数; 9)如果达到策略网络更新条件,中*←中; 4.3实验结果 10)如果达到Q值网络更新条件,←a 通过训练,获得了基于MFPG算法的机器人 A*←GA; 导航模型,在训练过程中,与传统DDPG算法以 11)返回更新后策略网络π60 及加入奖励偏执的DDPG算法相比,机器人每步 动作获得的奖励值及对应Q值随训练步长的变 4单机器人实验及结果分析 化如图11所示。 3种算法在训练过程中均具有收敛特征,但 4.1基于ROS的移动机器人控制架构 本文构建了基于ROS的多机器人控制系统 相比较而言,带有偏置奖励的DDPG算法稳定性 较差,训练过程中奖励值和Q值均出现大幅度波 以供强化学习算法进行机器人路径导航训练学 动,且方差区间较高,而标准DDPG算法则表现 习,每个机器人与ROS主机的信息构图框架图如 出相对稳定的特征,并具有较为稳定的方差区 图9所示。 间,Q值和奖励在训练过程中变化稳定,表明算 ROS topic Robot 國 任务分配 法可以较好的应对多机器人避障问题,但仍存在 坐标转换 Gazebe /odometry 训练过程中训练速度较慢等问题,而在本文所述 模块 状态处理 多目标策略梯度优化算法中,从导航和避障奖励 强化学习 瑞口 中可以看出,算法在训练早期(1000步)时已经可 展國 奖励计算 laser scar 以稳定获得较高奖励且在后续训练过程中仍能 动作执行动作反馈 保持稳定,且方差较小,同时Q值网络方差较小, /cmd vel 接口 且数值变化稳定,导航方面Q值的增长速度明显 图9基于ROS的单机器人控制系统 优于标准DDPG算法,说明本文所述多目标策略 Fig.9 Single robot control system based on ROS 梯度优化算法可以较好的完成多机器人避障任φ ← φ+αω(e)Lθ(e)∇φ J(e) [L CA θ (ei),L Nav θ 而在本研究中,由于Q值损失函数 (ei)] 不为单一值,因此在本文中,需要对经验的采样 优先级算法进行修改,本文使用了线性加权法修 改了经验采样优先级,因此经验采样优先级的算 法更新为 P(ei) = η1L CA θ (ei)+[η2L Nav θ (ei)]ε ∑ e [ η1L CA θ (ei)+η2L Nav θ (ei) ] 当新的经验enew被加入到经验池中时,会替代 当前经验池中采样优先度最小的经验,其采样优 先级会被设置为 1。 综上,多特征策略梯度算法的主要流程如下: [Q Nav π ,Q CA π 1) 初始化策略网络,2 个 Q 值网络 ] ; π ∗ ϕ [Q Nav π ∗ ,Q CA π ∗ ] πϕ [Q Nav π ,Q CA π ] 2) 创建目标策略网络和目标 Q 值网络 , ,其参数来自 和 ; 3) 初始化经验池 N ,其最大容量为n; st 4) 当不满足终止条件时,获取当前代理状 态 ; 5) 根据当前状态选择动作at = πϕ(st) ,并由代 理执行; st+1 r Nav t ,r CA 6 t ) 获取下一时刻状态 与奖励 ; et = {st ,at ,r Nav t ,r CA t 7) 将当前经验 ,st+1} 加入经验池; |N| ⩾ n |N| |B| Q Nav π Q CA π 8 ) 如 果 , 根 据 Q 值网络更新方式从 采样训练经验集合 ,更新 Q 值网络 和 ,按照公式(2)更新策略网络参数; 9) 如果达到策略网络更新条件, ϕ∗ ← ϕ ; θ Nav∗ ← θ Nav θ CA∗ ← θ CA 10) 如果达到 Q 值网络更新条件, , ; 11) 返回更新后策略网络πϕ。 4 单机器人实验及结果分析 4.1 基于 ROS 的移动机器人控制架构 本文构建了基于 ROS 的多机器人控制系统 以供强化学习算法进行机器人路径导航训练学 习,每个机器人与 ROS 主机的信息构图框架图如 图 9 所示。 Gazebo 物理 模拟 引擎 ROS topic Robot /odometry /laser_scan 激光信息 处理模块 前一时刻 目标坐标 坐标转换 模块 任务目标 处理模块 状态处理 奖励计算 强化学习 端口 任务分配 主机 动作执行 动作反馈 /cmd_vel 接口 图 9 基于 ROS 的单机器人控制系统 Fig. 9 Single robot control system based on ROS 本研究使用 Gazebo 物理仿真环境作为机器 人在实际环境中的模拟环境,并使用了 Turtlebot3 作为虚拟实验机器人,其装载有一个激光雷达扫 描仪,其探测距离为 3.5 m,激光雷达的采样率为 128 Hz,采样范围为 180°。 4.2 实验环境 ξ = 20 本文所述 ROS 系统基于 Ubuntu18.04,使用虚 拟机器人为 Turtlebot3 waffle,在 Gazebo 中构建避 障模拟环境如图 10 所示,本实验中 。图中, 绿色圆形区域为机器人的目标点区域,红色区域 则表示障碍物,实际执行时,机器人将在一个非 障碍物且非目标点的区域随机初始化,并在 3 个 目标点中随机选择一个作为任务目标。 图 10 机器人导航实验环境 Fig. 10 Robot navigation experiment environment 4.3 实验结果 通过训练,获得了基于 MFPG 算法的机器人 导航模型,在训练过程中,与传统 DDPG 算法以 及加入奖励偏执的 DDPG 算法相比,机器人每步 动作获得的奖励值及对应 Q 值随训练步长的变 化如图 11 所示。 3 种算法在训练过程中均具有收敛特征,但 相比较而言,带有偏置奖励的 DDPG 算法稳定性 较差,训练过程中奖励值和 Q 值均出现大幅度波 动,且方差区间较高,而标准 DDPG 算法则表现 出相对稳定的特征,并具有较为稳定的方差区 间,Q 值和奖励在训练过程中变化稳定,表明算 法可以较好的应对多机器人避障问题,但仍存在 训练过程中训练速度较慢等问题,而在本文所述 多目标策略梯度优化算法中,从导航和避障奖励 中可以看出,算法在训练早期(1 000 步)时已经可 以稳定获得较高奖励且在后续训练过程中仍能 保持稳定,且方差较小,同时 Q 值网络方差较小, 且数值变化稳定,导航方面 Q 值的增长速度明显 优于标准 DDPG 算法,说明本文所述多目标策略 梯度优化算法可以较好的完成多机器人避障任 第 4 期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·757·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有