正在加载图片...
·756· 智能系统学报 第17卷 器人的社会范式状态的问题提出了一种新的基于 90° 激光雷达信息的连续空间社会范式奖励计算方 120° 60° 法,其计算公式为 -4 n=[ruse(Umin).G(]9 150° 30° 上式表示naer(lnmn)G(a)的值最终在[-9.9,9.9]的 6 边界区间内,其中rser(lm)表示当前激光雷达探测 区域最小值的计算奖励,ln=la/MAx表示激光雷 180 09 00.250.500.751.0 达的最小探测值的正则化值,MAx表示激光雷达 雷达射线 (a)带有偏置奖励参数的奖励分布 的最大侦测范围,G()表示激光雷达最小值所在 方位引起的奖励偏置因子,其中表示激光雷达传 909 120° 609 感器探测到最短激光值所在位置的正则化序号 值,其具体表述及序号关系详述于图1。上述两 150° 值的计算公式为 ∫aser(lnin)=-emw -6 1G(z)=U-D×(1-) 式中:k表示避障增益,o表示避障奖励的偏移量, 80 00.250.500.751.00 在本文中两者分别为20和0.5,该奖励值随l的 雷达射线 (b)无偏置奖励参数的奖励分布 变化如图7所示。 图8奖励分布 Fig.8 Bonus distribution 3.3经验优先采样机制 在经验回放过程中,经验的选择会影响Q网 一5 络的收敛速度,进而影响策略网络的训练。而传 -6 统的均匀采样不能显著提高Q网络的训练速度, -7 因此,本文采用了基于Q网络损失值的经验优先 0 0.2 0.40.60.8 1.0 雷达射线长度 采样算法并进行改进,其核心在于根据Q值网络 图7避障奖励值变化 的损失值构建每一条经验的采样优先性,其主要 Fig.7 Changes of obstacle avoidance bonus value 流程为:对于每条经验e及其Q值网络的损失L(e), 此外,U和D分别表示偏置上限和偏置零点的 定义其采样优先度为 位置,在本文中U和D分别为3和2.5。因而,避障 Lo(e:) P(e)= 奖励函数的最终计算公式为 ∑.Le -l0,l1min≤0.1 式中ε表示采样优先度指数,当ε=0时代表算法采 = (n, Imin >0.1 用均匀采样方法。在经验采样时,算法按照概率 将上式标绘在平面直角坐标系中得到图8(a), P(e,)随机选择经验组成训练经验组。因此,在实 同时作为对比,图8(b)也标绘了G(a)=1时的奖励 际训练时,每条经验被采样的概率正比于其损 分布。 失函数L(e),因此可以显著提高Q网络的收敛 从图8(a)的奖励状态分布可知,如果距离机 速度。 器人最近的障碍物位于机器人两侧时,无偏置的 此外,由于Q值网络的更新会改变Q值网络 奖励算法将输出同样的奖励结果,这导致了两辆 的分布,从而改变经验e,的Q值期望,因此基于优 车辆在相遇时,无法准确对对方的形为进行预测 先级的经验回放算法会引入偏差,需要对优先采 并进行有效规避,从而导致发生碰撞,而带有偏 样获得的经验添加重要性修正权重以降低偏差, 置的奖励计算方法可以对机器人左右两侧的信息 其计算公式为 进行有效区分,从而保证强化学习算法在训练过 1 程中对于左侧和右侧的障碍物表现出明显的倾向 w(e)=8-Pea 性,因此可以保证车辆在相遇时会根据自身预设 式中:B表示经验样本集合的容量,s表示算法的 的策略倾向实现在无通讯信息条件下多机器人间 修正权重,因此,修正后的策略网络的参数更新 的安全导航避障。 公式为器人的社会范式状态的问题提出了一种新的基于 激光雷达信息的连续空间社会范式奖励计算方 法,其计算公式为 rl = [rlaser(lmin)·G(z)]| 9.9 −9.9 rlaser(lmin)·G(z) [−9.9,9.9] rlaser(lmin) lmin = lmin/lMAX lMAX G(z) z 上式表示 的值最终在 的 边界区间内,其中 表示当前激光雷达探测 区域最小值的计算奖励, 表示激光雷 达的最小探测值的正则化值, 表示激光雷达 的最大侦测范围, 表示激光雷达最小值所在 方位引起的奖励偏置因子,其中 表示激光雷达传 感器探测到最短激光值所在位置的正则化序号 值,其具体表述及序号关系详述于图 1。上述两 值的计算公式为 { rlaser(lmin) = −e kl (lmin−ol ) G(z) = U − D×(1−z) kl ol lmin 式中: 表示避障增益, 表示避障奖励的偏移量, 在本文中两者分别为 20 和 0.5,该奖励值随 的 变化如图 7 所示。 −6 −7 −8 −4 −5 −3 −2 −1 0 0 0.2 0.4 0.6 0.8 1.0 奖励值 雷达射线长度 图 7 避障奖励值变化 Fig. 7 Changes of obstacle avoidance bonus value U D U D 此外, 和 分别表示偏置上限和偏置零点的 位置,在本文中 和 分别为 3 和 2.5。因而,避障 奖励函数的最终计算公式为 r CA t =    −10, lmin ⩽ 0.1 r1 , lmin > 0.1 G(z) = 1 将上式标绘在平面直角坐标系中得到图 8(a), 同时作为对比,图 8(b) 也标绘了 时的奖励 分布。 从图 8(a) 的奖励状态分布可知,如果距离机 器人最近的障碍物位于机器人两侧时,无偏置的 奖励算法将输出同样的奖励结果,这导致了两辆 车辆在相遇时,无法准确对对方的形为进行预测 并进行有效规避,从而导致发生碰撞,而带有偏 置的奖励计算方法可以对机器人左右两侧的信息 进行有效区分,从而保证强化学习算法在训练过 程中对于左侧和右侧的障碍物表现出明显的倾向 性,因此可以保证车辆在相遇时会根据自身预设 的策略倾向实现在无通讯信息条件下多机器人间 的安全导航避障。 雷达射线 (a) 带有偏置奖励参数的奖励分布 180° 150° 0 0.25 0.50 0.75 1.00 120° 90° 60° 30° 0°奖励值 −6 −8 −4 −2 雷达射线 (b) 无偏置奖励参数的奖励分布 180° 150° 0 0.25 0.50 0.75 1.00 120° 90° 60° 30° 0°奖励值 −6 −8 −4 −2 图 8 奖励分布 Fig. 8 Bonus distribution 3.3 经验优先采样机制 ei Lθ(ei) 在经验回放过程中,经验的选择会影响 Q 网 络的收敛速度,进而影响策略网络的训练。而传 统的均匀采样不能显著提高 Q 网络的训练速度, 因此,本文采用了基于 Q 网络损失值的经验优先 采样算法并进行改进,其核心在于根据 Q 值网络 的损失值构建每一条经验的采样优先性,其主要 流程为:对于每条经验 及其 Q 值网络的损失 , 定义其采样优先度为 P(ei) = Lθ(ei) ε ∑ e Lθ(e) ε ε ε = 0 P(ei) ei Lθ(ei) 式中 表示采样优先度指数,当 时代表算法采 用均匀采样方法。在经验采样时,算法按照概率 随机选择经验组成训练经验组。因此,在实 际训练时,每条经验 被采样的概率正比于其损 失函数 ,因此可以显著提高 Q 网络的收敛 速度。 ei 此外,由于 Q 值网络的更新会改变 Q 值网络 的分布,从而改变经验 的 Q 值期望,因此基于优 先级的经验回放算法会引入偏差,需要对优先采 样获得的经验添加重要性修正权重以降低偏差, 其计算公式为 ω(ei) = ( 1 |B| · P(ei) )ς 式中: |B| 表示经验样本集合的容量, ς 表示算法的 修正权重,因此,修正后的策略网络的参数更新 公式为 ·756· 智 能 系 统 学 报 第 17 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有