奖励r 状态 t 动作at st 智能体环境图 2 Q 学习流程图 F

正在加载图片...

第1期徐鹏，等：事件驱动的强化学习多智能体编队控制 ·95· 在基于事件驱动的强化学习编队问题中，如智能体果智能体ⅰ在期望位置点上，会获得较大的奖赏值。换句话说，当智能体i迅速到达期望位置时，状态s 奖励r 动作a, 获得累积折扣奖赏值较大。因此，根据智能体的累积折扣奖赏值进行设计状态阈值函数是合理的。但是，状态阈值函数如果仅通过累积折扣奖环境赏值去评估，智能体i往往会获得自私的策略，不利于学到群体最优的策略。因此，考虑在智能体图2Q学习流程图 i的状态阈值函数中引入当前奖励的偏差6。假 Fig.2 Flow chart of Q-learning 设智能体能观测到周围的一圈10个格子，如果智图2采用的是折扣累积奖赏，策略π的状态能体j存在于智能体i的观测范围内，称智能体j 值函数为为智能体i的邻居，则t时刻智能体i奖励的偏差 6.可写成： V产(s)=∑y(s.a,)ls=s0, a,=(S) Σrw-Naru 式中，y为折扣因子，5。为初始状态。另一种形式的值函数是状态动作值函数： (sa)=r(sa)+yV(s) 式中，Nu为智能体i在t时刻邻居集合，N为智此时最优策略可以根据式(1)得到：能体i邻居个数。当智能体i的状态偏差大于状 π'=arg max O(s,a) (1) 态阈值函数时，更新智能体ⅰ的动作并对自身动 DEA(s) 那么可借助时间差分误差来更新Q函数，智能体作决策进行广播。同一时刻里，不一定所有的智将观测到的数据代入Q函数中进行迭代学习，得能体都会被驱动，未被驱动的智能体仅接受信到精确的解：息，有利于减少多智能体系统通信和计算资源的 VQ(s,a)=r1+ymax Q(s1.a)-Q(si.a) 消耗，则事件驱动条件设计为式(2)： Q+1(s,a,)=Q,(s,a,)+a,V2+1(s,a) e,(0=o(0a(s,a)-V6a (2) 式中，t为当前时刻；，为当前的学习率；d为状态式中0<σ：<1。 s+1时执行的动作。 2.2基于事件驱动的Q学习 Q学习最大的特点是智能体可以通过试错的如图3所示，智能体执行过程为：当智能体感方式寻求最优的策略，因此所有的状态动作都需知自己附近有障碍物时，即优先避碰，避碰结束要被无限次地遍历，同时这也会造成大量的通信后重新进行编队。在通信无障碍的情况下，考虑和计算资源消耗。基于事件驱动的DEC-MDPs,由六元组<I,S, 2算法设计 A,(s),P,{r},e>构成，其中e表示状态偏差值，当 e,()>o(Q(sa)-√⑤a时，智能体i更新动作，为解决经典强化学习过程中存在通信和计算否则执行上一刻的采样动作。资源消耗大问题，本节在经典强化学习中引入事智能体件驱动控制机制。编队 2.1事件驱动条件设计避碰在DEC-MDPs中，每个智能体可独立地观测事件局部状态信息，同时广播给附近的其他智能体。状态3，奖励r 驱动观测结束后，其根据上一时刻观测与当前观测的状态偏差值大小，决定是否要执行更新动作。这动作a, 环境里采用状态值Q(s,a)作为智能体i在t时刻的当前观测值，2(sa)可通过查询Q-Table获得，图3基于事件驱动的强化学习框架则智能体i从t-1时刻到t时刻的偏差值可写成： Fig.3 The frame of reinforcement learning with event- e:(1)=Q(Sis,a)-Q-1(S-1i,a-1) triggered 式中，t>0:e,()为观测量的状态偏差值；Q-(s-,a-u) 图2经典的Q学习是使用一个合理的策略产为1-1时刻状态观测值。生动作，根据动作与环境交互，可得到下一刻的奖励r 状态 t 动作at st 智能体环境图 2 Q 学习流程图 Fig. 2 Flow chart of Q-learning 图 2 采用的是折扣累积奖赏，策略 π 的状态值函数为 V π (s) = ∑∞ t=0 γ t rt(st ,at)|s = s0 , at = π(st) 式中， γ 为折扣因子， s0 为初始状态。另一种形式的值函数是状态动作值函数： Q π (st ,at) = r(st ,at)+γV π (st+1) 此时最优策略可以根据式 (1) 得到: π ∗ = argmax a∈A(s) Q π (s,a) (1) Q Q 那么可借助时间差分误差来更新函数，智能体将观测到的数据代入函数中进行迭代学习，得到精确的解: ∇Qt+1(st ,at) = rt+1 +γmaxQt(st+1 ,a ′ )− Qt(st ,at) Qt+1(st ,at) = Qt(st ,at)+αt∇Qt+1(st ,at) t αt a ′ s+1 式中，为当前时刻；为当前的学习率；为状态时执行的动作。 Q 学习最大的特点是智能体可以通过试错的方式寻求最优的策略，因此所有的状态动作都需要被无限次地遍历，同时这也会造成大量的通信和计算资源消耗。 2 算法设计为解决经典强化学习过程中存在通信和计算资源消耗大问题，本节在经典强化学习中引入事件驱动控制机制。 2.1 事件驱动条件设计 Qt,i(st,i ,at,i) i t Qt,i(st,i ,at,i) i t−1 t 在 DEC-MDPs 中，每个智能体可独立地观测局部状态信息，同时广播给附近的其他智能体。观测结束后，其根据上一时刻观测与当前观测的状态偏差值大小，决定是否要执行更新动作。这里采用状态值作为智能体在时刻的当前观测值，可通过查询 Q-Table 获得，则智能体从时刻到时刻的偏差值可写成： ei(t) = Qt,i(st,i ,at,i)− Qt−1,i(st−1,i ,at−1,i) t > 0 ei(t) Qt−1,i(st−1,i ,at−1,i) t−1 式中，；为观测量的状态偏差值；为时刻状态观测值。 i i i i δt,i j i j i t i δt,i 在基于事件驱动的强化学习编队问题中，如果智能体在期望位置点上，会获得较大的奖赏值。换句话说，当智能体迅速到达期望位置时，获得累积折扣奖赏值较大。因此，根据智能体的累积折扣奖赏值进行设计状态阈值函数是合理的。但是，状态阈值函数如果仅通过累积折扣奖赏值去评估，智能体往往会获得自私的策略，不利于学到群体最优的策略。因此，考虑在智能体的状态阈值函数中引入当前奖励的偏差。假设智能体能观测到周围的一圈 10 个格子，如果智能体存在于智能体的观测范围内，称智能体为智能体的邻居，则时刻智能体奖励的偏差可写成： δt,i =   ∑ j∈Nt,i rt, j − Nt,i rt,i Nt,i   2 i t i i i 式中，Nt,i 为智能体在时刻邻居集合，|Nt,i|为智能体邻居个数。当智能体的状态偏差大于状态阈值函数时，更新智能体的动作并对自身动作决策进行广播。同一时刻里，不一定所有的智能体都会被驱动，未被驱动的智能体仅接受信息，有利于减少多智能体系统通信和计算资源的消耗，则事件驱动条件设计为式 (2)： ei(t) = σi ( Qt,i(st,i ,at,i)− √ δt,i ) (2) 式中 0 < σi < 1。 2.2 基于事件驱动的 Q 学习 e ei(t) > σi ( Qt,i(st,i ,at,i)− √ δt,i ) i 如图 3 所示，智能体执行过程为：当智能体感知自己附近有障碍物时，即优先避碰，避碰结束后重新进行编队。在通信无障碍的情况下，考虑基于事件驱动的 DEC-MDPs，由六元组<I， S， Ai (s)，P，{ri}，e>构成，其中表示状态偏差值，当时，智能体更新动作，否则执行上一刻的采样动作。奖励rt 动作at 状态st 事件驱动环境避碰编队智能体图 3 基于事件驱动的强化学习框架 Fig. 3 The frame of reinforcement learning with eventtriggered 图 2 经典的 Q 学习是使用一个合理的策略产生动作，根据动作与环境交互，可得到下一刻的第 1 期徐鹏，等：事件驱动的强化学习多智能体编队控制 ·95·

<<向上翻页向下翻页>>

点击下载：【机器学习】事件驱动的强化学习多智能体编队控制