【机器学习】事件驱动的强化学习多智能体编队控制

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：4.35MB

第14卷第1期智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201807010 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20181230.0904.002.html 事件驱动的强化学习多智能体编队控制徐鹏'，谢广明23，文家燕2，高远 (1.广西科技大学电气与信息工程学院，广西柳州545006；2.北京大学工学院，北京100871,3.北京大学海洋研究院，北京100871) 摘要：针对经典强化学习的多智能体编队存在通信和计算资源消耗大的问题，本文引入事件驱动控制机制，智能体的动作决策无须按固定周期进行，而依赖于事件驱动条件更新智能体动作。在设计事件驱动条件时，不仅考虑智能体的累积奖赏值，还引入智能体与邻居奖赏值的偏差，智能体间通过交互来寻求最优联合策略实现编队。数值仿真结果表明，基于事件驱动的强化学习多智能体编队控制算法，在保证系统性能的情况下，能有效降低多智能体的动作决策频率和资源消耗。关键词：强化学习：多智能体；事件驱动：编队控制：马尔可夫过程：集群智能；动作决策：粒子群算法中图分类号：TP391.8文献标志码：A文章编号：1673-4785(2019)01-0093-06 中文引用格式：徐鹏，谢广明，文家燕，等.事件驱动的强化学习多智能体编队控制J智能系统学报，2019,14(1)：93-98. 英文引用格式：XU Peng,.XIE Guangming,WEN Jiayan,etal.Event-triggered reinforcement learning formation control for multi agent[J].CAAI transactions on intelligent systems,2019,14(1):93-98. Event-triggered reinforcement learning formation control for multi-agent XU Peng',XIE Guangming'2,WEN Jiayan2,GAO Yuan' (1.School of Electric and Information Engineering,Guangxi University of Science and Technology,Liuzhou 545006,China;2.Col- lege of Engineering,Peking University,Beijing 100871,China:3.Institute of Ocean Research,Peking University,Beijing 100871, China) Abstract:A large consumption of communication and computing capabilities has been reported in classical reinforce- ment learning of multi-agent formation.This paper introduces an event-triggered mechanism so that the multi-agent's decisions do not need to be carried out periodically;instead,the multi-agent's actions are replaced depending on the event-triggered condition.Both the sum of total reward and variance in current rewards are considered when designing an event-triggered condition,so a joint optimization strategy is obtained by exchanging information among multiple agents.Numerical simulation results demonstrate that the multi-agent formation control algorithm can effectively re- duce the frequency of a multi-agent's action decisions and consumption of resources while ensuring system perform- ance. Keywords:reinforcement learning:multi-agent:event-triggered:formation control:Markov decision processes;swarm intelligence,action-decisions;particle swarm optimization 强化学习是受动物能有效适应环境的启发发励累积最大化，来寻求最优的策略。目前强化展而来的一种算法。基本思想是以试错的机制与学习的行业应用颇广泛，比如无人驾驶、人形机环境进行交互，在没有导师信号的情况下，使奖器人、智能交通和多智能体协同等。其中多智能收稿日期：2018-07-11.网络出版日期：2019-0103. 体编队的强化学习研究是一个重要的方向1。基金项目：国家重点研发计划项目(2017YFB1400800):国家自然科学基金项目(91648120.61633002.51575005.61563006. 文献[4]设计多动作回放的马尔可夫模型，在此框 61563005):广西高校工业过程智能控制技术重点实验室项目(PICT-2016-04). 架下，多智能体Q学习可收敛到最优的联合行动通信作者：文家燕.E-mail:wenjiayan.20I2@126.com. 策略。文献[⑤]提出一种评估Q值法，多智能体通

DOI: 10.11992/tis.201807010 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20181230.0904.002.html 事件驱动的强化学习多智能体编队控制徐鹏1 ，谢广明1,2,3，文家燕1,2，高远1 （1. 广西科技大学电气与信息工程学院，广西柳州 545006; 2. 北京大学工学院，北京 100871; 3. 北京大学海洋研究院，北京 100871）摘要：针对经典强化学习的多智能体编队存在通信和计算资源消耗大的问题，本文引入事件驱动控制机制，智能体的动作决策无须按固定周期进行，而依赖于事件驱动条件更新智能体动作。在设计事件驱动条件时，不仅考虑智能体的累积奖赏值，还引入智能体与邻居奖赏值的偏差，智能体间通过交互来寻求最优联合策略实现编队。数值仿真结果表明，基于事件驱动的强化学习多智能体编队控制算法，在保证系统性能的情况下，能有效降低多智能体的动作决策频率和资源消耗。关键词：强化学习；多智能体；事件驱动；编队控制；马尔可夫过程；集群智能；动作决策；粒子群算法中图分类号：TP391.8 文献标志码：A 文章编号：1673−4785(2019)01−0093−06 中文引用格式：徐鹏, 谢广明, 文家燕, 等. 事件驱动的强化学习多智能体编队控制[J]. 智能系统学报, 2019, 14(1): 93–98. 英文引用格式：XU Peng, XIE Guangming, WEN Jiayan, et al. Event-triggered reinforcement learning formation control for multiagent[J]. CAAI transactions on intelligent systems, 2019, 14(1): 93–98. Event-triggered reinforcement learning formation control for multi-agent XU Peng1 ，XIE Guangming1,2,3 ，WEN Jiayan1,2 ，GAO Yuan1 (1. School of Electric and Information Engineering, Guangxi University of Science and Technology, Liuzhou 545006, China; 2. College of Engineering, Peking University, Beijing 100871, China; 3. Institute of Ocean Research, Peking University, Beijing 100871, China) Abstract: A large consumption of communication and computing capabilities has been reported in classical reinforcement learning of multi-agent formation. This paper introduces an event-triggered mechanism so that the multi-agent’s decisions do not need to be carried out periodically; instead, the multi-agent’s actions are replaced depending on the event-triggered condition. Both the sum of total reward and variance in current rewards are considered when designing an event-triggered condition, so a joint optimization strategy is obtained by exchanging information among multiple agents. Numerical simulation results demonstrate that the multi-agent formation control algorithm can effectively reduce the frequency of a multi-agent’s action decisions and consumption of resources while ensuring system performance. Keywords: reinforcement learning; multi-agent; event-triggered; formation control; Markov decision processes; swarm intelligence; action-decisions; particle swarm optimization 强化学习是受动物能有效适应环境的启发发展而来的一种算法。基本思想是以试错的机制与环境进行交互，在没有导师信号的情况下，使奖 Q Q 励累积最大化，来寻求最优的策略[1-3]。目前强化学习的行业应用颇广泛，比如无人驾驶、人形机器人、智能交通和多智能体协同等。其中多智能体编队的强化学习研究是一个重要的方向[4-5]。文献[4]设计多动作回放的马尔可夫模型，在此框架下，多智能体学习可收敛到最优的联合行动策略。文献[5]提出一种评估值法，多智能体通收稿日期：2018−07−11. 网络出版日期：2019−01−03. 基金项目：国家重点研发计划项目 (2017YFB1400800)；国家自然科学基金项目 (91648120，61633002，51575005，61563006， 61563005)；广西高校工业过程智能控制技术重点实验室项目 (IPICT-2016-04). 通信作者：文家燕. E-mail：wenjiayan2012@126.com. 第 14 卷第 1 期智能系统学报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019

·94· 智能系统学报第14卷过交流Q值函数和折扣奖励方差来学习世界，较体抵达各自的期望位置点，且在运动过程中不发快完成了编队任务。然后，智能体在这些学习过生碰撞。在学习最优动作策略过程中，当所有智程中，需要连续地与环境进行交互，会导致大量能体都抵达目标位置时，群体会得到一个*的奖的通信和计算资源消耗。因此在有限资源情况励，否则会得到广的惩罚。每个智能体都可以与下，保证多智能体系统的编队性能，考虑如何降邻居智能体交互，来获取其他智能体的奖励信号。低资源消耗是必要的，这也是促使开展本项研究 (1,1) 的直接原因。事件驱动机制已经被证明可以有效地减小大目标点规模网络的通信量刀。综合已有研究成果，事件驱动条件设计主要分为两类：状态相关和状态无关。其主要做法都是通过检测智能体采样前后状态的偏差值大小，判断是否满足事件驱动条智能体件，来决定间歇性的更新控制输入，减小控制器与多智能体系统的通信频率和计算量10121。文 (n,m) 献[10]较早在状态反馈控制器中引入事件驱动控制机制。文献[1]考虑多智能体间同步采样异步图1编队问题 Fig.1 Formation problem 触发机制解决多智能体环形编队问题，其中智能体可独立地选择触发条件参数。但是当前强化学 1.2 分散式马尔可夫模型习与事件驱动的结合相对较少31。文献[13]设博弈论中智能体的每一个决策都会导致状态计事件驱动控制器并应用于非线性连续系统的强的转移，此时的决策序列称为一个随机策略。具化学习中，解决了自适应动态规划问题。文献[14] 有马尔可夫(Markov)特性的随机策略称为Markov 提出根据智能体观测信息的变化率设计触发函策略(MG)。MG是研究具有离散时间特性的多数，减少学习过程中的计算资源消耗。智能体系统的重要理论框架。综合以上分析，本文区别于传统的多智能体考虑一个分散式马尔可夫模型(decentralized 强化学习算法，在资源有限的情况下，考虑将事 Markov decision processes,DEC-MDPs),DEC- 件驱动和强化学习相结合，侧重于事件驱动在强 MDPs是一个五元组,其中：I 化学习过程中动作决策频率方面的研究。为有限智能体集合；S为状态集合；A(s)为第i个智能体在状态s∈S下可选动作集合，则多智能体 1问题描述在状态s下的联合行动表示为A(s)=A1(s)XA2(s)X 1.1基于强化学习的编队问题 xAw(s);P为动作转移概率；”，表示智能体i奖赏 Z。表示正整数集合。多智能体编队问题描值。在DEC-MDPs中，每个智能体不依赖全局信述如图1所示，假设有N(N≥2)个智能体从初始息，只保持自身和编队期望点的相对关系，且每位置出发，初始位置为随机分布的坐标点，抵达个智能体只需获取自身的局部观测信息，在通信各自的期望位置，每个智能体对应的期望位置点无障碍情况下，这些局部信息的并集为一个完整不同，且期望位置点的数量等于多智能体个体的的全局信息。多智能体的混合策略组合数量。为便于分析，令多智能体在二维网格中运 π=（π(S),(⑤），…，πw(s)构成整个系统的一个混合动，定义网格的大小为(，y),在二维网格中坐策略，策略π可看成是状态空间5到动作空间标(x,y)表示智能体i的状态su∈Z飞。，并朝着对 A:(s)的映射。求解DEC-MDPs的目的是寻求一应的期望点Gi=1,2,·,N)运动，每个智能体对个最优策略π，来最大化系统的回报值。应的期望位置点会按照贪婪法则预先给定。智能 1.3Q学习体i运动过程中，动作集合A(S)尸{上，下，左，右， Q学习是最早的在线强化学习算法，同时也保持}，因此下一刻状态值可能为(-1)，是强化学习最重要的算法之一。Watkins在博土 (,u+1),(u-1,u),(u+1,)和(ya)。论文中1提出了Q学习算法，如图2所示，通过综上所述，基于强化学习的多智能体编队问与环境的交互，学习环境状态到行为的映射关题可描述为：智能体与环境进行交互，学习动作系，使智能体从环境中获得最大累积奖赏值，通决策策略，最小化群体的动作总量K,使多智能常用值函数来评价策略π的优劣

过交流 Q 值函数和折扣奖励方差来学习世界，较快完成了编队任务。然后，智能体在这些学习过程中，需要连续地与环境进行交互，会导致大量的通信和计算资源消耗。因此在有限资源情况下，保证多智能体系统的编队性能，考虑如何降低资源消耗是必要的，这也是促使开展本项研究的直接原因。事件驱动机制已经被证明可以有效地减小大规模网络的通信量[6-7]。综合已有研究成果，事件驱动条件设计主要分为两类：状态相关[8]和状态无关[9]。其主要做法都是通过检测智能体采样前后状态的偏差值大小，判断是否满足事件驱动条件，来决定间歇性的更新控制输入，减小控制器与多智能体系统的通信频率和计算量[10-12]。文献[10]较早在状态反馈控制器中引入事件驱动控制机制。文献[11]考虑多智能体间同步采样异步触发机制解决多智能体环形编队问题，其中智能体可独立地选择触发条件参数。但是当前强化学习与事件驱动的结合相对较少[13-14]。文献[13]设计事件驱动控制器并应用于非线性连续系统的强化学习中，解决了自适应动态规划问题。文献[14] 提出根据智能体观测信息的变化率设计触发函数，减少学习过程中的计算资源消耗。综合以上分析，本文区别于传统的多智能体强化学习算法，在资源有限的情况下，考虑将事件驱动和强化学习相结合，侧重于事件驱动在强化学习过程中动作决策频率方面的研究。 1 问题描述 1.1 基于强化学习的编队问题 Z>0 N(N ⩾ 2) (xt,i , yt,i) (xt,i , yt,i) i st,i ∈ Z 2 >0 Gi(i = 1,2,··· ,N) i (xt,i , yt,i −1) (xt,i , yt,i +1) (xt,i −1, yt,i) (xt,i +1, yt,i) (xt,i , yt,i) 表示正整数集合。多智能体编队问题描述如图 1 所示，假设有个智能体从初始位置出发，初始位置为随机分布的坐标点，抵达各自的期望位置，每个智能体对应的期望位置点不同，且期望位置点的数量等于多智能体个体的数量。为便于分析，令多智能体在二维网格中运动，定义网格的大小为，在二维网格中坐标表示智能体的状态，并朝着对应的期望点运动，每个智能体对应的期望位置点会按照贪婪法则预先给定。智能体运动过程中，动作集合 Ai (s)={上，下，左，右，保持 } ，因此下一刻状态值可能为，，，和。 K1 综上所述，基于强化学习的多智能体编队问题可描述为：智能体与环境进行交互，学习动作决策策略，最小化群体的动作总量，使多智能 r + r − 体抵达各自的期望位置点，且在运动过程中不发生碰撞。在学习最优动作策略过程中，当所有智能体都抵达目标位置时，群体会得到一个的奖励，否则会得到的惩罚。每个智能体都可以与邻居智能体交互，来获取其他智能体的奖励信号。 (1,1) 目标点 1 2 3 4 (n, n) 智能体图 1 编队问题 Fig. 1 Formation problem 1.2 分散式马尔可夫模型博弈论中智能体的每一个决策都会导致状态的转移，此时的决策序列称为一个随机策略。具有马尔可夫 (Markov) 特性的随机策略称为 Markov 策略 (MG)。MG 是研究具有离散时间特性的多智能体系统的重要理论框架。 I i s ∈ S s A(s) = A1(s)×A2(s)×··· ×AN(s) i π = (π1(s),π2(s),··· ,πN(s)) π s Ai(s) π 考虑一个分散式马尔可夫模型 (decentralized Markov decision processes，DEC-MDPs)，DECMDPs 是一个五元组，其中：为有限智能体集合；S 为状态集合；Ai (s) 为第个智能体在状态下可选动作集合，则多智能体在状态下的联合行动表示为；P 为动作转移概率；ri 表示智能体奖赏值。在 DEC-MDPs 中，每个智能体不依赖全局信息，只保持自身和编队期望点的相对关系，且每个智能体只需获取自身的局部观测信息，在通信无障碍情况下，这些局部信息的并集为一个完整的全局信息。多智能体的混合策略组合构成整个系统的一个混合策略，策略可看成是状态空间到动作空间的映射。求解 DEC-MDPs 的目的是寻求一个最优策略，来最大化系统的回报值。 1.3 Q 学习 Q Q π 学习是最早的在线强化学习算法，同时也是强化学习最重要的算法之一。Watkins 在博士论文中[15]提出了学习算法，如图 2 所示，通过与环境的交互，学习环境状态到行为的映射关系，使智能体从环境中获得最大累积奖赏值，通常用值函数来评价策略的优劣。 ·94· 智能系统学报第 14 卷

第1期徐鹏，等：事件驱动的强化学习多智能体编队控制 ·95· 在基于事件驱动的强化学习编队问题中，如智能体果智能体ⅰ在期望位置点上，会获得较大的奖赏值。换句话说，当智能体i迅速到达期望位置时，状态s 奖励r 动作a, 获得累积折扣奖赏值较大。因此，根据智能体的累积折扣奖赏值进行设计状态阈值函数是合理的。但是，状态阈值函数如果仅通过累积折扣奖环境赏值去评估，智能体i往往会获得自私的策略，不利于学到群体最优的策略。因此，考虑在智能体图2Q学习流程图 i的状态阈值函数中引入当前奖励的偏差6。假 Fig.2 Flow chart of Q-learning 设智能体能观测到周围的一圈10个格子，如果智图2采用的是折扣累积奖赏，策略π的状态能体j存在于智能体i的观测范围内，称智能体j 值函数为为智能体i的邻居，则t时刻智能体i奖励的偏差 6.可写成： V产(s)=∑y(s.a,)ls=s0, a,=(S) Σrw-Naru 式中，y为折扣因子，5。为初始状态。另一种形式的值函数是状态动作值函数： (sa)=r(sa)+yV(s) 式中，Nu为智能体i在t时刻邻居集合，N为智此时最优策略可以根据式(1)得到：能体i邻居个数。当智能体i的状态偏差大于状 π'=arg max O(s,a) (1) 态阈值函数时，更新智能体ⅰ的动作并对自身动 DEA(s) 那么可借助时间差分误差来更新Q函数，智能体作决策进行广播。同一时刻里，不一定所有的智将观测到的数据代入Q函数中进行迭代学习，得能体都会被驱动，未被驱动的智能体仅接受信到精确的解：息，有利于减少多智能体系统通信和计算资源的 VQ(s,a)=r1+ymax Q(s1.a)-Q(si.a) 消耗，则事件驱动条件设计为式(2)： Q+1(s,a,)=Q,(s,a,)+a,V2+1(s,a) e,(0=o(0a(s,a)-V6a (2) 式中，t为当前时刻；，为当前的学习率；d为状态式中0构成，其中e表示状态偏差值，当 e,()>o(Q(sa)-√⑤a时，智能体i更新动作，为解决经典强化学习过程中存在通信和计算否则执行上一刻的采样动作。资源消耗大问题，本节在经典强化学习中引入事智能体件驱动控制机制。编队 2.1事件驱动条件设计避碰在DEC-MDPs中，每个智能体可独立地观测事件局部状态信息，同时广播给附近的其他智能体。状态3，奖励r 驱动观测结束后，其根据上一时刻观测与当前观测的状态偏差值大小，决定是否要执行更新动作。这动作a, 环境里采用状态值Q(s,a)作为智能体i在t时刻的当前观测值，2(sa)可通过查询Q-Table获得，图3基于事件驱动的强化学习框架则智能体i从t-1时刻到t时刻的偏差值可写成： Fig.3 The frame of reinforcement learning with event- e:(1)=Q(Sis,a)-Q-1(S-1i,a-1) triggered 式中，t>0:e,()为观测量的状态偏差值；Q-(s-,a-u) 图2经典的Q学习是使用一个合理的策略产为1-1时刻状态观测值。生动作，根据动作与环境交互，可得到下一刻的

奖励r 状态 t 动作at st 智能体环境图 2 Q 学习流程图 Fig. 2 Flow chart of Q-learning 图 2 采用的是折扣累积奖赏，策略 π 的状态值函数为 V π (s) = ∑∞ t=0 γ t rt(st ,at)|s = s0 , at = π(st) 式中， γ 为折扣因子， s0 为初始状态。另一种形式的值函数是状态动作值函数： Q π (st ,at) = r(st ,at)+γV π (st+1) 此时最优策略可以根据式 (1) 得到: π ∗ = argmax a∈A(s) Q π (s,a) (1) Q Q 那么可借助时间差分误差来更新函数，智能体将观测到的数据代入函数中进行迭代学习，得到精确的解: ∇Qt+1(st ,at) = rt+1 +γmaxQt(st+1 ,a ′ )− Qt(st ,at) Qt+1(st ,at) = Qt(st ,at)+αt∇Qt+1(st ,at) t αt a ′ s+1 式中，为当前时刻；为当前的学习率；为状态时执行的动作。 Q 学习最大的特点是智能体可以通过试错的方式寻求最优的策略，因此所有的状态动作都需要被无限次地遍历，同时这也会造成大量的通信和计算资源消耗。 2 算法设计为解决经典强化学习过程中存在通信和计算资源消耗大问题，本节在经典强化学习中引入事件驱动控制机制。 2.1 事件驱动条件设计 Qt,i(st,i ,at,i) i t Qt,i(st,i ,at,i) i t−1 t 在 DEC-MDPs 中，每个智能体可独立地观测局部状态信息，同时广播给附近的其他智能体。观测结束后，其根据上一时刻观测与当前观测的状态偏差值大小，决定是否要执行更新动作。这里采用状态值作为智能体在时刻的当前观测值，可通过查询 Q-Table 获得，则智能体从时刻到时刻的偏差值可写成： ei(t) = Qt,i(st,i ,at,i)− Qt−1,i(st−1,i ,at−1,i) t > 0 ei(t) Qt−1,i(st−1,i ,at−1,i) t−1 式中，；为观测量的状态偏差值；为时刻状态观测值。 i i i i δt,i j i j i t i δt,i 在基于事件驱动的强化学习编队问题中，如果智能体在期望位置点上，会获得较大的奖赏值。换句话说，当智能体迅速到达期望位置时，获得累积折扣奖赏值较大。因此，根据智能体的累积折扣奖赏值进行设计状态阈值函数是合理的。但是，状态阈值函数如果仅通过累积折扣奖赏值去评估，智能体往往会获得自私的策略，不利于学到群体最优的策略。因此，考虑在智能体的状态阈值函数中引入当前奖励的偏差。假设智能体能观测到周围的一圈 10 个格子，如果智能体存在于智能体的观测范围内，称智能体为智能体的邻居，则时刻智能体奖励的偏差可写成： δt,i =   ∑ j∈Nt,i rt, j − Nt,i rt,i Nt,i   2 i t i i i 式中，Nt,i 为智能体在时刻邻居集合，|Nt,i|为智能体邻居个数。当智能体的状态偏差大于状态阈值函数时，更新智能体的动作并对自身动作决策进行广播。同一时刻里，不一定所有的智能体都会被驱动，未被驱动的智能体仅接受信息，有利于减少多智能体系统通信和计算资源的消耗，则事件驱动条件设计为式 (2)： ei(t) = σi ( Qt,i(st,i ,at,i)− √ δt,i ) (2) 式中 0 σi ( Qt,i(st,i ,at,i)− √ δt,i ) i 如图 3 所示，智能体执行过程为：当智能体感知自己附近有障碍物时，即优先避碰，避碰结束后重新进行编队。在通信无障碍的情况下，考虑基于事件驱动的 DEC-MDPs，由六元组构成，其中表示状态偏差值，当时，智能体更新动作，否则执行上一刻的采样动作。奖励rt 动作at 状态st 事件驱动环境避碰编队智能体图 3 基于事件驱动的强化学习框架 Fig. 3 The frame of reinforcement learning with eventtriggered 图 2 经典的 Q 学习是使用一个合理的策略产生动作，根据动作与环境交互，可得到下一刻的第 1 期徐鹏，等：事件驱动的强化学习多智能体编队控制 ·95·

·96· 智能系统学报第14卷状态以及奖赏值，不断地优化奖赏值来得到最优件驱动的强化学习压缩了整个学习的解空间，但在的Q函数。基于事件驱动的Q学习不同于经典计算和通信资源限制下，基于事件驱动的强化学的Q学习算法，智能体首先判断事件条件是否触习通过减少智能体的动作决策，能在短时间内找发，来决定是否基于当前的状态值，更新动作与到一个动作总量为K2的可行的编队策略，通过不环境进行交互。多智能体从各自的初始位置点出断更新迭代，最终寻求到最小化群体的动作总量。发，当每个智能体都抵达期望位置点时，称为一轮Episode学习终止。则对于事件驱动的强化学 3数值仿真分析习多智能体编队算法可描述为为了定量比较经典Q学习和事件驱动Q学 1)初始化Q矩阵；习动作决策频率的大小，假设智能体随机初始化 2)初始化多智能体的当前状态so: 在大小为20×20的格子世界中，如图4所示，存 3)智能体i以行为策略（ε-贪心策略）选择在3个智能体，每个智能体动作集合为A(s),可动作au; 观测到格子的可能为“障碍物”“目标点”“普通格 4)智能体i与环境交互，获取下一个状态s 子”，奖赏，可写成式(3)：和即时的奖赏值r n=ω+0.1B+X+5 (3) 5)智能体i更新当前状态Su和au的Q(s,a) 式中，当智能体i未抵达目标点时ω为-1，否则值：为0；智能体i抵达期望点时B为-1，否则为0；当 △Q(si,a)=ru+ymax0(Sa,a)-Q(s,a）智能体i移动到边界或者撞上L型的障碍物时， Q(su,ai)←Q(S,a）+a△Q(S,a) 式中，0<a<1为学习率，0<y<1为折扣因子；智能体保持不动，此时X为-1，否则为0：当智能 6)如果每个智能体都抵达各自期望位置，则体i与智能j在同一时刻向同一格子移动时，两终止一轮Episode; 个智能体保持不动，此时（为-1，否则为0 7)判断是否满足事件触发条件，如果满足返回步骤3)，不满足返回步骤4)。 2.3资源消耗对比 Q学习中计算资源消耗，主要体现在遍历所有的策略来寻求最优解。每次学习过程中，智能体都要基于当前的状态遍历Q(s,d)值表，查找一个最优的策略。Q(s,a)值表的实现采用Lookup 表格，其中seS和a∈A:(s,表的大小为S×A的乘积的元素个数。下面举例说明Q(s,a)表大小，假设存在N个智能体，每个智能体有M个动作，环境中共存在n2状态，那么Q(s,a)值表的大小为图4多智能体编队 M×n2w,在p步中，智能体共需遍历MN×n2w×p Fig.4 Formation of multi-agents systems 次Q(s,a)值表，做Mp次动作决策，这需要占用极表1比较了事件驱动Q学习和经典Q学习大的通信和计算资源。假设智能体在在P步中，的动作决策次数，为方便表达做如下定义：为经有1次不被驱动，则通信次数减少为M(p-)次，典Q学习决策次数，？为事件驱动Q学习决策次遍历次数减少为MN×n2w×(p-)次。虽然基于事数，则减少决策率n可由如式(4)计算：表1事件驱动与经典Q学习动作决策次数对比 Table 1 A comparison of action times between event-triggered O and classical O case 1=0.05 =0.02 0=0.01 经典Q学习事件驱动Q学习减少决策率刀% 事件驱动Q学习减少决策率)% 事件驱动Q学习减少决策率% 600000 192976 67.79 129628 78.32 100143 83.31 900000 372463 58.61 257586 71.37 246968 72.56 1200000 591433 50.71 475579 60.36 406864 66.10 1500000 828361 44.77 689172 54.05 587553 60.83

Q Q Q 状态以及奖赏值，不断地优化奖赏值来得到最优的函数。基于事件驱动的学习不同于经典的学习算法，智能体首先判断事件条件是否触发，来决定是否基于当前的状态值，更新动作与环境进行交互。多智能体从各自的初始位置点出发，当每个智能体都抵达期望位置点时，称为一轮 Episode 学习终止。则对于事件驱动的强化学习多智能体编队算法可描述为 1) 初始化 Q 矩阵； 2) 初始化多智能体的当前状态 s0； i ε− at,i 3) 智能体以行为策略 ( 贪心策略) 选择动作； i s ′ t rt,i 4) 智能体与环境交互，获取下一个状态和即时的奖赏值； i st,i at,i Qt,i(st,i 5) 智能体更新当前状态和的 ,at,i) 值： ∆Qt,i(st,i ,at,i) = rt,i +γmaxQt,i(s ′ t,i ,at,i)− Qt,i(st,i ,at,i) Qt,i(st,i ,at,i) ← Qt,i(st,i ,at,i)+α∆Qt,i(st,i ,at,i) 式中， 0 < α < 1 为学习率， 0 < γ < 1 为折扣因子； 6) 如果每个智能体都抵达各自期望位置，则终止一轮 Episode； 7) 判断是否满足事件触发条件，如果满足返回步骤 3)，不满足返回步骤 4)。 2.3 资源消耗对比 Q Q(s,a) Q(s,a) s ∈ S a ∈ Ai(s) S × A Q(s,a) N M n 2 Q(s,a) MN ×n 2N ρ MN ×n 2N ×ρ Q(s,a) Mρ ρ λ M(ρ−λ) MN ×n 2N ×(ρ−λ) 学习中计算资源消耗，主要体现在遍历所有的策略来寻求最优解。每次学习过程中，智能体都要基于当前的状态遍历值表，查找一个最优的策略。值表的实现采用 Lookup 表格，其中和，表的大小为的乘积的元素个数。下面举例说明表大小，假设存在个智能体，每个智能体有个动作，环境中共存在状态，那么值表的大小为，在步中，智能体共需遍历次值表，做次动作决策，这需要占用极大的通信和计算资源。假设智能体在在步中，有次不被驱动，则通信次数减少为次，遍历次数减少为次。虽然基于事 K2 件驱动的强化学习压缩了整个学习的解空间，但在计算和通信资源限制下，基于事件驱动的强化学习通过减少智能体的动作决策，能在短时间内找到一个动作总量为的可行的编队策略，通过不断更新迭代，最终寻求到最小化群体的动作总量。 3 数值仿真分析 Q Q 20×20 Ai(s) ri 为了定量比较经典学习和事件驱动学习动作决策频率的大小，假设智能体随机初始化在大小为的格子世界中，如图 4 所示，存在 3 个智能体，每个智能体动作集合为，可观测到格子的可能为“障碍物”“目标点”“普通格子”，奖赏可写成式 (3): ri = ω+0.1β+χ+ξ (3) i ω i β i L χ i j ζ 式中，当智能体未抵达目标点时为−1，否则为 0；智能体抵达期望点时为−1，否则为 0；当智能体移动到边界或者撞上型的障碍物时，智能体保持不动，此时为−1，否则为 0；当智能体与智能在同一时刻向同一格子移动时，两个智能体保持不动，此时为−1，否则为 0。图 4 多智能体编队 Fig. 4 Formation of multi-agents systems Q Q κ1 Q κ2 Q η 表 1 比较了事件驱动学习和经典学习的动作决策次数，为方便表达做如下定义：为经典学习决策次数，为事件驱动学习决策次数，则减少决策率可由如式 (4) 计算: 表 1 事件驱动与经典 Q 学习动作决策次数对比 Table 1 A comparison of action times between event-triggered Q and classical Q case 经典 Q 学习 σi = 0.05 σi = 0.02 σi = 0.01 事件驱动 Q 学习减少决策率 η /% 事件驱动 Q 学习减少决策率 η /% 事件驱动 Q 学习减少决策率 η /% 600 000 192 976 67.79 129 628 78.32 100 143 83.31 900 000 372 463 58.61 257 586 71.37 246 968 72.56 1 200 000 591 433 50.71 475 579 60.36 406 864 66.10 1 500 000 828 361 44.77 689 172 54.05 587 553 60.83 ·96· 智能系统学报第 14 卷

第1期徐鹏，等：事件驱动的强化学习多智能体编队控制 ·97· 刀=5-华 (4) 能体编队问题，侧重于学习过程中动作决策层面 KI 的研究。智能体在与环境交互中，根据观测状态在同一组σ：=0.05参数下，随着Episode的增加，值的变化与设计的事件驱动条件比较，决定是否事件驱动Q学习减少的决策次数从407024次增执行动作更新。研究结果表明，在相同时间内，加到671639次，但减少决策率7却从67.79%下保证系统可允许编队性能的前提下，事件驱动机降到44.77%，可得减少决策次数的增长率逐渐下降。因此随着算法的渐近收敛，减少的决策次数制可以降低智能体的动作决策频率和减少通信和计算资源消耗。因此，引入事件驱动机制有助于会趋近于一个饱和值。在同样Episode下，可得不同σ，值的事件驱动条件都能减少学习过程中强化学习在实际有限资源环境中的工程应用。未的动作决策频率。来的工作会基于现有研究，将事件驱动机制优势如图5所示，基于事件驱动Q学习和经典Q 与更多种类的强化学习算法相结合，开展相关的学习经过200轮Episode训练，可得K≈Kz,说明理论和应用研究。两种算法都成功完成编队任务，且完成编队任务参考文献：的动作次数趋近一致。相比经典Q学习，基于事件驱动Q学习曲线梯度下降快，说明该算法能较 [1]POLYDOROS A S,NALPANTIDIS L.Survey of model- 快地找到一个成功策略，完成编队任务。随着减 based reinforcement learning:applications on robotics[J]. 少的决策次数趋近稳定，解空间被释放，通过不 Journal of intelligent robotic systems,2017,86(2): 断迭代更新，寻求到最优解。 153-173. [2]TSAURO G.TOURCTZKY D S.LN T K.et al.Advances 2.0x10 in neural information processing systems[J].Biochemical 1.6 一经典Q学习 and biophysical research communications,1997,159(6). 一事件驱动Q学习 [3]梁爽，曹其新，王雯珊，等.基于强化学习的多定位组件自动选择方法.智能系统学报，2016,11(2)：149-154. 0.4 ok LIANG Shuang,CAO Qixin,WANG Wenshan,et al.An 0 50100150200250300 automatic switching method for multiple location compon- 学习幕数 ents based on reinforcement learning[J].CAAI transac- 图5基于事件驱动Q学习与经典Q学习动作次数演变 tions on intelligent systems,2016,11(2):149-154. Fig.5 Variation of the number of actions of event- [4]KIM HE,AHN H S.Convergence of multiagent Q-learn- triggered O and classical O ing:multi action replay process approach[Cl//Proceedings 图6对比了在不同参数下的事件驱动条件编 of 2010 IEEE International Symposium on Intelligent Con- 队动作次数的演变情况。结合表1，在一个Eps- trol.Yokohama,Japan,2010:789-794. ode中，虽然σ，参数变小会降低编队系统的决策 [5]IIMA H.KUROE Y.Swarm reinforcement learning meth- 率，但同时也会增加编队的动作决策次数，在基 ods improving certainty of learning for a multi-robot form- 于事件驱动的学习过程中，当K2(1-)<K事件 ation problem[C]//Proceedings of 2015 IEEE Congress on 驱动函数被视为有效。 Evolutionary Computation.Sendai,Japan,2015: 3026-3033 3.5￥10 二8 [6]MENG Xiangyu,CHEN Tongwen.Optimal sampling and 3.0 2.5 -0=0.05 performance comparison of periodic and event based im- 2.0 pulse control[J].IEEE transactions on automatic control, 1.5 2012,57(12):3252-3259. 1.0 0.5 [7]DIMAROGONAS D V.FRAZZOLI E.JOHANSSON K wAMA4心AA人今 H.Distributed event-triggered control for multi-agent sys- 0102030405060708090100 tems[J].IEEE transactions on automatic control,2012. 学习幕数 57(5):1291-1297. 图6基于事件驱动Q学习不同：下的动作次数变化 [8]XIE Duosi,XU Shengyuan,CHU Yuming,et al.Event- Fig.6 Variation of the number o;of actions of event- triggered O triggered average consensus for multi-agent systems with nonlinear dynamics and switching topology[J].Journal of 4结束语 the franklin institute,2015,352(3):1080-1098. [9]WU Yuanqing,MENG Xiangyu,XIE Lihua,et al.An in- 本文主要研究基于事件驱动的强化学习多智 put-based triggering approach to leader-following prob-

η = κ1−κ2 κ1 (4) σi = 0.05 Q η σi 在同一组参数下，随着 Episode 的增加，事件驱动学习减少的决策次数从 407 024 次增加到 671 639 次，但减少决策率却从 67.79% 下降到 44.77%，可得减少决策次数的增长率逐渐下降。因此随着算法的渐近收敛，减少的决策次数会趋近于一个饱和值。在同样 Episode 下，可得不同值的事件驱动条件都能减少学习过程中的动作决策频率。 Q Q K1 ≈ K2 Q Q 如图 5 所示，基于事件驱动学习和经典学习经过 200 轮 Episode 训练，可得，说明两种算法都成功完成编队任务，且完成编队任务的动作次数趋近一致。相比经典学习，基于事件驱动学习曲线梯度下降快，说明该算法能较快地找到一个成功策略，完成编队任务。随着减少的决策次数趋近稳定，解空间被释放，通过不断迭代更新，寻求到最优解。学习幕数 0 50 100 150 200 250 300 动作次数 ×104 0.4 0.8 1.2 1.6 经典Q学习事件驱动Q学习 2.0 图 5 基于事件驱动 Q 学习与经典 Q 学习动作次数演变 Q Q Fig. 5 Variation of the number of actions of eventtriggered and classical σi K2(1−η) < K1 图 6 对比了在不同参数下的事件驱动条件编队动作次数的演变情况。结合表 1，在一个 Episode 中，虽然参数变小会降低编队系统的决策率，但同时也会增加编队的动作决策次数，在基于事件驱动的学习过程中，当事件驱动函数被视为有效。学习幕数 0 10 20 30 40 50 60 70 80 90 100 动作次数 0.5 1.0 1.5 2.0 2.5 3.0 3.5 σ=0.01 σ=0.02 σ=0.05 ×104 图 Q σi 6 基于事件驱动学习不同下的动作次数变化 σi Q Fig. 6 Variation of the number of actions of eventtriggered 4 结束语本文主要研究基于事件驱动的强化学习多智能体编队问题，侧重于学习过程中动作决策层面的研究。智能体在与环境交互中，根据观测状态值的变化与设计的事件驱动条件比较，决定是否执行动作更新。研究结果表明，在相同时间内，保证系统可允许编队性能的前提下，事件驱动机制可以降低智能体的动作决策频率和减少通信和计算资源消耗。因此，引入事件驱动机制有助于强化学习在实际有限资源环境中的工程应用。未来的工作会基于现有研究，将事件驱动机制优势与更多种类的强化学习算法相结合，开展相关的理论和应用研究。参考文献： POLYDOROS A S, NALPANTIDIS L. Survey of modelbased reinforcement learning: applications on robotics[J]. Journal of intelligent & robotic systems, 2017, 86(2): 153–173. [1] TSAURO G, TOURCTZKY D S, LN T K, et al. Advances in neural information processing systems[J]. Biochemical and biophysical research communications, 1997, 159(6). [2] 梁爽, 曹其新, 王雯珊, 等. 基于强化学习的多定位组件自动选择方法[J]. 智能系统学报, 2016, 11(2): 149–154. LIANG Shuang, CAO Qixin, WANG Wenshan, et al. An automatic switching method for multiple location components based on reinforcement learning[J]. CAAI transactions on intelligent systems, 2016, 11(2): 149–154. [3] KIM H E, AHN H S. Convergence of multiagent Q-learning: multi action replay process approach[C]//Proceedings of 2010 IEEE International Symposium on Intelligent Control. Yokohama, Japan, 2010: 789–794. [4] IIMA H, KUROE Y. Swarm reinforcement learning methods improving certainty of learning for a multi-robot formation problem[C]//Proceedings of 2015 IEEE Congress on Evolutionary Computation. Sendai, Japan, 2015: 3026–3033. [5] MENG Xiangyu, CHEN Tongwen. Optimal sampling and performance comparison of periodic and event based impulse control[J]. IEEE transactions on automatic control, 2012, 57(12): 3252–3259. [6] DIMAROGONAS D V, FRAZZOLI E, JOHANSSON K H. Distributed event-triggered control for multi-agent systems[J]. IEEE transactions on automatic control, 2012, 57(5): 1291–1297. [7] XIE Duosi, XU Shengyuan, CHU Yuming, et al. Eventtriggered average consensus for multi-agent systems with nonlinear dynamics and switching topology[J]. Journal of the franklin institute, 2015, 352(3): 1080–1098. [8] WU Yuanqing, MENG Xiangyu, XIE Lihua, et al. An input-based triggering approach to leader-following prob- [9] 第 1 期徐鹏，等：事件驱动的强化学习多智能体编队控制 ·97·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录