【机器学习】基于事件驱动的多智能体强化学习研究

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：1.26MB

第12卷第1期智能系统学报 Vol.12 No.1 2017年2月 CAAI Transactions on Intelligent Systems Feb.2017 D0I:10.11992/tis.201604008 网络出版地址：http://kns.cmki.net/kcms/detail/23.1538.TP.20170301.1147.002.html 基于事件驱动的多智能体强化学习研究张文旭，马磊，王晓东 (西南交通大学电气工程学院，四川成都610031) 摘要：本文针对多智能体强化学习中存在的通信和计算资源消耗大等问题，提出了一种基于事件驱动的多智能体强化学习算法，侧重于事件驱动在多智能体学习策略层方面的研究。在智能体与环境的交互过程中，算法基于事件驱动的思想，根据智能体观测信息的变化率设计触发函数，使学习过程中的通信和学习时机无需实时或按周期地进行，故在相同时间内可以降低数据传输和计算次数。另外，分析了该算法的计算资源消耗，以及对算法收敛性进行了论证。最后，仿真实验说明了该算法可以在学习过程中减少一定的通信次数和策略遍历次数，进而缓解了通信和计算资源消耗。关键词：事件驱动：多智能体：强化学习：分布式马尔科夫决策过程：收敛性中图分类号：TP181文献标志码：A文章编号：1673-4785(2017)01-0082-06 中文引用格式：张文旭，马磊，王晓东.基于事件驱动的多智能体强化学习研究[J].智能系统学报，2017,12(1)：82-87. 英文引用格式：ZHANG Wenxu,MA Lei,WANG Xiaodong..Reinforcement learning for event-.triggered multi-agent systems[J]. CAAI transactions on intelligent systems,2017,12(1):82-87. Reinforcement learning for event-triggered multi-agent systems ZHANG Wenxu,MA Lei,WANG Xiaodong (School of Electrical Engineering,Southwest Jiaotong University,Chengdu 610031,China) Abstract:Focusing on the existing multi-agent reinforcement learning problems such as huge consumption of com- munication and calculation,a novel event-triggered multi-agent reinforcement learning algorithm was presented.The algorithm focused on an event-triggered idea at the strategic level of multi-agent learning.In particular,during the interactive process between agents and the learning environment,the communication and learning were triggered through the change rate of observation.Using an appropriate event-triggered design,the discontinuous threshold was employed,and thus real-time or periodical communication and learning can be avoided,and the number of commu- nications and calculations were reduced within the same time.Moreover,the consumption of computing resource and the convergence of the proposed algorithm were analyzed and proven.Finally,the simulation results show that the number of communications and traversals were reduced in learning,thus saving the computing and communica- tion resources. Keywords:event-triggered;multi-agent;reinforcement learning;decentralized Markov decision processes;conver- gence 近年来，基于事件驱动的方法在多智能体研究体可以根据测量误差间歇性的更新状态，减少通信中得到广泛关注1)。在事件驱动的思想中，智能次数和计算量。文献[4]首次在多智能体系统的协作中运用事件驱动的策略，并设计了基于事件驱动收稿日期：2016-04-05.网络出版日期：2017-03-01. 机制的状态反馈控制器。随后，文献[5-7]将基于基金项目：国家自然科学基金青年项目(61304166). 事件驱动的控制器扩展到非线性系统，以及复杂网通信作者：张文旭.Email:wenxu_zhang(@l63.com

第１２卷第１期智能系统学报Ｖｏｌ．１２ №．１２０１７年２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＦｅｂ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０４００８网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０３０１．１１４７．００２．ｈｔｍｌ基于事件驱动的多智能体强化学习研究张文旭，马磊，王晓东（西南交通大学电气工程学院，四川成都６１００３１）摘要：本文针对多智能体强化学习中存在的通信和计算资源消耗大等问题，提出了一种基于事件驱动的多智能体强化学习算法，侧重于事件驱动在多智能体学习策略层方面的研究。在智能体与环境的交互过程中，算法基于事件驱动的思想，根据智能体观测信息的变化率设计触发函数，使学习过程中的通信和学习时机无需实时或按周期地进行，故在相同时间内可以降低数据传输和计算次数。另外，分析了该算法的计算资源消耗，以及对算法收敛性进行了论证。最后，仿真实验说明了该算法可以在学习过程中减少一定的通信次数和策略遍历次数，进而缓解了通信和计算资源消耗。关键词：事件驱动；多智能体；强化学习；分布式马尔科夫决策过程；收敛性中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０１－００８２－０６中文引用格式：张文旭，马磊，王晓东．基于事件驱动的多智能体强化学习研究［Ｊ］．智能系统学报，２０１７，１２（１）：８２－８７．英文引用格式：ＺＨＡＮＧＷｅｎｘｕ，ＭＡＬｅｉ，ＷＡＮＧＸｉａｏｄｏｎｇ．Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｆｏｒｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄｍｕｌｔｉ⁃ａｇｅｎｔｓｙｓｔｅｍｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（１）：８２－８７．Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｆｏｒｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄｍｕｌｔｉ⁃ａｇｅｎｔｓｙｓｔｅｍｓＺＨＡＮＧＷｅｎｘｕ，ＭＡＬｅｉ，ＷＡＮＧＸｉａｏｄｏｎｇ（ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ，ＳｏｕｔｈｗｅｓｔＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｃｈｅｎｇｄｕ６１００３１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｆｏｃｕｓｉｎｇｏｎｔｈｅｅｘｉｓｔｉｎｇｍｕｌｔｉ⁃ａｇｅｎｔｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｐｒｏｂｌｅｍｓｓｕｃｈａｓｈｕｇｅｃｏｎｓｕｍｐｔｉｏｎｏｆｃｏｍ⁃ ｍｕｎｉｃａｔｉｏｎａｎｄｃａｌｃｕｌａｔｉｏｎ，ａｎｏｖｅｌｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄｍｕｌｔｉ⁃ａｇｅｎｔｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｗａｓｐｒｅｓｅｎｔｅｄ．Ｔｈｅａｌｇｏｒｉｔｈｍｆｏｃｕｓｅｄｏｎａｎｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄｉｄｅａａｔｔｈｅｓｔｒａｔｅｇｉｃｌｅｖｅｌｏｆｍｕｌｔｉ⁃ａｇｅｎｔｌｅａｒｎｉｎｇ．Ｉｎｐａｒｔｉｃｕｌａｒ，ｄｕｒｉｎｇｔｈｅｉｎｔｅｒａｃｔｉｖｅｐｒｏｃｅｓｓｂｅｔｗｅｅｎａｇｅｎｔｓａｎｄｔｈｅｌｅａｒｎｉｎｇｅｎｖｉｒｏｎｍｅｎｔ，ｔｈｅｃｏｍｍｕｎｉｃａｔｉｏｎａｎｄｌｅａｒｎｉｎｇｗｅｒｅｔｒｉｇｇｅｒｅｄｔｈｒｏｕｇｈｔｈｅｃｈａｎｇｅｒａｔｅｏｆｏｂｓｅｒｖａｔｉｏｎ．Ｕｓｉｎｇａｎａｐｐｒｏｐｒｉａｔｅｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄｄｅｓｉｇｎ，ｔｈｅｄｉｓｃｏｎｔｉｎｕｏｕｓｔｈｒｅｓｈｏｌｄｗａｓｅｍｐｌｏｙｅｄ，ａｎｄｔｈｕｓｒｅａｌ⁃ｔｉｍｅｏｒｐｅｒｉｏｄｉｃａｌｃｏｍｍｕｎｉｃａｔｉｏｎａｎｄｌｅａｒｎｉｎｇｃａｎｂｅａｖｏｉｄｅｄ，ａｎｄｔｈｅｎｕｍｂｅｒｏｆｃｏｍｍｕ⁃ ｎｉｃａｔｉｏｎｓａｎｄｃａｌｃｕｌａｔｉｏｎｓｗｅｒｅｒｅｄｕｃｅｄｗｉｔｈｉｎｔｈｅｓａｍｅｔｉｍｅ．Ｍｏｒｅｏｖｅｒ，ｔｈｅｃｏｎｓｕｍｐｔｉｏｎｏｆｃｏｍｐｕｔｉｎｇｒｅｓｏｕｒｃｅａｎｄｔｈｅｃｏｎｖｅｒｇｅｎｃｅｏｆｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｗｅｒｅａｎａｌｙｚｅｄａｎｄｐｒｏｖｅｎ．Ｆｉｎａｌｌｙ，ｔｈｅｓｉｍｕｌａｔｉｏｎｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｎｕｍｂｅｒｏｆｃｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄｔｒａｖｅｒｓａｌｓｗｅｒｅｒｅｄｕｃｅｄｉｎｌｅａｒｎｉｎｇ，ｔｈｕｓｓａｖｉｎｇｔｈｅｃｏｍｐｕｔｉｎｇａｎｄｃｏｍｍｕｎｉｃａ⁃ ｔｉｏｎｒｅｓｏｕｒｃｅｓ．Ｋｅｙｗｏｒｄｓ：ｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄ；ｍｕｌｔｉ⁃ａｇｅｎｔ；ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ；ｄｅｃｅｎｔｒａｌｉｚｅｄＭａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓｅｓ；ｃｏｎｖｅｒ⁃ ｇｅｎｃｅ收稿日期：２０１６－０４－０５．网络出版日期：２０１７－０３－０１．基金项目：国家自然科学基金青年项目（６１３０４１６６）．通信作者：张文旭．Ｅｍａｉｌ：ｗｅｎｘｕ＿ｚｈａｎｇ＠１６３．ｃｏｍ．近年来，基于事件驱动的方法在多智能体研究中得到广泛关注［１－３］。在事件驱动的思想中，智能体可以根据测量误差间歇性的更新状态，减少通信次数和计算量。文献［４］首次在多智能体系统的协作中运用事件驱动的策略，并设计了基于事件驱动机制的状态反馈控制器。随后，文献［５－７］将基于事件驱动的控制器扩展到非线性系统，以及复杂网

第1期张文旭，等：基于事件驱动的多智能体强化学习研究 83. 络等领域。但是，目前事件驱动与强化学习的结合还相对不足[8-]，并主要集中在对多智能体的控制 2 触发规则设计器设计上，较少有学者关注其在学习策略层的应用。在事件驱动思想中，智能体把从环境中得到的在现有的多智能体强化学习算法中，由于智能体携观测误差作为重要的评判标准，当它超过一个预设带的通信设备和微处理器性能有限，其学习过程中的阈值时事件被触发，智能体更新状态并计算联合通常存在两个问题：1)智能体间的信息交互需占用策略，而事件触发的关键在于对触发函数的设计。较大的通信带宽；2)在学习的试错和迭代过程中， 2.1自事件触发设计消耗了大量的计算资源。以上问题都将减少智能体 DEC-MDPs模型中，每一个智能体通过独立的的工作时间，或增加设计上的复杂性。本文区别于观测获取局部信息，然后广播到全队，所以每一个智传统的多智能体学习算法，侧重于事件驱动在多智能体首先需要自触发设计。在时刻t,当每一个智能能体学习策略层的研究，首先从自触发和联合触发体观测结束后，其根据上一刻观测与当前观测的变两个方面定义触发函数，然后在分布式马尔可夫模化率，进行一次自触发过程，智能体用自触发方式来型中设计了基于事件驱动的多智能体强化学习算判断是否需要广播自身的观测信息。智能体i从t- 法，最后对算法的收敛性进行了论证。 1时刻到t时刻的观测变化率定义为 e.(t)=o:(t)-o,(t-1)/o.(t-1)(1) 1 问题描述式中：o.(t)为在t时刻的观测值。定义0<e<1为自 1.1分布式马尔可夫模型事件触发函数阈值，当智能体ⅱ观测信息的变化率考虑一个分布式马尔可夫模型(decentralized e,(t)大于e时进行通信。此时，不一定所有的智能体都被驱动，没有采集到新观测信息的智能体仅接 markov decision processes,DEC-MDPs),是由一个五元组(1，{S},{A},P,R〉构成的，其中，I表示有限收信息。在自事件触发过程，智能体无需每一时刻的智能体集合：{S}表示一个有限的系统状态集合：进行通信，因此减少智能体的通信消耗。 2.2联合事件触发设计 {A:}表示智能体i可采取的动作的集合：P表示系联合事件触发的对象是智能体团队，考虑的是统的转移；R表示回报函数。DEC-MDPs与多智能一个联合观测的变化情况。假设在时刻：智能体团体的马尔可夫模型(multi agent--MDPs,M-MDPs)的队获得当前的联合观测0(t)=(0,(t),02(t),…, 唯一区别在于，在M-MDPs中系统的全局信息被所 O(t)。此时，智能体团队从t-1时刻到t时刻的有智能体完全获得，而在DEC-MDPs中，每一个智联合观测变化率定义为能体仅具有局部的观测，或者说是全局信息的一个 E(t)=(e(t),e2(t),e(t)) (2) 子集，当所有的子集放在一起求并集时，这些局部信式中：e.(t)=|o.(t)-o:(t-1)l/o.(t-1)。息能够合成一个完整的全局信息，在完全通信的情利用方差计算两个时刻的误差偏移程度，令联况下，DEC-MDPs可以被简化为M-MDPs模型。求解DEC-MDPs的目的是找到一个联合策略元=（π1，合观测变化率期塑为F()= ,e,(t)/n,方差为 T2,·,T.)来最大化回报函数R。求解DEC-MDPs 问题的计算复杂度为NEXPliO]难度，即问题的状态 D)=(e,()-F()2p (3) i= 随着步数增加呈现双指数增长。式中：p=l/n为e,(t)的分布律，令 1.2 Q学习 H(t)=D(t)-F(t)/F(t) (4) 文献[11]提出了一类通过引入期望的延时回定义0<G<1为团队的联合事件触发函数阈值，当报，求解无完全信息的MDPs类问题的方法，称为 H(t)大于G时，认为智能体团队的状态已经发生较大 Q-学习(Q-learning)。Q-学习是一种模型无关的强改变，需要对Q值表进行遍历，并计算一个新的联合策化学习方法，通过对状态-动作对的值函数进行估略，否则智能体直接延用上一刻的联合策略。计，以求得最优策略。Q学习算法的基本形式如下：自事件触发和联合事件触发的区别在于： Q(s,a)=Rs,a）+y∑P(s,a,s')maxQ^(s',a） 1)自事件触发的对象是单个智能体，对应的事件由智能体自身的观测变化率所触发，触发后的行式中：Q°(s,a)表示智能体在状态s下采用动作a 动为进行广播式通信，自事件触发的目的是为了减所获得的奖赏折扣总和；y为折扣因子；P(s,a,s') 少通信资源消耗：而联合事件触发针对的是智能体表示概率函数：最优策略为智能体在状态s下选用团队的联合观测变化率，触发后的行动是计算联合 Q值最大的策略。Q学习存在的最大问题为，智能策略，目的在于减少计算资源消耗。体需要通过试错的方式找到最优策略，这样的方式 2)当单个智能体的观测发生变化时，并不一定使得Q学习需要考虑所有的可能策略，从而需要消导致团队的联合观测变化率发生较大改变。即当环耗大量计算资源。境整体发生变化时，虽然每一个智能体的观测都发

络等领域。但是，目前事件驱动与强化学习的结合还相对不足［８－９］，并主要集中在对多智能体的控制器设计上，较少有学者关注其在学习策略层的应用。在现有的多智能体强化学习算法中，由于智能体携带的通信设备和微处理器性能有限，其学习过程中通常存在两个问题：１）智能体间的信息交互需占用较大的通信带宽；２）在学习的试错和迭代过程中，消耗了大量的计算资源。以上问题都将减少智能体的工作时间，或增加设计上的复杂性。本文区别于传统的多智能体学习算法，侧重于事件驱动在多智能体学习策略层的研究，首先从自触发和联合触发两个方面定义触发函数，然后在分布式马尔可夫模型中设计了基于事件驱动的多智能体强化学习算法，最后对算法的收敛性进行了论证。１问题描述１．１分布式马尔可夫模型考虑一个分布式马尔可夫模型（ｄｅｃｅｎｔｒａｌｉｚｅｄｍａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓｅｓ，ＤＥＣ⁃ＭＤＰｓ），是由一个五元组〈Ｉ，｛Ｓ｝，｛Ａｉ｝，Ｐ，Ｒ〉构成的，其中，Ｉ表示有限的智能体集合；｛Ｓ｝表示一个有限的系统状态集合；｛Ａｉ｝表示智能体ｉ可采取的动作的集合；Ｐ表示系统的转移；Ｒ表示回报函数。ＤＥＣ⁃ＭＤＰｓ与多智能体的马尔可夫模型（ｍｕｌｔｉａｇｅｎｔ⁃ＭＤＰｓ，Ｍ⁃ＭＤＰｓ）的唯一区别在于，在Ｍ⁃ＭＤＰｓ中系统的全局信息被所有智能体完全获得，而在ＤＥＣ⁃ＭＤＰｓ中，每一个智能体仅具有局部的观测，或者说是全局信息的一个子集，当所有的子集放在一起求并集时，这些局部信息能够合成一个完整的全局信息，在完全通信的情况下，ＤＥＣ⁃ＭＤＰｓ可以被简化为Ｍ⁃ＭＤＰｓ模型。求解ＤＥＣ⁃ＭＤＰｓ的目的是找到一个联合策略 π → ＝（π１， π２，…，πｎ）来最大化回报函数Ｒ。求解ＤＥＣ⁃ＭＤＰｓ问题的计算复杂度为ＮＥＸＰ［１０］难度，即问题的状态随着步数增加呈现双指数增长。１．２Ｑ⁃学习文献［１１］提出了一类通过引入期望的延时回报，求解无完全信息的ＭＤＰｓ类问题的方法，称为Ｑ⁃学习（Ｑ⁃ｌｅａｒｎｉｎｇ）。Ｑ⁃学习是一种模型无关的强化学习方法，通过对状态－动作对的值函数进行估计，以求得最优策略。Ｑ⁃学习算法的基本形式如下：Ｑ ∗ （ｓ，ａ）＝Ｒ（ｓ，ａ）＋ γ∑ｓ′∈ＳＰ（ｓ，ａ，ｓ′）ｍａｘＱ ∗ （ｓ′，ａ′）式中：Ｑ ∗ （ｓ，ａ）表示智能体在状态ｓ下采用动作ａ所获得的奖赏折扣总和；γ 为折扣因子；Ｐ（ｓ，ａ，ｓ′）表示概率函数；最优策略为智能体在状态ｓ下选用Ｑ值最大的策略。Ｑ⁃学习存在的最大问题为，智能体需要通过试错的方式找到最优策略，这样的方式使得Ｑ⁃学习需要考虑所有的可能策略，从而需要消耗大量计算资源。２触发规则设计在事件驱动思想中，智能体把从环境中得到的观测误差作为重要的评判标准，当它超过一个预设的阈值时事件被触发，智能体更新状态并计算联合策略，而事件触发的关键在于对触发函数的设计。２．１自事件触发设计ＤＥＣ⁃ＭＤＰｓ模型中，每一个智能体通过独立的观测获取局部信息，然后广播到全队，所以每一个智能体首先需要自触发设计。在时刻ｔ，当每一个智能体观测结束后，其根据上一刻观测与当前观测的变化率，进行一次自触发过程，智能体用自触发方式来判断是否需要广播自身的观测信息。智能体ｉ从ｔ－１时刻到ｔ时刻的观测变化率定义为ｅｉ（ｔ）＝ｏｉ（ｔ）－ｏｉ（ｔ－１）／ｏｉ（ｔ－１）（１）式中：ｏｉ（ｔ）为在ｔ时刻的观测值。定义０＜ｅ＜１为自事件触发函数阈值，当智能体ｉ观测信息的变化率ｅｉ（ｔ）大于ｅ时进行通信。此时，不一定所有的智能体都被驱动，没有采集到新观测信息的智能体仅接收信息。在自事件触发过程，智能体无需每一时刻进行通信，因此减少智能体的通信消耗。２．２联合事件触发设计联合事件触发的对象是智能体团队，考虑的是一个联合观测的变化情况。假设在时刻ｔ智能体团队获得当前的联合观测Ｏ（ｔ）＝（Ｏ１（ｔ），Ｏ２（ｔ），…，Ｏｎ（ｔ））。此时，智能体团队从ｔ－１时刻到ｔ时刻的联合观测变化率定义为Ｅ（ｔ）＝（ｅ１（ｔ），ｅ２（ｔ），…ｅｎ（ｔ））（２）式中：ｅｉ（ｔ）＝ｏｉ（ｔ）－ｏｉ（ｔ－１）／ｏｉ（ｔ－１）。利用方差计算两个时刻的误差偏移程度，令联合观测变化率期望为Ｆ（ｔ）＝ ∑ ｎｉ＝１ｅｉ（ｔ）／ｎ，方差为Ｄ（ｔ）＝ ∑ ｎｉ＝１（ｅｉ（ｔ）－Ｆ（ｔ））２·ｐ（３）式中：ｐ＝１／ｎ为ｅｉ（ｔ）的分布律，令Ｈ（ｔ）＝Ｄ（ｔ）－Ｆ（ｔ）／Ｆ（ｔ）（４）定义０＜Ｇ＜１为团队的联合事件触发函数阈值，当Ｈ（ｔ）大于Ｇ时，认为智能体团队的状态已经发生较大改变，需要对Ｑ值表进行遍历，并计算一个新的联合策略，否则智能体直接延用上一刻的联合策略。自事件触发和联合事件触发的区别在于：１）自事件触发的对象是单个智能体，对应的事件由智能体自身的观测变化率所触发，触发后的行动为进行广播式通信，自事件触发的目的是为了减少通信资源消耗；而联合事件触发针对的是智能体团队的联合观测变化率，触发后的行动是计算联合策略，目的在于减少计算资源消耗。２）当单个智能体的观测发生变化时，并不一定导致团队的联合观测变化率发生较大改变。即当环境整体发生变化时，虽然每一个智能体的观测都发第１期张文旭，等：基于事件驱动的多智能体强化学习研究 ·８３·

·84 智能系统学报第12卷生了变化，但对联合观测而言，所有智能体在两个时强化学习的目的是找到一个策略使团队获得最刻的变化率相对无变化，所以制定的联合策略可能大的奖励信号。如果在所有状态下，策略π的期望无明显变化，此时也认为智能体团队不需要被触发。回报值都大于或等于策略π'的，那么称之为最优策比如在机器人足球问题中，t-1时刻机器人团队的略。最优策略可能有多个，都将其称作最优策略，记联合策略为，机器人A带球行动且其他队友跑位行 π·，而最优策略对应的状态-联合动作对(s,a)也动。到：时刻后，机器人A和其他机器人的观测（双有相同的最优值函数，记作Q·。方机器人的站位和距离)都发生了较大变化，机器基于事件驱动的Q-学习算法，类似于经典Q学人团队在通过广播通信获得全局观测信息后，根据习，均是不去估计环境模型，而是直接优化一个可迭观测信息进行判断，两个时刻双方机器人的相对站代计算的Q函数。区别在于，经典Q学习中，智能位和相对距离可能无大变化。此时，如果团队计算体在每一个时刻都需要对Q值进行迭代计算，而基新的联合策略，也将是机器人A带球且其他队友跑于事件驱动的Q学习，仅在智能体被触发的情况位，与t-1时刻的联合策略相同。所以，认为团队在下，Q值才进行迭代计算。此时，定义Q函数为在 t时刻无需计算新的联合策略，可以直接使用上一状态s,时被触发并执行联合动作a,表达式为刻的策略。图1为事件触发流程图。 Q+1(s,a,e)=T,·max,{Q+1(s,a,e)1a,∈A} 「开始 (5) 观测当前状态对于任意一个策略和下一个状态，在状态s的 <自触发N →上一个策略值和后继状态值之间存在如下关系： Y 通信☐ Q=Er +yQ(s,a,e)I s =s,a a,,e:=el= P(R+y maxQ(s',d.e))(6) <联合触发 N 式(6)为贝尔曼公式，它表示了当前状态和其 Y 联合策略后继状态之间的联系。图3表示了强化学习中Q 值迭代与状态转移的回溯关系。图3(a)中，每一个观测下一个状态实心点表示一个状态-联合动作对，每一个空心点收到回报表示一个状态，智能体从一个状态-联合动作对出图1事件触发流程图发，依次到达下一个状态。在图3(b)中，智能体团 Fig.1 The flow chart of event-triggered 队在s状态下得到最优策略(s+1,a),假设团队在下一状态没有被事件触发，则不进行状态转移，直接 3 基于事件驱动的强化学习延续上一时刻的最优策略(s+1,a)。本节介绍了基于事件驱动的强化学习算法，以及对事件驱动下计算资源消耗进行了分析，同时对 (sd 算法的收敛性进行了论证。 3.1基于事件驱动的强化学习设计在完全通信情况下，DEC-MDPs被简化为M- MDPs模型，所以直接考虑基于事件驱动的多智能体马尔可夫模型(event-triggered M-MDPs),其由一个六元组I,{S},{A:},P,R,e〉构成，其中e表示事件触发函数，当团队的触发函数大于阈值时，团队被触发并执行联合行动策略，同时发生状态转移，转移 (a)传统的0学习函数为P={s1ls,a,e}。基于事件驱动的强化学习过程不同于经典的强化学习，如图2所示，智能体需要首先根据触发函数来判断事件是否被触发，如果被触发才执行一个联合行动并影响环境。事件触发 sa) 联合行动联合回报 (s) 多智能体环境联合观测 (b)基于事件驱动的Q.学习图2基于事件驱动的强化学习框架图3两种方式回溯图 Fig.2 The frame of reinforcement learning with event-triggered Fig.3 The backtracking of two methods

生了变化，但对联合观测而言，所有智能体在两个时刻的变化率相对无变化，所以制定的联合策略可能无明显变化，此时也认为智能体团队不需要被触发。比如在机器人足球问题中，ｔ－１时刻机器人团队的联合策略为，机器人Ａ带球行动且其他队友跑位行动。到ｔ时刻后，机器人Ａ和其他机器人的观测（双方机器人的站位和距离）都发生了较大变化，机器人团队在通过广播通信获得全局观测信息后，根据观测信息进行判断，两个时刻双方机器人的相对站位和相对距离可能无大变化。此时，如果团队计算新的联合策略，也将是机器人Ａ带球且其他队友跑位，与ｔ－１时刻的联合策略相同。所以，认为团队在ｔ时刻无需计算新的联合策略，可以直接使用上一刻的策略。图１为事件触发流程图。图１事件触发流程图Ｆｉｇ．１Ｔｈｅｆｌｏｗｃｈａｒｔｏｆｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄ３基于事件驱动的强化学习本节介绍了基于事件驱动的强化学习算法，以及对事件驱动下计算资源消耗进行了分析，同时对算法的收敛性进行了论证。３．１基于事件驱动的强化学习设计在完全通信情况下，ＤＥＣ⁃ＭＤＰｓ被简化为Ｍ⁃ ＭＤＰｓ模型，所以直接考虑基于事件驱动的多智能体马尔可夫模型（ｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄＭ⁃ＭＤＰｓ），其由一个六元组〈Ｉ，｛Ｓ｝，｛Ａｉ｝，Ｐ，Ｒ，ｅ〉构成，其中ｅ表示事件触发函数，当团队的触发函数大于阈值时，团队被触发并执行联合行动策略，同时发生状态转移，转移函数为Ｐ＝｛ｓｔ＋１｜ｓｔ，ａ，ｅ｝。基于事件驱动的强化学习过程不同于经典的强化学习，如图２所示，智能体需要首先根据触发函数来判断事件是否被触发，如果被触发才执行一个联合行动并影响环境。图２基于事件驱动的强化学习框架Ｆｉｇ．２Ｔｈｅｆｒａｍｅｏｆｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｗｉｔｈｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄ强化学习的目的是找到一个策略使团队获得最大的奖励信号。如果在所有状态下，策略 π 的期望回报值都大于或等于策略 π′的，那么称之为最优策略。最优策略可能有多个，都将其称作最优策略，记 π ∗ ，而最优策略对应的状态－联合动作对（ｓ，ａ → ）也有相同的最优值函数，记作Ｑ ∗ 。基于事件驱动的Ｑ⁃学习算法，类似于经典Ｑ⁃学习，均是不去估计环境模型，而是直接优化一个可迭代计算的Ｑ函数。区别在于，经典Ｑ⁃学习中，智能体在每一个时刻都需要对Ｑ值进行迭代计算，而基于事件驱动的Ｑ⁃学习，仅在智能体被触发的情况下，Ｑ值才进行迭代计算。此时，定义Ｑ函数为在状态ｓｔ时被触发并执行联合动作ａ → ｔ，表达式为Ｑｔ＋１（ｓｔ，ａ → ｔ，ｅ）＝ｒｔ·ｍａｘａｔＱｔ＋１（ｓｔ，ａ → ｔ，ｅ）｜ａ → { ｔ ∈ Ａ} （５）对于任意一个策略和下一个状态，在状态ｓ的值和后继状态值之间存在如下关系：Ｑ ∗ ＝Ｅ｛ｒｔ＋１＋ γＱｔ＋１（ｓｔ，ａ → ，ｅ）｜ｓｔ＝ｓ，ａ → ｔ＝ａ → ｔ，ｅｔ＝ｅ｝＝ ∑ｓ′ Ｐａ → ｓｓ′ Ｒａ → ｓｓ′ ＋ γ ｍａｘａ → Ｑ ∗ （ｓ′，ａ → ( ，ｅ） ) （６）式（６）为贝尔曼公式，它表示了当前状态和其后继状态之间的联系。图３表示了强化学习中Ｑ值迭代与状态转移的回溯关系。图３（ａ）中，每一个实心点表示一个状态－联合动作对，每一个空心点表示一个状态，智能体从一个状态－联合动作对出发，依次到达下一个状态。在图３（ｂ）中，智能体团队在ｓｔ＋１状态下得到最优策略ｓｔ＋１，ａ → ( ) ，假设团队在下一状态没有被事件触发，则不进行状态转移，直接延续上一时刻的最优策略ｓｔ＋１，ａ → ( ) 。（ａ）传统的Ｑ⁃学习（ｂ）基于事件驱动的Ｑ⁃学习图３两种方式回溯图Ｆｉｇ．３Ｔｈｅｂａｃｋｔｒａｃｋｉｎｇｏｆｔｗｏｍｅｔｈｏｄｓ ·８４· 智能系统学报第１２卷

第1期张文旭，等：基于事件驱动的多智能体强化学习研究 ·85· 根据贝尔曼迭代，Q值逐渐收敛到一个最优Q 空间并进行策略评估，否则直接使用上一时刻的策值，在传统的强化学习中，每一个学习步智能体都需略。假设在t时刻，智能体没有被事件所触发，那么要通过查表方式找到最大的Q值，其迭代表达式为智能体在t时刻不参与式(9)的迭代，直接使用t-1 AQ(s,,a,)=r+y maxQ(s1,a)-Q(s,,a) 时刻迭代后的Q值。此时，在达到最优策略的过程 (7) 中，Q值的迭代计算过程由每一时刻都计算，减少为事件触发时刻才计算。 Q(s,a)=Q(s,a,)+aAQ(s.,a)= T。→Qm→T1→Q1→T2→Q2→π3→Q→T Q(s,,a,)+a(r+y maxQ(s,a)-Q(,,a,))= (10) (1-a)Q(s,,a,)+a(r,+ymaxeQ(s1,a,)) T0→Q0→m1→Q1→T2→Q2→T2→Q→…m1 (8) (11) 事件驱动的思路则不同，当智能体没有被触发如图4(a)和式(10)所示，Q值从初始到收敛至情况下，将直接选用上一个Q值作为当前的Q值，最优Q·的过程，是一个渐进收敛的过程，Q值通过在基于事件驱动的Q学习中，Q值迭代过程可以表迭代，从t-1时间到t时刻逐渐接近最优：如图4(b) 示为和式(11)所示，在智能体不被驱动的情况下，Q值 Q.(s,a,e)=(1-a)Q-k(s,a,e)+ 不进行迭代，在t-1时刻直接使用t时刻的Q值，减 a(r:+y maxQ(s+1,a,,e)) (9) 少了Q值的迭代计算。式中k表示上次触发时刻和当前时刻的差值。 3.2计算资源消耗 Q学习中的计算资源消耗，主要体现在智能体需要对所有策略进行试错。从决策树角度看，树根和树枝对应着智能体团队的状态与观测，其在每一次观测后，根据不同的观测都会转移到不同的下一刻状态，即{s15,I(6,)}。在每一个树层中，智能体团队需要通过遍历Q值表，查找得到一个最优 (a)经典的Q.学习策略迭代策略。Q值表的实现采用Lookup表格来表示Q函数。设Q(s,a)为一个Lookup表格，s∈S和a∈A -I 为有限集合，表的大小等于S×的笛卡尔乘积中的元素的个数。举例说明，假设存在i个智能体，每一个智能体有m个动作，每一时刻有n个状态，Q值表的大小为n×m,在第t步，智能体共需遍历 (n'xm)x1次Q值，当参与学习的智能体数量较多，以及每一个智能体的动作和状态集合较大时，查表 (b)基于事件驱动的O学习策略迭代需要占用极大的计算资源。图4两种方式策略迭代对于基于事件驱动的决策树，在智能体不被驱 Fig.4 Policy iteration of two methods 动的树层中，下一刻状态将直接等于当前状态，即推论1基于事件驱动的Q学习算法，不会影 S+1=3,状态转移概率为响算法的收敛性。 P1=Pr6s1=s,la+1=a,}=1 引理1收敛引理。令X为一个任意的集状态转移概率P=1意味着，此时整棵决策树中不合，假设B是X中一个空间有界的集合，即B), 被驱动的树层不生成树枝，进而也减少下一层中树 T:BK)→BK)。·为T的一个固定点，令r= 枝对应的树根。同理，不生成新的树枝，智能体也无 (T,T,…)为来自F。(w)的初值，r在v°点逼近需对当前树层里所有的Q值进行遍历。上述例子 T,假设F。为r中一个不变式。令V。∈F。(u),定中，假设t步中存在k次不被驱动，那么在t步学习义V+1=T,(V,V,)。如果存在随机函数0≤F(x)≤ 过程中，遍历Q值的次数为(nxm)×(t-k)次。 1和0≤G,(x)≤1以概率1满足以下条件，那么在 3.3算法收敛性分析 B仪)中V,以概率1收敛到v·: 智能体每次的策略评估，即策略迭代，都是从前 1)对所有的U1和U2∈F。,对所有的x∈X, 一个策略的值函数开始。在事件驱动的强化学习 |T.(U,v)(x)-T,(U,)(x)|≤ 中，智能体只有在观测信息变化情况下，才更新信念 G,(x)U(x)-U2(x) (12)

根据贝尔曼迭代，Ｑ值逐渐收敛到一个最优Ｑ值，在传统的强化学习中，每一个学习步智能体都需要通过查表方式找到最大的Ｑ值，其迭代表达式为 ΔＱ（ｓｔ，ａ → ｔ）＝ｒｔ＋ γ ｍａｘａ →∈ＡＱｔ（ｓｔ＋１，ａ → ｔ）－Ｑｔ（ｓｔ，ａ → ｔ）（７）Ｑｔ（ｓｔ，ａ → ｔ）＝Ｑｔ（ｓｔ，ａ → ｔ）＋ αΔＱｔ（ｓｔ，ａ → ｔ）＝Ｑｔ（ｓｔ，ａ → ｔ）＋ α ｒｔ＋ γ ｍａｘａ →∈ＡＱｔ（ｓｔ＋１，ａ → ｔ）－Ｑｔ（ｓｔ，ａ → ( ｔ）) ＝（１－ α）Ｑｔ（ｓｔ，ａ → ｔ）＋ α ｒｔ＋ γ ｍａｘａ →∈ＡＱｔ（ｓｔ＋１，ａ → ( ｔ） ) （８）事件驱动的思路则不同，当智能体没有被触发情况下，将直接选用上一个Ｑ值作为当前的Ｑ值，在基于事件驱动的Ｑ⁃学习中，Ｑ值迭代过程可以表示为Ｑｔ（ｓｔ，ａ → ｔ，ｅ）＝（１－ α）Ｑｔ－ｋ（ｓｔ，ａ → ｔ，ｅ）＋ α ｒｔ＋ γ ｍａｘａ →∈ＡＱｔ（ｓｔ＋１，ａ → ( ｔ，ｅ） ) （９）式中ｋ表示上次触发时刻和当前时刻的差值。３．２计算资源消耗Ｑ⁃学习中的计算资源消耗，主要体现在智能体需要对所有策略进行试错。从决策树角度看，树根和树枝对应着智能体团队的状态与观测，其在每一次观测后，根据不同的观测都会转移到不同的下一刻状态，即ｓｔ＋１←ｓｔ｜ｏ → ，ａ → { ( ) } 。在每一个树层中，智能体团队需要通过遍历Ｑ值表，查找得到一个最优策略。Ｑ值表的实现采用Ｌｏｏｋｕｐ表格来表示Ｑ函数。设Ｑ（ｓ，ａ → ）为一个Ｌｏｏｋｕｐ表格，ｓ∈Ｓ和ａ →∈Ａ → 为有限集合，表的大小等于Ｓ×Ａ → 的笛卡尔乘积中的元素的个数。举例说明，假设存在ｉ个智能体，每一个智能体有ｍ个动作，每一时刻有ｎ个状态，Ｑ值表的大小为ｎｉ × ｍｉ，在第ｔ步，智能体共需遍历ｎｉ×ｍｉ ( ) ×ｔ次Ｑ值，当参与学习的智能体数量较多，以及每一个智能体的动作和状态集合较大时，查表需要占用极大的计算资源。对于基于事件驱动的决策树，在智能体不被驱动的树层中，下一刻状态将直接等于当前状态，即ｓｔ＋１＝ｓｔ，状态转移概率为Ｐａ → ｓｔｓｔ＋１＝Ｐｒｓｔ＋１＝ｓｔ { ａ → ｔ＋１＝ａ → ｔ } ＝１状态转移概率Ｐｒ＝１意味着，此时整棵决策树中不被驱动的树层不生成树枝，进而也减少下一层中树枝对应的树根。同理，不生成新的树枝，智能体也无需对当前树层里所有的Ｑ值进行遍历。上述例子中，假设ｔ步中存在ｋ次不被驱动，那么在ｔ步学习过程中，遍历Ｑ值的次数为ｎｉ×ｍｉ ( ) ×(ｔ－ｋ) 次。３．３算法收敛性分析智能体每次的策略评估，即策略迭代，都是从前一个策略的值函数开始。在事件驱动的强化学习中，智能体只有在观测信息变化情况下，才更新信念空间并进行策略评估，否则直接使用上一时刻的策略。假设在ｔ时刻，智能体没有被事件所触发，那么智能体在ｔ时刻不参与式（９）的迭代，直接使用ｔ－１时刻迭代后的Ｑ值。此时，在达到最优策略的过程中，Ｑ值的迭代计算过程由每一时刻都计算，减少为事件触发时刻才计算。 π０ →Ｑ π０ →π１ →Ｑ π１ →π２ →Ｑ π２ →π３ →Ｑ π３ →…π ∗ （１０） π０ →Ｑ π０ →π１ →Ｑ π１ →π２ →Ｑ π２ →π２ →Ｑ π２ →…π ∗ （１１）如图４（ａ）和式（１０）所示，Ｑ值从初始到收敛至最优Ｑ ∗的过程，是一个渐进收敛的过程，Ｑ值通过迭代，从ｔ－１时间到ｔ时刻逐渐接近最优；如图４（ｂ）和式（１１）所示，在智能体不被驱动的情况下，Ｑ值不进行迭代，在ｔ－１时刻直接使用ｔ时刻的Ｑ值，减少了Ｑ值的迭代计算。（ａ）经典的Ｑ⁃学习策略迭代（ｂ）基于事件驱动的Ｑ⁃学习策略迭代图４两种方式策略迭代Ｆｉｇ．４Ｐｏｌｉｃｙｉｔｅｒａｔｉｏｎｏｆｔｗｏｍｅｔｈｏｄｓ推论１基于事件驱动的Ｑ⁃学习算法，不会影响算法的收敛性。引理１收敛引理［１２］。令 χ 为一个任意的集合，假设Ｂ是 χ 中一个空间有界的集合，即Ｂ (χ ) ，Ｔ：Ｂ (χ ) → Ｂ (χ ) 。ｖ ∗ 为Ｔ的一个固定点，令 τ ＝ (Ｔ０，Ｔ１，…) 为来自Ｆ０ｖ ∗ ( ) 的初值，τ 在ｖ ∗ 点逼近Ｔ，假设Ｆ０为 τ 中一个不变式。令Ｖ０∈Ｆ０ｖ ∗ ( ) ，定义Ｖｔ＋１＝ＴｔＶｔ，Ｖｔ ( ) 。如果存在随机函数０≤Ｆｔ (ｘ) ≤ １和０≤Ｇｔ（ｘ）≤１以概率１满足以下条件，那么在Ｂ(χ ) 中Ｖｔ以概率１收敛到ｖ ∗ ：１）对所有的Ｕ１和Ｕ２∈Ｆ０，对所有的ｘ∈χ，Ｔｔ（Ｕ１，ｖ ∗ ）（ｘ）－Ｔｔ（Ｕ，Ｖ）（ｘ） ≤ Ｇｔ（ｘ）Ｕ１（ｘ）－Ｕ２（ｘ）（１２）第１期张文旭，等：基于事件驱动的多智能体强化学习研究 ·８５·

·86 智能系统学报第12卷 2)对所有的U和V∈F。,对所有的x∈X 不能完成90%的覆盖时，认为此次任务失败。其中 |T(U1,·)(x)-T,(U,V)(x)|≤ 定义学习率为0.6，折扣因子为0.2。 F(x)(‖v°-V‖+入，) (13) 10 式中：当t+o时，入，以概率1收敛到0。 9 3)对所有的k>0,当t→0时，Π4G,(x)收敛到0。 4)当t→oo时，存在0≤y<1对所有的x∈X有 F(x)≤y(1-G,(x)) (14) 证明在事件驱动的强化学习中，令T= (T,T,…,T,T41=T,T,…)为一个动作序列，表示智能体执行行动后从当前状态到下一个状态的映射，其中(…T,T+1…)指当智能体在没有被事件驱 12345678910 动的情况下智能体的第T+,个行动等于第T,个行 X 动，同时，迭代过程为图5多智能体覆盖问题 f2=T)=T(ff) (15) Fig.5 The coverage problem of multi-agent 令V,Uo,V。∈B(X),U+1=T,(U,V),V1=T(V, 图6比较了事件驱动与传统Q-学习任务成功 ),δ，(x)=|U,(x)-V,(x)|。根据收敛引理有率，可以看出两种算法成功率一致，但是由于Q值 6+1(x)=|U+1(x)-V+(x)= 迭代次数减少，使得事件驱动Q学习的收敛速度 |T,(U,)(x)-T,(V,V)(x)|≤ 变慢。 |T(U,)(x)-T(V,)(x)|+ 1.0i 传统Q学习 |T,(V,)(x)-T(V,)(x)|≤ G(x)U.(x)-V(x)l+F,(x)(Iv·-V,I+入，)= 基于事件驱动的Q学习 G,(x)8,(x)+F(x)(I·-V,‖+入)≤ 0.2 G,(x)δ，(x)+F(x)(Iv"-V‖+‖U-VI+入，)= G,(x)8,(x)+F,(x)‖·-V‖+入，(16) 0102030405060708091010 学习幕数在满足条件1)和2)的情况下，虽然基于事件驱动的动作序列T中有相同的动作T=T+1,但仍图6事件驱动与传统Q学习的成功率然满足李普西斯条件，所以不会影响Q学习的收 Fig.6 The success rate of event-triggered O and classical O 敛，证毕。图7说明了联合触发函数与算法收敛速度的关系，可以看出联合触发函数选取越小，算法收敛性越 4仿真结果及分析慢。因为联合触发函数越小，事件触发的次数就越考虑一个多智能体覆盖问题，2个智能体随机少，从而导致Q值迭代次数减少，收敛速度变慢。出现在一个大小为10×10的格子世界中，如图5所 1.0r 0.8 触发函整G-02 示。每一个智能体都有上下左右4个行动，且观测 0.6 范围为自身周围一圈共8个格子，观测到的格子分 0.4 触发函数G-0.4 为“没走过”“走过”和“障碍物”3个状态，分别对应触发函数G=0.3 0.2 着30、-5和-10的回报值，世界的边界对智能体作为障碍物：且每一个智能体可以进行广播式通信。 0.10.20304050.60708091610 学习幕数在这个场景中，每一个智能体获得的是一个局部观图7联合触发函数与收敛速度测，当它们进行广播通信后，对于整个世界，获得的 Fig.7 The joint event-triggered function and conver- 仍然是一个局部的观测。但考虑到对整个世界的全 gence speed 局观测需要极大的计算量，所以实验设定每一时刻当两个智能体通信后，所获得的信息对它们而言是在学习过程中，智能体团队在每一步需要遍历 Q值数量为(38×4)2≈229.3次，由表1可以看出，随一个全局观测。智能体团队的任务为尽快走完所有的格子，即着学习步数的增加，事件驱动将大量减小Q值的遍历次数，继而减少计算资源占用，相比较传统的Q 完成对格子世界的覆盖，当走过的格子超过90%以学习存在明显的优势。上，认为此次覆盖任务成功，当智能体在1000步仍

２）对所有的Ｕ和Ｖ∈Ｆ０，对所有的ｘ∈χ，Ｔｔ（Ｕ１，ｖ ∗ ）（ｘ）－Ｔｔ（Ｕ，Ｖ）（ｘ） ≤ Ｆｔ（ｘ）（‖ｖ ∗ －Ｖ‖ ＋ λｔ）（１３）式中：当ｔ→¥时，λｔ以概率１收敛到０。３）对所有的ｋ＞０，当ｔ→¥时，∏ｎｔ＝ｋＧｔ（ｘ）收敛到０。４）当ｔ→¥时，存在０≤γ＜１对所有的ｘ∈Ｘ有Ｆｔ（ｘ） ≤ γ（１－Ｇｔ（ｘ））（１４）证明在事件驱动的强化学习中，令Ｔ＝Ｔ０，Ｔ１，…，Ｔｋ，Ｔｋ＋１ ( ＝Ｔｋ，Ｔｔ，…) 为一个动作序列，表示智能体执行行动后从当前状态到下一个状态的映射，其中(…Ｔｋ，Ｔｋ＋１…) 指当智能体在没有被事件驱动的情况下智能体的第Ｔｋ＋１个行动等于第Ｔｋ个行动，同时，迭代过程为ｆｔ＋２＝Ｔｋ＋１（ｆｔ＋１，ｆｔ＋１）＝Ｔｋ（ｆｔ，ｆｔ）（１５）令Ｖ，Ｕ０，Ｖ０ ∈Ｂ（ χ），Ｕｔ＋１＝Ｔｔ（Ｕｔ，Ｖ），Ｖｔ＋１＝Ｔｔ（Ｖｔ，ｖ ∗ ），δｔ（ｘ）＝Ｕｔ（ｘ）－Ｖｔ（ｘ）。根据收敛引理有 δｔ＋１（ｘ）＝Ｕｔ＋１（ｘ）－Ｖｔ＋１（ｘ）＝ＴｔＵｔ，ｖ ∗ ( ) （ｘ）－ＴｔＶｔ，Ｖｔ ( ) （ｘ） ≤ ＴｔＵｔ，ｖ ∗ ( ) （ｘ）－ＴｔＶｔ，ｖ ∗ ( ) （ｘ）＋ＴｔＶｔ，ｖ ∗ ( ) （ｘ）－Ｔｔ (Ｖｔ，Ｖ) （ｘ） ≤ Ｇｔ（ｘ）Ｕｔ（ｘ）－Ｖｔ（ｘ）＋Ｆｔ（ｘ） ‖ｖ ∗ －Ｖｔ‖ ＋ λｔ ( ) ＝Ｇｔ（ｘ）δｔ（ｘ）＋Ｆｔ（ｘ） ‖ｖ ∗ －Ｖｔ‖ ＋ λｔ ( ) ≤ Ｇｔ（ｘ）δｔ（ｘ）＋Ｆｔ（ｘ） ‖ｖ ∗ －Ｖｔ‖ ＋ ‖Ｕｔ－Ｖｔ‖ ＋ λｔ ( ) ＝Ｇｔ（ｘ）δｔ（ｘ）＋Ｆｔ（ｘ）‖ｖ ∗ －Ｖｔ‖ ＋ λｔ（１６）在满足条件１）和２）的情况下，虽然基于事件驱动的动作序列Ｔ中有相同的动作Ｔｋ＝Ｔｋ＋１，但仍然满足李普西斯条件，所以不会影响Ｑ⁃学习的收敛，证毕。４仿真结果及分析考虑一个多智能体覆盖问题，２个智能体随机出现在一个大小为１０×１０的格子世界中，如图５所示。每一个智能体都有上下左右４个行动，且观测范围为自身周围一圈共８个格子，观测到的格子分为“没走过”“走过”和“障碍物”３个状态，分别对应着３０、－５和－１０的回报值，世界的边界对智能体作为障碍物；且每一个智能体可以进行广播式通信。在这个场景中，每一个智能体获得的是一个局部观测，当它们进行广播通信后，对于整个世界，获得的仍然是一个局部的观测。但考虑到对整个世界的全局观测需要极大的计算量，所以实验设定每一时刻当两个智能体通信后，所获得的信息对它们而言是一个全局观测。智能体团队的任务为尽快走完所有的格子，即完成对格子世界的覆盖，当走过的格子超过９０％以上，认为此次覆盖任务成功，当智能体在１０００步仍不能完成９０％的覆盖时，认为此次任务失败。其中定义学习率为０．６，折扣因子为０．２。图５多智能体覆盖问题Ｆｉｇ．５Ｔｈｅｃｏｖｅｒａｇｅｐｒｏｂｌｅｍｏｆｍｕｌｔｉ⁃ａｇｅｎｔ图６比较了事件驱动与传统Ｑ⁃学习任务成功率，可以看出两种算法成功率一致，但是由于Ｑ值迭代次数减少，使得事件驱动Ｑ⁃学习的收敛速度变慢。图６事件驱动与传统Ｑ⁃学习的成功率Ｆｉｇ．６Ｔｈｅｓｕｃｃｅｓｓｒａｔｅｏｆｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄＱａｎｄｃｌａｓｓｉｃａｌＱ图７说明了联合触发函数与算法收敛速度的关系，可以看出联合触发函数选取越小，算法收敛性越慢。因为联合触发函数越小，事件触发的次数就越少，从而导致Ｑ值迭代次数减少，收敛速度变慢。图７联合触发函数与收敛速度Ｆｉｇ．７Ｔｈｅｊｏｉｎｔｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄｆｕｎｃｔｉｏｎａｎｄｃｏｎｖｅｒ⁃ ｇｅｎｃｅｓｐｅｅｄ在学习过程中，智能体团队在每一步需要遍历Ｑ值数量为（３８×４）２≈２２９．３次，由表１可以看出，随着学习步数的增加，事件驱动将大量减小Ｑ值的遍历次数，继而减少计算资源占用，相比较传统的Ｑ⁃ 学习存在明显的优势。 ·８６· 智能系统学报第１２卷

第1期张文旭，等：基于事件驱动的多智能体强化学习研究 .87. 表1事件驱动传统Q学习遍历次数 [5]ZOU Lei,WANG Zidong,GAO Huijun,et al.Event-trig- Table 1 The number of traverse of event-triggered and gered state estimation for complex networks with mixed time classical o delays via sampled data information:the continuous-time case[J].IEEE transactions on cybernetics,2015,45(12): 步数 Q学习事件驱动Q学习减少总遍历次数 2804-2815. 50 =29.3×50 =293×42 年223 [6]SAHOO A,XU Hao,JAGANNATHAN S.Adaptive neural 100 =229.3×100 =2293×79 年2超6 network-based event-triggered control of single-input single- 200 =29.3×200 =229.3×153 六24.9 output nonlinear discrete-time systems[J].IEEE transac- 300 =229.3×300 =2293×221 ≈25.6 tions on neural networks and learning systems,2016,27 500=29.3×500 =2293×386 产262 (1)：151-164 表2比较了在一次成功的任务中，事件驱动与 [7]HU Wenfeng,LIU Lu,FENG Gang.Consensus of linear 传统Q学习的通信次数。可以看出，事件驱动减少 multi-agent systems by distributed event-triggered strategy [J].IEEE transactions on cybernetics,2016,46(1): 了智能体间的通信次数。同时与表1比较，可以看 148-157. 出自事件触发和联合事件触发次数的区别。 [8 ]ZHONG Xiangnan,NI Zhen,HE Haibo,et al.Event-trig- 表2事件驱动与传统Q学习通信次数 gered reinforcement learning approach for unknown nonlinear Table 2 The number of communication of event-triggered continuous-time system[C]//Proceedings of 2014 Interna- and classical O tional Joint Conference on Neural Networks.Beijing,China, 步数 Q学习事件驱动Q学习减少通信次数 2014:3677-3684. 50 50 45 J [9]XU Hao,JAGANNATHAN S.Near optimal event-triggered control of nonlinear continuous-time systems using input and 100 100 89 11 output data[C]//Proceedings of the 11th World Congress 200 200 172 子 on Intelligent Control and Automation.Shenyang,China, 300 300 258 名 2014:1799-1804. 500 500 410 % [10]BERNSTEIN D S,GIVAN R,IMMERMAN N,et al.The complexity of decentralized control of Markov decision 5 结束语 processes[J].Mathematics of operations research,2002. 27(4):819-840. 本文提出了一种基于事件驱动的多智能体强化 [11]WATKINS C J C H,DAYAN P.Q-learning[J].Machine 学习算法，侧重于多智能体在学习策略层的事件驱 1 earning,1992,8(3/4):279-292. 动研究。智能体在与环境的交互中，可以根据观测 [12]SZEPESVARI C,LITTMAN M L.A unified analysis of 的变化来触发通信和学习过程。在相同时间内，采 value-function-based reinforcement-learning algorithms 用事件驱动可以降低数据传输次数，节约通信资源： [J].Neural computation,1999,11(8):2017-2060. 作者简介：同时，智能体不需要每一时刻进行试错和迭代，进而张文旭，男，1985年生，博士研究减少计算资源。最后，对算法的收敛性进行了论证，生，主要研究方向为多智能体系统、机仿真结果表明事件驱动可以在学习过程中减少一定器学习。发表论文4篇，其中被EI检的通信次数和策略遍历次数，进而缓解通信和计算资索4篇。源消耗。进一步工作主要基于现有的研究，将事件驱动的思想应用于不同类的强化学习方法中，并结合事件驱动的特点设计更合理的触发函数。马磊，男，1972年生，教授，博士，主参考文献：要研究方向为控制理论及其在机器人、 [1]ZHU Wei,JIANG ZhongPing,FENG Gang.Event-based 新能源和轨道交通系统中的应用等。主持国内外项目14项，发表论文40余 consensus of multi-agent systems with general linear models 篇，其中被EI检索37篇。 [J].Automatica,2014,50(2):552-558. [2]FAN Yuan,FENG Gang,WANG Yong,et al.Distributed event-triggered control of multi-agent systems with combina- tional measurements[].Automatica,2013,49(2):671-675. 王晓东，男，1992年生，硕士研究 [3 WANG Xiaofeng,LEMMON M D.Event-triggering in 生，主要研究方向为机器学习。获得国 distributed networked control systems[J].IEEE transactions 家发明型专利3项，发表论文4篇。 on automatic control,2011,56(3):586-601. [4 TABUADA P.Event-triggered real-time scheduling of stabilizing control tasks[].IEEE transactions on automatic control..2007,52(9):1680-1685

表１事件驱动传统Ｑ⁃学习遍历次数Ｔａｂｌｅ１Ｔｈｅｎｕｍｂｅｒｏｆｔｒａｖｅｒｓｅｏｆｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄａｎｄｃｌａｓｓｉｃａｌＱ步数Ｑ⁃学习事件驱动Ｑ⁃学习减少总遍历次数５０ ≈２２９．３×５０ ≈２２９．３×４２ ≈２３２．３１００ ≈２２９．３×１００ ≈２２９．３×７９ ≈２３３．６２００ ≈２２９．３×２００ ≈２２９．３×１５３ ≈２３４．９３００ ≈２２９．３×３００ ≈２２９．３×２２１ ≈２３５．６５００ ≈２２９．３×５００ ≈２２９．３×３８６ ≈２３６．２表２比较了在一次成功的任务中，事件驱动与传统Ｑ⁃学习的通信次数。可以看出，事件驱动减少了智能体间的通信次数。同时与表１比较，可以看出自事件触发和联合事件触发次数的区别。表２事件驱动与传统Ｑ⁃学习通信次数Ｔａｂｌｅ２Ｔｈｅｎｕｍｂｅｒｏｆｃｏｍｍｕｎｉｃａｔｉｏｎｏｆｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄａｎｄｃｌａｓｓｉｃａｌＱ步数Ｑ⁃学习事件驱动Ｑ⁃学习减少通信次数５０５０４５５１００１００８９１１２００２００１７２２８３００３００２５８４２５００５００４１０９０５结束语本文提出了一种基于事件驱动的多智能体强化学习算法，侧重于多智能体在学习策略层的事件驱动研究。智能体在与环境的交互中，可以根据观测的变化来触发通信和学习过程。在相同时间内，采用事件驱动可以降低数据传输次数，节约通信资源；同时，智能体不需要每一时刻进行试错和迭代，进而减少计算资源。最后，对算法的收敛性进行了论证，仿真结果表明事件驱动可以在学习过程中减少一定的通信次数和策略遍历次数，进而缓解通信和计算资源消耗。进一步工作主要基于现有的研究，将事件驱动的思想应用于不同类的强化学习方法中，并结合事件驱动的特点设计更合理的触发函数。参考文献：［１］ＺＨＵＷｅｉ，ＪＩＡＮＧＺｈｏｎｇＰｉｎｇ，ＦＥＮＧＧａｎｇ．Ｅｖｅｎｔ－ｂａｓｅｄｃｏｎｓｅｎｓｕｓｏｆｍｕｌｔｉ⁃ａｇｅｎｔｓｙｓｔｅｍｓｗｉｔｈｇｅｎｅｒａｌｌｉｎｅａｒｍｏｄｅｌｓ［Ｊ］．Ａｕｔｏｍａｔｉｃａ，２０１４，５０（２）：５５２－５５８．［２］ＦＡＮＹｕａｎ，ＦＥＮＧＧａｎｇ，ＷＡＮＧＹｏｎｇ，ｅｔａｌ．Ｄｉｓｔｒｉｂｕｔｅｄｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄｃｏｎｔｒｏｌｏｆｍｕｌｔｉ⁃ａｇｅｎｔｓｙｓｔｅｍｓｗｉｔｈｃｏｍｂｉｎａ⁃ ｔｉｏｎａｌｍｅａｓｕｒｅｍｅｎｔｓ［Ｊ］．Ａｕｔｏｍａｔｉｃａ，２０１３，４９（２）：６７１－６７５．［３］ＷＡＮＧＸｉａｏｆｅｎｇ，ＬＥＭＭＯＮＭＤ．Ｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｉｎｇｉｎｄｉｓｔｒｉｂｕｔｅｄｎｅｔｗｏｒｋｅｄｃｏｎｔｒｏｌｓｙｓｔｅｍｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｕｔｏｍａｔｉｃｃｏｎｔｒｏｌ，２０１１，５６（３）：５８６－６０１．［４］ＴＡＢＵＡＤＡＰ．Ｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄｒｅａｌ⁃ｔｉｍｅｓｃｈｅｄｕｌｉｎｇｏｆｓｔａｂｉｌｉｚｉｎｇｃｏｎｔｒｏｌｔａｓｋｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｕｔｏｍａｔｉｃｃｏｎｔｒｏｌ，２００７，５２（９）：１６８０－１６８５．［５］ＺＯＵＬｅｉ，ＷＡＮＧＺｉｄｏｎｇ，ＧＡＯＨｕｉｊｕｎ，ｅｔａｌ．Ｅｖｅｎｔ⁃ｔｒｉｇ⁃ ｇｅｒｅｄｓｔａｔｅｅｓｔｉｍａｔｉｏｎｆｏｒｃｏｍｐｌｅｘｎｅｔｗｏｒｋｓｗｉｔｈｍｉｘｅｄｔｉｍｅｄｅｌａｙｓｖｉａｓａｍｐｌｅｄｄａｔａｉｎｆｏｒｍａｔｉｏｎ：ｔｈｅｃｏｎｔｉｎｕｏｕｓ⁃ｔｉｍｅｃａｓｅ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｃｙｂｅｒｎｅｔｉｃｓ，２０１５，４５（１２）：２８０４－２８１５．［６］ＳＡＨＯＯＡ，ＸＵＨａｏ，ＪＡＧＡＮＮＡＴＨＡＮＳ．Ａｄａｐｔｉｖｅｎｅｕｒａｌｎｅｔｗｏｒｋ⁃ｂａｓｅｄｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄｃｏｎｔｒｏｌｏｆｓｉｎｇｌｅ⁃ｉｎｐｕｔｓｉｎｇｌｅ⁃ ｏｕｔｐｕｔｎｏｎｌｉｎｅａｒｄｉｓｃｒｅｔｅ⁃ｔｉｍｅｓｙｓｔｅｍｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃ⁃ ｔｉｏｎｓｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓａｎｄｌｅａｒｎｉｎｇｓｙｓｔｅｍｓ，２０１６，２７（１）：１５１－１６４．［７］ＨＵＷｅｎｆｅｎｇ，ＬＩＵＬｕ，ＦＥＮＧＧａｎｇ．Ｃｏｎｓｅｎｓｕｓｏｆｌｉｎｅａｒｍｕｌｔｉ⁃ａｇｅｎｔｓｙｓｔｅｍｓｂｙｄｉｓｔｒｉｂｕｔｅｄｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄｓｔｒａｔｅｇｙ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｃｙｂｅｒｎｅｔｉｃｓ，２０１６，４６（１）：１４８－１５７．［８］ＺＨＯＮＧＸｉａｎｇｎａｎ，ＮＩＺｈｅｎ，ＨＥＨａｉｂｏ，ｅｔａｌ．Ｅｖｅｎｔ⁃ｔｒｉｇ⁃ ｇｅｒｅｄｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｆｏｒｕｎｋｎｏｗｎｎｏｎｌｉｎｅａｒｃｏｎｔｉｎｕｏｕｓ⁃ｔｉｍｅｓｙｓｔｅｍ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１４Ｉｎｔｅｒｎａ⁃ ｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ．Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２０１４：３６７７－３６８４．［９］ＸＵＨａｏ，ＪＡＧＡＮＮＡＴＨＡＮＳ．Ｎｅａｒｏｐｔｉｍａｌｅｖｅｎｔ⁃ｔｒｉｇｇｅｒｅｄｃｏｎｔｒｏｌｏｆｎｏｎｌｉｎｅａｒｃｏｎｔｉｎｕｏｕｓ⁃ｔｉｍｅｓｙｓｔｅｍｓｕｓｉｎｇｉｎｐｕｔａｎｄｏｕｔｐｕｔｄａｔａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１１ｔｈＷｏｒｌｄＣｏｎｇｒｅｓｓｏｎＩｎｔｅｌｌｉｇｅｎｔＣｏｎｔｒｏｌａｎｄＡｕｔｏｍａｔｉｏｎ．Ｓｈｅｎｙａｎｇ，Ｃｈｉｎａ，２０１４：１７９９－１８０４．［１０］ＢＥＲＮＳＴＥＩＮＤＳ，ＧＩＶＡＮＲ，ＩＭＭＥＲＭＡＮＮ，ｅｔａｌ．ＴｈｅｃｏｍｐｌｅｘｉｔｙｏｆｄｅｃｅｎｔｒａｌｉｚｅｄｃｏｎｔｒｏｌｏｆＭａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓｅｓ［Ｊ］．Ｍａｔｈｅｍａｔｉｃｓｏｆｏｐｅｒａｔｉｏｎｓｒｅｓｅａｒｃｈ，２００２，２７（４）：８１９－８４０．［１１］ＷＡＴＫＩＮＳＣＪＣＨ，ＤＡＹＡＮＰ．Ｑ⁃ｌｅａｒｎｉｎｇ［Ｊ］．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，１９９２，８（３／４）：２７９－２９２．［１２］ＳＺＥＰＥＳＶÁＲＩＣ，ＬＩＴＴＭＡＮＭＬ．Ａｕｎｉｆｉｅｄａｎａｌｙｓｉｓｏｆｖａｌｕｅ⁃ｆｕｎｃｔｉｏｎ⁃ｂａｓｅｄｒｅｉｎｆｏｒｃｅｍｅｎｔ⁃ｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓ［Ｊ］．Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，１９９９，１１（８）：２０１７－２０６０．作者简介：张文旭，男，１９８５年生，博士研究生，主要研究方向为多智能体系统、机器学习。发表论文４篇，其中被ＥＩ检索４篇。马磊，男，１９７２年生，教授，博士，主要研究方向为控制理论及其在机器人、新能源和轨道交通系统中的应用等。主持国内外项目１４项，发表论文４０余篇，其中被ＥＩ检索３７篇。王晓东，男，１９９２年生，硕士研究生，主要研究方向为机器学习。获得国家发明型专利３项，发表论文４篇。第１期张文旭，等：基于事件驱动的多智能体强化学习研究 ·８７·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录