第12卷第1期 智能系统学报 Vol.12 No.1 2017年2月 CAAI Transactions on Intelligent Systems Feb.2017 D0I:10.11992/tis.201604008 网络出版地址:http://kns.cmki.net/kcms/detail/23.1538.TP.20170301.1147.002.html 基于事件驱动的多智能体强化学习研究 张文旭,马磊,王晓东 (西南交通大学电气工程学院,四川成都610031) 摘要:本文针对多智能体强化学习中存在的通信和计算资源消耗大等问题,提出了一种基于事件驱动的多智能体 强化学习算法,侧重于事件驱动在多智能体学习策略层方面的研究。在智能体与环境的交互过程中,算法基于事件 驱动的思想,根据智能体观测信息的变化率设计触发函数,使学习过程中的通信和学习时机无需实时或按周期地进 行,故在相同时间内可以降低数据传输和计算次数。另外,分析了该算法的计算资源消耗,以及对算法收敛性进行 了论证。最后,仿真实验说明了该算法可以在学习过程中减少一定的通信次数和策略遍历次数,进而缓解了通信和 计算资源消耗。 关键词:事件驱动:多智能体:强化学习:分布式马尔科夫决策过程:收敛性 中图分类号:TP181文献标志码:A文章编号:1673-4785(2017)01-0082-06 中文引用格式:张文旭,马磊,王晓东.基于事件驱动的多智能体强化学习研究[J].智能系统学报,2017,12(1):82-87. 英文引用格式:ZHANG Wenxu,MA Lei,WANG Xiaodong..Reinforcement learning for event-.triggered multi-agent systems[J]. CAAI transactions on intelligent systems,2017,12(1):82-87. Reinforcement learning for event-triggered multi-agent systems ZHANG Wenxu,MA Lei,WANG Xiaodong (School of Electrical Engineering,Southwest Jiaotong University,Chengdu 610031,China) Abstract:Focusing on the existing multi-agent reinforcement learning problems such as huge consumption of com- munication and calculation,a novel event-triggered multi-agent reinforcement learning algorithm was presented.The algorithm focused on an event-triggered idea at the strategic level of multi-agent learning.In particular,during the interactive process between agents and the learning environment,the communication and learning were triggered through the change rate of observation.Using an appropriate event-triggered design,the discontinuous threshold was employed,and thus real-time or periodical communication and learning can be avoided,and the number of commu- nications and calculations were reduced within the same time.Moreover,the consumption of computing resource and the convergence of the proposed algorithm were analyzed and proven.Finally,the simulation results show that the number of communications and traversals were reduced in learning,thus saving the computing and communica- tion resources. Keywords:event-triggered;multi-agent;reinforcement learning;decentralized Markov decision processes;conver- gence 近年来,基于事件驱动的方法在多智能体研究 体可以根据测量误差间歇性的更新状态,减少通信 中得到广泛关注1)。在事件驱动的思想中,智能 次数和计算量。文献[4]首次在多智能体系统的协 作中运用事件驱动的策略,并设计了基于事件驱动 收稿日期:2016-04-05.网络出版日期:2017-03-01. 机制的状态反馈控制器。随后,文献[5-7]将基于 基金项目:国家自然科学基金青年项目(61304166). 事件驱动的控制器扩展到非线性系统,以及复杂网 通信作者:张文旭.Email:wenxu_zhang(@l63.com
第 12 卷第 1 期 智 能 系 统 学 报 Vol.12 №.1 2017 年 2 月 CAAI Transactions on Intelligent Systems Feb. 2017 DOI:10.11992 / tis.201604008 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.TP.20170301.1147.002.html 基于事件驱动的多智能体强化学习研究 张文旭,马磊,王晓东 (西南交通大学 电气工程学院,四川 成都 610031) 摘 要:本文针对多智能体强化学习中存在的通信和计算资源消耗大等问题,提出了一种基于事件驱动的多智能体 强化学习算法,侧重于事件驱动在多智能体学习策略层方面的研究。 在智能体与环境的交互过程中,算法基于事件 驱动的思想,根据智能体观测信息的变化率设计触发函数,使学习过程中的通信和学习时机无需实时或按周期地进 行,故在相同时间内可以降低数据传输和计算次数。 另外,分析了该算法的计算资源消耗,以及对算法收敛性进行 了论证。 最后,仿真实验说明了该算法可以在学习过程中减少一定的通信次数和策略遍历次数,进而缓解了通信和 计算资源消耗。 关键词:事件驱动;多智能体;强化学习;分布式马尔科夫决策过程;收敛性 中图分类号: TP181 文献标志码:A 文章编号:1673-4785(2017)01-0082-06 中文引用格式:张文旭,马磊,王晓东. 基于事件驱动的多智能体强化学习研究[J]. 智能系统学报, 2017, 12(1): 82-87. 英文引用格式:ZHANG Wenxu, MA Lei, WANG Xiaodong. Reinforcement learning for event⁃triggered multi⁃agent systems[ J]. CAAI transactions on intelligent systems, 2017, 12(1): 82-87. Reinforcement learning for event⁃triggered multi⁃agent systems ZHANG Wenxu, MA Lei, WANG Xiaodong (School of Electrical Engineering,Southwest Jiaotong University, Chengdu 610031, China) Abstract:Focusing on the existing multi⁃agent reinforcement learning problems such as huge consumption of com⁃ munication and calculation, a novel event⁃triggered multi⁃agent reinforcement learning algorithm was presented. The algorithm focused on an event⁃triggered idea at the strategic level of multi⁃agent learning. In particular, during the interactive process between agents and the learning environment, the communication and learning were triggered through the change rate of observation.Using an appropriate event⁃triggered design, the discontinuous threshold was employed, and thus real⁃time or periodical communication and learning can be avoided, and the number of commu⁃ nications and calculations were reduced within the same time. Moreover, the consumption of computing resource and the convergence of the proposed algorithm were analyzed and proven. Finally, the simulation results show that the number of communications and traversals were reduced in learning, thus saving the computing and communica⁃ tion resources. Keywords:event⁃triggered; multi⁃agent; reinforcement learning;decentralized Markov decision processes;conver⁃ gence 收稿日期:2016-04-05. 网络出版日期:2017-03-01. 基金项目:国家自然科学基金青年项目(61304166). 通信作者:张文旭.Email: wenxu_zhang@ 163.com. 近年来,基于事件驱动的方法在多智能体研究 中得到广泛关注[1-3] 。 在事件驱动的思想中,智能 体可以根据测量误差间歇性的更新状态,减少通信 次数和计算量。 文献[4]首次在多智能体系统的协 作中运用事件驱动的策略,并设计了基于事件驱动 机制的状态反馈控制器。 随后,文献[5-7]将基于 事件驱动的控制器扩展到非线性系统,以及复杂网
第1期 张文旭,等:基于事件驱动的多智能体强化学习研究 83. 络等领域。但是,目前事件驱动与强化学习的结合 还相对不足[8-],并主要集中在对多智能体的控制 2 触发规则设计 器设计上,较少有学者关注其在学习策略层的应用。 在事件驱动思想中,智能体把从环境中得到的 在现有的多智能体强化学习算法中,由于智能体携 观测误差作为重要的评判标准,当它超过一个预设 带的通信设备和微处理器性能有限,其学习过程中 的阈值时事件被触发,智能体更新状态并计算联合 通常存在两个问题:1)智能体间的信息交互需占用 策略,而事件触发的关键在于对触发函数的设计。 较大的通信带宽;2)在学习的试错和迭代过程中, 2.1自事件触发设计 消耗了大量的计算资源。以上问题都将减少智能体 DEC-MDPs模型中,每一个智能体通过独立的 的工作时间,或增加设计上的复杂性。本文区别于 观测获取局部信息,然后广播到全队,所以每一个智 传统的多智能体学习算法,侧重于事件驱动在多智 能体首先需要自触发设计。在时刻t,当每一个智能 能体学习策略层的研究,首先从自触发和联合触发 体观测结束后,其根据上一刻观测与当前观测的变 两个方面定义触发函数,然后在分布式马尔可夫模 化率,进行一次自触发过程,智能体用自触发方式来 型中设计了基于事件驱动的多智能体强化学习算 判断是否需要广播自身的观测信息。智能体i从t- 法,最后对算法的收敛性进行了论证。 1时刻到t时刻的观测变化率定义为 e.(t)=o:(t)-o,(t-1)/o.(t-1)(1) 1 问题描述 式中:o.(t)为在t时刻的观测值。定义0<e<1为自 1.1分布式马尔可夫模型 事件触发函数阈值,当智能体ⅱ观测信息的变化率 考虑一个分布式马尔可夫模型(decentralized e,(t)大于e时进行通信。此时,不一定所有的智能 体都被驱动,没有采集到新观测信息的智能体仅接 markov decision processes,DEC-MDPs),是由一个五 元组(1,{S},{A},P,R〉构成的,其中,I表示有限 收信息。在自事件触发过程,智能体无需每一时刻 的智能体集合:{S}表示一个有限的系统状态集合: 进行通信,因此减少智能体的通信消耗。 2.2联合事件触发设计 {A:}表示智能体i可采取的动作的集合:P表示系 联合事件触发的对象是智能体团队,考虑的是 统的转移;R表示回报函数。DEC-MDPs与多智能 一个联合观测的变化情况。假设在时刻:智能体团 体的马尔可夫模型(multi agent--MDPs,M-MDPs)的 队获得当前的联合观测0(t)=(0,(t),02(t),…, 唯一区别在于,在M-MDPs中系统的全局信息被所 O(t)。此时,智能体团队从t-1时刻到t时刻的 有智能体完全获得,而在DEC-MDPs中,每一个智 联合观测变化率定义为 能体仅具有局部的观测,或者说是全局信息的一个 E(t)=(e(t),e2(t),e(t)) (2) 子集,当所有的子集放在一起求并集时,这些局部信 式中:e.(t)=|o.(t)-o:(t-1)l/o.(t-1)。 息能够合成一个完整的全局信息,在完全通信的情 利用方差计算两个时刻的误差偏移程度,令联 况下,DEC-MDPs可以被简化为M-MDPs模型。求 解DEC-MDPs的目的是找到一个联合策略元=(π1, 合观测变化率期塑为F()= ,e,(t)/n,方差为 T2,·,T.)来最大化回报函数R。求解DEC-MDPs 问题的计算复杂度为NEXPliO]难度,即问题的状态 D)=(e,()-F()2p (3) i= 随着步数增加呈现双指数增长。 式中:p=l/n为e,(t)的分布律,令 1.2 Q学习 H(t)=D(t)-F(t)/F(t) (4) 文献[11]提出了一类通过引入期望的延时回 定义0<G<1为团队的联合事件触发函数阈值,当 报,求解无完全信息的MDPs类问题的方法,称为 H(t)大于G时,认为智能体团队的状态已经发生较大 Q-学习(Q-learning)。Q-学习是一种模型无关的强 改变,需要对Q值表进行遍历,并计算一个新的联合策 化学习方法,通过对状态-动作对的值函数进行估 略,否则智能体直接延用上一刻的联合策略。 计,以求得最优策略。Q学习算法的基本形式如下: 自事件触发和联合事件触发的区别在于: Q(s,a)=Rs,a)+y∑P(s,a,s')maxQ^(s',a) 1)自事件触发的对象是单个智能体,对应的事 件由智能体自身的观测变化率所触发,触发后的行 式中:Q°(s,a)表示智能体在状态s下采用动作a 动为进行广播式通信,自事件触发的目的是为了减 所获得的奖赏折扣总和;y为折扣因子;P(s,a,s') 少通信资源消耗:而联合事件触发针对的是智能体 表示概率函数:最优策略为智能体在状态s下选用 团队的联合观测变化率,触发后的行动是计算联合 Q值最大的策略。Q学习存在的最大问题为,智能 策略,目的在于减少计算资源消耗。 体需要通过试错的方式找到最优策略,这样的方式 2)当单个智能体的观测发生变化时,并不一定 使得Q学习需要考虑所有的可能策略,从而需要消 导致团队的联合观测变化率发生较大改变。即当环 耗大量计算资源。 境整体发生变化时,虽然每一个智能体的观测都发
络等领域。 但是,目前事件驱动与强化学习的结合 还相对不足[8-9] ,并主要集中在对多智能体的控制 器设计上,较少有学者关注其在学习策略层的应用。 在现有的多智能体强化学习算法中,由于智能体携 带的通信设备和微处理器性能有限,其学习过程中 通常存在两个问题:1)智能体间的信息交互需占用 较大的通信带宽;2) 在学习的试错和迭代过程中, 消耗了大量的计算资源。 以上问题都将减少智能体 的工作时间,或增加设计上的复杂性。 本文区别于 传统的多智能体学习算法,侧重于事件驱动在多智 能体学习策略层的研究,首先从自触发和联合触发 两个方面定义触发函数,然后在分布式马尔可夫模 型中设计了基于事件驱动的多智能体强化学习算 法,最后对算法的收敛性进行了论证。 1 问题描述 1.1 分布式马尔可夫模型 考虑一个分布式马尔可夫模型( decentralized markov decision processes, DEC⁃MDPs),是由一个五 元组〈I,{ S},{Ai},P,R〉构成的,其中,I 表示有限 的智能体集合;{S}表示一个有限的系统状态集合; {Ai}表示智能体 i 可采取的动作的集合;P 表示系 统的转移;R 表示回报函数。 DEC⁃MDPs 与多智能 体的马尔可夫模型(multi agent⁃MDPs, M⁃MDPs)的 唯一区别在于,在 M⁃MDPs 中系统的全局信息被所 有智能体完全获得,而在 DEC⁃MDPs 中,每一个智 能体仅具有局部的观测,或者说是全局信息的一个 子集,当所有的子集放在一起求并集时,这些局部信 息能够合成一个完整的全局信息,在完全通信的情 况下,DEC⁃MDPs 可以被简化为 M⁃MDPs 模型。 求 解 DEC⁃MDPs 的目的是找到一个联合策略 π → = (π1 , π2 ,…,πn )来最大化回报函数 R。 求解 DEC⁃MDPs 问题的计算复杂度为 NEXP [10] 难度,即问题的状态 随着步数增加呈现双指数增长。 1.2 Q⁃学习 文献[11]提出了一类通过引入期望的延时回 报,求解无完全信息的 MDPs 类问题的方法,称为 Q⁃学习(Q⁃learning)。 Q⁃学习是一种模型无关的强 化学习方法,通过对状态-动作对的值函数进行估 计,以求得最优策略。 Q⁃学习算法的基本形式如下: Q ∗ (s,a) = R(s,a) + γ∑s′∈S P(s,a,s′)maxQ ∗ (s′,a′) 式中:Q ∗ (s,a) 表示智能体在状态 s 下采用动作 a 所获得的奖赏折扣总和;γ 为折扣因子;P( s,a,s′) 表示概率函数;最优策略为智能体在状态 s 下选用 Q 值最大的策略。 Q⁃学习存在的最大问题为,智能 体需要通过试错的方式找到最优策略,这样的方式 使得 Q⁃学习需要考虑所有的可能策略,从而需要消 耗大量计算资源。 2 触发规则设计 在事件驱动思想中,智能体把从环境中得到的 观测误差作为重要的评判标准,当它超过一个预设 的阈值时事件被触发,智能体更新状态并计算联合 策略,而事件触发的关键在于对触发函数的设计。 2.1 自事件触发设计 DEC⁃MDPs 模型中,每一个智能体通过独立的 观测获取局部信息,然后广播到全队,所以每一个智 能体首先需要自触发设计。 在时刻 t,当每一个智能 体观测结束后,其根据上一刻观测与当前观测的变 化率,进行一次自触发过程,智能体用自触发方式来 判断是否需要广播自身的观测信息。 智能体 i 从 t- 1 时刻到 t 时刻的观测变化率定义为 ei(t) = oi(t) - oi(t - 1) / oi(t - 1) (1) 式中:oi(t)为在 t 时刻的观测值。 定义 0<e<1 为自 事件触发函数阈值,当智能体 i 观测信息的变化率 ei(t)大于 e 时进行通信。 此时,不一定所有的智能 体都被驱动,没有采集到新观测信息的智能体仅接 收信息。 在自事件触发过程,智能体无需每一时刻 进行通信,因此减少智能体的通信消耗。 2.2 联合事件触发设计 联合事件触发的对象是智能体团队,考虑的是 一个联合观测的变化情况。 假设在时刻 t 智能体团 队获得当前的联合观测 O( t) = (O1( t),O2( t),…, On(t))。 此时,智能体团队从 t-1 时刻到 t 时刻的 联合观测变化率定义为 E(t) = (e1(t),e2(t),…en(t)) (2) 式中:ei(t)= oi(t)-oi(t-1) / oi(t-1)。 利用方差计算两个时刻的误差偏移程度,令联 合观测变化率期望为 F(t) = ∑ n i = 1 ei(t) / n,方差为 D(t) = ∑ n i = 1 (ei(t) - F(t)) 2·p (3) 式中:p = 1 / n 为 ei(t)的分布律,令 H(t) = D(t) - F(t) / F(t) (4) 定义 0<G<1 为团队的联合事件触发函数阈值,当 H(t)大于 G 时,认为智能体团队的状态已经发生较大 改变,需要对 Q 值表进行遍历,并计算一个新的联合策 略,否则智能体直接延用上一刻的联合策略。 自事件触发和联合事件触发的区别在于: 1)自事件触发的对象是单个智能体,对应的事 件由智能体自身的观测变化率所触发,触发后的行 动为进行广播式通信,自事件触发的目的是为了减 少通信资源消耗;而联合事件触发针对的是智能体 团队的联合观测变化率,触发后的行动是计算联合 策略,目的在于减少计算资源消耗。 2)当单个智能体的观测发生变化时,并不一定 导致团队的联合观测变化率发生较大改变。 即当环 境整体发生变化时,虽然每一个智能体的观测都发 第 1 期 张文旭,等:基于事件驱动的多智能体强化学习研究 ·83·
·84 智能系统学报 第12卷 生了变化,但对联合观测而言,所有智能体在两个时 强化学习的目的是找到一个策略使团队获得最 刻的变化率相对无变化,所以制定的联合策略可能 大的奖励信号。如果在所有状态下,策略π的期望 无明显变化,此时也认为智能体团队不需要被触发。 回报值都大于或等于策略π'的,那么称之为最优策 比如在机器人足球问题中,t-1时刻机器人团队的 略。最优策略可能有多个,都将其称作最优策略,记 联合策略为,机器人A带球行动且其他队友跑位行 π·,而最优策略对应的状态-联合动作对(s,a)也 动。到:时刻后,机器人A和其他机器人的观测(双 有相同的最优值函数,记作Q·。 方机器人的站位和距离)都发生了较大变化,机器 基于事件驱动的Q-学习算法,类似于经典Q学 人团队在通过广播通信获得全局观测信息后,根据 习,均是不去估计环境模型,而是直接优化一个可迭 观测信息进行判断,两个时刻双方机器人的相对站 代计算的Q函数。区别在于,经典Q学习中,智能 位和相对距离可能无大变化。此时,如果团队计算 体在每一个时刻都需要对Q值进行迭代计算,而基 新的联合策略,也将是机器人A带球且其他队友跑 于事件驱动的Q学习,仅在智能体被触发的情况 位,与t-1时刻的联合策略相同。所以,认为团队在 下,Q值才进行迭代计算。此时,定义Q函数为在 t时刻无需计算新的联合策略,可以直接使用上一 状态s,时被触发并执行联合动作a,表达式为 刻的策略。图1为事件触发流程图。 Q+1(s,a,e)=T,·max,{Q+1(s,a,e)1a,∈A} 「开始 (5) 观测当前状态 对于任意一个策略和下一个状态,在状态s的 <自触发N →上一个策略 值和后继状态值之间存在如下关系: Y 通信☐ Q=Er +yQ(s,a,e)I s =s,a a,,e:=el= P(R+y maxQ(s',d.e))(6) <联合触发 N 式(6)为贝尔曼公式,它表示了当前状态和其 Y 联合策略 后继状态之间的联系。图3表示了强化学习中Q 值迭代与状态转移的回溯关系。图3(a)中,每一个 观测下一个状态 实心点表示一个状态-联合动作对,每一个空心点 收到回报 表示一个状态,智能体从一个状态-联合动作对出 图1事件触发流程图 发,依次到达下一个状态。在图3(b)中,智能体团 Fig.1 The flow chart of event-triggered 队在s状态下得到最优策略(s+1,a),假设团队在 下一状态没有被事件触发,则不进行状态转移,直接 3 基于事件驱动的强化学习 延续上一时刻的最优策略(s+1,a)。 本节介绍了基于事件驱动的强化学习算法,以 及对事件驱动下计算资源消耗进行了分析,同时对 (sd 算法的收敛性进行了论证。 3.1基于事件驱动的强化学习设计 在完全通信情况下,DEC-MDPs被简化为M- MDPs模型,所以直接考虑基于事件驱动的多智能 体马尔可夫模型(event-triggered M-MDPs),其由一 个六元组I,{S},{A:},P,R,e〉构成,其中e表示事 件触发函数,当团队的触发函数大于阈值时,团队被 触发并执行联合行动策略,同时发生状态转移,转移 (a)传统的0学习 函数为P={s1ls,a,e}。基于事件驱动的强化学 习过程不同于经典的强化学习,如图2所示,智能体 需要首先根据触发函数来判断事件是否被触发,如 果被触发才执行一个联合行动并影响环境。 事件触发 sa) 联合行动 联合回报 (s) 多智能体 环境 联合观测 (b)基于事件驱动的Q.学习 图2基于事件驱动的强化学习框架 图3两种方式回溯图 Fig.2 The frame of reinforcement learning with event-triggered Fig.3 The backtracking of two methods
生了变化,但对联合观测而言,所有智能体在两个时 刻的变化率相对无变化,所以制定的联合策略可能 无明显变化,此时也认为智能体团队不需要被触发。 比如在机器人足球问题中,t-1 时刻机器人团队的 联合策略为,机器人 A 带球行动且其他队友跑位行 动。 到 t 时刻后,机器人 A 和其他机器人的观测(双 方机器人的站位和距离) 都发生了较大变化,机器 人团队在通过广播通信获得全局观测信息后,根据 观测信息进行判断,两个时刻双方机器人的相对站 位和相对距离可能无大变化。 此时,如果团队计算 新的联合策略,也将是机器人 A 带球且其他队友跑 位,与 t-1 时刻的联合策略相同。 所以,认为团队在 t 时刻无需计算新的联合策略,可以直接使用上一 刻的策略。 图 1 为事件触发流程图。 图 1 事件触发流程图 Fig.1 The flow chart of event⁃triggered 3 基于事件驱动的强化学习 本节介绍了基于事件驱动的强化学习算法,以 及对事件驱动下计算资源消耗进行了分析,同时对 算法的收敛性进行了论证。 3.1 基于事件驱动的强化学习设计 在完全通信情况下,DEC⁃MDPs 被简化为 M⁃ MDPs 模型,所以直接考虑基于事件驱动的多智能 体马尔可夫模型( event⁃triggered M⁃MDPs),其由一 个六元组〈I,{S},{Ai},P,R,e〉构成,其中 e 表示事 件触发函数,当团队的触发函数大于阈值时,团队被 触发并执行联合行动策略,同时发生状态转移,转移 函数为 P = { st+1 | st,a,e}。 基于事件驱动的强化学 习过程不同于经典的强化学习,如图 2 所示,智能体 需要首先根据触发函数来判断事件是否被触发,如 果被触发才执行一个联合行动并影响环境。 图 2 基于事件驱动的强化学习框架 Fig.2 The frame of reinforcement learning with event⁃triggered 强化学习的目的是找到一个策略使团队获得最 大的奖励信号。 如果在所有状态下,策略 π 的期望 回报值都大于或等于策略 π′的,那么称之为最优策 略。 最优策略可能有多个,都将其称作最优策略,记 π ∗ ,而最优策略对应的状态-联合动作对( s,a → ) 也 有相同的最优值函数,记作 Q ∗ 。 基于事件驱动的 Q⁃学习算法,类似于经典 Q⁃学 习,均是不去估计环境模型,而是直接优化一个可迭 代计算的 Q 函数。 区别在于,经典 Q⁃学习中,智能 体在每一个时刻都需要对 Q 值进行迭代计算,而基 于事件驱动的 Q⁃学习,仅在智能体被触发的情况 下,Q 值才进行迭代计算。 此时,定义 Q 函数为在 状态 st 时被触发并执行联合动作 a → t,表达式为 Qt+1(st,a → t,e) = rt·maxat Qt+1(st,a → t,e) | a → { t ∈ A} (5) 对于任意一个策略和下一个状态,在状态 s 的 值和后继状态值之间存在如下关系: Q ∗ = E{rt+1 + γQt+1(st,a → ,e) | st = s,a → t = a → t,et = e} = ∑s′ P a → ss′ R a → ss′ + γ max a → Q ∗ (s′,a → ( ,e) ) (6) 式(6)为贝尔曼公式,它表示了当前状态和其 后继状态之间的联系。 图 3 表示了强化学习中 Q 值迭代与状态转移的回溯关系。 图 3(a)中,每一个 实心点表示一个状态-联合动作对,每一个空心点 表示一个状态,智能体从一个状态-联合动作对出 发,依次到达下一个状态。 在图 3( b)中,智能体团 队在 st+1状态下得到最优策略 st+1 ,a → ( ) ,假设团队在 下一状态没有被事件触发,则不进行状态转移,直接 延续上一时刻的最优策略 st+1 ,a → ( ) 。 (a)传统的 Q⁃学习 (b)基于事件驱动的 Q⁃学习 图 3 两种方式回溯图 Fig.3 The backtracking of two methods ·84· 智 能 系 统 学 报 第 12 卷
第1期 张文旭,等:基于事件驱动的多智能体强化学习研究 ·85· 根据贝尔曼迭代,Q值逐渐收敛到一个最优Q 空间并进行策略评估,否则直接使用上一时刻的策 值,在传统的强化学习中,每一个学习步智能体都需 略。假设在t时刻,智能体没有被事件所触发,那么 要通过查表方式找到最大的Q值,其迭代表达式为 智能体在t时刻不参与式(9)的迭代,直接使用t-1 AQ(s,,a,)=r+y maxQ(s1,a)-Q(s,,a) 时刻迭代后的Q值。此时,在达到最优策略的过程 (7) 中,Q值的迭代计算过程由每一时刻都计算,减少为 事件触发时刻才计算。 Q(s,a)=Q(s,a,)+aAQ(s.,a)= T。→Qm→T1→Q1→T2→Q2→π3→Q→T Q(s,,a,)+a(r+y maxQ(s,a)-Q(,,a,))= (10) (1-a)Q(s,,a,)+a(r,+ymaxeQ(s1,a,)) T0→Q0→m1→Q1→T2→Q2→T2→Q→…m1 (8) (11) 事件驱动的思路则不同,当智能体没有被触发 如图4(a)和式(10)所示,Q值从初始到收敛至 情况下,将直接选用上一个Q值作为当前的Q值, 最优Q·的过程,是一个渐进收敛的过程,Q值通过 在基于事件驱动的Q学习中,Q值迭代过程可以表 迭代,从t-1时间到t时刻逐渐接近最优:如图4(b) 示为 和式(11)所示,在智能体不被驱动的情况下,Q值 Q.(s,a,e)=(1-a)Q-k(s,a,e)+ 不进行迭代,在t-1时刻直接使用t时刻的Q值,减 a(r:+y maxQ(s+1,a,,e)) (9) 少了Q值的迭代计算。 式中k表示上次触发时刻和当前时刻的差值。 3.2计算资源消耗 Q学习中的计算资源消耗,主要体现在智能体 需要对所有策略进行试错。从决策树角度看,树根 和树枝对应着智能体团队的状态与观测,其在每一 次观测后,根据不同的观测都会转移到不同的下一 刻状态,即{s15,I(6,)}。在每一个树层中,智 能体团队需要通过遍历Q值表,查找得到一个最优 (a)经典的Q.学习策略迭代 策略。Q值表的实现采用Lookup表格来表示Q函 数。设Q(s,a)为一个Lookup表格,s∈S和a∈A -I 为有限集合,表的大小等于S×的笛卡尔乘积中的 元素的个数。举例说明,假设存在i个智能体,每一 个智能体有m个动作,每一时刻有n个状态,Q值 表的大小为n×m,在第t步,智能体共需遍历 (n'xm)x1次Q值,当参与学习的智能体数量较多, 以及每一个智能体的动作和状态集合较大时,查表 (b)基于事件驱动的O学习策略迭代 需要占用极大的计算资源。 图4两种方式策略迭代 对于基于事件驱动的决策树,在智能体不被驱 Fig.4 Policy iteration of two methods 动的树层中,下一刻状态将直接等于当前状态,即 推论1基于事件驱动的Q学习算法,不会影 S+1=3,状态转移概率为 响算法的收敛性。 P1=Pr6s1=s,la+1=a,}=1 引理1收敛引理。令X为一个任意的集 状态转移概率P=1意味着,此时整棵决策树中不 合,假设B是X中一个空间有界的集合,即B), 被驱动的树层不生成树枝,进而也减少下一层中树 T:BK)→BK)。·为T的一个固定点,令r= 枝对应的树根。同理,不生成新的树枝,智能体也无 (T,T,…)为来自F。(w)的初值,r在v°点逼近 需对当前树层里所有的Q值进行遍历。上述例子 T,假设F。为r中一个不变式。令V。∈F。(u),定 中,假设t步中存在k次不被驱动,那么在t步学习 义V+1=T,(V,V,)。如果存在随机函数0≤F(x)≤ 过程中,遍历Q值的次数为(nxm)×(t-k)次。 1和0≤G,(x)≤1以概率1满足以下条件,那么在 3.3算法收敛性分析 B仪)中V,以概率1收敛到v·: 智能体每次的策略评估,即策略迭代,都是从前 1)对所有的U1和U2∈F。,对所有的x∈X, 一个策略的值函数开始。在事件驱动的强化学习 |T.(U,v)(x)-T,(U,)(x)|≤ 中,智能体只有在观测信息变化情况下,才更新信念 G,(x)U(x)-U2(x) (12)
根据贝尔曼迭代,Q 值逐渐收敛到一个最优 Q 值,在传统的强化学习中,每一个学习步智能体都需 要通过查表方式找到最大的 Q 值,其迭代表达式为 ΔQ(st,a → t) = rt + γ max a →∈AQt(st+1 ,a → t) - Qt(st,a → t) (7) Qt(st,a → t) = Qt(st,a → t) + αΔQt(st,a → t) = Qt(st,a → t) + α rt + γ max a →∈AQt(st+1,a → t) - Qt(st,a → ( t)) = (1 - α)Qt(st,a → t) + α rt + γ max a →∈AQt(st+1 ,a → ( t) ) (8) 事件驱动的思路则不同,当智能体没有被触发 情况下,将直接选用上一个 Q 值作为当前的 Q 值, 在基于事件驱动的 Q⁃学习中,Q 值迭代过程可以表 示为 Qt(st,a → t,e) = (1 - α)Qt-k(st,a → t,e) + α rt + γ max a →∈AQt(st+1 ,a → ( t,e) ) (9) 式中 k 表示上次触发时刻和当前时刻的差值。 3.2 计算资源消耗 Q⁃学习中的计算资源消耗,主要体现在智能体 需要对所有策略进行试错。 从决策树角度看,树根 和树枝对应着智能体团队的状态与观测,其在每一 次观测后,根据不同的观测都会转移到不同的下一 刻状态,即 st+1←st | o → ,a → { ( ) } 。 在每一个树层中,智 能体团队需要通过遍历 Q 值表,查找得到一个最优 策略。 Q 值表的实现采用 Lookup 表格来表示 Q 函 数。 设 Q(s,a → ) 为一个 Lookup 表格,s∈S 和 a →∈A → 为有限集合,表的大小等于 S×A → 的笛卡尔乘积中的 元素的个数。 举例说明,假设存在 i 个智能体,每一 个智能体有 m 个动作,每一时刻有 n 个状态,Q 值 表的大小为 n i × m i , 在第 t 步, 智能体共需遍历 n i×m i ( ) ×t 次 Q 值,当参与学习的智能体数量较多, 以及每一个智能体的动作和状态集合较大时,查表 需要占用极大的计算资源。 对于基于事件驱动的决策树,在智能体不被驱 动的树层中,下一刻状态将直接等于当前状态,即 st+1 = st,状态转移概率为 P a → s t s t+1 = Pr st+1 = st { a → t+1 = a → t } = 1 状态转移概率 Pr = 1 意味着,此时整棵决策树中不 被驱动的树层不生成树枝,进而也减少下一层中树 枝对应的树根。 同理,不生成新的树枝,智能体也无 需对当前树层里所有的 Q 值进行遍历。 上述例子 中,假设 t 步中存在 k 次不被驱动,那么在 t 步学习 过程中,遍历 Q 值的次数为 n i×m i ( ) ×(t-k) 次。 3.3 算法收敛性分析 智能体每次的策略评估,即策略迭代,都是从前 一个策略的值函数开始。 在事件驱动的强化学习 中,智能体只有在观测信息变化情况下,才更新信念 空间并进行策略评估,否则直接使用上一时刻的策 略。 假设在 t 时刻,智能体没有被事件所触发,那么 智能体在 t 时刻不参与式(9)的迭代,直接使用 t-1 时刻迭代后的 Q 值。 此时,在达到最优策略的过程 中,Q 值的迭代计算过程由每一时刻都计算,减少为 事件触发时刻才计算。 π0 →Q π0 →π1 →Q π1 →π2 →Q π2 →π3 →Q π3 →…π ∗ (10) π0 →Q π0 →π1 →Q π1 →π2 →Q π2 →π2 →Q π2 →…π ∗ (11) 如图 4(a)和式(10)所示,Q 值从初始到收敛至 最优 Q ∗的过程,是一个渐进收敛的过程,Q 值通过 迭代,从 t-1 时间到 t 时刻逐渐接近最优;如图4(b) 和式(11)所示,在智能体不被驱动的情况下,Q 值 不进行迭代,在 t-1 时刻直接使用 t 时刻的 Q 值,减 少了 Q 值的迭代计算。 (a)经典的 Q⁃学习策略迭代 (b)基于事件驱动的 Q⁃学习策略迭代 图 4 两种方式策略迭代 Fig.4 Policy iteration of two methods 推论 1 基于事件驱动的 Q⁃学习算法,不会影 响算法的收敛性。 引理 1 收敛引理[12] 。 令 χ 为一个任意的集 合,假设 B 是 χ 中一个空间有界的集合,即 B (χ ) , T:B (χ ) → B (χ ) 。 v ∗ 为 T 的一个固定点, 令 τ = (T0 ,T1 ,…) 为来自 F0 v ∗ ( ) 的初值,τ 在 v ∗ 点逼近 T,假设 F0 为 τ 中一个不变式。 令 V0∈F0 v ∗ ( ) ,定 义 Vt+1 = Tt Vt,Vt ( ) 。 如果存在随机函数 0≤Ft (x) ≤ 1 和 0≤Gt(x)≤1 以概率 1 满足以下条件,那么在 B(χ ) 中 Vt 以概率 1 收敛到 v ∗ : 1)对所有的 U1 和 U2∈F0 ,对所有的 x∈χ, Tt(U1 ,v ∗ )(x) - Tt(U,V)(x) ≤ Gt(x) U1(x) - U2(x) (12) 第 1 期 张文旭,等:基于事件驱动的多智能体强化学习研究 ·85·
·86 智能系统学报 第12卷 2)对所有的U和V∈F。,对所有的x∈X 不能完成90%的覆盖时,认为此次任务失败。其中 |T(U1,·)(x)-T,(U,V)(x)|≤ 定义学习率为0.6,折扣因子为0.2。 F(x)(‖v°-V‖+入,) (13) 10 式中:当t+o时,入,以概率1收敛到0。 9 3)对所有的k>0,当t→0时,Π4G,(x)收敛 到0。 4)当t→oo时,存在0≤y<1对所有的x∈X有 F(x)≤y(1-G,(x)) (14) 证明在事件驱动的强化学习中,令T= (T,T,…,T,T41=T,T,…)为一个动作序列,表 示智能体执行行动后从当前状态到下一个状态的映 射,其中(…T,T+1…)指当智能体在没有被事件驱 12345678910 动的情况下智能体的第T+,个行动等于第T,个行 X 动,同时,迭代过程为 图5多智能体覆盖问题 f2=T)=T(ff) (15) Fig.5 The coverage problem of multi-agent 令V,Uo,V。∈B(X),U+1=T,(U,V),V1=T(V, 图6比较了事件驱动与传统Q-学习任务成功 ),δ,(x)=|U,(x)-V,(x)|。根据收敛引理有 率,可以看出两种算法成功率一致,但是由于Q值 6+1(x)=|U+1(x)-V+(x)= 迭代次数减少,使得事件驱动Q学习的收敛速度 |T,(U,)(x)-T,(V,V)(x)|≤ 变慢。 |T(U,)(x)-T(V,)(x)|+ 1.0i 传统Q学习 |T,(V,)(x)-T(V,)(x)|≤ G(x)U.(x)-V(x)l+F,(x)(Iv·-V,I+入,)= 基于事件驱动的Q学习 G,(x)8,(x)+F(x)(I·-V,‖+入)≤ 0.2 G,(x)δ,(x)+F(x)(Iv"-V‖+‖U-VI+入,)= G,(x)8,(x)+F,(x)‖·-V‖+入,(16) 0102030405060708091010 学习幕数 在满足条件1)和2)的情况下,虽然基于事件 驱动的动作序列T中有相同的动作T=T+1,但仍 图6事件驱动与传统Q学习的成功率 然满足李普西斯条件,所以不会影响Q学习的收 Fig.6 The success rate of event-triggered O and classical O 敛,证毕。 图7说明了联合触发函数与算法收敛速度的关 系,可以看出联合触发函数选取越小,算法收敛性越 4仿真结果及分析 慢。因为联合触发函数越小,事件触发的次数就越 考虑一个多智能体覆盖问题,2个智能体随机 少,从而导致Q值迭代次数减少,收敛速度变慢。 出现在一个大小为10×10的格子世界中,如图5所 1.0r 0.8 触发函整G-02 示。每一个智能体都有上下左右4个行动,且观测 0.6 范围为自身周围一圈共8个格子,观测到的格子分 0.4 触发函数G-0.4 为“没走过”“走过”和“障碍物”3个状态,分别对应 触发函数G=0.3 0.2 着30、-5和-10的回报值,世界的边界对智能体作 为障碍物:且每一个智能体可以进行广播式通信。 0.10.20304050.60708091610 学习幕数 在这个场景中,每一个智能体获得的是一个局部观 图7联合触发函数与收敛速度 测,当它们进行广播通信后,对于整个世界,获得的 Fig.7 The joint event-triggered function and conver- 仍然是一个局部的观测。但考虑到对整个世界的全 gence speed 局观测需要极大的计算量,所以实验设定每一时刻 当两个智能体通信后,所获得的信息对它们而言是 在学习过程中,智能体团队在每一步需要遍历 Q值数量为(38×4)2≈229.3次,由表1可以看出,随 一个全局观测。 智能体团队的任务为尽快走完所有的格子,即 着学习步数的增加,事件驱动将大量减小Q值的遍 历次数,继而减少计算资源占用,相比较传统的Q 完成对格子世界的覆盖,当走过的格子超过90%以 学习存在明显的优势。 上,认为此次覆盖任务成功,当智能体在1000步仍
2)对所有的 U 和 V∈F0 ,对所有的 x∈χ, Tt(U1 ,v ∗ )(x) - Tt(U,V)(x) ≤ Ft(x)(‖v ∗ - V‖ + λt) (13) 式中:当 t→¥时,λt 以概率 1 收敛到 0。 3)对所有的 k > 0,当 t→¥时,∏n t =k Gt( x) 收敛 到 0。 4)当 t→¥时,存在 0≤γ<1 对所有的 x∈X 有 Ft(x) ≤ γ(1 - Gt(x)) (14) 证 明 在 事 件 驱 动 的 强 化 学 习 中, 令 T = T0 ,T1 ,…,Tk,Tk+1 ( = Tk,Tt,…) 为一个动作序列,表 示智能体执行行动后从当前状态到下一个状态的映 射,其中(…Tk,Tk+1…) 指当智能体在没有被事件驱 动的情况下智能体的第 Tk+1个行动等于第 Tk 个行 动,同时,迭代过程为 f t+2 = Tk+1(f t+1 ,f t+1 ) = Tk(f t,f t) (15) 令 V,U0 ,V0 ∈B( χ),Ut+1 = Tt (Ut,V),Vt+1 = Tt ( Vt, v ∗ ),δt(x)= Ut(x)-Vt(x) 。 根据收敛引理有 δt+1(x) = Ut+1(x) - Vt+1(x) = Tt Ut,v ∗ ( ) (x) - Tt Vt,Vt ( ) (x) ≤ Tt Ut,v ∗ ( ) (x) - Tt Vt,v ∗ ( ) (x) + Tt Vt,v ∗ ( ) (x) - Tt (Vt,V) (x) ≤ Gt(x) Ut(x) - Vt(x) + Ft(x) ‖v ∗ - Vt‖ + λt ( ) = Gt(x)δt(x) + Ft(x) ‖v ∗ - Vt‖ + λt ( ) ≤ Gt(x)δt(x) + Ft(x) ‖v ∗ - Vt‖ + ‖Ut - Vt‖ + λt ( ) = Gt(x)δt(x) + Ft(x)‖v ∗ - Vt‖ + λt (16) 在满足条件 1)和 2)的情况下,虽然基于事件 驱动的动作序列 T 中有相同的动作 Tk = Tk+1 ,但仍 然满足李普西斯条件,所以不会影响 Q⁃学习的收 敛,证毕。 4 仿真结果及分析 考虑一个多智能体覆盖问题,2 个智能体随机 出现在一个大小为 10×10 的格子世界中,如图 5 所 示。 每一个智能体都有上下左右 4 个行动,且观测 范围为自身周围一圈共 8 个格子,观测到的格子分 为“没走过”“走过”和“障碍物”3 个状态,分别对应 着 30、-5 和-10 的回报值,世界的边界对智能体作 为障碍物;且每一个智能体可以进行广播式通信。 在这个场景中,每一个智能体获得的是一个局部观 测,当它们进行广播通信后,对于整个世界,获得的 仍然是一个局部的观测。 但考虑到对整个世界的全 局观测需要极大的计算量,所以实验设定每一时刻 当两个智能体通信后,所获得的信息对它们而言是 一个全局观测。 智能体团队的任务为尽快走完所有的格子,即 完成对格子世界的覆盖,当走过的格子超过 90%以 上,认为此次覆盖任务成功,当智能体在 1 000 步仍 不能完成 90%的覆盖时,认为此次任务失败。 其中 定义学习率为 0.6,折扣因子为 0.2。 图 5 多智能体覆盖问题 Fig.5 The coverage problem of multi⁃agent 图 6 比较了事件驱动与传统 Q⁃学习任务成功 率,可以看出两种算法成功率一致,但是由于 Q 值 迭代次数减少,使得事件驱动 Q⁃学习的收敛速度 变慢。 图 6 事件驱动与传统 Q⁃学习的成功率 Fig.6 The success rate of event⁃triggered Q and classical Q 图 7 说明了联合触发函数与算法收敛速度的关 系,可以看出联合触发函数选取越小,算法收敛性越 慢。 因为联合触发函数越小,事件触发的次数就越 少,从而导致 Q 值迭代次数减少,收敛速度变慢。 图 7 联合触发函数与收敛速度 Fig. 7 The joint event⁃triggered function and conver⁃ gence speed 在学习过程中,智能体团队在每一步需要遍历 Q 值数量为(3 8×4) 2≈2 29.3次,由表 1 可以看出,随 着学习步数的增加,事件驱动将大量减小 Q 值的遍 历次数,继而减少计算资源占用,相比较传统的 Q⁃ 学习存在明显的优势。 ·86· 智 能 系 统 学 报 第 12 卷
第1期 张文旭,等:基于事件驱动的多智能体强化学习研究 .87. 表1事件驱动传统Q学习遍历次数 [5]ZOU Lei,WANG Zidong,GAO Huijun,et al.Event-trig- Table 1 The number of traverse of event-triggered and gered state estimation for complex networks with mixed time classical o delays via sampled data information:the continuous-time case[J].IEEE transactions on cybernetics,2015,45(12): 步数 Q学习 事件驱动Q学习 减少总遍历次数 2804-2815. 50 =29.3×50 =293×42 年223 [6]SAHOO A,XU Hao,JAGANNATHAN S.Adaptive neural 100 =229.3×100 =2293×79 年2超6 network-based event-triggered control of single-input single- 200 =29.3×200 =229.3×153 六24.9 output nonlinear discrete-time systems[J].IEEE transac- 300 =229.3×300 =2293×221 ≈25.6 tions on neural networks and learning systems,2016,27 500=29.3×500 =2293×386 产262 (1):151-164 表2比较了在一次成功的任务中,事件驱动与 [7]HU Wenfeng,LIU Lu,FENG Gang.Consensus of linear 传统Q学习的通信次数。可以看出,事件驱动减少 multi-agent systems by distributed event-triggered strategy [J].IEEE transactions on cybernetics,2016,46(1): 了智能体间的通信次数。同时与表1比较,可以看 148-157. 出自事件触发和联合事件触发次数的区别。 [8 ]ZHONG Xiangnan,NI Zhen,HE Haibo,et al.Event-trig- 表2事件驱动与传统Q学习通信次数 gered reinforcement learning approach for unknown nonlinear Table 2 The number of communication of event-triggered continuous-time system[C]//Proceedings of 2014 Interna- and classical O tional Joint Conference on Neural Networks.Beijing,China, 步数 Q学习 事件驱动Q学习减少通信次数 2014:3677-3684. 50 50 45 J [9]XU Hao,JAGANNATHAN S.Near optimal event-triggered control of nonlinear continuous-time systems using input and 100 100 89 11 output data[C]//Proceedings of the 11th World Congress 200 200 172 子 on Intelligent Control and Automation.Shenyang,China, 300 300 258 名 2014:1799-1804. 500 500 410 % [10]BERNSTEIN D S,GIVAN R,IMMERMAN N,et al.The complexity of decentralized control of Markov decision 5 结束语 processes[J].Mathematics of operations research,2002. 27(4):819-840. 本文提出了一种基于事件驱动的多智能体强化 [11]WATKINS C J C H,DAYAN P.Q-learning[J].Machine 学习算法,侧重于多智能体在学习策略层的事件驱 1 earning,1992,8(3/4):279-292. 动研究。智能体在与环境的交互中,可以根据观测 [12]SZEPESVARI C,LITTMAN M L.A unified analysis of 的变化来触发通信和学习过程。在相同时间内,采 value-function-based reinforcement-learning algorithms 用事件驱动可以降低数据传输次数,节约通信资源: [J].Neural computation,1999,11(8):2017-2060. 作者简介: 同时,智能体不需要每一时刻进行试错和迭代,进而 张文旭,男,1985年生,博士研究 减少计算资源。最后,对算法的收敛性进行了论证, 生,主要研究方向为多智能体系统、机 仿真结果表明事件驱动可以在学习过程中减少一定 器学习。发表论文4篇,其中被EI检 的通信次数和策略遍历次数,进而缓解通信和计算资 索4篇。 源消耗。进一步工作主要基于现有的研究,将事件驱 动的思想应用于不同类的强化学习方法中,并结合事 件驱动的特点设计更合理的触发函数。 马磊,男,1972年生,教授,博士,主 参考文献: 要研究方向为控制理论及其在机器人、 [1]ZHU Wei,JIANG ZhongPing,FENG Gang.Event-based 新能源和轨道交通系统中的应用等。 主持国内外项目14项,发表论文40余 consensus of multi-agent systems with general linear models 篇,其中被EI检索37篇。 [J].Automatica,2014,50(2):552-558. [2]FAN Yuan,FENG Gang,WANG Yong,et al.Distributed event-triggered control of multi-agent systems with combina- tional measurements[].Automatica,2013,49(2):671-675. 王晓东,男,1992年生,硕士研究 [3 WANG Xiaofeng,LEMMON M D.Event-triggering in 生,主要研究方向为机器学习。获得国 distributed networked control systems[J].IEEE transactions 家发明型专利3项,发表论文4篇。 on automatic control,2011,56(3):586-601. [4 TABUADA P.Event-triggered real-time scheduling of stabilizing control tasks[].IEEE transactions on automatic control..2007,52(9):1680-1685
表 1 事件驱动传统 Q⁃学习遍历次数 Table 1 The number of traverse of event⁃triggered and classical Q 步数 Q⁃学习 事件驱动 Q⁃学习 减少总遍历次数 50 ≈2 29.3×50 ≈2 29.3×42 ≈2 32.3 100 ≈2 29.3×100 ≈2 29.3×79 ≈2 33.6 200 ≈2 29.3×200 ≈2 29.3×153 ≈2 34.9 300 ≈2 29.3×300 ≈2 29.3×221 ≈2 35.6 500 ≈2 29.3×500 ≈2 29.3×386 ≈2 36.2 表 2 比较了在一次成功的任务中,事件驱动与 传统 Q⁃学习的通信次数。 可以看出,事件驱动减少 了智能体间的通信次数。 同时与表 1 比较,可以看 出自事件触发和联合事件触发次数的区别。 表 2 事件驱动与传统 Q⁃学习通信次数 Table 2 The number of communication of event⁃triggered and classical Q 步数 Q⁃学习 事件驱动 Q⁃学习 减少通信次数 50 50 45 5 100 100 89 11 200 200 172 28 300 300 258 42 500 500 410 90 5 结束语 本文提出了一种基于事件驱动的多智能体强化 学习算法,侧重于多智能体在学习策略层的事件驱 动研究。 智能体在与环境的交互中,可以根据观测 的变化来触发通信和学习过程。 在相同时间内,采 用事件驱动可以降低数据传输次数,节约通信资源; 同时,智能体不需要每一时刻进行试错和迭代,进而 减少计算资源。 最后,对算法的收敛性进行了论证, 仿真结果表明事件驱动可以在学习过程中减少一定 的通信次数和策略遍历次数,进而缓解通信和计算资 源消耗。 进一步工作主要基于现有的研究,将事件驱 动的思想应用于不同类的强化学习方法中,并结合事 件驱动的特点设计更合理的触发函数。 参考文献: [1]ZHU Wei, JIANG ZhongPing, FENG Gang. Event -based consensus of multi⁃agent systems with general linear models [J]. Automatica, 2014, 50(2): 552-558. [2] FAN Yuan, FENG Gang, WANG Yong, et al. Distributed event⁃triggered control of multi⁃agent systems with combina⁃ tional measurements[J]. Automatica, 2013, 49(2): 671-675. [ 3 ] WANG Xiaofeng, LEMMON M D. Event⁃triggering in distributed networked control systems[J]. IEEE transactions on automatic control, 2011, 56(3): 586-601. [ 4 ] TABUADA P. Event⁃triggered real⁃time scheduling of stabilizing control tasks[J]. IEEE transactions on automatic control, 2007, 52(9): 1680-1685. [5] ZOU Lei, WANG Zidong, GAO Huijun, et al. Event⁃trig⁃ gered state estimation for complex networks with mixed time delays via sampled data information: the continuous⁃time case[J]. IEEE transactions on cybernetics, 2015, 45(12): 2804-2815. [6] SAHOO A, XU Hao, JAGANNATHAN S. Adaptive neural network⁃based event⁃triggered control of single⁃input single⁃ output nonlinear discrete⁃time systems [ J]. IEEE transac⁃ tions on neural networks and learning systems, 2016, 27 (1): 151-164. [7] HU Wenfeng, LIU Lu, FENG Gang. Consensus of linear multi⁃agent systems by distributed event⁃triggered strategy [ J]. IEEE transactions on cybernetics, 2016, 46 ( 1 ): 148-157. [8]ZHONG Xiangnan, NI Zhen, HE Haibo, et al. Event⁃trig⁃ gered reinforcement learning approach for unknown nonlinear continuous⁃time system[ C] / / Proceedings of 2014 Interna⁃ tional Joint Conference on Neural Networks. Beijing, China, 2014: 3677-3684. [9]XU Hao, JAGANNATHAN S. Near optimal event⁃triggered control of nonlinear continuous⁃time systems using input and output data [ C] / / Proceedings of the 11th World Congress on Intelligent Control and Automation. Shenyang, China, 2014: 1799-1804. [10]BERNSTEIN D S, GIVAN R, IMMERMAN N, et al. The complexity of decentralized control of Markov decision processes[ J]. Mathematics of operations research, 2002, 27(4): 819-840. [11]WATKINS C J C H, DAYAN P. Q⁃learning[ J]. Machine learning, 1992, 8(3 / 4): 279-292. [12] SZEPESVÁRI C, LITTMAN M L. A unified analysis of value⁃function⁃based reinforcement⁃learning algorithms [J]. Neural computation, 1999, 11(8): 2017-2060. 作者简介: 张文旭,男,1985 年生,博士研究 生,主要研究方向为多智能体系统、机 器学习。 发表论文 4 篇,其中被 EI 检 索 4 篇。 马磊,男,1972 年生,教授,博士,主 要研究方向为控制理论及其在机器人、 新能源和轨道交通系统中的应用等。 主持国内外项目 14 项,发表论文 40 余 篇,其中被 EI 检索 37 篇。 王晓东,男,1992 年生,硕士研究 生,主要研究方向为机器学习。 获得国 家发明型专利 3 项,发表论文 4 篇。 第 1 期 张文旭,等:基于事件驱动的多智能体强化学习研究 ·87·