第14卷第1期 智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201807010 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20181230.0904.002.html 事件驱动的强化学习多智能体编队控制 徐鹏',谢广明23,文家燕2,高远 (1.广西科技大学电气与信息工程学院,广西柳州545006;2.北京大学工学院,北京100871,3.北京大学海洋 研究院,北京100871) 摘要:针对经典强化学习的多智能体编队存在通信和计算资源消耗大的问题,本文引入事件驱动控制机制, 智能体的动作决策无须按固定周期进行,而依赖于事件驱动条件更新智能体动作。在设计事件驱动条件时,不 仅考虑智能体的累积奖赏值,还引入智能体与邻居奖赏值的偏差,智能体间通过交互来寻求最优联合策略实现 编队。数值仿真结果表明,基于事件驱动的强化学习多智能体编队控制算法,在保证系统性能的情况下,能有 效降低多智能体的动作决策频率和资源消耗。 关键词:强化学习:多智能体;事件驱动:编队控制:马尔可夫过程:集群智能;动作决策:粒子群算法 中图分类号:TP391.8文献标志码:A文章编号:1673-4785(2019)01-0093-06 中文引用格式:徐鹏,谢广明,文家燕,等.事件驱动的强化学习多智能体编队控制J智能系统学报,2019,14(1):93-98. 英文引用格式:XU Peng,.XIE Guangming,WEN Jiayan,etal.Event-triggered reinforcement learning formation control for multi agent[J].CAAI transactions on intelligent systems,2019,14(1):93-98. Event-triggered reinforcement learning formation control for multi-agent XU Peng',XIE Guangming'2,WEN Jiayan2,GAO Yuan' (1.School of Electric and Information Engineering,Guangxi University of Science and Technology,Liuzhou 545006,China;2.Col- lege of Engineering,Peking University,Beijing 100871,China:3.Institute of Ocean Research,Peking University,Beijing 100871, China) Abstract:A large consumption of communication and computing capabilities has been reported in classical reinforce- ment learning of multi-agent formation.This paper introduces an event-triggered mechanism so that the multi-agent's decisions do not need to be carried out periodically;instead,the multi-agent's actions are replaced depending on the event-triggered condition.Both the sum of total reward and variance in current rewards are considered when designing an event-triggered condition,so a joint optimization strategy is obtained by exchanging information among multiple agents.Numerical simulation results demonstrate that the multi-agent formation control algorithm can effectively re- duce the frequency of a multi-agent's action decisions and consumption of resources while ensuring system perform- ance. Keywords:reinforcement learning:multi-agent:event-triggered:formation control:Markov decision processes;swarm intelligence,action-decisions;particle swarm optimization 强化学习是受动物能有效适应环境的启发发 励累积最大化,来寻求最优的策略。目前强化 展而来的一种算法。基本思想是以试错的机制与 学习的行业应用颇广泛,比如无人驾驶、人形机 环境进行交互,在没有导师信号的情况下,使奖 器人、智能交通和多智能体协同等。其中多智能 收稿日期:2018-07-11.网络出版日期:2019-0103. 体编队的强化学习研究是一个重要的方向1。 基金项目:国家重点研发计划项目(2017YFB1400800):国家自然 科学基金项目(91648120.61633002.51575005.61563006. 文献[4]设计多动作回放的马尔可夫模型,在此框 61563005):广西高校工业过程智能控制技术重点实 验室项目(PICT-2016-04). 架下,多智能体Q学习可收敛到最优的联合行动 通信作者:文家燕.E-mail:wenjiayan.20I2@126.com. 策略。文献[⑤]提出一种评估Q值法,多智能体通
DOI: 10.11992/tis.201807010 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20181230.0904.002.html 事件驱动的强化学习多智能体编队控制 徐鹏1 ,谢广明1,2,3,文家燕1,2,高远1 (1. 广西科技大学 电气与信息工程学院,广西 柳州 545006; 2. 北京大学 工学院,北京 100871; 3. 北京大学 海洋 研究院,北京 100871) 摘 要:针对经典强化学习的多智能体编队存在通信和计算资源消耗大的问题,本文引入事件驱动控制机制, 智能体的动作决策无须按固定周期进行,而依赖于事件驱动条件更新智能体动作。在设计事件驱动条件时,不 仅考虑智能体的累积奖赏值,还引入智能体与邻居奖赏值的偏差,智能体间通过交互来寻求最优联合策略实现 编队。数值仿真结果表明,基于事件驱动的强化学习多智能体编队控制算法,在保证系统性能的情况下,能有 效降低多智能体的动作决策频率和资源消耗。 关键词:强化学习;多智能体;事件驱动;编队控制;马尔可夫过程;集群智能;动作决策;粒子群算法 中图分类号:TP391.8 文献标志码:A 文章编号:1673−4785(2019)01−0093−06 中文引用格式:徐鹏, 谢广明, 文家燕, 等. 事件驱动的强化学习多智能体编队控制[J]. 智能系统学报, 2019, 14(1): 93–98. 英文引用格式:XU Peng, XIE Guangming, WEN Jiayan, et al. Event-triggered reinforcement learning formation control for multiagent[J]. CAAI transactions on intelligent systems, 2019, 14(1): 93–98. Event-triggered reinforcement learning formation control for multi-agent XU Peng1 ,XIE Guangming1,2,3 ,WEN Jiayan1,2 ,GAO Yuan1 (1. School of Electric and Information Engineering, Guangxi University of Science and Technology, Liuzhou 545006, China; 2. College of Engineering, Peking University, Beijing 100871, China; 3. Institute of Ocean Research, Peking University, Beijing 100871, China) Abstract: A large consumption of communication and computing capabilities has been reported in classical reinforcement learning of multi-agent formation. This paper introduces an event-triggered mechanism so that the multi-agent’s decisions do not need to be carried out periodically; instead, the multi-agent’s actions are replaced depending on the event-triggered condition. Both the sum of total reward and variance in current rewards are considered when designing an event-triggered condition, so a joint optimization strategy is obtained by exchanging information among multiple agents. Numerical simulation results demonstrate that the multi-agent formation control algorithm can effectively reduce the frequency of a multi-agent’s action decisions and consumption of resources while ensuring system performance. Keywords: reinforcement learning; multi-agent; event-triggered; formation control; Markov decision processes; swarm intelligence; action-decisions; particle swarm optimization 强化学习是受动物能有效适应环境的启发发 展而来的一种算法。基本思想是以试错的机制与 环境进行交互,在没有导师信号的情况下,使奖 Q Q 励累积最大化,来寻求最优的策略[1-3]。目前强化 学习的行业应用颇广泛,比如无人驾驶、人形机 器人、智能交通和多智能体协同等。其中多智能 体编队的强化学习研究是一个重要的方向[4-5]。 文献[4]设计多动作回放的马尔可夫模型,在此框 架下,多智能体 学习可收敛到最优的联合行动 策略。文献[5]提出一种评估 值法,多智能体通 收稿日期:2018−07−11. 网络出版日期:2019−01−03. 基金项目:国家重点研发计划项目 (2017YFB1400800);国家自然 科学基金项目 (91648120,61633002,51575005,61563006, 61563005);广西高校工业过程智能控制技术重点实 验室项目 (IPICT-2016-04). 通信作者:文家燕. E-mail:wenjiayan2012@126.com. 第 14 卷第 1 期 智 能 系 统 学 报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019
·94· 智能系统学报 第14卷 过交流Q值函数和折扣奖励方差来学习世界,较 体抵达各自的期望位置点,且在运动过程中不发 快完成了编队任务。然后,智能体在这些学习过 生碰撞。在学习最优动作策略过程中,当所有智 程中,需要连续地与环境进行交互,会导致大量 能体都抵达目标位置时,群体会得到一个*的奖 的通信和计算资源消耗。因此在有限资源情况 励,否则会得到广的惩罚。每个智能体都可以与 下,保证多智能体系统的编队性能,考虑如何降 邻居智能体交互,来获取其他智能体的奖励信号。 低资源消耗是必要的,这也是促使开展本项研究 (1,1) 的直接原因。 事件驱动机制已经被证明可以有效地减小大 目标点 规模网络的通信量刀。综合已有研究成果,事件 驱动条件设计主要分为两类:状态相关和状态 无关。其主要做法都是通过检测智能体采样前 后状态的偏差值大小,判断是否满足事件驱动条 智能体 件,来决定间歇性的更新控制输入,减小控制器 与多智能体系统的通信频率和计算量10121。文 (n,m) 献[10]较早在状态反馈控制器中引入事件驱动控 制机制。文献[1]考虑多智能体间同步采样异步 图1编队问题 Fig.1 Formation problem 触发机制解决多智能体环形编队问题,其中智能 体可独立地选择触发条件参数。但是当前强化学 1.2 分散式马尔可夫模型 习与事件驱动的结合相对较少31。文献[13]设 博弈论中智能体的每一个决策都会导致状态 计事件驱动控制器并应用于非线性连续系统的强 的转移,此时的决策序列称为一个随机策略。具 化学习中,解决了自适应动态规划问题。文献[14] 有马尔可夫(Markov)特性的随机策略称为Markov 提出根据智能体观测信息的变化率设计触发函 策略(MG)。MG是研究具有离散时间特性的多 数,减少学习过程中的计算资源消耗。 智能体系统的重要理论框架。 综合以上分析,本文区别于传统的多智能体 考虑一个分散式马尔可夫模型(decentralized 强化学习算法,在资源有限的情况下,考虑将事 Markov decision processes,DEC-MDPs),DEC- 件驱动和强化学习相结合,侧重于事件驱动在强 MDPs是一个五元组,其中:I 化学习过程中动作决策频率方面的研究。 为有限智能体集合;S为状态集合;A(s)为第i个 智能体在状态s∈S下可选动作集合,则多智能体 1问题描述 在状态s下的联合行动表示为A(s)=A1(s)XA2(s)X 1.1基于强化学习的编队问题 xAw(s);P为动作转移概率;”,表示智能体i奖赏 Z。表示正整数集合。多智能体编队问题描 值。在DEC-MDPs中,每个智能体不依赖全局信 述如图1所示,假设有N(N≥2)个智能体从初始 息,只保持自身和编队期望点的相对关系,且每 位置出发,初始位置为随机分布的坐标点,抵达 个智能体只需获取自身的局部观测信息,在通信 各自的期望位置,每个智能体对应的期望位置点 无障碍情况下,这些局部信息的并集为一个完整 不同,且期望位置点的数量等于多智能体个体的 的全局信息。多智能体的混合策略组合 数量。为便于分析,令多智能体在二维网格中运 π=(π(S),(⑤),…,πw(s)构成整个系统的一个混合 动,定义网格的大小为(,y),在二维网格中坐 策略,策略π可看成是状态空间5到动作空间 标(x,y)表示智能体i的状态su∈Z飞。,并朝着对 A:(s)的映射。求解DEC-MDPs的目的是寻求一 应的期望点Gi=1,2,·,N)运动,每个智能体对 个最优策略π,来最大化系统的回报值。 应的期望位置点会按照贪婪法则预先给定。智能 1.3Q学习 体i运动过程中,动作集合A(S)尸{上,下,左,右, Q学习是最早的在线强化学习算法,同时也 保持},因此下一刻状态值可能为(-1), 是强化学习最重要的算法之一。Watkins在博土 (,u+1),(u-1,u),(u+1,)和(ya)。 论文中1提出了Q学习算法,如图2所示,通过 综上所述,基于强化学习的多智能体编队问 与环境的交互,学习环境状态到行为的映射关 题可描述为:智能体与环境进行交互,学习动作 系,使智能体从环境中获得最大累积奖赏值,通 决策策略,最小化群体的动作总量K,使多智能 常用值函数来评价策略π的优劣
过交流 Q 值函数和折扣奖励方差来学习世界,较 快完成了编队任务。然后,智能体在这些学习过 程中,需要连续地与环境进行交互,会导致大量 的通信和计算资源消耗。因此在有限资源情况 下,保证多智能体系统的编队性能,考虑如何降 低资源消耗是必要的,这也是促使开展本项研究 的直接原因。 事件驱动机制已经被证明可以有效地减小大 规模网络的通信量[6-7]。综合已有研究成果,事件 驱动条件设计主要分为两类:状态相关[8]和状态 无关[9]。其主要做法都是通过检测智能体采样前 后状态的偏差值大小,判断是否满足事件驱动条 件,来决定间歇性的更新控制输入,减小控制器 与多智能体系统的通信频率和计算量[10-12]。文 献[10]较早在状态反馈控制器中引入事件驱动控 制机制。文献[11]考虑多智能体间同步采样异步 触发机制解决多智能体环形编队问题,其中智能 体可独立地选择触发条件参数。但是当前强化学 习与事件驱动的结合相对较少[13-14]。文献[13]设 计事件驱动控制器并应用于非线性连续系统的强 化学习中,解决了自适应动态规划问题。文献[14] 提出根据智能体观测信息的变化率设计触发函 数,减少学习过程中的计算资源消耗。 综合以上分析,本文区别于传统的多智能体 强化学习算法,在资源有限的情况下,考虑将事 件驱动和强化学习相结合,侧重于事件驱动在强 化学习过程中动作决策频率方面的研究。 1 问题描述 1.1 基于强化学习的编队问题 Z>0 N(N ⩾ 2) (xt,i , yt,i) (xt,i , yt,i) i st,i ∈ Z 2 >0 Gi(i = 1,2,··· ,N) i (xt,i , yt,i −1) (xt,i , yt,i +1) (xt,i −1, yt,i) (xt,i +1, yt,i) (xt,i , yt,i) 表示正整数集合。多智能体编队问题描 述如图 1 所示,假设有 个智能体从初始 位置出发,初始位置为随机分布的坐标点,抵达 各自的期望位置,每个智能体对应的期望位置点 不同,且期望位置点的数量等于多智能体个体的 数量。为便于分析,令多智能体在二维网格中运 动,定义网格的大小为 ,在二维网格中坐 标 表示智能体 的状态 ,并朝着对 应的期望点 运动,每个智能体对 应的期望位置点会按照贪婪法则预先给定。智能 体 运动过程中,动作集合 Ai (s)={上,下,左,右, 保 持 } ,因此下一刻状态值可能为 , , , 和 。 K1 综上所述,基于强化学习的多智能体编队问 题可描述为:智能体与环境进行交互,学习动作 决策策略,最小化群体的动作总量 ,使多智能 r + r − 体抵达各自的期望位置点,且在运动过程中不发 生碰撞。在学习最优动作策略过程中,当所有智 能体都抵达目标位置时,群体会得到一个 的奖 励,否则会得到 的惩罚。每个智能体都可以与 邻居智能体交互,来获取其他智能体的奖励信号。 (1,1) 目标点 1 2 3 4 (n, n) 智能体 图 1 编队问题 Fig. 1 Formation problem 1.2 分散式马尔可夫模型 博弈论中智能体的每一个决策都会导致状态 的转移,此时的决策序列称为一个随机策略。具 有马尔可夫 (Markov) 特性的随机策略称为 Markov 策略 (MG)。MG 是研究具有离散时间特性的多 智能体系统的重要理论框架。 I i s ∈ S s A(s) = A1(s)×A2(s)×··· ×AN(s) i π = (π1(s),π2(s),··· ,πN(s)) π s Ai(s) π 考虑一个分散式马尔可夫模型 (decentralized Markov decision processes,DEC-MDPs),DECMDPs 是一个五元组,其中: 为有限智能体集合;S 为状态集合;Ai (s) 为第 个 智能体在状态 下可选动作集合,则多智能体 在状态 下的联合行动表示为 ;P 为动作转移概率;ri 表示智能体 奖赏 值。在 DEC-MDPs 中,每个智能体不依赖全局信 息,只保持自身和编队期望点的相对关系,且每 个智能体只需获取自身的局部观测信息,在通信 无障碍情况下,这些局部信息的并集为一个完整 的全局信息。多智能体的混合策略组合 构成整个系统的一个混合 策略,策略 可看成是状态空间 到动作空间 的映射。求解 DEC-MDPs 的目的是寻求一 个最优策略 ,来最大化系统的回报值。 1.3 Q 学习 Q Q π 学习是最早的在线强化学习算法,同时也 是强化学习最重要的算法之一。Watkins 在博士 论文中[15]提出了 学习算法,如图 2 所示,通过 与环境的交互,学习环境状态到行为的映射关 系,使智能体从环境中获得最大累积奖赏值,通 常用值函数来评价策略 的优劣。 ·94· 智 能 系 统 学 报 第 14 卷
第1期 徐鹏,等:事件驱动的强化学习多智能体编队控制 ·95· 在基于事件驱动的强化学习编队问题中,如 智能体 果智能体ⅰ在期望位置点上,会获得较大的奖赏 值。换句话说,当智能体i迅速到达期望位置时, 状态s 奖励r 动作a, 获得累积折扣奖赏值较大。因此,根据智能体的 累积折扣奖赏值进行设计状态阈值函数是合理 的。但是,状态阈值函数如果仅通过累积折扣奖 环境 赏值去评估,智能体i往往会获得自私的策略,不 利于学到群体最优的策略。因此,考虑在智能体 图2Q学习流程图 i的状态阈值函数中引入当前奖励的偏差6。假 Fig.2 Flow chart of Q-learning 设智能体能观测到周围的一圈10个格子,如果智 图2采用的是折扣累积奖赏,策略π的状态 能体j存在于智能体i的观测范围内,称智能体j 值函数为 为智能体i的邻居,则t时刻智能体i奖励的偏差 6.可写成: V产(s)=∑y(s.a,)ls=s0, a,=(S) Σrw-Naru 式中,y为折扣因子,5。为初始状态。另一种形式 的值函数是状态动作值函数: (sa)=r(sa)+yV(s) 式中,Nu为智能体i在t时刻邻居集合,N为智 此时最优策略可以根据式(1)得到: 能体i邻居个数。当智能体i的状态偏差大于状 π'=arg max O(s,a) (1) 态阈值函数时,更新智能体ⅰ的动作并对自身动 DEA(s) 那么可借助时间差分误差来更新Q函数,智能体 作决策进行广播。同一时刻里,不一定所有的智 将观测到的数据代入Q函数中进行迭代学习,得 能体都会被驱动,未被驱动的智能体仅接受信 到精确的解: 息,有利于减少多智能体系统通信和计算资源的 VQ(s,a)=r1+ymax Q(s1.a)-Q(si.a) 消耗,则事件驱动条件设计为式(2): Q+1(s,a,)=Q,(s,a,)+a,V2+1(s,a) e,(0=o(0a(s,a)-V6a (2) 式中,t为当前时刻;,为当前的学习率;d为状态 式中0构成,其中e表示状态偏差值,当 e,()>o(Q(sa)-√⑤a时,智能体i更新动作, 为解决经典强化学习过程中存在通信和计算 否则执行上一刻的采样动作。 资源消耗大问题,本节在经典强化学习中引入事 智能体 件驱动控制机制。 编队 2.1事件驱动条件设计 避碰 在DEC-MDPs中,每个智能体可独立地观测 事件 局部状态信息,同时广播给附近的其他智能体。 状态3, 奖励r 驱动 观测结束后,其根据上一时刻观测与当前观测的 状态偏差值大小,决定是否要执行更新动作。这 动作a, 环境 里采用状态值Q(s,a)作为智能体i在t时刻的 当前观测值,2(sa)可通过查询Q-Table获得, 图3基于事件驱动的强化学习框架 则智能体i从t-1时刻到t时刻的偏差值可写成: Fig.3 The frame of reinforcement learning with event- e:(1)=Q(Sis,a)-Q-1(S-1i,a-1) triggered 式中,t>0:e,()为观测量的状态偏差值;Q-(s-,a-u) 图2经典的Q学习是使用一个合理的策略产 为1-1时刻状态观测值。 生动作,根据动作与环境交互,可得到下一刻的
奖励r 状态 t 动作at st 智能体 环境 图 2 Q 学习流程图 Fig. 2 Flow chart of Q-learning 图 2 采用的是折扣累积奖赏,策略 π 的状态 值函数为 V π (s) = ∑∞ t=0 γ t rt(st ,at)|s = s0 , at = π(st) 式中, γ 为折扣因子, s0 为初始状态。另一种形式 的值函数是状态动作值函数: Q π (st ,at) = r(st ,at)+γV π (st+1) 此时最优策略可以根据式 (1) 得到: π ∗ = argmax a∈A(s) Q π (s,a) (1) Q Q 那么可借助时间差分误差来更新 函数,智能体 将观测到的数据代入 函数中进行迭代学习,得 到精确的解: ∇Qt+1(st ,at) = rt+1 +γmaxQt(st+1 ,a ′ )− Qt(st ,at) Qt+1(st ,at) = Qt(st ,at)+αt∇Qt+1(st ,at) t αt a ′ s+1 式中, 为当前时刻; 为当前的学习率; 为状态 时执行的动作。 Q 学习最大的特点是智能体可以通过试错的 方式寻求最优的策略,因此所有的状态动作都需 要被无限次地遍历,同时这也会造成大量的通信 和计算资源消耗。 2 算法设计 为解决经典强化学习过程中存在通信和计算 资源消耗大问题,本节在经典强化学习中引入事 件驱动控制机制。 2.1 事件驱动条件设计 Qt,i(st,i ,at,i) i t Qt,i(st,i ,at,i) i t−1 t 在 DEC-MDPs 中,每个智能体可独立地观测 局部状态信息,同时广播给附近的其他智能体。 观测结束后,其根据上一时刻观测与当前观测的 状态偏差值大小,决定是否要执行更新动作。这 里采用状态值 作为智能体 在 时刻的 当前观测值, 可通过查询 Q-Table 获得, 则智能体 从 时刻到 时刻的偏差值可写成: ei(t) = Qt,i(st,i ,at,i)− Qt−1,i(st−1,i ,at−1,i) t > 0 ei(t) Qt−1,i(st−1,i ,at−1,i) t−1 式中, ; 为观测量的状态偏差值; 为 时刻状态观测值。 i i i i δt,i j i j i t i δt,i 在基于事件驱动的强化学习编队问题中,如 果智能体 在期望位置点上,会获得较大的奖赏 值。换句话说,当智能体 迅速到达期望位置时, 获得累积折扣奖赏值较大。因此,根据智能体的 累积折扣奖赏值进行设计状态阈值函数是合理 的。但是,状态阈值函数如果仅通过累积折扣奖 赏值去评估,智能体 往往会获得自私的策略,不 利于学到群体最优的策略。因此,考虑在智能体 的状态阈值函数中引入当前奖励的偏差 。假 设智能体能观测到周围的一圈 10 个格子,如果智 能体 存在于智能体 的观测范围内,称智能体 为智能体 的邻居,则 时刻智能体 奖励的偏差 可写成: δt,i = ∑ j∈Nt,i rt, j − Nt,i rt,i Nt,i 2 i t i i i 式中,Nt,i 为智能体 在 时刻邻居集合,|Nt,i|为智 能体 邻居个数。当智能体 的状态偏差大于状 态阈值函数时,更新智能体 的动作并对自身动 作决策进行广播。同一时刻里,不一定所有的智 能体都会被驱动,未被驱动的智能体仅接受信 息,有利于减少多智能体系统通信和计算资源的 消耗,则事件驱动条件设计为式 (2): ei(t) = σi ( Qt,i(st,i ,at,i)− √ δt,i ) (2) 式中 0 σi ( Qt,i(st,i ,at,i)− √ δt,i ) i 如图 3 所示,智能体执行过程为:当智能体感 知自己附近有障碍物时,即优先避碰,避碰结束 后重新进行编队。在通信无障碍的情况下,考虑 基于事件驱动的 DEC-MDPs,由六元组构成,其中 表示状态偏差值,当 时,智能体 更新动作, 否则执行上一刻的采样动作。 奖励rt 动作at 状态st 事件 驱动 环境 避碰 编队 智能体 图 3 基于事件驱动的强化学习框架 Fig. 3 The frame of reinforcement learning with eventtriggered 图 2 经典的 Q 学习是使用一个合理的策略产 生动作,根据动作与环境交互,可得到下一刻的 第 1 期 徐鹏,等:事件驱动的强化学习多智能体编队控制 ·95·
·96· 智能系统学报 第14卷 状态以及奖赏值,不断地优化奖赏值来得到最优 件驱动的强化学习压缩了整个学习的解空间,但在 的Q函数。基于事件驱动的Q学习不同于经典 计算和通信资源限制下,基于事件驱动的强化学 的Q学习算法,智能体首先判断事件条件是否触 习通过减少智能体的动作决策,能在短时间内找 发,来决定是否基于当前的状态值,更新动作与 到一个动作总量为K2的可行的编队策略,通过不 环境进行交互。多智能体从各自的初始位置点出 断更新迭代,最终寻求到最小化群体的动作总量。 发,当每个智能体都抵达期望位置点时,称为一 轮Episode学习终止。则对于事件驱动的强化学 3数值仿真分析 习多智能体编队算法可描述为 为了定量比较经典Q学习和事件驱动Q学 1)初始化Q矩阵; 习动作决策频率的大小,假设智能体随机初始化 2)初始化多智能体的当前状态so: 在大小为20×20的格子世界中,如图4所示,存 3)智能体i以行为策略(ε-贪心策略)选择 在3个智能体,每个智能体动作集合为A(s),可 动作au; 观测到格子的可能为“障碍物”“目标点”“普通格 4)智能体i与环境交互,获取下一个状态s 子”,奖赏,可写成式(3): 和即时的奖赏值r n=ω+0.1B+X+5 (3) 5)智能体i更新当前状态Su和au的Q(s,a) 式中,当智能体i未抵达目标点时ω为-1,否则 值: 为0;智能体i抵达期望点时B为-1,否则为0;当 △Q(si,a)=ru+ymax0(Sa,a)-Q(s,a) 智能体i移动到边界或者撞上L型的障碍物时, Q(su,ai)←Q(S,a)+a△Q(S,a) 式中,0<a<1为学习率,0<y<1为折扣因子; 智能体保持不动,此时X为-1,否则为0:当智能 6)如果每个智能体都抵达各自期望位置,则 体i与智能j在同一时刻向同一格子移动时,两 终止一轮Episode; 个智能体保持不动,此时(为-1,否则为0 7)判断是否满足事件触发条件,如果满足返 回步骤3),不满足返回步骤4)。 2.3资源消耗对比 Q学习中计算资源消耗,主要体现在遍历所 有的策略来寻求最优解。每次学习过程中,智能 体都要基于当前的状态遍历Q(s,d)值表,查找一 个最优的策略。Q(s,a)值表的实现采用Lookup 表格,其中seS和a∈A:(s,表的大小为S×A的 乘积的元素个数。下面举例说明Q(s,a)表大小, 假设存在N个智能体,每个智能体有M个动作, 环境中共存在n2状态,那么Q(s,a)值表的大小为 图4多智能体编队 M×n2w,在p步中,智能体共需遍历MN×n2w×p Fig.4 Formation of multi-agents systems 次Q(s,a)值表,做Mp次动作决策,这需要占用极 表1比较了事件驱动Q学习和经典Q学习 大的通信和计算资源。假设智能体在在P步中, 的动作决策次数,为方便表达做如下定义:为经 有1次不被驱动,则通信次数减少为M(p-)次, 典Q学习决策次数,?为事件驱动Q学习决策次 遍历次数减少为MN×n2w×(p-)次。虽然基于事 数,则减少决策率n可由如式(4)计算: 表1事件驱动与经典Q学习动作决策次数对比 Table 1 A comparison of action times between event-triggered O and classical O case 1=0.05 =0.02 0=0.01 经典Q学习 事件驱动Q学习减少决策率刀% 事件驱动Q学习减少决策率)% 事件驱动Q学习减少决策率% 600000 192976 67.79 129628 78.32 100143 83.31 900000 372463 58.61 257586 71.37 246968 72.56 1200000 591433 50.71 475579 60.36 406864 66.10 1500000 828361 44.77 689172 54.05 587553 60.83
Q Q Q 状态以及奖赏值,不断地优化奖赏值来得到最优 的 函数。基于事件驱动的 学习不同于经典 的 学习算法,智能体首先判断事件条件是否触 发,来决定是否基于当前的状态值,更新动作与 环境进行交互。多智能体从各自的初始位置点出 发,当每个智能体都抵达期望位置点时,称为一 轮 Episode 学习终止。则对于事件驱动的强化学 习多智能体编队算法可描述为 1) 初始化 Q 矩阵; 2) 初始化多智能体的当前状态 s0; i ε− at,i 3) 智能体 以行为策略 ( 贪心策略) 选择 动作 ; i s ′ t rt,i 4) 智能体 与环境交互,获取下一个状态 和即时的奖赏值 ; i st,i at,i Qt,i(st,i 5) 智能体 更新当前状态 和 的 ,at,i) 值: ∆Qt,i(st,i ,at,i) = rt,i +γmaxQt,i(s ′ t,i ,at,i)− Qt,i(st,i ,at,i) Qt,i(st,i ,at,i) ← Qt,i(st,i ,at,i)+α∆Qt,i(st,i ,at,i) 式中, 0 < α < 1 为学习率, 0 < γ < 1 为折扣因子; 6) 如果每个智能体都抵达各自期望位置,则 终止一轮 Episode; 7) 判断是否满足事件触发条件,如果满足返 回步骤 3),不满足返回步骤 4)。 2.3 资源消耗对比 Q Q(s,a) Q(s,a) s ∈ S a ∈ Ai(s) S × A Q(s,a) N M n 2 Q(s,a) MN ×n 2N ρ MN ×n 2N ×ρ Q(s,a) Mρ ρ λ M(ρ−λ) MN ×n 2N ×(ρ−λ) 学习中计算资源消耗,主要体现在遍历所 有的策略来寻求最优解。每次学习过程中,智能 体都要基于当前的状态遍历 值表,查找一 个最优的策略。 值表的实现采用 Lookup 表格,其中 和 ,表的大小为 的 乘积的元素个数。下面举例说明 表大小, 假设存在 个智能体,每个智能体有 个动作, 环境中共存在 状态,那么 值表的大小为 ,在 步中,智能体共需遍历 次 值表,做 次动作决策,这需要占用极 大的通信和计算资源。假设智能体在在 步中, 有 次不被驱动,则通信次数减少为 次, 遍历次数减少为 次。虽然基于事 K2 件驱动的强化学习压缩了整个学习的解空间,但在 计算和通信资源限制下,基于事件驱动的强化学 习通过减少智能体的动作决策,能在短时间内找 到一个动作总量为 的可行的编队策略,通过不 断更新迭代,最终寻求到最小化群体的动作总量。 3 数值仿真分析 Q Q 20×20 Ai(s) ri 为了定量比较经典 学习和事件驱动 学 习动作决策频率的大小,假设智能体随机初始化 在大小为 的格子世界中,如图 4 所示,存 在 3 个智能体,每个智能体动作集合为 ,可 观测到格子的可能为“障碍物”“目标点”“普通格 子”,奖赏 可写成式 (3): ri = ω+0.1β+χ+ξ (3) i ω i β i L χ i j ζ 式中,当智能体 未抵达目标点时 为−1,否则 为 0;智能体 抵达期望点时 为−1,否则为 0;当 智能体 移动到边界或者撞上 型的障碍物时, 智能体保持不动,此时 为−1,否则为 0;当智能 体 与智能 在同一时刻向同一格子移动时,两 个智能体保持不动,此时 为−1,否则为 0。 图 4 多智能体编队 Fig. 4 Formation of multi-agents systems Q Q κ1 Q κ2 Q η 表 1 比较了事件驱动 学习和经典 学习 的动作决策次数,为方便表达做如下定义: 为经 典 学习决策次数, 为事件驱动 学习决策次 数,则减少决策率 可由如式 (4) 计算: 表 1 事件驱动与经典 Q 学习动作决策次数对比 Table 1 A comparison of action times between event-triggered Q and classical Q case 经典 Q 学习 σi = 0.05 σi = 0.02 σi = 0.01 事件驱动 Q 学习 减少决策率 η /% 事件驱动 Q 学习 减少决策率 η /% 事件驱动 Q 学习 减少决策率 η /% 600 000 192 976 67.79 129 628 78.32 100 143 83.31 900 000 372 463 58.61 257 586 71.37 246 968 72.56 1 200 000 591 433 50.71 475 579 60.36 406 864 66.10 1 500 000 828 361 44.77 689 172 54.05 587 553 60.83 ·96· 智 能 系 统 学 报 第 14 卷
第1期 徐鹏,等:事件驱动的强化学习多智能体编队控制 ·97· 刀=5-华 (4) 能体编队问题,侧重于学习过程中动作决策层面 KI 的研究。智能体在与环境交互中,根据观测状态 在同一组σ:=0.05参数下,随着Episode的增加, 值的变化与设计的事件驱动条件比较,决定是否 事件驱动Q学习减少的决策次数从407024次增 执行动作更新。研究结果表明,在相同时间内, 加到671639次,但减少决策率7却从67.79%下 保证系统可允许编队性能的前提下,事件驱动机 降到44.77%,可得减少决策次数的增长率逐渐下 降。因此随着算法的渐近收敛,减少的决策次数 制可以降低智能体的动作决策频率和减少通信和 计算资源消耗。因此,引入事件驱动机制有助于 会趋近于一个饱和值。在同样Episode下,可得 不同σ,值的事件驱动条件都能减少学习过程中 强化学习在实际有限资源环境中的工程应用。未 的动作决策频率。 来的工作会基于现有研究,将事件驱动机制优势 如图5所示,基于事件驱动Q学习和经典Q 与更多种类的强化学习算法相结合,开展相关的 学习经过200轮Episode训练,可得K≈Kz,说明 理论和应用研究。 两种算法都成功完成编队任务,且完成编队任务 参考文献: 的动作次数趋近一致。相比经典Q学习,基于事 件驱动Q学习曲线梯度下降快,说明该算法能较 [1]POLYDOROS A S,NALPANTIDIS L.Survey of model- 快地找到一个成功策略,完成编队任务。随着减 based reinforcement learning:applications on robotics[J]. 少的决策次数趋近稳定,解空间被释放,通过不 Journal of intelligent robotic systems,2017,86(2): 断迭代更新,寻求到最优解。 153-173. [2]TSAURO G.TOURCTZKY D S.LN T K.et al.Advances 2.0x10 in neural information processing systems[J].Biochemical 1.6 一经典Q学习 and biophysical research communications,1997,159(6). 一事件驱动Q学习 [3]梁爽,曹其新,王雯珊,等.基于强化学习的多定位组件 自动选择方法.智能系统学报,2016,11(2):149-154. 0.4 ok LIANG Shuang,CAO Qixin,WANG Wenshan,et al.An 0 50100150200250300 automatic switching method for multiple location compon- 学习幕数 ents based on reinforcement learning[J].CAAI transac- 图5基于事件驱动Q学习与经典Q学习动作次数演变 tions on intelligent systems,2016,11(2):149-154. Fig.5 Variation of the number of actions of event- [4]KIM HE,AHN H S.Convergence of multiagent Q-learn- triggered O and classical O ing:multi action replay process approach[Cl//Proceedings 图6对比了在不同参数下的事件驱动条件编 of 2010 IEEE International Symposium on Intelligent Con- 队动作次数的演变情况。结合表1,在一个Eps- trol.Yokohama,Japan,2010:789-794. ode中,虽然σ,参数变小会降低编队系统的决策 [5]IIMA H.KUROE Y.Swarm reinforcement learning meth- 率,但同时也会增加编队的动作决策次数,在基 ods improving certainty of learning for a multi-robot form- 于事件驱动的学习过程中,当K2(1-)<K事件 ation problem[C]//Proceedings of 2015 IEEE Congress on 驱动函数被视为有效。 Evolutionary Computation.Sendai,Japan,2015: 3026-3033 3.5¥10 二8 [6]MENG Xiangyu,CHEN Tongwen.Optimal sampling and 3.0 2.5 -0=0.05 performance comparison of periodic and event based im- 2.0 pulse control[J].IEEE transactions on automatic control, 1.5 2012,57(12):3252-3259. 1.0 0.5 [7]DIMAROGONAS D V.FRAZZOLI E.JOHANSSON K wAMA4心AA人今 H.Distributed event-triggered control for multi-agent sys- 0102030405060708090100 tems[J].IEEE transactions on automatic control,2012. 学习幕数 57(5):1291-1297. 图6基于事件驱动Q学习不同:下的动作次数变化 [8]XIE Duosi,XU Shengyuan,CHU Yuming,et al.Event- Fig.6 Variation of the number o;of actions of event- triggered O triggered average consensus for multi-agent systems with nonlinear dynamics and switching topology[J].Journal of 4结束语 the franklin institute,2015,352(3):1080-1098. [9]WU Yuanqing,MENG Xiangyu,XIE Lihua,et al.An in- 本文主要研究基于事件驱动的强化学习多智 put-based triggering approach to leader-following prob-
η = κ1−κ2 κ1 (4) σi = 0.05 Q η σi 在同一组 参数下,随着 Episode 的增加, 事件驱动 学习减少的决策次数从 407 024 次增 加到 671 639 次,但减少决策率 却从 67.79% 下 降到 44.77%,可得减少决策次数的增长率逐渐下 降。因此随着算法的渐近收敛,减少的决策次数 会趋近于一个饱和值。在同样 Episode 下,可得 不同 值的事件驱动条件都能减少学习过程中 的动作决策频率。 Q Q K1 ≈ K2 Q Q 如图 5 所示,基于事件驱动 学习和经典 学习经过 200 轮 Episode 训练,可得 ,说明 两种算法都成功完成编队任务,且完成编队任务 的动作次数趋近一致。相比经典 学习,基于事 件驱动 学习曲线梯度下降快,说明该算法能较 快地找到一个成功策略,完成编队任务。随着减 少的决策次数趋近稳定,解空间被释放,通过不 断迭代更新,寻求到最优解。 学习幕数 0 50 100 150 200 250 300 动作次数 ×104 0.4 0.8 1.2 1.6 经典Q学习 事件驱动Q学习 2.0 图 5 基于事件驱动 Q 学习与经典 Q 学习动作次数演变 Q Q Fig. 5 Variation of the number of actions of eventtriggered and classical σi K2(1−η) < K1 图 6 对比了在不同参数下的事件驱动条件编 队动作次数的演变情况。结合表 1,在一个 Episode 中,虽然 参数变小会降低编队系统的决策 率,但同时也会增加编队的动作决策次数,在基 于事件驱动的学习过程中,当 事件 驱动函数被视为有效。 学习幕数 0 10 20 30 40 50 60 70 80 90 100 动作次数 0.5 1.0 1.5 2.0 2.5 3.0 3.5 σ=0.01 σ=0.02 σ=0.05 ×104 图 Q σi 6 基于事件驱动 学习不同 下的动作次数变化 σi Q Fig. 6 Variation of the number of actions of eventtriggered 4 结束语 本文主要研究基于事件驱动的强化学习多智 能体编队问题,侧重于学习过程中动作决策层面 的研究。智能体在与环境交互中,根据观测状态 值的变化与设计的事件驱动条件比较,决定是否 执行动作更新。研究结果表明,在相同时间内, 保证系统可允许编队性能的前提下,事件驱动机 制可以降低智能体的动作决策频率和减少通信和 计算资源消耗。因此,引入事件驱动机制有助于 强化学习在实际有限资源环境中的工程应用。未 来的工作会基于现有研究,将事件驱动机制优势 与更多种类的强化学习算法相结合,开展相关的 理论和应用研究。 参考文献: POLYDOROS A S, NALPANTIDIS L. Survey of modelbased reinforcement learning: applications on robotics[J]. Journal of intelligent & robotic systems, 2017, 86(2): 153–173. [1] TSAURO G, TOURCTZKY D S, LN T K, et al. Advances in neural information processing systems[J]. Biochemical and biophysical research communications, 1997, 159(6). [2] 梁爽, 曹其新, 王雯珊, 等. 基于强化学习的多定位组件 自动选择方法[J]. 智能系统学报, 2016, 11(2): 149–154. LIANG Shuang, CAO Qixin, WANG Wenshan, et al. An automatic switching method for multiple location components based on reinforcement learning[J]. CAAI transactions on intelligent systems, 2016, 11(2): 149–154. [3] KIM H E, AHN H S. Convergence of multiagent Q-learning: multi action replay process approach[C]//Proceedings of 2010 IEEE International Symposium on Intelligent Control. Yokohama, Japan, 2010: 789–794. [4] IIMA H, KUROE Y. Swarm reinforcement learning methods improving certainty of learning for a multi-robot formation problem[C]//Proceedings of 2015 IEEE Congress on Evolutionary Computation. Sendai, Japan, 2015: 3026–3033. [5] MENG Xiangyu, CHEN Tongwen. Optimal sampling and performance comparison of periodic and event based impulse control[J]. IEEE transactions on automatic control, 2012, 57(12): 3252–3259. [6] DIMAROGONAS D V, FRAZZOLI E, JOHANSSON K H. Distributed event-triggered control for multi-agent systems[J]. IEEE transactions on automatic control, 2012, 57(5): 1291–1297. [7] XIE Duosi, XU Shengyuan, CHU Yuming, et al. Eventtriggered average consensus for multi-agent systems with nonlinear dynamics and switching topology[J]. Journal of the franklin institute, 2015, 352(3): 1080–1098. [8] WU Yuanqing, MENG Xiangyu, XIE Lihua, et al. An input-based triggering approach to leader-following prob- [9] 第 1 期 徐鹏,等:事件驱动的强化学习多智能体编队控制 ·97·
·98· 智能系统学报 第14卷 lems[J].Automatica,2017,75:221-228 作者简介: [10]TABUADA P.Event-triggered real-time scheduling of 徐鹏,男,1991年生,硕士研究 stabilizing control tasks[J].IEEE transactions on automat- 生,主要研究方向为多智能体、强化学 ic control,.2007,52(9):1680-1685. 习、深度学习。 [11]WEN Jiayan,WANG Chen,XIE Guangming.Asynchron- ous distributed event-triggered circle formation of multi- agent systems[J].Neurocomputing,2018,295:118-126. [12]MENG Xiangyu,CHEN Tongwen.Event based agree- ment protocols for multi-agent networks[J].Automatica, 谢广明,男,1972年生,教授,博 2013.49(7:2125-2132. 士生导师,主要研究方向为复杂系统 [13]ZHONG Xiangnan,NI Zhen,HE Haibo,et al.Event- 动力学与控制、智能仿生机器人多机 triggered reinforcement learning approach for unknown 器人系统与控制。现主持国家自然基 金重点项目3项,发明专利授权10余 nonlinear continuous-time system[C]//Proceedings of 项。曾荣获教育部自然科学奖一等 2014 International Joint Conference on Neural Networks. 奖、国家自然科学奖二等奖。发表学 Beijing,China,2014:3677-3684. 术论文300余篇,其中被SC1收录120 [14]张文旭,马磊,王晓东.基于事件驱动的多智能体强化 余篇、EI收录120余篇。 学习研究J.智能系统学报,2017,12(1):82-87 ZHANG Wenxu,MA Lei,WANG Xiaodong.Reinforce- 文家燕,男,1981年生,副教授, 博士,主要研究方向为事件驱动控制 ment learning for event-triggered multi-agent systems[J]. 多智能体编队控制。发表学术论文 CAAI transactions on intelligent systems,2017,12(1): 10余篇。 82-87. [15]KROSE B J A.Learning from delayed rewards[J].Robot- ics and autonomous systems,1995,15(4):233-235
lems[J]. Automatica, 2017, 75: 221–228. TABUADA P. Event-triggered real-time scheduling of stabilizing control tasks[J]. IEEE transactions on automatic control, 2007, 52(9): 1680–1685. [10] WEN Jiayan, WANG Chen, XIE Guangming. Asynchronous distributed event-triggered circle formation of multiagent systems[J]. Neurocomputing, 2018, 295: 118–126. [11] MENG Xiangyu, CHEN Tongwen. Event based agreement protocols for multi-agent networks[J]. Automatica, 2013, 49(7): 2125–2132. [12] ZHONG Xiangnan, NI Zhen, HE Haibo, et al. Eventtriggered reinforcement learning approach for unknown nonlinear continuous-time system[C]//Proceedings of 2014 International Joint Conference on Neural Networks. Beijing, China, 2014: 3677–3684. [13] 张文旭, 马磊, 王晓东. 基于事件驱动的多智能体强化 学习研究[J]. 智能系统学报, 2017, 12(1): 82–87. ZHANG Wenxu, MA Lei, WANG Xiaodong. Reinforcement learning for event-triggered multi-agent systems[J]. CAAI transactions on intelligent systems, 2017, 12(1): 82–87. [14] KRÖSE B J A. Learning from delayed rewards[J]. Robotics and autonomous systems, 1995, 15(4): 233–235. [15] 作者简介: 徐鹏,男,1991 年生,硕士研究 生,主要研究方向为多智能体、强化学 习、深度学习。 谢广明,男,1972 年生,教授,博 士生导师,主要研究方向为复杂系统 动力学与控制、智能仿生机器人多机 器人系统与控制。现主持国家自然基 金重点项目 3 项,发明专利授权 10 余 项。曾荣获教育部自然科学奖一等 奖、国家自然科学奖二等奖。发表学 术论文 300 余篇,其中被 SCI 收录 120 余篇、EI 收录 120 余篇。 文家燕,男,1981 年生,副教授, 博士,主要研究方向为事件驱动控制、 多智能体编队控制。发表学术论文 10 余篇。 ·98· 智 能 系 统 学 报 第 14 卷