第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0:10.11992tis.201909027 多智能体分层强化学习综述 殷昌盛,杨若鹏,朱巍,邹小飞,李峰 (国防科技大学信息通信学院,湖北武汉430010) 摘要:作为机器学习和人工智能领域的一个重要分支,多智能体分层强化学习以一种通用的形式将多智能体 的协作能力与强化学习的决策能力相结合,并通过将复杂的强化学习问题分解成若干个子问题并分别解决,可 以有效解决空间维数灾难问题。这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的 一种潜在途径。首先对多智能体分层强化学习中涉及的主要技术进行阐述,包括强化学习、半马尔可夫决策过 程和多智能体强化学习:然后基于分层的角度,对基于选项、基于分层抽象机、基于值函数分解和基于端到端 等4种多智能体分层强化学习方法的算法原理和研究现状进行了综述:最后介绍了多智能体分层强化学习在 机器人控制、博弈决策以及任务规划等领域的应用现状。 关键词:人工智能;机器学习;强化学习;多智能体;综述;深度学习;分层强化学习:应用现状 中图分类号:TP18 文献标志码:A文章编号:1673-4785(2020)04-0646-10 中文引用格式:殷昌盛,杨若鹏,朱巍,等.多智能体分层强化学习综述.智能系统学报,2020,15(4):646-655. 英文引用格式:YIN Changsheng,.YANG Ruopeng,.ZHU Wei,,etal.A survey on multi-agent hierarchical reinforcement learning J].. CAAI transactions on intelligent systems,2020,15(4):646-655. A survey on multi-agent hierarchical reinforcement learning YIN Changsheng,YANG Ruopeng,ZHU Wei,ZOU Xiaofei,LI Feng (School of Information and Communication,National University of Defense Technology,Wuhan 430010,China) Abstract:As an important research area in the field of machine learning and artificial intelligence,multi-agent hierarch- ical reinforcement learning(MAHRL)integrates the advantages of the collaboration of multi-agent system (MAS)and the decision making of reinforcement learning(RL)in a general-purpose form,and decomposes the RL problem into sub-problems and solves each of them to overcome the so-called curse of dimensionality.So MAHRL offers a potential way to solve large-scale and complex decision problem.In this paper,we systematically describe three key technologies of MAHRL:reinforcement learning(RL),Semi Markov Decision Process(SMDP),multi-agent reinforcement learning (MARL).We then systematically describe four main categories of the MAHRL method from the angle of hierarchical learning,which includes Option,HAM,MAXQ and End-to-End.Finally,we end up with summarizing the application status of MAHRL in robot control,game decision making and mission planning. Keywords:artificial intelligence;machine learning:reinforcement learning;multi-agent;summary;reinforcement learn- ing;hierarchical reinforcement learning;application status 近年来,以深度学习(deep learning,DL)为核问题上取得了众多超越人类水平的成果,使得 心的智能技术取得了长足的进步山,特别是以深 面向自主认知的智能决策有望得到进一步发展, 度强化学习(deep reinforcement learning,.DRL)为并取得关键性突破。强化学习(reinforcement 代表的智能方法在解决雅达利游戏、棋类博弈对 learning,.RL)作为解决序贯决策问题的重要方法 抗、即时策略游戏(real-time strategy,RTS)等决策 其通过与环境的交互试错来学习策略,恰好契合 了人类的经验学习和决策思维方式,可以有效解 收稿日期:2019-09-10. 基金项目:国家社会科学基金项目(2019SKJC-083), 决样本数据获取难等问题。而单Agent系统无法 通信作者:殷吕盛.E-mail:yincsl989@163.com. 实现多个决策者之间的相互协作或竞争关系,往
DOI: 10.11992/tis.201909027 多智能体分层强化学习综述 殷昌盛,杨若鹏,朱巍,邹小飞,李峰 (国防科技大学 信息通信学院,湖北 武汉 430010) 摘 要:作为机器学习和人工智能领域的一个重要分支,多智能体分层强化学习以一种通用的形式将多智能体 的协作能力与强化学习的决策能力相结合,并通过将复杂的强化学习问题分解成若干个子问题并分别解决,可 以有效解决空间维数灾难问题。这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的 一种潜在途径。首先对多智能体分层强化学习中涉及的主要技术进行阐述,包括强化学习、半马尔可夫决策过 程和多智能体强化学习;然后基于分层的角度,对基于选项、基于分层抽象机、基于值函数分解和基于端到端 等 4 种多智能体分层强化学习方法的算法原理和研究现状进行了综述;最后介绍了多智能体分层强化学习在 机器人控制、博弈决策以及任务规划等领域的应用现状。 关键词:人工智能;机器学习;强化学习;多智能体;综述;深度学习;分层强化学习;应用现状 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2020)04−0646−10 中文引用格式:殷昌盛, 杨若鹏, 朱巍, 等. 多智能体分层强化学习综述 [J]. 智能系统学报, 2020, 15(4): 646–655. 英文引用格式:YIN Changsheng, YANG Ruopeng, ZHU Wei, et al. A survey on multi-agent hierarchical reinforcement learning[J]. CAAI transactions on intelligent systems, 2020, 15(4): 646–655. A survey on multi-agent hierarchical reinforcement learning YIN Changsheng,YANG Ruopeng,ZHU Wei,ZOU Xiaofei,LI Feng (School of Information and Communication, National University of Defense Technology, Wuhan 430010, China) Abstract: As an important research area in the field of machine learning and artificial intelligence, multi-agent hierarchical reinforcement learning (MAHRL) integrates the advantages of the collaboration of multi-agent system (MAS) and the decision making of reinforcement learning (RL) in a general-purpose form, and decomposes the RL problem into sub-problems and solves each of them to overcome the so-called curse of dimensionality. So MAHRL offers a potential way to solve large-scale and complex decision problem. In this paper, we systematically describe three key technologies of MAHRL: reinforcement learning (RL), Semi Markov Decision Process (SMDP), multi-agent reinforcement learning (MARL). We then systematically describe four main categories of the MAHRL method from the angle of hierarchical learning, which includes Option, HAM, MAXQ and End-to-End. Finally, we end up with summarizing the application status of MAHRL in robot control, game decision making and mission planning. Keywords: artificial intelligence; machine learning; reinforcement learning; multi-agent; summary; reinforcement learning; hierarchical reinforcement learning; application status 近年来,以深度学习 (deep learning,DL) 为核 心的智能技术取得了长足的进步[1] ,特别是以深 度强化学习 (deep reinforcement learning,DRL) 为 代表的智能方法在解决雅达利游戏、棋类博弈对 抗、即时策略游戏 (real-time strategy, RTS) 等决策 问题上取得了众多超越人类水平的成果[2-6] ,使得 面向自主认知的智能决策有望得到进一步发展, 并取得关键性突破。强化学习 (reinforcement learning,RL) 作为解决序贯决策问题的重要方法[5] , 其通过与环境的交互试错来学习策略,恰好契合 了人类的经验学习和决策思维方式,可以有效解 决样本数据获取难等问题。而单 Agent 系统无法 实现多个决策者之间的相互协作或竞争关系,往 收稿日期:2019−09−10. 基金项目:国家社会科学基金项目 (2019-SKJJ-C-083). 通信作者:殷昌盛. E-mail:yincs1989@163.com. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
第4期 殷昌盛,等:多智能体分层强化学习综述 ·647· 往需要多智能体通过协作来求解。多智能体系 馈信号,分别用正负反馈表示这个动作对学习目 统(multi-.agent system,MAS)是当前分布式AI领 标是否有益。Agent则通过不断地试错和反馈 域的研究热点,其主要是通过研究Agent之间的 来不断优化动作选择策略,最终学习到一个有目 协同和交互问题,用以解决复杂实时动态多智能 标导向的策略。 体环境下的任务调度、资源分配、行为协调以及 根据环境模型是否已知,强化学习可分为有 冲突消解等协同问题,但是多智能体会导致动作 模型强化学习和无模型强化学习。若已知环境 空间和状态空间呈指数级增长,带来维度灾难问 状态在智能体动作影响之下的转移规律和反馈, 题m。分层强化学习(hierarchical reinforcement 即状态转移概率函数和奖赏函数已知,则称为有 learning,HRL)采用问题分解并分而治之的思想, 模型强化学习,否则便是无模型强化学习。 是解决大规模强化学习的潜在有效途径1。因 有模型强化学习主要基于动态规划的思想 此,研究基于三者相结合的多智能体分层强化学 采用Bellman方程和Bellman最优方程进行策略 (multi-agent hierarchical reinforcement learning, 迭代和值迭代。无模型强化学习则是基于采样的 MAHRL)使解决未知大规模复杂环境下的智能决 方式与环境进行交互学习,当前主要研究的方法 策问题成为可能。 可以分为3类:基于值函数的强化学习方法、基 作为解决复杂空间下协同决策的重要途径,目 于策略搜索的强化学习方法和基于环境建模的强 前MAHRL技术已经在机器人控制、博弈决策、任 化学习方法。 务规划等领域中得到了大量的研究。本文对MAHRL )基于值函数的强化学习。其核心思想是采 的研究现状和相关应用进行了阐述和探讨。 用函数近似的方法将强化学习模型中的状态值函 1预备知识 数、状态动作值函数或策略函数用一个显性的函 数来表示,常用的近似函数有线性函数近似、决 1.1强化学习 策树近似、核函数近似和神经网络等。其中深度 关于机器学习的研究可以分为3个方向,即有 神经网络是近年来在强化学习值函数近似方面应 监督学习、无监督学习和强化学习。其中强化学 用最为广泛和成功的函数。其中,最为典型的应 习的核心思想是通过Agent与环境的不断交互,以 用开始于20l3年DeepMind团队在NIPS上提出 最大化累计回报为目标来选择合理的行动,这与 的DQN(deep Q-networks)算法,其基于值函数的 人类智能中经验知识获取和决策过程不谋而 泛化逼近方法,有效解决了强化学习的“维数灾难 合io。特别是近年来深度强化学习在以AlphaGo、 问题”,但在Q函数逼近过程中存在不稳定的现 AlphaZero、AlphaStar等为代表的机器智能领域的 象。为解决部分可观察的马尔可夫决策问题, 突破山,进一步展现了强化学习在解决复杂决策 Hausknecht等)提出了基于循环神经网络与强化 问题的能力,成为人工智能研究领域的热点。 学习相结合的DRQN算法,在实验环境中取得了 如图1所示,强化学习的架构主要包括 远优于DQN算法的效果。典型的值函数近似方 Agent和环境两部分,Agent首先对环境状态进行 法还有DDQN、Sarsa、Q-learning61等时序差 感知,然后决定选择采取的动作。 分的强化学习算法,它们虽然在某些实际问题中 状态 取得了不错的效果,但其难以求解动作空间比较 Agent 大和随机性策略问题,以及无法对连续动作空间 问题进行建模等。 态 作 动作 2)基于策略搜索的强化学习。其核心思想是 环 择 器 境 将策略参数化,通过不断修正策略的参数求解最 优策略。Silver等II结合Actor-Critie框架和Q- learning算法提出了确定性策略梯度算法(determ- 学习器 inistic policy gradient algorithms,.DPG),其将策略定 奖赏 状态” 义为一个确定性的策略函数,这样在训练模型 图1强化学习的框架结构 时,就不需要考虑动作空间的大小或是否连续, Fig.1 Framework structure of reinforcement learning 能够提升连续动作空间问题求解中对于梯度的估 Agent的动作会对环境产生影响,其环境状态 计效率和准确性。针对经验回放的深度强化学习 也会发生变化,此时Agent会收到来自环境的反 方法存在对内存和计算能力要求较高的问题
往需要多智能体通过协作来求解。多智能体系 统 (multi-agent system, MAS) 是当前分布式 AI 领 域的研究热点,其主要是通过研究 Agent 之间的 协同和交互问题,用以解决复杂实时动态多智能 体环境下的任务调度、资源分配、行为协调以及 冲突消解等协同问题,但是多智能体会导致动作 空间和状态空间呈指数级增长,带来维度灾难问 题 [7]。分层强化学习 (hierarchical reinforcement learning,HRL) 采用问题分解并分而治之的思想, 是解决大规模强化学习的潜在有效途径[8]。因 此,研究基于三者相结合的多智能体分层强化学 习 (multi-agent hierarchical reinforcement learning, MAHRL) 使解决未知大规模复杂环境下的智能决 策问题成为可能。 作为解决复杂空间下协同决策的重要途径,目 前 MAHRL 技术已经在机器人控制、博弈决策、任 务规划等领域中得到了大量的研究。本文对 MAHRL 的研究现状和相关应用进行了阐述和探讨。 1 预备知识 1.1 强化学习 关于机器学习的研究可以分为 3 个方向,即有 监督学习、无监督学习和强化学习[9]。其中强化学 习的核心思想是通过 Agent 与环境的不断交互,以 最大化累计回报为目标来选择合理的行动,这与 人类智能中经验知识获取和决策过程不谋而 合 [10]。特别是近年来深度强化学习在以 AlphaGo、 AlphaZero、AlphaStar 等为代表的机器智能领域的 突破[11] ,进一步展现了强化学习在解决复杂决策 问题的能力,成为人工智能研究领域的热点。 如 图 1 所示,强化学习的架构主要包 括 Agent 和环境两部分,Agent 首先对环境状态进行 感知,然后决定选择采取的动作。 状 态 感 知 器 动 作 选 择 器 学习器 环 境 Agent 动作 状态 奖赏 状态’ 图 1 强化学习的框架结构 Fig. 1 Framework structure of reinforcement learning Agent 的动作会对环境产生影响,其环境状态 也会发生变化,此时 Agent 会收到来自环境的反 馈信号,分别用正负反馈表示这个动作对学习目 标是否有益[12]。Agent 则通过不断地试错和反馈 来不断优化动作选择策略,最终学习到一个有目 标导向的策略。 根据环境模型是否已知,强化学习可分为有 模型强化学习和无模型强化学习[5]。若已知环境 状态在智能体动作影响之下的转移规律和反馈, 即状态转移概率函数和奖赏函数已知,则称为有 模型强化学习,否则便是无模型强化学习。 有模型强化学习主要基于动态规划的思想, 采用 Bellman 方程和 Bellman 最优方程进行策略 迭代和值迭代。无模型强化学习则是基于采样的 方式与环境进行交互学习,当前主要研究的方法 可以分为 3 类:基于值函数的强化学习方法、基 于策略搜索的强化学习方法和基于环境建模的强 化学习方法。 1) 基于值函数的强化学习。其核心思想是采 用函数近似的方法将强化学习模型中的状态值函 数、状态动作值函数或策略函数用一个显性的函 数来表示,常用的近似函数有线性函数近似、决 策树近似、核函数近似和神经网络等。其中深度 神经网络是近年来在强化学习值函数近似方面应 用最为广泛和成功的函数。其中,最为典型的应 用开始于 2013 年 DeepMind 团队在 NIPS 上提出 的 DQN(deep Q-networks) 算法[6] ,其基于值函数的 泛化逼近方法,有效解决了强化学习的“维数灾难 问题”,但在 Q 函数逼近过程中存在不稳定的现 象。为解决部分可观察的马尔可夫决策问题, Hausknecht 等 [13] 提出了基于循环神经网络与强化 学习相结合的 DRQN 算法,在实验环境中取得了 远优于 DQN 算法的效果。典型的值函数近似方 法还有 DDQN[14] 、Sarsa[15] 、Q-learning[16] 等时序差 分的强化学习算法,它们虽然在某些实际问题中 取得了不错的效果,但其难以求解动作空间比较 大和随机性策略问题,以及无法对连续动作空间 问题进行建模等。 2) 基于策略搜索的强化学习。其核心思想是 将策略参数化,通过不断修正策略的参数求解最 优策略。Silver 等 [17] 结合 Actor-Critic 框架和 Qlearning 算法提出了确定性策略梯度算法 (deterministic policy gradient algorithms, DPG),其将策略定 义为一个确定性的策略函数,这样在训练模型 时,就不需要考虑动作空间的大小或是否连续, 能够提升连续动作空间问题求解中对于梯度的估 计效率和准确性。针对经验回放的深度强化学习 方法存在对内存和计算能力要求较高的问题, 第 4 期 殷昌盛,等:多智能体分层强化学习综述 ·647·
·648· 智能系统学报 第15卷 Mnih等1提出了异步梯度下降的深度Actor-Crit- 费的时间步长为固定的单位时间,而在SMDP中 c框架,用于并行执行多个智能体用于神经网络 为变量。设N表示时间步长,则标准MDP的概 控制器的优化,并与单步Q-learning、Sarsa、多步 率转移函数和期望报酬可以被扩展为P(s,Ns,a) Q-learning和Actor-Critic等强化学习算法结合 和R(s,Ns,a)。根据Bellman方程,可以得到确定 实现了对深度神经网络的训练,并取得了更好 策略π下的值函数为Agent执行动作a的立即报 的效果。除此之外还有可信赖域策略搜索算法 酬与转移到后续状态s的折扣累积期望之和,如 TRPO19、价值梯度SVG2o、引导策略搜索算法 式(1)所示: GPs2、近端策略优化算法PPO2四和广义优势估 Vm(s)=R(s,π(s)+ 计算法GAE2]随机等几种典型的基于策略梯度 ∑P,Ms,ry(约 (1) 的方法。 式中:R(s,π(s)》是Agent在状态s下执行动作 3)基于环境建模的强化学习。其核心思想是 π(5)后的期望报酬,不难看出,其整体期望报酬与 通过建立环境模型来产生模拟经验样本。对于某 s、N均相关。 些智能体与环境的交互成本较高的情况,而基于 1.3多智能体强化学习 环境建模的强化学习通过建立环境模型来模拟经 面对大规模复杂背景下决策问题时,单Agent 验样本,可以减少采样次数,或者无需在真实环 系统无法实现多个决策者之间存在相互协作或竞 境中进行采样。Sutton2提出的Dyna框架是一 争的关系。因此,在DRL模型基础上扩展为多 种典型的基于环境建模的强化学习。其基本思想 个Agent之间相互合作、通信及竞争的多Agent 是利用与真实环境产生的经验样本来进行环境模 系统,即多智能体强化学习(multi-agent reinforce- 型的学习,而值函数或者策略函数的学习与更新 ment learning,MARL)。多智能体强化学习示意如 则基于真实样本和环境模型产生的虚拟样本。虽 图3。 然Dyna框架能基于真实样本来进行环境模型学 环境 习,并取得了不错的效果,但其环境模型的建立 联合状态S 联合动作 和真实经验样本和虚拟样本的权衡仍然是制约该 动作a1 Agent 1 {a1,a2,,an} 方法发展的关键难点。 联合奖励 F2. Agent 2 动作a 1.2半马尔可夫决策过程 分层强化学习采用策略分层并分而治之的思 Agent n 动作a。 想,可以有效解决维度灾难问题。策略分层的本 质是基于不同的时间抽象尺度扩展动作集,即基 图3多智能体强化学习示意图 本动作和宏动作,而Aget通过在不同程度的时 Fig.3 Multi-agent reinforcement learning diagram 间抽象尺度上进行学习,进而实现分层控制。而 目前关于MARL的研究可以包括2个方面。 在马尔可夫决策过程(Markov decision process,. 1)多智能体系统研究。当前多智能体系统研 MDP)中,每个动作都是假设在单个时间步完成, 究主要从体系结构、Agent信息交互方式和 并没有考虑决策的时间间隔,所以基于MDP的 Agent冲突消解机制3个方面展开。①体系结构 强化学习无法解决需要多个时间步完成的动作阿, 研究:主要围绕集中式和分散式2种展开研究。 此时就需要引入半马尔可夫决策过程(semi Markov 其中分散式又可以区分为层面式(distributed)与 decision process,.SMDP)模型,如图2所示。 分层式(hierarchical)m。除了基本的分层方式,多 智能体体系结构研究还包括智能体协同和任务分 配机制等。②智能体之间信息交互方式研究:目 前主要有Agent直接通信、信道广播方式、信息黑 板模式等方法。③智能体间冲突消解研究:多智 态 能体系统中冲突矛盾主要包括空间冲突、信息冲 突和任务冲突等。当前消解矛盾方法主要包括集 中控制模块法和主从控制法2种。集中控制模块 图2MDP与SMDP 法通过构建模块来集中规划所有Agent的行动策 Fig.2 MDP SMDP 略,但是会带来通信阻塞问题。主从控制法是指 图2中离散的SMDP其实是MDP的一般化 通过一个中心智能体来统一进行任务分配和行为 过程,即MDP中在状态s下执行一个动作需要花 规划来解决智能体之间的矛盾问题,但由于实时
Mnih 等 [18] 提出了异步梯度下降的深度 Actor-Critic 框架,用于并行执行多个智能体用于神经网络 控制器的优化,并与单步 Q-learning、Sarsa、多步 Q-learning 和 Actor-Critic 等强化学习算法结合 实现了对深度神经网络的训练,并取得了更好 的效果。除此之外还有可信赖域策略搜索算法 TRPO[19] 、价值梯度 SVG[20] 、引导策略搜索算法 GPS[21] 、近端策略优化算法 PPO[22] 和广义优势估 计算法 GAE[23] 随机等几种典型的基于策略梯度 的方法。 3) 基于环境建模的强化学习。其核心思想是 通过建立环境模型来产生模拟经验样本。对于某 些智能体与环境的交互成本较高的情况,而基于 环境建模的强化学习通过建立环境模型来模拟经 验样本,可以减少采样次数,或者无需在真实环 境中进行采样。Sutton[24] 提出的 Dyna 框架是一 种典型的基于环境建模的强化学习。其基本思想 是利用与真实环境产生的经验样本来进行环境模 型的学习,而值函数或者策略函数的学习与更新 则基于真实样本和环境模型产生的虚拟样本。虽 然 Dyna 框架能基于真实样本来进行环境模型学 习,并取得了不错的效果,但其环境模型的建立 和真实经验样本和虚拟样本的权衡仍然是制约该 方法发展的关键难点。 1.2 半马尔可夫决策过程 分层强化学习采用策略分层并分而治之的思 想,可以有效解决维度灾难问题。策略分层的本 质是基于不同的时间抽象尺度扩展动作集,即基 本动作和宏动作,而 Agent 通过在不同程度的时 间抽象尺度上进行学习,进而实现分层控制。而 在马尔可夫决策过程 (Markov decision process, MDP) 中,每个动作都是假设在单个时间步完成, 并没有考虑决策的时间间隔,所以基于 MDP 的 强化学习无法解决需要多个时间步完成的动作[25] , 此时就需要引入半马尔可夫决策过程 (semi Markov decision process, SMDP) 模型,如图 2 所示。 时间 MDP SMDP 状 态 图 2 MDP 与 SMDP Fig. 2 MDP & SMDP s 图 2 中离散的 SMDP 其实是 MDP 的一般化 过程,即 MDP 中在状态 下执行一个动作需要花 P(s ′ ,N|s,a) R(s ′ ,N|s,a) π a s ′ 费的时间步长为固定的单位时间,而在 SMDP 中 为变量[26]。设 N 表示时间步长,则标准 MDP 的概 率转移函数和期望报酬可以被扩展为 和 。根据 Bellman 方程,可以得到确定 策略 下的值函数为 Agent 执行动作 的立即报 酬与转移到后续状态 的折扣累积期望之和,如 式 (1) 所示: V π (s) = R¯ ∑ (s, π(s))+ s ′ ,N P(s ′ ,N|s, π(s))γ NV π (s ′ ) (1) R¯ (s, π(s)) s π(s) s ′、N 式中: 是 Agent 在状态 下执行动作 后的期望报酬,不难看出,其整体期望报酬与 均相关。 1.3 多智能体强化学习 面对大规模复杂背景下决策问题时,单 Agent 系统无法实现多个决策者之间存在相互协作或竞 争的关系。因此,在 DRL 模型基础上扩展为多 个 Agent 之间相互合作、通信及竞争的多 Agent 系统,即多智能体强化学习 (multi-agent reinforcement learning, MARL)。多智能体强化学习示意如 图 3。 环境 Agent 1 Agent 2 Agent n 联合奖励 {r1 , r2 , ..., rn} 联合动作 {a1 , a2 , ..., an} 联合状态 St St r1 St r2 St rn 动作 a1 动作 a2 ... 动作 an 图 3 多智能体强化学习示意图 Fig. 3 Multi-agent reinforcement learning diagram 目前关于 MARL 的研究可以包括 2 个方面。 1) 多智能体系统研究。当前多智能体系统研 究主要从体系结构、 Agen t 信息交互方式 和 Agent 冲突消解机制 3 个方面展开。①体系结构 研究:主要围绕集中式和分散式 2 种展开研究。 其中分散式又可以区分为层面式 (distributed) 与 分层式 (hierarchical) [7]。除了基本的分层方式,多 智能体体系结构研究还包括智能体协同和任务分 配机制等。②智能体之间信息交互方式研究:目 前主要有 Agent 直接通信、信道广播方式、信息黑 板模式等方法。③智能体间冲突消解研究:多智 能体系统中冲突矛盾主要包括空间冲突、信息冲 突和任务冲突等。当前消解矛盾方法主要包括集 中控制模块法和主从控制法 2 种。集中控制模块 法通过构建模块来集中规划所有 Agent 的行动策 略,但是会带来通信阻塞问题。主从控制法是指 通过一个中心智能体来统一进行任务分配和行为 规划来解决智能体之间的矛盾问题,但由于实时 ·648· 智 能 系 统 学 报 第 15 卷
第4期 殷昌盛,等:多智能体分层强化学习综述 ·649· 性和灾难空间等问题,其适应性和鲁棒性有待提升。 tion间的调用形成分层控制结构。其中Option根 2)多智能体强化学习策略研究。目前MARL 据先验知识提前确定或者通过学习获得。根据是 的学习策略主要可以分为3类:基于共享、基于 基于马尔可夫或者是半马尔可夫,Option方法又 对策和基于最佳响应的多智能体强化学习。①基 可以分为两类:基于马尔可夫决策过程的Markov- 于共享的MARL:其主要思想是研究动作选择前 Option和基于半马尔可夫决策过程的Semi-Markov- Agent之间的相互交互、信息共享以及值函数更 Option 新方法,基于分布式强化学习提高学习速度,典 Markov--Option三元组分别代表Op 型算法有状态共享、经验共享、策略共享和建议 tion的入口状态集、内部策略和终止条件。Op 共享等。②基于对策的MARL:其主要思想是以 tion开始执行的前提条件是当前状态属于入口状 对策论为基础,综合考虑所有Agent的值函数,寻 态集,即s二P,其中入口状态集P二S。内部策略 求某种对策下的平衡来选择动作,代表算法有 π一般表示为π:p×A→0,1】,其中A为在入口 Minimax-Q、Nash-Q、WoLF、CE-Q等。③基于最 状态集P上能够执行的基本动作集。终止条件B 佳响应的MARL:其主要思想是在其他Agent无 为基于状态了终止的概率集合B(),一般表示为 论采取何种策略情况下寻求最优策略,算法主要 B:S→[0,1]。因此B(sc)=1一般作为Option任务 依赖于收敛准则和无憾准则,典型算法有PHC、 的子目标状态点sc的终止条件,同时A。可以视 IGA、GIGA、GIGA-WoLF等。 为Markov--Option的一种特例。 Semi-Markov-Option三元组含义类 2多智能体分层强化学习方法 似。同样其Option开始执行的前提条件ssp,其 基于强化学习的智能决策面临的瓶颈之一是 中入口状态集psS,且其只能包含该Option可能 奖赏延时,如果以最终目标为导向来优化策略, 探索到的所有状态。内部策略为μ:9×O。→ 其带来的维数灾难问题会使算法效率非常低27。 [0,1],其中O。为在入口状态集9上能够执行的基 本动作集。终止条件B为基于状态s终止的概 同时由于单Agent系统无法实现多个决策者之间 率集合B(s),而B(sc)=1通常也是Option任务的 存在相互协作或竞争关系,这就需要引入多智能 子目标状态点sc的终止条件。 体,然而多智能体的参与又会带来维度灾难等问 题。HRL基于任务分层来学习每个子任务的策 针对Option强化学习问题,Precup等29提出 了一种基于多时间步模型的单步模型泛化方法。 略,并将多个子任务的策略组合形成有效的全局 策略,可以有效解决维数灾难问题2。 对于任意Option o,设s(o,s,t)表示在1时刻、状态 s下o被启动,则状态s下Option o获得的累计奖 MAHRL是MARL和HRL相结合的结果。 赏R(s,o)和状态转移概率P(sIs,o)可重新定义为 二者结合有两种思路:一是基于分层来解决MARL R(s,0)= 问题,二是采用多智能体解决HRL问题,所以现 E{,+yT41+…+y-lr4-is(o,s,t月 (2) 有MAHRL可根据采用的HRL方法或者MARL 和 方法等不同角度进行分类。由于目前的研究多集 中于前者,本文从分层强化学习的角度对多智能 P(s'ls,0)= (3) = 体分层强化学习方法进行探讨,即基于选项(op 式中:t为Option o持续的总时间步,对于所有状 tion)、基于分层抽象机(hierarchical of abstract ma- 态seS,P(s,t)为Option o从状态s开始经过T chines,HAM、基于值函数分解(MaxQ value func- 个时间步后终止于状态的概率。 tion decomposition)和基于端到端的(end to end)多 此时Q-Learning的值函数迭代公式为 智能体分层强化学习。 Qk+1(s,o)=(1-a4)Q(,o)+ 2.1基于选项的多智能体分层强化学习 ax[r+y'maxeo.Qr(s',o)] (4) 基于选项的多智能体分层强化学习主要是采 Agent的每次学习执行都是以一个Option终 用Option分层强化学习方法来解决多智能体强 止为前提,故造成其利用率不高,为此Precup 化学习问题。Option是一种典型的分层强化学习 基于Markov-Option提出了一种面向单时间步 方法,其最早由Sutton提出,主要思想是基于选 Q-Learning的Option方法,并证明了其收敛性。 项(Option)的学习任务抽象,其中Option本质上 Tang等u则针对StarCraft游戏问题,根据作战规 为在某状态子空间里完成相应子任务的动作序 则不同,作战要素和动作空间组合不同设计101 列。其中Option本身也视作为一种特殊的动作, 种输入特征向量选项,实现了订单生产的强化 并与基本动作共同构成动作集,通过上下层Op- 学习
性和灾难空间等问题,其适应性和鲁棒性有待提升。 2) 多智能体强化学习策略研究。目前 MARL 的学习策略主要可以分为 3 类:基于共享、基于 对策和基于最佳响应的多智能体强化学习。①基 于共享的 MARL:其主要思想是研究动作选择前 Agent 之间的相互交互、信息共享以及值函数更 新方法,基于分布式强化学习提高学习速度,典 型算法有状态共享、经验共享、策略共享和建议 共享等。②基于对策的 MARL:其主要思想是以 对策论为基础,综合考虑所有 Agent 的值函数,寻 求某种对策下的平衡来选择动作,代表算法有 Minimax-Q、Nash-Q、WoLF、CE-Q 等。③基于最 佳响应的 MARL:其主要思想是在其他 Agent 无 论采取何种策略情况下寻求最优策略,算法主要 依赖于收敛准则和无憾准则,典型算法有 PHC、 IGA、GIGA、GIGA-WoLF 等。 2 多智能体分层强化学习方法 基于强化学习的智能决策面临的瓶颈之一是 奖赏延时,如果以最终目标为导向来优化策略, 其带来的维数灾难问题会使算法效率非常低[27]。 同时由于单 Agent 系统无法实现多个决策者之间 存在相互协作或竞争关系,这就需要引入多智能 体,然而多智能体的参与又会带来维度灾难等问 题。HRL 基于任务分层来学习每个子任务的策 略,并将多个子任务的策略组合形成有效的全局 策略,可以有效解决维数灾难问题[28]。 MAHRL 是 MARL 和 HRL 相结合的结果。 二者结合有两种思路:一是基于分层来解决 MARL 问题,二是采用多智能体解决 HRL 问题,所以现 有 MAHRL 可根据采用的 HRL 方法或者 MARL 方法等不同角度进行分类。由于目前的研究多集 中于前者,本文从分层强化学习的角度对多智能 体分层强化学习方法进行探讨,即基于选项 (option)、基于分层抽象机 (hierarchical of abstract machines,HAM)、基于值函数分解 (MaxQ value function decomposition) 和基于端到端的 (end to end) 多 智能体分层强化学习。 2.1 基于选项的多智能体分层强化学习 基于选项的多智能体分层强化学习主要是采 用 Option 分层强化学习方法来解决多智能体强 化学习问题。Option 是一种典型的分层强化学习 方法,其最早由 Sutton 提出[28] ,主要思想是基于选 项 (Option) 的学习任务抽象,其中 Option 本质上 为在某状态子空间里完成相应子任务的动作序 列。其中 Option 本身也视作为一种特殊的动作, 并与基本动作共同构成动作集,通过上下层 Option 间的调用形成分层控制结构。其中 Option 根 据先验知识提前确定或者通过学习获得。根据是 基于马尔可夫或者是半马尔可夫,Option 方法又 可以分为两类:基于马尔可夫决策过程的 MarkovOption 和基于半马尔可夫决策过程的 Semi-MarkovOption。 s ⊆ φ φ ⊆ S π π : φ× Aφ → [0,1] Aφ φ β s ′ β(s ′ ) β : S → [0,1] β(sG) = 1 sG Aφ Markov-Option 三元组分别代表 Option 的入口状态集、内部策略和终止条件。Option 开始执行的前提条件是当前状态属于入口状 态集,即 ,其中入口状态集 。内部策略 一般表示为 ,其中 为在入口 状态集 上能够执行的基本动作集。终止条件 为基于状态 终止的概率集合 ,一般表示为 。因此 一般作为 Option 任务 的子目标状态点 的终止条件,同时 可以视 为 Markov-Option 的一种特例。 s ⊆ φ φ ⊆ S µ : φ×Oφ → [0,1] Oφ φ β s ′ β(s ′ ) β(sG) = 1 sG Semi-Markov-Option 三元组含义类 似。同样其 Option 开始执行的前提条件 ,其 中入口状态集 ,且其只能包含该 Option 可能 探索到的所有状态。内部策略为 ,其中 为在入口状态集 上能够执行的基 本动作集。终止条件 为基于状态 终止的概 率集合 ,而 通常也是 Option 任务的 子目标状态点 的终止条件。 ε(o,s,t) R(s,o) P(s ′ |s,o) 针对 Option 强化学习问题,Precup 等 [29] 提出 了一种基于多时间步模型的单步模型泛化方法。 对于任意 Option o,设 表示在 t 时刻、状态 s 下 o 被启动,则状态 s 下 Option o 获得的累计奖 赏 和状态转移概率 可重新定义为 R(s,o) = E { rt +γrt+1 +···+γ τ−1 rt+τ−1|ε(o,s,t) } (2) 和 P(s ′ |s,o) = ∑∞ τ=1 γ τP(s ′ ,τ) (3) τ s ∈ S P(s ′ ,τ) s τ s ′ 式中: 为 Option o 持续的总时间步,对于所有状 态 , 为 Option o 从状态 开始经过 个时间步后终止于状态 的概率。 此时 Q-Learning 的值函数迭代公式为 Qk+1 (s,o) = (1−αk)Qk (s,o)+ αk [ r +γ τmaxo ′∈Os ′ Qk(s ′ ,o ′ ) ] (4) Agent 的每次学习执行都是以一个 Option 终 止为前提,故造成其利用率不高,为此 Precup[30] 基于 Markov-Option 提出了一种面向单时间步 Q-Learning 的 Option 方法,并证明了其收敛性。 Tang 等 [31] 则针对 StarCraft 游戏问题,根据作战规 则不同,作战要素和动作空间组合不同设计 101 种输入特征向量选项,实现了订单生产的强化 学习。 第 4 期 殷昌盛,等:多智能体分层强化学习综述 ·649·
·650· 智能系统学报 第15卷 综上可知,基于选项的MAHRL本质上是基 的立即奖赏也基于M的立即奖赏来确定。当M 于状态空间,不断寻找子目标的学习过程,其可 的状态不发生变化时,Agent时间步内获得的立 执行时态拓展动作的特点对强化学习摆动期的缩 即奖赏为O,所以立即奖赏也可以理解为Aget时 短和效率提高均有一定的促进作用,但是由于其 间步内的累积奖赏。由此可见,HAM方法是依赖 是基于先验知识确定学习与任务之间的转移,所 于设计者的先验知识,从而为有限马尔可夫决策 以基于选项的分层强化学习在未知环境中的适用 过程M提供一个受约束的策略集。 性还有待提高。 其中reduce(HoM)的最优策略可使用SMDP 2.2基于分层抽象的多智能体分层强化学习 Q-learning方法进行迭代逼近。设Agent在t时刻 基于分层抽象的多智能体分层强化学习主要 进入选择点[se,m,t+T时刻到达选择点[S,m], 采用HAM分层强化学习方法来解决多智能体 则Q-learning算法的迭代更新公式为 强化学习问题。其核心思想是将每个子任务抽象 Q([se,mel,ac)=(1-a)Q ([se:me],ac)+ 为一个基于MDP的随机有限状态机,综合考虑 axr+yT+1+…+y-T+-1+ (5) y'maxQ([se,mel,a)] 当前所在状态和有限状态机的状态来选择不同的 式中Parr等B证明了式(5)以概率1收敛到re 策略。令M=为一个有限MDP,S和 duce(HoM)的最优值函数Q,且与标准Q-learn- A分别为状态集合和动作集合,R:S×A→r为奖 ing算法的收敛条件一致。Kulkarni等B1提出了 赏函数,P:S×A→P(S)为状态转移函数。{H}为 一种分层Q值方法,其通过构造两个层级的算 一个随机有限状态机的集合,其中H,=, 法,顶层用于决策,确定下一步的目标,底层用于 S、6、9,分别为H,的状态集、随机转移函数和用 具体行动决策,在Montezuma's Revenge游戏中 于确定H,初始状态的随机函数。 取得了较好的效果。 对于每个状态机,其均包含4种状态类型,即 综上可知,基于分层抽象的多智能体分层强 动作(action)、调用(call)、选择(choice)以及停止 化学习由于对学习类型进行了限定,在一定程度 (stop)。其中在action状态时,会根据状态机的当 上可以简化MDP和提高学习效率,而且由于其 前状态执行一个MDP中的动作;在cal类型的状 只需要部分状态即可确定有限状态机的转移,因 态时,会暂停当前的状态机H,并启动执行另一 此对于环境部分可观测领域,基于分层抽象的 个状态机H,即把H,的状态设置为,(s),其中j MAHRL同样适用。 的值由第i个状态机在时刻1时的状态确定。而 23基于值函数分解的多智能体分层强化学习 choice状态是在当前状态机下随机选择下个状 基于值函数分解的多智能体分层强化学习主 态,并在学习过程中不断进行策略优化。stop状 要是采用Dietterich提出的MaxQ分层强化学习 态则是停止当前状态机的活动并返回调用它的状 方法来解决多智能体强化学习问题。其主要思想 态机,同时Agent基于选择的动作进行状态转移 是将一个马尔可夫决策过程M分解为子任务集 并得到相应的奖赏。在整个运行过程中M若没 {Mo,M1,…,Mn,相应的策略π也可分解子策略集 有选择动作,则保持状态不变。 合{o,π1,…,π,其中π:即为对应M的策略,而所 执行学习时,首先人为确定有限状态机集合, 有子任务形成以M。为根节点的分层任务结构。 然后Agent从一个随机的初始有限状态机开始, 在此分层任务结构中,解决M。所采取的动作包 按照一定的策略对其他有限状态机进行依次调用 括两种情况,即执行基本动作和执行其他子任 并执行。若SH为随机有限状态机集合H的状态 务,执行子任务又依次执行其所需的动作,解决 集,则SH包含Agent从初始有限状态机开始可到 了根任务M。也就解决了任务M。其中每个子任 达的所有状态机。为确保在MDP中可持续获得 务M,均由三元组组成:π:为子任务策 基本动作,初始状态机中不应含有无action的确 略,用于从M,的子节点中选择子任务(基本动 定性无限环和stop类。 作):T:为终止谓词,用于将M的状态集合S划分 设HoM为基于有限马尔可夫决策过程M和 为M:策略的活动状态集S:和终止状态集F;R 上述随机有限状态机的集合H组合产生的MDP, 为伪奖赏函数,其仅在学习过程中状态集F:的奖 则其状态集可表示为S×SH,H和M的状态转移 赏函数分配时调用。 概率函数共同确定HoM的状态转移概率函数, 与分层Option方法的值函数类似,分层策略 将HoM中的选择点集合记为reduce(HoM),则re- π基于在子任务上的投影值函数即可确定每个状 duce(HoM)与HoM的优化策略相同。其中M的 态的期望回报值V位,s)。对于每个子任务M,其 基本动作仅依赖于H的action状态,reduce(HoM) 均为离散时间SMDP,设状态集为S:,动作集则为
综上可知,基于选项的 MAHRL 本质上是基 于状态空间,不断寻找子目标的学习过程,其可 执行时态拓展动作的特点对强化学习摆动期的缩 短和效率提高均有一定的促进作用,但是由于其 是基于先验知识确定学习与任务之间的转移,所 以基于选项的分层强化学习在未知环境中的适用 性还有待提高。 2.2 基于分层抽象的多智能体分层强化学习 M = R : S × A → r P : S × A → P(S ) {Hi} Hi = S i δi φi Hi Hi 基于分层抽象的多智能体分层强化学习主要 采用 HAM[32] 分层强化学习方法来解决多智能体 强化学习问题。其核心思想是将每个子任务抽象 为一个基于 MDP 的随机有限状态机,综合考虑 当前所在状态和有限状态机的状态来选择不同的 策略。令 为一个有限 MDP,S 和 A 分别为状态集合和动作集合, 为奖 赏函数, 为状态转移函数。 为 一个随机有限状态机的集合,其中 , 、 、 分别为 的状态集、随机转移函数和用 于确定 初始状态的随机函数。 Hi Hj Hj φi(st) j 对于每个状态机,其均包含 4 种状态类型,即 动作 (action)、调用 (cal1)、选择 (choice) 以及停止 (stop)。其中在 action 状态时,会根据状态机的当 前状态执行一个 MDP 中的动作;在 call 类型的状 态时,会暂停当前的状态机 ,并启动执行另一 个状态机 ,即把 的状态设置为 ,其中 的值由第 i 个状态机在时刻 t 时的状态确定。而 choice 状态是在当前状态机下随机选择下个状 态,并在学习过程中不断进行策略优化。stop 状 态则是停止当前状态机的活动并返回调用它的状 态机,同时 Agent 基于选择的动作进行状态转移 并得到相应的奖赏。在整个运行过程中 M 若没 有选择动作,则保持状态不变。 S H H S H 执行学习时,首先人为确定有限状态机集合, 然后 Agent 从一个随机的初始有限状态机开始, 按照一定的策略对其他有限状态机进行依次调用 并执行。若 为随机有限状态机集合 的状态 集,则 包含 Agent 从初始有限状态机开始可到 达的所有状态机。为确保在 MDP 中可持续获得 基本动作,初始状态机中不应含有无 action 的确 定性无限环和 stop 类。 H S ×S H H H 设 HoM 为基于有限马尔可夫决策过程 M 和 上述随机有限状态机的集合 组合产生的 MDP, 则其状态集可表示为 , 和 M 的状态转移 概率函数共同确定 HoM 的状态转移概率函数, 将 HoM 中的选择点集合记为 reduce(HoM),则 reduce(HoM) 与 HoM 的优化策略相同。其中 M 的 基本动作仅依赖于 的 action 状态,reduce(HoM) 的立即奖赏也基于 M 的立即奖赏来确定。当 M 的状态不发生变化时,Agent 时间步内获得的立 即奖赏为 0,所以立即奖赏也可以理解为 Agent 时 间步内的累积奖赏。由此可见,HAM 方法是依赖 于设计者的先验知识,从而为有限马尔可夫决策 过程 M 提供一个受约束的策略集。 [sc ,mc] t+τ [ s ′ c ,m ′ c ] 其中 reduce(HoM) 的最优策略可使用 SMDP Q-learning 方法进行迭代逼近。设 Agent 在 t 时刻 进入选择点 , 时刻到达选择点 , 则 Q-learning 算法的迭代更新公式为 Qk+1 ([sc ,mc],ac) = (1−αk)Qk ([sc ,mc],ac)+ αk[rt +γrt+1 +···+γ τ−1 rt+τ−1+ γ τmaxQk([sc ′ ,mc ′ ],a ′ )] (5) Q ∗ 式中 Parr 等 [32] 证明了式 (5) 以概率 1 收敛到 reduce(HoM) 的最优值函数 ,且与标准 Q-learning 算法的收敛条件一致。Kulkarni 等 [33] 提出了 一种分层 Q 值方法,其通过构造两个层级的算 法,顶层用于决策,确定下一步的目标,底层用于 具体行动决策,在 Montezuma’s Revenge 游戏中 取得了较好的效果。 综上可知,基于分层抽象的多智能体分层强 化学习由于对学习类型进行了限定,在一定程度 上可以简化 MDP 和提高学习效率,而且由于其 只需要部分状态即可确定有限状态机的转移,因 此对于环境部分可观测领域,基于分层抽象的 MAHRL 同样适用。 2.3 基于值函数分解的多智能体分层强化学习 M {M0, M1,··· , Mn} π {π0, π1,··· , πn} πi Mi M0 M0 M0 M Mi πi Mi Ti M S Mi S i Fi Ri Fi 基于值函数分解的多智能体分层强化学习主 要是采用 Dietterich 提出的 MaxQ[34] 分层强化学习 方法来解决多智能体强化学习问题。其主要思想 是将一个马尔可夫决策过程 分解为子任务集 ,相应的策略 也可分解子策略集 合 ,其中 即为对应 的策略,而所 有子任务形成以 为根节点的分层任务结构。 在此分层任务结构中,解决 所采取的动作包 括两种情况,即执行基本动作和执行其他子任 务,执行子任务又依次执行其所需的动作,解决 了根任务 也就解决了任务 。其中每个子任 务 均由三元组 组成: 为子任务策 略,用于从 的子节点中选择子任务 (基本动 作); 为终止谓词,用于将 的状态集合 划分 为 策略的活动状态集 和终止状态集 ; 为伪奖赏函数,其仅在学习过程中状态集 的奖 赏函数分配时调用。 π V π (i,s) Mi S i 与分层 Option 方法的值函数类似,分层策略 基于在子任务上的投影值函数即可确定每个状 态的期望回报值 。对于每个子任务 ,其 均为离散时间 SMDP,设状态集为 ,动作集则为 ·650· 智 能 系 统 学 报 第 15 卷
第4期 殷昌盛,等:多智能体分层强化学习综述 ·651· 每个M:的所有子节点,而转移概率P(s,s,d)代 层抽象学习等。 表对于任意状态s∈S:和M,所有子节点Ma,执行 瓶颈和路标状态法的主要思想是在问题求解 动作a获得的立即奖赏为R(s,a)=V(a,),则每 过程中不断寻找中间点,并将其视为子目标从而 个子任务M:对应的Bellman方程为 实现任务的分解和分层。Menache等提出了一 V*(i,s)=V=(a.s)+ 种基于状态空间分割的瓶颈状态法,其主要基于 ∑P,k.ary6 (6) 计算状态空间割集来寻找状态转移图中的最小流 式中:a=π(s,V(i,s)则是从子任务a结束时的 量边集,并将其视为状态瓶颈(子目标),然后 状态s开始,直到子任务M:完成时的回报值期 Agent学习子策略和策略复用来加速分层学习。 望。其中状态-动作值函数如式(7)所示: 瓶颈和路标状态法使用的前提是该任务具有中间 点或中间阶段,所以其对于任务分段不明显或空 Q(i,s,a=Vm(a,s)+ mx.() (7) 间较大的情况并不适用。 共用子空间法的主要思想是通过寻找策略或 式中右侧第2项称为完成函数: 行动地公共区域实现策略自动分层。Drunnond CG.s=∑.Pd.Hls.dY'maxC(.i.》 等6提出了一种基于值函数梯度的子空间发现 即子任务M。终止后完成子任务M的期望回报 方法,该方法首先基于值函数梯度将相邻状态划 值。因此,状态-动作值函数可以分解成立即奖 分成不同的子空间,然后根据梯度值的高低确定 赏V(a,s)和完成函数C(is,a)两部分,即: 该区域是否存在障碍物,以及根据其是否为局部 O(i,s,a)=V(a,s)+C"(i,s,a) (8) 最大、最小值判断为子空间的出入口点,然后将 设MDP的分层策略π为已知,则执行任务 相关顶点和对应子空间值函数存储起来,最后 M时会向下选择执行子任务M,而执行子任务 Agent基于匹配与比较的形式实现相似情形的快 Ma,时又会继续向下选择执行子任务Ma,不断迭 速学习。共用子空间法使用的前提是该任务的策 代直到最后选择基本动作a.,此时根任务M。中 略或行动空间存在公共区域,同时由于其子空间 状态s的投影值V(O,s)可分解为 的发现与更新是一个不断进行的过程,所以会带 Vm(0,s)=V(an,)+C(an-1,s,an)+…+ 来较大的计算量。 (9) C(a1,s,a2)+C(0,s,a1) 多维状态法的主要思想是基于特征向量和特 式中V(a,)=P(sls,an)R(sls,an),是MaxQ算法 征子集对策略进行划分。H正XQ叨方法是一种基 于因子状态表达的多维状态法,其基于变化快慢 的基础。 将状态变量表示成有序的因子状态表,其中每个 在Dietterich设计的MaxQ-Q学习算法中,若 状态变量为一个包含简单MDP的任务层,MDP 每个子任务M,的子策略都为最优,即可确定 之间则通过瓶颈状态集连通。多维状态法的核心 任务M的递归最优策略为π={πo,π1,…,π}。同 思想是基于特征向量,所以对于特征向量无法表 时,Dietterich也证明了算法在Agent奖赏有界且 示的情况并不适用。 执行有序贪婪策略的情况下能稳定收敛。 马氏空间法的主要思想是采用逐步分解的形 综上可知,与Option、HAM采用单个SMDP 式将状态空间划分成一系列都具有Markov特性 来收敛到最优策略不同,基于MaxQ函数分解的 的子空间。Uther等3提出了一种基于树结构的 多智能体分层强化学习通过建立多个可以同步学 TTree方法,其通过树结构来增加抽象状态的解 习的分层SMDP,利用策略分层结构来缩小每个 析度和层次性,在抽象层中对采用缺省策略或由 Agent的搜索空间,可以有效提高学习效率,同时 用户提供确定策略进行明确,从而通过逐层提高 其微、宏观策略均不需要事先确定,都可以在线 子空间解析度来获取模型的Markov特性。马氏 学习,具有较强的灵活性。但是其同样存在需要 空间法的缺点是对空间分解的解析度要求较高, 提前依靠先验知识进行任务层次划分的问题,对 解析度不合适会导致分层失败。 于环境未知的情况依然具有很大的挑战。 基于神经网络的自动分层抽象学习,其核心 2.4基于端到端的多智能体分层强化学习 思想是利用深度神经网络的学习能力实现策略自 基于端到端的多智能体分层强化学习主要思 动分层。Pierre等B)提出了一种Option-Critie学 想是通过Agent自学实现分层抽象,即任务自动 习方法,其通过深度神经网络来寻找任务之间的 分层,而不是像前面3类是基于人为划分和指定, 边界,并在游戏策略学习领域获得了比普通Deep 典型算法有瓶颈和路标状态法、共用子空间法、 Q Network方法更好的效果。还有研究者按照任 多维状态法、马氏空间法和基于神经网络自动分 务分层和策略学习两项工作分别设计神经网络
Mi Pi(s ′ ,τ|s,a) s ∈ S i Mi Ma a Ri(s,a) = V π (a,s) Mi 每个 的所有子节点,而转移概率 代 表对于任意状态 和 所有子节点 ,执行 动作 获得的立即奖赏为 ,则每 个子任务 对应的 Bellman 方程为 V π (i,s) = V π ∑ (a,s)+ s ′ ,τ P π i (s ′ ,τ|s,a)γ τV π (i,s ′ ) (6) a = πi(s) V π (i,s ′ ) a s ′ Mi 式中: , 则是从子任务 结束时的 状态 开始,直到子任务 完成时的回报值期 望。其中状态−动作值函数如式 (7) 所示: Q π (i,s,a) = V π ∑ (a,s)+ s ′ ,τ P π i (s ′ ,τ|s,a)γ τmaxQ π (i,s ′ , π(s ′ )) (7) 式中右侧第 2 项称为完成函数: C π (i,s,a) = ∑ s ′ ,τ P π i (s ′ ,τ|s,a)γ τmaxQ π (i,s ′ , π(s ′ )) Ma Mi V π (a,s) C π (i,s,a) 即子任务 终止后完成子任务 的期望回报 值。因此,状态−动作值函数可以分解成立即奖 赏 和完成函数 两部分,即: Q π (i,s,a) = V π (a,s)+C π (i,s,a) (8) π M0 Ma1 Ma1 Ma2 an M0 s V π (0,s) 设 MDP 的分层策略 为已知,则执行任务 时会向下选择执行子任务 ,而执行子任务 时又会继续向下选择执行子任务 ,不断迭 代直到最后选择基本动作 ,此时根任务 中 状态 的投影值 可分解为 V π (0,s) = V π (an,s)+C π (an−1,s,an)+···+ C π (a1,s,a2)+C π (0,s,a1) (9) V π (an ,s) = ∑ s ′ P(s ′ |s,an)R(s ′ 式中 |s,an),是 MaxQ 算法 的基础。 Mi πi M π = {π0, π1,··· , πn} 在 Dietterich 设计的 MaxQ-Q 学习算法中,若 每个子任务 的子策略 都为最优,即可确定 任务 的递归最优策略为 。同 时,Dietterich 也证明了算法在 Agent 奖赏有界且 执行有序贪婪策略的情况下能稳定收敛。 综上可知,与 Option、HAM 采用单个 SMDP 来收敛到最优策略不同,基于 MaxQ 函数分解的 多智能体分层强化学习通过建立多个可以同步学 习的分层 SMDP,利用策略分层结构来缩小每个 Agent 的搜索空间,可以有效提高学习效率,同时 其微、宏观策略均不需要事先确定,都可以在线 学习,具有较强的灵活性。但是其同样存在需要 提前依靠先验知识进行任务层次划分的问题,对 于环境未知的情况依然具有很大的挑战。 2.4 基于端到端的多智能体分层强化学习 基于端到端的多智能体分层强化学习主要思 想是通过 Agent 自学实现分层抽象,即任务自动 分层,而不是像前面 3 类是基于人为划分和指定, 典型算法有瓶颈和路标状态法、共用子空间法、 多维状态法、马氏空间法和基于神经网络自动分 层抽象学习等。 瓶颈和路标状态法的主要思想是在问题求解 过程中不断寻找中间点,并将其视为子目标从而 实现任务的分解和分层。Menache 等 [35] 提出了一 种基于状态空间分割的瓶颈状态法,其主要基于 计算状态空间割集来寻找状态转移图中的最小流 量边集,并将其视为状态瓶颈 (子目标),然后 Agent 学习子策略和策略复用来加速分层学习。 瓶颈和路标状态法使用的前提是该任务具有中间 点或中间阶段,所以其对于任务分段不明显或空 间较大的情况并不适用。 共用子空间法的主要思想是通过寻找策略或 行动地公共区域实现策略自动分层。Drunnond 等 [36] 提出了一种基于值函数梯度的子空间发现 方法,该方法首先基于值函数梯度将相邻状态划 分成不同的子空间,然后根据梯度值的高低确定 该区域是否存在障碍物,以及根据其是否为局部 最大、最小值判断为子空间的出入口点,然后将 相关顶点和对应子空间值函数存储起来,最后 Agent 基于匹配与比较的形式实现相似情形的快 速学习。共用子空间法使用的前提是该任务的策 略或行动空间存在公共区域,同时由于其子空间 的发现与更新是一个不断进行的过程,所以会带 来较大的计算量。 多维状态法的主要思想是基于特征向量和特 征子集对策略进行划分。HEXQ[37] 方法是一种基 于因子状态表达的多维状态法,其基于变化快慢 将状态变量表示成有序的因子状态表,其中每个 状态变量为一个包含简单 MDP 的任务层,MDP 之间则通过瓶颈状态集连通。多维状态法的核心 思想是基于特征向量,所以对于特征向量无法表 示的情况并不适用。 马氏空间法的主要思想是采用逐步分解的形 式将状态空间划分成一系列都具有 Markov 特性 的子空间。Uther 等 [38] 提出了一种基于树结构的 TTree 方法,其通过树结构来增加抽象状态的解 析度和层次性,在抽象层中对采用缺省策略或由 用户提供确定策略进行明确,从而通过逐层提高 子空间解析度来获取模型的 Markov 特性。马氏 空间法的缺点是对空间分解的解析度要求较高, 解析度不合适会导致分层失败。 基于神经网络的自动分层抽象学习,其核心 思想是利用深度神经网络的学习能力实现策略自 动分层。Pierre 等 [39] 提出了一种 Option-Critic 学 习方法,其通过深度神经网络来寻找任务之间的 边界,并在游戏策略学习领域获得了比普通 Deep Q Network 方法更好的效果。还有研究者按照任 务分层和策略学习两项工作分别设计神经网络, 第 4 期 殷昌盛,等:多智能体分层强化学习综述 ·651·
·652· 智能系统学 报 第15卷 提出了一种Manager-Worker学习方法o,也取得 作策略学习困难等问题,提出了一种基于参数共 了不错的效果。对于复杂的决策问题,人工分层 享的多智能体梯度下降Sara()强化学习算法 和抽象不仅费时费力,而且结果难免主观,因此 (PS-MAGDS)算法s2,用以解决星际争霸微观操 采用基于端到端分层强化学习必然是将来研究的 作中的多智能体决策问题;20l9年,DeepMind在 一个热点方向。 《Science》中介绍了一种新型的多智能体分层强 化学习策略),其在《雷神之锤》游戏中不仅学 3多智能体分层强化学习的应用 会了如何夺旗,同时也能学到一些不同于人类的 3.1多智能体分层强化学习在机器人控制领域 团队协作策略。 的应用 3.3多智能体分层强化学习在任务规划领域的 多智能体分层强化学习在机器人控制领域开 应用 展了大量研究与应用,其中最为典型的应用是足 任务规划是一项多领域相关、多层面运用以 球机器人比赛1。足球机器人系统是一个典型 及多系统集成的技术,其核心思想是基于模型和 的多智能体系统,每个机器人球员可以看作一 数据对要素进行全面分析,从而实现各类资源的 个Agent,.其需要综合考虑自身当前状态、其他球 优化配置以及各类实体行动计划的协调等636。 员状态以及动作来做出决策,即需要基于组合状 传统的军事运筹学、专家系统、启发式算法虽然 态和组合动作来选择动作,是多智能体分层强化 能很好解决局部规划问题,但仍存在易陷入局部 学习方法适用的典型情况。LU等阿针对足球机 最优、数据规模大、收敛速度慢以及规则和样本 器人问题,提出了一种基于投票的多智能体强化 获取难等问题6s-6。Zheng等I67为解决传统算法 学习方法,其采用投票的方式来综合所有Agent 收敛速度慢、效率低等问题,提出了一种基于分 的策略,通过对综合策略的学习实现Agent之间 层强化学习及人工势场的多Agent路径规划方 的协作。DUAN等研究了基于智能体动作预 法,并基于出租车问题对该算法进行了仿真实 测的多智能体强化学习算法并应用在足球机器人 验。针对多星协同任务规划问题,Wang等6引 角色分配问题中,其核心思想是利用贝叶斯分类 入约束惩罚算子和多星联合惩罚算子对卫星Agent 器实现其他Agent动作的预测4),然后基于策略 原始的效用值增益函数进行改进,提出了一种基 共享机制实现多智能体之间的交互,加速协作策 于多Agent强化学习的多星协同任务规划算法。 略的学习速度,从而实现多机器人的动态角色分 为降低由Agent之间交互所引起的通信代价,该 配和分工协作。 算法使用了基于黑板结构的多星交互方式,仿真 3.2多智能体分层强化学习在博弈决策领域的 结果显示该方法在解决多星协同任务规划问题上 应用 取得了较好的效果。 求解博弈决策问题一直是人工智能领域的难 虽然MAHRL在解决复杂决策问题上有着巨 题,基于知识与规则的求解方法可以有效解决状 大的潜力,并且也已有很多研究者对其展开了研 态规模不大的博弈决策问题0。然而对于类似 究和在诸多领域中实现了应用,但依然存在很多 于作战等复杂博弈决策问题,其巨大的状态和决 问题和瓶颈值得进一步探索和研究。一是方法的 策空间,同时还有战争迷雾等不确定性问题,基 可扩展性方面。当前对MAHRL的研究主要集中 于人工的状态抽象和解析求解是相当困难和不现 在以RTS游戏为代表的博弈决策问题,聚焦具体 实的1s1。多智能体分层强化学习的不断发展为 的离散动作和状态空间背景,其游戏智能决策、 求此类问题开辟了一条新的道路。目前比较典型 战略决策尚未真正意义实现,在机械制造、资源 的研究是针对星际争霸、王者荣耀等RTS游戏 配置、自动驾驶等具体应用领域更是处于探索阶 AI开展研究546。其中我国阿里巴巴认知计算实 段。因此研究面向海量智能体、复杂环境应用的 验室提出的多智能体双向协调网络(BiCNet)方 MAHRL方法是未来研究的重要方向。二是策略 法6,其通过采用actor-critic表达的向量化扩展, 分层的自主性方面。现在的MAHRL方法普遍基 即使在博弈双方的Agent数量都为任意、不同地 于马尔可夫决策框架,环境是已知或可预测的情 形以及不同战斗类型的情况下都能实现智能自主 况,同时现有的策略分层大部分是基于一定的先 决策:其次,即使在没有任何人类经验数据或标 验知识,而现实中许多决策问题存在不可预测 签数据的情况下,BiCNet同样能学到一些与人类 迷雾等问题,所以如何建立一种端到端和具有较 玩家相似的团队策略。中科院自动化所针对星际 强鲁棒性的自动策略分层方法是需要进一步研究 争霸中微观操作存在的状态、行动空间复杂和合 的。三是与其他方法的结合方面。MAHRL本身
提出了一种 Manager-Worker 学习方法[40] ,也取得 了不错的效果。对于复杂的决策问题,人工分层 和抽象不仅费时费力,而且结果难免主观,因此 采用基于端到端分层强化学习必然是将来研究的 一个热点方向。 3 多智能体分层强化学习的应用 3.1 多智能体分层强化学习在机器人控制领域 的应用 多智能体分层强化学习在机器人控制领域开 展了大量研究与应用,其中最为典型的应用是足 球机器人比赛[41-43]。足球机器人系统是一个典型 的多智能体系统[44] ,每个机器人球员可以看作一 个 Agent,其需要综合考虑自身当前状态、其他球 员状态以及动作来做出决策,即需要基于组合状 态和组合动作来选择动作,是多智能体分层强化 学习方法适用的典型情况。LIU 等 [45] 针对足球机 器人问题,提出了一种基于投票的多智能体强化 学习方法,其采用投票的方式来综合所有 Agent 的策略,通过对综合策略的学习实现 Agent 之间 的协作。DUAN 等 [46] 研究了基于智能体动作预 测的多智能体强化学习算法并应用在足球机器人 角色分配问题中,其核心思想是利用贝叶斯分类 器实现其他 Agent 动作的预测[47] ,然后基于策略 共享机制实现多智能体之间的交互,加速协作策 略的学习速度,从而实现多机器人的动态角色分 配和分工协作。 3.2 多智能体分层强化学习在博弈决策领域的 应用 求解博弈决策问题一直是人工智能领域的难 题,基于知识与规则的求解方法可以有效解决状 态规模不大的博弈决策问题[48-50]。然而对于类似 于作战等复杂博弈决策问题,其巨大的状态和决 策空间,同时还有战争迷雾等不确定性问题,基 于人工的状态抽象和解析求解是相当困难和不现 实的[51-53]。多智能体分层强化学习的不断发展为 求此类问题开辟了一条新的道路。目前比较典型 的研究是针对星际争霸、王者荣耀等 RTS 游戏 AI 开展研究[54-60]。其中我国阿里巴巴认知计算实 验室提出的多智能体双向协调网络 (BiCNet) 方 法 [61] ,其通过采用 actor-critic 表达的向量化扩展, 即使在博弈双方的 Agent 数量都为任意、不同地 形以及不同战斗类型的情况下都能实现智能自主 决策;其次,即使在没有任何人类经验数据或标 签数据的情况下,BiCNet 同样能学到一些与人类 玩家相似的团队策略。中科院自动化所针对星际 争霸中微观操作存在的状态、行动空间复杂和合 作策略学习困难等问题,提出了一种基于参数共 享的多智能体梯度下降 Sara(λ) 强化学习算法 (PS-MAGDS) 算法[62] ,用以解决星际争霸微观操 作中的多智能体决策问题;2019 年,DeepMind 在 《Science》中介绍了一种新型的多智能体分层强 化学习策略[3] ,其在《雷神之锤》游戏中不仅学 会了如何夺旗,同时也能学到一些不同于人类的 团队协作策略。 3.3 多智能体分层强化学习在任务规划领域的 应用 任务规划是一项多领域相关、多层面运用以 及多系统集成的技术,其核心思想是基于模型和 数据对要素进行全面分析,从而实现各类资源的 优化配置以及各类实体行动计划的协调等[63-64]。 传统的军事运筹学、专家系统、启发式算法虽然 能很好解决局部规划问题,但仍存在易陷入局部 最优、数据规模大、收敛速度慢以及规则和样本 获取难等问题[65-66]。Zheng 等 [67] 为解决传统算法 收敛速度慢、效率低等问题,提出了一种基于分 层强化学习及人工势场的多 Agent 路径规划方 法,并基于出租车问题对该算法进行了仿真实 验。针对多星协同任务规划问题,Wang 等 [68] 引 入约束惩罚算子和多星联合惩罚算子对卫星 Agent 原始的效用值增益函数进行改进,提出了一种基 于多 Agent 强化学习的多星协同任务规划算法。 为降低由 Agent 之间交互所引起的通信代价,该 算法使用了基于黑板结构的多星交互方式,仿真 结果显示该方法在解决多星协同任务规划问题上 取得了较好的效果。 虽然 MAHRL 在解决复杂决策问题上有着巨 大的潜力,并且也已有很多研究者对其展开了研 究和在诸多领域中实现了应用,但依然存在很多 问题和瓶颈值得进一步探索和研究。一是方法的 可扩展性方面。当前对 MAHRL 的研究主要集中 在以 RTS 游戏为代表的博弈决策问题,聚焦具体 的离散动作和状态空间背景,其游戏智能决策、 战略决策尚未真正意义实现,在机械制造、资源 配置、自动驾驶等具体应用领域更是处于探索阶 段。因此研究面向海量智能体、复杂环境应用的 MAHRL 方法是未来研究的重要方向。二是策略 分层的自主性方面。现在的 MAHRL 方法普遍基 于马尔可夫决策框架,环境是已知或可预测的情 况,同时现有的策略分层大部分是基于一定的先 验知识,而现实中许多决策问题存在不可预测、 迷雾等问题,所以如何建立一种端到端和具有较 强鲁棒性的自动策略分层方法是需要进一步研究 的。三是与其他方法的结合方面。MAHRL 本身 ·652· 智 能 系 统 学 报 第 15 卷
第4期 殷昌盛,等:多智能体分层强化学习综述 ·653· 就是多智能体和分层强化学习两种方法的结合, [9]XUE B.GLEN B.DeepLoco:dynamic locomotion skills 但由于其自身原理所限,MAHRL在探索的有效 using hierarchical deep reinforcement learning[J].ACM 性、样本的利用率、模型的鲁棒性等方面仍不够 transactions on graphics,2017,36(4):1-13. 理想。因此,针对性地研究监督学习、元学习、模 [10]SUTTON R S.BARTO A G.Reinforcement learning:an 仿学习、迁移学习以及增量式学习等其他方法在 introduction[M].Cambridge:MIT Press,1998 [11]SILVER D.SCHRITTEIESER J.SIMONYAN K.et al. MAHRL中的应用与结合,将是MAHRL研究和 Mastering the game of go without human knowledge[J]. 发展的一个重要方向。 Nature,2017,550(7676):354-391 4结束语 [12]刘全,翟建伟,章宗长,等.深度强化学习综述仞.计算 机学报,2018,41(1)1-27 本文对多智能体分层强化学习进行了回顾, LIU Quan,ZHAI Jianwei,ZHANG Zongchang,et al.A 首先对强化学习、半马尔可夫决策过程、多智能 survey on deep reinforcement learning[J].Chinese journ- 体技术等相关研究现状进行了介绍,然后基于分 al of computers,2018,41(1):1-27. [13]HAUSKNECHT M,STONE P.Deep recurrent q-learn- 层的角度,对多智能体分层强化学习进行了综 ing for patially observable mdps[EB/OL].[2017-11-161. 述,阐述了基于选项、基于分层抽象机、基于值函 https://arxiv.org/abs/1507.06527. 数分解和基于端到端等4种多智能体分层强化学 [14]HASSELT H V,GUEZ A,SILVER D.Deep reinforce- 习方法的算法原理和研究现状。介绍了MAHRL ment learning with double Q learning [EB/OL].[2015-12- 在机器人控制、博弈决策以及任务规划等领域的 8].https://arxiv.org/abs/1509.06461v1. 应用现状。作为解决大规模复杂背景下协同决策 [15]RUMMERY G A,NIRNJAN M.On-line q-learning us- 的一种潜在途径,MAHRL虽然现在仍有许多问 ing connectionist systems[EB/OL].[2018-2-2].https:/ 题尚未解决,但可以预见的是,随着研究的不断 www.researchgate.net/publication/250611 On-Line Q- 深入,多智能体分层强化学习将成为解决智能决 Learning_Using_Connectionist_Systems. [16]WATKINS C,DAYAN P.Q-learning[J].Machine learn- 策问题的重要方法。 ing,1992,8(34):279-292 参考文献: [17]SILVER D,LEVER G,HEESS N,et al.Deterministic policy gradient algorithms [C]//International Conference [1]LECUN Y,BENGIO Y,HINTON G.Deep learning[J]. on Machine Learning 2014.Beijing,China,2014: Nature,2015,521:436-444. 387-395 [2]SILVER D.HUBERT T,SCHRITTWIESER J,et al.A [18]MNIH V,BADIA A P,MIRZA M,et al.Asynchronous general reinforcement learning algorithm that masters methods for deep reinforcement learning [EB/OL].[2016- chess,shogi,and Go through self-play[J].Science,2018, 6-161.https://arxiv.org/abs/1602.01783. 362:1140-1144 [19]SCHULMAN J.LEVINE S.ABBEEL P,et al.Trust re- [3]JADERBERG M.CZARNECKI MM,DUNNING L,et gion policy optimization [EB/OL].[2015-2-19]. al.Human-level performance in 3D multiplayer games https://arxiv.org/abs/1502.05477. with population-based reinforcement learning[J].Science, [20]HEESS N.WAYNE G.SILVER D,et al.Learning con- 2019.364(6443):859-865. tinuous control policies by stochastic value gradi- [4]LIU Siqi,LEVER G,MEREL J,HEESS N,et al.Emer- ents[EB/OL].[2015-10-30].https://arxiv.org/abs/1510.09142. gent coordination through completion[EB/OL].[2019-2- [21]LEVINE S.KOLTUM V.Guided policy search[EB/OLl. 21].https://arxiv.org/abs/1902.07151. [2016-10-3].https:l/axiv.org/abs/1610.00529. [5]WU Bin,FU Qiang,LIANG Jing,et al.Hierarchical macro [22]SCHULMAN J.WOLSKI F.DHARIWAL P.et al.Prox- strategy model for MOBA game AI[EB/OL].[2018-12- imal policy optimization algorithms[EB/OL].[2018-9- 19].https://arxiv.org/abs/1812.07887v1. 181.https://arxiv.org/abs/1707.06347. [6]MNIH V,KAVUKCUOGLU K,SILVER D,et al.Playing [23]SCHULMAN J,MORITZ P,LEVINE S,et al.High di- atari with deep reinforcement learning[EB/OL].[2013-12- mensional continuous control using generalized advant- 19].https://arxiv.org/abs/1312.5602. age estimation [EB/OL].[2011-11-16].https://arxiv. [7]WOOLDRIDGE M.An introduction to multi-agent sys- org/abs/1506.024398. tems[J].Wiley Sons,2011,4(2):125-128. [24]SUTTON R S.Dyna,an integrated architecture for learn- [8]GIL P,NUNES L.Hierarchical reinforcement learning us- ing,planning and reacting[J].ACM SIGART bulletin, ing path clustering[C]//Proceedings of 8th Iberian Confer- 1991.2(4):160-163. ence on Information Systems and Technologies.Lisaboa, [25]DING Shifei,ZHAO Xingyu,XU Xinzheng,et al.An ef- Portugal,2013:1-6. fective asynchronous framework for small scale reinforce
就是多智能体和分层强化学习两种方法的结合, 但由于其自身原理所限,MAHRL 在探索的有效 性、样本的利用率、模型的鲁棒性等方面仍不够 理想。因此,针对性地研究监督学习、元学习、模 仿学习、迁移学习以及增量式学习等其他方法在 MAHRL 中的应用与结合,将是 MAHRL 研究和 发展的一个重要方向。 4 结束语 本文对多智能体分层强化学习进行了回顾, 首先对强化学习、半马尔可夫决策过程、多智能 体技术等相关研究现状进行了介绍,然后基于分 层的角度,对多智能体分层强化学习进行了综 述,阐述了基于选项、基于分层抽象机、基于值函 数分解和基于端到端等 4 种多智能体分层强化学 习方法的算法原理和研究现状。介绍了 MAHRL 在机器人控制、博弈决策以及任务规划等领域的 应用现状。作为解决大规模复杂背景下协同决策 的一种潜在途径,MAHRL 虽然现在仍有许多问 题尚未解决,但可以预见的是,随着研究的不断 深入,多智能体分层强化学习将成为解决智能决 策问题的重要方法。 参考文献: LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521: 436–444. [1] SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play[J]. Science, 2018, 362: 1140–1144. [2] JADERBERG M, CZARNECKI M M, DUNNING L, et al. Human-level performance in 3D multiplayer games with population-based reinforcement learning[J]. Science, 2019, 364(6443): 859–865. [3] LIU Siqi, LEVER G, MEREL J, HEESS N, et al. Emergent coordination through completion[EB/OL]. [2019-2- 21]. https://arxiv.org/abs/1902.07151. [4] WU Bin, FU Qiang, LIANG Jing, et al. Hierarchical macro strategy model for MOBA game AI[EB/OL]. [2018-12- 19]. https://arxiv.org/abs/1812.07887v1. [5] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[EB/OL]. [2013-12- 19]. https://arxiv.org/abs/1312.5602. [6] WOOLDRIDGE M. An introduction to multi-agent systems[J]. Wiley & Sons, 2011, 4(2): 125–128. [7] GIL P, NUNES L. Hierarchical reinforcement learning using path clustering[C]//Proceedings of 8th Iberian Conference on Information Systems and Technologies. Lisaboa, Portugal, 2013: 1−6. [8] XUE B, GLEN B. DeepLoco: dynamic locomotion skills using hierarchical deep reinforcement learning[J]. ACM transactions on graphics, 2017, 36(4): 1–13. [9] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge: MIT Press, 1998. [10] SILVER D, SCHRITTEIESER J, SIMONYAN K, et al. Mastering the game of go without human knowledge[J]. Nature, 2017, 550(7676): 354–391. [11] 刘全, 翟建伟, 章宗长, 等. 深度强化学习综述 [J]. 计算 机学报, 2018, 41(1): 1–27. LIU Quan, ZHAI Jianwei, ZHANG Zongchang, et al. A survey on deep reinforcement learning[J]. Chinese journal of computers, 2018, 41(1): 1–27. [12] HAUSKNECHT M, STONE P. Deep recurrent q-learning for patially observable mdps[EB/OL]. [2017-11-16]. https://arxiv.org/abs/1507.06527. [13] HASSELT H V, GUEZ A, SILVER D. Deep reinforcement learning with double Q learning[EB/OL]. [2015-12- 8]. https://arxiv.org/abs/1509.06461v1. [14] RUMMERY G A, NIRNJAN M. On-line q-learning using connectionist systems[EB/OL]. [2018-2-2]. https:// www.researchgate.net/publication/250611_On-Line_QLearning_Using_Connectionist_Systems. [15] WATKINS C, DAYAN P. Q-learning[J]. Machine learning, 1992, 8(34): 279–292. [16] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms [C]//International Conference on Machine Learning 2014. Beijing, China, 2014: 387−395. [17] MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning [EB/OL]. [2016- 6-16]. https://arxiv.org/abs/1602.01783. [18] SCHULMAN J, LEVINE S, ABBEEL P, et al. Trust region policy optimization [EB/OL]. [2015-2-19]. https://arxiv.org/abs/1502.05477. [19] HEESS N, WAYNE G, SILVER D, et al. Learning continuous control policies by stochastic value gradients[EB/OL]. [2015-10-30]. https://arxiv.org/abs/1510.09142. [20] LEVINE S, KOLTUM V. Guided policy search[EB/OL]. [2016-10-3]. https://arxiv.org/abs/1610.00529. [21] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. [2018-9- 18]. https://arxiv.org/abs/1707.06347. [22] SCHULMAN J, MORITZ P, LEVINE S, et al. High dimensional continuous control using generalized advantage estimation [EB/OL]. [2011-11-16]. https://arxiv. org/abs/1506.024398. [23] SUTTON R S. Dyna, an integrated architecture for learning, planning and reacting[J]. ACM SIGART bulletin, 1991, 2(4): 160–163. [24] DING Shifei, ZHAO Xingyu, XU Xinzheng, et al. An effective asynchronous framework for small scale reinforce- [25] 第 4 期 殷昌盛,等:多智能体分层强化学习综述 ·653·
·654· 智能系统学报 第15卷 ment learning problems[J].Applied intelligence,2019. ligence.San Francisco,USA,2017:1726-1734 49(12):4303-4318. [40]VEZHNEVETS A S.OSINDERO S.SCHAUL T.et al. [26]ZHAO Xingyu,DING Shifei,AN Yuexuan,et al.Applic- Feudal networks for hierarchical reinforcement learning[Cl ations of asynchronous deep reinforcement learning based Proceedings of 34th International Conference on Ma- on dynamic updating weights[J].Applied intelligence, chine Learning.Sydney,Australia,2017:3540-3549. 2019,492:581-591 [41]PONSEN MJ V.SPRONCK P.AHA D W.Automatic- [27]ZHAO Xingyu,DING Shifei,AN Yuexuan,et al.Asyn- ally acquiring domain knowledge for adaptive game Al chronous reinforcement learning algorithms for solving using evolutionary learning[C]//Conference on Innovat- discrete space path planning problems[J].Applied intelli- ive Applications of Artificial Intelligence.Pittsburgh, gence,2018,48(12:4889-4904. Pennsylvania,2005:1535-1540. [28]SUTTON R S.PRECUP D.SINGH S R.Between MDPs [42]WEBER B G,ONTANON S.Using automated replay an- and Semi-MDPs:a framework for temporal abstraction in notation for case-based planning in games[C]//18th Inter- reinforcement learning[J].Artificial intelligence,1999, national Conference on Case-based Reasoning.Aless- 112(1-2):181-211 andria,Italy,2010:15-24. [29]PRECUP D.SUTTON R S.Multi-time models for tem- [43]WEBER B G,MAWHORTER P,MATEAS M,et al.Re- porally abstract planning[C]//Proceedings of the 1997 active planning idioms for multi-scale game Al[C]//Con- Conference on Advances in Neural Information Pro- ference on Computational Intelligence and Games, cessing Systems 10.Cambridge,United States,1998: Maastricht.The Netherlands.2010:115-122 1050-1056. [44]SONG Y.LI Y.LI C.Initialization in reinforcement [30]PRECUP D.Temporal abstraction in reinforcement learn- learning for mobile robots path planning[J].Control the- ing.[D].Amherst:University of Massachusetts,USA, ory&applications,2012,2912):1623-1628. 2000. [45]LIU Chunyang,TAN Yingqing,LIU Changan,MA Ying- [31]TANG Zhentao,ZHAO Dongbin,ZHU Yuanheng.Rein- wei.Application of multi-Agent reinforcement learning in forcement learning for build-order production in Star- robot soccer[J].Acta electronica sinica,2010,38(8): Craft II [C]//8th International Conference on Information 1958-1962. Science and Technology.Istanbul,Turkey.2018. [46]DUAN Yong,CUI Baoxia,XU Xinhe.Multi-agent rein- [32]PARR R.Hierarchical control and learning for markov forcement learning and its application role assignment of decision processes[D].Berkeley:University of California, robot soccer[J].Control theory applications,2009, 1998 26(4):371-376 [33]KULKARNI T D,NARASIMHAN K R,SAEEDI A,et [47]SYNNAEVE G,BESSIERE P.A bayesian model for al.Hierarchical deep reinforcement learning:integrating RTS units control applied to starcraft[J].IEEE transac- temporal abstraction and intrinsic motivation[EB/OL]. tions on computational intelligence and AI in games, [2016-4-201.htps:/∥arxiv..org/abs/1604.06057 2011.3(1):83-86. [34]DIETTERICH T G.Hierarchical reinforcement learning [48]SURDU JR,KITTKA K.Deep green:commander's tool with the MAXQ value function decomposition[J].Journ- for COA's concept[C]//Computing,Communications and al of artificial intelligence research,2000,13:227-303. Control Technologies 2008.Orlando,Florida.USA.2008 [35]MENACHE I,MARMOR S,SHIMKIN N.Q-Cut:dy- [49]ERNEST N,CARROLL D.SCHUMACHER C,et al. namic discovery of sub-goals in reinforcement learn- Genetic fuzzy based artificial intelligence for unmanned ing[J].Lecture notes in computer science 2430.2002: combat aerial vehicle control in simulated air combat mis- 295-306. sions[J].Journal of denfense management,2016,6(1): [36]DRUNNOND C.Accelerating reinforcement learning by 1-7. composing solutions of automatically identified [50]DERESZYNSKI E,HOSTETLER J,FERN A,et al. subtasks[J].Journal of artificial intelligence research, Learning probabilistic behavior models in real-time 2002,16:59-104 strategy games[C]//Proc of the 7th AAAI Conference on [37]HENGST B.Discovering hierarchy in reinforcement Artificial Intelligence and Interactive Digital Entertain- learning[D].Sydney:University of New South Wales, ment,Stanford,USA,2011:20-25. Australia,2003. [51]胡桐清,陈亮.军事智能辅助决策的理论与实践).军 [38]UTHER W T B.Tree based hierarchical reinforcement 事系统工程,1995(C1):3-10. learning[D].Pittsburgh:Carnegie Mellon University, HU Tongqing,CHEN Liang.Theory and practice of mil- USA,2002 itary intelligence assistant decision[J].Military opera- [39]PIERRE B.JEAN H.The option-critic architecture[C]// tions research and systems engineering,1995(C1):3-10. Proceedings of 31th AAAI Conference on Artifical Intel- [52]朱丰,胡晓峰.基于深度学习的战场态势评估综述与研
ment learning problems[J]. Applied intelligence, 2019, 49(12): 4303–4318. ZHAO Xingyu, DING Shifei, AN Yuexuan, et al. Applications of asynchronous deep reinforcement learning based on dynamic updating weights[J]. Applied intelligence, 2019, 49(2): 581–591. [26] ZHAO Xingyu, DING Shifei, AN Yuexuan, et al. Asynchronous reinforcement learning algorithms for solving discrete space path planning problems[J]. Applied intelligence, 2018, 48(12): 4889–4904. [27] SUTTON R S, PRECUP D, SINGH S R. Between MDPs and Semi-MDPs: a framework for temporal abstraction in reinforcement learning[J]. Artificial intelligence, 1999, 112(1-2): 181–211. [28] PRECUP D, SUTTON R S. Multi-time models for temporally abstract planning[C]// Proceedings of the 1997 Conference on Advances in Neural Information Processing Systems 10. Cambridge, United States, 1998: 1050−1056. [29] PRECUP D. Temporal abstraction in reinforcement learning. [D]. Amherst: University of Massachusetts, USA, 2000. [30] TANG Zhentao, ZHAO Dongbin, ZHU Yuanheng. Reinforcement learning for build-order production in StarCraft II [C]//8th International Conference on Information Science and Technology. Istanbul, Turkey. 2018. [31] PARR R. Hierarchical control and learning for markov decision processes[D]. Berkeley: University of California, 1998. [32] KULKARNI T D, NARASIMHAN K R, SAEEDI A, et al. Hierarchical deep reinforcement learning: integrating temporal abstraction and intrinsic motivation[EB/OL]. [2016-4-20]. https://arxiv.org/abs/1604.06057. [33] DIETTERICH T G. Hierarchical reinforcement learning with the MAXQ value function decomposition[J]. Journal of artificial intelligence research, 2000, 13: 227–303. [34] MENACHE I, MARMOR S, SHIMKIN N. Q-Cut: dynamic discovery of sub-goals in reinforcement learning[J]. Lecture notes in computer science 2430.2002: 295−306. [35] DRUNNOND C. Accelerating reinforcement learning by composing solutions of automatically identified subtasks[J]. Journal of artificial intelligence research, 2002, 16: 59–104. [36] HENGST B. Discovering hierarchy in reinforcement learning[D]. Sydney: University of New South Wales, Australia, 2003. [37] UTHER W T B. Tree based hierarchical reinforcement learning[D]. Pittsburgh: Carnegie Mellon University, USA, 2002. [38] PIERRE B, JEAN H. The option-critic architecture[C]// Proceedings of 31th AAAI Conference on Artifical Intel- [39] ligence. San Francisco, USA, 2017: 1726−1734. VEZHNEVETS A S, OSINDERO S, SCHAUL T, et al. Feudal networks for hierarchical reinforcement learning[C]// Proceedings of 34th International Conference on Machine Learning. Sydney, Australia, 2017: 3540−3549. [40] PONSEN M J V, SPRONCK P, AHA D W. Automatically acquiring domain knowledge for adaptive game AI using evolutionary learning[C]//Conference on Innovative Applications of Artificial Intelligence. Pittsburgh, Pennsylvania, 2005: 1535−1540. [41] WEBER B G, ONTANON S. Using automated replay annotation for case-based planning in games[C]//18th International Conference on Case-based Reasoning. Alessandria, Italy, 2010: 15−24. [42] WEBER B G, MAWHORTER P, MATEAS M, et al. Reactive planning idioms for multi-scale game AI[C]// Conference on Computational Intelligence and Games, Maastricht, The Netherlands, 2010: 115−122. [43] SONG Y, LI Y, LI C. Initialization in reinforcement learning for mobile robots path planning[J]. Control theory & applications, 2012, 29(12): 1623–1628. [44] LIU Chunyang, TAN Yingqing, LIU Changan, MA Yingwei. Application of multi-Agent reinforcement learning in robot soccer[J]. Acta electronica sinica, 2010, 38(8): 1958–1962. [45] DUAN Yong, CUI Baoxia, XU Xinhe. Multi-agent reinforcement learning and its application role assignment of robot soccer[J]. Control theory & app1ications, 2009, 26(4): 371–376. [46] SYNNAEVE G, BESSIERE P. A bayesian model for RTS units control applied to starcraft[J]. IEEE transactions on computational intelligence and AI in games, 2011, 3(1): 83–86. [47] SURDU J R, KITTKA K. Deep green: commander’s tool for COA’s concept[C]//Computing, Communications and Control Technologies 2008, Orlando, Florida, USA, 2008. [48] ERNEST N, CARROLL D, SCHUMACHER C, et al. Genetic fuzzy based artificial intelligence for unmanned combat aerial vehicle control in simulated air combat missions[J]. Journal of denfense management, 2016, 6(1): 1–7. [49] DERESZYNSKI E, HOSTETLER J, FERN A, et al. Learning probabilistic behavior models in real-time strategy games[C]//Proc of the 7th AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment, Stanford, USA, 2011: 20−25. [50] 胡桐清, 陈亮. 军事智能辅助决策的理论与实践 [J]. 军 事系统工程, 1995(C1): 3–10. HU Tongqing, CHEN Liang. Theory and practice of military intelligence assistant decision[J]. Military operations research and systems engineering, 1995(C1): 3–10. [51] [52] 朱丰, 胡晓峰. 基于深度学习的战场态势评估综述与研 ·654· 智 能 系 统 学 报 第 15 卷
第4期 殷昌盛,等:多智能体分层强化学习综述 ·655· 究展望).军事运筹与系统工程,2016,30(3):22-27, [64]陈希亮,张永亮.基于深度强化学习的陆军分队战术决 ZHU Feng,HU Xiaofeng.Overview and research pro- 策问题研究[.军事运筹与系统工程,2017,31(3): spect of battlefield situation assessment based on deep 20-27. learning[J].Military operations research and systems en- CHEN Xiliang,ZHANG Yongliang.Research on tactical gineering,2016,30(3):22-27. decision of army units based on deep reinforcement learn- [53]TIAN Yuandong,GONG Quchengg,SHANG Wenling,et ing[J].Military operations research and systems engineer- al.ELF:an extensive,lightweight and flexible research ing,2017,31(3):20-27. platform for real-time strategy games [C]//31st Confer- [65]乔永杰,王欣九,孙亮.陆军指挥所模型自主生成作战 ence and Workshop on Neural Information Processing 计划时间参数的方法[.中国电子科学研究院学报, Systems,California.USA.2017:2656-2666. 2017,12(3:278-284. [54]MEHTA M.ONTANOS S.AMUNDESEN T.et al.Au- QIAO Yongjie,WANG Xinjiu,SUN Liang.A Method thoring behaviors for games using learning from demon- for Army command post to auto-Generate combat time stration[C]//Proc of the 8th Intenational Conference on scheduling[J].Journal of china academy of electronics Case-based Reasoning,Berlin.Heidelberg,2009:12-20. and information technology,2017,12(3):278-284. [55]JUSTESEN N.RISI S.Learning macromanagement in [66]DING Shifei,DU Wei,ZHAO Xingyu,et al.A new asyn- StarCraft from replays using deep learning[C]//IEEE's chronous reinforcement learning algorithm based on im- 2017 Conference on Computational Intelligence in proved parallel PSO[J].Applied intelligence,2019, Games,New York,USA.2017. 49(12):4211-4222 [56]WU Huikai,ZHANG Junge,HUANG Kaiqi.MSC:A [67]ZHENG Yanbin,LI Bo,AN Deyu,et al.Multi-agent path dataset for macro-management in StarCraft II [DB/OL]. planning algorithm based on hierarchical reinforcement [2018-05-31].http:/cn.axiv.org/pdf1710.03131v1 learning and artificial potential field[J].Journal of com- [57]BATO A G,MAHADEVAN S.Recent advances in hier- puter applications,2015,35(12):3491-3496. [68]王冲,景宁,李军,等.一种基于多Agent强化学习的多 archical reinforcement learning[J].Discrete event dynam- ic systems,.2013,13(4):341-379. 星协同任务规划算法.国防科技大学学报,2011, [58]TIMOTHY P L,JONATHAN J H,PRITZEL A,et al. 33(1)53-58. WANG Chong,JING Ning,LI Jun,et al.An algorithm of Continous control with deep reinforcement learning [EB/OL]. [2015-11-18].https://arxiv.org/abs/1509.02971. cooperative multiple satellites mission planning based on [59]DIBIA V,DEMIRALP C.Data2Vis automatic genera- multi-agent reinforcement learning[J.Journal of national university of defense technology,2011,33(1):53-58. tion of data visualizations using sequence to sequence re- current neural networks [EB/OL].[2018-11-2]. 作者简介: https://arxiv.org/abs/1804.03126. 殷昌盛,讲师,博士,主要研究方 [60]SUSHIL JL,LIU Siming.multi-objective evolution for 向为机器学习与智能决策。发表学术 3D RTS micro [EB/OL].[2018-3-8].https://arxiv.org/ 论文20余篇,出版专著3部。 abs/1803.02943 [61]PENG Peng,WEN Ying,YANG Yaodong,et al.Multia- gent bidirectionally-coordinated nets:emergence of hu- man-level coordination in learning to play StarCraft com- bat games[EB/OL].[2018-05-31].http://cn.arxiv.org/ 杨若鹏,教授,博士生导师,主要 pdf1703.10069v4. 研究方向为智能化指挥。近年来获得 [62]SHAO Kun,ZHU Yuanheng,ZHAO Dongbin.StarCraft 军队科技进步一等奖1项、三等奖 micromanagement with reinforcement learning and cur- 2项,发表学术论文40余篇.出版专 riculum transfer learning[J].IEEE transactions on emer- 著10余部。 ging topics in computational intelligence,2018(99):1-12. [63]李耀宇,朱一凡,杨峰.基于逆向强化学习的舰载机甲 板调度优化方案生成方法[】.国防科技大学学报 朱巍,副教授,主要研究方向为机 2013,35(4:171-175. 器学习与智能决策。 LI Yaoyu,ZHU Yifan,YANG Fan.Inverse reinforce- ment learning based optimal schedule generation ap- proach for carrier aircraft on flight deck[J].Journal of na- tional university of defense technology,2013,35(4): 171-175
究展望 [J]. 军事运筹与系统工程, 2016, 30(3): 22–27. ZHU Feng, HU Xiaofeng. Overview and research prospect of battlefield situation assessment based on deep learning[J]. Military operations research and systems engineering, 2016, 30(3): 22–27. TIAN Yuandong, GONG Quchengg, SHANG Wenling, et al. ELF: an extensive, lightweight and flexible research platform for real-time strategy games [C]//31st Conference and Workshop on Neural Information Processing Systems, California, USA, 2017: 2656−2666. [53] MEHTA M, ONTANOS S, AMUNDESEN T, et al. Authoring behaviors for games using learning from demonstration[C]//Proc of the 8th Intenational Conference on Case-based Reasoning, Berlin, Heidelberg, 2009: 12−20. [54] JUSTESEN N, RISI S. Learning macromanagement in StarCraft from replays using deep learning[C]// IEEE’s 2017 Conference on Computational Intelligence in Games, New York, USA. 2017. [55] WU Huikai, ZHANG Junge, HUANG Kaiqi. MSC: A dataset for macro-management in StarCraft II [DB/OL]. [2018-05-31]. http://cn.arxiv.org/pdf/1710.03131v1. [56] BATO A G, MAHADEVAN S. Recent advances in hierarchical reinforcement learning[J]. Discrete event dynamic systems, 2013, 13(4): 341–379. [57] TIMOTHY P L, JONATHAN J H, PRITZEL A, et al. Continous control with deep reinforcement learning[EB/OL]. [2015-11-18]. https://arxiv.org/abs/1509.02971. [58] DIBIA V, DEMIRALP C. Data2Vis automatic generation of data visualizations using sequence to sequence recurrent neural networks [EB/OL]. [2018-11-2]. https://arxiv.org/abs/1804.03126. [59] SUSHIL J L, LIU Siming. multi-objective evolution for 3D RTS micro [EB/OL]. [2018-3-8]. https://arxiv.org/ abs/1803.02943. [60] PENG Peng, WEN Ying, YANG Yaodong, et al. Multiagent bidirectionally-coordinated nets: emergence of human-level coordination in learning to play StarCraft combat games[EB/OL]. [2018-05-31]. http://cn.arxiv.org/ pdf/1703.10069v4. [61] SHAO Kun, ZHU Yuanheng, ZHAO Dongbin. StarCraft micromanagement with reinforcement learning and curriculum transfer learning[J]. IEEE transactions on emerging topics in computational intelligence, 2018(99): 1–12. [62] 李耀宇, 朱一凡, 杨峰. 基于逆向强化学习的舰载机甲 板调度优化方案生成方法 [J]. 国防科技大学学报, 2013, 35(4): 171–175. LI Yaoyu, ZHU Yifan, YANG Fan. Inverse reinforcement learning based optimal schedule generation approach for carrier aircraft on flight deck[J]. Journal of national university of defense technology, 2013, 35(4): 171–175. [63] 陈希亮, 张永亮. 基于深度强化学习的陆军分队战术决 策问题研究 [J]. 军事运筹与系统工程, 2017, 31(3): 20–27. CHEN Xiliang, ZHANG Yongliang. Research on tactical decision of army units based on deep reinforcement learning[J]. Military operations research and systems engineering, 2017, 31(3): 20–27. [64] 乔永杰, 王欣九, 孙亮. 陆军指挥所模型自主生成作战 计划时间参数的方法 [J]. 中国电子科学研究院学报, 2017, 12(3): 278–284. QIAO Yongjie, WANG Xinjiu, SUN Liang. A Method for Army command post to auto-Generate combat time scheduling[J]. Journal of china academy of electronics and information technology, 2017, 12(3): 278–284. [65] DING Shifei, DU Wei, ZHAO Xingyu, et al. A new asynchronous reinforcement learning algorithm based on improved parallel PSO[J]. Applied intelligence, 2019, 49(12): 4211–4222. [66] ZHENG Yanbin, LI Bo, AN Deyu, et al. Multi-agent path planning algorithm based on hierarchical reinforcement learning and artificial potential field[J]. Journal of computer applications, 2015, 35(12): 3491–3496. [67] 王冲, 景宁, 李军, 等. 一种基于多 Agent 强化学习的多 星协同任务规划算法 [J]. 国防科技大学学报, 2011, 33(1): 53–58. WANG Chong, JING Ning, LI Jun, et al. An algorithm of cooperative multiple satellites mission planning based on multi-agent reinforcement learning[J]. Journal of national university of defense technology, 2011, 33(1): 53–58. [68] 作者简介: 殷昌盛,讲师,博士,主要研究方 向为机器学习与智能决策。发表学术 论文 20 余篇,出版专著 3 部。 杨若鹏,教授,博士生导师,主要 研究方向为智能化指挥。近年来获得 军队科技进步一等奖 1 项、三等奖 2 项,发表学术论文 40 余篇,出版专 著 10 余部。 朱巍,副教授,主要研究方向为机 器学习与智能决策。 第 4 期 殷昌盛,等:多智能体分层强化学习综述 ·655·