第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0:10.11992tis.201909027 多智能体分层强化学习综述 殷昌盛,杨若鹏,朱巍,邹小飞,李峰 (国防科技大学信息通信学院,湖北武汉430010) 摘要:作为机器学习和人工智能领域的一个重要分支,多智能体分层强化学习以一种通用的形式将多智能体 的协作能力与强化学习的决策能力相结合,并通过将复杂的强化学习问题分解成若干个子问题并分别解决,可 以有效解决空间维数灾难问题。这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的 一种潜在途径。首先对多智能体分层强化学习中涉及的主要技术进行阐述,包括强化学习、半马尔可夫决策过 程和多智能体强化学习:然后基于分层的角度,对基于选项、基于分层抽象机、基于值函数分解和基于端到端 等4种多智能体分层强化学习方法的算法原理和研究现状进行了综述:最后介绍了多智能体分层强化学习在 机器人控制、博弈决策以及任务规划等领域的应用现状。 关键词:人工智能;机器学习;强化学习;多智能体;综述;深度学习;分层强化学习:应用现状 中图分类号:TP18 文献标志码:A文章编号:1673-4785(2020)04-0646-10 中文引用格式:殷昌盛,杨若鹏,朱巍,等.多智能体分层强化学习综述.智能系统学报,2020,15(4):646-655. 英文引用格式:YIN Changsheng,.YANG Ruopeng,.ZHU Wei,,etal.A survey on multi-agent hierarchical reinforcement learning J].. CAAI transactions on intelligent systems,2020,15(4):646-655. A survey on multi-agent hierarchical reinforcement learning YIN Changsheng,YANG Ruopeng,ZHU Wei,ZOU Xiaofei,LI Feng (School of Information and Communication,National University of Defense Technology,Wuhan 430010,China) Abstract:As an important research area in the field of machine learning and artificial intelligence,multi-agent hierarch- ical reinforcement learning(MAHRL)integrates the advantages of the collaboration of multi-agent system (MAS)and the decision making of reinforcement learning(RL)in a general-purpose form,and decomposes the RL problem into sub-problems and solves each of them to overcome the so-called curse of dimensionality.So MAHRL offers a potential way to solve large-scale and complex decision problem.In this paper,we systematically describe three key technologies of MAHRL:reinforcement learning(RL),Semi Markov Decision Process(SMDP),multi-agent reinforcement learning (MARL).We then systematically describe four main categories of the MAHRL method from the angle of hierarchical learning,which includes Option,HAM,MAXQ and End-to-End.Finally,we end up with summarizing the application status of MAHRL in robot control,game decision making and mission planning. Keywords:artificial intelligence;machine learning:reinforcement learning;multi-agent;summary;reinforcement learn- ing;hierarchical reinforcement learning;application status 近年来,以深度学习(deep learning,DL)为核问题上取得了众多超越人类水平的成果,使得 心的智能技术取得了长足的进步山,特别是以深 面向自主认知的智能决策有望得到进一步发展, 度强化学习(deep reinforcement learning,.DRL)为并取得关键性突破。强化学习(reinforcement 代表的智能方法在解决雅达利游戏、棋类博弈对 learning,.RL)作为解决序贯决策问题的重要方法 抗、即时策略游戏(real-time strategy,RTS)等决策 其通过与环境的交互试错来学习策略,恰好契合 了人类的经验学习和决策思维方式,可以有效解 收稿日期:2019-09-10. 基金项目:国家社会科学基金项目(2019SKJC-083), 决样本数据获取难等问题。而单Agent系统无法 通信作者:殷吕盛.E-mail:yincsl989@163.com. 实现多个决策者之间的相互协作或竞争关系,往DOI: 10.11992/tis.201909027 多智能体分层强化学习综述 殷昌盛,杨若鹏,朱巍,邹小飞,李峰 (国防科技大学 信息通信学院,湖北 武汉 430010) 摘 要:作为机器学习和人工智能领域的一个重要分支,多智能体分层强化学习以一种通用的形式将多智能体 的协作能力与强化学习的决策能力相结合,并通过将复杂的强化学习问题分解成若干个子问题并分别解决,可 以有效解决空间维数灾难问题。这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的 一种潜在途径。首先对多智能体分层强化学习中涉及的主要技术进行阐述,包括强化学习、半马尔可夫决策过 程和多智能体强化学习;然后基于分层的角度,对基于选项、基于分层抽象机、基于值函数分解和基于端到端 等 4 种多智能体分层强化学习方法的算法原理和研究现状进行了综述;最后介绍了多智能体分层强化学习在 机器人控制、博弈决策以及任务规划等领域的应用现状。 关键词:人工智能;机器学习;强化学习;多智能体;综述;深度学习;分层强化学习;应用现状 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2020)04−0646−10 中文引用格式:殷昌盛, 杨若鹏, 朱巍, 等. 多智能体分层强化学习综述 [J]. 智能系统学报, 2020, 15(4): 646–655. 英文引用格式:YIN Changsheng, YANG Ruopeng, ZHU Wei, et al. A survey on multi-agent hierarchical reinforcement learning[J]. CAAI transactions on intelligent systems, 2020, 15(4): 646–655. A survey on multi-agent hierarchical reinforcement learning YIN Changsheng,YANG Ruopeng,ZHU Wei,ZOU Xiaofei,LI Feng (School of Information and Communication, National University of Defense Technology, Wuhan 430010, China) Abstract: As an important research area in the field of machine learning and artificial intelligence, multi-agent hierarch￾ical reinforcement learning (MAHRL) integrates the advantages of the collaboration of multi-agent system (MAS) and the decision making of reinforcement learning (RL) in a general-purpose form, and decomposes the RL problem into sub-problems and solves each of them to overcome the so-called curse of dimensionality. So MAHRL offers a potential way to solve large-scale and complex decision problem. In this paper, we systematically describe three key technologies of MAHRL: reinforcement learning (RL), Semi Markov Decision Process (SMDP), multi-agent reinforcement learning (MARL). We then systematically describe four main categories of the MAHRL method from the angle of hierarchical learning, which includes Option, HAM, MAXQ and End-to-End. Finally, we end up with summarizing the application status of MAHRL in robot control, game decision making and mission planning. Keywords: artificial intelligence; machine learning; reinforcement learning; multi-agent; summary; reinforcement learn￾ing; hierarchical reinforcement learning; application status 近年来,以深度学习 (deep learning,DL) 为核 心的智能技术取得了长足的进步[1] ,特别是以深 度强化学习 (deep reinforcement learning,DRL) 为 代表的智能方法在解决雅达利游戏、棋类博弈对 抗、即时策略游戏 (real-time strategy, RTS) 等决策 问题上取得了众多超越人类水平的成果[2-6] ,使得 面向自主认知的智能决策有望得到进一步发展, 并取得关键性突破。强化学习 (reinforcement learning,RL) 作为解决序贯决策问题的重要方法[5] , 其通过与环境的交互试错来学习策略,恰好契合 了人类的经验学习和决策思维方式,可以有效解 决样本数据获取难等问题。而单 Agent 系统无法 实现多个决策者之间的相互协作或竞争关系,往 收稿日期:2019−09−10. 基金项目:国家社会科学基金项目 (2019-SKJJ-C-083). 通信作者:殷昌盛. E-mail:yincs1989@163.com. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
©2008-现在 cucdc.com 高等教育资讯网 版权所有