就是多智能体和分层强化学习两种方法的结合, 但由于其自身原理所限,MAHRL 在探索的有效 性、样本的利用率、模型的鲁棒性等方面仍不够 理想。因此,针对性地研究监督学习、元学习、模 仿学习、迁移学习以及增量式学习等其他方法在 MAHRL 中的应用与结合,将是 MAHRL 研究和 发展的一个重要方向。 4 结束语 本文对多智能体分层强化学习进行了回顾, 首先对强化学习、半马尔可夫决策过程、多智能 体技术等相关研究现状进行了介绍,然后基于分 层的角度,对多智能体分层强化学习进行了综 述,阐述了基于选项、基于分层抽象机、基于值函 数分解和基于端到端等 4 种多智能体分层强化学 习方法的算法原理和研究现状。介绍了 MAHRL 在机器人控制、博弈决策以及任务规划等领域的 应用现状。作为解决大规模复杂背景下协同决策 的一种潜在途径,MAHRL 虽然现在仍有许多问 题尚未解决,但可以预见的是,随着研究的不断 深入,多智能体分层强化学习将成为解决智能决 策问题的重要方法。 