正在加载图片...
·652· 智能系统学 报 第15卷 提出了一种Manager-Worker学习方法o,也取得 作策略学习困难等问题,提出了一种基于参数共 了不错的效果。对于复杂的决策问题,人工分层 享的多智能体梯度下降Sara()强化学习算法 和抽象不仅费时费力,而且结果难免主观,因此 (PS-MAGDS)算法s2,用以解决星际争霸微观操 采用基于端到端分层强化学习必然是将来研究的 作中的多智能体决策问题;20l9年,DeepMind在 一个热点方向。 《Science》中介绍了一种新型的多智能体分层强 化学习策略),其在《雷神之锤》游戏中不仅学 3多智能体分层强化学习的应用 会了如何夺旗,同时也能学到一些不同于人类的 3.1多智能体分层强化学习在机器人控制领域 团队协作策略。 的应用 3.3多智能体分层强化学习在任务规划领域的 多智能体分层强化学习在机器人控制领域开 应用 展了大量研究与应用,其中最为典型的应用是足 任务规划是一项多领域相关、多层面运用以 球机器人比赛1。足球机器人系统是一个典型 及多系统集成的技术,其核心思想是基于模型和 的多智能体系统,每个机器人球员可以看作一 数据对要素进行全面分析,从而实现各类资源的 个Agent,.其需要综合考虑自身当前状态、其他球 优化配置以及各类实体行动计划的协调等636。 员状态以及动作来做出决策,即需要基于组合状 传统的军事运筹学、专家系统、启发式算法虽然 态和组合动作来选择动作,是多智能体分层强化 能很好解决局部规划问题,但仍存在易陷入局部 学习方法适用的典型情况。LU等阿针对足球机 最优、数据规模大、收敛速度慢以及规则和样本 器人问题,提出了一种基于投票的多智能体强化 获取难等问题6s-6。Zheng等I67为解决传统算法 学习方法,其采用投票的方式来综合所有Agent 收敛速度慢、效率低等问题,提出了一种基于分 的策略,通过对综合策略的学习实现Agent之间 层强化学习及人工势场的多Agent路径规划方 的协作。DUAN等研究了基于智能体动作预 法,并基于出租车问题对该算法进行了仿真实 测的多智能体强化学习算法并应用在足球机器人 验。针对多星协同任务规划问题,Wang等6引 角色分配问题中,其核心思想是利用贝叶斯分类 入约束惩罚算子和多星联合惩罚算子对卫星Agent 器实现其他Agent动作的预测4),然后基于策略 原始的效用值增益函数进行改进,提出了一种基 共享机制实现多智能体之间的交互,加速协作策 于多Agent强化学习的多星协同任务规划算法。 略的学习速度,从而实现多机器人的动态角色分 为降低由Agent之间交互所引起的通信代价,该 配和分工协作。 算法使用了基于黑板结构的多星交互方式,仿真 3.2多智能体分层强化学习在博弈决策领域的 结果显示该方法在解决多星协同任务规划问题上 应用 取得了较好的效果。 求解博弈决策问题一直是人工智能领域的难 虽然MAHRL在解决复杂决策问题上有着巨 题,基于知识与规则的求解方法可以有效解决状 大的潜力,并且也已有很多研究者对其展开了研 态规模不大的博弈决策问题0。然而对于类似 究和在诸多领域中实现了应用,但依然存在很多 于作战等复杂博弈决策问题,其巨大的状态和决 问题和瓶颈值得进一步探索和研究。一是方法的 策空间,同时还有战争迷雾等不确定性问题,基 可扩展性方面。当前对MAHRL的研究主要集中 于人工的状态抽象和解析求解是相当困难和不现 在以RTS游戏为代表的博弈决策问题,聚焦具体 实的1s1。多智能体分层强化学习的不断发展为 的离散动作和状态空间背景,其游戏智能决策、 求此类问题开辟了一条新的道路。目前比较典型 战略决策尚未真正意义实现,在机械制造、资源 的研究是针对星际争霸、王者荣耀等RTS游戏 配置、自动驾驶等具体应用领域更是处于探索阶 AI开展研究546。其中我国阿里巴巴认知计算实 段。因此研究面向海量智能体、复杂环境应用的 验室提出的多智能体双向协调网络(BiCNet)方 MAHRL方法是未来研究的重要方向。二是策略 法6,其通过采用actor-critic表达的向量化扩展, 分层的自主性方面。现在的MAHRL方法普遍基 即使在博弈双方的Agent数量都为任意、不同地 于马尔可夫决策框架,环境是已知或可预测的情 形以及不同战斗类型的情况下都能实现智能自主 况,同时现有的策略分层大部分是基于一定的先 决策:其次,即使在没有任何人类经验数据或标 验知识,而现实中许多决策问题存在不可预测 签数据的情况下,BiCNet同样能学到一些与人类 迷雾等问题,所以如何建立一种端到端和具有较 玩家相似的团队策略。中科院自动化所针对星际 强鲁棒性的自动策略分层方法是需要进一步研究 争霸中微观操作存在的状态、行动空间复杂和合 的。三是与其他方法的结合方面。MAHRL本身提出了一种 Manager-Worker 学习方法[40] ,也取得 了不错的效果。对于复杂的决策问题,人工分层 和抽象不仅费时费力,而且结果难免主观,因此 采用基于端到端分层强化学习必然是将来研究的 一个热点方向。 3 多智能体分层强化学习的应用 3.1 多智能体分层强化学习在机器人控制领域 的应用 多智能体分层强化学习在机器人控制领域开 展了大量研究与应用,其中最为典型的应用是足 球机器人比赛[41-43]。足球机器人系统是一个典型 的多智能体系统[44] ,每个机器人球员可以看作一 个 Agent,其需要综合考虑自身当前状态、其他球 员状态以及动作来做出决策,即需要基于组合状 态和组合动作来选择动作,是多智能体分层强化 学习方法适用的典型情况。LIU 等 [45] 针对足球机 器人问题,提出了一种基于投票的多智能体强化 学习方法,其采用投票的方式来综合所有 Agent 的策略,通过对综合策略的学习实现 Agent 之间 的协作。DUAN 等 [46] 研究了基于智能体动作预 测的多智能体强化学习算法并应用在足球机器人 角色分配问题中,其核心思想是利用贝叶斯分类 器实现其他 Agent 动作的预测[47] ,然后基于策略 共享机制实现多智能体之间的交互,加速协作策 略的学习速度,从而实现多机器人的动态角色分 配和分工协作。 3.2 多智能体分层强化学习在博弈决策领域的 应用 求解博弈决策问题一直是人工智能领域的难 题,基于知识与规则的求解方法可以有效解决状 态规模不大的博弈决策问题[48-50]。然而对于类似 于作战等复杂博弈决策问题,其巨大的状态和决 策空间,同时还有战争迷雾等不确定性问题,基 于人工的状态抽象和解析求解是相当困难和不现 实的[51-53]。多智能体分层强化学习的不断发展为 求此类问题开辟了一条新的道路。目前比较典型 的研究是针对星际争霸、王者荣耀等 RTS 游戏 AI 开展研究[54-60]。其中我国阿里巴巴认知计算实 验室提出的多智能体双向协调网络 (BiCNet) 方 法 [61] ,其通过采用 actor-critic 表达的向量化扩展, 即使在博弈双方的 Agent 数量都为任意、不同地 形以及不同战斗类型的情况下都能实现智能自主 决策;其次,即使在没有任何人类经验数据或标 签数据的情况下,BiCNet 同样能学到一些与人类 玩家相似的团队策略。中科院自动化所针对星际 争霸中微观操作存在的状态、行动空间复杂和合 作策略学习困难等问题,提出了一种基于参数共 享的多智能体梯度下降 Sara(λ) 强化学习算法 (PS-MAGDS) 算法[62] ,用以解决星际争霸微观操 作中的多智能体决策问题;2019 年,DeepMind 在 《Science》中介绍了一种新型的多智能体分层强 化学习策略[3] ,其在《雷神之锤》游戏中不仅学 会了如何夺旗,同时也能学到一些不同于人类的 团队协作策略。 3.3 多智能体分层强化学习在任务规划领域的 应用 任务规划是一项多领域相关、多层面运用以 及多系统集成的技术,其核心思想是基于模型和 数据对要素进行全面分析,从而实现各类资源的 优化配置以及各类实体行动计划的协调等[63-64]。 传统的军事运筹学、专家系统、启发式算法虽然 能很好解决局部规划问题,但仍存在易陷入局部 最优、数据规模大、收敛速度慢以及规则和样本 获取难等问题[65-66]。Zheng 等 [67] 为解决传统算法 收敛速度慢、效率低等问题,提出了一种基于分 层强化学习及人工势场的多 Agent 路径规划方 法,并基于出租车问题对该算法进行了仿真实 验。针对多星协同任务规划问题,Wang 等 [68] 引 入约束惩罚算子和多星联合惩罚算子对卫星 Agent 原始的效用值增益函数进行改进,提出了一种基 于多 Agent 强化学习的多星协同任务规划算法。 为降低由 Agent 之间交互所引起的通信代价,该 算法使用了基于黑板结构的多星交互方式,仿真 结果显示该方法在解决多星协同任务规划问题上 取得了较好的效果。 虽然 MAHRL 在解决复杂决策问题上有着巨 大的潜力,并且也已有很多研究者对其展开了研 究和在诸多领域中实现了应用,但依然存在很多 问题和瓶颈值得进一步探索和研究。一是方法的 可扩展性方面。当前对 MAHRL 的研究主要集中 在以 RTS 游戏为代表的博弈决策问题,聚焦具体 的离散动作和状态空间背景,其游戏智能决策、 战略决策尚未真正意义实现,在机械制造、资源 配置、自动驾驶等具体应用领域更是处于探索阶 段。因此研究面向海量智能体、复杂环境应用的 MAHRL 方法是未来研究的重要方向。二是策略 分层的自主性方面。现在的 MAHRL 方法普遍基 于马尔可夫决策框架,环境是已知或可预测的情 况,同时现有的策略分层大部分是基于一定的先 验知识,而现实中许多决策问题存在不可预测、 迷雾等问题,所以如何建立一种端到端和具有较 强鲁棒性的自动策略分层方法是需要进一步研究 的。三是与其他方法的结合方面。MAHRL 本身 ·652· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有