正在加载图片...
第4期 殷昌盛,等:多智能体分层强化学习综述 ·649· 性和灾难空间等问题,其适应性和鲁棒性有待提升。 tion间的调用形成分层控制结构。其中Option根 2)多智能体强化学习策略研究。目前MARL 据先验知识提前确定或者通过学习获得。根据是 的学习策略主要可以分为3类:基于共享、基于 基于马尔可夫或者是半马尔可夫,Option方法又 对策和基于最佳响应的多智能体强化学习。①基 可以分为两类:基于马尔可夫决策过程的Markov- 于共享的MARL:其主要思想是研究动作选择前 Option和基于半马尔可夫决策过程的Semi-Markov- Agent之间的相互交互、信息共享以及值函数更 Option 新方法,基于分布式强化学习提高学习速度,典 Markov--Option<g,π,B>三元组分别代表Op 型算法有状态共享、经验共享、策略共享和建议 tion的入口状态集、内部策略和终止条件。Op 共享等。②基于对策的MARL:其主要思想是以 tion开始执行的前提条件是当前状态属于入口状 对策论为基础,综合考虑所有Agent的值函数,寻 态集,即s二P,其中入口状态集P二S。内部策略 求某种对策下的平衡来选择动作,代表算法有 π一般表示为π:p×A→0,1】,其中A为在入口 Minimax-Q、Nash-Q、WoLF、CE-Q等。③基于最 状态集P上能够执行的基本动作集。终止条件B 佳响应的MARL:其主要思想是在其他Agent无 为基于状态了终止的概率集合B(),一般表示为 论采取何种策略情况下寻求最优策略,算法主要 B:S→[0,1]。因此B(sc)=1一般作为Option任务 依赖于收敛准则和无憾准则,典型算法有PHC、 的子目标状态点sc的终止条件,同时A。可以视 IGA、GIGA、GIGA-WoLF等。 为Markov--Option的一种特例。 Semi-Markov-Option<p,4,B>三元组含义类 2多智能体分层强化学习方法 似。同样其Option开始执行的前提条件ssp,其 基于强化学习的智能决策面临的瓶颈之一是 中入口状态集psS,且其只能包含该Option可能 奖赏延时,如果以最终目标为导向来优化策略, 探索到的所有状态。内部策略为μ:9×O。→ 其带来的维数灾难问题会使算法效率非常低27。 [0,1],其中O。为在入口状态集9上能够执行的基 本动作集。终止条件B为基于状态s终止的概 同时由于单Agent系统无法实现多个决策者之间 率集合B(s),而B(sc)=1通常也是Option任务的 存在相互协作或竞争关系,这就需要引入多智能 子目标状态点sc的终止条件。 体,然而多智能体的参与又会带来维度灾难等问 题。HRL基于任务分层来学习每个子任务的策 针对Option强化学习问题,Precup等29提出 了一种基于多时间步模型的单步模型泛化方法。 略,并将多个子任务的策略组合形成有效的全局 策略,可以有效解决维数灾难问题2。 对于任意Option o,设s(o,s,t)表示在1时刻、状态 s下o被启动,则状态s下Option o获得的累计奖 MAHRL是MARL和HRL相结合的结果。 赏R(s,o)和状态转移概率P(sIs,o)可重新定义为 二者结合有两种思路:一是基于分层来解决MARL R(s,0)= 问题,二是采用多智能体解决HRL问题,所以现 E{,+yT41+…+y-lr4-is(o,s,t月 (2) 有MAHRL可根据采用的HRL方法或者MARL 和 方法等不同角度进行分类。由于目前的研究多集 中于前者,本文从分层强化学习的角度对多智能 P(s'ls,0)= (3) = 体分层强化学习方法进行探讨,即基于选项(op 式中:t为Option o持续的总时间步,对于所有状 tion)、基于分层抽象机(hierarchical of abstract ma- 态seS,P(s,t)为Option o从状态s开始经过T chines,HAM、基于值函数分解(MaxQ value func- 个时间步后终止于状态的概率。 tion decomposition)和基于端到端的(end to end)多 此时Q-Learning的值函数迭代公式为 智能体分层强化学习。 Qk+1(s,o)=(1-a4)Q(,o)+ 2.1基于选项的多智能体分层强化学习 ax[r+y'maxeo.Qr(s',o)] (4) 基于选项的多智能体分层强化学习主要是采 Agent的每次学习执行都是以一个Option终 用Option分层强化学习方法来解决多智能体强 止为前提,故造成其利用率不高,为此Precup 化学习问题。Option是一种典型的分层强化学习 基于Markov-Option提出了一种面向单时间步 方法,其最早由Sutton提出,主要思想是基于选 Q-Learning的Option方法,并证明了其收敛性。 项(Option)的学习任务抽象,其中Option本质上 Tang等u则针对StarCraft游戏问题,根据作战规 为在某状态子空间里完成相应子任务的动作序 则不同,作战要素和动作空间组合不同设计101 列。其中Option本身也视作为一种特殊的动作, 种输入特征向量选项,实现了订单生产的强化 并与基本动作共同构成动作集,通过上下层Op- 学习。性和灾难空间等问题,其适应性和鲁棒性有待提升。 2) 多智能体强化学习策略研究。目前 MARL 的学习策略主要可以分为 3 类:基于共享、基于 对策和基于最佳响应的多智能体强化学习。①基 于共享的 MARL:其主要思想是研究动作选择前 Agent 之间的相互交互、信息共享以及值函数更 新方法,基于分布式强化学习提高学习速度,典 型算法有状态共享、经验共享、策略共享和建议 共享等。②基于对策的 MARL:其主要思想是以 对策论为基础,综合考虑所有 Agent 的值函数,寻 求某种对策下的平衡来选择动作,代表算法有 Minimax-Q、Nash-Q、WoLF、CE-Q 等。③基于最 佳响应的 MARL:其主要思想是在其他 Agent 无 论采取何种策略情况下寻求最优策略,算法主要 依赖于收敛准则和无憾准则,典型算法有 PHC、 IGA、GIGA、GIGA-WoLF 等。 2 多智能体分层强化学习方法 基于强化学习的智能决策面临的瓶颈之一是 奖赏延时,如果以最终目标为导向来优化策略, 其带来的维数灾难问题会使算法效率非常低[27]。 同时由于单 Agent 系统无法实现多个决策者之间 存在相互协作或竞争关系,这就需要引入多智能 体,然而多智能体的参与又会带来维度灾难等问 题。HRL 基于任务分层来学习每个子任务的策 略,并将多个子任务的策略组合形成有效的全局 策略,可以有效解决维数灾难问题[28]。 MAHRL 是 MARL 和 HRL 相结合的结果。 二者结合有两种思路:一是基于分层来解决 MARL 问题,二是采用多智能体解决 HRL 问题,所以现 有 MAHRL 可根据采用的 HRL 方法或者 MARL 方法等不同角度进行分类。由于目前的研究多集 中于前者,本文从分层强化学习的角度对多智能 体分层强化学习方法进行探讨,即基于选项 (op￾tion)、基于分层抽象机 (hierarchical of abstract ma￾chines,HAM)、基于值函数分解 (MaxQ value func￾tion decomposition) 和基于端到端的 (end to end) 多 智能体分层强化学习。 2.1 基于选项的多智能体分层强化学习 基于选项的多智能体分层强化学习主要是采 用 Option 分层强化学习方法来解决多智能体强 化学习问题。Option 是一种典型的分层强化学习 方法,其最早由 Sutton 提出[28] ,主要思想是基于选 项 (Option) 的学习任务抽象,其中 Option 本质上 为在某状态子空间里完成相应子任务的动作序 列。其中 Option 本身也视作为一种特殊的动作, 并与基本动作共同构成动作集,通过上下层 Op￾tion 间的调用形成分层控制结构。其中 Option 根 据先验知识提前确定或者通过学习获得。根据是 基于马尔可夫或者是半马尔可夫,Option 方法又 可以分为两类:基于马尔可夫决策过程的 Markov￾Option 和基于半马尔可夫决策过程的 Semi-Markov￾Option。 < φ, π, β > s ⊆ φ φ ⊆ S π π : φ× Aφ → [0,1] Aφ φ β s ′ β(s ′ ) β : S → [0,1] β(sG) = 1 sG Aφ Markov-Option 三元组分别代表 Op￾tion 的入口状态集、内部策略和终止条件。Op￾tion 开始执行的前提条件是当前状态属于入口状 态集,即 ,其中入口状态集 。内部策略 一般表示为 ,其中 为在入口 状态集 上能够执行的基本动作集。终止条件 为基于状态 终止的概率集合 ,一般表示为 。因此 一般作为 Option 任务 的子目标状态点 的终止条件,同时 可以视 为 Markov-Option 的一种特例。 < φ, µ, β > s ⊆ φ φ ⊆ S µ : φ×Oφ → [0,1] Oφ φ β s ′ β(s ′ ) β(sG) = 1 sG Semi-Markov-Option 三元组含义类 似。同样其 Option 开始执行的前提条件 ,其 中入口状态集 ,且其只能包含该 Option 可能 探索到的所有状态。内部策略为 ,其中 为在入口状态集 上能够执行的基 本动作集。终止条件 为基于状态 终止的概 率集合 ,而 通常也是 Option 任务的 子目标状态点 的终止条件。 ε(o,s,t) R(s,o) P(s ′ |s,o) 针对 Option 强化学习问题,Precup 等 [29] 提出 了一种基于多时间步模型的单步模型泛化方法。 对于任意 Option o,设 表示在 t 时刻、状态 s 下 o 被启动,则状态 s 下 Option o 获得的累计奖 赏 和状态转移概率 可重新定义为 R(s,o) = E { rt +γrt+1 +···+γ τ−1 rt+τ−1|ε(o,s,t) } (2) 和 P(s ′ |s,o) = ∑∞ τ=1 γ τP(s ′ ,τ) (3) τ s ∈ S P(s ′ ,τ) s τ s ′ 式中: 为 Option o 持续的总时间步,对于所有状 态 , 为 Option o 从状态 开始经过 个时间步后终止于状态 的概率。 此时 Q-Learning 的值函数迭代公式为 Qk+1 (s,o) = (1−αk)Qk (s,o)+ αk [ r +γ τmaxo ′∈Os ′ Qk(s ′ ,o ′ ) ] (4) Agent 的每次学习执行都是以一个 Option 终 止为前提,故造成其利用率不高,为此 Precup[30] 基于 Markov-Option 提出了一种面向单时间步 Q-Learning 的 Option 方法,并证明了其收敛性。 Tang 等 [31] 则针对 StarCraft 游戏问题,根据作战规 则不同,作战要素和动作空间组合不同设计 101 种输入特征向量选项,实现了订单生产的强化 学习。 第 4 期 殷昌盛,等:多智能体分层强化学习综述 ·649·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有