正在加载图片...
·892· 智能系统学报 第15卷 访问计数法使用访问次数定义状态的陌生程 2.6分层强化学习 度,鼓励智能体探索更陌生的状态,以提高探索 分层强化学习(HRL)是一类使用分层策略结 能力和降低对奖励估计的不确定性。Strehl等a7 构的方法,分层的结构能够学习不同层次的策 提出了一种基于模型的内在奖励方法,使用与状 略,从而有效解决维度爆炸的问题6s。分层强 态动作对计数的平方根成反比的内部奖励,并理 化学习方法的上层策略往往能够处理更大时间尺 论证明了其最优性: 度的决策,同时分层强化学习方法还能缩小各层 rm(s,a)=BW(s,a)i 策略的动作序列空间,进一步提高了解决稀疏奖 式中:B是常系数;N(s,a)是状态动作对(s,a)的 励问题的能力。 计数值。为了将访问计数法推广到高维连续状态 目前用于稀疏奖励问题的分层强化学习算法 空间中,Tang等使用哈希函数将连续的状态空 主要有两类,基于选项6(option)的方法和基于 子目标Is(subgoal)的方法。 间离散化进行计数,该方法在多个连续动作控制 问题中取得了成功。 基于选项的方法结构简单,上层策略在多个 预测差法通过学习环境的状态转移,使用预 下层策略中进行选择,被选择的下层策略输出动 作,如图4所示。Sutton等s将基于选项的分层 测误差作为内在奖励,能降低环境动态的不确定 性。预测差法中使用状态3,和动作4,来预测新 算法表述为半马尔可夫决策过程(SMDP),并推导 的状态s+1的方法被称作前向动态方法(forward 出在动态规划、Q-Learning中基于选项方法的公 dynamic))9。Stadie等B提出一种根据编码后的 式。Bacon等)将基于选项的分层方法和策略梯 状态(s,)和动作a,来预测(s+)的前向动态方 度法结合,提出了Option-Critic算法,并通过实验 法,使用归一化的预测误差计算内在奖励,预测 验证了该方法能够学习到具有实际意义的选项策 误差为 略。Frans等s结合元学习方法来训练基于选项 的分层结构,在多个连续动作控制问题中显著提 e(5.a)=(s1)-M((5,).a) 高了学习速度。 其中M表示预测网络,该方法能够有效解决大规 选择子策略 模游戏环境的探索问题。Pathak等认为好奇心 主策略0 驱动存在电视噪声问题,于是提出ICM(intrinsic curiosity module),在前向动态模型的基础上增加 子策略, 状态s 环境 奖励r 了使用(s+)和(s)来预测a,的逆向模型,如 子策略甲: 图3所示。逆向模型的作用是提取对智能体选择 动作有影响的特征啊,能够缓解电视噪声问题。 子策略o 预测动作a, 逆向模型 动作a 图4基于选项的分层结构示意图 状态S 状态映射 Fig.4 Schematic of option-based HRL methods 内在奖励r 状态S, 状态映射 -(S) 基于子目标的方法结构则是:上层策略生成 动作a 前向模型 子目标,下层策略输出动作去实现子目标,如图5 所示。Vezhnevets等s7提出FeUdal Networks,.将 图3ICM原理图 子目标设定为隐状态空间中的方向,在蒙特祖玛 Fig.3 Schematic of ICM 复仇等多个Atari游戏中的表现均超过基线算 状态编码是高维连续状态空间下的好奇心驱 法。Nachum等s81认为,采用离线策略训练分层 动算法一个重要研究内容。Burda等l对比了 结构将因为策略的改变产生偏差,可能导致训练 ICM、VAE、Random Network、Pixels4种编码方 不稳定,因此提出了使用离线数据校正的HRO 式在54个游戏中的实验结果,得出以下结论:ICM 算法,在Ant-Gather、Ant-Maze等复杂的连续动作 的泛化性最好,Random Network也足以在45%的 控制环境中表现均优于FeUdal Networks。Ley等例 游戏中超过ICM,意味着很多游戏只需使用固定 提出了HAC(hierarchical actor critic),该方法在基 的随机网络就能够提取足够的特征用于策略学 于子目标的分层算法基础上,结合了事后经验回 习,对后续的研究具有启示作用。 放算法极大提升了学习速度且表现好于HRO。访问计数法使用访问次数定义状态的陌生程 度,鼓励智能体探索更陌生的状态,以提高探索 能力和降低对奖励估计的不确定性。Strehl 等 [47] 提出了一种基于模型的内在奖励方法,使用与状 态动作对计数的平方根成反比的内部奖励,并理 论证明了其最优性: rin (s,a) = βN(s,a) − 1 2 式中: β 是常系数; N(s,a) 是状态动作对 (s,a) 的 计数值。为了将访问计数法推广到高维连续状态 空间中,Tang 等 [48] 使用哈希函数将连续的状态空 间离散化进行计数,该方法在多个连续动作控制 问题中取得了成功。 st at st+1 ϕ(st) at ϕ(st+1) 预测差法通过学习环境的状态转移,使用预 测误差作为内在奖励,能降低环境动态的不确定 性。预测差法中使用状态 和动作 来预测新 的状态 的方法被称作前向动态方法 (forward dynamic)[49]。Stadie 等 [50] 提出一种根据编码后的 状态 和动作 来预测 的前向动态方 法,使用归一化的预测误差计算内在奖励,预测 误差为 e (st ,at ,st+1) = ∥ϕ(st+1)− M (ϕ(st),at)∥ 2 2 M ϕ(st+1) ϕ(st) at 其中 表示预测网络,该方法能够有效解决大规 模游戏环境的探索问题。Pathak 等 [45] 认为好奇心 驱动存在电视噪声问题,于是提出 ICM(intrinsic curiosity module),在前向动态模型的基础上增加 了使用 和 来预测 的逆向模型,如 图 3 所示。逆向模型的作用是提取对智能体选择 动作有影响的特征[45] ,能够缓解电视噪声问题。 动作at 状态St 状态映射 状态St+1 状态映射 前向模型 内在奖励rt 预测动作at 逆向模型 ϕ (St+1) ϕ (St ) 图 3 ICM 原理图 Fig. 3 Schematic of ICM 状态编码是高维连续状态空间下的好奇心驱 动算法一个重要研究内容。Burda 等 [16] 对比了 ICM、VAE[51] 、Random Network、Pixels 4 种编码方 式在 54 个游戏中的实验结果,得出以下结论:ICM 的泛化性最好,Random Network 也足以在 45% 的 游戏中超过 ICM,意味着很多游戏只需使用固定 的随机网络就能够提取足够的特征用于策略学 习,对后续的研究具有启示作用。 2.6 分层强化学习 分层强化学习 (HRL) 是一类使用分层策略结 构的方法,分层的结构能够学习不同层次的策 略,从而有效解决维度爆炸的问题[16, 52]。分层强 化学习方法的上层策略往往能够处理更大时间尺 度的决策,同时分层强化学习方法还能缩小各层 策略的动作序列空间,进一步提高了解决稀疏奖 励问题的能力。 目前用于稀疏奖励问题的分层强化学习算法 主要有两类[52] ,基于选项[53] (option) 的方法和基于 子目标[54] (subgoal) 的方法。 基于选项的方法结构简单,上层策略在多个 下层策略中进行选择,被选择的下层策略输出动 作,如图 4 所示。Sutton 等 [ 53] 将基于选项的分层 算法表述为半马尔可夫决策过程 (SMDP),并推导 出在动态规划、Q-Learning 中基于选项方法的公 式。Bacon 等 [55] 将基于选项的分层方法和策略梯 度法结合,提出了 Option-Critic 算法,并通过实验 验证了该方法能够学习到具有实际意义的选项策 略。Frans 等 [56] 结合元学习方法来训练基于选项 的分层结构,在多个连续动作控制问题中显著提 高了学习速度。 动作a 状态s 奖励r 子策略φ3 子策略φ1 子策略φ2 环境 主策略θ 选择子策略 图 4 基于选项的分层结构示意图 Fig. 4 Schematic of option-based HRL methods 基于子目标的方法结构则是:上层策略生成 子目标,下层策略输出动作去实现子目标,如图 5 所示。Vezhnevets 等 [57] 提出 FeUdal Networks,将 子目标设定为隐状态空间中的方向,在蒙特祖玛 复仇等多个 Atari 游戏中的表现均超过基线算 法。Nachum 等 [ 58] 认为,采用离线策略训练分层 结构将因为策略的改变产生偏差,可能导致训练 不稳定,因此提出了使用离线数据校正的 HIRO 算法,在 Ant-Gather、Ant-Maze 等复杂的连续动作 控制环境中表现均优于 FeUdal Networks。Levy 等 [59] 提出了 HAC(hierarchical actor critic),该方法在基 于子目标的分层算法基础上,结合了事后经验回 放算法极大提升了学习速度且表现好于 HIRO。 ·892· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有