第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0L:10.11992tis.202003031 强化学习稀疏奖励算法研究——理论与实验 杨瑞,严江鹏',李秀 (1.清华大学自动化系,北京100084:2.清华大学深圳国际研究生院,广东深圳518055) 摘要:近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖 励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏 奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义。本文调研了稀硫 奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好 奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行 实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依 赖性更低,两类方法均具有重要的研究意义。最后,本文对稀疏奖励算法研究进行了总结与展望。 关键词:强化学习:深度强化学习:机器学习:稀疏奖励:神经网络;人工智能:深度学习 中图分类号:TP181文献标志码:A文章编号:1673-4785(2020)05-0888-12 中文引用格式:杨瑞,严江鹏,李秀.强化学习稀疏奖励算法研究一一理论与实验.智能系统学报,2020,15(⑤):888-899. 英文引用格式:YANG Rui,YAN Jiangpeng,.LI Xiu..Survey of sparse reward algorithms in reinforcement learning一theory and experiment JI.CAAI transactions on intelligent systems,2020,15(5):888-899. Survey of sparse reward algorithms in reinforcement learning-theory and experiment YANG Rui',YAN Jiangpeng',LI Xiu'2 (1.Department of Automation,Tsinghua University,Beijing 100084,China;2.Shenzhen International Graduate School,Tsinghua University,Shenzhen 518055,China) Abstract:In recent years,reinforcement learning has achieved great success in a range of sequential decision-making applications such as games and robotic control.However,the reward signals are very sparse in many real-world situ- ations,which makes it difficult for agents to determine an optimal strategy based on interaction with the environment. This problem is called the sparse reward problem.Research on sparse reward can advance both the theory and actual ap- plications of reinforcement learning.We investigated the current research status of the sparse reward problem and used the external information as the clue to introduce the following six classes of algorithms:reward shaping,imitation learn- ing,curriculum learning,hindsight experience replay,curiosity-driven algorithms,and hierarchical reinforcement learn- ing.To conduct experiments in the sparse reward environment Fetch Reach,we implemented typical algorithms from the above six classes,followed by thorough comparison and analysis of the results.Algorithms that utilize external in- formation were found to outperform those without external information,but the latter are less dependent on data.Both methods have great research significance.At last,summarize the current sparse reward algorithms and forecast future work Keywords:reinforcement learning,deep reinforcement learning;machine learning:sparse reward;neural networks;arti- ficial intelligence;deep learning 收稿日期:2020-03-19. 基金项目:国家自然科学基金项目(41876098). 强化学习(reinforcement learning)是一类智能 通信作者:李秀.E-mail:li.xiu(@sz.tsinghua.edu.cn 体在与环境的交互中不断试错来学习最优策略的
DOI: 10.11992/tis.202003031 强化学习稀疏奖励算法研究——理论与实验 杨瑞1 ,严江鹏1 ,李秀1,2 (1. 清华大学 自动化系,北京 100084; 2. 清华大学 深圳国际研究生院,广东 深圳 518055) 摘 要:近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖 励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏 奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义。本文调研了稀疏 奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好 奇心驱动、分层强化学习等方法。本文在稀疏奖励环境 Fetch Reach 上实现了以上 6 类方法的代表性算法进行 实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依 赖性更低,两类方法均具有重要的研究意义。最后,本文对稀疏奖励算法研究进行了总结与展望。 关键词:强化学习;深度强化学习;机器学习;稀疏奖励;神经网络;人工智能;深度学习 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2020)05−0888−12 中文引用格式:杨瑞, 严江鹏, 李秀. 强化学习稀疏奖励算法研究——理论与实验 [J]. 智能系统学报, 2020, 15(5): 888–899. 英文引用格式:YANG Rui, YAN Jiangpeng, LI Xiu. Survey of sparse reward algorithms in reinforcement learning — theory and experiment[J]. CAAI transactions on intelligent systems, 2020, 15(5): 888–899. Survey of sparse reward algorithms in reinforcement learning — theory and experiment YANG Rui1 ,YAN Jiangpeng1 ,LI Xiu1,2 (1. Department of Automation, Tsinghua University, Beijing 100084, China; 2. Shenzhen International Graduate School, Tsinghua University, Shenzhen 518055, China) Abstract: In recent years, reinforcement learning has achieved great success in a range of sequential decision-making applications such as games and robotic control. However, the reward signals are very sparse in many real-world situations, which makes it difficult for agents to determine an optimal strategy based on interaction with the environment. This problem is called the sparse reward problem. Research on sparse reward can advance both the theory and actual applications of reinforcement learning. We investigated the current research status of the sparse reward problem and used the external information as the clue to introduce the following six classes of algorithms: reward shaping, imitation learning, curriculum learning, hindsight experience replay, curiosity-driven algorithms, and hierarchical reinforcement learning. To conduct experiments in the sparse reward environment Fetch Reach, we implemented typical algorithms from the above six classes, followed by thorough comparison and analysis of the results. Algorithms that utilize external information were found to outperform those without external information, but the latter are less dependent on data. Both methods have great research significance. At last, summarize the current sparse reward algorithms and forecast future work. Keywords: reinforcement learning; deep reinforcement learning; machine learning; sparse reward; neural networks; artificial intelligence; deep learning 强化学习 (reinforcement learning) 是一类智能 体在与环境的交互中不断试错来学习最优策略的 收稿日期:2020−03−19. 基金项目:国家自然科学基金项目 (41876098). 通信作者:李秀. E-mail:li.xiu@sz.tsinghua.edu.cn. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
第5期 杨瑞,等:强化学习稀疏奖励算法研究—理论与实验 ·889· 机器学习方法,主要用于解决序贯决策问题。 R (1) 在最近五年时间里,AlphaGO!)3、AlphaStar!) OpenAIFivel分别在围棋、星际争霸Ⅱ、Dota2击 败了人类最高水平的玩家,强化学习一度成为了 环境 Environment 人工智能最热门的研究领域之一。AlphaGo的主 状态S 奖励r 要作者David Silver认为向,强化学习与深度学习 动作a 相结合,是实现通用人工智能(general intelli- gence)的关键。 状态S, 智能体 在强化学习中,奖励(reward)起到了引导智 Agent 能体学习方向的作用”,缺乏奖励信息将导致智 图1智能体与环境交互示意图 能体学习缓慢甚至无法学习到最优策略,这就是 Fig.1 Schematic of interactions between agent and envir- 稀疏奖励问题(sparse reward problem)。例如,在 onment 蒙特祖玛复仇游戏中,玩家需要依次执行上百个 为了完成最大化累计折扣奖励值的目标,需 动作才能获得奖励,这使其成为了Atari游戏中最 要引人策略(policy)和值函数(value function)两个 困难的任务之一0。此外,在很多实际任务中,不 重要概念。策略可以描述为当前状态,下选择 存在现成的奖励值,人为设计的奖励函数又常常 动作a的概率: 陷入局部最优,这些问题限制了强化学习的实 π(als)=P(als). 际应用。稀疏奖励问题的研究能够降低奖励函数 值函数是指从状态s或状态动作对(s,a)出 的设计难度,提高学习算法的样本利用率,加速 发能获得累积奖励值的期望,用于评价状态、状 策略学习的速度,为强化学习的广泛应用与落地 态动作对的好坏。状态值函数V(s),动作值函数 打下理论基础。 Q(s,a)分别为 本文总结了当前主流的稀疏奖励算法,围绕 V(s)= (2) 是否引入外部引导信息,将当下主流的稀疏奖励 问题解决思路分为两类,分别介绍了奖励塑造) Q(s,a)=E (reward shaping)、模仿学习l(imitation learning)、 .j.-x.a-o (3) 课程学习(curriculum learning)和事后经验回放 深度强化学习与传统强化学习的区别是使用 (hindsight experience replay)、好奇心驱动(curios-- 了深度神经网络来拟合值函数、策略或环境动态 ity-driven algorithms))、分层强化学习(hierarchical 模型。神经网络的引入提高了强化学习解决大 reinforcement learning)等6类算法,并在Mu- 规模复杂问题的能力,在众多领域取得了令人瞩 joco的Fetch Reach环境I下进行了实验验证和 目的成绩。目前的深度强化学习方法可以 分为以下3类:基于值函数的方法、基于策略梯 分析,实验代码开源在以下地址:https:/github. 度(policy gradient)的方法以及Actor-Critic的方法。 com/YangRui2015/Sparse-Reward-Algorithmso 3类方法的代表分别是DQN2-2、REINFORCE2a 1强化学习与稀疏奖励问题数学模型 Actor--Critic2,从Actor--Critie还衍生出A3Cl2 PPO21、DDPG2等一系列当前主流的强化学习 当强化学习问题满足马尔可夫性时,就能将 算法 其描述为由五元组(⑤,A,P,R,y)定义的马尔可夫决 基于值函数的方法,以DQN202为例,用w 策过程(MDP),其中S为状态空间,A为动作空 代表神经网络的参数,其损失函数为四 间,P为状态转移概率矩阵,R为奖励值,y∈(O, 为折扣因子。智能体每个时刻观测到的状态 loss-E(r+ymaxQ(.d.w)-Q(s.a.w (4) S,∈S,根据状态执行动作a,∈A,环境接收到动作 根据式(1)、(3)、(4),在奖励值几乎为零的稀 后转移到新的状态5+1并反馈一个数值的奖励, 疏奖励情况下,值函数的估计Q(s,a)接近零,值 如图1所示。 函数网络更新缓慢。 强化学习的目标就是最大化累计折扣奖 基于策略梯度的方法,以REINFORCE22为 励值-: 例,0代表神经网络的参数,其更新梯度为
机器学习方法[1-2] ,主要用于解决序贯决策问题。 在最近五年时间里,AlphaGO[ 3 ] 、AlphaStar[ 4 ] 、 OpenAIFive[5] 分别在围棋、星际争霸 II、Dota 2 击 败了人类最高水平的玩家,强化学习一度成为了 人工智能最热门的研究领域之一。AlphaGo 的主 要作者 David Silver 认为[6] ,强化学习与深度学习 相结合,是实现通用人工智能 (general intelligence) 的关键。 在强化学习中,奖励 (reward) 起到了引导智 能体学习方向的作用[7-8] ,缺乏奖励信息将导致智 能体学习缓慢甚至无法学习到最优策略,这就是 稀疏奖励问题[9] (sparse reward problem)。例如,在 蒙特祖玛复仇游戏中,玩家需要依次执行上百个 动作才能获得奖励,这使其成为了 Atari 游戏中最 困难的任务之一[10]。此外,在很多实际任务中,不 存在现成的奖励值,人为设计的奖励函数又常常 陷入局部最优[11] ,这些问题限制了强化学习的实 际应用。稀疏奖励问题的研究能够降低奖励函数 的设计难度,提高学习算法的样本利用率,加速 策略学习的速度,为强化学习的广泛应用与落地 打下理论基础[12]。 本文总结了当前主流的稀疏奖励算法,围绕 是否引入外部引导信息,将当下主流的稀疏奖励 问题解决思路分为两类,分别介绍了奖励塑造[13] (reward shaping)、模仿学习[14] (imitation learning)、 课程学习[15] (curriculum learning) 和事后经验回放[11] (hindsight experience replay)、好奇心驱动[16] (curiosity-driven algorithms)、分层强化学习[17] (hierarchical reinforcement learning) 等 6 类算法,并在 Mujoco 的 Fetch Reach 环境[18] 下进行了实验验证和 分析,实验代码开源在以下地址:https://github. com/YangRui2015/Sparse-Reward-Algorithms。 1 强化学习与稀疏奖励问题数学模型 (S,A,P,R, γ) S A P R γ ∈ (0,1] st ∈ S at ∈ A st+1 rt 当强化学习问题满足马尔可夫性时,就能将 其描述为由五元组 定义的马尔可夫决 策过程 (MDP)[1-2] ,其中 为状态空间, 为动作空 间, 为状态转移概率矩阵, 为奖励值, 为折扣因子。智能体每个时刻观测到的状态 ,根据状态执行动作 ,环境接收到动作 后转移到新的状态 并反馈一个数值的奖励 , 如图 1 所示。 强化学习的目标就是最大化累计折扣奖 励值[1-2] : R = ∑∞ k=0 ( γ k rt+k ) . (1) 环境 Environment 智能体 Agent 动作at 状态St+1 奖励rt 状态St 图 1 智能体与环境交互示意图 Fig. 1 Schematic of interactions between agent and environment st at 为了完成最大化累计折扣奖励值的目标,需 要引入策略 (policy) 和值函数 (value function) 两个 重要概念。策略可以描述为当前状态 下选择 动作 的概率: π(at |st) = P(at |st). s (s,a) V (s) Q(s,a) 值函数是指从状态 或状态动作对 出 发能获得累积奖励值的期望,用于评价状态、状 态动作对的好坏。状态值函数 ,动作值函数 分别为 V (s) = E ∑∞ k=0 ( γ k rt+k ) |st = s (2) Q(s,a) = E ∑∞ k=0 ( γ k rt+k ) |st = s, at = a (3) 深度强化学习与传统强化学习的区别是使用 了深度神经网络来拟合值函数、策略或环境动态 模型[8]。神经网络的引入提高了强化学习解决大 规模复杂问题的能力,在众多领域取得了令人瞩 目的成绩[ 1 9 ]。目前的深度强化学习方法可以 分为以下 3 类:基于值函数的方法、基于策略梯 度 (policy gradient) 的方法以及 Actor-Critic 的方法[7]。 3 类方法的代表分别是 DQN[20-21] 、REINFORCE[22] 、 Actor-Critic[23] ,从 Actor-Critic 还衍生出 A3C[24] 、 PPO[25] 、DDPG[26] 等一系列当前主流的强化学习 算法。 基于值函数的方法,以 DQN w [ 20-21] 为例,用 代表神经网络的参数,其损失函数为[20] loss = E [( r +γmax a ′ Q(s ′ ,a ′ ,w)− Q(s,a,w) )2 ] (4) Q(s,a) 根据式 (1)、(3)、(4),在奖励值几乎为零的稀 疏奖励情况下,值函数的估计 接近零,值 函数网络更新缓慢。 θ 基于策略梯度的方法,以 REINFORCE[22] 为 例, 代表神经网络的参数,其更新梯度为 第 5 期 杨瑞,等:强化学习稀疏奖励算法研究——理论与实验 ·889·
·890· 智能系统学报 第15卷 7r(ds:)=Vlogπ(as:)R (5) 励问题中奖励的稀疏性,加快智能体学习速度。 根据式(1)、(5),在稀疏奖励的条件下,累积 通常用R(s,a,s)表示原MDP的奖励函数,用 奖励值R接近零,因此策略网络更新缓慢。 F(s,a,s)表示附加奖励函数,使用奖励塑造后新 基于Actor--Critic!21的方法同理,Critic部分基 MDP的奖励函数为 于值函数更新,Actor部分基于策略梯度更新,稀 R(s,a,s')=R(s,a,s')+F(s,a,s) 疏奖励的条件下两部分梯度更新均接近于零。 但是在新的MDP问题中学习到的最优策略 稀疏奖励问题除了奖励的稀疏性导致学习缓 不一定是原MDP的最优策略,也就可能导致奖 慢外,还可能存在稀疏性带来的估计不可靠的问 励塑造后学习到非理论最优的策略27-2。Ng等2可 题,由于奖励样本少,值函数估计的方差较大,这 证明了当附加奖励函数可以表示为势能函数(s) 会导致模型训练难以收敛。研究者们为解决以上 (potiental based funciton)的差分形式时,能够保证 问题,进行了一系列的研究工作。 最优策略不变。 2稀疏奖励研究现状 F(s,a,s)=y(s)-Φ(s) 其中:s表示s的下一个状态,y是原MDP中的 目前解决稀疏奖励问题的算法主要有奖励塑 折扣因子,势能函数(s)是状态到实数的映射。 造、模仿学习、课程学习、事后经验回放、好奇心 Ng等2刃使用距离、子目标来设计启发式的 驱动、分层强化学习等6类算法,我们可以根据 附加奖励函数,在表格问题中明显加速了学习过 是否引入外部引导信息将算法分为两大类,如图2 程;Jagodnik等29使用距离信息计算和人为主观 所示。引入外部引导信息的算法通常针对特定问 评价两种方式作为奖励函数来控制手臂仿真机器 题,需要相应的领域知识或数据,泛化性较差,同 人,结果均好于优化的比例微分控制器(PD con- 时也因为先验知识的引入,降低了强化学习模型 troller):Ferreira等o将奖励塑造的强化学习方法 的学习难度,通常具有实现简单、学习速度快的 引入对话管理任务中,显著提高了前期训练阶段 特点,这一类型算法有奖励塑造、模仿学习、课程 的表现。 学习。无外部引导信息的算法通过挖掘模型、数 为了克服奖励塑造泛化性较差的问题,研究 据自身的潜能,泛化性能更好,但是模型通常更 者们提出了一些自动化地设计奖励函数的方法。 为复杂,这一类型算法包括好奇心驱动、事后经 Ng等I]提出逆强化学习(inverse reinforcement 验回放、分层强化学习。接下来我们将对各个方 learning)的概念,将专家示例看作为最优或者次 法进行展开介绍。 优的策略,然后从专家示例的数据中学习出奖励 设计奖励函数 函数用于指导智能体训练。Marthi提出基于抽 励塑造 模仿专家 象函数(abstrcat function)的自动奖励塑造方法,通 引入外部引导信息 策略 模仿学习 过求解抽象MDP问题的势能函数,再计算势能 函数的差分就得到了附加奖励函数。 ·课程学习 设置由简到难的课程 2.2模仿学习 稀疏奖励 模仿学习是一类从示例数据中学习策略的方 从失败经历中学习 法。稀疏奖励问题往往具有巨大的状态动作空 事后经验回放 间,难以直接进行探索和学习,使用示例数据进 平衡探索 和利用 好奇心驱动 行监督式的学习能够使智能体快速掌握示例策 无外部引导信息 略,极大减少了训练时间。 分层强化学习 模仿学习中如果只使用示例数据进行监督学 使用分层的策略结构 习,难以泛化到陌生的环境中,且长时间步的决 图2稀疏奖励主流算法 策将导致误差累积,逐渐偏离示例策略B。Ross Fig.2 Mainstream sparse reward algorithms 等证明了误差与时间步的平方成正比,为此提 2.1奖励塑造 出在交互中缓慢移动策略分布的SMLe(stochast-. 奖励塑造通常是利用先验知识人工设计附加 ic mixing iterative learning)算法,并理论证明了其 奖励函数1来引导智能体完成期望任务的一类 收敛性。Nair等B在策略梯度算法中引入行为 方法。合适的附加奖励函数能够有效克服稀疏奖 克隆损失(behavior clone loss)来学习示例策略,能
∇θπ(a|s; θ) = ∇θ logπ(a|s; θ)Rt (5) Rt 根据式 (1)、(5),在稀疏奖励的条件下,累积 奖励值 接近零,因此策略网络更新缓慢。 基于 Actor-Critic[23] 的方法同理,Critic 部分基 于值函数更新,Actor 部分基于策略梯度更新,稀 疏奖励的条件下两部分梯度更新均接近于零。 稀疏奖励问题除了奖励的稀疏性导致学习缓 慢外,还可能存在稀疏性带来的估计不可靠的问 题,由于奖励样本少,值函数估计的方差较大,这 会导致模型训练难以收敛。研究者们为解决以上 问题,进行了一系列的研究工作。 2 稀疏奖励研究现状 目前解决稀疏奖励问题的算法主要有奖励塑 造、模仿学习、课程学习、事后经验回放、好奇心 驱动、分层强化学习等 6 类算法,我们可以根据 是否引入外部引导信息将算法分为两大类,如图 2 所示。引入外部引导信息的算法通常针对特定问 题,需要相应的领域知识或数据,泛化性较差,同 时也因为先验知识的引入,降低了强化学习模型 的学习难度,通常具有实现简单、学习速度快的 特点,这一类型算法有奖励塑造、模仿学习、课程 学习。无外部引导信息的算法通过挖掘模型、数 据自身的潜能,泛化性能更好,但是模型通常更 为复杂,这一类型算法包括好奇心驱动、事后经 验回放、分层强化学习。接下来我们将对各个方 法进行展开介绍。 奖励塑造 课程学习 分层强化学习 模仿学习 引入外部引导信息 设置由简到难的课程 使用分层的策略结构 从失败经历中学习 设计奖励函数 模仿专家 策略 无外部引导信息 好奇心驱动 事后经验回放 稀疏奖励 平衡探索 和利用 图 2 稀疏奖励主流算法 Fig. 2 Mainstream sparse reward algorithms 2.1 奖励塑造 奖励塑造通常是利用先验知识人工设计附加 奖励函数[13] 来引导智能体完成期望任务的一类 方法。合适的附加奖励函数能够有效克服稀疏奖 R(s,a,s ′ ) F(s,a,s ′ ) 励问题中奖励的稀疏性,加快智能体学习速度。 通常用 表 示 原 M DP 的奖励函数,用 表示附加奖励函数,使用奖励塑造后新 MDP 的奖励函数为 R ′ (s,a,s ′ ) = R(s,a,s ′ )+ F (s,a,s ′ ) Φ(s) 但是在新的 MDP 问题中学习到的最优策略 不一定是原 MDP 的最优策略,也就可能导致奖 励塑造后学习到非理论最优的策略[27-28]。Ng 等 [27] 证明了当附加奖励函数可以表示为势能函数 (potiental based funciton) 的差分形式时,能够保证 最优策略不变。 F (s,a,s ′ ) = γΦ(s ′ )−Φ(s) s ′ s γ Φ(s) 其中: 表示 的下一个状态, 是原 MDP 中的 折扣因子,势能函数 是状态到实数的映射。 Ng 等 [ 27] 使用距离、子目标来设计启发式的 附加奖励函数,在表格问题中明显加速了学习过 程;Jagodnik 等 [29] 使用距离信息计算和人为主观 评价两种方式作为奖励函数来控制手臂仿真机器 人,结果均好于优化的比例微分控制器 (PD controller);Ferreira 等 [30] 将奖励塑造的强化学习方法 引入对话管理任务中,显著提高了前期训练阶段 的表现。 为了克服奖励塑造泛化性较差的问题,研究 者们提出了一些自动化地设计奖励函数的方法。 Ng 等 [ 31] 提出逆强化学习 (inverse reinforcement learning) 的概念,将专家示例看作为最优或者次 优的策略,然后从专家示例的数据中学习出奖励 函数用于指导智能体训练。Marthi[32] 提出基于抽 象函数 (abstrcat function) 的自动奖励塑造方法,通 过求解抽象 MDP 问题的势能函数,再计算势能 函数的差分就得到了附加奖励函数。 2.2 模仿学习 模仿学习是一类从示例数据中学习策略的方 法 [14]。稀疏奖励问题往往具有巨大的状态动作空 间,难以直接进行探索和学习,使用示例数据进 行监督式的学习能够使智能体快速掌握示例策 略,极大减少了训练时间。 模仿学习中如果只使用示例数据进行监督学 习,难以泛化到陌生的环境中,且长时间步的决 策将导致误差累积,逐渐偏离示例策略[33]。Ross 等 [33] 证明了误差与时间步的平方成正比,为此提 出在交互中缓慢移动策略分布的 SMILe (stochastic mixing iterative learning) 算法,并理论证明了其 收敛性。Nair 等 [34] 在策略梯度算法中引入行为 克隆损失 (behavior clone loss) 来学习示例策略,能 ·890· 智 能 系 统 学 报 第 15 卷
第5期 杨瑞,等:强化学习稀疏奖励算法研究— 理论与实验 ·891· 够完成复杂的机械臂控制任务,其行动损失函 不同课程阶段对应的分布满足嫡增和权重单 数为 调增加: H(Q(2)0 LBC= (s:l0)-a W+.(a)0 其中:(s,a)是示例数据,π和0分别是智能体的 课程学习的一个难点在于如何自动化地设计 策略和策略的参数。Ho等3将对抗生成网络的 课程的分级,解决这个问题需要考虑训练模型时 思想引入模仿学习提出生成对抗模仿学习(gener-. 的反馈。Graves等3提出一种自适应课程学习 ative adversarial imitation learning,GAL),使用生成 方法,通过预测正确率和网络复杂性的增长来自 模型产生行为数据,使用判别模型区分行为数据 动调整课程的难度,在语言模型训练任务上显著 和专家策略数据,GAL在复杂高维环境的模仿 提高了训练速度。Akkaya等o提出ADR(auto- 任务中超过了现有方法,其优化目标函数为 matic domain randomization),通过设定表现阈值, Ez [log(D(s.a))]+Ez [log(1-D(s,a))]H() 当正确率高于表现阈值时就扩大训练的分布提高 式中:π是生成模型的策略;πE是专家策略;D是 课程难度,反之缩小训练分布,在复杂的魔方操 判别模型;H是熵函数;入是系数。 作任务中取得了成功。 通常模仿学习中的示例状态动作对(s,a,)不 2.4事后经验回放 容易获得,而示例状态序列(5o,51,…,5,)更容易获 事后经验回放(HER)是一种从失败经历中 得,从示例状态序列进行模仿学习的任务被称为 学习的强化学习方法,通过修正失败经历的目标 “从观测学习”(learning from observation)36。 产生奖励信息,解决了奖励的稀疏性问题,同时 Torabi等Im提出BCO(behavioral cloning from ob- 对失败样本的利用极大提高了样本利用效率。G servation),通过学习环境动态模型预测示例观测 表示目标空间,g∈G是实验目标,g∈G是实际实 序列的动作,然后使用行为克隆进行模仿学习, 现的目标,HER将经验数据中目标修改为g,就 在多个任务中的表现超过了GAL。 产生了成功的回合数据用于策略训练。HER的 2.3课程学习 实现将在第3节的实验部分进行更具体的介绍。 课程学习是机器学习中逐步增加任务难度以 目前对于事后经验回放算法的改进主要在于 加快学习速度的方法。在强化学习中课程学习实 降低偏差、改进目标采样方式、适配在线策略算 质上在逐步调整学习的任务分布,智能体在简单 法等。Lanka等认为HER修改目标引入的新 任务上更容易获得奖励,将相对简单的任务上学 数据带来了偏差,提出通过调整真实奖励和HER的 到的策略迁移到复杂任务中,降低了在复杂任务 奖励的权重来降低偏差。Manela等s指出,在目 中探索的难度,因此课程学习能够用于解决稀疏 标物体未移动的情况下,采样的目标只与初始位 奖励问题w。 置有关而与策略无关,这样的样本会给训练带来 Elmant38最早提出在语法学习任务中使用逐 偏差,于是提出Filtered-HER,通过滤去该类型目 步增加训练数据复杂度的方法来训练神经网络, 标来缓解该问题。Rauber等1通过重要性采样 能够解决直接使用全部数据难以训练的问题。 将HER运用到策略梯度方法上,实验结果表明 Bengio等认为,课程学习的本质是逐步调整学 HER明显提高了策略梯度方法的样本利用效率。 习样本的分布,在简单的样本分布上更容易学习 25好奇心驱动 到泛化性好的策略,并通过实验证明了课程学习 好奇心驱动是一类使用内在奖励引导智能 能够提高训练速度和收敛到更优解。Bengio等 体探索环境的方法,高效的探索能够更快地获得 给出了课程学习的数学定义,?表示训练样本,P(?) 外在奖励,同时能够降低环境的奖励、状态转 表示目标训练集分布,入∈[0,1]表示课程学习的阶 移的不确定性,平衡探索与利用,因此好奇心 段,W()是A阶段样本z的采样权重,A阶段训 驱动能解决稀硫奖励问题带来的稀硫性和不可 练分布Q()为 靠性问题。目前的好奇心驱动算法根据内在奖 Q(z)o Wa(zP(z),Yz 励计算方式可以分为访问计数法和预测差法的。 其中Q满足: Bellemare等s通过信息增益(information gain))来 ∫Q(z)dk=1 联系访问计数法和预测差法,证明了两者本质是 Q()=P(),Yz 相同的
够完成复杂的机械臂控制任务,其行动损失函 数为 LBC = ∑N i=1 ∥π(si |θπ)−ai∥ 2 2 (si 其中: ,ai) 是示例数据,π 和 θπ 分别是智能体的 策略和策略的参数。Ho 等 [35] 将对抗生成网络的 思想引入模仿学习提出生成对抗模仿学习 (generative adversarial imitation learning,GAIL),使用生成 模型产生行为数据,使用判别模型区分行为数据 和专家策略数据,GAIL 在复杂高维环境的模仿 任务中超过了现有方法,其优化目标函数为 Eπ [ log(D(s,a))] + EπE [ log(1− D(s,a))] −λH (π) π πE D H λ 式中: 是生成模型的策略; 是专家策略; 是 判别模型; 是熵函数; 是系数。 (st ,at) (s0,s1,··· ,st) 通常模仿学习中的示例状态动作对 不 容易获得,而示例状态序列 更容易获 得,从示例状态序列进行模仿学习的任务被称为 “从观测学习”(learning from observation)[ 36]。 Torabi 等 [37] 提出 BCO(behavioral cloning from observation),通过学习环境动态模型预测示例观测 序列的动作,然后使用行为克隆进行模仿学习, 在多个任务中的表现超过了 GAIL。 2.3 课程学习 课程学习是机器学习中逐步增加任务难度以 加快学习速度的方法。在强化学习中课程学习实 质上在逐步调整学习的任务分布,智能体在简单 任务上更容易获得奖励,将相对简单的任务上学 到的策略迁移到复杂任务中,降低了在复杂任务 中探索的难度,因此课程学习能够用于解决稀疏 奖励问题[14]。 z P(z) λ ∈ [0,1] Wλ (z) λ z λ Qλ (z) Elman[38] 最早提出在语法学习任务中使用逐 步增加训练数据复杂度的方法来训练神经网络, 能够解决直接使用全部数据难以训练的问题。 Bengio 等 [15] 认为,课程学习的本质是逐步调整学 习样本的分布,在简单的样本分布上更容易学习 到泛化性好的策略,并通过实验证明了课程学习 能够提高训练速度和收敛到更优解。Bengio 等 [15] 给出了课程学习的数学定义, 表示训练样本, 表示目标训练集分布, 表示课程学习的阶 段, 是 阶段样本 的采样权重, 阶段训 练分布 为 Qλ (z) ∝ Wλ (z)P(z),∀z 其中 Qλ 满足: ∫ Qλ (z)dz = 1 Q1 (z) = P(z),∀z 不同课程阶段对应的分布满足熵增和权重单 调增加: H (Qλ (z)) 0 Wλ+ϵ (z) 0 课程学习的一个难点在于如何自动化地设计 课程的分级,解决这个问题需要考虑训练模型时 的反馈。Graves 等 [ 39] 提出一种自适应课程学习 方法,通过预测正确率和网络复杂性的增长来自 动调整课程的难度,在语言模型训练任务上显著 提高了训练速度。Akkaya 等 [ 40] 提出 ADR(automatic domain randomization),通过设定表现阈值, 当正确率高于表现阈值时就扩大训练的分布提高 课程难度,反之缩小训练分布,在复杂的魔方操 作任务中取得了成功。 2.4 事后经验回放 G g ∈ G g ′ ∈ G g ′ 事后经验回放 (HER)[11] 是一种从失败经历中 学习的强化学习方法,通过修正失败经历的目标 产生奖励信息,解决了奖励的稀疏性问题,同时 对失败样本的利用极大提高了样本利用效率。 表示目标空间, 是实验目标, 是实际实 现的目标,HER 将经验数据中目标修改为 ,就 产生了成功的回合数据用于策略训练。HER 的 实现将在第 3 节的实验部分进行更具体的介绍。 目前对于事后经验回放算法的改进主要在于 降低偏差、改进目标采样方式、适配在线策略算 法等。Lanka 等 [41] 认为 HER 修改目标引入的新 数据带来了偏差,提出通过调整真实奖励和 HER 的 奖励的权重来降低偏差。Manela 等 [42] 指出,在目 标物体未移动的情况下,采样的目标只与初始位 置有关而与策略无关,这样的样本会给训练带来 偏差,于是提出 Filtered-HER,通过滤去该类型目 标来缓解该问题。Rauber 等 [43] 通过重要性采样 将 HER 运用到策略梯度方法上,实验结果表明 HER 明显提高了策略梯度方法的样本利用效率。 2.5 好奇心驱动 好奇心驱动是一类使用内在奖励引导智能 体探索环境的方法,高效的探索能够更快地获得 外在奖励[16] ,同时能够降低环境的奖励、状态转 移的不确定性,平衡探索与利用[44] ,因此好奇心 驱动能解决稀疏奖励问题带来的稀疏性和不可 靠性问题。目前的好奇心驱动算法根据内在奖 励计算方式可以分为访问计数法和预测差法[45]。 Bellemare 等 [46] 通过信息增益 (information gain) 来 联系访问计数法和预测差法,证明了两者本质是 相同的。 第 5 期 杨瑞,等:强化学习稀疏奖励算法研究——理论与实验 ·891·
·892· 智能系统学报 第15卷 访问计数法使用访问次数定义状态的陌生程 2.6分层强化学习 度,鼓励智能体探索更陌生的状态,以提高探索 分层强化学习(HRL)是一类使用分层策略结 能力和降低对奖励估计的不确定性。Strehl等a7 构的方法,分层的结构能够学习不同层次的策 提出了一种基于模型的内在奖励方法,使用与状 略,从而有效解决维度爆炸的问题6s。分层强 态动作对计数的平方根成反比的内部奖励,并理 化学习方法的上层策略往往能够处理更大时间尺 论证明了其最优性: 度的决策,同时分层强化学习方法还能缩小各层 rm(s,a)=BW(s,a)i 策略的动作序列空间,进一步提高了解决稀疏奖 式中:B是常系数;N(s,a)是状态动作对(s,a)的 励问题的能力。 计数值。为了将访问计数法推广到高维连续状态 目前用于稀疏奖励问题的分层强化学习算法 空间中,Tang等使用哈希函数将连续的状态空 主要有两类,基于选项6(option)的方法和基于 子目标Is(subgoal)的方法。 间离散化进行计数,该方法在多个连续动作控制 问题中取得了成功。 基于选项的方法结构简单,上层策略在多个 预测差法通过学习环境的状态转移,使用预 下层策略中进行选择,被选择的下层策略输出动 作,如图4所示。Sutton等s将基于选项的分层 测误差作为内在奖励,能降低环境动态的不确定 性。预测差法中使用状态3,和动作4,来预测新 算法表述为半马尔可夫决策过程(SMDP),并推导 的状态s+1的方法被称作前向动态方法(forward 出在动态规划、Q-Learning中基于选项方法的公 dynamic))9。Stadie等B提出一种根据编码后的 式。Bacon等)将基于选项的分层方法和策略梯 状态(s,)和动作a,来预测(s+)的前向动态方 度法结合,提出了Option-Critic算法,并通过实验 法,使用归一化的预测误差计算内在奖励,预测 验证了该方法能够学习到具有实际意义的选项策 误差为 略。Frans等s结合元学习方法来训练基于选项 的分层结构,在多个连续动作控制问题中显著提 e(5.a)=(s1)-M((5,).a) 高了学习速度。 其中M表示预测网络,该方法能够有效解决大规 选择子策略 模游戏环境的探索问题。Pathak等认为好奇心 主策略0 驱动存在电视噪声问题,于是提出ICM(intrinsic curiosity module),在前向动态模型的基础上增加 子策略, 状态s 环境 奖励r 了使用(s+)和(s)来预测a,的逆向模型,如 子策略甲: 图3所示。逆向模型的作用是提取对智能体选择 动作有影响的特征啊,能够缓解电视噪声问题。 子策略o 预测动作a, 逆向模型 动作a 图4基于选项的分层结构示意图 状态S 状态映射 Fig.4 Schematic of option-based HRL methods 内在奖励r 状态S, 状态映射 -(S) 基于子目标的方法结构则是:上层策略生成 动作a 前向模型 子目标,下层策略输出动作去实现子目标,如图5 所示。Vezhnevets等s7提出FeUdal Networks,.将 图3ICM原理图 子目标设定为隐状态空间中的方向,在蒙特祖玛 Fig.3 Schematic of ICM 复仇等多个Atari游戏中的表现均超过基线算 状态编码是高维连续状态空间下的好奇心驱 法。Nachum等s81认为,采用离线策略训练分层 动算法一个重要研究内容。Burda等l对比了 结构将因为策略的改变产生偏差,可能导致训练 ICM、VAE、Random Network、Pixels4种编码方 不稳定,因此提出了使用离线数据校正的HRO 式在54个游戏中的实验结果,得出以下结论:ICM 算法,在Ant-Gather、Ant-Maze等复杂的连续动作 的泛化性最好,Random Network也足以在45%的 控制环境中表现均优于FeUdal Networks。Ley等例 游戏中超过ICM,意味着很多游戏只需使用固定 提出了HAC(hierarchical actor critic),该方法在基 的随机网络就能够提取足够的特征用于策略学 于子目标的分层算法基础上,结合了事后经验回 习,对后续的研究具有启示作用。 放算法极大提升了学习速度且表现好于HRO
访问计数法使用访问次数定义状态的陌生程 度,鼓励智能体探索更陌生的状态,以提高探索 能力和降低对奖励估计的不确定性。Strehl 等 [47] 提出了一种基于模型的内在奖励方法,使用与状 态动作对计数的平方根成反比的内部奖励,并理 论证明了其最优性: rin (s,a) = βN(s,a) − 1 2 式中: β 是常系数; N(s,a) 是状态动作对 (s,a) 的 计数值。为了将访问计数法推广到高维连续状态 空间中,Tang 等 [48] 使用哈希函数将连续的状态空 间离散化进行计数,该方法在多个连续动作控制 问题中取得了成功。 st at st+1 ϕ(st) at ϕ(st+1) 预测差法通过学习环境的状态转移,使用预 测误差作为内在奖励,能降低环境动态的不确定 性。预测差法中使用状态 和动作 来预测新 的状态 的方法被称作前向动态方法 (forward dynamic)[49]。Stadie 等 [50] 提出一种根据编码后的 状态 和动作 来预测 的前向动态方 法,使用归一化的预测误差计算内在奖励,预测 误差为 e (st ,at ,st+1) = ∥ϕ(st+1)− M (ϕ(st),at)∥ 2 2 M ϕ(st+1) ϕ(st) at 其中 表示预测网络,该方法能够有效解决大规 模游戏环境的探索问题。Pathak 等 [45] 认为好奇心 驱动存在电视噪声问题,于是提出 ICM(intrinsic curiosity module),在前向动态模型的基础上增加 了使用 和 来预测 的逆向模型,如 图 3 所示。逆向模型的作用是提取对智能体选择 动作有影响的特征[45] ,能够缓解电视噪声问题。 动作at 状态St 状态映射 状态St+1 状态映射 前向模型 内在奖励rt 预测动作at 逆向模型 ϕ (St+1) ϕ (St ) 图 3 ICM 原理图 Fig. 3 Schematic of ICM 状态编码是高维连续状态空间下的好奇心驱 动算法一个重要研究内容。Burda 等 [16] 对比了 ICM、VAE[51] 、Random Network、Pixels 4 种编码方 式在 54 个游戏中的实验结果,得出以下结论:ICM 的泛化性最好,Random Network 也足以在 45% 的 游戏中超过 ICM,意味着很多游戏只需使用固定 的随机网络就能够提取足够的特征用于策略学 习,对后续的研究具有启示作用。 2.6 分层强化学习 分层强化学习 (HRL) 是一类使用分层策略结 构的方法,分层的结构能够学习不同层次的策 略,从而有效解决维度爆炸的问题[16, 52]。分层强 化学习方法的上层策略往往能够处理更大时间尺 度的决策,同时分层强化学习方法还能缩小各层 策略的动作序列空间,进一步提高了解决稀疏奖 励问题的能力。 目前用于稀疏奖励问题的分层强化学习算法 主要有两类[52] ,基于选项[53] (option) 的方法和基于 子目标[54] (subgoal) 的方法。 基于选项的方法结构简单,上层策略在多个 下层策略中进行选择,被选择的下层策略输出动 作,如图 4 所示。Sutton 等 [ 53] 将基于选项的分层 算法表述为半马尔可夫决策过程 (SMDP),并推导 出在动态规划、Q-Learning 中基于选项方法的公 式。Bacon 等 [55] 将基于选项的分层方法和策略梯 度法结合,提出了 Option-Critic 算法,并通过实验 验证了该方法能够学习到具有实际意义的选项策 略。Frans 等 [56] 结合元学习方法来训练基于选项 的分层结构,在多个连续动作控制问题中显著提 高了学习速度。 动作a 状态s 奖励r 子策略φ3 子策略φ1 子策略φ2 环境 主策略θ 选择子策略 图 4 基于选项的分层结构示意图 Fig. 4 Schematic of option-based HRL methods 基于子目标的方法结构则是:上层策略生成 子目标,下层策略输出动作去实现子目标,如图 5 所示。Vezhnevets 等 [57] 提出 FeUdal Networks,将 子目标设定为隐状态空间中的方向,在蒙特祖玛 复仇等多个 Atari 游戏中的表现均超过基线算 法。Nachum 等 [ 58] 认为,采用离线策略训练分层 结构将因为策略的改变产生偏差,可能导致训练 不稳定,因此提出了使用离线数据校正的 HIRO 算法,在 Ant-Gather、Ant-Maze 等复杂的连续动作 控制环境中表现均优于 FeUdal Networks。Levy 等 [59] 提出了 HAC(hierarchical actor critic),该方法在基 于子目标的分层算法基础上,结合了事后经验回 放算法极大提升了学习速度且表现好于 HIRO。 ·892· 智 能 系 统 学 报 第 15 卷
第5期 杨瑞,等:强化学习稀疏奖励算法研究—理论与实验 ·893· 目标g 各实验均进行10次随机试验,去除最大最小 值绘制成功率均值标准差曲线,I个epoch包括 高层策略 100局仿真,其余实验参数见表1。 子目标g 表1DDPG参数 中间层 状态 Table 1 DDPG Parameters 策略 环境 奖励r 参数 值 子目标g 优化器 Adam 底层策略 学习率 0.001 折扣因子y 0.98 动作 滑动平均比例τ 0.05 图5基于子目标的分层结构示意图 网络全连接层数 3 Fig.5 Schematic of subgoal-based HRL methods 隐层节点数 64 激活函数 Relu 3稀疏奖励算法实验 输出层激活函数 tanh 动作噪声 N0,0.1) 为了初步验证上述算法在稀疏奖励问题中作 最大经验池大小 10 用,我们在MuJoCo的机器人环境Fetch Reach!劉 单次更新次数 40 下分别实现了6类算法的代表性算法(实验2~7): batch大小 64 1)奖励塑造:实验2实现了Ng等2)提出的 势能函数差分形式的奖励塑造方法,记为Reward 31实验算法及结果 Shaping; 3.1.1实验1DDPG 2)模仿学习:实验3实现了Nair等B提出的 本实验采用的基线算法是基于泛化值函数估 行为克隆算法,记为Behavior Clone; 计I61的深度确定性策略梯度算法(DDPG), 3)课程学习:实验4实现了符合Bengio等 DDPG是代表性的基于Actor-Critic的连续动作控 定义的课程学习方法,记为Curriculum Learning; 制方法,后续6个算法的实现均建立在其基础 4)事后经验回放:实验5实现了事后经验回 上。基于泛化值函数估计的方法认为智能体的策 放算法回,记为HER: 略和值函数与目标有关,G表示目标空间,g∈G 5)好奇心驱动:实验6实现了一种基于预测 表示目标,a为动作,s为状态,d严是策略π的采 差的前向动态算法[so,记为Forward Dynamics; 样分布,则DDPG with UVFA的损失函数分别为 6)分层强化学习:实验7实现了一种基于子 Ourge=r+1+yQ(S+1,T(S+1,g),8) 目标的分层强化学习算法,记为HDDPG。 Leritic=Es-d (Qunget-Q(s1,ag)) Lor=-E-eQ(S,π(S,g),g)】 Fetch Reach实验环境的任务是控制机械臂到 实验1比较了DDPG与随机策略(Random) 达目标位置,目标范围在空间中用小红球表示, 的表现,实验结果如图7所示。DDPG经过 如图6所示,当机械夹顶端碰到小红球即为达到 370个epoch的学习平均表现才超过随机策略, 目标。对于机器人的每步操作,完成目标获得奖 在500个epoch内最高平均成功率为21%。通过 励+1,否则获得奖励-1。实验测试中执行随机动 实验1,我们可以验证常规的深度强化学习算法 作5×10步,获得正奖励的概率仅为1.5%,因此 DDPG在稀疏奖励任务中学习缓慢。 本实验环境是典型的稀疏奖励环境。 100 ·DDPG -Random 60 40 20L 100 200300 400 500 训练Epoch数 图6 Fetch Reach实验环境 图7DDPG与随机动作成功率学习曲线 Fig.6 Fetch Reach environment Fig.7 Performance curve of DDPG and Random
高层策略 中间层 策略 底层策略 子目标g′ 动作 环境 状态s 目标g 奖励r 子目标g′ 图 5 基于子目标的分层结构示意图 Fig. 5 Schematic of subgoal-based HRL methods 3 稀疏奖励算法实验 为了初步验证上述算法在稀疏奖励问题中作 用,我们在 MuJoCo 的机器人环境 Fetch Reach[18] 下分别实现了 6 类算法的代表性算法 (实验 2~7): 1) 奖励塑造:实验 2 实现了 Ng 等 [27] 提出的 势能函数差分形式的奖励塑造方法,记为 Reward Shaping; 2) 模仿学习:实验 3 实现了 Nair 等 [34] 提出的 行为克隆算法,记为 Behavior Clone; 3) 课程学习:实验 4 实现了符合 Bengio 等 [15] 定义的课程学习方法,记为 Curriculum Learning; 4) 事后经验回放:实验 5 实现了事后经验回 放算法[12] ,记为 HER; 5) 好奇心驱动:实验 6 实现了一种基于预测 差的前向动态算法[50] ,记为 Forward Dynamic; 6) 分层强化学习:实验 7 实现了一种基于子 目标的分层强化学习算法[54] ,记为 HDDPG。 +1 −1 5×104 Fetch Reach 实验环境的任务是控制机械臂到 达目标位置,目标范围在空间中用小红球表示, 如图 6 所示,当机械夹顶端碰到小红球即为达到 目标。对于机器人的每步操作,完成目标获得奖 励 ,否则获得奖励 。实验测试中执行随机动 作 步,获得正奖励的概率仅为 1.5%,因此 本实验环境是典型的稀疏奖励环境。 图 6 Fetch Reach 实验环境 Fig. 6 Fetch Reach environment 各实验均进行 10 次随机试验,去除最大最小 值绘制成功率均值标准差曲线,1 个 epoch 包括 100 局仿真,其余实验参数见表 1。 表 1 DDPG 参数 Table 1 DDPG Parameters 参数 值 优化器 Adam 学习率 0.001 折扣因子 γ 0.98 滑动平均比例 τ 0.05 网络全连接层数 3 隐层节点数 64 激活函数 Relu 输出层激活函数 tanh 动作噪声 N(0,0.1) 最大经验池大小 106 单次更新次数 40 batch大小 64 3.1 实验算法及结果 3.1.1 实验 1 DDPG G g ∈ G a s d π π 本实验采用的基线算法是基于泛化值函数估 计 [ 6 0 ] 的深度确定性策略梯度算 法 (DDPG) , DDPG 是代表性的基于 Actor-Critic 的连续动作控 制方法,后续 6 个算法的实现均建立在其基础 上。基于泛化值函数估计的方法认为智能体的策 略和值函数与目标有关, 表示目标空间, 表示目标, 为动作, 为状态, 是策略 的采 样分布,则 DDPG with UVFA 的损失函数分别为 Qtarget = rt+1 +γQ(st+1, π(st+1,g),g) Lcritic = Est∼d π ( Qtarget − Q(st ,at ,g) )2 Lactor = −Est∼d π [ Q(st , π(st ,g),g) ] 实验 1 比较了 DDPG 与随机策略 (Random) 的表现,实验结果如 图 7 所示。 DDP G 经 过 370 个 epoch 的学习平均表现才超过随机策略, 在 500 个 epoch 内最高平均成功率为 21%。通过 实验 1,我们可以验证常规的深度强化学习算法 DDPG 在稀疏奖励任务中学习缓慢。 100 DDPG Random 80 60 40 20 0 100 200 300 训练Epoch数 成功率/% 400 500 图 7 DDPG 与随机动作成功率学习曲线 Fig. 7 Performance curve of DDPG and Random 第 5 期 杨瑞,等:强化学习稀疏奖励算法研究——理论与实验 ·893·
·894· 智能系统学报 第15卷 3.l.2实验2 Reward Shaping 100 实验2根据机械夹顶端到目标位置的距离设 80 计奖励函数。g表示目标位置,中表示状态到位置 60 的映射,(s)表示状态的位置,我们设计势能 函数为距离目标位置的距离: (5,g)=-g-(s)服 根据Ng等2)的理论,我们设计奖励函数, AAA 为势能函数的差分形式: 0 10 20 30 40 50 训练Epoch数 r(s,5+1,g)=A(Φ(s41,g)-Φ(3,g》= Alg-p(s)服-lg-中(s+)) 图9 Behavior Clone成功率学习曲线 其中是大于0的奖励系数。在本实验中,由于 Fig.9 Performance curve of Behavior Clone 单步位移较小(10-3量级),因此设置了A=103。 3.1.4实验4 Curriculum Learning 实验2比较了奖励塑造和DDPG的表现,实 实验4通过设计目标分布范围逐渐增大的任 验结果如图8所示。奖励塑造明显加快了学习速 务序列来实现课程学习,能够证明我们的设计方 度,40个epoch就收敛到100%成功率,验证了按 式符合Bengio等1对课程学习的定义。实验任 照势能函数差分形式设计奖励函数的有效性。 务中目标位置在各维度变化范围是(-0.15,0.15), 100 记做range=0.15,我们设计的课程目标分布序列为 80 range=0.05+ix 0.1 c-1.ie[0.c-1] 60 其中c为课程数。我们的课程序列保证了最后阶 40 DDPG 段i=c-1时目标分布范围与其余实验相同。 DDPG+reward shaping 实验4比较了不同课程数c对课程学习的影 20 响,实验结果如图10所示。当课程数c=1时,课 程难度较大,难以进行策略学习;当课程数c=2 0 2030 40 50 训练Epoch数 时,在50个epoch处存在任务切换导致的断层;当 图8奖励塑造与DDPG成功率学习曲线 课程数继续增加,课程跨度变小,策略迁移更快, Fig.8 Performance curve of Reward Shaping and DDPG 学习速度进一步提高,但当课程数大于10后,提 3.l.3实验3 Behavior Clone 高课程数几乎不带来性能的提升。实验中c=10 实验3实现的是Nair等B使用的行为克隆 时学习速度最快,70个epoch收敛到100%成功率。 (Behavior Clone)算法,利用HER训练的成功率 100 100%的智能体随机产生100局的交互数据作为 示例数据,同时最大化累计奖励和最小化与示例 60 策略的误差。由于示例数据有限,不一定能获得 课程数1 示例策略在当前状态下的决策,为此我们使用从 课程数2 示例数据中的采样(s,8,a)来计算策略误差: 课程数5 课程数10以 Lace=-E-d[Q(s,π(s,g),g]+ aE,.lla.-π(s,g) 20 4060 80 100 式中:π、π分别表示示例策略和实际策略;S、g 训练Epoch数 分别表示实际状态和目标;a是常系数;d严、d分 图10课程学习成功率学习曲线 别代表智能体采样数据分布和示例数据分布。 Fig.10 Performance curve of Curriculum Learning 实验3比较了不同α下行为克隆的表现,其 3.1.5实验5HER 中α=0即代表DDPG,实验结果如图9所示。结 实验5实现的HER)算法具体描述为:在每 果显示,随着示例策略损失的系数α增加,学习 局仿真结束后,对该局的数据(s,a,S+1,,g)采样 速度加快,当a=1时,8个epoch就收敛到100% 多个状态s∈S,利用状态到目标的映射中得到该 成功率。实验结果验证了引入示例策略损失的行 局完成的目标g=中(s)。对每条数据(S,a,S+1,r,g) 为克隆方法能够显著提高学习速度,a=1时Be- 用g计算新的奖励值r,=-(l-(s4i)-gI匠>threshold), havior Clone在本实验实现的算法中最快收敛到 完成目标奖励为0,否则奖励为-1。最后将生成 100%成功率。 的新数据(s,a,S41,,g)和原数据一起存人经验
3.1.2 实验 2 Reward Shaping g ϕ ϕ(st) st 实验 2 根据机械夹顶端到目标位置的距离设 计奖励函数。 表示目标位置, 表示状态到位置 的映射, 表示状态 的位置,我们设计势能 函数为距离目标位置的距离: Φ(st ,g) = −∥g−ϕ(st)∥ 2 2 根据 Ng 等 r [27] 的理论,我们设计奖励函数 为势能函数的差分形式: r(st ,st+1,g) = λ(Φ(st+1,g)−Φ(st ,g)) = λ(∥g−φ(st)∥ 2 2 −∥g−ϕ(st+1)∥ 2 2 ) λ 10−3 λ = 103 其中 是大于 0 的奖励系数。在本实验中,由于 单步位移较小 ( 量级),因此设置了 。 实验 2 比较了奖励塑造和 DDPG 的表现,实 验结果如图 8 所示。奖励塑造明显加快了学习速 度,40 个 epoch 就收敛到 100% 成功率,验证了按 照势能函数差分形式设计奖励函数的有效性。 成功率/% 100 DDPG DDPG+reward shaping 80 60 40 20 0 10 20 30 训练Epoch数 40 50 图 8 奖励塑造与 DDPG 成功率学习曲线 Fig. 8 Performance curve of Reward Shaping and DDPG 3.1.3 实验 3 Behavior Clone (se ,ge ,ae) 实验 3 实现的是 Nair 等 [34] 使用的行为克隆 (Behavior Clone) 算法,利用 HER 训练的成功率 100% 的智能体随机产生 100 局的交互数据作为 示例数据,同时最大化累计奖励和最小化与示例 策略的误差。由于示例数据有限,不一定能获得 示例策略在当前状态下的决策,为此我们使用从 示例数据中的采样 来计算策略误差: Lactor = −Est∼d π [ Q(st , π(st ,g),g) ] + αEse∼d πe ∥ae −π(se ,ge)∥ 2 2 πe π st g α d π d πe 式中: 、 分别表示示例策略和实际策略; 、 分别表示实际状态和目标; 是常系数; 、 分 别代表智能体采样数据分布和示例数据分布。 α α = 0 α α = 1 α = 1 实验 3 比较了不同 下行为克隆的表现,其 中 即代表 DDPG,实验结果如图 9 所示。结 果显示,随着示例策略损失的系数 增加,学习 速度加快,当 时,8 个 epoch 就收敛到 100% 成功率。实验结果验证了引入示例策略损失的行 为克隆方法能够显著提高学习速度, 时 Behavior Clone 在本实验实现的算法中最快收敛到 100% 成功率。 成功率/% 100 80 60 40 20 0 10 20 30 训练Epoch数 40 50 α=0 α=10–6 α=10–3 α=1 图 9 Behavior Clone 成功率学习曲线 Fig. 9 Performance curve of Behavior Clone 3.1.4 实验 4 Curriculum Learning (−0.15,0.15) range = 0.15 实验 4 通过设计目标分布范围逐渐增大的任 务序列来实现课程学习,能够证明我们的设计方 式符合 Bengio 等 [15] 对课程学习的定义。实验任 务中目标位置在各维度变化范围是 , 记做 ,我们设计的课程目标分布序列为 range = 0.05+i× 0.1 c−1 , i ∈ [0, c−1] c i = c−1 其中 为课程数。我们的课程序列保证了最后阶 段 时目标分布范围与其余实验相同。 c c = 1 c = 2 c = 10 实验 4 比较了不同课程数 对课程学习的影 响,实验结果如图 10 所示。当课程数 时,课 程难度较大,难以进行策略学习;当课程数 时,在 50 个 epoch 处存在任务切换导致的断层;当 课程数继续增加,课程跨度变小,策略迁移更快, 学习速度进一步提高,但当课程数大于 10 后,提 高课程数几乎不带来性能的提升。实验中 时学习速度最快,70 个 epoch 收敛到 100% 成功率。 100 80 60 40 20 0 20 40 60 训练Epoch数 成功率/% 80 100 课程数 1 课程数 2 课程数 5 课程数 10 图 10 课程学习成功率学习曲线 Fig. 10 Performance curve of Curriculum Learning 3.1.5 实验 5 HER (st ,at ,st+1,rt ,g) s ∈ S ϕ g ′ = ϕ(s) (st ,at ,st+1,rt ,g) g ′ r ′ t = −(∥ϕ(st+1)−g ′ ∥ 2 2 > threshold) −1 (st ,at ,st+1,r ′ t ,g ′ ) 实验 5 实现的 HER[11] 算法具体描述为:在每 局仿真结束后,对该局的数据 采样 多个状态 ,利用状态到目标的映射 得到该 局完成的目标 。对每条数据 用 计算新的奖励值 , 完成目标奖励为 0,否则奖励为 。最后将生成 的新数据 和原数据一起存入经验 ·894· 智 能 系 统 学 报 第 15 卷
第5期 杨瑞,等:强化学习稀疏奖励算法研究一理论与实验 ·895· 池,使用DDPG进行策略更新。 3.1.7实验7 HDDPG 本实验中,状态了是包括位置、速度信息的 实验7实现的分层强化学习算法HDDPG 15维向量,前三维是机械夹顶端的位置,因此状 Hierarchical DDPG)结构上和HACs9相近,区别 态到位置的映射中=s0:3]。本实验采用的每局 在于HDDPG不使用事后经验回放。HDDPG属 采样目标数为4。 于基于子目标的分层强化学习方法,假设层数为 实验5比较了事后经验回放与DDPG的表 H,最高层策略输入状态s、系统目标g,输出子 现,实验结果如图I1所示。HER在I5个epoch 目标: 左右就收敛到100%成功率,且稳定性高,在无外 subgoal#=πH(S,8) 部引导信息算法中表现最好。 中间层策略输入状态、子目标,输出子目标: 100 DDPG subgoal-l=πa(s,subgoal),h∈(1,H) 80 HER 最下层策略输入状态、子目标,输出动作: a,=π1(s,subgoal) 60 各层每一步如果完成目标获得奖励+1,否则 获得奖励-1,如果超过最大步数未完成目标还将 20 获得负奖励作为惩罚。 A 实验7比较了不同层数HDDPG的表现,其 0 10 2030 40 50 中层数为1即为DDPG,实验结果如图13所示。 训练Epoch数 本实验验证了HDDPG分层的结构提高了解决稀 图11HIER与DDPG学习曲线 疏奖励问题的能力,同时能够得到层数对HD Fig.11 Performance curve of HER and DDPG DPG的影响,当层数不大于3的时候,HDDPG表 3.1.6实验6 Forward Dynamic 现随层数增加而提高,层数为3时最高平均成功 实验6实现的好奇心驱动算法是基于预测差 率达到66%。此外,我们也进行了层数大于3的 的Forward Dynamictso],使用前向模型M学习环 实验,结果接近DDPG,我们认为这是因为分层的 境动态,同时使用标准化的预测误差l0SSom作为 离线策略算法存在的偏差58随着层数增加累积, 内在奖励ra: 当层数过大时会导致训练不稳定,甚至难以进行 losStorwand =Es-M(a;0) yμ,g 策略学习。 l0SStorward 100 loSStorward-M 层数1 lOSSnorm= 80 层数2 Tin loSSnorm 层数3 其中,μ、σ分别表示预测误差的均值和标准 差。实验中使用3层64节点的神经网络来作为 % 前向模型M。 实验6比较了Forward Dynamic与DDPG的 表现,实验结果如图12所示。Forward Dynam- 100 200300 400500 ic在80个epoch左右收敛到100%成功率,验证 训练Epoch数 了Forward Dynamic方法对稀疏奖励问题的有效性。 图13不同层数HDDPG成功率学习曲线 100 Fig.13 Performance curve of different layers of HDDPG 80 3.2实验总结 60 通过表2总结了实验实现的6类算法的代表 性算法在稀疏奖励问题中的表现,相比于DDPG 40 DDPG 均有显著提升。其中,使用示例策略辅助学习的 Forward dynamic 20 mwww Behavior Clone表现最佳,8个epoch就收敛到 100%成功率,HER没有使用外部引导信息但是 20 4060 80100 训练Epoch数 表现接近Behavior Clone,l5个epoch收敛到 100%成功率。 图12 Forward Dynamic与DDPG成功率学习曲线 Fig.12 Performance curve of Forward Dynamic and 从表2可以看到使用外部引导信息的算法平 DDPG 均表现好于无外部引导信息的算法。实际上我们
池,使用 DDPG 进行策略更新。 s ϕ = s[0 : 3] 本实验中,状态 是包括位置、速度信息的 15 维向量,前三维是机械夹顶端的位置,因此状 态到位置的映射 。本实验采用的每局 采样目标数为 4。 实验 5 比较了事后经验回放与 DDPG 的表 现,实验结果如图 11 所示。HER 在 15 个 epoch 左右就收敛到 100% 成功率,且稳定性高,在无外 部引导信息算法中表现最好。 100 DDPG HER 80 60 40 20 0 10 20 30 训练Epoch数 成功率/% 40 50 图 11 HER 与 DDPG 学习曲线 Fig. 11 Performance curve of HER and DDPG 3.1.6 实验 6 Forward Dynamic M lossnorm rin 实验 6 实现的好奇心驱动算法是基于预测差 的 Forward Dynamic[ 50] ,使用前向模型 学习环 境动态,同时使用标准化的预测误差 作为 内在奖励 : lossforward = Est∼d π ∥st+1 − M (st ,at ; θ)∥ 2 2 lossforward update → µ,σ lossnorm = lossforward −µ σ rin = lossnorm µ、σ M 其中, 分别表示预测误差的均值和标准 差。实验中使用 3 层 64 节点的神经网络来作为 前向模型 。 实验 6 比较了 Forward Dynamic 与 DDPG 的 表现,实验结果如图 12 所示。Forward Dynamic 在 80 个 epoch 左右收敛到 100% 成功率,验证 了 Forward Dynamic 方法对稀疏奖励问题的有效性。 DDPG Forward dynamic 100 80 60 40 20 0 20 40 60 训练Epoch数 成功率/% 80 100 图 12 Forward Dynamic 与 DDPG 成功率学习曲线 Fig. 12 Performance curve of Forward Dynamic and DDPG 3.1.7 实验 7 HDDPG H st g 实验 7 实现的分层强化学习算法 HDDPG (Hierarchical DDPG) 结构上和 HAC[59] 相近,区别 在于 HDDPG 不使用事后经验回放。HDDPG 属 于基于子目标的分层强化学习方法,假设层数为 ,最高层策略输入状态 、系统目标 ,输出子 目标: subgoalH = πH (st ,g) 中间层策略输入状态、子目标,输出子目标: subgoalh−1 = πh ( st ,subgoalh ) ,h ∈ (1,H) 最下层策略输入状态、子目标,输出动作: at = π1 ( st ,subgoal1 ) +1 −1 各层每一步如果完成目标获得奖励 ,否则 获得奖励 ,如果超过最大步数未完成目标还将 获得负奖励作为惩罚。 实验 7 比较了不同层数 HDDPG 的表现,其 中层数为 1 即为 DDPG,实验结果如图 13 所示。 本实验验证了 HDDPG 分层的结构提高了解决稀 疏奖励问题的能力,同时能够得到层数对 HDDPG 的影响,当层数不大于 3 的时候,HDDPG 表 现随层数增加而提高,层数为 3 时最高平均成功 率达到 66%。此外,我们也进行了层数大于 3 的 实验,结果接近 DDPG,我们认为这是因为分层的 离线策略算法存在的偏差[ 58] 随着层数增加累积, 当层数过大时会导致训练不稳定,甚至难以进行 策略学习。 层数 1 层数 2 层数 3 100 80 60 40 20 0 100 200 300 训练Epoch数 成功率/% 400 500 图 13 不同层数 HDDPG 成功率学习曲线 Fig. 13 Performance curve of different layers of HDDPG 3.2 实验总结 通过表 2 总结了实验实现的 6 类算法的代表 性算法在稀疏奖励问题中的表现,相比于 DDPG 均有显著提升。其中,使用示例策略辅助学习的 Behavior Clone 表现最佳,8 个 epoch 就收敛到 100% 成功率,HER 没有使用外部引导信息但是 表现接近 Behavior Clone,15 个 epoch 收敛到 100% 成功率。 从表 2 可以看到使用外部引导信息的算法平 均表现好于无外部引导信息的算法。实际上我们 第 5 期 杨瑞,等:强化学习稀疏奖励算法研究——理论与实验 ·895·
·896· 智能系统学报 第15卷 使用的Fetch Reach实验环境是相对简单的,容易 仿学习与HER结合的算法。 构建可靠的外部引导信息,在更多的稀疏奖励任 务中,外部引导信息是难于构建的,这就需要无 5结束语 外部引导信息算法的研究。在我们的实验中, 本文将目前主流的稀疏奖励算法按是否引入 HER、Forward Dynamic等算法的表现已经接近使 外部引导信息分为两类,分别介绍了奖励塑造、 用外部引导信息的算法,具有重要的研究价值和 模仿学习、课程学习和事后经验回放、好奇心驱 意义。 动、分层强化学习等6类算法的发展和应用。本 表2实验结果 文还通过实验验证了6种算法在稀疏奖励问题中 Table 2 Experiment results 的有效性,相比于DDPG均有显著提升,部分无 有无外部最高平均 收敛 算法 外部引导信息的算法表现已经接近使用外部引导 引导信息成功率% epoch数 信息的算法。本文的实验比较了6种算法解决稀 Random 无 17 疏奖励问题的能力,为进一步的研究提供了实验 DDPG 无 21 370 基础。 Reward Shaping 有 100 43 稀疏奖励问题的研究对强化学习理论的拓展 以及算法的实际落地具有重要意义,我们希望在 Behavior Clone(a=1) 有 100 P 未来看到更高效的算法用于解决复杂的稀疏奖励 Curriculum 10 有 100 70 问题,同时也希望看到更多强化学习算法的实际 HER 无 100 15 落地与应用,为社会创造更多价值。 Forward Dynamic 无 100 80 参考文献: HDDPG layers3 无 66 100 [1]SUTTON R S,BARTO A G.Reinforcement learning:an 4展望 introduction[MI.Cambridge,USA:MIT Press.1998. [2]SUTTON R S,BARTO A G.Reinforcement learning:an 稀疏奖励算法未来的研究方向可以是根据各 introduction[M].2nd ed.Cambridge:MIT Press,2018. 算法存在的问题进行改进,或对多种稀疏奖励算 [3]SILVER D,HUANG A,MADDISON C J,et al.Master- 法进行结合。自适应课程学习是重要的研究方 ing the game of Go with deep neural networks and tree 向,结合生成对抗思想61或元学习6的自动课程 search[J].Nature,2016,529(7587):484-489 学习具有广阔的研究前景。好奇心驱动存在被称 [4]VINYALS O,BABUSCHKIN I,CZARNECKI W M,et al. 作“电视噪声”的问题:当环境中出现难以预测 Grandmaster level in StarCraft II using multi-agent rein- 的随机噪声时,会导致智能体驻留而不去完成任 forcement learning[J].Nature,2019,575(7782):350-354. 务。为解决电视噪声问题,未来可以研究好奇心 [5]BERNER C,BROCKMAN G.CHAN B.et al.Dota 2 with 驱动的状态编码方式1或结合注意力机制61等 large scale deep reinforcement learning[EB/OL].Califor- 方法,让智能体更关注与任务有关的状态和奖励 nia,USA:arXiv,2019.[2019-10-1]https://arxiv.org/pdf/ 信息。事后经验回放算法基于“存在状态到目标 1912.06680.pdf 的映射”的假设,但是大量实际问题中并不容易找 [6]SILVER D.Tutorial:Deep reinforcement learning[C]// Proc.of the 33rd Int.Conf.on Machine Learning(ICML 到这样的映射关系,比如视频游戏、机器人导航6侧 2016).2016. 等问题,研究通用的目标映射方法有助于将HER [7]LI Yuxi.Deep reinforcement learning:An overview 这种高效的稀疏奖励算法应用到更多问题中。分 [EB/OL].Alberta,Canada:arXiv,2017.[2019-10-2] 层强化学习还需要进一步研究分层的数据矫正5 https://arxiv.org/pdf/1701.07274.pdf. 以及更高效的分层结构。基于目标的分层强化学 [8]LI Yuxi.Deep reinforcement learning[EB/OL].Alberta, 习中,自动学习目标空间的表示6剧也是重要的研 Canada:arXiv,2018.[2019-10-5]https://arxiv.org/pdf/1810 究内容。最后,多种稀疏奖励算法的结合算法能 06339.pdf 够融合不同算法的优势,为稀疏奖励问题提供更 [9]Riedmiller M,Hafner R,Lampe T,et al.Learning by play- 加强有力的解决方案,例如Levy等s9提出的分 ing-solving sparse reward tasks from scratch[EB/OL].Lon- 层与HER结合的HAC、Lanier等6提出的好奇 don,UK:ar Xiv,2018.[2019-10-20]https://arxiv.org/pdf/1802. 心驱动与HER结合的算法、Nair等B1提出的模 10567.pdf
使用的 Fetch Reach 实验环境是相对简单的,容易 构建可靠的外部引导信息,在更多的稀疏奖励任 务中,外部引导信息是难于构建的,这就需要无 外部引导信息算法的研究。在我们的实验中, HER、Forward Dynamic 等算法的表现已经接近使 用外部引导信息的算法,具有重要的研究价值和 意义。 表 2 实验结果 Table 2 Experiment results 算法 有无外部 引导信息 最高平均 成功率/% 收敛 epoch数 Random 无 17 ~ DDPG 无 21 370 Reward Shaping 有 100 43 Behavior Clone(α=1) 有 100 8 Curriculum 10 有 100 70 HER 无 100 15 Forward Dynamic 无 100 80 HDDPG layers3 无 66 100 4 展望 稀疏奖励算法未来的研究方向可以是根据各 算法存在的问题进行改进,或对多种稀疏奖励算 法进行结合。自适应课程学习是重要的研究方 向,结合生成对抗思想[61] 或元学习[62] 的自动课程 学习具有广阔的研究前景。好奇心驱动存在被称 作“电视噪声”的问题[45] :当环境中出现难以预测 的随机噪声时,会导致智能体驻留而不去完成任 务。为解决电视噪声问题,未来可以研究好奇心 驱动的状态编码方式[15] 或结合注意力机制[63] 等 方法,让智能体更关注与任务有关的状态和奖励 信息。事后经验回放算法基于“存在状态到目标 的映射”的假设,但是大量实际问题中并不容易找 到这样的映射关系,比如视频游戏、机器人导航[64] 等问题,研究通用的目标映射方法有助于将 HER 这种高效的稀疏奖励算法应用到更多问题中。分 层强化学习还需要进一步研究分层的数据矫正[58] 以及更高效的分层结构。基于目标的分层强化学 习中,自动学习目标空间的表示[65] 也是重要的研 究内容。最后,多种稀疏奖励算法的结合算法能 够融合不同算法的优势,为稀疏奖励问题提供更 加强有力的解决方案,例如 Levy 等 [59] 提出的分 层与 HER 结合的 HAC、Lanier 等 [66] 提出的好奇 心驱动与 HER 结合的算法、Nair 等 [34] 提出的模 仿学习与 HER 结合的算法。 5 结束语 本文将目前主流的稀疏奖励算法按是否引入 外部引导信息分为两类,分别介绍了奖励塑造、 模仿学习、课程学习和事后经验回放、好奇心驱 动、分层强化学习等 6 类算法的发展和应用。本 文还通过实验验证了 6 种算法在稀疏奖励问题中 的有效性,相比于 DDPG 均有显著提升,部分无 外部引导信息的算法表现已经接近使用外部引导 信息的算法。本文的实验比较了 6 种算法解决稀 疏奖励问题的能力,为进一步的研究提供了实验 基础。 稀疏奖励问题的研究对强化学习理论的拓展 以及算法的实际落地具有重要意义,我们希望在 未来看到更高效的算法用于解决复杂的稀疏奖励 问题,同时也希望看到更多强化学习算法的实际 落地与应用,为社会创造更多价值。 参考文献: SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge, USA: MIT Press, 1998. [1] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. 2nd ed. Cambridge: MIT Press, 2018. [2] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489. [3] VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350–354. [4] BERNER C, BROCKMAN G, CHAN B, et al. Dota 2 with large scale deep reinforcement learning[EB/OL]. California, USA: arXiv, 2019. [2019-10-1] https://arxiv.org/pdf/ 1912.06680.pdf. [5] SILVER D. Tutorial: Deep reinforcement learning[C]// Proc. of the 33rd Int. Conf. on Machine Learning (ICML 2016). 2016. [6] LI Yuxi. Deep reinforcement learning: An overview [EB/OL]. Alberta, Canada: arXiv, 2017. [2019-10-2] https://arxiv.org/pdf/ 1701.07274.pdf. [7] LI Yuxi. Deep reinforcement learning[EB/OL]. Alberta, Canada: arXiv, 2018. [2019-10-5] https://arxiv.org/pdf/1810. 06339.pdf. [8] Riedmiller M, Hafner R, Lampe T, et al. Learning by playing-solving sparse reward tasks from scratch[EB/OL]. London, UK: arXiv, 2018. [2019-10-20] https://arxiv.org/pdf/1802. 10567.pdf. [9] ·896· 智 能 系 统 学 报 第 15 卷
第5期 杨瑞,等:强化学习稀疏奖励算法研究一理论与实验 ·897· [10]HOSU I A,REBEDEA T.Playing atari games with deep Nature,2015,518(7540y:529-533 reinforcement learning and human checkpoint [22]WILLIAMS R J.Simple statistical gradient-following al- replay [EB/OL].Bucharest,Romania:arXiv,2016.[2019- gorithms for connectionist reinforcement learning[J].Ma- 10-21]https://arxiv.org/pdf/1607.05077.pdf. chine learning,.1992,8(3/4):229-256. [11]ANDRYCHOWICZ M,WOLSKI F,RAY A,et al.Hind- [23]KONDA V R,TSITSIKLIS J N.Actor-critic sight experience replay[Cl/Proceedings of the 31st Inter- algorithms[C]//Advances in Neural Information Pro- national Conference on Neural Information Processing cessing Systems.Colorado,USA,2000:1008-1014 Systems.Long Beach,USA,2017:5048-5058. [24]MNIH V,BADIA A P,MIRZA M,et al.Asynchronous [12]杨惟轶,白辰甲,蔡超,等.深度强化学习中稀疏奖励问 methods for deep reinforcement learning[C]//Proceedings 题研究综述[).计算机科学,2020,47(3):182-191 of the 33rd International Conference on International YANG Weiyi,BAI Chenjia,CAl Chao,et al.Survey on Conference on Machine Learning.New York,USA. sparse reward in deep reinforcement learning[J].Com- 2016:1928-1937 puter science,2020,47(3):182-191. [25]SCHULMAN J.WOLSKI F.DHARIWAL P.et al.Prox- [13]GULLAPALLI V,BARTO A G.Shaping as a method for imal policy optimization algorithms[EB/OL].California. accelerating reinforcement learning[C]//Proceedings of USA:arXiv,2017.[2019-11-3]https://arxiv.org/ the 1992 IEEE International Symposium on Intelligent pdf1707.06347.pdf. Control.Glasgow,UK,1992:554-559. [26]LILLICRAP T P.HUNT JJ,PRITZEL A,et al.Continu- [14]HUSSEIN A.GABER MM,ELYAN E,et al.Imitation ous control with deep reinforcement learning[EB/OL]. learning:A survey of learning methods[J].ACM comput- London,UK:arXiv,2015.[2019-12-25]https://arxiv ing surveys,.2017,50(2):1-35. org/pdf/1509.02971.pdf. [15]BENGIO Y,LOURADOUR J,COLLOBERT R,et al. [27]NG A Y.HARADA D,RUSSELL S.Policy invariance Curriculum learning[C]//Proceedings of the 26th Annual under reward transformations:Theory and application to International Conference on Machine Learning.Montreal, reward shaping[C//Proceedings of the Sixteenth Interna- Quebec,Canada,2009:41-48. tional Conference on Machine Learning.Bled,Slovenia [16]BURDA Y,EDWARDS H,PATHAK D,et al.Large- 1999.99:278-287 scale study of curiosity-driven learning[EB/OL].Califor- [28]RANDLOV J,ALSTROM P.Learning to drive a bicycle nia,USA:arXiv,2018.[2019-10-30]https://arxiv.org/pdf/ using reinforcement learning and shaping[C]//Proceed- 1808.04355. ings of the Fifteenth International Conference on Ma- [17刀周文吉,俞扬.分层强化学习综述).智能系统学报, 2017,12(5):590-594. chine Learning.Madison,USA,1998,98:463-471. [29]JAGODNIK K M.THOMAS P S.VAN DEN BOGERT ZHOU Wenji,YU Yang.Summarize of hierarchical rein- forcement learning[J].CAAI transactions on intelligent A J,et al.Training an actor-critic reinforcement learning systems,.2017,12(5):590-594. controller for arm movement using human-generated re- [18]Plappert M,Andrychowicz M,Ray A,et al.Multi-goal re- wards[J].IEEE transactions on neural systems and rehab- inforcement learning:Challenging robotics environments ilitation engineering,2017,25(10):1892-1905. and request for research[EB/OL].California,USA:arXiv, [30]FERREIRA E,LEFEVRE F.Expert-based reward shap- 2018.[2019-1l-1]htps://arxiv.org/pdf1802.09464.pdf. ing and exploration scheme for boosting policy learning [19]万里鹏,兰旭光,张翰博,等.深度强化学习理论及其应 of dialogue management[C]//2013 IEEE Workshop on 用综述U.模式识别与人工智能,2019,32(1):67-81. Automatic Speech Recognition and Understanding. WAN Lipeng,LAN Xuguang,ZHANG Hanbo,et al.A Olomouc,Czech Republic,2013:108-113. review of deep reinforcement learning theory and applica- [31]NG A Y,RUSSELL S J.Algorithms for inverse rein- tion[J].Pattern recognition and artificial intelligence, forcement learning[C]//Proceedings of the Seventeenth 2019,32(167-81 International Conference on Machine Learning.Stanford, [20]MNIH V,KAVUKCUOGLU K,SILVER D,et al.Play- USA.2000,1:663-670 ing atari with deep reinforcement learning[EB/OL].Lon- [32]MARTHI B.Automatic shaping and decomposition of re- don,UK:arXiv,2013.[2019-11-1]https://arxiv.org/pdf/ ward functions[C]//Proceedings of the 24th International 1312.5602.pdf. Conference on Machine Learning.Corvallis,USA,2007: [21]MNIH V.KAVUKCUOGLU K.SILVER D,et al.Hu- 601-608. man-level control through deep reinforcement learning[J]. [33]ROSS S.BAGNELL D.Efficient reductions for imitation
HOSU I A, REBEDEA T. Playing atari games with deep reinforcement learning and human checkpoint replay[EB/OL]. Bucharest, Romania: arXiv, 2016. [2019- 10-21] https://arxiv.org/pdf/1607.05077.pdf. [10] ANDRYCHOWICZ M, WOLSKI F, RAY A, et al. Hindsight experience replay[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 5048−5058. [11] 杨惟轶, 白辰甲, 蔡超, 等. 深度强化学习中稀疏奖励问 题研究综述 [J]. 计算机科学, 2020, 47(3): 182–191. YANG Weiyi, BAI Chenjia, CAI Chao, et al. Survey on sparse reward in deep reinforcement learning[J]. Computer science, 2020, 47(3): 182–191. [12] GULLAPALLI V, BARTO A G. Shaping as a method for accelerating reinforcement learning[C]//Proceedings of the 1992 IEEE International Symposium on Intelligent Control. Glasgow, UK, 1992: 554−559. [13] HUSSEIN A, GABER M M, ELYAN E, et al. Imitation learning: A survey of learning methods[J]. ACM computing surveys, 2017, 50(2): 1–35. [14] BENGIO Y, LOURADOUR J, COLLOBERT R, et al. Curriculum learning[C]//Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Quebec, Canada, 2009: 41−48. [15] BURDA Y, EDWARDS H, PATHAK D, et al. Largescale study of curiosity-driven learning[EB/OL]. California, USA: arXiv, 2018. [2019-10-30] https://arxiv.org/pdf/ 1808.04355. [16] 周文吉, 俞扬. 分层强化学习综述 [J]. 智能系统学报, 2017, 12(5): 590–594. ZHOU Wenji, YU Yang. Summarize of hierarchical reinforcement learning[J]. CAAI transactions on intelligent systems, 2017, 12(5): 590–594. [17] Plappert M, Andrychowicz M, Ray A, et al. Multi-goal reinforcement learning: Challenging robotics environments and request for research[EB/OL]. California, USA: arXiv, 2018. [2019-11-1] https://arxiv.org/pdf/1802.09464.pdf. [18] 万里鹏, 兰旭光, 张翰博, 等. 深度强化学习理论及其应 用综述 [J]. 模式识别与人工智能, 2019, 32(1): 67–81. WAN Lipeng, LAN Xuguang, ZHANG Hanbo, et al. A review of deep reinforcement learning theory and application[J]. Pattern recognition and artificial intelligence, 2019, 32(1): 67–81. [19] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[EB/OL]. London, UK: arXiv, 2013. [2019-11-1] https://arxiv.org/pdf/ 1312.5602.pdf. [20] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. [21] Nature, 2015, 518(7540): 529–533. WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine learning, 1992, 8(3/4): 229–256. [22] KONDA V R, TSITSIKLIS J N. Actor-critic algorithms[C]//Advances in Neural Information Processing Systems. Colorado, USA, 2000: 1008−1014. [23] MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York, USA, 2016: 1928−1937. [24] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. California, USA: arXiv, 2017. [2019-11-3] https://arxiv.org/ pdf/1707.06347.pdf. [25] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. London, UK: arXiv, 2015. [2019-12-25] https://arxiv. org/pdf/1509.02971.pdf. [26] NG A Y, HARADA D, RUSSELL S. Policy invariance under reward transformations: Theory and application to reward shaping[C]//Proceedings of the Sixteenth International Conference on Machine Learning. Bled, Slovenia, 1999, 99: 278−287. [27] RANDLØV J, ALSTRØM P. Learning to drive a bicycle using reinforcement learning and shaping[C]//Proceedings of the Fifteenth International Conference on Machine Learning. Madison, USA, 1998, 98: 463−471. [28] JAGODNIK K M, THOMAS P S, VAN DEN BOGERT A J, et al. Training an actor-critic reinforcement learning controller for arm movement using human-generated rewards[J]. IEEE transactions on neural systems and rehabilitation engineering, 2017, 25(10): 1892–1905. [29] FERREIRA E, LEFÈVRE F. Expert-based reward shaping and exploration scheme for boosting policy learning of dialogue management[C]//2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc, Czech Republic, 2013: 108−113. [30] NG A Y, RUSSELL S J. Algorithms for inverse reinforcement learning[C]//Proceedings of the Seventeenth International Conference on Machine Learning. Stanford, USA, 2000, 1: 663−670. [31] MARTHI B. Automatic shaping and decomposition of reward functions[C]//Proceedings of the 24th International Conference on Machine Learning. Corvallis, USA, 2007: 601−608. [32] [33] ROSS S, BAGNELL D. Efficient reductions for imitation 第 5 期 杨瑞,等:强化学习稀疏奖励算法研究——理论与实验 ·897·