【智能系统】强化学习稀疏奖励算法研究——理论与实验

团购合买资源类别：文库，文档格式：PDF，文档页数：12，文件大小：4.8MB

第15卷第5期智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0L:10.11992tis.202003031 强化学习稀疏奖励算法研究——理论与实验杨瑞，严江鹏'，李秀 (1.清华大学自动化系，北京100084：2.清华大学深圳国际研究生院，广东深圳518055) 摘要：近年来，强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功，但是大量实际问题中奖励信号十分稀疏，导致智能体难以从与环境的交互中学习到最优的策略，这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地，在强化学习理论研究中具有重要意义。本文调研了稀硫奖励问题的研究现状，以外部引导信息为线索，分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法，但是后者对数据的依赖性更低，两类方法均具有重要的研究意义。最后，本文对稀疏奖励算法研究进行了总结与展望。关键词：强化学习：深度强化学习：机器学习：稀疏奖励：神经网络；人工智能：深度学习中图分类号：TP181文献标志码：A文章编号：1673-4785(2020)05-0888-12 中文引用格式：杨瑞，严江鹏，李秀.强化学习稀疏奖励算法研究一一理论与实验.智能系统学报，2020,15（⑤）：888-899. 英文引用格式：YANG Rui,YAN Jiangpeng,.LI Xiu..Survey of sparse reward algorithms in reinforcement learning一theory and experiment JI.CAAI transactions on intelligent systems,2020,15(5):888-899. Survey of sparse reward algorithms in reinforcement learning-theory and experiment YANG Rui',YAN Jiangpeng',LI Xiu'2 (1.Department of Automation,Tsinghua University,Beijing 100084,China;2.Shenzhen International Graduate School,Tsinghua University,Shenzhen 518055,China) Abstract:In recent years,reinforcement learning has achieved great success in a range of sequential decision-making applications such as games and robotic control.However,the reward signals are very sparse in many real-world situ- ations,which makes it difficult for agents to determine an optimal strategy based on interaction with the environment. This problem is called the sparse reward problem.Research on sparse reward can advance both the theory and actual ap- plications of reinforcement learning.We investigated the current research status of the sparse reward problem and used the external information as the clue to introduce the following six classes of algorithms:reward shaping,imitation learn- ing,curriculum learning,hindsight experience replay,curiosity-driven algorithms,and hierarchical reinforcement learn- ing.To conduct experiments in the sparse reward environment Fetch Reach,we implemented typical algorithms from the above six classes,followed by thorough comparison and analysis of the results.Algorithms that utilize external in- formation were found to outperform those without external information,but the latter are less dependent on data.Both methods have great research significance.At last,summarize the current sparse reward algorithms and forecast future work Keywords:reinforcement learning,deep reinforcement learning;machine learning:sparse reward;neural networks;arti- ficial intelligence;deep learning 收稿日期：2020-03-19. 基金项目：国家自然科学基金项目(41876098). 强化学习(reinforcement learning)是一类智能通信作者：李秀.E-mail:li.xiu(@sz.tsinghua.edu.cn 体在与环境的交互中不断试错来学习最优策略的

DOI: 10.11992/tis.202003031 强化学习稀疏奖励算法研究——理论与实验杨瑞1 ，严江鹏1 ，李秀1,2 （1. 清华大学自动化系，北京 100084; 2. 清华大学深圳国际研究生院，广东深圳 518055）摘要：近年来，强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功，但是大量实际问题中奖励信号十分稀疏，导致智能体难以从与环境的交互中学习到最优的策略，这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地，在强化学习理论研究中具有重要意义。本文调研了稀疏奖励问题的研究现状，以外部引导信息为线索，分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境 Fetch Reach 上实现了以上 6 类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法，但是后者对数据的依赖性更低，两类方法均具有重要的研究意义。最后，本文对稀疏奖励算法研究进行了总结与展望。关键词：强化学习；深度强化学习；机器学习；稀疏奖励；神经网络；人工智能；深度学习中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2020)05−0888−12 中文引用格式：杨瑞, 严江鹏, 李秀. 强化学习稀疏奖励算法研究——理论与实验 [J]. 智能系统学报, 2020, 15(5): 888–899. 英文引用格式：YANG Rui, YAN Jiangpeng, LI Xiu. Survey of sparse reward algorithms in reinforcement learning — theory and experiment[J]. CAAI transactions on intelligent systems, 2020, 15(5): 888–899. Survey of sparse reward algorithms in reinforcement learning — theory and experiment YANG Rui1 ，YAN Jiangpeng1 ，LI Xiu1,2 (1. Department of Automation, Tsinghua University, Beijing 100084, China; 2. Shenzhen International Graduate School, Tsinghua University, Shenzhen 518055, China) Abstract: In recent years, reinforcement learning has achieved great success in a range of sequential decision-making applications such as games and robotic control. However, the reward signals are very sparse in many real-world situations, which makes it difficult for agents to determine an optimal strategy based on interaction with the environment. This problem is called the sparse reward problem. Research on sparse reward can advance both the theory and actual applications of reinforcement learning. We investigated the current research status of the sparse reward problem and used the external information as the clue to introduce the following six classes of algorithms: reward shaping, imitation learning, curriculum learning, hindsight experience replay, curiosity-driven algorithms, and hierarchical reinforcement learning. To conduct experiments in the sparse reward environment Fetch Reach, we implemented typical algorithms from the above six classes, followed by thorough comparison and analysis of the results. Algorithms that utilize external information were found to outperform those without external information, but the latter are less dependent on data. Both methods have great research significance. At last, summarize the current sparse reward algorithms and forecast future work. Keywords: reinforcement learning; deep reinforcement learning; machine learning; sparse reward; neural networks; artificial intelligence; deep learning 强化学习 (reinforcement learning) 是一类智能体在与环境的交互中不断试错来学习最优策略的收稿日期：2020−03−19. 基金项目：国家自然科学基金项目 (41876098). 通信作者：李秀. E-mail：li.xiu@sz.tsinghua.edu.cn. 第 15 卷第 5 期智能系统学报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020

第5期杨瑞，等：强化学习稀疏奖励算法研究—理论与实验 ·889· 机器学习方法，主要用于解决序贯决策问题。 R (1) 在最近五年时间里，AlphaGO!)3、AlphaStar!) OpenAIFivel分别在围棋、星际争霸Ⅱ、Dota2击败了人类最高水平的玩家，强化学习一度成为了环境 Environment 人工智能最热门的研究领域之一。AlphaGo的主状态S 奖励r 要作者David Silver认为向，强化学习与深度学习动作a 相结合，是实现通用人工智能(general intelli- gence)的关键。状态S, 智能体在强化学习中，奖励(reward)起到了引导智 Agent 能体学习方向的作用”，缺乏奖励信息将导致智图1智能体与环境交互示意图能体学习缓慢甚至无法学习到最优策略，这就是 Fig.1 Schematic of interactions between agent and envir- 稀疏奖励问题(sparse reward problem)。例如，在 onment 蒙特祖玛复仇游戏中，玩家需要依次执行上百个为了完成最大化累计折扣奖励值的目标，需动作才能获得奖励，这使其成为了Atari游戏中最要引人策略(policy)和值函数(value function)两个困难的任务之一0。此外，在很多实际任务中，不重要概念。策略可以描述为当前状态，下选择存在现成的奖励值，人为设计的奖励函数又常常动作a的概率：陷入局部最优，这些问题限制了强化学习的实 π(als)=P(als). 际应用。稀疏奖励问题的研究能够降低奖励函数值函数是指从状态s或状态动作对(s,a)出的设计难度，提高学习算法的样本利用率，加速发能获得累积奖励值的期望，用于评价状态、状策略学习的速度，为强化学习的广泛应用与落地态动作对的好坏。状态值函数V(s),动作值函数打下理论基础。 Q(s,a)分别为本文总结了当前主流的稀疏奖励算法，围绕 V(s)= (2) 是否引入外部引导信息，将当下主流的稀疏奖励问题解决思路分为两类，分别介绍了奖励塑造) Q(s,a)=E (reward shaping)、模仿学习l(imitation learning)、 .j.-x.a-o (3) 课程学习(curriculum learning)和事后经验回放深度强化学习与传统强化学习的区别是使用 (hindsight experience replay)、好奇心驱动(curios-- 了深度神经网络来拟合值函数、策略或环境动态 ity-driven algorithms))、分层强化学习(hierarchical 模型。神经网络的引入提高了强化学习解决大 reinforcement learning)等6类算法，并在Mu- 规模复杂问题的能力，在众多领域取得了令人瞩 joco的Fetch Reach环境I下进行了实验验证和目的成绩。目前的深度强化学习方法可以分为以下3类：基于值函数的方法、基于策略梯分析，实验代码开源在以下地址：https:/github. 度(policy gradient)的方法以及Actor-Critic的方法。 com/YangRui2015/Sparse-Reward-Algorithmso 3类方法的代表分别是DQN2-2、REINFORCE2a 1强化学习与稀疏奖励问题数学模型 Actor--Critic2,从Actor--Critie还衍生出A3Cl2 PPO21、DDPG2等一系列当前主流的强化学习当强化学习问题满足马尔可夫性时，就能将算法其描述为由五元组（⑤，A,P,R,y)定义的马尔可夫决基于值函数的方法，以DQN202为例，用w 策过程(MDP),其中S为状态空间，A为动作空代表神经网络的参数，其损失函数为四间，P为状态转移概率矩阵，R为奖励值，y∈(O, 为折扣因子。智能体每个时刻观测到的状态 loss-E(r+ymaxQ(.d.w)-Q(s.a.w (4) S,∈S,根据状态执行动作a,∈A,环境接收到动作根据式(1)、(3)、(4)，在奖励值几乎为零的稀后转移到新的状态5+1并反馈一个数值的奖励，疏奖励情况下，值函数的估计Q(s,a)接近零，值如图1所示。函数网络更新缓慢。强化学习的目标就是最大化累计折扣奖基于策略梯度的方法，以REINFORCE22为励值-：例，0代表神经网络的参数，其更新梯度为

机器学习方法[1-2] ，主要用于解决序贯决策问题。在最近五年时间里，AlphaGO[ 3 ] 、AlphaStar[ 4 ] 、 OpenAIFive[5] 分别在围棋、星际争霸 II、Dota 2 击败了人类最高水平的玩家，强化学习一度成为了人工智能最热门的研究领域之一。AlphaGo 的主要作者 David Silver 认为[6] ，强化学习与深度学习相结合，是实现通用人工智能 (general intelligence) 的关键。在强化学习中，奖励 (reward) 起到了引导智能体学习方向的作用[7-8] ，缺乏奖励信息将导致智能体学习缓慢甚至无法学习到最优策略，这就是稀疏奖励问题[9] (sparse reward problem)。例如，在蒙特祖玛复仇游戏中，玩家需要依次执行上百个动作才能获得奖励，这使其成为了 Atari 游戏中最困难的任务之一[10]。此外，在很多实际任务中，不存在现成的奖励值，人为设计的奖励函数又常常陷入局部最优[11] ，这些问题限制了强化学习的实际应用。稀疏奖励问题的研究能够降低奖励函数的设计难度，提高学习算法的样本利用率，加速策略学习的速度，为强化学习的广泛应用与落地打下理论基础[12]。本文总结了当前主流的稀疏奖励算法，围绕是否引入外部引导信息，将当下主流的稀疏奖励问题解决思路分为两类，分别介绍了奖励塑造[13] (reward shaping)、模仿学习[14] (imitation learning)、课程学习[15] (curriculum learning) 和事后经验回放[11] (hindsight experience replay)、好奇心驱动[16] (curiosity-driven algorithms)、分层强化学习[17] (hierarchical reinforcement learning) 等 6 类算法，并在 Mujoco 的 Fetch Reach 环境[18] 下进行了实验验证和分析，实验代码开源在以下地址：https://github. com/YangRui2015/Sparse-Reward-Algorithms。 1 强化学习与稀疏奖励问题数学模型 (S,A,P,R, γ) S A P R γ ∈ (0,1] st ∈ S at ∈ A st+1 rt 当强化学习问题满足马尔可夫性时，就能将其描述为由五元组定义的马尔可夫决策过程 (MDP)[1-2] ，其中为状态空间，为动作空间，为状态转移概率矩阵，为奖励值，为折扣因子。智能体每个时刻观测到的状态，根据状态执行动作，环境接收到动作后转移到新的状态并反馈一个数值的奖励，如图 1 所示。强化学习的目标就是最大化累计折扣奖励值[1-2] ： R = ∑∞ k=0 ( γ k rt+k ) . (1) 环境 Environment 智能体 Agent 动作at 状态St+1 奖励rt 状态St 图 1 智能体与环境交互示意图 Fig. 1 Schematic of interactions between agent and environment st at 为了完成最大化累计折扣奖励值的目标，需要引入策略 (policy) 和值函数 (value function) 两个重要概念。策略可以描述为当前状态下选择动作的概率： π(at |st) = P(at |st). s (s,a) V (s) Q(s,a) 值函数是指从状态或状态动作对出发能获得累积奖励值的期望，用于评价状态、状态动作对的好坏。状态值函数，动作值函数分别为 V (s) = E   ∑∞ k=0 ( γ k rt+k ) |st = s   (2) Q(s,a) = E   ∑∞ k=0 ( γ k rt+k ) |st = s, at = a   (3) 深度强化学习与传统强化学习的区别是使用了深度神经网络来拟合值函数、策略或环境动态模型[8]。神经网络的引入提高了强化学习解决大规模复杂问题的能力，在众多领域取得了令人瞩目的成绩[ 1 9 ]。目前的深度强化学习方法可以分为以下 3 类：基于值函数的方法、基于策略梯度 (policy gradient) 的方法以及 Actor-Critic 的方法[7]。 3 类方法的代表分别是 DQN[20-21] 、REINFORCE[22] 、 Actor-Critic[23] ，从 Actor-Critic 还衍生出 A3C[24] 、 PPO[25] 、DDPG[26] 等一系列当前主流的强化学习算法。基于值函数的方法，以 DQN w [ 20-21] 为例，用代表神经网络的参数，其损失函数为[20] loss = E [( r +γmax a ′ Q(s ′ ,a ′ ,w)− Q(s,a,w) )2 ] (4) Q(s,a) 根据式 (1)、(3)、(4)，在奖励值几乎为零的稀疏奖励情况下，值函数的估计接近零，值函数网络更新缓慢。 θ 基于策略梯度的方法，以 REINFORCE[22] 为例，代表神经网络的参数，其更新梯度为第 5 期杨瑞，等：强化学习稀疏奖励算法研究——理论与实验 ·889·

·890· 智能系统学报第15卷 7r(ds:)=Vlogπ(as:)R (5) 励问题中奖励的稀疏性，加快智能体学习速度。根据式(1)、(5)，在稀疏奖励的条件下，累积通常用R(s,a,s)表示原MDP的奖励函数，用奖励值R接近零，因此策略网络更新缓慢。 F(s,a,s)表示附加奖励函数，使用奖励塑造后新基于Actor--Critic!21的方法同理，Critic部分基 MDP的奖励函数为于值函数更新，Actor部分基于策略梯度更新，稀 R(s,a,s')=R(s,a,s')+F(s,a,s) 疏奖励的条件下两部分梯度更新均接近于零。但是在新的MDP问题中学习到的最优策略稀疏奖励问题除了奖励的稀疏性导致学习缓不一定是原MDP的最优策略，也就可能导致奖慢外，还可能存在稀疏性带来的估计不可靠的问励塑造后学习到非理论最优的策略27-2。Ng等2可题，由于奖励样本少，值函数估计的方差较大，这证明了当附加奖励函数可以表示为势能函数(s) 会导致模型训练难以收敛。研究者们为解决以上 (potiental based funciton)的差分形式时，能够保证问题，进行了一系列的研究工作。最优策略不变。 2稀疏奖励研究现状 F(s,a,s）=y(s)-Φ(s) 其中：s表示s的下一个状态，y是原MDP中的目前解决稀疏奖励问题的算法主要有奖励塑折扣因子，势能函数(s)是状态到实数的映射。造、模仿学习、课程学习、事后经验回放、好奇心 Ng等2刃使用距离、子目标来设计启发式的驱动、分层强化学习等6类算法，我们可以根据附加奖励函数，在表格问题中明显加速了学习过是否引入外部引导信息将算法分为两大类，如图2 程；Jagodnik等29使用距离信息计算和人为主观所示。引入外部引导信息的算法通常针对特定问评价两种方式作为奖励函数来控制手臂仿真机器题，需要相应的领域知识或数据，泛化性较差，同人，结果均好于优化的比例微分控制器(PD con- 时也因为先验知识的引入，降低了强化学习模型 troller):Ferreira等o将奖励塑造的强化学习方法的学习难度，通常具有实现简单、学习速度快的引入对话管理任务中，显著提高了前期训练阶段特点，这一类型算法有奖励塑造、模仿学习、课程的表现。学习。无外部引导信息的算法通过挖掘模型、数为了克服奖励塑造泛化性较差的问题，研究据自身的潜能，泛化性能更好，但是模型通常更者们提出了一些自动化地设计奖励函数的方法。为复杂，这一类型算法包括好奇心驱动、事后经 Ng等I]提出逆强化学习(inverse reinforcement 验回放、分层强化学习。接下来我们将对各个方 learning)的概念，将专家示例看作为最优或者次法进行展开介绍。优的策略，然后从专家示例的数据中学习出奖励设计奖励函数函数用于指导智能体训练。Marthi提出基于抽励塑造模仿专家象函数(abstrcat function)的自动奖励塑造方法，通引入外部引导信息策略模仿学习过求解抽象MDP问题的势能函数，再计算势能函数的差分就得到了附加奖励函数。 ·课程学习设置由简到难的课程 2.2模仿学习稀疏奖励模仿学习是一类从示例数据中学习策略的方从失败经历中学习法。稀疏奖励问题往往具有巨大的状态动作空事后经验回放间，难以直接进行探索和学习，使用示例数据进平衡探索和利用好奇心驱动行监督式的学习能够使智能体快速掌握示例策无外部引导信息略，极大减少了训练时间。分层强化学习模仿学习中如果只使用示例数据进行监督学使用分层的策略结构习，难以泛化到陌生的环境中，且长时间步的决图2稀疏奖励主流算法策将导致误差累积，逐渐偏离示例策略B。Ross Fig.2 Mainstream sparse reward algorithms 等证明了误差与时间步的平方成正比，为此提 2.1奖励塑造出在交互中缓慢移动策略分布的SMLe(stochast-. 奖励塑造通常是利用先验知识人工设计附加 ic mixing iterative learning)算法，并理论证明了其奖励函数1来引导智能体完成期望任务的一类收敛性。Nair等B在策略梯度算法中引入行为方法。合适的附加奖励函数能够有效克服稀疏奖克隆损失(behavior clone loss)来学习示例策略，能

∇θπ(a|s; θ) = ∇θ logπ(a|s; θ)Rt (5) Rt 根据式 (1)、(5)，在稀疏奖励的条件下，累积奖励值接近零，因此策略网络更新缓慢。基于 Actor-Critic[23] 的方法同理，Critic 部分基于值函数更新，Actor 部分基于策略梯度更新，稀疏奖励的条件下两部分梯度更新均接近于零。稀疏奖励问题除了奖励的稀疏性导致学习缓慢外，还可能存在稀疏性带来的估计不可靠的问题，由于奖励样本少，值函数估计的方差较大，这会导致模型训练难以收敛。研究者们为解决以上问题，进行了一系列的研究工作。 2 稀疏奖励研究现状目前解决稀疏奖励问题的算法主要有奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等 6 类算法，我们可以根据是否引入外部引导信息将算法分为两大类，如图 2 所示。引入外部引导信息的算法通常针对特定问题，需要相应的领域知识或数据，泛化性较差，同时也因为先验知识的引入，降低了强化学习模型的学习难度，通常具有实现简单、学习速度快的特点，这一类型算法有奖励塑造、模仿学习、课程学习。无外部引导信息的算法通过挖掘模型、数据自身的潜能，泛化性能更好，但是模型通常更为复杂，这一类型算法包括好奇心驱动、事后经验回放、分层强化学习。接下来我们将对各个方法进行展开介绍。奖励塑造课程学习分层强化学习模仿学习引入外部引导信息设置由简到难的课程使用分层的策略结构从失败经历中学习设计奖励函数模仿专家策略无外部引导信息好奇心驱动事后经验回放稀疏奖励平衡探索和利用图 2 稀疏奖励主流算法 Fig. 2 Mainstream sparse reward algorithms 2.1 奖励塑造奖励塑造通常是利用先验知识人工设计附加奖励函数[13] 来引导智能体完成期望任务的一类方法。合适的附加奖励函数能够有效克服稀疏奖 R(s,a,s ′ ) F(s,a,s ′ ) 励问题中奖励的稀疏性，加快智能体学习速度。通常用表示原 M DP 的奖励函数，用表示附加奖励函数，使用奖励塑造后新 MDP 的奖励函数为 R ′ (s,a,s ′ ) = R(s,a,s ′ )+ F (s,a,s ′ ) Φ(s) 但是在新的 MDP 问题中学习到的最优策略不一定是原 MDP 的最优策略，也就可能导致奖励塑造后学习到非理论最优的策略[27-28]。Ng 等 [27] 证明了当附加奖励函数可以表示为势能函数 (potiental based funciton) 的差分形式时，能够保证最优策略不变。 F (s,a,s ′ ) = γΦ(s ′ )−Φ(s) s ′ s γ Φ(s) 其中：表示的下一个状态，是原 MDP 中的折扣因子，势能函数是状态到实数的映射。 Ng 等 [ 27] 使用距离、子目标来设计启发式的附加奖励函数，在表格问题中明显加速了学习过程；Jagodnik 等 [29] 使用距离信息计算和人为主观评价两种方式作为奖励函数来控制手臂仿真机器人，结果均好于优化的比例微分控制器 (PD controller)；Ferreira 等 [30] 将奖励塑造的强化学习方法引入对话管理任务中，显著提高了前期训练阶段的表现。为了克服奖励塑造泛化性较差的问题，研究者们提出了一些自动化地设计奖励函数的方法。 Ng 等 [ 31] 提出逆强化学习 (inverse reinforcement learning) 的概念，将专家示例看作为最优或者次优的策略，然后从专家示例的数据中学习出奖励函数用于指导智能体训练。Marthi[32] 提出基于抽象函数 (abstrcat function) 的自动奖励塑造方法，通过求解抽象 MDP 问题的势能函数，再计算势能函数的差分就得到了附加奖励函数。 2.2 模仿学习模仿学习是一类从示例数据中学习策略的方法 [14]。稀疏奖励问题往往具有巨大的状态动作空间，难以直接进行探索和学习，使用示例数据进行监督式的学习能够使智能体快速掌握示例策略，极大减少了训练时间。模仿学习中如果只使用示例数据进行监督学习，难以泛化到陌生的环境中，且长时间步的决策将导致误差累积，逐渐偏离示例策略[33]。Ross 等 [33] 证明了误差与时间步的平方成正比，为此提出在交互中缓慢移动策略分布的 SMILe (stochastic mixing iterative learning) 算法，并理论证明了其收敛性。Nair 等 [34] 在策略梯度算法中引入行为克隆损失 (behavior clone loss) 来学习示例策略，能 ·890· 智能系统学报第 15 卷

第5期杨瑞，等：强化学习稀疏奖励算法研究— 理论与实验 ·891· 够完成复杂的机械臂控制任务，其行动损失函不同课程阶段对应的分布满足嫡增和权重单数为调增加： H(Q(2)0 LBC= (s:l0)-a W+.(a)0 其中：(s,a)是示例数据，π和0分别是智能体的课程学习的一个难点在于如何自动化地设计策略和策略的参数。Ho等3将对抗生成网络的课程的分级，解决这个问题需要考虑训练模型时思想引入模仿学习提出生成对抗模仿学习(gener-. 的反馈。Graves等3提出一种自适应课程学习 ative adversarial imitation learning,GAL),使用生成方法，通过预测正确率和网络复杂性的增长来自模型产生行为数据，使用判别模型区分行为数据动调整课程的难度，在语言模型训练任务上显著和专家策略数据，GAL在复杂高维环境的模仿提高了训练速度。Akkaya等o提出ADR(auto- 任务中超过了现有方法，其优化目标函数为 matic domain randomization),通过设定表现阈值， Ez [log(D(s.a))]+Ez [log(1-D(s,a))]H() 当正确率高于表现阈值时就扩大训练的分布提高式中：π是生成模型的策略；πE是专家策略；D是课程难度，反之缩小训练分布，在复杂的魔方操判别模型；H是熵函数；入是系数。作任务中取得了成功。通常模仿学习中的示例状态动作对(s,a,)不 2.4事后经验回放容易获得，而示例状态序列(5o,51,…,5,)更容易获事后经验回放(HER)是一种从失败经历中得，从示例状态序列进行模仿学习的任务被称为学习的强化学习方法，通过修正失败经历的目标 “从观测学习”(learning from observation)36。产生奖励信息，解决了奖励的稀疏性问题，同时 Torabi等Im提出BCO(behavioral cloning from ob- 对失败样本的利用极大提高了样本利用效率。G servation),通过学习环境动态模型预测示例观测表示目标空间，g∈G是实验目标，g∈G是实际实序列的动作，然后使用行为克隆进行模仿学习，现的目标，HER将经验数据中目标修改为g,就在多个任务中的表现超过了GAL。产生了成功的回合数据用于策略训练。HER的 2.3课程学习实现将在第3节的实验部分进行更具体的介绍。课程学习是机器学习中逐步增加任务难度以目前对于事后经验回放算法的改进主要在于加快学习速度的方法。在强化学习中课程学习实降低偏差、改进目标采样方式、适配在线策略算质上在逐步调整学习的任务分布，智能体在简单法等。Lanka等认为HER修改目标引入的新任务上更容易获得奖励，将相对简单的任务上学数据带来了偏差，提出通过调整真实奖励和HER的到的策略迁移到复杂任务中，降低了在复杂任务奖励的权重来降低偏差。Manela等s指出，在目中探索的难度，因此课程学习能够用于解决稀疏标物体未移动的情况下，采样的目标只与初始位奖励问题w。置有关而与策略无关，这样的样本会给训练带来 Elmant38最早提出在语法学习任务中使用逐偏差，于是提出Filtered-HER,通过滤去该类型目步增加训练数据复杂度的方法来训练神经网络，标来缓解该问题。Rauber等1通过重要性采样能够解决直接使用全部数据难以训练的问题。将HER运用到策略梯度方法上，实验结果表明 Bengio等认为，课程学习的本质是逐步调整学 HER明显提高了策略梯度方法的样本利用效率。习样本的分布，在简单的样本分布上更容易学习 25好奇心驱动到泛化性好的策略，并通过实验证明了课程学习好奇心驱动是一类使用内在奖励引导智能能够提高训练速度和收敛到更优解。Bengio等体探索环境的方法，高效的探索能够更快地获得给出了课程学习的数学定义，？表示训练样本，P(?) 外在奖励，同时能够降低环境的奖励、状态转表示目标训练集分布，入∈[0,1]表示课程学习的阶移的不确定性，平衡探索与利用，因此好奇心段，W()是A阶段样本z的采样权重，A阶段训驱动能解决稀硫奖励问题带来的稀硫性和不可练分布Q()为靠性问题。目前的好奇心驱动算法根据内在奖 Q(z)o Wa(zP(z),Yz 励计算方式可以分为访问计数法和预测差法的。其中Q满足： Bellemare等s通过信息增益(information gain))来 ∫Q(z)dk=1 联系访问计数法和预测差法，证明了两者本质是 Q()=P(),Yz 相同的

够完成复杂的机械臂控制任务，其行动损失函数为 LBC = ∑N i=1 ∥π(si |θπ)−ai∥ 2 2 (si 其中： ,ai) 是示例数据，π 和 θπ 分别是智能体的策略和策略的参数。Ho 等 [35] 将对抗生成网络的思想引入模仿学习提出生成对抗模仿学习 (generative adversarial imitation learning，GAIL)，使用生成模型产生行为数据，使用判别模型区分行为数据和专家策略数据，GAIL 在复杂高维环境的模仿任务中超过了现有方法，其优化目标函数为 Eπ [ log(D(s,a))] + EπE [ log(1− D(s,a))] −λH (π) π πE D H λ 式中：是生成模型的策略；是专家策略；是判别模型；是熵函数；是系数。 (st ,at) (s0,s1,··· ,st) 通常模仿学习中的示例状态动作对不容易获得，而示例状态序列更容易获得，从示例状态序列进行模仿学习的任务被称为 “从观测学习”(learning from observation)[ 36]。 Torabi 等 [37] 提出 BCO(behavioral cloning from observation)，通过学习环境动态模型预测示例观测序列的动作，然后使用行为克隆进行模仿学习，在多个任务中的表现超过了 GAIL。 2.3 课程学习课程学习是机器学习中逐步增加任务难度以加快学习速度的方法。在强化学习中课程学习实质上在逐步调整学习的任务分布，智能体在简单任务上更容易获得奖励，将相对简单的任务上学到的策略迁移到复杂任务中，降低了在复杂任务中探索的难度，因此课程学习能够用于解决稀疏奖励问题[14]。 z P(z) λ ∈ [0,1] Wλ (z) λ z λ Qλ (z) Elman[38] 最早提出在语法学习任务中使用逐步增加训练数据复杂度的方法来训练神经网络，能够解决直接使用全部数据难以训练的问题。 Bengio 等 [15] 认为，课程学习的本质是逐步调整学习样本的分布，在简单的样本分布上更容易学习到泛化性好的策略，并通过实验证明了课程学习能够提高训练速度和收敛到更优解。Bengio 等 [15] 给出了课程学习的数学定义，表示训练样本，表示目标训练集分布，表示课程学习的阶段，是阶段样本的采样权重，阶段训练分布为 Qλ (z) ∝ Wλ (z)P(z),∀z 其中 Qλ 满足： ∫ Qλ (z)dz = 1 Q1 (z) = P(z),∀z 不同课程阶段对应的分布满足熵增和权重单调增加： H (Qλ (z)) 0 Wλ+ϵ (z) 0 课程学习的一个难点在于如何自动化地设计课程的分级，解决这个问题需要考虑训练模型时的反馈。Graves 等 [ 39] 提出一种自适应课程学习方法，通过预测正确率和网络复杂性的增长来自动调整课程的难度，在语言模型训练任务上显著提高了训练速度。Akkaya 等 [ 40] 提出 ADR(automatic domain randomization)，通过设定表现阈值，当正确率高于表现阈值时就扩大训练的分布提高课程难度，反之缩小训练分布，在复杂的魔方操作任务中取得了成功。 2.4 事后经验回放 G g ∈ G g ′ ∈ G g ′ 事后经验回放 (HER)[11] 是一种从失败经历中学习的强化学习方法，通过修正失败经历的目标产生奖励信息，解决了奖励的稀疏性问题，同时对失败样本的利用极大提高了样本利用效率。表示目标空间，是实验目标，是实际实现的目标，HER 将经验数据中目标修改为，就产生了成功的回合数据用于策略训练。HER 的实现将在第 3 节的实验部分进行更具体的介绍。目前对于事后经验回放算法的改进主要在于降低偏差、改进目标采样方式、适配在线策略算法等。Lanka 等 [41] 认为 HER 修改目标引入的新数据带来了偏差，提出通过调整真实奖励和 HER 的奖励的权重来降低偏差。Manela 等 [42] 指出，在目标物体未移动的情况下，采样的目标只与初始位置有关而与策略无关，这样的样本会给训练带来偏差，于是提出 Filtered-HER，通过滤去该类型目标来缓解该问题。Rauber 等 [43] 通过重要性采样将 HER 运用到策略梯度方法上，实验结果表明 HER 明显提高了策略梯度方法的样本利用效率。 2.5 好奇心驱动好奇心驱动是一类使用内在奖励引导智能体探索环境的方法，高效的探索能够更快地获得外在奖励[16] ，同时能够降低环境的奖励、状态转移的不确定性，平衡探索与利用[44] ，因此好奇心驱动能解决稀疏奖励问题带来的稀疏性和不可靠性问题。目前的好奇心驱动算法根据内在奖励计算方式可以分为访问计数法和预测差法[45]。 Bellemare 等 [46] 通过信息增益 (information gain) 来联系访问计数法和预测差法，证明了两者本质是相同的。第 5 期杨瑞，等：强化学习稀疏奖励算法研究——理论与实验 ·891·

·892· 智能系统学报第15卷访问计数法使用访问次数定义状态的陌生程 2.6分层强化学习度，鼓励智能体探索更陌生的状态，以提高探索分层强化学习(HRL)是一类使用分层策略结能力和降低对奖励估计的不确定性。Strehl等a7 构的方法，分层的结构能够学习不同层次的策提出了一种基于模型的内在奖励方法，使用与状略，从而有效解决维度爆炸的问题6s。分层强态动作对计数的平方根成反比的内部奖励，并理化学习方法的上层策略往往能够处理更大时间尺论证明了其最优性：度的决策，同时分层强化学习方法还能缩小各层 rm(s,a）=BW(s,a)i 策略的动作序列空间，进一步提高了解决稀疏奖式中：B是常系数；N(s,a)是状态动作对(s,a)的励问题的能力。计数值。为了将访问计数法推广到高维连续状态目前用于稀疏奖励问题的分层强化学习算法空间中，Tang等使用哈希函数将连续的状态空主要有两类，基于选项6(option)的方法和基于子目标Is(subgoal)的方法。间离散化进行计数，该方法在多个连续动作控制问题中取得了成功。基于选项的方法结构简单，上层策略在多个预测差法通过学习环境的状态转移，使用预下层策略中进行选择，被选择的下层策略输出动作，如图4所示。Sutton等s将基于选项的分层测误差作为内在奖励，能降低环境动态的不确定性。预测差法中使用状态3，和动作4，来预测新算法表述为半马尔可夫决策过程(SMDP),并推导的状态s+1的方法被称作前向动态方法(forward 出在动态规划、Q-Learning中基于选项方法的公 dynamic))9。Stadie等B提出一种根据编码后的式。Bacon等)将基于选项的分层方法和策略梯状态(s,)和动作a,来预测(s+)的前向动态方度法结合，提出了Option-Critic算法，并通过实验法，使用归一化的预测误差计算内在奖励，预测验证了该方法能够学习到具有实际意义的选项策误差为略。Frans等s结合元学习方法来训练基于选项的分层结构，在多个连续动作控制问题中显著提 e(5.a)=(s1)-M((5,).a) 高了学习速度。其中M表示预测网络，该方法能够有效解决大规选择子策略模游戏环境的探索问题。Pathak等认为好奇心主策略0 驱动存在电视噪声问题，于是提出ICM(intrinsic curiosity module),在前向动态模型的基础上增加子策略，状态s 环境奖励r 了使用(s+)和(s)来预测a,的逆向模型，如子策略甲：图3所示。逆向模型的作用是提取对智能体选择动作有影响的特征啊，能够缓解电视噪声问题。子策略o 预测动作a, 逆向模型动作a 图4基于选项的分层结构示意图状态S 状态映射 Fig.4 Schematic of option-based HRL methods 内在奖励r 状态S, 状态映射 -(S) 基于子目标的方法结构则是：上层策略生成动作a 前向模型子目标，下层策略输出动作去实现子目标，如图5 所示。Vezhnevets等s7提出FeUdal Networks,.将图3ICM原理图子目标设定为隐状态空间中的方向，在蒙特祖玛 Fig.3 Schematic of ICM 复仇等多个Atari游戏中的表现均超过基线算状态编码是高维连续状态空间下的好奇心驱法。Nachum等s81认为，采用离线策略训练分层动算法一个重要研究内容。Burda等l对比了结构将因为策略的改变产生偏差，可能导致训练 ICM、VAE、Random Network、Pixels4种编码方不稳定，因此提出了使用离线数据校正的HRO 式在54个游戏中的实验结果，得出以下结论：ICM 算法，在Ant-Gather、Ant-Maze等复杂的连续动作的泛化性最好，Random Network也足以在45%的控制环境中表现均优于FeUdal Networks。Ley等例游戏中超过ICM,意味着很多游戏只需使用固定提出了HAC(hierarchical actor critic),该方法在基的随机网络就能够提取足够的特征用于策略学于子目标的分层算法基础上，结合了事后经验回习，对后续的研究具有启示作用。放算法极大提升了学习速度且表现好于HRO

访问计数法使用访问次数定义状态的陌生程度，鼓励智能体探索更陌生的状态，以提高探索能力和降低对奖励估计的不确定性。Strehl 等 [47] 提出了一种基于模型的内在奖励方法，使用与状态动作对计数的平方根成反比的内部奖励，并理论证明了其最优性： rin (s,a) = βN(s,a) − 1 2 式中： β 是常系数； N(s,a) 是状态动作对 (s,a) 的计数值。为了将访问计数法推广到高维连续状态空间中，Tang 等 [48] 使用哈希函数将连续的状态空间离散化进行计数，该方法在多个连续动作控制问题中取得了成功。 st at st+1 ϕ(st) at ϕ(st+1) 预测差法通过学习环境的状态转移，使用预测误差作为内在奖励，能降低环境动态的不确定性。预测差法中使用状态和动作来预测新的状态的方法被称作前向动态方法 (forward dynamic)[49]。Stadie 等 [50] 提出一种根据编码后的状态和动作来预测的前向动态方法，使用归一化的预测误差计算内在奖励，预测误差为 e (st ,at ,st+1) = ∥ϕ(st+1)− M (ϕ(st),at)∥ 2 2 M ϕ(st+1) ϕ(st) at 其中表示预测网络，该方法能够有效解决大规模游戏环境的探索问题。Pathak 等 [45] 认为好奇心驱动存在电视噪声问题，于是提出 ICM(intrinsic curiosity module)，在前向动态模型的基础上增加了使用和来预测的逆向模型，如图 3 所示。逆向模型的作用是提取对智能体选择动作有影响的特征[45] ，能够缓解电视噪声问题。动作at 状态St 状态映射状态St+1 状态映射前向模型内在奖励rt 预测动作at 逆向模型 ϕ (St+1) ϕ (St ) 图 3 ICM 原理图 Fig. 3 Schematic of ICM 状态编码是高维连续状态空间下的好奇心驱动算法一个重要研究内容。Burda 等 [16] 对比了 ICM、VAE[51] 、Random Network、Pixels 4 种编码方式在 54 个游戏中的实验结果，得出以下结论：ICM 的泛化性最好，Random Network 也足以在 45% 的游戏中超过 ICM，意味着很多游戏只需使用固定的随机网络就能够提取足够的特征用于策略学习，对后续的研究具有启示作用。 2.6 分层强化学习分层强化学习 (HRL) 是一类使用分层策略结构的方法，分层的结构能够学习不同层次的策略，从而有效解决维度爆炸的问题[16, 52]。分层强化学习方法的上层策略往往能够处理更大时间尺度的决策，同时分层强化学习方法还能缩小各层策略的动作序列空间，进一步提高了解决稀疏奖励问题的能力。目前用于稀疏奖励问题的分层强化学习算法主要有两类[52] ，基于选项[53] (option) 的方法和基于子目标[54] (subgoal) 的方法。基于选项的方法结构简单，上层策略在多个下层策略中进行选择，被选择的下层策略输出动作，如图 4 所示。Sutton 等 [ 53] 将基于选项的分层算法表述为半马尔可夫决策过程 (SMDP)，并推导出在动态规划、Q-Learning 中基于选项方法的公式。Bacon 等 [55] 将基于选项的分层方法和策略梯度法结合，提出了 Option-Critic 算法，并通过实验验证了该方法能够学习到具有实际意义的选项策略。Frans 等 [56] 结合元学习方法来训练基于选项的分层结构，在多个连续动作控制问题中显著提高了学习速度。动作a 状态s 奖励r 子策略φ3 子策略φ1 子策略φ2 环境主策略θ 选择子策略图 4 基于选项的分层结构示意图 Fig. 4 Schematic of option-based HRL methods 基于子目标的方法结构则是：上层策略生成子目标，下层策略输出动作去实现子目标，如图 5 所示。Vezhnevets 等 [57] 提出 FeUdal Networks，将子目标设定为隐状态空间中的方向，在蒙特祖玛复仇等多个 Atari 游戏中的表现均超过基线算法。Nachum 等 [ 58] 认为，采用离线策略训练分层结构将因为策略的改变产生偏差，可能导致训练不稳定，因此提出了使用离线数据校正的 HIRO 算法，在 Ant-Gather、Ant-Maze 等复杂的连续动作控制环境中表现均优于 FeUdal Networks。Levy 等 [59] 提出了 HAC(hierarchical actor critic)，该方法在基于子目标的分层算法基础上，结合了事后经验回放算法极大提升了学习速度且表现好于 HIRO。 ·892· 智能系统学报第 15 卷

第5期杨瑞，等：强化学习稀疏奖励算法研究—理论与实验 ·893· 目标g 各实验均进行10次随机试验，去除最大最小值绘制成功率均值标准差曲线，I个epoch包括高层策略 100局仿真，其余实验参数见表1。子目标g 表1DDPG参数中间层状态 Table 1 DDPG Parameters 策略环境奖励r 参数值子目标g 优化器 Adam 底层策略学习率 0.001 折扣因子y 0.98 动作滑动平均比例τ 0.05 图5基于子目标的分层结构示意图网络全连接层数 3 Fig.5 Schematic of subgoal-based HRL methods 隐层节点数 64 激活函数 Relu 3稀疏奖励算法实验输出层激活函数 tanh 动作噪声 N0,0.1) 为了初步验证上述算法在稀疏奖励问题中作最大经验池大小 10 用，我们在MuJoCo的机器人环境Fetch Reach!劉单次更新次数 40 下分别实现了6类算法的代表性算法（实验2~7）： batch大小 64 1)奖励塑造：实验2实现了Ng等2)提出的势能函数差分形式的奖励塑造方法，记为Reward 31实验算法及结果 Shaping; 3.1.1实验1DDPG 2)模仿学习：实验3实现了Nair等B提出的本实验采用的基线算法是基于泛化值函数估行为克隆算法，记为Behavior Clone; 计I61的深度确定性策略梯度算法(DDPG), 3)课程学习：实验4实现了符合Bengio等 DDPG是代表性的基于Actor-Critic的连续动作控定义的课程学习方法，记为Curriculum Learning; 制方法，后续6个算法的实现均建立在其基础 4)事后经验回放：实验5实现了事后经验回上。基于泛化值函数估计的方法认为智能体的策放算法回，记为HER: 略和值函数与目标有关，G表示目标空间，g∈G 5)好奇心驱动：实验6实现了一种基于预测表示目标，a为动作，s为状态，d严是策略π的采差的前向动态算法[so,记为Forward Dynamics; 样分布，则DDPG with UVFA的损失函数分别为 6)分层强化学习：实验7实现了一种基于子 Ourge=r+1+yQ(S+1,T(S+1,g）,8）目标的分层强化学习算法，记为HDDPG。 Leritic=Es-d (Qunget-Q(s1,ag)) Lor=-E-eQ(S,π(S,g),g)】 Fetch Reach实验环境的任务是控制机械臂到实验1比较了DDPG与随机策略(Random) 达目标位置，目标范围在空间中用小红球表示，的表现，实验结果如图7所示。DDPG经过如图6所示，当机械夹顶端碰到小红球即为达到 370个epoch的学习平均表现才超过随机策略，目标。对于机器人的每步操作，完成目标获得奖在500个epoch内最高平均成功率为21%。通过励+1，否则获得奖励-1。实验测试中执行随机动实验1，我们可以验证常规的深度强化学习算法作5×10步，获得正奖励的概率仅为1.5%，因此 DDPG在稀疏奖励任务中学习缓慢。本实验环境是典型的稀疏奖励环境。 100 ·DDPG -Random 60 40 20L 100 200300 400 500 训练Epoch数图6 Fetch Reach实验环境图7DDPG与随机动作成功率学习曲线 Fig.6 Fetch Reach environment Fig.7 Performance curve of DDPG and Random

高层策略中间层策略底层策略子目标g′ 动作环境状态s 目标g 奖励r 子目标g′ 图 5 基于子目标的分层结构示意图 Fig. 5 Schematic of subgoal-based HRL methods 3 稀疏奖励算法实验为了初步验证上述算法在稀疏奖励问题中作用，我们在 MuJoCo 的机器人环境 Fetch Reach[18] 下分别实现了 6 类算法的代表性算法 (实验 2～7)： 1) 奖励塑造：实验 2 实现了 Ng 等 [27] 提出的势能函数差分形式的奖励塑造方法，记为 Reward Shaping； 2) 模仿学习：实验 3 实现了 Nair 等 [34] 提出的行为克隆算法，记为 Behavior Clone； 3) 课程学习：实验 4 实现了符合 Bengio 等 [15] 定义的课程学习方法，记为 Curriculum Learning； 4) 事后经验回放：实验 5 实现了事后经验回放算法[12] ，记为 HER； 5) 好奇心驱动：实验 6 实现了一种基于预测差的前向动态算法[50] ，记为 Forward Dynamic； 6) 分层强化学习：实验 7 实现了一种基于子目标的分层强化学习算法[54] ，记为 HDDPG。 +1 −1 5×104 Fetch Reach 实验环境的任务是控制机械臂到达目标位置，目标范围在空间中用小红球表示，如图 6 所示，当机械夹顶端碰到小红球即为达到目标。对于机器人的每步操作，完成目标获得奖励，否则获得奖励。实验测试中执行随机动作步，获得正奖励的概率仅为 1.5%，因此本实验环境是典型的稀疏奖励环境。图 6 Fetch Reach 实验环境 Fig. 6 Fetch Reach environment 各实验均进行 10 次随机试验，去除最大最小值绘制成功率均值标准差曲线，1 个 epoch 包括 100 局仿真，其余实验参数见表 1。表 1 DDPG 参数 Table 1 DDPG Parameters 参数值优化器 Adam 学习率 0.001 折扣因子 γ 0.98 滑动平均比例 τ 0.05 网络全连接层数 3 隐层节点数 64 激活函数 Relu 输出层激活函数 tanh 动作噪声 N(0,0.1) 最大经验池大小 106 单次更新次数 40 batch大小 64 3.1 实验算法及结果 3.1.1 实验 1 DDPG G g ∈ G a s d π π 本实验采用的基线算法是基于泛化值函数估计 [ 6 0 ] 的深度确定性策略梯度算法 (DDPG) ， DDPG 是代表性的基于 Actor-Critic 的连续动作控制方法，后续 6 个算法的实现均建立在其基础上。基于泛化值函数估计的方法认为智能体的策略和值函数与目标有关，表示目标空间，表示目标，为动作，为状态，是策略的采样分布，则 DDPG with UVFA 的损失函数分别为 Qtarget = rt+1 +γQ(st+1, π(st+1,g),g) Lcritic = Est∼d π ( Qtarget − Q(st ,at ,g) )2 Lactor = −Est∼d π [ Q(st , π(st ,g),g) ] 实验 1 比较了 DDPG 与随机策略 (Random) 的表现，实验结果如图 7 所示。 DDP G 经过 370 个 epoch 的学习平均表现才超过随机策略，在 500 个 epoch 内最高平均成功率为 21%。通过实验 1，我们可以验证常规的深度强化学习算法 DDPG 在稀疏奖励任务中学习缓慢。 100 DDPG Random 80 60 40 20 0 100 200 300 训练Epoch数成功率/% 400 500 图 7 DDPG 与随机动作成功率学习曲线 Fig. 7 Performance curve of DDPG and Random 第 5 期杨瑞，等：强化学习稀疏奖励算法研究——理论与实验 ·893·

·894· 智能系统学报第15卷 3.l.2实验2 Reward Shaping 100 实验2根据机械夹顶端到目标位置的距离设 80 计奖励函数。g表示目标位置，中表示状态到位置 60 的映射，(s)表示状态的位置，我们设计势能函数为距离目标位置的距离： (5,g)=-g-(s)服根据Ng等2)的理论，我们设计奖励函数， AAA 为势能函数的差分形式： 0 10 20 30 40 50 训练Epoch数 r(s,5+1,g)=A(Φ(s41,g)-Φ(3，g》= Alg-p(s)服-lg-中(s+)) 图9 Behavior Clone成功率学习曲线其中是大于0的奖励系数。在本实验中，由于 Fig.9 Performance curve of Behavior Clone 单步位移较小(10-3量级)，因此设置了A=103。 3.1.4实验4 Curriculum Learning 实验2比较了奖励塑造和DDPG的表现，实实验4通过设计目标分布范围逐渐增大的任验结果如图8所示。奖励塑造明显加快了学习速务序列来实现课程学习，能够证明我们的设计方度，40个epoch就收敛到100%成功率，验证了按式符合Bengio等1对课程学习的定义。实验任照势能函数差分形式设计奖励函数的有效性。务中目标位置在各维度变化范围是(-0.15,0.15)， 100 记做range=0.15,我们设计的课程目标分布序列为 80 range=0.05+ix 0.1 c-1.ie[0.c-1] 60 其中c为课程数。我们的课程序列保证了最后阶 40 DDPG 段i=c-1时目标分布范围与其余实验相同。 DDPG+reward shaping 实验4比较了不同课程数c对课程学习的影 20 响，实验结果如图10所示。当课程数c=1时，课程难度较大，难以进行策略学习；当课程数c=2 0 2030 40 50 训练Epoch数时，在50个epoch处存在任务切换导致的断层；当图8奖励塑造与DDPG成功率学习曲线课程数继续增加，课程跨度变小，策略迁移更快， Fig.8 Performance curve of Reward Shaping and DDPG 学习速度进一步提高，但当课程数大于10后，提 3.l.3实验3 Behavior Clone 高课程数几乎不带来性能的提升。实验中c=10 实验3实现的是Nair等B使用的行为克隆时学习速度最快，70个epoch收敛到100%成功率。 (Behavior Clone)算法，利用HER训练的成功率 100 100%的智能体随机产生100局的交互数据作为示例数据，同时最大化累计奖励和最小化与示例 60 策略的误差。由于示例数据有限，不一定能获得课程数1 示例策略在当前状态下的决策，为此我们使用从课程数2 示例数据中的采样(s,8,a)来计算策略误差：课程数5 课程数10以 Lace=-E-d[Q(s,π(s,g）,g]+ aE,.lla.-π(s,g) 20 4060 80 100 式中：π、π分别表示示例策略和实际策略；S、g 训练Epoch数分别表示实际状态和目标；a是常系数；d严、d分图10课程学习成功率学习曲线别代表智能体采样数据分布和示例数据分布。 Fig.10 Performance curve of Curriculum Learning 实验3比较了不同α下行为克隆的表现，其 3.1.5实验5HER 中α=0即代表DDPG,实验结果如图9所示。结实验5实现的HER)算法具体描述为：在每果显示，随着示例策略损失的系数α增加，学习局仿真结束后，对该局的数据(s,a,S+1,,g)采样速度加快，当a=1时，8个epoch就收敛到100% 多个状态s∈S,利用状态到目标的映射中得到该成功率。实验结果验证了引入示例策略损失的行局完成的目标g=中(s)。对每条数据(S,a,S+1,r,g) 为克隆方法能够显著提高学习速度，a=1时Be- 用g计算新的奖励值r,=-(l-(s4i)-gI匠>threshold), havior Clone在本实验实现的算法中最快收敛到完成目标奖励为0，否则奖励为-1。最后将生成 100%成功率。的新数据(s,a,S41,,g)和原数据一起存人经验

3.1.2 实验 2 Reward Shaping g ϕ ϕ(st) st 实验 2 根据机械夹顶端到目标位置的距离设计奖励函数。表示目标位置，表示状态到位置的映射，表示状态的位置，我们设计势能函数为距离目标位置的距离： Φ(st ,g) = −∥g−ϕ(st)∥ 2 2 根据 Ng 等 r [27] 的理论，我们设计奖励函数为势能函数的差分形式： r(st ,st+1,g) = λ(Φ(st+1,g)−Φ(st ,g)) = λ(∥g−φ(st)∥ 2 2 −∥g−ϕ(st+1)∥ 2 2 ) λ 10−3 λ = 103 其中是大于 0 的奖励系数。在本实验中，由于单步位移较小 ( 量级)，因此设置了。实验 2 比较了奖励塑造和 DDPG 的表现，实验结果如图 8 所示。奖励塑造明显加快了学习速度，40 个 epoch 就收敛到 100% 成功率，验证了按照势能函数差分形式设计奖励函数的有效性。成功率/% 100 DDPG DDPG+reward shaping 80 60 40 20 0 10 20 30 训练Epoch数 40 50 图 8 奖励塑造与 DDPG 成功率学习曲线 Fig. 8 Performance curve of Reward Shaping and DDPG 3.1.3 实验 3 Behavior Clone (se ,ge ,ae) 实验 3 实现的是 Nair 等 [34] 使用的行为克隆 (Behavior Clone) 算法，利用 HER 训练的成功率 100% 的智能体随机产生 100 局的交互数据作为示例数据，同时最大化累计奖励和最小化与示例策略的误差。由于示例数据有限，不一定能获得示例策略在当前状态下的决策，为此我们使用从示例数据中的采样来计算策略误差： Lactor = −Est∼d π [ Q(st , π(st ,g),g) ] + αEse∼d πe ∥ae −π(se ,ge)∥ 2 2 πe π st g α d π d πe 式中：、分别表示示例策略和实际策略；、分别表示实际状态和目标；是常系数；、分别代表智能体采样数据分布和示例数据分布。 α α = 0 α α = 1 α = 1 实验 3 比较了不同下行为克隆的表现，其中即代表 DDPG，实验结果如图 9 所示。结果显示，随着示例策略损失的系数增加，学习速度加快，当时，8 个 epoch 就收敛到 100% 成功率。实验结果验证了引入示例策略损失的行为克隆方法能够显著提高学习速度，时 Behavior Clone 在本实验实现的算法中最快收敛到 100% 成功率。成功率/% 100 80 60 40 20 0 10 20 30 训练Epoch数 40 50 α=0 α=10–6 α=10–3 α=1 图 9 Behavior Clone 成功率学习曲线 Fig. 9 Performance curve of Behavior Clone 3.1.4 实验 4 Curriculum Learning (−0.15,0.15) range = 0.15 实验 4 通过设计目标分布范围逐渐增大的任务序列来实现课程学习，能够证明我们的设计方式符合 Bengio 等 [15] 对课程学习的定义。实验任务中目标位置在各维度变化范围是，记做，我们设计的课程目标分布序列为 range = 0.05+i× 0.1 c−1 , i ∈ [0, c−1] c i = c−1 其中为课程数。我们的课程序列保证了最后阶段时目标分布范围与其余实验相同。 c c = 1 c = 2 c = 10 实验 4 比较了不同课程数对课程学习的影响，实验结果如图 10 所示。当课程数时，课程难度较大，难以进行策略学习；当课程数时，在 50 个 epoch 处存在任务切换导致的断层；当课程数继续增加，课程跨度变小，策略迁移更快，学习速度进一步提高，但当课程数大于 10 后，提高课程数几乎不带来性能的提升。实验中时学习速度最快，70 个 epoch 收敛到 100% 成功率。 100 80 60 40 20 0 20 40 60 训练Epoch数成功率/% 80 100 课程数 1 课程数 2 课程数 5 课程数 10 图 10 课程学习成功率学习曲线 Fig. 10 Performance curve of Curriculum Learning 3.1.5 实验 5 HER (st ,at ,st+1,rt ,g) s ∈ S ϕ g ′ = ϕ(s) (st ,at ,st+1,rt ,g) g ′ r ′ t = −(∥ϕ(st+1)−g ′ ∥ 2 2 > threshold) −1 (st ,at ,st+1,r ′ t ,g ′ ) 实验 5 实现的 HER[11] 算法具体描述为：在每局仿真结束后，对该局的数据采样多个状态，利用状态到目标的映射得到该局完成的目标。对每条数据用计算新的奖励值，完成目标奖励为 0，否则奖励为。最后将生成的新数据和原数据一起存入经验 ·894· 智能系统学报第 15 卷

第5期杨瑞，等：强化学习稀疏奖励算法研究一理论与实验 ·895· 池，使用DDPG进行策略更新。 3.1.7实验7 HDDPG 本实验中，状态了是包括位置、速度信息的实验7实现的分层强化学习算法HDDPG 15维向量，前三维是机械夹顶端的位置，因此状 Hierarchical DDPG)结构上和HACs9相近，区别态到位置的映射中=s0:3]。本实验采用的每局在于HDDPG不使用事后经验回放。HDDPG属采样目标数为4。于基于子目标的分层强化学习方法，假设层数为实验5比较了事后经验回放与DDPG的表 H,最高层策略输入状态s、系统目标g,输出子现，实验结果如图I1所示。HER在I5个epoch 目标：左右就收敛到100%成功率，且稳定性高，在无外 subgoal#=πH(S,8) 部引导信息算法中表现最好。中间层策略输入状态、子目标，输出子目标： 100 DDPG subgoal-l=πa(s,subgoal),h∈(1，H) 80 HER 最下层策略输入状态、子目标，输出动作： a,=π1(s,subgoal) 60 各层每一步如果完成目标获得奖励+1，否则获得奖励-1，如果超过最大步数未完成目标还将 20 获得负奖励作为惩罚。 A 实验7比较了不同层数HDDPG的表现，其 0 10 2030 40 50 中层数为1即为DDPG,实验结果如图13所示。训练Epoch数本实验验证了HDDPG分层的结构提高了解决稀图11HIER与DDPG学习曲线疏奖励问题的能力，同时能够得到层数对HD Fig.11 Performance curve of HER and DDPG DPG的影响，当层数不大于3的时候，HDDPG表 3.1.6实验6 Forward Dynamic 现随层数增加而提高，层数为3时最高平均成功实验6实现的好奇心驱动算法是基于预测差率达到66%。此外，我们也进行了层数大于3的的Forward Dynamictso],使用前向模型M学习环实验，结果接近DDPG,我们认为这是因为分层的境动态，同时使用标准化的预测误差l0SSom作为离线策略算法存在的偏差58随着层数增加累积，内在奖励ra: 当层数过大时会导致训练不稳定，甚至难以进行 losStorwand =Es-M(a;0) yμ，g 策略学习。 l0SStorward 100 loSStorward-M 层数1 lOSSnorm= 80 层数2 Tin loSSnorm 层数3 其中，μ、σ分别表示预测误差的均值和标准差。实验中使用3层64节点的神经网络来作为 % 前向模型M。实验6比较了Forward Dynamic与DDPG的表现，实验结果如图12所示。Forward Dynam- 100 200300 400500 ic在80个epoch左右收敛到100%成功率，验证训练Epoch数了Forward Dynamic方法对稀疏奖励问题的有效性。图13不同层数HDDPG成功率学习曲线 100 Fig.13 Performance curve of different layers of HDDPG 80 3.2实验总结 60 通过表2总结了实验实现的6类算法的代表性算法在稀疏奖励问题中的表现，相比于DDPG 40 DDPG 均有显著提升。其中，使用示例策略辅助学习的 Forward dynamic 20 mwww Behavior Clone表现最佳，8个epoch就收敛到 100%成功率，HER没有使用外部引导信息但是 20 4060 80100 训练Epoch数表现接近Behavior Clone,l5个epoch收敛到 100%成功率。图12 Forward Dynamic与DDPG成功率学习曲线 Fig.12 Performance curve of Forward Dynamic and 从表2可以看到使用外部引导信息的算法平 DDPG 均表现好于无外部引导信息的算法。实际上我们

池，使用 DDPG 进行策略更新。 s ϕ = s[0 : 3] 本实验中，状态是包括位置、速度信息的 15 维向量，前三维是机械夹顶端的位置，因此状态到位置的映射。本实验采用的每局采样目标数为 4。实验 5 比较了事后经验回放与 DDPG 的表现，实验结果如图 11 所示。HER 在 15 个 epoch 左右就收敛到 100% 成功率，且稳定性高，在无外部引导信息算法中表现最好。 100 DDPG HER 80 60 40 20 0 10 20 30 训练Epoch数成功率/% 40 50 图 11 HER 与 DDPG 学习曲线 Fig. 11 Performance curve of HER and DDPG 3.1.6 实验 6 Forward Dynamic M lossnorm rin 实验 6 实现的好奇心驱动算法是基于预测差的 Forward Dynamic[ 50] ，使用前向模型学习环境动态，同时使用标准化的预测误差作为内在奖励： lossforward = Est∼d π ∥st+1 − M (st ,at ; θ)∥ 2 2 lossforward update → µ,σ lossnorm = lossforward −µ σ rin = lossnorm µ、σ M 其中，分别表示预测误差的均值和标准差。实验中使用 3 层 64 节点的神经网络来作为前向模型。实验 6 比较了 Forward Dynamic 与 DDPG 的表现，实验结果如图 12 所示。Forward Dynamic 在 80 个 epoch 左右收敛到 100% 成功率，验证了 Forward Dynamic 方法对稀疏奖励问题的有效性。 DDPG Forward dynamic 100 80 60 40 20 0 20 40 60 训练Epoch数成功率/% 80 100 图 12 Forward Dynamic 与 DDPG 成功率学习曲线 Fig. 12 Performance curve of Forward Dynamic and DDPG 3.1.7 实验 7 HDDPG H st g 实验 7 实现的分层强化学习算法 HDDPG (Hierarchical DDPG) 结构上和 HAC[59] 相近，区别在于 HDDPG 不使用事后经验回放。HDDPG 属于基于子目标的分层强化学习方法，假设层数为，最高层策略输入状态、系统目标，输出子目标： subgoalH = πH (st ,g) 中间层策略输入状态、子目标，输出子目标： subgoalh−1 = πh ( st ,subgoalh ) ,h ∈ (1,H) 最下层策略输入状态、子目标，输出动作： at = π1 ( st ,subgoal1 ) +1 −1 各层每一步如果完成目标获得奖励，否则获得奖励，如果超过最大步数未完成目标还将获得负奖励作为惩罚。实验 7 比较了不同层数 HDDPG 的表现，其中层数为 1 即为 DDPG，实验结果如图 13 所示。本实验验证了 HDDPG 分层的结构提高了解决稀疏奖励问题的能力，同时能够得到层数对 HDDPG 的影响，当层数不大于 3 的时候，HDDPG 表现随层数增加而提高，层数为 3 时最高平均成功率达到 66%。此外，我们也进行了层数大于 3 的实验，结果接近 DDPG，我们认为这是因为分层的离线策略算法存在的偏差[ 58] 随着层数增加累积，当层数过大时会导致训练不稳定，甚至难以进行策略学习。层数 1 层数 2 层数 3 100 80 60 40 20 0 100 200 300 训练Epoch数成功率/% 400 500 图 13 不同层数 HDDPG 成功率学习曲线 Fig. 13 Performance curve of different layers of HDDPG 3.2 实验总结通过表 2 总结了实验实现的 6 类算法的代表性算法在稀疏奖励问题中的表现，相比于 DDPG 均有显著提升。其中，使用示例策略辅助学习的 Behavior Clone 表现最佳，8 个 epoch 就收敛到 100% 成功率，HER 没有使用外部引导信息但是表现接近 Behavior Clone，15 个 epoch 收敛到 100% 成功率。从表 2 可以看到使用外部引导信息的算法平均表现好于无外部引导信息的算法。实际上我们第 5 期杨瑞，等：强化学习稀疏奖励算法研究——理论与实验 ·895·

·896· 智能系统学报第15卷使用的Fetch Reach实验环境是相对简单的，容易仿学习与HER结合的算法。构建可靠的外部引导信息，在更多的稀疏奖励任务中，外部引导信息是难于构建的，这就需要无 5结束语外部引导信息算法的研究。在我们的实验中，本文将目前主流的稀疏奖励算法按是否引入 HER、Forward Dynamic等算法的表现已经接近使外部引导信息分为两类，分别介绍了奖励塑造、用外部引导信息的算法，具有重要的研究价值和模仿学习、课程学习和事后经验回放、好奇心驱意义。动、分层强化学习等6类算法的发展和应用。本表2实验结果文还通过实验验证了6种算法在稀疏奖励问题中 Table 2 Experiment results 的有效性，相比于DDPG均有显著提升，部分无有无外部最高平均收敛算法外部引导信息的算法表现已经接近使用外部引导引导信息成功率% epoch数信息的算法。本文的实验比较了6种算法解决稀 Random 无 17 疏奖励问题的能力，为进一步的研究提供了实验 DDPG 无 21 370 基础。 Reward Shaping 有 100 43 稀疏奖励问题的研究对强化学习理论的拓展以及算法的实际落地具有重要意义，我们希望在 Behavior Clone(a=1) 有 100 P 未来看到更高效的算法用于解决复杂的稀疏奖励 Curriculum 10 有 100 70 问题，同时也希望看到更多强化学习算法的实际 HER 无 100 15 落地与应用，为社会创造更多价值。 Forward Dynamic 无 100 80 参考文献： HDDPG layers3 无 66 100 [1]SUTTON R S,BARTO A G.Reinforcement learning:an 4展望 introduction[MI.Cambridge,USA:MIT Press.1998. [2]SUTTON R S,BARTO A G.Reinforcement learning:an 稀疏奖励算法未来的研究方向可以是根据各 introduction[M].2nd ed.Cambridge:MIT Press,2018. 算法存在的问题进行改进，或对多种稀疏奖励算 [3]SILVER D,HUANG A,MADDISON C J,et al.Master- 法进行结合。自适应课程学习是重要的研究方 ing the game of Go with deep neural networks and tree 向，结合生成对抗思想61或元学习6的自动课程 search[J].Nature,2016,529(7587):484-489 学习具有广阔的研究前景。好奇心驱动存在被称 [4]VINYALS O,BABUSCHKIN I,CZARNECKI W M,et al. 作“电视噪声”的问题：当环境中出现难以预测 Grandmaster level in StarCraft II using multi-agent rein- 的随机噪声时，会导致智能体驻留而不去完成任 forcement learning[J].Nature,2019,575(7782):350-354. 务。为解决电视噪声问题，未来可以研究好奇心 [5]BERNER C,BROCKMAN G.CHAN B.et al.Dota 2 with 驱动的状态编码方式1或结合注意力机制61等 large scale deep reinforcement learning[EB/OL].Califor- 方法，让智能体更关注与任务有关的状态和奖励 nia,USA:arXiv,2019.[2019-10-1]https://arxiv.org/pdf/ 信息。事后经验回放算法基于“存在状态到目标 1912.06680.pdf 的映射”的假设，但是大量实际问题中并不容易找 [6]SILVER D.Tutorial:Deep reinforcement learning[C]// Proc.of the 33rd Int.Conf.on Machine Learning(ICML 到这样的映射关系，比如视频游戏、机器人导航6侧 2016).2016. 等问题，研究通用的目标映射方法有助于将HER [7]LI Yuxi.Deep reinforcement learning:An overview 这种高效的稀疏奖励算法应用到更多问题中。分 [EB/OL].Alberta,Canada:arXiv,2017.[2019-10-2] 层强化学习还需要进一步研究分层的数据矫正5 https://arxiv.org/pdf/1701.07274.pdf. 以及更高效的分层结构。基于目标的分层强化学 [8]LI Yuxi.Deep reinforcement learning[EB/OL].Alberta, 习中，自动学习目标空间的表示6剧也是重要的研 Canada:arXiv,2018.[2019-10-5]https://arxiv.org/pdf/1810 究内容。最后，多种稀疏奖励算法的结合算法能 06339.pdf 够融合不同算法的优势，为稀疏奖励问题提供更 [9]Riedmiller M,Hafner R,Lampe T,et al.Learning by play- 加强有力的解决方案，例如Levy等s9提出的分 ing-solving sparse reward tasks from scratch[EB/OL].Lon- 层与HER结合的HAC、Lanier等6提出的好奇 don,UK:ar Xiv,2018.[2019-10-20]https://arxiv.org/pdf/1802. 心驱动与HER结合的算法、Nair等B1提出的模 10567.pdf

使用的 Fetch Reach 实验环境是相对简单的，容易构建可靠的外部引导信息，在更多的稀疏奖励任务中，外部引导信息是难于构建的，这就需要无外部引导信息算法的研究。在我们的实验中， HER、Forward Dynamic 等算法的表现已经接近使用外部引导信息的算法，具有重要的研究价值和意义。表 2 实验结果 Table 2 Experiment results 算法有无外部引导信息最高平均成功率/% 收敛 epoch数 Random 无 17 ～ DDPG 无 21 370 Reward Shaping 有 100 43 Behavior Clone(α=1) 有 100 8 Curriculum 10 有 100 70 HER 无 100 15 Forward Dynamic 无 100 80 HDDPG layers3 无 66 100 4 展望稀疏奖励算法未来的研究方向可以是根据各算法存在的问题进行改进，或对多种稀疏奖励算法进行结合。自适应课程学习是重要的研究方向，结合生成对抗思想[61] 或元学习[62] 的自动课程学习具有广阔的研究前景。好奇心驱动存在被称作“电视噪声”的问题[45] ：当环境中出现难以预测的随机噪声时，会导致智能体驻留而不去完成任务。为解决电视噪声问题，未来可以研究好奇心驱动的状态编码方式[15] 或结合注意力机制[63] 等方法，让智能体更关注与任务有关的状态和奖励信息。事后经验回放算法基于“存在状态到目标的映射”的假设，但是大量实际问题中并不容易找到这样的映射关系，比如视频游戏、机器人导航[64] 等问题，研究通用的目标映射方法有助于将 HER 这种高效的稀疏奖励算法应用到更多问题中。分层强化学习还需要进一步研究分层的数据矫正[58] 以及更高效的分层结构。基于目标的分层强化学习中，自动学习目标空间的表示[65] 也是重要的研究内容。最后，多种稀疏奖励算法的结合算法能够融合不同算法的优势，为稀疏奖励问题提供更加强有力的解决方案，例如 Levy 等 [59] 提出的分层与 HER 结合的 HAC、Lanier 等 [66] 提出的好奇心驱动与 HER 结合的算法、Nair 等 [34] 提出的模仿学习与 HER 结合的算法。 5 结束语本文将目前主流的稀疏奖励算法按是否引入外部引导信息分为两类，分别介绍了奖励塑造、模仿学习、课程学习和事后经验回放、好奇心驱动、分层强化学习等 6 类算法的发展和应用。本文还通过实验验证了 6 种算法在稀疏奖励问题中的有效性，相比于 DDPG 均有显著提升，部分无外部引导信息的算法表现已经接近使用外部引导信息的算法。本文的实验比较了 6 种算法解决稀疏奖励问题的能力，为进一步的研究提供了实验基础。稀疏奖励问题的研究对强化学习理论的拓展以及算法的实际落地具有重要意义，我们希望在未来看到更高效的算法用于解决复杂的稀疏奖励问题，同时也希望看到更多强化学习算法的实际落地与应用，为社会创造更多价值。参考文献： SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge, USA: MIT Press, 1998. [1] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. 2nd ed. Cambridge: MIT Press, 2018. [2] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489. [3] VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350–354. [4] BERNER C, BROCKMAN G, CHAN B, et al. Dota 2 with large scale deep reinforcement learning[EB/OL]. California, USA: arXiv, 2019. [2019-10-1] https://arxiv.org/pdf/ 1912.06680.pdf. [5] SILVER D. Tutorial: Deep reinforcement learning[C]// Proc. of the 33rd Int. Conf. on Machine Learning (ICML 2016). 2016. [6] LI Yuxi. Deep reinforcement learning: An overview [EB/OL]. Alberta, Canada: arXiv, 2017. [2019-10-2] https://arxiv.org/pdf/ 1701.07274.pdf. [7] LI Yuxi. Deep reinforcement learning[EB/OL]. Alberta, Canada: arXiv, 2018. [2019-10-5] https://arxiv.org/pdf/1810. 06339.pdf. [8] Riedmiller M, Hafner R, Lampe T, et al. Learning by playing-solving sparse reward tasks from scratch[EB/OL]. London, UK: arXiv, 2018. [2019-10-20] https://arxiv.org/pdf/1802. 10567.pdf. [9] ·896· 智能系统学报第 15 卷

第5期杨瑞，等：强化学习稀疏奖励算法研究一理论与实验 ·897· [10]HOSU I A,REBEDEA T.Playing atari games with deep Nature,2015,518(7540y:529-533 reinforcement learning and human checkpoint [22]WILLIAMS R J.Simple statistical gradient-following al- replay [EB/OL].Bucharest,Romania:arXiv,2016.[2019- gorithms for connectionist reinforcement learning[J].Ma- 10-21]https://arxiv.org/pdf/1607.05077.pdf. chine learning,.1992,8(3/4):229-256. [11]ANDRYCHOWICZ M,WOLSKI F,RAY A,et al.Hind- [23]KONDA V R,TSITSIKLIS J N.Actor-critic sight experience replay[Cl/Proceedings of the 31st Inter- algorithms[C]//Advances in Neural Information Pro- national Conference on Neural Information Processing cessing Systems.Colorado,USA,2000:1008-1014 Systems.Long Beach,USA,2017:5048-5058. [24]MNIH V,BADIA A P,MIRZA M,et al.Asynchronous [12]杨惟轶，白辰甲，蔡超，等.深度强化学习中稀疏奖励问 methods for deep reinforcement learning[C]//Proceedings 题研究综述[).计算机科学，2020,47(3)：182-191 of the 33rd International Conference on International YANG Weiyi,BAI Chenjia,CAl Chao,et al.Survey on Conference on Machine Learning.New York,USA. sparse reward in deep reinforcement learning[J].Com- 2016:1928-1937 puter science,2020,47(3):182-191. [25]SCHULMAN J.WOLSKI F.DHARIWAL P.et al.Prox- [13]GULLAPALLI V,BARTO A G.Shaping as a method for imal policy optimization algorithms[EB/OL].California. accelerating reinforcement learning[C]//Proceedings of USA:arXiv,2017.[2019-11-3]https://arxiv.org/ the 1992 IEEE International Symposium on Intelligent pdf1707.06347.pdf. Control.Glasgow,UK,1992:554-559. [26]LILLICRAP T P.HUNT JJ,PRITZEL A,et al.Continu- [14]HUSSEIN A.GABER MM,ELYAN E,et al.Imitation ous control with deep reinforcement learning[EB/OL]. learning:A survey of learning methods[J].ACM comput- London,UK:arXiv,2015.[2019-12-25]https://arxiv ing surveys,.2017,50(2):1-35. org/pdf/1509.02971.pdf. [15]BENGIO Y,LOURADOUR J,COLLOBERT R,et al. [27]NG A Y.HARADA D,RUSSELL S.Policy invariance Curriculum learning[C]//Proceedings of the 26th Annual under reward transformations:Theory and application to International Conference on Machine Learning.Montreal, reward shaping[C//Proceedings of the Sixteenth Interna- Quebec,Canada,2009:41-48. tional Conference on Machine Learning.Bled,Slovenia [16]BURDA Y,EDWARDS H,PATHAK D,et al.Large- 1999.99:278-287 scale study of curiosity-driven learning[EB/OL].Califor- [28]RANDLOV J,ALSTROM P.Learning to drive a bicycle nia,USA:arXiv,2018.[2019-10-30]https://arxiv.org/pdf/ using reinforcement learning and shaping[C]//Proceed- 1808.04355. ings of the Fifteenth International Conference on Ma- [17刀周文吉，俞扬.分层强化学习综述).智能系统学报， 2017,12(5):590-594. chine Learning.Madison,USA,1998,98:463-471. [29]JAGODNIK K M.THOMAS P S.VAN DEN BOGERT ZHOU Wenji,YU Yang.Summarize of hierarchical rein- forcement learning[J].CAAI transactions on intelligent A J,et al.Training an actor-critic reinforcement learning systems,.2017,12(5):590-594. controller for arm movement using human-generated re- [18]Plappert M,Andrychowicz M,Ray A,et al.Multi-goal re- wards[J].IEEE transactions on neural systems and rehab- inforcement learning:Challenging robotics environments ilitation engineering,2017,25(10):1892-1905. and request for research[EB/OL].California,USA:arXiv, [30]FERREIRA E,LEFEVRE F.Expert-based reward shap- 2018.[2019-1l-1]htps://arxiv.org/pdf1802.09464.pdf. ing and exploration scheme for boosting policy learning [19]万里鹏，兰旭光，张翰博，等.深度强化学习理论及其应 of dialogue management[C]//2013 IEEE Workshop on 用综述U.模式识别与人工智能，2019,32(1)：67-81. Automatic Speech Recognition and Understanding. WAN Lipeng,LAN Xuguang,ZHANG Hanbo,et al.A Olomouc,Czech Republic,2013:108-113. review of deep reinforcement learning theory and applica- [31]NG A Y,RUSSELL S J.Algorithms for inverse rein- tion[J].Pattern recognition and artificial intelligence, forcement learning[C]//Proceedings of the Seventeenth 2019,32(167-81 International Conference on Machine Learning.Stanford, [20]MNIH V,KAVUKCUOGLU K,SILVER D,et al.Play- USA.2000,1:663-670 ing atari with deep reinforcement learning[EB/OL].Lon- [32]MARTHI B.Automatic shaping and decomposition of re- don,UK:arXiv,2013.[2019-11-1]https://arxiv.org/pdf/ ward functions[C]//Proceedings of the 24th International 1312.5602.pdf. Conference on Machine Learning.Corvallis,USA,2007: [21]MNIH V.KAVUKCUOGLU K.SILVER D,et al.Hu- 601-608. man-level control through deep reinforcement learning[J]. [33]ROSS S.BAGNELL D.Efficient reductions for imitation

HOSU I A, REBEDEA T. Playing atari games with deep reinforcement learning and human checkpoint replay[EB/OL]. Bucharest, Romania: arXiv, 2016. [2019- 10-21] https://arxiv.org/pdf/1607.05077.pdf. [10] ANDRYCHOWICZ M, WOLSKI F, RAY A, et al. Hindsight experience replay[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 5048−5058. [11] 杨惟轶, 白辰甲, 蔡超, 等. 深度强化学习中稀疏奖励问题研究综述 [J]. 计算机科学, 2020, 47(3): 182–191. YANG Weiyi, BAI Chenjia, CAI Chao, et al. Survey on sparse reward in deep reinforcement learning[J]. Computer science, 2020, 47(3): 182–191. [12] GULLAPALLI V, BARTO A G. Shaping as a method for accelerating reinforcement learning[C]//Proceedings of the 1992 IEEE International Symposium on Intelligent Control. Glasgow, UK, 1992: 554−559. [13] HUSSEIN A, GABER M M, ELYAN E, et al. Imitation learning: A survey of learning methods[J]. ACM computing surveys, 2017, 50(2): 1–35. [14] BENGIO Y, LOURADOUR J, COLLOBERT R, et al. Curriculum learning[C]//Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Quebec, Canada, 2009: 41−48. [15] BURDA Y, EDWARDS H, PATHAK D, et al. Largescale study of curiosity-driven learning[EB/OL]. California, USA: arXiv, 2018. [2019-10-30] https://arxiv.org/pdf/ 1808.04355. [16] 周文吉, 俞扬. 分层强化学习综述 [J]. 智能系统学报, 2017, 12(5): 590–594. ZHOU Wenji, YU Yang. Summarize of hierarchical reinforcement learning[J]. CAAI transactions on intelligent systems, 2017, 12(5): 590–594. [17] Plappert M, Andrychowicz M, Ray A, et al. Multi-goal reinforcement learning: Challenging robotics environments and request for research[EB/OL]. California, USA: arXiv, 2018. [2019-11-1] https://arxiv.org/pdf/1802.09464.pdf. [18] 万里鹏, 兰旭光, 张翰博, 等. 深度强化学习理论及其应用综述 [J]. 模式识别与人工智能, 2019, 32(1): 67–81. WAN Lipeng, LAN Xuguang, ZHANG Hanbo, et al. A review of deep reinforcement learning theory and application[J]. Pattern recognition and artificial intelligence, 2019, 32(1): 67–81. [19] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[EB/OL]. London, UK: arXiv, 2013. [2019-11-1] https://arxiv.org/pdf/ 1312.5602.pdf. [20] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. [21] Nature, 2015, 518(7540): 529–533. WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine learning, 1992, 8(3/4): 229–256. [22] KONDA V R, TSITSIKLIS J N. Actor-critic algorithms[C]//Advances in Neural Information Processing Systems. Colorado, USA, 2000: 1008−1014. [23] MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York, USA, 2016: 1928−1937. [24] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. California, USA: arXiv, 2017. [2019-11-3] https://arxiv.org/ pdf/1707.06347.pdf. [25] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. London, UK: arXiv, 2015. [2019-12-25] https://arxiv. org/pdf/1509.02971.pdf. [26] NG A Y, HARADA D, RUSSELL S. Policy invariance under reward transformations: Theory and application to reward shaping[C]//Proceedings of the Sixteenth International Conference on Machine Learning. Bled, Slovenia, 1999, 99: 278−287. [27] RANDLØV J, ALSTRØM P. Learning to drive a bicycle using reinforcement learning and shaping[C]//Proceedings of the Fifteenth International Conference on Machine Learning. Madison, USA, 1998, 98: 463−471. [28] JAGODNIK K M, THOMAS P S, VAN DEN BOGERT A J, et al. Training an actor-critic reinforcement learning controller for arm movement using human-generated rewards[J]. IEEE transactions on neural systems and rehabilitation engineering, 2017, 25(10): 1892–1905. [29] FERREIRA E, LEFÈVRE F. Expert-based reward shaping and exploration scheme for boosting policy learning of dialogue management[C]//2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc, Czech Republic, 2013: 108−113. [30] NG A Y, RUSSELL S J. Algorithms for inverse reinforcement learning[C]//Proceedings of the Seventeenth International Conference on Machine Learning. Stanford, USA, 2000, 1: 663−670. [31] MARTHI B. Automatic shaping and decomposition of reward functions[C]//Proceedings of the 24th International Conference on Machine Learning. Corvallis, USA, 2007: 601−608. [32] [33] ROSS S, BAGNELL D. Efficient reductions for imitation 第 5 期杨瑞，等：强化学习稀疏奖励算法研究——理论与实验 ·897·

点击进入文档下载页（PDF格式）

共12页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录