∇θπ(a|s; θ) = ∇θ logπ(a|s; θ)Rt (5) R

正在加载图片...

·890· 智能系统学报第15卷 7r(ds:)=Vlogπ(as:)R (5) 励问题中奖励的稀疏性，加快智能体学习速度。根据式(1)、(5)，在稀疏奖励的条件下，累积通常用R(s,a,s)表示原MDP的奖励函数，用奖励值R接近零，因此策略网络更新缓慢。 F(s,a,s)表示附加奖励函数，使用奖励塑造后新基于Actor--Critic!21的方法同理，Critic部分基 MDP的奖励函数为于值函数更新，Actor部分基于策略梯度更新，稀 R(s,a,s')=R(s,a,s')+F(s,a,s) 疏奖励的条件下两部分梯度更新均接近于零。但是在新的MDP问题中学习到的最优策略稀疏奖励问题除了奖励的稀疏性导致学习缓不一定是原MDP的最优策略，也就可能导致奖慢外，还可能存在稀疏性带来的估计不可靠的问励塑造后学习到非理论最优的策略27-2。Ng等2可题，由于奖励样本少，值函数估计的方差较大，这证明了当附加奖励函数可以表示为势能函数(s) 会导致模型训练难以收敛。研究者们为解决以上 (potiental based funciton)的差分形式时，能够保证问题，进行了一系列的研究工作。最优策略不变。 2稀疏奖励研究现状 F(s,a,s）=y(s)-Φ(s) 其中：s表示s的下一个状态，y是原MDP中的目前解决稀疏奖励问题的算法主要有奖励塑折扣因子，势能函数(s)是状态到实数的映射。造、模仿学习、课程学习、事后经验回放、好奇心 Ng等2刃使用距离、子目标来设计启发式的驱动、分层强化学习等6类算法，我们可以根据附加奖励函数，在表格问题中明显加速了学习过是否引入外部引导信息将算法分为两大类，如图2 程；Jagodnik等29使用距离信息计算和人为主观所示。引入外部引导信息的算法通常针对特定问评价两种方式作为奖励函数来控制手臂仿真机器题，需要相应的领域知识或数据，泛化性较差，同人，结果均好于优化的比例微分控制器(PD con- 时也因为先验知识的引入，降低了强化学习模型 troller):Ferreira等o将奖励塑造的强化学习方法的学习难度，通常具有实现简单、学习速度快的引入对话管理任务中，显著提高了前期训练阶段特点，这一类型算法有奖励塑造、模仿学习、课程的表现。学习。无外部引导信息的算法通过挖掘模型、数为了克服奖励塑造泛化性较差的问题，研究据自身的潜能，泛化性能更好，但是模型通常更者们提出了一些自动化地设计奖励函数的方法。为复杂，这一类型算法包括好奇心驱动、事后经 Ng等I]提出逆强化学习(inverse reinforcement 验回放、分层强化学习。接下来我们将对各个方 learning)的概念，将专家示例看作为最优或者次法进行展开介绍。优的策略，然后从专家示例的数据中学习出奖励设计奖励函数函数用于指导智能体训练。Marthi提出基于抽励塑造模仿专家象函数(abstrcat function)的自动奖励塑造方法，通引入外部引导信息策略模仿学习过求解抽象MDP问题的势能函数，再计算势能函数的差分就得到了附加奖励函数。 ·课程学习设置由简到难的课程 2.2模仿学习稀疏奖励模仿学习是一类从示例数据中学习策略的方从失败经历中学习法。稀疏奖励问题往往具有巨大的状态动作空事后经验回放间，难以直接进行探索和学习，使用示例数据进平衡探索和利用好奇心驱动行监督式的学习能够使智能体快速掌握示例策无外部引导信息略，极大减少了训练时间。分层强化学习模仿学习中如果只使用示例数据进行监督学使用分层的策略结构习，难以泛化到陌生的环境中，且长时间步的决图2稀疏奖励主流算法策将导致误差累积，逐渐偏离示例策略B。Ross Fig.2 Mainstream sparse reward algorithms 等证明了误差与时间步的平方成正比，为此提 2.1奖励塑造出在交互中缓慢移动策略分布的SMLe(stochast-. 奖励塑造通常是利用先验知识人工设计附加 ic mixing iterative learning)算法，并理论证明了其奖励函数1来引导智能体完成期望任务的一类收敛性。Nair等B在策略梯度算法中引入行为方法。合适的附加奖励函数能够有效克服稀疏奖克隆损失(behavior clone loss)来学习示例策略，能∇θπ(a|s; θ) = ∇θ logπ(a|s; θ)Rt (5) Rt 根据式 (1)、(5)，在稀疏奖励的条件下，累积奖励值接近零，因此策略网络更新缓慢。基于 Actor-Critic[23] 的方法同理，Critic 部分基于值函数更新，Actor 部分基于策略梯度更新，稀疏奖励的条件下两部分梯度更新均接近于零。稀疏奖励问题除了奖励的稀疏性导致学习缓慢外，还可能存在稀疏性带来的估计不可靠的问题，由于奖励样本少，值函数估计的方差较大，这会导致模型训练难以收敛。研究者们为解决以上问题，进行了一系列的研究工作。 2 稀疏奖励研究现状目前解决稀疏奖励问题的算法主要有奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等 6 类算法，我们可以根据是否引入外部引导信息将算法分为两大类，如图 2 所示。引入外部引导信息的算法通常针对特定问题，需要相应的领域知识或数据，泛化性较差，同时也因为先验知识的引入，降低了强化学习模型的学习难度，通常具有实现简单、学习速度快的特点，这一类型算法有奖励塑造、模仿学习、课程学习。无外部引导信息的算法通过挖掘模型、数据自身的潜能，泛化性能更好，但是模型通常更为复杂，这一类型算法包括好奇心驱动、事后经验回放、分层强化学习。接下来我们将对各个方法进行展开介绍。奖励塑造课程学习分层强化学习模仿学习引入外部引导信息设置由简到难的课程使用分层的策略结构从失败经历中学习设计奖励函数模仿专家策略无外部引导信息好奇心驱动事后经验回放稀疏奖励平衡探索和利用图 2 稀疏奖励主流算法 Fig. 2 Mainstream sparse reward algorithms 2.1 奖励塑造奖励塑造通常是利用先验知识人工设计附加奖励函数[13] 来引导智能体完成期望任务的一类方法。合适的附加奖励函数能够有效克服稀疏奖 R(s,a,s ′ ) F(s,a,s ′ ) 励问题中奖励的稀疏性，加快智能体学习速度。通常用表示原 M DP 的奖励函数，用表示附加奖励函数，使用奖励塑造后新 MDP 的奖励函数为 R ′ (s,a,s ′ ) = R(s,a,s ′ )+ F (s,a,s ′ ) Φ(s) 但是在新的 MDP 问题中学习到的最优策略不一定是原 MDP 的最优策略，也就可能导致奖励塑造后学习到非理论最优的策略[27-28]。Ng 等 [27] 证明了当附加奖励函数可以表示为势能函数 (potiental based funciton) 的差分形式时，能够保证最优策略不变。 F (s,a,s ′ ) = γΦ(s ′ )−Φ(s) s ′ s γ Φ(s) 其中：表示的下一个状态，是原 MDP 中的折扣因子，势能函数是状态到实数的映射。 Ng 等 [ 27] 使用距离、子目标来设计启发式的附加奖励函数，在表格问题中明显加速了学习过程；Jagodnik 等 [29] 使用距离信息计算和人为主观评价两种方式作为奖励函数来控制手臂仿真机器人，结果均好于优化的比例微分控制器 (PD controller)；Ferreira 等 [30] 将奖励塑造的强化学习方法引入对话管理任务中，显著提高了前期训练阶段的表现。为了克服奖励塑造泛化性较差的问题，研究者们提出了一些自动化地设计奖励函数的方法。 Ng 等 [ 31] 提出逆强化学习 (inverse reinforcement learning) 的概念，将专家示例看作为最优或者次优的策略，然后从专家示例的数据中学习出奖励函数用于指导智能体训练。Marthi[32] 提出基于抽象函数 (abstrcat function) 的自动奖励塑造方法，通过求解抽象 MDP 问题的势能函数，再计算势能函数的差分就得到了附加奖励函数。 2.2 模仿学习模仿学习是一类从示例数据中学习策略的方法 [14]。稀疏奖励问题往往具有巨大的状态动作空间，难以直接进行探索和学习，使用示例数据进行监督式的学习能够使智能体快速掌握示例策略，极大减少了训练时间。模仿学习中如果只使用示例数据进行监督学习，难以泛化到陌生的环境中，且长时间步的决策将导致误差累积，逐渐偏离示例策略[33]。Ross 等 [33] 证明了误差与时间步的平方成正比，为此提出在交互中缓慢移动策略分布的 SMILe (stochastic mixing iterative learning) 算法，并理论证明了其收敛性。Nair 等 [34] 在策略梯度算法中引入行为克隆损失 (behavior clone loss) 来学习示例策略，能 ·890· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：【智能系统】强化学习稀疏奖励算法研究——理论与实验