正在加载图片...
·890· 智能系统学报 第15卷 7r(ds:)=Vlogπ(as:)R (5) 励问题中奖励的稀疏性,加快智能体学习速度。 根据式(1)、(5),在稀疏奖励的条件下,累积 通常用R(s,a,s)表示原MDP的奖励函数,用 奖励值R接近零,因此策略网络更新缓慢。 F(s,a,s)表示附加奖励函数,使用奖励塑造后新 基于Actor--Critic!21的方法同理,Critic部分基 MDP的奖励函数为 于值函数更新,Actor部分基于策略梯度更新,稀 R(s,a,s')=R(s,a,s')+F(s,a,s) 疏奖励的条件下两部分梯度更新均接近于零。 但是在新的MDP问题中学习到的最优策略 稀疏奖励问题除了奖励的稀疏性导致学习缓 不一定是原MDP的最优策略,也就可能导致奖 慢外,还可能存在稀疏性带来的估计不可靠的问 励塑造后学习到非理论最优的策略27-2。Ng等2可 题,由于奖励样本少,值函数估计的方差较大,这 证明了当附加奖励函数可以表示为势能函数(s) 会导致模型训练难以收敛。研究者们为解决以上 (potiental based funciton)的差分形式时,能够保证 问题,进行了一系列的研究工作。 最优策略不变。 2稀疏奖励研究现状 F(s,a,s)=y(s)-Φ(s) 其中:s表示s的下一个状态,y是原MDP中的 目前解决稀疏奖励问题的算法主要有奖励塑 折扣因子,势能函数(s)是状态到实数的映射。 造、模仿学习、课程学习、事后经验回放、好奇心 Ng等2刃使用距离、子目标来设计启发式的 驱动、分层强化学习等6类算法,我们可以根据 附加奖励函数,在表格问题中明显加速了学习过 是否引入外部引导信息将算法分为两大类,如图2 程;Jagodnik等29使用距离信息计算和人为主观 所示。引入外部引导信息的算法通常针对特定问 评价两种方式作为奖励函数来控制手臂仿真机器 题,需要相应的领域知识或数据,泛化性较差,同 人,结果均好于优化的比例微分控制器(PD con- 时也因为先验知识的引入,降低了强化学习模型 troller):Ferreira等o将奖励塑造的强化学习方法 的学习难度,通常具有实现简单、学习速度快的 引入对话管理任务中,显著提高了前期训练阶段 特点,这一类型算法有奖励塑造、模仿学习、课程 的表现。 学习。无外部引导信息的算法通过挖掘模型、数 为了克服奖励塑造泛化性较差的问题,研究 据自身的潜能,泛化性能更好,但是模型通常更 者们提出了一些自动化地设计奖励函数的方法。 为复杂,这一类型算法包括好奇心驱动、事后经 Ng等I]提出逆强化学习(inverse reinforcement 验回放、分层强化学习。接下来我们将对各个方 learning)的概念,将专家示例看作为最优或者次 法进行展开介绍。 优的策略,然后从专家示例的数据中学习出奖励 设计奖励函数 函数用于指导智能体训练。Marthi提出基于抽 励塑造 模仿专家 象函数(abstrcat function)的自动奖励塑造方法,通 引入外部引导信息 策略 模仿学习 过求解抽象MDP问题的势能函数,再计算势能 函数的差分就得到了附加奖励函数。 ·课程学习 设置由简到难的课程 2.2模仿学习 稀疏奖励 模仿学习是一类从示例数据中学习策略的方 从失败经历中学习 法。稀疏奖励问题往往具有巨大的状态动作空 事后经验回放 间,难以直接进行探索和学习,使用示例数据进 平衡探索 和利用 好奇心驱动 行监督式的学习能够使智能体快速掌握示例策 无外部引导信息 略,极大减少了训练时间。 分层强化学习 模仿学习中如果只使用示例数据进行监督学 使用分层的策略结构 习,难以泛化到陌生的环境中,且长时间步的决 图2稀疏奖励主流算法 策将导致误差累积,逐渐偏离示例策略B。Ross Fig.2 Mainstream sparse reward algorithms 等证明了误差与时间步的平方成正比,为此提 2.1奖励塑造 出在交互中缓慢移动策略分布的SMLe(stochast-. 奖励塑造通常是利用先验知识人工设计附加 ic mixing iterative learning)算法,并理论证明了其 奖励函数1来引导智能体完成期望任务的一类 收敛性。Nair等B在策略梯度算法中引入行为 方法。合适的附加奖励函数能够有效克服稀疏奖 克隆损失(behavior clone loss)来学习示例策略,能∇θπ(a|s; θ) = ∇θ logπ(a|s; θ)Rt (5) Rt 根据式 (1)、(5),在稀疏奖励的条件下,累积 奖励值 接近零,因此策略网络更新缓慢。 基于 Actor-Critic[23] 的方法同理,Critic 部分基 于值函数更新,Actor 部分基于策略梯度更新,稀 疏奖励的条件下两部分梯度更新均接近于零。 稀疏奖励问题除了奖励的稀疏性导致学习缓 慢外,还可能存在稀疏性带来的估计不可靠的问 题,由于奖励样本少,值函数估计的方差较大,这 会导致模型训练难以收敛。研究者们为解决以上 问题,进行了一系列的研究工作。 2 稀疏奖励研究现状 目前解决稀疏奖励问题的算法主要有奖励塑 造、模仿学习、课程学习、事后经验回放、好奇心 驱动、分层强化学习等 6 类算法,我们可以根据 是否引入外部引导信息将算法分为两大类,如图 2 所示。引入外部引导信息的算法通常针对特定问 题,需要相应的领域知识或数据,泛化性较差,同 时也因为先验知识的引入,降低了强化学习模型 的学习难度,通常具有实现简单、学习速度快的 特点,这一类型算法有奖励塑造、模仿学习、课程 学习。无外部引导信息的算法通过挖掘模型、数 据自身的潜能,泛化性能更好,但是模型通常更 为复杂,这一类型算法包括好奇心驱动、事后经 验回放、分层强化学习。接下来我们将对各个方 法进行展开介绍。 奖励塑造 课程学习 分层强化学习 模仿学习 引入外部引导信息 设置由简到难的课程 使用分层的策略结构 从失败经历中学习 设计奖励函数 模仿专家 策略 无外部引导信息 好奇心驱动 事后经验回放 稀疏奖励 平衡探索 和利用 图 2 稀疏奖励主流算法 Fig. 2 Mainstream sparse reward algorithms 2.1 奖励塑造 奖励塑造通常是利用先验知识人工设计附加 奖励函数[13] 来引导智能体完成期望任务的一类 方法。合适的附加奖励函数能够有效克服稀疏奖 R(s,a,s ′ ) F(s,a,s ′ ) 励问题中奖励的稀疏性,加快智能体学习速度。 通常用 表 示 原 M DP 的奖励函数,用 表示附加奖励函数,使用奖励塑造后新 MDP 的奖励函数为 R ′ (s,a,s ′ ) = R(s,a,s ′ )+ F (s,a,s ′ ) Φ(s) 但是在新的 MDP 问题中学习到的最优策略 不一定是原 MDP 的最优策略,也就可能导致奖 励塑造后学习到非理论最优的策略[27-28]。Ng 等 [27] 证明了当附加奖励函数可以表示为势能函数 (potiental based funciton) 的差分形式时,能够保证 最优策略不变。 F (s,a,s ′ ) = γΦ(s ′ )−Φ(s) s ′ s γ Φ(s) 其中: 表示 的下一个状态, 是原 MDP 中的 折扣因子,势能函数 是状态到实数的映射。 Ng 等 [ 27] 使用距离、子目标来设计启发式的 附加奖励函数,在表格问题中明显加速了学习过 程;Jagodnik 等 [29] 使用距离信息计算和人为主观 评价两种方式作为奖励函数来控制手臂仿真机器 人,结果均好于优化的比例微分控制器 (PD con￾troller);Ferreira 等 [30] 将奖励塑造的强化学习方法 引入对话管理任务中,显著提高了前期训练阶段 的表现。 为了克服奖励塑造泛化性较差的问题,研究 者们提出了一些自动化地设计奖励函数的方法。 Ng 等 [ 31] 提出逆强化学习 (inverse reinforcement learning) 的概念,将专家示例看作为最优或者次 优的策略,然后从专家示例的数据中学习出奖励 函数用于指导智能体训练。Marthi[32] 提出基于抽 象函数 (abstrcat function) 的自动奖励塑造方法,通 过求解抽象 MDP 问题的势能函数,再计算势能 函数的差分就得到了附加奖励函数。 2.2 模仿学习 模仿学习是一类从示例数据中学习策略的方 法 [14]。稀疏奖励问题往往具有巨大的状态动作空 间,难以直接进行探索和学习,使用示例数据进 行监督式的学习能够使智能体快速掌握示例策 略,极大减少了训练时间。 模仿学习中如果只使用示例数据进行监督学 习,难以泛化到陌生的环境中,且长时间步的决 策将导致误差累积,逐渐偏离示例策略[33]。Ross 等 [33] 证明了误差与时间步的平方成正比,为此提 出在交互中缓慢移动策略分布的 SMILe (stochast￾ic mixing iterative learning) 算法,并理论证明了其 收敛性。Nair 等 [34] 在策略梯度算法中引入行为 克隆损失 (behavior clone loss) 来学习示例策略,能 ·890· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有