正在加载图片...
第5期 杨瑞,等:强化学习稀疏奖励算法研究— 理论与实验 ·891· 够完成复杂的机械臂控制任务,其行动损失函 不同课程阶段对应的分布满足嫡增和权重单 数为 调增加: H(Q(2)<H(Q+e(z),Ye>0 LBC= (s:l0)-a W+.(a)<W(z),z,e>0 其中:(s,a)是示例数据,π和0分别是智能体的 课程学习的一个难点在于如何自动化地设计 策略和策略的参数。Ho等3将对抗生成网络的 课程的分级,解决这个问题需要考虑训练模型时 思想引入模仿学习提出生成对抗模仿学习(gener-. 的反馈。Graves等3提出一种自适应课程学习 ative adversarial imitation learning,GAL),使用生成 方法,通过预测正确率和网络复杂性的增长来自 模型产生行为数据,使用判别模型区分行为数据 动调整课程的难度,在语言模型训练任务上显著 和专家策略数据,GAL在复杂高维环境的模仿 提高了训练速度。Akkaya等o提出ADR(auto- 任务中超过了现有方法,其优化目标函数为 matic domain randomization),通过设定表现阈值, Ez [log(D(s.a))]+Ez [log(1-D(s,a))]H() 当正确率高于表现阈值时就扩大训练的分布提高 式中:π是生成模型的策略;πE是专家策略;D是 课程难度,反之缩小训练分布,在复杂的魔方操 判别模型;H是熵函数;入是系数。 作任务中取得了成功。 通常模仿学习中的示例状态动作对(s,a,)不 2.4事后经验回放 容易获得,而示例状态序列(5o,51,…,5,)更容易获 事后经验回放(HER)是一种从失败经历中 得,从示例状态序列进行模仿学习的任务被称为 学习的强化学习方法,通过修正失败经历的目标 “从观测学习”(learning from observation)36。 产生奖励信息,解决了奖励的稀疏性问题,同时 Torabi等Im提出BCO(behavioral cloning from ob- 对失败样本的利用极大提高了样本利用效率。G servation),通过学习环境动态模型预测示例观测 表示目标空间,g∈G是实验目标,g∈G是实际实 序列的动作,然后使用行为克隆进行模仿学习, 现的目标,HER将经验数据中目标修改为g,就 在多个任务中的表现超过了GAL。 产生了成功的回合数据用于策略训练。HER的 2.3课程学习 实现将在第3节的实验部分进行更具体的介绍。 课程学习是机器学习中逐步增加任务难度以 目前对于事后经验回放算法的改进主要在于 加快学习速度的方法。在强化学习中课程学习实 降低偏差、改进目标采样方式、适配在线策略算 质上在逐步调整学习的任务分布,智能体在简单 法等。Lanka等认为HER修改目标引入的新 任务上更容易获得奖励,将相对简单的任务上学 数据带来了偏差,提出通过调整真实奖励和HER的 到的策略迁移到复杂任务中,降低了在复杂任务 奖励的权重来降低偏差。Manela等s指出,在目 中探索的难度,因此课程学习能够用于解决稀疏 标物体未移动的情况下,采样的目标只与初始位 奖励问题w。 置有关而与策略无关,这样的样本会给训练带来 Elmant38最早提出在语法学习任务中使用逐 偏差,于是提出Filtered-HER,通过滤去该类型目 步增加训练数据复杂度的方法来训练神经网络, 标来缓解该问题。Rauber等1通过重要性采样 能够解决直接使用全部数据难以训练的问题。 将HER运用到策略梯度方法上,实验结果表明 Bengio等认为,课程学习的本质是逐步调整学 HER明显提高了策略梯度方法的样本利用效率。 习样本的分布,在简单的样本分布上更容易学习 25好奇心驱动 到泛化性好的策略,并通过实验证明了课程学习 好奇心驱动是一类使用内在奖励引导智能 能够提高训练速度和收敛到更优解。Bengio等 体探索环境的方法,高效的探索能够更快地获得 给出了课程学习的数学定义,?表示训练样本,P(?) 外在奖励,同时能够降低环境的奖励、状态转 表示目标训练集分布,入∈[0,1]表示课程学习的阶 移的不确定性,平衡探索与利用,因此好奇心 段,W()是A阶段样本z的采样权重,A阶段训 驱动能解决稀硫奖励问题带来的稀硫性和不可 练分布Q()为 靠性问题。目前的好奇心驱动算法根据内在奖 Q(z)o Wa(zP(z),Yz 励计算方式可以分为访问计数法和预测差法的。 其中Q满足: Bellemare等s通过信息增益(information gain))来 ∫Q(z)dk=1 联系访问计数法和预测差法,证明了两者本质是 Q()=P(),Yz 相同的。够完成复杂的机械臂控制任务,其行动损失函 数为 LBC = ∑N i=1 ∥π(si |θπ)−ai∥ 2 2 (si 其中: ,ai) 是示例数据,π 和 θπ 分别是智能体的 策略和策略的参数。Ho 等 [35] 将对抗生成网络的 思想引入模仿学习提出生成对抗模仿学习 (gener￾ative adversarial imitation learning,GAIL),使用生成 模型产生行为数据,使用判别模型区分行为数据 和专家策略数据,GAIL 在复杂高维环境的模仿 任务中超过了现有方法,其优化目标函数为 Eπ [ log(D(s,a))] + EπE [ log(1− D(s,a))] −λH (π) π πE D H λ 式中: 是生成模型的策略; 是专家策略; 是 判别模型; 是熵函数; 是系数。 (st ,at) (s0,s1,··· ,st) 通常模仿学习中的示例状态动作对 不 容易获得,而示例状态序列 更容易获 得,从示例状态序列进行模仿学习的任务被称为 “从观测学习”(learning from observation)[ 36]。 Torabi 等 [37] 提出 BCO(behavioral cloning from ob￾servation),通过学习环境动态模型预测示例观测 序列的动作,然后使用行为克隆进行模仿学习, 在多个任务中的表现超过了 GAIL。 2.3 课程学习 课程学习是机器学习中逐步增加任务难度以 加快学习速度的方法。在强化学习中课程学习实 质上在逐步调整学习的任务分布,智能体在简单 任务上更容易获得奖励,将相对简单的任务上学 到的策略迁移到复杂任务中,降低了在复杂任务 中探索的难度,因此课程学习能够用于解决稀疏 奖励问题[14]。 z P(z) λ ∈ [0,1] Wλ (z) λ z λ Qλ (z) Elman[38] 最早提出在语法学习任务中使用逐 步增加训练数据复杂度的方法来训练神经网络, 能够解决直接使用全部数据难以训练的问题。 Bengio 等 [15] 认为,课程学习的本质是逐步调整学 习样本的分布,在简单的样本分布上更容易学习 到泛化性好的策略,并通过实验证明了课程学习 能够提高训练速度和收敛到更优解。Bengio 等 [15] 给出了课程学习的数学定义, 表示训练样本, 表示目标训练集分布, 表示课程学习的阶 段, 是 阶段样本 的采样权重, 阶段训 练分布 为 Qλ (z) ∝ Wλ (z)P(z),∀z 其中 Qλ 满足: ∫ Qλ (z)dz = 1 Q1 (z) = P(z),∀z 不同课程阶段对应的分布满足熵增和权重单 调增加: H (Qλ (z)) < H (Qλ+ϵ (z)),∀ϵ > 0 Wλ+ϵ (z) < Wλ (z),∀z,∀ϵ > 0 课程学习的一个难点在于如何自动化地设计 课程的分级,解决这个问题需要考虑训练模型时 的反馈。Graves 等 [ 39] 提出一种自适应课程学习 方法,通过预测正确率和网络复杂性的增长来自 动调整课程的难度,在语言模型训练任务上显著 提高了训练速度。Akkaya 等 [ 40] 提出 ADR(auto￾matic domain randomization),通过设定表现阈值, 当正确率高于表现阈值时就扩大训练的分布提高 课程难度,反之缩小训练分布,在复杂的魔方操 作任务中取得了成功。 2.4 事后经验回放 G g ∈ G g ′ ∈ G g ′ 事后经验回放 (HER)[11] 是一种从失败经历中 学习的强化学习方法,通过修正失败经历的目标 产生奖励信息,解决了奖励的稀疏性问题,同时 对失败样本的利用极大提高了样本利用效率。 表示目标空间, 是实验目标, 是实际实 现的目标,HER 将经验数据中目标修改为 ,就 产生了成功的回合数据用于策略训练。HER 的 实现将在第 3 节的实验部分进行更具体的介绍。 目前对于事后经验回放算法的改进主要在于 降低偏差、改进目标采样方式、适配在线策略算 法等。Lanka 等 [41] 认为 HER 修改目标引入的新 数据带来了偏差,提出通过调整真实奖励和 HER 的 奖励的权重来降低偏差。Manela 等 [42] 指出,在目 标物体未移动的情况下,采样的目标只与初始位 置有关而与策略无关,这样的样本会给训练带来 偏差,于是提出 Filtered-HER,通过滤去该类型目 标来缓解该问题。Rauber 等 [43] 通过重要性采样 将 HER 运用到策略梯度方法上,实验结果表明 HER 明显提高了策略梯度方法的样本利用效率。 2.5 好奇心驱动 好奇心驱动是一类使用内在奖励引导智能 体探索环境的方法,高效的探索能够更快地获得 外在奖励[16] ,同时能够降低环境的奖励、状态转 移的不确定性,平衡探索与利用[44] ,因此好奇心 驱动能解决稀疏奖励问题带来的稀疏性和不可 靠性问题。目前的好奇心驱动算法根据内在奖 励计算方式可以分为访问计数法和预测差法[45]。 Bellemare 等 [46] 通过信息增益 (information gain) 来 联系访问计数法和预测差法,证明了两者本质是 相同的。 第 5 期 杨瑞,等:强化学习稀疏奖励算法研究——理论与实验 ·891·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有