3.1.2 实验 2 Reward Shaping g ϕ ϕ(st) s_中国高校课件下载中心

正在加载图片...

·894· 智能系统学报第15卷 3.l.2实验2 Reward Shaping 100 实验2根据机械夹顶端到目标位置的距离设 80 计奖励函数。g表示目标位置，中表示状态到位置 60 的映射，(s)表示状态的位置，我们设计势能函数为距离目标位置的距离： (5,g)=-g-(s)服根据Ng等2)的理论，我们设计奖励函数， AAA 为势能函数的差分形式： 0 10 20 30 40 50 训练Epoch数 r(s,5+1,g)=A(Φ(s41,g)-Φ(3，g》= Alg-p(s)服-lg-中(s+)) 图9 Behavior Clone成功率学习曲线其中是大于0的奖励系数。在本实验中，由于 Fig.9 Performance curve of Behavior Clone 单步位移较小(10-3量级)，因此设置了A=103。 3.1.4实验4 Curriculum Learning 实验2比较了奖励塑造和DDPG的表现，实实验4通过设计目标分布范围逐渐增大的任验结果如图8所示。奖励塑造明显加快了学习速务序列来实现课程学习，能够证明我们的设计方度，40个epoch就收敛到100%成功率，验证了按式符合Bengio等1对课程学习的定义。实验任照势能函数差分形式设计奖励函数的有效性。务中目标位置在各维度变化范围是(-0.15,0.15)， 100 记做range=0.15,我们设计的课程目标分布序列为 80 range=0.05+ix 0.1 c-1.ie[0.c-1] 60 其中c为课程数。我们的课程序列保证了最后阶 40 DDPG 段i=c-1时目标分布范围与其余实验相同。 DDPG+reward shaping 实验4比较了不同课程数c对课程学习的影 20 响，实验结果如图10所示。当课程数c=1时，课程难度较大，难以进行策略学习；当课程数c=2 0 2030 40 50 训练Epoch数时，在50个epoch处存在任务切换导致的断层；当图8奖励塑造与DDPG成功率学习曲线课程数继续增加，课程跨度变小，策略迁移更快， Fig.8 Performance curve of Reward Shaping and DDPG 学习速度进一步提高，但当课程数大于10后，提 3.l.3实验3 Behavior Clone 高课程数几乎不带来性能的提升。实验中c=10 实验3实现的是Nair等B使用的行为克隆时学习速度最快，70个epoch收敛到100%成功率。 (Behavior Clone)算法，利用HER训练的成功率 100 100%的智能体随机产生100局的交互数据作为示例数据，同时最大化累计奖励和最小化与示例 60 策略的误差。由于示例数据有限，不一定能获得课程数1 示例策略在当前状态下的决策，为此我们使用从课程数2 示例数据中的采样(s,8,a)来计算策略误差：课程数5 课程数10以 Lace=-E-d[Q(s,π(s,g）,g]+ aE,.lla.-π(s,g) 20 4060 80 100 式中：π、π分别表示示例策略和实际策略；S、g 训练Epoch数分别表示实际状态和目标；a是常系数；d严、d分图10课程学习成功率学习曲线别代表智能体采样数据分布和示例数据分布。 Fig.10 Performance curve of Curriculum Learning 实验3比较了不同α下行为克隆的表现，其 3.1.5实验5HER 中α=0即代表DDPG,实验结果如图9所示。结实验5实现的HER)算法具体描述为：在每果显示，随着示例策略损失的系数α增加，学习局仿真结束后，对该局的数据(s,a,S+1,,g)采样速度加快，当a=1时，8个epoch就收敛到100% 多个状态s∈S,利用状态到目标的映射中得到该成功率。实验结果验证了引入示例策略损失的行局完成的目标g=中(s)。对每条数据(S,a,S+1,r,g) 为克隆方法能够显著提高学习速度，a=1时Be- 用g计算新的奖励值r,=-(l-(s4i)-gI匠>threshold), havior Clone在本实验实现的算法中最快收敛到完成目标奖励为0，否则奖励为-1。最后将生成 100%成功率。的新数据(s,a,S41,,g)和原数据一起存人经验3.1.2 实验 2 Reward Shaping g ϕ ϕ(st) st 实验 2 根据机械夹顶端到目标位置的距离设计奖励函数。表示目标位置，表示状态到位置的映射，表示状态的位置，我们设计势能函数为距离目标位置的距离： Φ(st ,g) = −∥g−ϕ(st)∥ 2 2 根据 Ng 等 r [27] 的理论，我们设计奖励函数为势能函数的差分形式： r(st ,st+1,g) = λ(Φ(st+1,g)−Φ(st ,g)) = λ(∥g−φ(st)∥ 2 2 −∥g−ϕ(st+1)∥ 2 2 ) λ 10−3 λ = 103 其中是大于 0 的奖励系数。在本实验中，由于单步位移较小 ( 量级)，因此设置了。实验 2 比较了奖励塑造和 DDPG 的表现，实验结果如图 8 所示。奖励塑造明显加快了学习速度，40 个 epoch 就收敛到 100% 成功率，验证了按照势能函数差分形式设计奖励函数的有效性。成功率/% 100 DDPG DDPG+reward shaping 80 60 40 20 0 10 20 30 训练Epoch数 40 50 图 8 奖励塑造与 DDPG 成功率学习曲线 Fig. 8 Performance curve of Reward Shaping and DDPG 3.1.3 实验 3 Behavior Clone (se ,ge ,ae) 实验 3 实现的是 Nair 等 [34] 使用的行为克隆 (Behavior Clone) 算法，利用 HER 训练的成功率 100% 的智能体随机产生 100 局的交互数据作为示例数据，同时最大化累计奖励和最小化与示例策略的误差。由于示例数据有限，不一定能获得示例策略在当前状态下的决策，为此我们使用从示例数据中的采样来计算策略误差： Lactor = −Est∼d π [ Q(st , π(st ,g),g) ] + αEse∼d πe ∥ae −π(se ,ge)∥ 2 2 πe π st g α d π d πe 式中：、分别表示示例策略和实际策略；、分别表示实际状态和目标；是常系数；、分别代表智能体采样数据分布和示例数据分布。 α α = 0 α α = 1 α = 1 实验 3 比较了不同下行为克隆的表现，其中即代表 DDPG，实验结果如图 9 所示。结果显示，随着示例策略损失的系数增加，学习速度加快，当时，8 个 epoch 就收敛到 100% 成功率。实验结果验证了引入示例策略损失的行为克隆方法能够显著提高学习速度，时 Behavior Clone 在本实验实现的算法中最快收敛到 100% 成功率。成功率/% 100 80 60 40 20 0 10 20 30 训练Epoch数 40 50 α=0 α=10–6 α=10–3 α=1 图 9 Behavior Clone 成功率学习曲线 Fig. 9 Performance curve of Behavior Clone 3.1.4 实验 4 Curriculum Learning (−0.15,0.15) range = 0.15 实验 4 通过设计目标分布范围逐渐增大的任务序列来实现课程学习，能够证明我们的设计方式符合 Bengio 等 [15] 对课程学习的定义。实验任务中目标位置在各维度变化范围是，记做，我们设计的课程目标分布序列为 range = 0.05+i× 0.1 c−1 , i ∈ [0, c−1] c i = c−1 其中为课程数。我们的课程序列保证了最后阶段时目标分布范围与其余实验相同。 c c = 1 c = 2 c = 10 实验 4 比较了不同课程数对课程学习的影响，实验结果如图 10 所示。当课程数时，课程难度较大，难以进行策略学习；当课程数时，在 50 个 epoch 处存在任务切换导致的断层；当课程数继续增加，课程跨度变小，策略迁移更快，学习速度进一步提高，但当课程数大于 10 后，提高课程数几乎不带来性能的提升。实验中时学习速度最快，70 个 epoch 收敛到 100% 成功率。 100 80 60 40 20 0 20 40 60 训练Epoch数成功率/% 80 100 课程数 1 课程数 2 课程数 5 课程数 10 图 10 课程学习成功率学习曲线 Fig. 10 Performance curve of Curriculum Learning 3.1.5 实验 5 HER (st ,at ,st+1,rt ,g) s ∈ S ϕ g ′ = ϕ(s) (st ,at ,st+1,rt ,g) g ′ r ′ t = −(∥ϕ(st+1)−g ′ ∥ 2 2 > threshold) −1 (st ,at ,st+1,r ′ t ,g ′ ) 实验 5 实现的 HER[11] 算法具体描述为：在每局仿真结束后，对该局的数据采样多个状态，利用状态到目标的映射得到该局完成的目标。对每条数据用计算新的奖励值，完成目标奖励为 0，否则奖励为。最后将生成的新数据和原数据一起存入经验 ·894· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：【智能系统】强化学习稀疏奖励算法研究——理论与实验