正在加载图片...
·894· 智能系统学报 第15卷 3.l.2实验2 Reward Shaping 100 实验2根据机械夹顶端到目标位置的距离设 80 计奖励函数。g表示目标位置,中表示状态到位置 60 的映射,(s)表示状态的位置,我们设计势能 函数为距离目标位置的距离: (5,g)=-g-(s)服 根据Ng等2)的理论,我们设计奖励函数, AAA 为势能函数的差分形式: 0 10 20 30 40 50 训练Epoch数 r(s,5+1,g)=A(Φ(s41,g)-Φ(3,g》= Alg-p(s)服-lg-中(s+)) 图9 Behavior Clone成功率学习曲线 其中是大于0的奖励系数。在本实验中,由于 Fig.9 Performance curve of Behavior Clone 单步位移较小(10-3量级),因此设置了A=103。 3.1.4实验4 Curriculum Learning 实验2比较了奖励塑造和DDPG的表现,实 实验4通过设计目标分布范围逐渐增大的任 验结果如图8所示。奖励塑造明显加快了学习速 务序列来实现课程学习,能够证明我们的设计方 度,40个epoch就收敛到100%成功率,验证了按 式符合Bengio等1对课程学习的定义。实验任 照势能函数差分形式设计奖励函数的有效性。 务中目标位置在各维度变化范围是(-0.15,0.15), 100 记做range=0.15,我们设计的课程目标分布序列为 80 range=0.05+ix 0.1 c-1.ie[0.c-1] 60 其中c为课程数。我们的课程序列保证了最后阶 40 DDPG 段i=c-1时目标分布范围与其余实验相同。 DDPG+reward shaping 实验4比较了不同课程数c对课程学习的影 20 响,实验结果如图10所示。当课程数c=1时,课 程难度较大,难以进行策略学习;当课程数c=2 0 2030 40 50 训练Epoch数 时,在50个epoch处存在任务切换导致的断层;当 图8奖励塑造与DDPG成功率学习曲线 课程数继续增加,课程跨度变小,策略迁移更快, Fig.8 Performance curve of Reward Shaping and DDPG 学习速度进一步提高,但当课程数大于10后,提 3.l.3实验3 Behavior Clone 高课程数几乎不带来性能的提升。实验中c=10 实验3实现的是Nair等B使用的行为克隆 时学习速度最快,70个epoch收敛到100%成功率。 (Behavior Clone)算法,利用HER训练的成功率 100 100%的智能体随机产生100局的交互数据作为 示例数据,同时最大化累计奖励和最小化与示例 60 策略的误差。由于示例数据有限,不一定能获得 课程数1 示例策略在当前状态下的决策,为此我们使用从 课程数2 示例数据中的采样(s,8,a)来计算策略误差: 课程数5 课程数10以 Lace=-E-d[Q(s,π(s,g),g]+ aE,.lla.-π(s,g) 20 4060 80 100 式中:π、π分别表示示例策略和实际策略;S、g 训练Epoch数 分别表示实际状态和目标;a是常系数;d严、d分 图10课程学习成功率学习曲线 别代表智能体采样数据分布和示例数据分布。 Fig.10 Performance curve of Curriculum Learning 实验3比较了不同α下行为克隆的表现,其 3.1.5实验5HER 中α=0即代表DDPG,实验结果如图9所示。结 实验5实现的HER)算法具体描述为:在每 果显示,随着示例策略损失的系数α增加,学习 局仿真结束后,对该局的数据(s,a,S+1,,g)采样 速度加快,当a=1时,8个epoch就收敛到100% 多个状态s∈S,利用状态到目标的映射中得到该 成功率。实验结果验证了引入示例策略损失的行 局完成的目标g=中(s)。对每条数据(S,a,S+1,r,g) 为克隆方法能够显著提高学习速度,a=1时Be- 用g计算新的奖励值r,=-(l-(s4i)-gI匠>threshold), havior Clone在本实验实现的算法中最快收敛到 完成目标奖励为0,否则奖励为-1。最后将生成 100%成功率。 的新数据(s,a,S41,,g)和原数据一起存人经验3.1.2 实验 2 Reward Shaping g ϕ ϕ(st) st 实验 2 根据机械夹顶端到目标位置的距离设 计奖励函数。 表示目标位置, 表示状态到位置 的映射, 表示状态 的位置,我们设计势能 函数为距离目标位置的距离: Φ(st ,g) = −∥g−ϕ(st)∥ 2 2 根据 Ng 等 r [27] 的理论,我们设计奖励函数 为势能函数的差分形式: r(st ,st+1,g) = λ(Φ(st+1,g)−Φ(st ,g)) = λ(∥g−φ(st)∥ 2 2 −∥g−ϕ(st+1)∥ 2 2 ) λ 10−3 λ = 103 其中 是大于 0 的奖励系数。在本实验中,由于 单步位移较小 ( 量级),因此设置了 。 实验 2 比较了奖励塑造和 DDPG 的表现,实 验结果如图 8 所示。奖励塑造明显加快了学习速 度,40 个 epoch 就收敛到 100% 成功率,验证了按 照势能函数差分形式设计奖励函数的有效性。 成功率/% 100 DDPG DDPG+reward shaping 80 60 40 20 0 10 20 30 训练Epoch数 40 50 图 8 奖励塑造与 DDPG 成功率学习曲线 Fig. 8 Performance curve of Reward Shaping and DDPG 3.1.3 实验 3 Behavior Clone (se ,ge ,ae) 实验 3 实现的是 Nair 等 [34] 使用的行为克隆 (Behavior Clone) 算法,利用 HER 训练的成功率 100% 的智能体随机产生 100 局的交互数据作为 示例数据,同时最大化累计奖励和最小化与示例 策略的误差。由于示例数据有限,不一定能获得 示例策略在当前状态下的决策,为此我们使用从 示例数据中的采样 来计算策略误差: Lactor = −Est∼d π [ Q(st , π(st ,g),g) ] + αEse∼d πe ∥ae −π(se ,ge)∥ 2 2 πe π st g α d π d πe 式中: 、 分别表示示例策略和实际策略; 、 分别表示实际状态和目标; 是常系数; 、 分 别代表智能体采样数据分布和示例数据分布。 α α = 0 α α = 1 α = 1 实验 3 比较了不同 下行为克隆的表现,其 中 即代表 DDPG,实验结果如图 9 所示。结 果显示,随着示例策略损失的系数 增加,学习 速度加快,当 时,8 个 epoch 就收敛到 100% 成功率。实验结果验证了引入示例策略损失的行 为克隆方法能够显著提高学习速度, 时 Be￾havior Clone 在本实验实现的算法中最快收敛到 100% 成功率。 成功率/% 100 80 60 40 20 0 10 20 30 训练Epoch数 40 50 α=0 α=10–6 α=10–3 α=1 图 9 Behavior Clone 成功率学习曲线 Fig. 9 Performance curve of Behavior Clone 3.1.4 实验 4 Curriculum Learning (−0.15,0.15) range = 0.15 实验 4 通过设计目标分布范围逐渐增大的任 务序列来实现课程学习,能够证明我们的设计方 式符合 Bengio 等 [15] 对课程学习的定义。实验任 务中目标位置在各维度变化范围是 , 记做 ,我们设计的课程目标分布序列为 range = 0.05+i× 0.1 c−1 , i ∈ [0, c−1] c i = c−1 其中 为课程数。我们的课程序列保证了最后阶 段 时目标分布范围与其余实验相同。 c c = 1 c = 2 c = 10 实验 4 比较了不同课程数 对课程学习的影 响,实验结果如图 10 所示。当课程数 时,课 程难度较大,难以进行策略学习;当课程数 时,在 50 个 epoch 处存在任务切换导致的断层;当 课程数继续增加,课程跨度变小,策略迁移更快, 学习速度进一步提高,但当课程数大于 10 后,提 高课程数几乎不带来性能的提升。实验中 时学习速度最快,70 个 epoch 收敛到 100% 成功率。 100 80 60 40 20 0 20 40 60 训练Epoch数 成功率/% 80 100 课程数 1 课程数 2 课程数 5 课程数 10 图 10 课程学习成功率学习曲线 Fig. 10 Performance curve of Curriculum Learning 3.1.5 实验 5 HER (st ,at ,st+1,rt ,g) s ∈ S ϕ g ′ = ϕ(s) (st ,at ,st+1,rt ,g) g ′ r ′ t = −(∥ϕ(st+1)−g ′ ∥ 2 2 > threshold) −1 (st ,at ,st+1,r ′ t ,g ′ ) 实验 5 实现的 HER[11] 算法具体描述为:在每 局仿真结束后,对该局的数据 采样 多个状态 ,利用状态到目标的映射 得到该 局完成的目标 。对每条数据 用 计算新的奖励值 , 完成目标奖励为 0,否则奖励为 。最后将生成 的新数据 和原数据一起存入经验 ·894· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有