正在加载图片...
·896· 智能系统学报 第15卷 使用的Fetch Reach实验环境是相对简单的,容易 仿学习与HER结合的算法。 构建可靠的外部引导信息,在更多的稀疏奖励任 务中,外部引导信息是难于构建的,这就需要无 5结束语 外部引导信息算法的研究。在我们的实验中, 本文将目前主流的稀疏奖励算法按是否引入 HER、Forward Dynamic等算法的表现已经接近使 外部引导信息分为两类,分别介绍了奖励塑造、 用外部引导信息的算法,具有重要的研究价值和 模仿学习、课程学习和事后经验回放、好奇心驱 意义。 动、分层强化学习等6类算法的发展和应用。本 表2实验结果 文还通过实验验证了6种算法在稀疏奖励问题中 Table 2 Experiment results 的有效性,相比于DDPG均有显著提升,部分无 有无外部最高平均 收敛 算法 外部引导信息的算法表现已经接近使用外部引导 引导信息成功率% epoch数 信息的算法。本文的实验比较了6种算法解决稀 Random 无 17 疏奖励问题的能力,为进一步的研究提供了实验 DDPG 无 21 370 基础。 Reward Shaping 有 100 43 稀疏奖励问题的研究对强化学习理论的拓展 以及算法的实际落地具有重要意义,我们希望在 Behavior Clone(a=1) 有 100 P 未来看到更高效的算法用于解决复杂的稀疏奖励 Curriculum 10 有 100 70 问题,同时也希望看到更多强化学习算法的实际 HER 无 100 15 落地与应用,为社会创造更多价值。 Forward Dynamic 无 100 80 参考文献: HDDPG layers3 无 66 100 [1]SUTTON R S,BARTO A G.Reinforcement learning:an 4展望 introduction[MI.Cambridge,USA:MIT Press.1998. [2]SUTTON R S,BARTO A G.Reinforcement learning:an 稀疏奖励算法未来的研究方向可以是根据各 introduction[M].2nd ed.Cambridge:MIT Press,2018. 算法存在的问题进行改进,或对多种稀疏奖励算 [3]SILVER D,HUANG A,MADDISON C J,et al.Master- 法进行结合。自适应课程学习是重要的研究方 ing the game of Go with deep neural networks and tree 向,结合生成对抗思想61或元学习6的自动课程 search[J].Nature,2016,529(7587):484-489 学习具有广阔的研究前景。好奇心驱动存在被称 [4]VINYALS O,BABUSCHKIN I,CZARNECKI W M,et al. 作“电视噪声”的问题:当环境中出现难以预测 Grandmaster level in StarCraft II using multi-agent rein- 的随机噪声时,会导致智能体驻留而不去完成任 forcement learning[J].Nature,2019,575(7782):350-354. 务。为解决电视噪声问题,未来可以研究好奇心 [5]BERNER C,BROCKMAN G.CHAN B.et al.Dota 2 with 驱动的状态编码方式1或结合注意力机制61等 large scale deep reinforcement learning[EB/OL].Califor- 方法,让智能体更关注与任务有关的状态和奖励 nia,USA:arXiv,2019.[2019-10-1]https://arxiv.org/pdf/ 信息。事后经验回放算法基于“存在状态到目标 1912.06680.pdf 的映射”的假设,但是大量实际问题中并不容易找 [6]SILVER D.Tutorial:Deep reinforcement learning[C]// Proc.of the 33rd Int.Conf.on Machine Learning(ICML 到这样的映射关系,比如视频游戏、机器人导航6侧 2016).2016. 等问题,研究通用的目标映射方法有助于将HER [7]LI Yuxi.Deep reinforcement learning:An overview 这种高效的稀疏奖励算法应用到更多问题中。分 [EB/OL].Alberta,Canada:arXiv,2017.[2019-10-2] 层强化学习还需要进一步研究分层的数据矫正5 https://arxiv.org/pdf/1701.07274.pdf. 以及更高效的分层结构。基于目标的分层强化学 [8]LI Yuxi.Deep reinforcement learning[EB/OL].Alberta, 习中,自动学习目标空间的表示6剧也是重要的研 Canada:arXiv,2018.[2019-10-5]https://arxiv.org/pdf/1810 究内容。最后,多种稀疏奖励算法的结合算法能 06339.pdf 够融合不同算法的优势,为稀疏奖励问题提供更 [9]Riedmiller M,Hafner R,Lampe T,et al.Learning by play- 加强有力的解决方案,例如Levy等s9提出的分 ing-solving sparse reward tasks from scratch[EB/OL].Lon- 层与HER结合的HAC、Lanier等6提出的好奇 don,UK:ar Xiv,2018.[2019-10-20]https://arxiv.org/pdf/1802. 心驱动与HER结合的算法、Nair等B1提出的模 10567.pdf使用的 Fetch Reach 实验环境是相对简单的,容易 构建可靠的外部引导信息,在更多的稀疏奖励任 务中,外部引导信息是难于构建的,这就需要无 外部引导信息算法的研究。在我们的实验中, HER、Forward Dynamic 等算法的表现已经接近使 用外部引导信息的算法,具有重要的研究价值和 意义。 表 2 实验结果 Table 2 Experiment results 算法 有无外部 引导信息 最高平均 成功率/% 收敛 epoch数 Random 无 17 ~ DDPG 无 21 370 Reward Shaping 有 100 43 Behavior Clone(α=1) 有 100 8 Curriculum 10 有 100 70 HER 无 100 15 Forward Dynamic 无 100 80 HDDPG layers3 无 66 100 4 展望 稀疏奖励算法未来的研究方向可以是根据各 算法存在的问题进行改进,或对多种稀疏奖励算 法进行结合。自适应课程学习是重要的研究方 向,结合生成对抗思想[61] 或元学习[62] 的自动课程 学习具有广阔的研究前景。好奇心驱动存在被称 作“电视噪声”的问题[45] :当环境中出现难以预测 的随机噪声时,会导致智能体驻留而不去完成任 务。为解决电视噪声问题,未来可以研究好奇心 驱动的状态编码方式[15] 或结合注意力机制[63] 等 方法,让智能体更关注与任务有关的状态和奖励 信息。事后经验回放算法基于“存在状态到目标 的映射”的假设,但是大量实际问题中并不容易找 到这样的映射关系,比如视频游戏、机器人导航[64] 等问题,研究通用的目标映射方法有助于将 HER 这种高效的稀疏奖励算法应用到更多问题中。分 层强化学习还需要进一步研究分层的数据矫正[58] 以及更高效的分层结构。基于目标的分层强化学 习中,自动学习目标空间的表示[65] 也是重要的研 究内容。最后,多种稀疏奖励算法的结合算法能 够融合不同算法的优势,为稀疏奖励问题提供更 加强有力的解决方案,例如 Levy 等 [59] 提出的分 层与 HER 结合的 HAC、Lanier 等 [66] 提出的好奇 心驱动与 HER 结合的算法、Nair 等 [34] 提出的模 仿学习与 HER 结合的算法。 5 结束语 本文将目前主流的稀疏奖励算法按是否引入 外部引导信息分为两类,分别介绍了奖励塑造、 模仿学习、课程学习和事后经验回放、好奇心驱 动、分层强化学习等 6 类算法的发展和应用。本 文还通过实验验证了 6 种算法在稀疏奖励问题中 的有效性,相比于 DDPG 均有显著提升,部分无 外部引导信息的算法表现已经接近使用外部引导 信息的算法。本文的实验比较了 6 种算法解决稀 疏奖励问题的能力,为进一步的研究提供了实验 基础。 稀疏奖励问题的研究对强化学习理论的拓展 以及算法的实际落地具有重要意义,我们希望在 未来看到更高效的算法用于解决复杂的稀疏奖励 问题,同时也希望看到更多强化学习算法的实际 落地与应用,为社会创造更多价值。 参考文献: SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge, USA: MIT Press, 1998. [1] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. 2nd ed. Cambridge: MIT Press, 2018. [2] SILVER D, HUANG A, MADDISON C J, et al. Master￾ing the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489. [3] VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi-agent rein￾forcement learning[J]. Nature, 2019, 575(7782): 350–354. [4] BERNER C, BROCKMAN G, CHAN B, et al. Dota 2 with large scale deep reinforcement learning[EB/OL]. Califor￾nia, USA: arXiv, 2019. [2019-10-1] https://arxiv.org/pdf/ 1912.06680.pdf. [5] SILVER D. Tutorial: Deep reinforcement learning[C]// Proc. of the 33rd Int. Conf. on Machine Learning (ICML 2016). 2016. [6] LI Yuxi. Deep reinforcement learning: An overview [EB/OL]. Alberta, Canada: arXiv, 2017. [2019-10-2] https://arxiv.org/pdf/ 1701.07274.pdf. [7] LI Yuxi. Deep reinforcement learning[EB/OL]. Alberta, Canada: arXiv, 2018. [2019-10-5] https://arxiv.org/pdf/1810. 06339.pdf. [8] Riedmiller M, Hafner R, Lampe T, et al. Learning by play￾ing-solving sparse reward tasks from scratch[EB/OL]. Lon￾don, UK: arXiv, 2018. [2019-10-20] https://arxiv.org/pdf/1802. 10567.pdf. [9] ·896· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有