第 2 卷第 1 期智能系统学报 Vol. 2 №. 1 20

正在加载图片...

第2卷第1期智能系统学报 Vol.2 Ng 1 2007年2月 CAAI Transactions on Intelligent Systems Fcb.2007 增强学习中的直接策略搜索方法综述王学宁1，陈伟张锰徐昕1，贺汉根 (1.国防科技大学机电工程与自动化学院，湖南长沙410073：2.北京清河大楼子9，北京100085) 摘要：对增强学习中各种策略搜索算法进行了简单介绍，建立了策略梯度方法的理论框架，并且根据这个理论框架的指导，对一些现有的策略梯度算法进行了推广，讨论了近年来出现的提高策略梯度算法收敛速度的几种方法，对于非策略梯度搜索算法的最新进展进行了介绍，对进一步研究工作的方向进行了展望. 关键词：增强学习：策路搜索：策略梯度中图分类号：TP242文献标识码：A文章编号：1673-4785(2007)01-001609 A survey of direct policy search methods in reinforcement learning WAN G Xue-ning',CHEN Wei ,ZHANG Meng?XU Xin',HE Hamgen' (1.School of Electromechanical Engineering and Automation,National University of Defense Technology,Changsha 410073, China;2.Qinghe Building Zi 9,Beijing 100085,China) Abstract:The direct policy search methods in reinforcement learning are described,and the theoretic frame- work of policy gradient methods is presented.According to this framework,some current policy gradient algorithms are generalized.The new methods of speeding up the policy gradient algorithms are discussed. The new nompolicy gradient search methods are also described.Finally,some future directions of research work are also given. Key words reinforcement learning;policy search;policy Gradient 增强学习(reinforcement learning,又称为强化往是随机策略.2)行为值的微小变化可能会引起策学习或再励学习)，是近年来兴起的一类机器学习方略很大的变化，这就使得值函数方法在很多问题中法.增强学习强调在与环境的交互中学习，学习过程不能保证收敛1.典型的值函数方法如Q学习算中仅要求获得评价性的反馈信号(reward/rein- 法、Sarsa等方法如果采用函数逼近器，即使在小规 forcement signal,称为回报或增强信号)，以极大化模的MDP问题中也可能会发散9.川.3)值函数方未来的回报为学习目标.增强学习由于不需要给定法需要找出具有最大值的那个行为，但是如果行为各种状态下的教师信号，因此对于求解复杂的优化空间是连续的，这将会是一个很难或者很费时的问决策问题具有广泛的应用前景).目前，增强学习在题理论和算法研究方面已取得了许多成果，成为求解增强学习的另外一大类方法是直接策略搜索方序贯(sequential)优化决策问题（通常建模为马氏决法.该类方法把策略参数化，并且估算优化指标相对策问题，Markov decision problems)的一类有效方于策略参数的梯度，然后利用这个梯度来调整这些法2.1 参数，最后得到最优或者局部最优策略.直接策略搜在过去的10年中，增强学习的研究主要集中在索方法最后得到的策略既可以是确定性策略，也可基于值函数的方法.但是基于值函数的学习方法具以是随机性的策略.尽管值函数方法也可以利用有以下几个缺陷：1)基于值函数估计的方法易于寻 soft-max方法得到随机策略，但是这需要引进新的找确定性的最优策略，但是，许多问题的最优策略往参数，并且设定“柔软度”(softness)也比较困难，没有任何理论指导.相对于值函数方法，直接策略搜索收稿日期：20060707. 方法的收敛性也容易证明.因此，近年来直接策略搜基金项目：国家自然科学基金资助项目(60234030,60303012) 索方法引起了广泛的关注2.1) 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net第 2 卷第 1 期智能系统学报 Vol. 2 №. 1 2007 年 2 月 CAA I Transactions on Intelligent Systems Feb. 2007 增强学习中的直接策略搜索方法综述王学宁1 ,陈伟1 ,张锰2 ,徐昕1 ,贺汉根1 (1. 国防科技大学机电工程与自动化学院 ,湖南长沙 410073 ;2. 北京清河大楼子 9 ,北京 100085) 摘要 :对增强学习中各种策略搜索算法进行了简单介绍 ,建立了策略梯度方法的理论框架 ,并且根据这个理论框架的指导 ,对一些现有的策略梯度算法进行了推广 ,讨论了近年来出现的提高策略梯度算法收敛速度的几种方法 , 对于非策略梯度搜索算法的最新进展进行了介绍 ,对进一步研究工作的方向进行了展望. 关键词 :增强学习 ;策略搜索 ;策略梯度中图分类号 : TP242 文献标识码 :A 文章编号 :167324785 (2007) 0120016209 A survey of direct policy search methods in reinforcement learning WAN G Xue2ning 1 ,CH EN Wei 1 ,ZHAN G Meng 2 ,XU Xin 1 , H E Han2gen 1 (1. School of Electromechanical Engineering and Automation , National University of Defense Technology , Changsha 410073 , China ;2. Qinghe Building Zi 9 , Beijing 100085 , China) Abstract :The direct policy search met hods in reinforcement learning are described , and t he theoretic frame2 work of policy gradient met hods is presented. According to t his framework , some current policy gradient algorit hms are generalized. The new met hods of speeding up t he policy gradient algorit hms are discussed. The new non2policy gradient search met hods are also described. Finally , some f ut ure directions of research work are also given. Keywords :reinforcement learning ; policy search ; policy Gradient 收稿日期 :2006207207. 基金项目 :国家自然科学基金资助项目(60234030 , 60303012) . 增强学习 (reinforcement learning ,又称为强化学习或再励学习) ,是近年来兴起的一类机器学习方法. 增强学习强调在与环境的交互中学习 ,学习过程中仅要求获得评价性的反馈信号 ( reward/ rein2 forcement signal ,称为回报或增强信号) ,以极大化未来的回报为学习目标. 增强学习由于不需要给定各种状态下的教师信号 ,因此对于求解复杂的优化决策问题具有广泛的应用前景[1 ] . 目前 ,增强学习在理论和算法研究方面已取得了许多成果 ,成为求解序贯(sequential) 优化决策问题(通常建模为马氏决策问题 ,Markov decision problems) 的一类有效方法[2 - 7 ] . 在过去的 10 年中 ,增强学习的研究主要集中在基于值函数的方法. 但是基于值函数的学习方法具有以下几个缺陷 :1) 基于值函数估计的方法易于寻找确定性的最优策略 ,但是 ,许多问题的最优策略往往是随机策略. 2) 行为值的微小变化可能会引起策略很大的变化 ,这就使得值函数方法在很多问题中不能保证收敛[8 ] . 典型的值函数方法如 Q2学习算法、Sarsa 等方法如果采用函数逼近器 ,即使在小规模的 MDP 问题中也可能会发散[9 - 11 ] . 3) 值函数方法需要找出具有最大值的那个行为 ,但是如果行为空间是连续的 ,这将会是一个很难或者很费时的问题. 增强学习的另外一大类方法是直接策略搜索方法. 该类方法把策略参数化 ,并且估算优化指标相对于策略参数的梯度 ,然后利用这个梯度来调整这些参数 ,最后得到最优或者局部最优策略. 直接策略搜索方法最后得到的策略既可以是确定性策略 ,也可以是随机性的策略. 尽管值函数方法也可以利用 soft2max 方法得到随机策略 ,但是这需要引进新的参数 ,并且设定“柔软度”(soft ness) 也比较困难 ,没有任何理论指导. 相对于值函数方法 ,直接策略搜索方法的收敛性也容易证明. 因此 ,近年来直接策略搜索方法引起了广泛的关注[12 - 15 ]

向下翻页>>

点击下载：【学术论文】增强学习中的直接策略搜索方法综述