正在加载图片...
第2卷第1期 智能系统学报 Vol.2 Ng 1 2007年2月 CAAI Transactions on Intelligent Systems Fcb.2007 增强学习中的直接策略搜索方法综述 王学宁1,陈伟张锰徐昕1,贺汉根 (1.国防科技大学机电工程与自动化学院,湖南长沙410073:2.北京清河大楼子9,北京100085) 摘要:对增强学习中各种策略搜索算法进行了简单介绍,建立了策略梯度方法的理论框架,并且根据这个理论框 架的指导,对一些现有的策略梯度算法进行了推广,讨论了近年来出现的提高策略梯度算法收敛速度的几种方法, 对于非策略梯度搜索算法的最新进展进行了介绍,对进一步研究工作的方向进行了展望. 关键词:增强学习:策路搜索:策略梯度 中图分类号:TP242文献标识码:A文章编号:1673-4785(2007)01-001609 A survey of direct policy search methods in reinforcement learning WAN G Xue-ning',CHEN Wei ,ZHANG Meng?XU Xin',HE Hamgen' (1.School of Electromechanical Engineering and Automation,National University of Defense Technology,Changsha 410073, China;2.Qinghe Building Zi 9,Beijing 100085,China) Abstract:The direct policy search methods in reinforcement learning are described,and the theoretic frame- work of policy gradient methods is presented.According to this framework,some current policy gradient algorithms are generalized.The new methods of speeding up the policy gradient algorithms are discussed. The new nompolicy gradient search methods are also described.Finally,some future directions of research work are also given. Key words reinforcement learning;policy search;policy Gradient 增强学习(reinforcement learning,又称为强化往是随机策略.2)行为值的微小变化可能会引起策 学习或再励学习),是近年来兴起的一类机器学习方 略很大的变化,这就使得值函数方法在很多问题中 法.增强学习强调在与环境的交互中学习,学习过程 不能保证收敛1.典型的值函数方法如Q学习算 中仅要求获得评价性的反馈信号(reward/rein- 法、Sarsa等方法如果采用函数逼近器,即使在小规 forcement signal,称为回报或增强信号),以极大化 模的MDP问题中也可能会发散9.川.3)值函数方 未来的回报为学习目标.增强学习由于不需要给定 法需要找出具有最大值的那个行为,但是如果行为 各种状态下的教师信号,因此对于求解复杂的优化 空间是连续的,这将会是一个很难或者很费时的问 决策问题具有广泛的应用前景).目前,增强学习在 题 理论和算法研究方面已取得了许多成果,成为求解 增强学习的另外一大类方法是直接策略搜索方 序贯(sequential)优化决策问题(通常建模为马氏决 法.该类方法把策略参数化,并且估算优化指标相对 策问题,Markov decision problems)的一类有效方 于策略参数的梯度,然后利用这个梯度来调整这些 法2.1 参数,最后得到最优或者局部最优策略.直接策略搜 在过去的10年中,增强学习的研究主要集中在 索方法最后得到的策略既可以是确定性策略,也可 基于值函数的方法.但是基于值函数的学习方法具 以是随机性的策略.尽管值函数方法也可以利用 有以下几个缺陷:1)基于值函数估计的方法易于寻 soft-max方法得到随机策略,但是这需要引进新的 找确定性的最优策略,但是,许多问题的最优策略往 参数,并且设定“柔软度”(softness)也比较困难,没 有任何理论指导.相对于值函数方法,直接策略搜索 收稿日期:20060707. 方法的收敛性也容易证明.因此,近年来直接策略搜 基金项目:国家自然科学基金资助项目(60234030,60303012) 索方法引起了广泛的关注2.1) 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net第 2 卷第 1 期 智 能 系 统 学 报 Vol. 2 №. 1 2007 年 2 月 CAA I Transactions on Intelligent Systems Feb. 2007 增强学习中的直接策略搜索方法综述 王学宁1 ,陈 伟1 ,张 锰2 ,徐 昕1 ,贺汉根1 (1. 国防科技大学 机电工程与自动化学院 ,湖南 长沙 410073 ;2. 北京清河大楼 子 9 ,北京 100085) 摘 要 :对增强学习中各种策略搜索算法进行了简单介绍 ,建立了策略梯度方法的理论框架 ,并且根据这个理论框 架的指导 ,对一些现有的策略梯度算法进行了推广 ,讨论了近年来出现的提高策略梯度算法收敛速度的几种方法 , 对于非策略梯度搜索算法的最新进展进行了介绍 ,对进一步研究工作的方向进行了展望. 关键词 :增强学习 ;策略搜索 ;策略梯度 中图分类号 : TP242 文献标识码 :A 文章编号 :167324785 (2007) 0120016209 A survey of direct policy search methods in reinforcement learning WAN G Xue2ning 1 ,CH EN Wei 1 ,ZHAN G Meng 2 ,XU Xin 1 , H E Han2gen 1 (1. School of Electromechanical Engineering and Automation , National University of Defense Technology , Changsha 410073 , China ;2. Qinghe Building Zi 9 , Beijing 100085 , China) Abstract :The direct policy search met hods in reinforcement learning are described , and t he theoretic frame2 work of policy gradient met hods is presented. According to t his framework , some current policy gradient algorit hms are generalized. The new met hods of speeding up t he policy gradient algorit hms are discussed. The new non2policy gradient search met hods are also described. Finally , some f ut ure directions of research work are also given. Keywords :reinforcement learning ; policy search ; policy Gradient 收稿日期 :2006207207. 基金项目 :国家自然科学基金资助项目(60234030 , 60303012) . 增强学习 (reinforcement learning ,又称为强化 学习或再励学习) ,是近年来兴起的一类机器学习方 法. 增强学习强调在与环境的交互中学习 ,学习过程 中仅要求获得评价性的反馈信号 ( reward/ rein2 forcement signal ,称为回报或增强信号) ,以极大化 未来的回报为学习目标. 增强学习由于不需要给定 各种状态下的教师信号 ,因此对于求解复杂的优化 决策问题具有广泛的应用前景[1 ] . 目前 ,增强学习在 理论和算法研究方面已取得了许多成果 ,成为求解 序贯(sequential) 优化决策问题(通常建模为马氏决 策问题 ,Markov decision problems) 的一类有效方 法[2 - 7 ] . 在过去的 10 年中 ,增强学习的研究主要集中在 基于值函数的方法. 但是基于值函数的学习方法具 有以下几个缺陷 :1) 基于值函数估计的方法易于寻 找确定性的最优策略 ,但是 ,许多问题的最优策略往 往是随机策略. 2) 行为值的微小变化可能会引起策 略很大的变化 ,这就使得值函数方法在很多问题中 不能保证收敛[8 ] . 典型的值函数方法如 Q2学习算 法、Sarsa 等方法如果采用函数逼近器 ,即使在小规 模的 MDP 问题中也可能会发散[9 - 11 ] . 3) 值函数方 法需要找出具有最大值的那个行为 ,但是如果行为 空间是连续的 ,这将会是一个很难或者很费时的问 题. 增强学习的另外一大类方法是直接策略搜索方 法. 该类方法把策略参数化 ,并且估算优化指标相对 于策略参数的梯度 ,然后利用这个梯度来调整这些 参数 ,最后得到最优或者局部最优策略. 直接策略搜 索方法最后得到的策略既可以是确定性策略 ,也可 以是随机性的策略. 尽管值函数方法也可以利用 soft2max 方法得到随机策略 ,但是这需要引进新的 参数 ,并且设定“柔软度”(soft ness) 也比较困难 ,没 有任何理论指导. 相对于值函数方法 ,直接策略搜索 方法的收敛性也容易证明. 因此 ,近年来直接策略搜 索方法引起了广泛的关注[12 - 15 ]
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有