第3期 金卓军,等:回报函数学习的学徒学习综述 .211 这2种方法的共同处在于2点:一是它们都将学 3 习问题转化为对二次最优化问题的求解,优化模型的 结束语 基本思想都是使最优策略与其他非最优策略的边际最 学徒学习让人们摆脱通过反复实验手动调节代 大化,即使得专家演示和其他策略所获得的回报之差 价函数的烦琐过程,使学习者可以通过学习专家的 尽可能大.二是它们的学习的目标相同,即通过学习各 演示来学习最优代价函数,从而生成最优策略.本文 学习特征之间的权重向量来还原回报函数 的主要探讨对象为基于回报函数学习的学徒学习方 这2种方法的区别类似于生成式学习和判别式 法,这也是目前学徒学习的主要方法.文中在回报函 学习2).首先,基于RL的学徒学习只针对一个MDP 数为基回报函数的线性组合和回报函数为非线性2 模型,MP方法的专家示例则可以来自多个不同的 种假设下分别作了概述,主要介绍了基于RL和 MDP模型,这些DP模型可以有各自的状态、动作 MP框架的学徒学习,并且比较了它们的优缺点。 及转移矩阵,它们之间通过学习特征向量(feature 基于回报函数学习的学徒学习中存在许多亟待 vectors)来取得统一.基于RL的学徒学习假定专家 解决的问题.首先应考虑非完全观察状态下的学徒 的演示是最优或者近似最优的,或者说它假定存在一 学习.上面的方法都是建立在MDP模型上的,然而 个使得专家产生最优策略的回报函数,而专家则是根 在实际应用中情况往往是非完全观察状态下的,即 据它来进行演示的.这样的假设条件相对较强,而 是建立在POMDP上的学徒学习.其次,在上面的方 皿的假设则弱得多.其次,二者对每一轮迭代中回 法中,学习特征的提取和设计都是人为完成的,这样 报函数的更新方法不同.基于RL的方法是通过将新 就导致结果受学习特征的选择影响很大,事实上学 产生的策略加入到已有策略集合,然后通过最优化方 习特征有可能通过对状态空间用PCA等方法降维 法求出下一轮的回报.MMP过程中采用根据专家演 来得到.另外,高维空间下学徒学习所带来的巨大计 示修正回报函数的方法,将专家演示所涉及到的学习 算量成为该学习方法被应用到更广泛的领域的主要 特征对应的回报增加,其余的减小,且保证离专家演 障碍,因此,设计高维状态空间下更有效的求解方法 示越远的策略回报减小越多,从而更新回报函数.最 也成为人们关心的问题之一 后,二者解最优化模型采用的方法不同,前者用的是 SVM和投影法,后者用的是梯度下降法. 参考文献: 基于逆向增强学习的学徒学习算法目前还有以 [1]ATKESON C G,SCHAAL S.Robot learning from demon- 下缺点:1)它对于基回报函数的设计非常敏感.这 stration [C]//Proceedings of the Fourteenth International 使得该算法过于依赖人为的基回报函数的设计.尽 Conference on Machine Learing.Nashville,USA,1997: 管P℃A等方法可以被用来从状态中提取学习特征, 12-20. 但在实际应用中这会使算法在特征的提取上花很多 [2]RATLIFF N D,BAGNELL J A,ZINKEVICH M A.Maxi- 时间.2)该算法的不足之处在于缺乏那些部分专家 mum margin planning[C//Proceedings of the 23rd Interna- 演示较少访问到的状态相关信息,从而导致学习结 tional Conference on Machine Learning.Pittsburgh,USA, 果在某些状态不理想.文献[22]针对这2个问题进 2006:729-736. 行了研究,并结合梯度算法给出了解决方案.3)该 [3]金卓军,钱徽,陈沈轶,等.基于回报函数逼近的学徒 学习综述[J].华中科技大学学报:自然科学版,2008 算法的局限性来自于上面提到的线性假设.而下面 (S1):288-290,294 的基于MP的改进算法则去掉了代价函数的线性 JIN Zhuojun,QIAN Hui,CHEN Shenyi,et al.Survey of 假设. apprenticeship leaming based on reward function approxima- MP框架可以被扩展到非线性回报函数的情况, ting[J].Joumal of Huazhong University of Science and Ratliff等人基于boosting的泛函梯度下降理论建立了 Technology:Nature Science,2008,36 (S1):288-290, 指数梯度下降的一般化算法,称为LEARCH算法, 294. LEARCH用更一般化的形式c(”)来表示代价 [4]NG A Y,RUSSELL S J.Algorithms for inverse reinforce 函数,这样式(2)中的wF:就可以写为 ment learing[C]//Proceedings of the Seventeenth Intema- ,系)μ“.式(2)就可以写成下面的形式: tional Conference on Machine Learing.San Francisco, USA,2000:663670. [5]ABBEEL P,NG A Y.Apprenticeship leamning via inverse (t,a)eM: reinforcement learing[C]//Proceedings of the Twenty-first mi{∑.(c(r)“-产)“}).(3) International Conference on Machine Learning.Banff,Can- eG(,a)M ada,2004:1-8