第3期 金卓军,等:回报函数学习的学徒学习综述 .209 示的策略序列中近似还原出怡当的回报函数,之后便 严(s)=R(s)+y∑Po(s')(s') 可以用传统的规划方法寻求最优策略.目前用于从示 教中还原回报函数的主要方法有基于逆向增强学习 Q(s)=R(s)+y>P(s)(s'). 的学徒学习和MMP框架2种.Ng和Russell提出了 学习特征是状态的组合,是代表某一特征的状 逆向增强学习(inverse reinforcement learning, 态的集合.学习特征的基回报函数简称为基回报函 RL),它通过最大化专家演示策略和其他策略的 数,是使符合某一学习特征的策略回报值最高的回 差别,还原出一个能得出和专家演示相似策略的回报 报函数基回报函数形式化表达为/eS×A→R,d 函数.Abbeel等人将逆向增强学习进行拓展,称为学 为学习特征的个数.回报函数R:S×A→R,代价函 徒学习),并且在文中以一个驾驶模拟实验系统证明 数是负的回报函数c:S×A→R. 了该算法可以快速通过学徒学习掌握不同的驾驶风 2基于线性回报函数的学习 格.近年来,Kolter等人又将层次的概念引入学徒学 习,并首次应用于四足机器人的实验中.另一方面, 在基于线性回报函数的假设下,线性回报函数 Rat诳等人通过将该问题转化为二次最优化问题,并 是基于回报函数的线性组合: 由之提出了MMP框架),同时在此基础上设计了一 R(s)=0f(s)+w22(s)+…+0f(s). 系列基于梯度下降的算法).近年来,Syed等人又从 式中:i,…,∫是确定的基回报函数(base func- 线性规划]和博弈论角度讨论了该问题,将该问题 ion),每一个学习特征对应一个基回报函数;w= 转化成线性规划问题,运算效率得到大大提高;但在 [和102…wa]为各个基回报函数之间的权值向量. 专家示教是否为最优末知时,作者没有提出一个统一 下面介绍2种基于以上假设的学徒学习的方 的有效算法.文献[9]中将学习过程解释为2个玩家 法,它们分别是基于逆向增强学习的学徒学习和基 间的零和博弈,此方法改进了基于逆向增强学习的学 于P框架的学徒学习.针对回报函数为非线性 徒学习在专家示教非最优情祝下学习结果不理想的 假设的算法将在后面提及 缺点.另外,为了将该算法应用到实际情况中,Grimes 2.1逆向增强学习 和Rao等人在文献中[10]中探讨了在不确定环境下 在逆向增强学习中4),算法通过专家的演示得 的学徒学习系统设计, 到回报函数,它假设专家是基于一个能产生最优或 目前为止,基于回报函数学习的学徒学习已经 者近似最优策略的回报函数来进行演示的.学习者 被应用到如直升机特技表演,四足机器人的复杂 没有必要也不可能找出真实的回报函数,因为要找 地形穿越及机器手臂控制等领域[6,23],并且取得 出真实回报函数是一个数学病态问题,因此,学习者 只需近似“还原”出适当的回报函数. 了良好的效果, Ng和Russell提出逆向增强学习后[,Abbeel 1 模型及符号约定 和Ng将增强学习引入学徒学习),策略π对应的 值函数可以表示成: 本文介绍的方法都是基于马尔可夫决策过程 00 (Markov desision process,MDP)模型的,关于MDP V()=w.E[∑yp(s)I]. 1=0 模型及基于MDP的机器学习可以参考相关文 式中:y为折合因子;等式右边除了”以外的部分称 献[14-15],在此仅以符号约定为目的简述如下: 为特征期望,记为以,作为算法中2种策略之间相近 MDP模型可以表示为五元组 程度的衡量标准 (S,A,Pa(·),y,R) 逆向增强学习通过使执行专家演示策略和次优策 式中:S是有限个状态的集合,设状态个数为N;A= 略时获得的回报值的差最大来求得各特征之间的权值 {a1,…,ae}是k个动作的集合;Pa(·)是在状态s ,因此,该学习问题可以归结为以下的最优化问题: 中执行动作a后的转移概率;Y是折合因子,范围在 maXx,w:Iwl2≤1T, [0,1]之间;R是状态到实数集的映射,表示状态所 8.t.V(mg)≥Vw(m)+T,i=1,…,t-1.(1) 对应的回报值. 式中:Tg为专家演示策略.T:为已有的第次迭代 策略πER→A,某策略的值函数可表示为 产生的策略. (s1)=E[R(s1)+yR(s2)+yR(s3)+…Iπ] 文献[5]中提出了基于逆向增强学习的学徒学习 Q函数定义为 迭代算法,并且提出2种方法,分别为边际最大化方法 Q"(s,a)=R(s)+yE-r()[(s')]. (max-margin method)和投影法(projection method).前 Bellman方程可表示为 者将专家策略的回报期望与目前次优策略回报期望的