g ∶S ×A ×p →S 根据 MDP 模型为 M _中国高校课件下载中心

正在加载图片...

·22· 智能系统学报第2卷 g:S XA Xp→S 广.它首先学习系统模型，然后利用该模型计算当前根据MDP模型为M,构造确定性模型M的过策略的值，并且可以计算策略值相对于策略参数的程如下：梯度.在自行车问题中，EDA算法比PEGASUS收行为空间不变，状态由原来的S变成S':SX 敛要快，并且利用的策略也比较简单.但是，EDA 0,11°，也就是说，在M中，一个状态为向量(s,p1, 算法需要学习系统模型，并且认为系统模型的模型 p2,),s为M的状态.例如，假设在1时刻状态为是线性的，或者至少是局部线性的，这就限制了该算 (s,p1,p2,y,行为为a,则1+1时刻的状态为法的应用范围 (s+1,p2,p,,式中：s+1=g(s,a,p).对于某 4.3和SVM结合的策略搜索方法个策略π∈Π，其在策略空间Π的对应策略为π' 策略梯度方法由于方差过大，导致收敛速度很 (s,p1,p2,…=I(.最后，令R'(s,p1,p2,…=R 慢，即使很简单的问题，也要学习很长的时间.并且， ( 往往初始策略是随机给定的，因此学习的过程中，尤根据上述的构造方法，对于2个对应的策略π 其是学习的早期，学习体会选择一些不正确的行为， ∈和π'∈Π'有下式成立：在实际的试验中，这些不正确的行为可能会引起各 Vwπ)=Vr(I 38 种事故.基于上述2点，王学宁等把SVM引入到策这也就隐含了关系式opt(M,=op1(M', 略梯度学习方法中来，提出了一种混合式策略梯度 T),也就是说，根据模型M',在策略空间中寻找到增强学习方法1.在该方法中，初始策略不是随机的最优策略，其对应策略也是在原问题中的最优策给定的，而是根据先验知识，或者人为控制，产生一略.在确定性模型中，因为状态转移是确定性的，所些样本点，然后根据这些样本点，利用SVM方法产以如果给定策略π∈Π'，状态s∈S',那么此时刻以生一个初始策略.这个初始策略往往是可行的，但不后的所有状态也就完全确定了.因此计算该状态值是最优的，因此，再利用策略梯度方法对这个初始策 V(s)也就相应的简单了.假设问题有m个初始状略进行优化.再利用优化之后的策略产生一些样本态，第1个初始状态记为s,则策略r的值可用下点，根据这些样本点，利用SVM方法产生一个初始式计算：策略，再利用策略梯度方法进行优化，如此循环往 (39 复，使得策略达到一个局部最优解」 m 4.4层次化策略梯度方法使得优化指标n最大的策略，也就是使得V)最大对于大规模的问题，比如说状态和行为都是连的策略，因此，现在问题转化为寻找最优策略续的，直接求解比较困难，甚至是无法求解.但是如 '=arg maxv() 40 果把问题分解成若干个小问题，往往就能迎刃而解，为此需要知道求解该梯度有2种方法。一这就是层次化增强学习方法的基本思想.在cha 种是数值方法，一种是解析方法).数值方法就是 vamzadeh等提出层次化策略梯度(Hierarchical Policy Gradient)算法之前36]，已经有很多关于层次给每个参数一个小小的扰动，根据这个扰动来计算梯度，梯度的第1个分量为化值函数方法的文献B7. ay@-L0±el:'0.l Chavamzadeh等提出的HPG算法中，把问题 80 2a 分为2层，下层是分解后的小问题，上层是在某一时式中：e=0,0,…1,0,…,0,即第i个分量为1，刻选择需要解决哪个小问题.利用策略梯度算法进其他分量为0的向量，其维数和8相同.解析方法比行下层问题的求解，而利用值函数方法进行上层的较繁琐，这里不在赘述，详情请参看文献[31]：学习.该方法可以有效地解决大规模问题相比较而言，PEGAUSU算法收敛速度比其他 5结论算法都快，但是，该算法只能应用到仿真试验中，目前，己经有利用PEGASUS算法成功控制直升机的尽管策略梯度增强学习方法从1992年已经被例子z],Strens等利用成对比较法(paired compari- 提出，但是，到了2000年前后，才逐渐引起人们的注 sions)提高了PEGASUS算法的性能，并且解决了意.虽然刚刚经过几年的发展时间，己经有众多的策 “过拟合”的问题3 略梯度算法被提出.但是，由于策略梯度方法的收敛 4.2本质动力学算法速度太慢，导致策略梯度还不能应用到大规模的问本质动力学算法实质上是线性二次调节器的推题之中因此，策略梯度算法中需要研究的就是如何 @1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.netg ∶S ×A ×p →S 根据 MDP 模型为 M ,构造确定性模型 M′的过程如下 : 行为空间不变 , 状态由原来的 S 变成 S′: S × [0 ,1 ] ∞ ,也就是说 ,在 M′中 ,一个状态为向量(s, p1 , p2 , …) ,s 为 M 的状态. 例如 ,假设在 t 时刻状态为 (st , p1 , p2 , …) ,行为为 at , 则 t + 1 时刻的状态为 (st + 1 , p2 , p3 , …) ,式中 :st + 1 = g (st , at , p1 ) . 对于某个策略π∈∏,其在策略空间 ∏′的对应策略为π′ (s, p1 , p2 , …) =π(s) . 最后 ,令 R′(s, p1 , p2 , …) = R (s) . 根据上述的构造方法 ,对于 2 个对应的策略π ∈∏和π′∈∏′,有下式成立 : V M (π) = V M′(π′) . (38) 这也就隐含了关系式 opt ( M , ∏) = opt ( M′, ∏′) ,也就是说 ,根据模型 M′,在策略空间中寻找到的最优策略 ,其对应策略也是在原问题中的最优策略. 在确定性模型中 ,因为状态转移是确定性的 ,所以如果给定策略π∈∏′,状态 s ∈S′,那么此时刻以后的所有状态也就完全确定了. 因此计算该状态值 V π M′(s) 也就相应的简单了. 假设问题有 m 个初始状态 ,第 i 个初始状态记为 s ( i) 0 ,则策略π的值可用下式计算 : V M′(π) ≈ 1 m ∑ m i = 1 V π M′(s ( i) 0 ) . (39) 使得优化指标η最大的策略 ,也就是使得 V (π) 最大的策略 ,因此 ,现在问题转化为寻找最优策略 π3 = arg max π V (π) . (40) 为此需要知道 5V 5θ,求解该梯度有 2 种方法 ,一种是数值方法 ,一种是解析方法[31 ] . 数值方法就是给每个参数一个小小的扰动 ,根据这个扰动来计算梯度 ,梯度的第 i 个分量为 5V (θ) 5θi = V (θ+αei) - V (θ- αei) 2α . 式中 :ei = (0 ,0 , …, 1 , 0 , …, 0) ,即第 i 个分量为 1 , 其他分量为 0 的向量 ,其维数和θ相同. 解析方法比较繁琐 ,这里不在赘述 ,详情请参看文献[31 ]. 相比较而言 ,PEGAUSU 算法收敛速度比其他算法都快 ,但是 ,该算法只能应用到仿真试验中. 目前 ,已经有利用 PEGASUS 算法成功控制直升机的例子[ 32 ] . Strens 等利用成对比较法(paired compari2 sions) 提高了 PEGASUS 算法的性能 ,并且解决了 “过拟合”的问题[ 33 ] . 4. 2 本质动力学算法本质动力学算法实质上是线性二次调节器的推广. 它首先学习系统模型 ,然后利用该模型计算当前策略的值 ,并且可以计算策略值相对于策略参数的梯度. 在自行车问题中 , EDA 算法比 PEGASUS 收敛要快 ,并且利用的策略也比较简单[34 ] . 但是 ,EDA 算法需要学习系统模型 ,并且认为系统模型的模型是线性的 ,或者至少是局部线性的 ,这就限制了该算法的应用范围. 4. 3 和 SVM 结合的策略搜索方法策略梯度方法由于方差过大 ,导致收敛速度很慢 ,即使很简单的问题 ,也要学习很长的时间. 并且 , 往往初始策略是随机给定的 ,因此学习的过程中 ,尤其是学习的早期 ,学习体会选择一些不正确的行为 , 在实际的试验中 ,这些不正确的行为可能会引起各种事故. 基于上述 2 点 ,王学宁等把 SVM 引入到策略梯度学习方法中来 ,提出了一种混合式策略梯度增强学习方法[35 ] . 在该方法中 ,初始策略不是随机给定的 ,而是根据先验知识 ,或者人为控制 ,产生一些样本点 ,然后根据这些样本点 ,利用 SVM 方法产生一个初始策略. 这个初始策略往往是可行的 ,但不是最优的 ,因此 ,再利用策略梯度方法对这个初始策略进行优化. 再利用优化之后的策略产生一些样本点 ,根据这些样本点 ,利用 SVM 方法产生一个初始策略 ,再利用策略梯度方法进行优化 ,如此循环往复 ,使得策略达到一个局部最优解. 4. 4 层次化策略梯度方法对于大规模的问题 ,比如说状态和行为都是连续的 ,直接求解比较困难 ,甚至是无法求解. 但是如果把问题分解成若干个小问题 ,往往就能迎刃而解. 这就是层次化增强学习方法的基本思想. 在 Cha2 vamzadeh 等提出层次化策略梯度 ( Hierarchical Policy Gradient) 算法之前[36 ] ,已经有很多关于层次化值函数方法的文献[37 - 39 ] . Chavamzadeh 等提出的 HPG 算法中 ,把问题分为 2 层 ,下层是分解后的小问题 ,上层是在某一时刻选择需要解决哪个小问题. 利用策略梯度算法进行下层问题的求解 ,而利用值函数方法进行上层的学习. 该方法可以有效地解决大规模问题. 5 结论尽管策略梯度增强学习方法从 1992 年已经被提出 ,但是 ,到了 2000 年前后 ,才逐渐引起人们的注意. 虽然刚刚经过几年的发展时间 ,已经有众多的策略梯度算法被提出. 但是 ,由于策略梯度方法的收敛速度太慢 ,导致策略梯度还不能应用到大规模的问题之中. 因此 ,策略梯度算法中需要研究的就是如何 ·22 · 智能系统学报第 2 卷

<<向上翻页向下翻页>>

点击下载：【学术论文】增强学习中的直接策略搜索方法综述