和深度优先搜索算法进行求解. 在每次迭代中 , 如果存在一个不超过最优代

正在加载图片...

·14 智能系统学报第3卷和深度优先搜索算法进行求解.在每次迭代中，如效.而FPG借鉴了策略梯度增强学习的算法思想果存在一个不超过最优代价的解，那么找到解，否这类算法不需要估计规划状态-动作对的值，而是则，更新评价函数，求解过程重新开始.LDFS用估计整个搜索过程长期平均回报的梯度.FPG使用统一的符号元素为不同的模型定义，如确定的、非的是OL POMDP(在线部分可观察马尔可夫决策过程) 确定的MDP、GT模型等，并给出针对这些模型的策略梯度强化算法3).梯度的计算与控制与在决贝尔曼方程.在此基础上，给出一个一般化的算策点选择动作的参数有关，这些参数决定了策略、法，即Find-and-Revise.对于任何一个可采纳的评规划及系统.在梯度的影响下，调节参数的值使得估函数，算法在策略π下找到一个从初始状态s0出期望回报增加或初始状态的值增加. 发能够到达的状态s,在保证Res,(s>e情况下更 FPG的分解参数策略通过对每个动作应用参新状态的评价值，最后返回评价函数.LDFS作为数函数生成，此函数输入规划状态的描述，返回每这一算法框架的一个实例，主要通过2个循环来实个可取动作的概率分布.FPG的输入语言是mdp~ 现算法：一个循环位于状态s中的贪婪动作a上， sim可处理的全部语言，即在PDDL上进行了微小 a∈A(:另一个循环位于s的可能后继s’上.搜的扩展36).FPG使用了mdpsim的数据结构和函索中的端ip)节点是不一致的状态s、终止状态和数实现了一个规划域的模拟器.文中算法1完整的被标记为可解(solved)的状态.一个状态被标记为描述了FPG是怎样利用OL POMDE分解动作策略实可解的，即在s下的搜索没有找到不一致的状态.现规划的.算法的目的是从状态空间中抽取一条路如果s是一致的且在对s的后继状态s'搜索后标记径：1)第1个状态作为规划的第0时间步的初始状位为真，则s被标记为可解的，并记录动作a,s上态；2)与可取动作相连的感知机输入当前状态s 的其他动作将不再被搜索.否则，对下一贪婪动作的观察向量0：；3)每个感知机的网络计算其相对进行试验，一直到没有这样的动作存在时为止，更应动作的可取程度；4)选择一个规划动作；5)选新s值.算法结束时返回评估函数和贪婪策略择一个状态转移；6)规划器接收新的状态动作的试验结果表明，在某些模型问题中，如Max、全局回报同时生成即时梯度g=ne,;7)所有参数 AND/OR图中，LDFS并不比其他的一些算法表现在梯度g的导向下立即更新. 差，事实上，在某些方面LDFS的性能还略胜一筹. FPG规划器能对较大问题域生成好的策略，它 2.3FPG方法的缺点是其局部最优性、参数简化、观察范围减少导分解策略梯度规划器(factored policy gradient 致可能生成次优规划.梯度的变化次数是关于 planner,.FPGB]是为解决较大规划问题域而设计 POMDP混合时间(mixing time)的函数，随着状态的概率时序规划器，FPG与传统规划方法的区别主的增多会成指数级增长，怎样计算任意MDP的要有2点，首先，FPG是有导向的进行规划搜索， mixing time仍是一个开放问题利用在线梯度下降法寻找最优的参数规划.其次， 2.4基于LA0的方法策略被分解到每个动作中，从部分观察值映射到动经典的启发式搜索算法可找到以简单路径作可能执行的概率，反映出每个动作可取的程度 (A)、树或非循环图(AO`)形式的解.EicA. 与其他概率时序规划器不同，FPG在保证总 Hansen和Shlomo Zilberstein提出了一个新的一般 makespan最小的同时使成功到达目标的概率最大. 化的启发式搜索算法LAO`(generalization of FPG的目标是处理现实世界问题域并生成好 A0)2,列)，它是目前求解决策理论规划问题最为的策略，它通过以下几点能实现目标：1)使用梯度高效的算法之一.该算法结合了启发式搜索和动态下降法导向策略搜索：2)将策略分解成针对每个规划的优点，可以在不需评估整个状态空间的基础动作简单的近似策略；3)利用临界观察提取出每上寻找一条带有循环(1oop)的最优解.在2004年个策略：4)使用蒙特卡罗(Monte-Carlo)算法的思举办的第1届国际不确定智能规划比赛中，它取得想，存储器需求独立于状态空间的大小.而前面所了“overall,nomblocks/box”组的冠军介绍的规划算法将概率规划问题描述成为一个状态 AO'是AI中应用于状态空间搜索的一个著名空间，对长期价值效用和选择每个动作的代价进行启发式算法.AO算法找到的解是解图，形式化为评估4).它们的缺点是需要估计大量的状态·动树或更一般化的是一个非循环的图.AO'算法通过作对的值，即使算法修剪了大部分状态，但当问题从初始状态出发，逐渐构造一个解图的方法来解决域扩大时，相关状态会成指数级增长，使得算法失状态空间搜索问题.它可以理解为下列2个主要运 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net和深度优先搜索算法进行求解. 在每次迭代中 , 如果存在一个不超过最优代价的解 , 那么找到解 , 否则 , 更新评价函数 , 求解过程重新开始. LDFS 用统一的符号元素为不同的模型定义 , 如确定的、非确定的、MDP、GT 模型等 , 并给出针对这些模型的贝尔曼方程. 在此基础上 , 给出一个一般化的算法 , 即 Find2and2Revise. 对于任何一个可采纳的评估函数 , 算法在策略π下找到一个从初始状态 s0 出发能够到达的状态 s, 在保证 Res v (s) >ε情况下更新状态的评价值 , 最后返回评价函数. LDFS 作为这一算法框架的一个实例 , 主要通过 2 个循环来实现算法 : 一个循环位于状态 s 中的贪婪动作 a 上 , a ∈A (s) ; 另一个循环位于 s 的可能后继 s’上. 搜索中的端(tip) 节点是不一致的状态 s、终止状态和被标记为可解(solved) 的状态. 一个状态被标记为可解的 ,即在 s 下的搜索没有找到不一致的状态. 如果 s 是一致的且在对 s 的后继状态 s’搜索后标记位为真 , 则 s 被标记为可解的 , 并记录动作 a , s 上的其他动作将不再被搜索. 否则 , 对下一贪婪动作进行试验 , 一直到没有这样的动作存在时为止 , 更新 s 值. 算法结束时返回评估函数和贪婪策略. 试验结果表明, 在某些模型问题中, 如 Max、 AND/ OR 图中 , LDFS 并不比其他的一些算法表现差 , 事实上 , 在某些方面 LDFS 的性能还略胜一筹. 2. 3 F PG方法分解策略梯度规划器 (factored policy gradient planner , FPG) [33 ]是为解决较大规划问题域而设计的概率时序规划器 , FPG与传统规划方法的区别主要有 2 点 , 首先 , FPG 是有导向的进行规划搜索 , 利用在线梯度下降法寻找最优的参数规划. 其次 , 策略被分解到每个动作中 , 从部分观察值映射到动作可能执行的概率 , 反映出每个动作可取的程度. 与其他概率时序规划器不同 , FPG 在保证总 makespan 最小的同时使成功到达目标的概率最大. FPG的目标是处理现实世界问题域并生成好的策略 , 它通过以下几点能实现目标 : 1) 使用梯度下降法导向策略搜索 ; 2) 将策略分解成针对每个动作简单的近似策略 ; 3) 利用临界观察提取出每个策略 ; 4) 使用蒙特卡罗 (Monte2Carlo) 算法的思想 , 存储器需求独立于状态空间的大小. 而前面所介绍的规划算法将概率规划问题描述成为一个状态空间 , 对长期价值效用和选择每个动作的代价进行评估[ 34 ] . 它们的缺点是需要估计大量的状态 - 动作对的值 , 即使算法修剪了大部分状态 ,但当问题域扩大时 ,相关状态会成指数级增长 ,使得算法失效. 而 FPG借鉴了策略梯度增强学习的算法思想 , 这类算法不需要估计规划状态 - 动作对的值 , 而是估计整个搜索过程长期平均回报的梯度. FPG使用的是 OL POMDP (在线部分可观察马尔可夫决策过程) 策略梯度强化算法[35 ] . 梯度的计算与控制与在决策点选择动作的参数有关 , 这些参数决定了策略、规划及系统. 在梯度的影响下 , 调节参数的值使得期望回报增加或初始状态的值增加. FPG的分解参数策略通过对每个动作应用参数函数生成 , 此函数输入规划状态的描述 , 返回每个可取动作的概率分布. FPG 的输入语言是 mdp2 sim 可处理的全部语言 ,即在 PDDL 上进行了微小的扩展[ 36 ] . FPG 使用了 mdp sim 的数据结构和函数实现了一个规划域的模拟器. 文中算法 1 完整的描述了 FPG 是怎样利用 OL POMDP分解动作策略实现规划的. 算法的目的是从状态空间中抽取一条路径 : 1) 第 1 个状态作为规划的第 0 时间步的初始状态 ; 2) 与可取动作相连的感知机输入当前状态 st 的观察向量 ot ; 3) 每个感知机的网络计算其相对应动作的可取程度 ; 4) 选择一个规划动作 ; 5) 选择一个状态转移 ; 6) 规划器接收新的状态动作的全局回报同时生成即时梯度 gt = rt et ; 7) 所有参数在梯度 gt 的导向下立即更新. FPG规划器能对较大问题域生成好的策略 ,它的缺点是其局部最优性、参数简化、观察范围减少导致可能生成次优规划. 梯度的变化次数是关于 POMDP 混合时间(mixing time) 的函数 , 随着状态的增多会成指数级增长 , 怎样计算任意 MDP 的 mixing time 仍是一个开放问题. 2. 4 基于 LAO 3 的方法经典的启发式搜索算法可找到以简单路径 (A 3 ) 、树或非循环图 ( AO 3 ) 形式的解. Eric A. Hansen 和 Shlomo Zilberstein 提出了一个新的一般化的启发式搜索算法 LAO 3 ( generalization of AO 3 ) [ 12 ,37 ] , 它是目前求解决策理论规划问题最为高效的算法之一. 该算法结合了启发式搜索和动态规划的优点 , 可以在不需评估整个状态空间的基础上寻找一条带有循环 (loop) 的最优解. 在 2004 年举办的第 1 届国际不确定智能规划比赛中 , 它取得了“overall , non2blocks/ box”组的冠军[ 14 ] . AO 3 是 AI 中应用于状态空间搜索的一个著名启发式算法. AO 3 算法找到的解是解图 , 形式化为树或更一般化的是一个非循环的图. AO 3 算法通过从初始状态出发 , 逐渐构造一个解图的方法来解决状态空间搜索问题. 它可以理解为下列 2 个主要运 · 41 · 智能系统学报第 3 卷

<<向上翻页向下翻页>>

点击下载：【学术论文】概率规划的研究与发展