东北师范大学：【学术论文 - 智能系统】规划识别的研究及其应用（谷文祥、李丽、李丹丹）

团购合买资源类别：文库，文档格式：PDF，文档页数：15，文件大小：730.5KB

第2卷第1期智能系统学报 Vol.2 Ne 1 2007年2月 CAAI Transactions on Intelligent Systems Fcb.2007 规划识别的研究及其应用谷文祥，李丽，李丹丹 (东北师范大学计算机学院，吉林长春130117) 摘要：规划识别是人工智能研究领域的一个重要分支.由于近年来的广泛应用，规划识别的重要性被越来越多的学者所认同.对规划识别领域的大量文献进行广泛而深入研究，从整体上阐述了规划识别问题，较为全面地介绍了规划识别的发展历程分类、方法以及应用，并着重介绍了规划识别目前较为流行的技术方法和热门应用，公开了几个未解决的问题关键词：人工智能：规划识别：智能规划中图分类号：TP18文献标识码：A文章编号：16734785(2007)01-0001-15 Research and a pplication of plan recognition GU Wemxiang,LI Li,LI Dandan (School of Computer,Northeast Normal University,Changchun 130117,China) Abstract:Plan recognition is an important part of artificial intelligence.As its extensive application in re- cent years,plan recognition has been focused by more and more researchers.Based on the comprehensive and profound research on large numbers of references in the domain of plan recognition,this paper expati- ates on the problem of plan recognition in the mass,and introduces the development,classification,ap- proaches and application.Moreover,the popular techniques and hot application of plan recognition are em- phasized at present.Finally,several open problems unsettled are provided. Key words:artificial intelligence;plan recognition;intelligent planning 规划识别是人工智能中一个活跃的研究领域。一种基于语法分析的规划识别理论s1.同年，Car 规划识别问题是指从观察到的某一智能体的动作或berry将Dempster-Shafer理论应用到规划识别动作效果出发，推导出该智能体目标/规划的过中6，通过多个证据来计算假设规划的联合支持度. 程口.早期的规划识别是基于规则推理的，研究者试 1991年，Charniak和Goldman构建了规划识别的图与推理规则保持一致，以此来掌握规划识别的特第一个概率模型7】，并将贝叶斯网络应用到规划性.而如今很多推理技术都在规划识别中有所应用. 识别中，这使得规划识别方法向更广泛的应用又迈 Schmidt,Sridharan和Goodson在l978年第进了一步.1999年，Goldman等人又提出了基于规一次将规划识别作为一个研究问题提出).他们把划执行的规划识别方法山，该方法从一个新的角度心理学实验与Cohen等人的提供人类行动证据的出发来解决规划的识别问题.之后的几年里，Gold 实验)相结合，用于推理其他智能体的规划及目标. man等人对这种方法不断的修改，并将其应用到了 Charniak和McDemott在1985年提出进行规划识多种领域，特别是敌对环境下的规划识别. 别的最好方式是溯因).他认为这样才能推导出最规划识别从提出到现在经过了近30年的发展合理的目标解释.1986年，Kautz和Allen第一次形历程，其方法也日趋成熟.目前，规划识别已经成为式化了规划识别理论！，这是规划识别研究的一个人工智能中比较热门的研究方向之一里程碑.1990年Vilain以Kautz理论为基础提出了 1 规划识别分类收稿日期：20060722. 规划识别有多种分类方法，概括起来有如下几基金项目：国家自然科学基金资助项目(60573067,60473042) 种 1994-2009 China Academie Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

第 2 卷第 1 期智能系统学报 Vol. 2 №. 1 2007 年 2 月 CAA I Transactions on Intelligent Systems Feb. 2007 规划识别的研究及其应用谷文祥 , 李丽 , 李丹丹 (东北师范大学计算机学院 ,吉林长春 130117) 摘要 :规划识别是人工智能研究领域的一个重要分支. 由于近年来的广泛应用 ,规划识别的重要性被越来越多的学者所认同. 对规划识别领域的大量文献进行广泛而深入研究 ,从整体上阐述了规划识别问题 ,较为全面地介绍了规划识别的发展历程、分类、方法以及应用 ,并着重介绍了规划识别目前较为流行的技术方法和热门应用 ,公开了几个未解决的问题. 关键词 :人工智能 ;规划识别 ;智能规划中图分类号 : TP18 文献标识码 :A 文章编号 :167324785 (2007) 0120001215 Research and application of plan recognition GU Wen2xiang , L I Li , L I Dan2dan (School of Computer , Northeast Normal University , Changchun 130117 , China) Abstract : Plan recognition is an important part of artificial intelligence. As its extensive application in re2 cent years , plan recognition has been focused by more and more researchers. Based on t he comprehensive and profound research on large numbers of references in t he domain of plan recognition , t his paper expati2 ates on t he problem of plan recognition in the mass , and introduces t he development , classification , ap2 proaches and application. Moreover , t he pop ular techniques and hot application of plan recognition are em2 p hasized at present. Finally , several open problems unsettled are provided. Keywords :artificial intelligence ; plan recognition ; intelligent planning 收稿日期 :2006207222. 基金项目 :国家自然科学基金资助项目(60573067 ,60473042) . 规划识别是人工智能中一个活跃的研究领域. 规划识别问题是指从观察到的某一智能体的动作或动作效果出发 ,推导出该智能体目标/ 规划的过程[1 ] . 早期的规划识别是基于规则推理的 ,研究者试图与推理规则保持一致 ,以此来掌握规划识别的特性. 而如今很多推理技术都在规划识别中有所应用. Schmidt , Sridharan 和 Goodson 在 1978 年第一次将规划识别作为一个研究问题提出[2 ] . 他们把心理学实验与 Cohen 等人的提供人类行动证据的实验[ 3 ]相结合 ,用于推理其他智能体的规划及目标. Charniak 和 McDemott 在 1985 年提出进行规划识别的最好方式是溯因[3 ] . 他认为这样才能推导出最合理的目标解释. 1986 年 , Kautz 和 Allen 第一次形式化了规划识别理论[4 ] ,这是规划识别研究的一个里程碑. 1990 年 Vilain 以 Kautz 理论为基础提出了一种基于语法分析的规划识别理论[5 ] . 同年 ,Car2 berry 将 Demp ster2Shafer 理论应用到规划识别中[6 ] ,通过多个证据来计算假设规划的联合支持度. 1991 年 ,Charniak 和 Goldman 构建了规划识别的第一个概率模型[7 - 8 ] ,并将贝叶斯网络应用到规划识别中 ,这使得规划识别方法向更广泛的应用又迈进了一步. 1999 年 , Goldman 等人又提出了基于规划执行的规划识别方法[1 ] ,该方法从一个新的角度出发来解决规划的识别问题. 之后的几年里 , Gold2 man 等人对这种方法不断的修改 ,并将其应用到了多种领域 ,特别是敌对环境下的规划识别. 规划识别从提出到现在经过了近 30 年的发展历程 ,其方法也日趋成熟. 目前 ,规划识别已经成为人工智能中比较热门的研究方向之一[9 - 10 ] . 1 规划识别分类规划识别有多种分类方法 ,概括起来有如下几种 :

·2 智能系统学报第2卷 1.1根据智能体在规划识别中的作用全掌握动作的前提、效果或动作的执行概率等情况，这是规划识别最常用的分类方法.Cohen,Per 由于无完整领域知识的规划识别复杂度较高， rault和Allen在1981年提出了规划识别的这种分目前的规划器大都假设识别器具有完整的领域知类方法，当时的分类中包括2种识别，分别为洞识孔式规划识别和协作式规划识别.2001年Geib和 1.4 根据所识别的规划是否有错误 Goldman又在此基础上增加了对手式规划识别2]. 1)对无误规划的规划识别：识别器所识别的智 1)洞孔式规划识别：智能体不关心或者不知道能体在进行规划的过程中，所执行的每一个动作对识别器在观察它的动作.在识别器识别的过程中，智于到达目标都是必要的能体不会为识别器提供帮助，也不会刻意阻碍识别 2)对有误规划的规划识别：识别器所识别的智器对它进行识别能体在进行规划的过程中，执行了一些错误动作这 2)协作式规划识别：智能体积极配合识别器的些错误动作，或者是智能体本身能力限制造成的，或识别，智能体所做的动作有意让识别器理解者是智能体为了干扰识别器对它的识别而特意执行 3)对手式规划识别：智能体所做的动作对识别的干扰性动作」方造成了威胁，破坏了识别方的正常规划，而且智能所识别的规划是否是有误规划，还要依据识别体还会阻止或干扰识别器对它的识别. 背景及经验来判断.与实际情况更接近的是假设所这3种规划识别都有其自身的特点，因此它们识别的规划存在错误.但为了简便，目前大多数的规的应用领域也不尽相同.洞孔式的规划识别主要应划识别方法都是在假设所识别的规划为无误规划的用在生产监控、智能用户接口等领域.协作式规划识前提下进行的。别主要应用在机器人足球、故事理解等领域：对手式 1.5根据所识别的动作序列是否完全可观察规划识别则应用在入侵检测、军事指挥等敌对的环 1)完全可观察规划识别：识别器能够观察到所境下.在这3种规划识别中，较为常用的是洞孔式规识别智能体的全部动作及动作的执行顺序划识别 2)部分可观察规划识别：识别器不能观察到所 1.2根据规划识别是否具有规划库识别智能体的全部动作.这可能是由于识别器遗漏 1)有库的规划识别：用分层任务网络、事件层、了，也可能动作本身是不可观察的.这种情况通常用知识图或其他方式预先描述规划，并用这些规划作动作的效果来进行识别为规划识别的依据完全可观察的规划识别比部分可观察的规划识 2)无库的规划识别：识别器不需要根据预先给别要相对简单，通常情况下人们都是假设所观察的定的规划就能给出识别结果动作序列是完全可观察的，以降低识别的难度.但目前大部分的规划识别方法都是有库的规划识是，在现实生活中，很多情况是无法完全观察到的，别.该方法直观、易于理解，但用这种方法进行识别尤其是识别方与被识别方是敌对关系的情况下，想前，需要做大量的建立规划库的准备，在搜索过程中要得到对方的全部动作信息更是无法做到，因此，部常常会消耗大量时间或空间.无库的规划识别突破分可观察规划识别有更高的研究价值.从某种角度了必须有特定规划库才能进行规划识别的限制，现来看，完全可观察规划识别是部分可观察规划识别有的基于无库规划识别的方法很少，主要是以Jun 的特例 Hong的基于目标图分析的规划识别方法.41和 1.6根据观察是否可信赖 Minghao Yin的基于回归图的规划识别方法1s]为 1)观察可信赖的规划识别：所观察到的动作就代表.无库规划识别方法可以识别出新的规划因此是实际发生了的动作，对这些动作所做的规划识别很适合入侵检测、战术规划识别等智能体处于敌对就是观察可信赖的规划识别。状态的规划识别问题.但是，由于这种方法还不完 2)观察不可信赖的规划识别：在这种识别中，有善，不能判断规划假设的优劣，可应用领域还比较狭些动作不能完全肯定是否真实发生了，它们的发生农带有一种可能性.这种动作通常都被赋予一个可信 1.3根据规划识别是否有完整的领域知识度，以确定该动作可信赖的程度 1)有完整领域知识的规划识别：识别器完全掌由于识别器的疏忽或某些情况的干扰，识别器握动作的前提、效果或动作的执行概率等情况可能无法确定一些动作是否真实发生，因此导致了 2)无完整领域知识的规划识别：识别器不能完观察不可信赖.为使问题求解更容易，或者某些领域 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

111 根据智能体在规划识别中的作用这是规划识别最常用的分类方法. Cohen , Per2 rault 和 Allen 在 1981 年提出了规划识别的这种分类方法[11 ] ,当时的分类中包括 2 种识别 ,分别为洞孔式规划识别和协作式规划识别. 2001 年 Geib 和 Goldman 又在此基础上增加了对手式规划识别[ 12 ] . 1) 洞孔式规划识别 :智能体不关心或者不知道识别器在观察它的动作. 在识别器识别的过程中 ,智能体不会为识别器提供帮助 ,也不会刻意阻碍识别器对它进行识别. 2) 协作式规划识别 :智能体积极配合识别器的识别 ,智能体所做的动作有意让识别器理解. 3) 对手式规划识别 :智能体所做的动作对识别方造成了威胁 ,破坏了识别方的正常规划 ,而且智能体还会阻止或干扰识别器对它的识别. 这 3 种规划识别都有其自身的特点 ,因此它们的应用领域也不尽相同. 洞孔式的规划识别主要应用在生产监控、智能用户接口等领域. 协作式规划识别主要应用在机器人足球、故事理解等领域 ;对手式规划识别则应用在入侵检测、军事指挥等敌对的环境下. 在这 3 种规划识别中 ,较为常用的是洞孔式规划识别. 112 根据规划识别是否具有规划库 1) 有库的规划识别 :用分层任务网络、事件层、知识图或其他方式预先描述规划 ,并用这些规划作为规划识别的依据. 2) 无库的规划识别 :识别器不需要根据预先给定的规划就能给出识别结果. 目前大部分的规划识别方法都是有库的规划识别. 该方法直观、易于理解 ,但用这种方法进行识别前 ,需要做大量的建立规划库的准备 ,在搜索过程中常常会消耗大量时间或空间. 无库的规划识别突破了必须有特定规划库才能进行规划识别的限制 ,现有的基于无库规划识别的方法很少 ,主要是以 J un Hong 的基于目标图分析的规划识别方法[13 - 14 ] 和 Minghao Yin 的基于回归图的规划识别方法[15 ] 为代表. 无库规划识别方法可以识别出新的规划 ,因此很适合入侵检测、战术规划识别等智能体处于敌对状态的规划识别问题. 但是 ,由于这种方法还不完善 ,不能判断规划假设的优劣 ,可应用领域还比较狭窄. 113 根据规划识别是否有完整的领域知识 1) 有完整领域知识的规划识别 :识别器完全掌握动作的前提、效果或动作的执行概率等情况. 2) 无完整领域知识的规划识别 :识别器不能完全掌握动作的前提、效果或动作的执行概率等情况. 由于无完整领域知识的规划识别复杂度较高 , 目前的规划器大都假设识别器具有完整的领域知识. 114 根据所识别的规划是否有错误 1) 对无误规划的规划识别 :识别器所识别的智能体在进行规划的过程中 ,所执行的每一个动作对于到达目标都是必要的. 2) 对有误规划的规划识别 :识别器所识别的智能体在进行规划的过程中 ,执行了一些错误动作. 这些错误动作 ,或者是智能体本身能力限制造成的 ,或者是智能体为了干扰识别器对它的识别而特意执行的干扰性动作. 所识别的规划是否是有误规划 ,还要依据识别背景及经验来判断. 与实际情况更接近的是假设所识别的规划存在错误. 但为了简便 ,目前大多数的规划识别方法都是在假设所识别的规划为无误规划的前提下进行的. 115 根据所识别的动作序列是否完全可观察 1) 完全可观察规划识别 :识别器能够观察到所识别智能体的全部动作及动作的执行顺序. 2) 部分可观察规划识别 :识别器不能观察到所识别智能体的全部动作. 这可能是由于识别器遗漏了 ,也可能动作本身是不可观察的. 这种情况通常用动作的效果来进行识别. 完全可观察的规划识别比部分可观察的规划识别要相对简单. 通常情况下人们都是假设所观察的动作序列是完全可观察的 ,以降低识别的难度. 但是 ,在现实生活中 ,很多情况是无法完全观察到的 , 尤其是识别方与被识别方是敌对关系的情况下 ,想要得到对方的全部动作信息更是无法做到 ,因此 ,部分可观察规划识别有更高的研究价值. 从某种角度来看 ,完全可观察规划识别是部分可观察规划识别的特例. 116 根据观察是否可信赖 1) 观察可信赖的规划识别 :所观察到的动作就是实际发生了的动作 ,对这些动作所做的规划识别就是观察可信赖的规划识别. 2) 观察不可信赖的规划识别 :在这种识别中 ,有些动作不能完全肯定是否真实发生了 ,它们的发生带有一种可能性. 这种动作通常都被赋予一个可信度 ,以确定该动作可信赖的程度. 由于识别器的疏忽或某些情况的干扰 ,识别器可能无法确定一些动作是否真实发生 ,因此导致了观察不可信赖. 为使问题求解更容易 ,或者某些领域 ·2 · 智能系统学报第 2 卷

第1期谷文祥，等：规划识别的研究及其应用。3 不存在不可信赖的动作，通常的规划识别都假设观 20世纪70年代末提出的.人类和智能计算机常常察是可信赖的需要得出这样的一些结论：某些具有特定属性或关 2规划识别方法系的对象是仅有的满足这些关系的对象.McCarthy 的限定理论就形式化了这种推理.由于限定理论是就规划识别方法而言，规划识别可分为基于一在一阶逻辑上添加一些限定规则，因此，可以用传统致的规划识别和基于概率的规划识别.“一致”主要的逻辑语言来形式化非单调逻辑.而规划识别问题是指与推理规则保持一致，而加入概率推理的即为通常为非单调的逻辑推理问题，因而可以将限定理基于概率的规划识别.下面介绍一些目前较为流行论与规划识别问题相结合. 的规划识别方法 Kautz的规划识别问题就是求解观察动作的最 2.1基于事件层的规划识别小规划集，这与限定理论的思想很相似.但由于限定 1986年Kautz和Alen提出了一种通用的规理论包含二阶逻辑，计算十分复杂，因此，Kautz只划识别模型，.这一模型几乎囊括了规划识别的所是基于限定理论提出了3个假设（穷尽假设、互斥假有子任务，是规划识别的第一个形式化理论.在该理设、使用部件假设)，并没有直接用限定的方法来求论中，每一个被观察动作都是一个或多个高层规划解规划识别问题. 的一部分，规划识别任务是最小化这些高层动作，并由于McCarthy限定理论难于计算，许多学者用这些高层动作来解释观察动作集合· 在其计算方面都做了深入的研究.Lifschitz根据看他们将动作和规划统称为事件，用事件层来表待谓词最小化的角度不同，提出了逐点限定.Doher- 示已知的可能规划.在事件层中，根节点为高层动 ty和Lukaszewicz提出了一种将二阶限定公式降为作，其他动作均依赖于高层动作.用End表示具有逻辑等效的一阶公式的新方法，用逐点限定的一阶独立意义、不需要进一步推导的规划，抽象于End 形式直接计算限定，该方法简化了限定计算的难度的事件都是End事件.事件层中包括： 2002年，姜云飞和马宁在Kautz规划识别的基 1)一元事件类型谓词集(H); 础上，结合以上2种方法，提出了基于限定的规划识 2)抽象公理集(HA); 别问题求解的新方法2o,.根据Kautz规划识别，姜 3)基本事件类型谓词集(H); 云飞、马宁给出了分解和枚举的概念，并给出了限定 4)分解公理集(H); 求解规划识别问题的算法.以溯因理论为基础，他们 5)通用公理集(HG). 给出了规划识别的模型，即一个规划识别问题是一该规划识别模型还包含4种假设：穷尽假设个三元组,其中G是原子集，叫做观察 (EXA)、互斥假设(DIA)、使用部件假设(CUA)及集；P是原子集，叫做规划集；T是背景理论.由一个最小基数假设(MCA).前3种假设都是以McCar- 观察g(g∈G识别出的规划D(D三P)定义为 thy的限定理论为基础的.当观察到某一动作序列 1)T UD =8: 时，根据4种假设识别器会对其中的每个动作都生 2)T UD false: 成相应的解释图（解释图表示由某一动作推导出的 3)D是满足上述条件的极小集」各种事件及事件间的关系)，并找出这些动作的所有根据限定与规划识别的关系，他们给出定理，用可能的合并结果.最后，选择合并后End事件最少以说明对观察到的现象做限定获得的解集与由观察的解释图或解释图集合作为规划识别的输出。到的现象求出的最小规划集是一样的，这种规划识别方法具有丰富的表达能力，可以姜云飞等借鉴Kautz的规划识别方法，首次提处理动作间的时序关系及不完全观察动作序列，并出了用限定直接求解规划识别问题，弥补了Kautz 能够很好地识别偏序规划.但由于识别中采用了最规划识别的不足，增强了规划识别的容错能力小覆盖模型，并认为所有事件出现的可能性都是一 2.3基于规划知识图的规划识别样的，使得识别结果过于武断.该识别还要求所识别 2002年，姜云飞、马宁在Kautz规划识别的基的智能体不能犯错误，识别所依据的规划库是完整础上提出了基于规划知识图的规划识别2)，他们将的，因此也就缩小了该识别方法的应用范围6.1」 Kautz的事件层改造为更简便，更直观，更易于操作 2.2基于限定理论的规划识别的规划表示方法—规划知识图.规划知识图是一限定理论18.1是一种非单调推理方法，也是研个非循环的与或图，由代表规划的节点集合组成.节究得最早的非单调推理方法之一，是McCarthy在点间由连接符连接，表示事件之间的整体与部分、具 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

不存在不可信赖的动作 ,通常的规划识别都假设观察是可信赖的. 2 规划识别方法就规划识别方法而言 ,规划识别可分为基于一致的规划识别和基于概率的规划识别.“一致”主要是指与推理规则保持一致 ,而加入概率推理的即为基于概率的规划识别. 下面介绍一些目前较为流行的规划识别方法. 211 基于事件层的规划识别 1986 年 Kautz 和 Allen 提出了一种通用的规划识别模型[4 ] . 这一模型几乎囊括了规划识别的所有子任务 ,是规划识别的第一个形式化理论. 在该理论中 ,每一个被观察动作都是一个或多个高层规划的一部分 ,规划识别任务是最小化这些高层动作 ,并用这些高层动作来解释观察动作集合. 他们将动作和规划统称为事件 ,用事件层来表示已知的可能规划. 在事件层中 ,根节点为高层动作 ,其他动作均依赖于高层动作. 用 End 表示具有独立意义、不需要进一步推导的规划 ,抽象于 End 的事件都是 End 事件. 事件层中包括 : 1) 一元事件类型谓词集( HE) ; 2) 抽象公理集( HA ) ; 3) 基本事件类型谓词集( HEB ) ; 4) 分解公理集( HD ) ; 5) 通用公理集( HG) . 该规划识别模型还包含 4 种假设 :穷尽假设 ( EXA) 、互斥假设 (DJ A) 、使用部件假设 (CUA) 及最小基数假设 (MCA) . 前 3 种假设都是以 McCar2 t hy 的限定理论为基础的. 当观察到某一动作序列时 ,根据 4 种假设识别器会对其中的每个动作都生成相应的解释图(解释图表示由某一动作推导出的各种事件及事件间的关系) ,并找出这些动作的所有可能的合并结果. 最后 ,选择合并后 End 事件最少的解释图或解释图集合作为规划识别的输出. 这种规划识别方法具有丰富的表达能力 ,可以处理动作间的时序关系及不完全观察动作序列 ,并能够很好地识别偏序规划. 但由于识别中采用了最小覆盖模型 ,并认为所有事件出现的可能性都是一样的 ,使得识别结果过于武断. 该识别还要求所识别的智能体不能犯错误 ,识别所依据的规划库是完整的 ,因此也就缩小了该识别方法的应用范围[16 - 17 ] . 212 基于限定理论的规划识别限定理论[18 - 19 ]是一种非单调推理方法 ,也是研究得最早的非单调推理方法之一 ,是 McCart hy 在 20 世纪 70 年代末提出的. 人类和智能计算机常常需要得出这样的一些结论 :某些具有特定属性或关系的对象是仅有的满足这些关系的对象. McCart hy 的限定理论就形式化了这种推理. 由于限定理论是在一阶逻辑上添加一些限定规则 ,因此 ,可以用传统的逻辑语言来形式化非单调逻辑. 而规划识别问题通常为非单调的逻辑推理问题 ,因而可以将限定理论与规划识别问题相结合. Kautz 的规划识别问题就是求解观察动作的最小规划集 ,这与限定理论的思想很相似. 但由于限定理论包含二阶逻辑 ,计算十分复杂 ,因此 , Kautz 只是基于限定理论提出了 3 个假设(穷尽假设、互斥假设、使用部件假设) ,并没有直接用限定的方法来求解规划识别问题. 由于 McCart hy 限定理论难于计算 ,许多学者在其计算方面都做了深入的研究. Lifschitz 根据看待谓词最小化的角度不同 ,提出了逐点限定. Doher2 ty 和 Lukaszewicz 提出了一种将二阶限定公式降为逻辑等效的一阶公式的新方法 ,用逐点限定的一阶形式直接计算限定 ,该方法简化了限定计算的难度. 2002 年 ,姜云飞和马宁在 Kautz 规划识别的基础上 ,结合以上 2 种方法 ,提出了基于限定的规划识别问题求解的新方法[ 20 ] . 根据 Kautz 规划识别 ,姜云飞、马宁给出了分解和枚举的概念 ,并给出了限定求解规划识别问题的算法. 以溯因理论为基础 ,他们给出了规划识别的模型 ,即一个规划识别问题是一个三元组 ,其中 G 是原子集 ,叫做观察集; P 是原子集 ,叫做规划集; T 是背景理论. 由一个观察 g ( g ∈G) 识别出的规划 D ( D Α P) 定义为 1) T ∪D| = g; 2) T ∪D| ≠false ; 3) D 是满足上述条件的极小集. 根据限定与规划识别的关系 ,他们给出定理 ,用以说明对观察到的现象做限定获得的解集与由观察到的现象求出的最小规划集是一样的. 姜云飞等借鉴 Kautz 的规划识别方法 ,首次提出了用限定直接求解规划识别问题 ,弥补了 Kautz 规划识别的不足 ,增强了规划识别的容错能力. 213 基于规划知识图的规划识别 2002 年 ,姜云飞、马宁在 Kautz 规划识别的基础上提出了基于规划知识图的规划识别[21 ] . 他们将 Kautz 的事件层改造为更简便 ,更直观 ,更易于操作的规划表示方法 ———规划知识图. 规划知识图是一个非循环的与或图 ,由代表规划的节点集合组成. 节点间由连接符连接 ,表示事件之间的整体与部分、具第 1 期谷文祥 ,等 :规划识别的研究及其应用 ·3 ·

4 智能系统学报第2卷体与抽象的关系加了一个概率p(记作p(x→)，用此概率及语言他们在规划知识图中添加了支持程度的概念模型中的依赖关系，可以将语法分析分类，或删除不支持程度是指一个规划（事件）的出现使另一个规划必要的分析.该方法特别适合基于规则活动的识别 (事件)出现的可能性.由己观察到的动作，可能推出 Moore和Essa采用Earley-Stolcke算法来决定最多种结果.Kautz会选择End事件最少的推理结果大可能的语义推理结果.他们将错误分为3种：替换作为识别的最终结果；姜云飞等则认为，不同动作在错误插入错误和删除错误，并提出新的分析策略来满足条件的规划内的重要程度是不一样的，所以对进行错误检测和恢复，以此来提高规划识别的成功规划出现可能性的支持程度也不同，因此，根据支持概率.Moore和Essa以二十一点牌为例，描述了对程度来判断识别的最终结果，会与实际情况更为接视频中多任务活动的识别过程近利用SCFG方法进行规划识别能够从多个对由于该方法添加了支持程度的概念，因此，与象和任务的长期行为序列中有效地提取出高层行 Kautz规划识别相比，其结果更合理；方法中对知识为.通过监控还可以对某一对象形成经验性评估，方图采用了宽度优先搜索，比Kautz规划识别更简捷. 便进一步的识别在基于规划知识图的规划识别方法之上，谷文 2.5基于规划执行的规划识别祥、李杨等人又提出了一种带标记的反向搜索的规 1999年Goldman,Geib和Miller在文献[1]中划识别算法2].该方法修改了规划知识图算法中对给出了一种规划识别的新模型基于规划执行的支持程度和可能性的部分计算，并采用了从下往上规划识别.该模型的主要用途是向用户提供智能辅动态生成解图的方法.在有多个或节点存在时，他们助对节点做了标记，使得动态增加新的观察现象时不 Kautz的规划识别是以规划图为核心，它要求用完全重新生成解图.该方法解决了动态增加新节确定动作的最小集合，其最终是一个图覆盖的问题，点的问题对比Kautz的规划识别，Goldman等人提出的这 2.4基于语法分析的规划识别新模型是以规划执行为核心的，并加入了概率推理 1990年Vilain以Kautz理论为基础提出了一用概率的方法替代了最小动作集合的方法，使识别种基于语法分析的规划识别理论).他并没有真正结果更合理，增强了规划识别的准确性】采用语法分析的方法来处理规划识别问题，而是通这一模型采用与或树作为规划库，相对于过减少规划识别的限制情况来进行语法分析，用以 Kautz规划识别的事件层而言，更易于应用到计算研究Kautz理论的复杂度机上.该模型可以处理规划识别中遇到的多方面的 20o0年Pynadath和Wellman提出了基于概率问题，包括：考虑世界状态的影响，利用否定证据，识状态独立语法(probabilistic state-dependent gram~ 别中采用干预理论，对偏序规划的识别，处理重载动 mar,PSDG的规划识别方法21.该语法扩展了上作及由自身原因触发的动作，并能识别交错规划，下文无关语法(probabilistic context-free grammar, Goldman等人认为规划的执行是动态的，智能 PCFG.由于PCFG较同期的语法有更多的独立假体可以选择执行任何已被激活的动作.因此，每一时设，因此能够支持更广泛的问题领域，并能支持有效刻智能体都会有一个装载着被激活动作的待定集的语法分析算法.PSDG正是在继承了PCFG的这合，智能体可以从当前待定集中选取任一动作来执些优点之上，进一步要求产生式的概率要依赖于规行.随着事件的进行，智能体会反复执行一个操作，划智能体内部和外部状态的确切模型.给定规划生即从当前待定集中选取动作执行，并生成新的待定成过程的PSDG描述，通过利用PSDG语法独立特集，再从新生成的待定集中选取动作执行，同时生成性的推理算法，可以快速地识别出用户的提问，并给新的待定集，如此反复.不同的选取方式会产生不同出回答.PSDG模型的假设和推理算法缺乏一定的的动作选取序列.一个解释对应一个待定集合的动通用性，但是PSDG模型的约束限制保证了算法应作选择序列，即一个解释记录了每一时刻从待定集用的独立属性，同时也可阻止推理复杂化合中选择的动作及这些动作执行的先后顺序，由于 2002年，Moore和Essa将上下文自由语法待定集中待选动作的选取方式不唯一，在识别过程 (CFG)扩充为随机上下文自由语法(SCFG)24),并中会生成很多种解释，每种解释本质上是一种对智将该方法用于对视频中多任务活动的识别.Moore 能体所执行规划的猜想.Goldman等人在他们的模和Essa为CFG中的每个产生式规则（如x→W添型中加入了概率推理，这使得每种解释都具有一定 1994-2009 China Academic Journal Electronie Publishing House.All rights reserved.http://www.cnki.net

体与抽象的关系. 他们在规划知识图中添加了支持程度的概念. 支持程度是指一个规划(事件) 的出现使另一个规划 (事件) 出现的可能性. 由已观察到的动作 ,可能推出多种结果. Kautz 会选择 End 事件最少的推理结果作为识别的最终结果 ;姜云飞等则认为 ,不同动作在满足条件的规划内的重要程度是不一样的 ,所以对规划出现可能性的支持程度也不同 ,因此 ,根据支持程度来判断识别的最终结果 ,会与实际情况更为接近. 由于该方法添加了支持程度的概念. 因此 ,与 Kautz 规划识别相比 ,其结果更合理 ;方法中对知识图采用了宽度优先搜索 ,比 Kautz 规划识别更简捷. 在基于规划知识图的规划识别方法之上 ,谷文祥、李杨等人又提出了一种带标记的反向搜索的规划识别算法[20 ] . 该方法修改了规划知识图算法中对支持程度和可能性的部分计算 ,并采用了从下往上动态生成解图的方法. 在有多个或节点存在时 ,他们对节点做了标记 ,使得动态增加新的观察现象时不用完全重新生成解图. 该方法解决了动态增加新节点的问题. 214 基于语法分析的规划识别 1990 年 Vilain 以 Kautz 理论为基础提出了一种基于语法分析的规划识别理论[5 ] . 他并没有真正采用语法分析的方法来处理规划识别问题 ,而是通过减少规划识别的限制情况来进行语法分析 ,用以研究 Kautz 理论的复杂度. 2000 年 Pynadat h 和 Wellman 提出了基于概率状态独立语法 (probabilistic state2dependent gram2 mar , PSD G) 的规划识别方法[23 ] . 该语法扩展了上下文无关语法(probabilistic context2free grammar , PCFG) . 由于 PCF G较同期的语法有更多的独立假设 ,因此能够支持更广泛的问题领域 ,并能支持有效的语法分析算法. PSD G 正是在继承了 PCF G 的这些优点之上 ,进一步要求产生式的概率要依赖于规划智能体内部和外部状态的确切模型. 给定规划生成过程的 PSD G 描述 ,通过利用 PSD G 语法独立特性的推理算法 ,可以快速地识别出用户的提问 ,并给出回答. PSD G模型的假设和推理算法缺乏一定的通用性 ,但是 PSD G模型的约束限制保证了算法应用的独立属性 ,同时也可阻止推理复杂化. 2002 年 , Moore 和 Essa 将上下文自由语法 (CF G) 扩充为随机上下文自由语法 (SCF G) [ 24 ] ,并将该方法用于对视频中多任务活动的识别. Moore 和 Essa 为 CF G 中的每个产生式规则 (如 x →λ) 添加了一个概率 p (记作 p ( x →λ) ) ,用此概率及语言模型中的依赖关系 ,可以将语法分析分类 ,或删除不必要的分析. 该方法特别适合基于规则活动的识别. Moore 和 Essa 采用 Earley2Stolcke 算法来决定最大可能的语义推理结果. 他们将错误分为 3 种 :替换错误、插入错误和删除错误 ,并提出新的分析策略来进行错误检测和恢复 ,以此来提高规划识别的成功概率. Moore 和 Essa 以二十一点牌为例 ,描述了对视频中多任务活动的识别过程. 利用 SCF G 方法进行规划识别能够从多个对象和任务的长期行为序列中有效地提取出高层行为. 通过监控还可以对某一对象形成经验性评估 ,方便进一步的识别. 215 基于规划执行的规划识别 1999 年 Goldman , Geib 和 Miller 在文献[ 1 ]中给出了一种规划识别的新模型 ———基于规划执行的规划识别. 该模型的主要用途是向用户提供智能辅助. Kautz 的规划识别是以规划图为核心 ,它要求确定动作的最小集合 ,其最终是一个图覆盖的问题. 对比 Kautz 的规划识别 , Goldman 等人提出的这一新模型是以规划执行为核心的 ,并加入了概率推理 , 用概率的方法替代了最小动作集合的方法 ,使识别结果更合理 ,增强了规划识别的准确性. 这一模型采用与或树作为规划库 , 相对于 Kautz 规划识别的事件层而言 ,更易于应用到计算机上. 该模型可以处理规划识别中遇到的多方面的问题 ,包括 :考虑世界状态的影响 ,利用否定证据 ,识别中采用干预理论 ,对偏序规划的识别 ,处理重载动作及由自身原因触发的动作 ,并能识别交错规划. Goldman 等人认为规划的执行是动态的 ,智能体可以选择执行任何已被激活的动作. 因此 ,每一时刻智能体都会有一个装载着被激活动作的待定集合 ,智能体可以从当前待定集中选取任一动作来执行. 随着事件的进行 ,智能体会反复执行一个操作 , 即从当前待定集中选取动作执行 ,并生成新的待定集 ,再从新生成的待定集中选取动作执行 ,同时生成新的待定集 ,如此反复. 不同的选取方式会产生不同的动作选取序列. 一个解释对应一个待定集合的动作选择序列 ,即一个解释记录了每一时刻从待定集合中选择的动作及这些动作执行的先后顺序. 由于待定集中待选动作的选取方式不唯一 ,在识别过程中会生成很多种解释 ,每种解释本质上是一种对智能体所执行规划的猜想. Goldman 等人在他们的模型中加入了概率推理 ,这使得每种解释都具有一定 ·4 · 智能系统学报第 2 卷

第1期谷文祥，等：规划识别的研究及其应用。5 的概率给出适当的阈值，即可得到满足条件的解态领域，一个被称为初始条件的命题集合，一个说明释，由此可以判断智能体所执行的规划可能目标的目标概要集合；一个在连续时间步观察这种方法从一个新的角度出发构建了基于规划到的动作集合执行的规划识别，加入概率推理使其结果更合理，更目标图是一个直接的层次图，由命题层、动作准确.不仅如此，Goldman等人还在该模型中加入层、目标层依次交错排列.目标图开始于时间步1的了Pearl在1994年提出的干预理论，使得其智能辅初始条件命题层，结束于当前所观察到的最后一个助作用更大，效果更好.该模型可以很好地处理交错动作所在时间步的目标层.识别过程首先从初始状规划生成的动作序列、偏序规划，还可以利用背景进态出发，根据所观察到的动作，反复执行目标扩张及行推理.但在解释生成过程中不能排除空间按指数动作扩展，并对目标图进行分析，找到与观察动作一级增长的情况.Goldman等人认为该模型不能与周致的已完成或部分完成的目标.删除冗余目标，并选围环境交互，并且没有考虑到世界的状态的改变. 择具有最多相关动作的一致目标，即最一致目标，作 Goldman和Geib等人将该方法进行了更深入为识别结果的研究，对敌对智能体251和部分可观察规划进行了该方法突破了必须有特定规划库才能进行规划识别26).他们还将该方法应用到计算机智能辅助、识别的限制，能够对新规划做出识别，所以很适合入入侵检测21等领域，并以该方法为基准，对规划识侵检测等智能体处于敌对状态下的识别.但由于它别的复杂度进行了评估21 还不够完善，只能解释过去的动作而不能预测未来 2.6基于目标图分析的目标识别动作，因此，该方法目前适合应用在故事理解、软件通常的规划识别都是建立在规划库基础上的. 咨询系统、数据库查询优化和客户数据挖掘等领域， 2000年，Jun Hong提出了一种不需要规划库的目 2.7基于动态贝叶斯网络的规划识别标识别方法3.141 贝叶斯网络又称信度网，是目前比较流行的一给定观察动作集合，通常的规划识别方法会搜种不确定性推理方法，它用图形的方法来表达节点索可能的规划识别假设，作为候选规划和目标，以此间的因果关系.近年来，学者们将贝叶斯网络应用到来解释观察动作.这一搜索过程无疑会增加规划识动态领域，即贝叶斯网络随着时间的推移而逐渐扩别的时间及空间消耗，甚至使有些识别问题无法解大，以往通过手工编码来建立规划库的方法限制了决.因此，相对于无库规划识别而言，有库规划识别规划识别的发展，而动态贝叶斯网络可以在训练过有如下缺点：程中学习到领域特征，并能将所学应用到推理过程 1)识别器不能识别规划库中没有的新规划中.因此将动态贝叶斯网络应用到规划识别领域能 2)对于复杂领域来说，手工编写的规划库需要有效地解决手工编码所带来的问题消耗大量的时间，并且可能会导致这一工作会无法 Albrecht等人利用动态贝叶斯网络来表示领完成，即使采用机器学习的方法，空间搜索有时也会域特征，用以推导用户的规划及目标30).其网络结产生指数级的消耗构是根据分析领域特征而确定的.网络中有3种节 3)在有些领域中，规划知识不容易获得，无法进点，包括动作(Action)、地点(Location)和目标行识别 (Quest),其信度更新方法如下：而Jun Hong提出的无库的规划识别方法与大初始第1步时多数规划识别不同.该方法没有规划库，因此可识别 Pr(L1=h|q,m,o)=∑Pr(L1=h|b，新规划，不立即搜索可能规划，而是先构建一个目标 g)Pr(g'l g, 图，以此图来分析识别的目标和规划，因此不存在指 Pr(A1 =al q.a,lo)=>Pr(A1=al a 数级空间消耗的问题；只保留与当前己观察动作一致的目标及规划，降低了识别结果的二义性.因此， q)Pr(q'l q, 与有库规划识别相比，该方法有着明显的优势 Pr(0′=q'1q,am,l6)=Pr(0'=q'1. Jun Hong在Blum和Furst提出的图规划方更新第n+1步时法21及Lesh和Etzioniy的一致图方法21的基础上 Pr(Ln-1 Int1 I g,a,lo,,an,In)= 提出了目标图，该方法采用ADL域表示.一个目标 >Pr(L=1.9)Pr(g'l q.a.bo..a. 识别问题包括：一个给定初始动作的动作概要集合； In) 一个可由动作添加或删除的类型化对象的有限、动 Pr(A+ an1 g,a,l,,an,In) 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

的概率. 给出适当的阈值 ,即可得到满足条件的解释 ,由此可以判断智能体所执行的规划. 这种方法从一个新的角度出发构建了基于规划执行的规划识别 ,加入概率推理使其结果更合理 ,更准确. 不仅如此 , Goldman 等人还在该模型中加入了 Pearl 在 1994 年提出的干预理论 ,使得其智能辅助作用更大 ,效果更好. 该模型可以很好地处理交错规划生成的动作序列、偏序规划 ,还可以利用背景进行推理. 但在解释生成过程中不能排除空间按指数级增长的情况. Goldman 等人认为该模型不能与周围环境交互 ,并且没有考虑到世界的状态的改变. Goldman 和 Geib 等人将该方法进行了更深入的研究 ,对敌对智能体[ 25 ]和部分可观察规划进行了识别[ 26 ] . 他们还将该方法应用到计算机智能辅助、入侵检测[12 ]等领域 ,并以该方法为基准 ,对规划识别的复杂度进行了评估[27 ] . 216 基于目标图分析的目标识别通常的规划识别都是建立在规划库基础上的. 2000 年 ,J un Hong 提出了一种不需要规划库的目标识别方法[13 - 14 ] . 给定观察动作集合 ,通常的规划识别方法会搜索可能的规划识别假设 ,作为候选规划和目标 ,以此来解释观察动作. 这一搜索过程无疑会增加规划识别的时间及空间消耗 ,甚至使有些识别问题无法解决. 因此 ,相对于无库规划识别而言 ,有库规划识别有如下缺点 : 1) 识别器不能识别规划库中没有的新规划. 2) 对于复杂领域来说 ,手工编写的规划库需要消耗大量的时间 ,并且可能会导致这一工作会无法完成 ,即使采用机器学习的方法 ,空间搜索有时也会产生指数级的消耗. 3) 在有些领域中 ,规划知识不容易获得 ,无法进行识别. 而 J un Hong 提出的无库的规划识别方法与大多数规划识别不同. 该方法没有规划库 ,因此可识别新规划 ;不立即搜索可能规划 ,而是先构建一个目标图 ,以此图来分析识别的目标和规划 ,因此不存在指数级空间消耗的问题 ;只保留与当前已观察动作一致的目标及规划 ,降低了识别结果的二义性. 因此 , 与有库规划识别相比 ,该方法有着明显的优势. J un Hong 在 Blum 和 Furst 提出的图规划方法[28 ]及 Lesh 和 Etzioniy 的一致图方法[29 ]的基础上提出了目标图 ,该方法采用 ADL 域表示. 一个目标识别问题包括 :一个给定初始动作的动作概要集合 ; 一个可由动作添加或删除的类型化对象的有限、动态领域 ;一个被称为初始条件的命题集合 ;一个说明可能目标的目标概要集合 ;一个在连续时间步观察到的动作集合. 目标图是一个直接的层次图 ,由命题层、动作层、目标层依次交错排列. 目标图开始于时间步 1 的初始条件命题层 ,结束于当前所观察到的最后一个动作所在时间步的目标层. 识别过程首先从初始状态出发 ,根据所观察到的动作 ,反复执行目标扩张及动作扩展 ,并对目标图进行分析 ,找到与观察动作一致的已完成或部分完成的目标. 删除冗余目标 ,并选择具有最多相关动作的一致目标 ,即最一致目标 ,作为识别结果. 该方法突破了必须有特定规划库才能进行规划识别的限制 ,能够对新规划做出识别 ,所以很适合入侵检测等智能体处于敌对状态下的识别. 但由于它还不够完善 ,只能解释过去的动作而不能预测未来动作 ,因此 ,该方法目前适合应用在故事理解、软件咨询系统、数据库查询优化和客户数据挖掘等领域. 217 基于动态贝叶斯网络的规划识别贝叶斯网络又称信度网 ,是目前比较流行的一种不确定性推理方法 ,它用图形的方法来表达节点间的因果关系. 近年来 ,学者们将贝叶斯网络应用到动态领域 ,即贝叶斯网络随着时间的推移而逐渐扩大. 以往通过手工编码来建立规划库的方法限制了规划识别的发展 ,而动态贝叶斯网络可以在训练过程中学习到领域特征 ,并能将所学应用到推理过程中. 因此将动态贝叶斯网络应用到规划识别领域能有效地解决手工编码所带来的问题. Albrecht 等人利用动态贝叶斯网络来表示领域特征 ,用以推导用户的规划及目标[30 ] . 其网络结构是根据分析领域特征而确定的. 网络中有 3 种节点 ,包括动作 ( Action) 、地点 (Location ) 和目标 (Quest) ,其信度更新方法如下 : 初始第 1 步时 Pr(L1 = l1 | q , a0 , l0 ) = ∑q′Pr( L1 = l1 | l0 , q′) Pr( q′| q) , Pr( A1 = a1 | q , a0 , l0 ) = ∑q′Pr( A1 = a1 | a0 , q′) Pr( q′| q) , Pr( Q′= q′| q , a0 , l0 ) = Pr( Q′= q′| q) . 更新第 n + 1 步时 Pr(L n+1 = ln+1 | q , a0 , l0 , …, an , ln ) = ∑q′Pr( L n+1 = ln+1 | ln , q′) Pr( q′| q , a0 , l0 , …, an , ln ) , Pr( A n+1 = an+1 | q , a0 , l0 , …, an , ln ) = 第 1 期谷文祥 ,等 :规划识别的研究及其应用 ·5 ·

6 智能系统学报第2卷 >Pr(A=anl an.9)Pr(g'l q.ab.an. E可以采用如下方法计算： 1) E(A =p(Resuilt (A)Do(A).BU(Result(A ) Prto'=g'l q.a.1o,.an1,In1)=apr(Inti In, 式中：A为某一非确定行动，它具有可能的结果状态 g)Pr(antl an.q)Pr(o'=g'l q.a,l,.an.In). Result,(A);i为索引，最大不超过不同结果的个数在执行A之前，智能体为每个结果赋以概率P(Re 式中：a为常化因子 sult,(A)川Do(A),E),其中E综合了智能体关于世该方法在训练过程中确定条件概率分布，因此界的可用证据，Do(A)是在当前状态下执行动作A 能够依据所观察到的行为动态构建概率分布.在训的命题.而最大期望效用(MEU原则指出，一个理练和测试过程中允许不完整的、零散的或带有噪声性智能体应该选择能最大化该智能体的期望效用的的数据存在.Albrecht等人用大量数据进行的试验那个行动2 表明该方法具有很高的预测准确度，虽然该方法是概率理论是在证据的基础上，描述一个智能体在游戏领域进行的实验，但在具有相似特征的领域应该相信什么；而效用理论描述一个智能体想要什中，该方法也非常适用，并且能够取得很好的效果. 么；决策理论则将两者结合起来以描述一个智能体 Horvitz等人也将贝叶斯网络应用到了规划识应该做什么.因此，将决策理论方法应用到规划识别别当中s).他们的Lumiere工程通过建立贝叶斯用领域中，从规划智能体的角度来进行决策分析，必将户模型来推测用户的需求，并考虑用户的背景、动作会得到更合理化的识别结果及问题查询.Lumiere工程的主要任务是构建贝叶 Mao Wenji和Jonathan Gratch认为规划识别斯用户模型，用于从所观察到的动作和查询上推理可以被看作是在为模型化另一个智能体的决策制定出计算机用户随时间变化的目标；从软件应用中获策略]，之前的方法只是向规划识别中添加概率，取事件流；开发可以将系统事件转化为贝叶斯用户却缺少了对效用值的应用.因此，他们提出了规划识模型中所表达的观察变量，开发持续简档(profile) 别的一种新方法，即通过最大期望效用来判断某一以获取用户技能的变化；为智能用户接口开发一个智能体所执行的规划.他们的规划采用经典总体结构.该工程是office助手的基础，其目的主要 STRIPS的一种扩展表示，允许概率条件效果及抽是观察程序状态、动作序列及用户查询词语，并根据象动作.其规划识别方法有2种效用值节点，分别为这些观察结果识别出用户的需求或目标，辅助用户规划效用值节点和结果效用值节点.向贝叶斯网络达到其最终目标.他们的决策模型包括用户的目标中添加这2种节点，把计算出的结果作为证据来调和需求，其中目标是指用户关注的目的任务或子任整概率分布以便选择期待的结果.在规划识别过程务；需求是指能减少用户完成任务的时间或工作量中，遇到2个规划的先验概率及后验概率均相同的的信息或动作.该模型在规划识别的过程中能够推情况时，识别器可根据两个规划不同的效用值，即执断用户需要帮助的可能性及需要帮助的类型.Hor 行规划的智能体对2规划的偏好来选择出更合理的 vtz等人还将用户的证据分为如下几类：搜索、专规划作为识别结果.而以往的概率规划识别由于没注、反省、非期待效果、非高效命令序列、域特征句法有考虑到状态的期望值，因此不能做出这种合理的和语义.根据用户证据，可以识别出用户的目标以及区分是否需要帮助 2.9基于动态概率关系模型的规划识别由于不确定性无处不在，而动态贝叶斯网络又 1999年，Friedman等人提出了概率关系模是建立在概率方法基础之上的，因此，采用动态贝叶型.他们认为，己有的数据学习方法的数据表达斯网络可以有效地诊断出用户的需求，并向用户提方式都太过单调，不能很好地学习数据库中所存储供有用的帮助.该方法在实际应用中效果很好的知识，因此要用这些方法来表达数据库中的数据 2.8基于决策理论方法的规划识别必然会丢失大量的关系结构信息.Friedman等人提效用理论认为，任何状态对一个智能体而言都出了概率关系模型(PRM),用这种方法来对数据库有一定程度的有用性，即效用.智能体会偏好具有更中的信息进行学习.概率关系模型允许某一对象的高效用的状态.决策网络是贝叶斯网络的一个扩展，属性与该对象本身的其他属性有概率依赖关系，还它将贝叶斯网络与行动以及效用的附加节点类型结允许某一对象的属性与其相关对象的属性有概率依合起来赖关系.因此概率关系模型的表达能力要强于一般给定证据E,某一行动A的期望效用EU(A| 的标准模型（如贝叶斯网络）.为了从大型数据库中 1994-2009 China Academie Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

∑q′Pr( A n+1 = an+1 | an , q′) Pr( q′| q , a0 , l0 , …, an , ln ) , Pr( Q′= q′| q , a0 , l0 , …, an+1 , ln+1 ) =αPr( l n+1 | ln , q′) Pr( an+1 | an , q′) Pr( Q′= q′| q , a0 , l0 , …, an , ln ) . 式中 :α为常化因子. 该方法在训练过程中确定条件概率分布 ,因此能够依据所观察到的行为动态构建概率分布. 在训练和测试过程中允许不完整的、零散的或带有噪声的数据存在. Albrecht 等人用大量数据进行的试验表明该方法具有很高的预测准确度. 虽然该方法是在游戏领域进行的实验 ,但在具有相似特征的领域中 ,该方法也非常适用 ,并且能够取得很好的效果. Horvitz 等人也将贝叶斯网络应用到了规划识别当中[31 ] . 他们的 Lumiere 工程通过建立贝叶斯用户模型来推测用户的需求 ,并考虑用户的背景、动作及问题查询. Lumiere 工程的主要任务是构建贝叶斯用户模型 ,用于从所观察到的动作和查询上推理出计算机用户随时间变化的目标 ;从软件应用中获取事件流 ;开发可以将系统事件转化为贝叶斯用户模型中所表达的观察变量 ;开发持续简档 (profile) 以获取用户技能的变化 ;为智能用户接口开发一个总体结构. 该工程是 office 助手的基础 ,其目的主要是观察程序状态、动作序列及用户查询词语 ,并根据这些观察结果识别出用户的需求或目标 ,辅助用户达到其最终目标. 他们的决策模型包括用户的目标和需求 ,其中目标是指用户关注的目的任务或子任务 ;需求是指能减少用户完成任务的时间或工作量的信息或动作. 该模型在规划识别的过程中能够推断用户需要帮助的可能性及需要帮助的类型. Hor2 vitz 等人还将用户的证据分为如下几类 :搜索、专注、反省、非期待效果、非高效命令序列、域特征句法和语义. 根据用户证据 ,可以识别出用户的目标以及是否需要帮助. 由于不确定性无处不在 ,而动态贝叶斯网络又是建立在概率方法基础之上的 ,因此 ,采用动态贝叶斯网络可以有效地诊断出用户的需求 ,并向用户提供有用的帮助. 该方法在实际应用中效果很好. 218 基于决策理论方法的规划识别效用理论认为 ,任何状态对一个智能体而言都有一定程度的有用性 ,即效用. 智能体会偏好具有更高效用的状态. 决策网络是贝叶斯网络的一个扩展 , 它将贝叶斯网络与行动以及效用的附加节点类型结合起来. 给定证据 E,某一行动 A 的期望效用 EU ( A | E) 可以采用如下方法计算 : EU(A | E) = ∑i p(Result(A) | Do(A) , E)U (Result ( A ) ) . 式中 :A 为某一非确定行动 ,它具有可能的结果状态 Resulti ( A) ; i 为索引 ,最大不超过不同结果的个数. 在执行 A 之前 ,智能体为每个结果赋以概率 P(Re2 sulti ( A) | Do( A) , E) ,其中 E 综合了智能体关于世界的可用证据 , Do( A) 是在当前状态下执行动作 A 的命题. 而最大期望效用 ( M EU) 原则指出 ,一个理性智能体应该选择能最大化该智能体的期望效用的那个行动[32 ] . 概率理论是在证据的基础上 ,描述一个智能体应该相信什么;而效用理论描述一个智能体想要什么;决策理论则将两者结合起来以描述一个智能体应该做什么. 因此 ,将决策理论方法应用到规划识别领域中 ,从规划智能体的角度来进行决策分析 ,必将会得到更合理化的识别结果. Mao Wenji 和 Jonat han Gratch 认为规划识别可以被看作是在为模型化另一个智能体的决策制定策略[33 ] . 之前的方法只是向规划识别中添加概率 , 却缺少了对效用值的应用. 因此 ,他们提出了规划识别的一种新方法 ,即通过最大期望效用来判断某一智能体所执行的规划. 他们的规划采用经典 STRIPS 的一种扩展表示 ,允许概率条件效果及抽象动作. 其规划识别方法有 2 种效用值节点 ,分别为规划效用值节点和结果效用值节点. 向贝叶斯网络中添加这 2 种节点 ,把计算出的结果作为证据来调整概率分布以便选择期待的结果. 在规划识别过程中 ,遇到 2 个规划的先验概率及后验概率均相同的情况时 ,识别器可根据两个规划不同的效用值 ,即执行规划的智能体对 2 规划的偏好来选择出更合理的规划作为识别结果. 而以往的概率规划识别由于没有考虑到状态的期望值 ,因此不能做出这种合理的区分. 219 基于动态概率关系模型的规划识别 1999 年 , Friedman 等人提出了概率关系模型[34 ] . 他们认为 ,已有的数据学习方法的数据表达方式都太过单调 ,不能很好地学习数据库中所存储的知识 ,因此要用这些方法来表达数据库中的数据必然会丢失大量的关系结构信息. Friedman 等人提出了概率关系模型(PRM) ,用这种方法来对数据库中的信息进行学习. 概率关系模型允许某一对象的属性与该对象本身的其他属性有概率依赖关系 ,还允许某一对象的属性与其相关对象的属性有概率依赖关系. 因此概率关系模型的表达能力要强于一般的标准模型(如贝叶斯网络) . 为了从大型数据库中 ·6 · 智能系统学报第 2 卷

第1期谷文祥，等：规划识别的研究及其应用快速的掌握某些信息，该模型还利用了标准的数据假设的假设空间的某个区域.如果在某一点上极大检索技术.概率关系模型是建立在贝叶斯网络基础一般假设与极大特殊假设相同，那么学习者就获得上的，它的基本目标是模型化领域对象属性的不确了概念的唯一定义。定性，即给定一个框架结构，概率关系模型会试图为 Tessa Lau等人利用变形空间代数的方法，进该框架定义一个完整的概率分布，行实例规划(programming by demonstration, 通常情况下，智能体必须在一个不确定的环境 PBD)借助于用户的实例操作来识别出用户的下工作，而该不确定的环境中通常又存在着随时间操作目标36].他们通过扩展变形空间来学习任意函变化的多个对象和关系.这就要求解决该问题的模数，而不是局限于原有的概念学习.引入变形空间代型必须既有丰富的表达能力，又能进行概率推理，还数，将简单的变形空间组合成复杂的变形空间，即从能随着时间的变化而改变.2003年，Shanghai等人复杂对象映射到复杂对象，由此映射出最终目标他基于概率关系模型的方法提出了动态概率关系模型们将该方法应用到文本编辑领域，建立了SMART- (DPRM)B1.动态概率关系模型在每个时间片上都 edit系统，该系统可以通过实例来学习重复的文本有一个概率关系模型，且每一个时间片上的状态都编辑过程，即识别出用户的目标，并辅助用户完成目依赖于前一个时间片的状态标任务 Shanghai等人认为一个动态概率关系模型是这种规划识别方法能够识别出新的规划，根据这样的：一个关系概要S的动态概率关系模型是一少量观察实例就能够推测出用户目标，并且能够感个序对(M6,M,其中M是6上的一个概率关系知噪声，但该方法要求所识别的对象是完全可观察模型，表示S在初始实例上的分布Po;M-是一个的，因此其应用领域有一定的局限性 2TPRM,表示转移分布P(lI.)连接S的下一个 2.11基于回归图的规划识别实例.动态概率关系模型能够包含多个对象及对象回归图识别s1方法与目标图识别3.14方法一类，以及其上的多种关系类型；对象和关系可以在时样，都属于无库识别方法.它的主体思想直接来源于间上出现或消失.动态概率关系模型能够处理时间图规划和目标图方法，主要通过回归的思想来完成变化现象、关系结构及原则方式上的不确定性.实验对观察到的和未观察到的动作和目标的识别以及对中，Shanghai等人首先用FF规划器来生成一个规未来可能发生的动作和目标的预测.回归图的结构划，然后用PF(particle filtering)来监督规划的执与目标图的结构相似，均是由命题节点、动作节点以行，再用RBPF(rao-blackwellised particle filtering) 及目标节点组织成的层结构，其中这3种节点交替来提取规划树.他们将该方法应用于生产中对装配出现.这种方法通过将回归图中的节点分为确定的规划的监控和错误的识别，取得了很好的效果节点和可能的节点进行确定的目标和可能的目标的 2.10基于变形空间的规划识别识别，其中确定的节点由观察到的动作生成，可能的变形空间(version space)方法是由Tom 节点通过领域知识生成.利用回归图的方法进行规 Mitchell在1977年提出的，主要用于机器学习领划识别，首先识别器会根据观察到的动作以及领域域.变形空间是知识的一种层次表达，通过这些知识知识构造回归图，每观察到一个动作就将其添加到可以不用记住任何样例，就能掌握由学习样例序列图中，并且立即回退，以删除那些由领域知识生成的提供的全部有用信息.变形空间方法是一个概念学但与观察到的动作有冲突的动作节点和命题节点，习过程，在一个变形空间中，该学习过程是通过控制通过这样的回退来达到识别确定的目标和可能的目多个模型来完成的.变形空间的基本思想是：用2种标.也就是说，它可以识别出确实发生的动作及目可能假设来完成一个诱导学习任务.这2种假设是标，也可以预测未来可能发生的动作和目标 2种特殊的假设，分别为极大一般假设（对应结构的回归图识别方法继承了Hong Jun目标图方法最顶端)和极大特殊假设（对应结构的最底端）.正例的优点，并且在弥补其不足的同时又具有自己特有总是与极大一般假设相一致，与极大特殊假设相背的优势.它考虑了不可观察动作这一情况，这使回归离.因此加入正例后这种极大特殊假设就会更具一图算法更符合客观事实，同时它也可以预测未来可般性.反例与极大特殊假设相一致，但是与极大一般能发生的动作及产生的目标.由于引入了互斥关系假设相背离，因此加入反例后这种极大一般假设就回归图变得更为紧凑，在准确性、有效性以及可伸缩会更具特殊性所以在训练序列的任意点，学习者都性等方面都有良好的表现.由于它属于无库识别方会具有2种假设，正确的假设会依赖于连接这2个法，省去了对规划库的建立、管理和完善等繁杂工 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

快速的掌握某些信息 ,该模型还利用了标准的数据检索技术. 概率关系模型是建立在贝叶斯网络基础上的 ,它的基本目标是模型化领域对象属性的不确定性 ,即给定一个框架结构 ,概率关系模型会试图为该框架定义一个完整的概率分布. 通常情况下 ,智能体必须在一个不确定的环境下工作 ,而该不确定的环境中通常又存在着随时间变化的多个对象和关系. 这就要求解决该问题的模型必须既有丰富的表达能力 ,又能进行概率推理 ,还能随着时间的变化而改变. 2003 年 ,Shanghai 等人基于概率关系模型的方法提出了动态概率关系模型 (DPRM) [35 ] . 动态概率关系模型在每个时间片上都有一个概率关系模型 ,且每一个时间片上的状态都依赖于前一个时间片的状态. Shanghai 等人认为一个动态概率关系模型是这样的 :一个关系概要 S 的动态概率关系模型是一个序对( M0 , M →) ,其中 M0 是 I0 上的一个概率关系模型 ,表示 S 在初始实例上的分布 P0 ; M →是一个 2 TPRM ,表示转移分布 P( It | It - 1 ) 连接 S 的下一个实例. 动态概率关系模型能够包含多个对象及对象类 ,以及其上的多种关系类型 ;对象和关系可以在时间上出现或消失. 动态概率关系模型能够处理时间变化现象、关系结构及原则方式上的不确定性. 实验中 ,Shanghai 等人首先用 FF 规划器来生成一个规划 ,然后用 PF (particle filtering) 来监督规划的执行 ,再用 RBPF(rao2blackwellised particle filtering) 来提取规划树. 他们将该方法应用于生产中对装配规划的监控和错误的识别 ,取得了很好的效果. 2110 基于变形空间的规划识别变形空间 ( version space ) 方法是由 Tom Mitchell 在 1977 年提出的 ,主要用于机器学习领域. 变形空间是知识的一种层次表达 ,通过这些知识可以不用记住任何样例 ,就能掌握由学习样例序列提供的全部有用信息. 变形空间方法是一个概念学习过程 ,在一个变形空间中 ,该学习过程是通过控制多个模型来完成的. 变形空间的基本思想是 :用 2 种可能假设来完成一个诱导学习任务. 这 2 种假设是 2 种特殊的假设 ,分别为极大一般假设(对应结构的最顶端) 和极大特殊假设(对应结构的最底端) . 正例总是与极大一般假设相一致 ,与极大特殊假设相背离. 因此加入正例后这种极大特殊假设就会更具一般性. 反例与极大特殊假设相一致 ,但是与极大一般假设相背离 ,因此加入反例后这种极大一般假设就会更具特殊性. 所以在训练序列的任意点 ,学习者都会具有 2 种假设 ,正确的假设会依赖于连接这 2 个假设的假设空间的某个区域. 如果在某一点上极大一般假设与极大特殊假设相同 ,那么学习者就获得了概念的唯一定义. Tessa Lau 等人利用变形空间代数的方法 ,进行实例规划 ( programming by demonstration , PBD) ———借助于用户的实例操作来识别出用户的操作目标[36 ] . 他们通过扩展变形空间来学习任意函数 ,而不是局限于原有的概念学习. 引入变形空间代数 ,将简单的变形空间组合成复杂的变形空间 ,即从复杂对象映射到复杂对象 ,由此映射出最终目标. 他们将该方法应用到文本编辑领域 ,建立了 SMART2 edit 系统 ,该系统可以通过实例来学习重复的文本编辑过程 ,即识别出用户的目标 ,并辅助用户完成目标任务. 这种规划识别方法能够识别出新的规划 ,根据少量观察实例就能够推测出用户目标 ,并且能够感知噪声 ,但该方法要求所识别的对象是完全可观察的 ,因此其应用领域有一定的局限性. 2111 基于回归图的规划识别回归图识别[15 ]方法与目标图识别[13 - 14 ] 方法一样 ,都属于无库识别方法. 它的主体思想直接来源于图规划和目标图方法 ,主要通过回归的思想来完成对观察到的和未观察到的动作和目标的识别以及对未来可能发生的动作和目标的预测. 回归图的结构与目标图的结构相似 ,均是由命题节点、动作节点以及目标节点组织成的层结构 ,其中这 3 种节点交替出现. 这种方法通过将回归图中的节点分为确定的节点和可能的节点进行确定的目标和可能的目标的识别 ,其中确定的节点由观察到的动作生成 ,可能的节点通过领域知识生成. 利用回归图的方法进行规划识别 ,首先识别器会根据观察到的动作以及领域知识构造回归图 ,每观察到一个动作就将其添加到图中 ,并且立即回退 ,以删除那些由领域知识生成的但与观察到的动作有冲突的动作节点和命题节点 , 通过这样的回退来达到识别确定的目标和可能的目标. 也就是说 ,它可以识别出确实发生的动作及目标 ,也可以预测未来可能发生的动作和目标. 回归图识别方法继承了 Hong J un 目标图方法的优点 ,并且在弥补其不足的同时又具有自己特有的优势. 它考虑了不可观察动作这一情况 ,这使回归图算法更符合客观事实 ,同时它也可以预测未来可能发生的动作及产生的目标. 由于引入了互斥关系 , 回归图变得更为紧凑 ,在准确性、有效性以及可伸缩性等方面都有良好的表现. 由于它属于无库识别方法 ,省去了对规划库的建立、管理和完善等繁杂工第 1 期谷文祥 ,等 :规划识别的研究及其应用 ·7 ·

智能系统学报第2卷作.但是回归图识别方法在处理一些动作之间的关应用.H.H.Bui,S.Venkatesh等人提出了一种在系上还存在着一定的问题，识别也只限制在有噪音和不确定性领域中识别智能体行为的方 STRIPS域，同时只有具有了较完整的领域知识才法)，它可跨越多层抽象，即在抽象概率推理中应可以完成相关的识别工作用抽象马尔可夫策略(abstract Markov policies, 2.12基于隐马尔可夫模型的规划识别 AMP)作为智能体行为的模型，且在动态贝叶斯网俄国统计学家安德列·马尔可夫最早深入研究络中应用概率推理，从一系列观察中推断出正确的了满足马尔可夫假设的过程—当前状态只依赖于策略.AMP是马尔可夫决策过程(MDP)一个策略过去有限的已出现的状态历史.马尔可夫假设最初的扩展.原始的MDP被模型化为2层：原始动作层是用来解决随机过程问题的.随着马尔可夫模型的和规划层（也就是策略）.而AMP是多层的，顶层是不断完善与成熟，近些年来一些人工智能学者把马最抽象的策略（记为x,t时刻的高层策略记为尔可夫模型引入到识别中，并将其发展成为解决识 Tx),抽象程度依次下降，底层为策略层，即原始动别问题的重要方法，其中以隐马尔可夫模型(hidden 作层.当执行上层的抽象策略时会引发下层抽象策 Markov model,HMM)为主要模型B 略的执行，依次向下直到执行到底层策略！给定隐马尔可夫模型在识别问题上受到了很大的关当前的观察序列状态系列，相应的策略识别问题注，在随后的研究中又根据不同的应用领域和情况可以形式化为计算当前策略的条件概率.在t时刻，发展了多种基于隐马尔可夫模型的方法.其中，N. 给定观察序列，AMP关心的是在当前状态下所有 Oliver,E.Horvitz和A.Garg提出了一种层隐马第k层策略的概率，这样就知道了从当前动作层尔可夫模型3I(layered hidden Markov model,LH- (k=0)到高层策略(k=)在所有抽象层上智能体 HM),提出这种表示主要是想通过减少训练和调整行为的相关信息.策略识别问题的解决还建立在信需求来分解参数空间，LHHM可以看成是对HMM 度状态(belief state)和基于状态空间区域分解的层叠.在这个层模型中，体系结构每一层都通过它 (state-space regiom based decomposition)的基础推理出的结果与下一层相连接.这种表示把问题分割为不同的层，这些层可以运行在不同的时序粒度执行高层策略x的过程可以用一个动态贝叶上，即允许从在多个特定时刻的逐点观察到不同时斯网络DBN表示，如图1，这一过程可以命名为抽序间隔的解释的时序抽象.Kevin Murphy提到了一象马尔可夫模型(abstract markov model,AMM). 种隐半马尔可夫模型1(HSMM),它是一种类马尔当状态是部分可观察时，一个观察层可以附属于一可夫模型，其主要特点是对于每个状态都可以忽略个状态层，如图1.因为状态像HMM一样被隐藏观察的序列所以得到的结果称为抽象隐马尔可夫模型(abstract 隐马尔可夫模型主要应用在语音识别、机器视 hidden Markov model).AHMM是HMM的扩展，觉（人脸检测，机器人足球）、图像处理（图像去噪、图 HMM中的单链由多层隐链代替，也可以说像识别)、人机交互系统中的人类行为的自动与半自 AHMM是动态概率网络(DPN,也称动态贝叶斯网动识别、生物医学分析(DNA/蛋白质序列分析)等络)的一种特殊形式，其中DPN是一种特殊的贝叶方面.隐马尔可夫模型因其研究的透彻性以及算法斯网络，可以处理具有时序动态变化的环境2] 的成熟性，使它在识别领域中具有很高的效率，识别 AHMM的基础是多层贝叶斯动态结构，连续2层效果好，同时也易于训练.但它也存在着一定的问之间的连接是较高层较抽象路径向较低层改进路径题，比如缺乏结构性，参数过量，在用训练数据进行的分解.智能体想要实现高层目标时，它可以通过层长而复杂的时序序列推理时，易产生数据过拟合（过层关系在不同的抽象层创建一系列子目标，直到底拟合是指模型不能拟合未来的数据).正因为HMM 层状态层，以这样的过程来实现这个高层目标.实际具有以上的缺陷才导致复杂贝叶斯网络在识别上的上AHMM的识别与AMP的识别过程在本质上是发展和应用没有区别的 2.13基于抽象策略的规划识别策略识别和AHMM都适用在大规模的空间环抽象(abstraction)在智能体规划其行为的方式境，这样的环境具有复杂的空间布局、大的状态空间上起着非常重要的作用，特别是在大的规划领域中等特点，它可以处理不满足马尔可夫假设的问题.但降低计算复杂度上，抽象显得尤为重要.有了抽象的是策略识别与AHMM识别在信度状态上的计算量规划方法，自然容易让人想到抽象在规划识别上的仍然很大，虽然也采取了一些方法降低计算复杂 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

作. 但是回归图识别方法在处理一些动作之间的关系上还存在着一定的问题 , 识别也只限制在 STRIPS 域 ,同时只有具有了较完整的领域知识才可以完成相关的识别工作. 2112 基于隐马尔可夫模型的规划识别俄国统计学家安德列 ·马尔可夫最早深入研究了满足马尔可夫假设的过程 ———当前状态只依赖于过去有限的已出现的状态历史. 马尔可夫假设最初是用来解决随机过程问题的. 随着马尔可夫模型的不断完善与成熟 ,近些年来一些人工智能学者把马尔可夫模型引入到识别中 ,并将其发展成为解决识别问题的重要方法 ,其中以隐马尔可夫模型(hidden Markov model , HMM) 为主要模型[37 ] . 隐马尔可夫模型在识别问题上受到了很大的关注 ,在随后的研究中又根据不同的应用领域和情况发展了多种基于隐马尔可夫模型的方法. 其中 ,N. Oliver ,E. Horvitz 和 A. Garg 提出了一种层隐马尔可夫模型[38 ] (layered hidden Markov model ,L H2 HM) ,提出这种表示主要是想通过减少训练和调整需求来分解参数空间 ,L H HM 可以看成是对 HMM 的层叠. 在这个层模型中 ,体系结构每一层都通过它推理出的结果与下一层相连接. 这种表示把问题分割为不同的层 ,这些层可以运行在不同的时序粒度上 ,即允许从在多个特定时刻的逐点观察到不同时序间隔的解释的时序抽象. Kevin Murp hy 提到了一种隐半马尔可夫模型[39 ] ( HSMM) ,它是一种类马尔可夫模型 ,其主要特点是对于每个状态都可以忽略观察的序列. 隐马尔可夫模型主要应用在语音识别、机器视觉(人脸检测 ,机器人足球) 、图像处理(图像去噪、图像识别) 、人机交互系统中的人类行为的自动与半自动识别、生物医学分析 (DNA/ 蛋白质序列分析) 等方面. 隐马尔可夫模型因其研究的透彻性以及算法的成熟性 ,使它在识别领域中具有很高的效率 ,识别效果好 ,同时也易于训练. 但它也存在着一定的问题 ,比如缺乏结构性 ,参数过量 ,在用训练数据进行长而复杂的时序序列推理时 ,易产生数据过拟合(过拟合是指模型不能拟合未来的数据) . 正因为 HMM 具有以上的缺陷才导致复杂贝叶斯网络在识别上的发展和应用. 2113 基于抽象策略的规划识别抽象(abstraction) 在智能体规划其行为的方式上起着非常重要的作用 ,特别是在大的规划领域中降低计算复杂度上 ,抽象显得尤为重要. 有了抽象的规划方法 ,自然容易让人想到抽象在规划识别上的应用. H. H. Bui ,S. Venkatesh 等人提出了一种在有噪音和不确定性领域中识别智能体行为的方法[40 ] ,它可跨越多层抽象 ,即在抽象概率推理中应用抽象马尔可夫策略 ( abstract Markov policies , AMP) 作为智能体行为的模型 ,且在动态贝叶斯网络中应用概率推理 ,从一系列观察中推断出正确的策略. AMP 是马尔可夫决策过程 (MDP) 一个策略的扩展. 原始的 MDP 被模型化为 2 层 :原始动作层和规划层(也就是策略) . 而 AMP 是多层的 ,顶层是最抽象的策略 (记为πK , t 时刻的高层策略记为 πK ( t) ) ,抽象程度依次下降 ,底层为策略层 ,即原始动作层. 当执行上层的抽象策略时会引发下层抽象策略的执行 ,依次向下直到执行到底层策略[41 ] . 给定当前的观察序列 (状态系列) ,相应的策略识别问题可以形式化为计算当前策略的条件概率. 在 t 时刻 , 给定观察序列 , AMP 关心的是在当前状态下所有第 k 层策略的概率 , 这样就知道了从当前动作层 ( k = 0) 到高层策略( k = K) 在所有抽象层上智能体行为的相关信息. 策略识别问题的解决还建立在信度状态 ( belief state ) 和基于状态空间区域分解 (state2space region2based decompo sition ) 的基础上. 执行高层策略πK 的过程可以用一个动态贝叶斯网络 DBN 表示 ,如图 1 ,这一过程可以命名为抽象马尔可夫模型(abstract markov model , AMM) . 当状态是部分可观察时 ,一个观察层可以附属于一个状态层 ,如图 1. 因为状态像 HMM 一样被隐藏 , 所以得到的结果称为抽象隐马尔可夫模型(abstract hidden Markov model) . A HMM 是 HMM 的扩展 , HMM 中的单链由多层隐链代替 , 也可以说 A HMM 是动态概率网络(DPN ,也称动态贝叶斯网络) 的一种特殊形式 ,其中 DPN 是一种特殊的贝叶斯网络 ,可以处理具有时序动态变化的环境[42 ] . A HMM 的基础是多层贝叶斯动态结构 ,连续 2 层之间的连接是较高层较抽象路径向较低层改进路径的分解. 智能体想要实现高层目标时 ,它可以通过层层关系在不同的抽象层创建一系列子目标 ,直到底层状态层 ,以这样的过程来实现这个高层目标. 实际上 A HMM 的识别与 AMP 的识别过程在本质上是没有区别的. 策略识别和 A HMM 都适用在大规模的空间环境 ,这样的环境具有复杂的空间布局、大的状态空间等特点 ,它可以处理不满足马尔可夫假设的问题. 但是策略识别与 A HMM 识别在信度状态上的计算量仍然很大 ,虽然也采取了一些方法降低计算复杂 ·8 · 智能系统学报第 2 卷

第1期谷文祥，等：规划识别的研究及其应用 ·9 察到的攻击行为预测潜在的攻击.与其他的网络规 Level K 划识别方法相比，基于因果网络的攻击规划识别方法不但可以实现对孤立的警报集的相关性分析，重 Level I Policy 要的是它可以识别出攻击者的高层策略和目标.但 Stop natns s Level0 Actionπ 是这种方法在应用上还存在着一定问题.首先因果 Stop natus s. 网络是由攻击树转化而来的，而攻击树的定义和构 State Layer 造具有一定的难度，其困难程度相当于传统规划识 Observation Layer Time index 别的规划库的建立，虽然O.Sheyner等人提出一种自动构造攻击树的方法)，但仍存在着很多问题」图1DBN表示其次，因果网络的构造目前还停留在比较简单的层 Fig 1 DBN representation 次上，即单连接因果网络，以简化因果网络连接程度度)，但仍不能从根本上解决计算复杂度的问题的方式来减少概率推理的时间代价 2.14基于因果网络的攻击规划识别规划识别的方法很多，除以上方法外，还包括基在安全管理中，安全警报的联系与分析是一项于Dempster-Shafer证据理论的规划识别]，基于非常重要而又有挑战性的任务，之所以要进行这样溯因理论的规划识别46]，基于案例的规划识别) 的工作是要有效地识别攻击者的攻击目标、策略以基于语料库及统计方法的规划识别8·4等」及预测未来的攻击，以便及时有效地阻止攻击者对 3 规划识别的应用需要保护的网络和系统的攻击.nzhou Qin和 Wenke Lee提出一种名为因果网络(causal net- 规划识别经过近30年的发展，在很多领域中都 work)的方法来解决以上问题).这种方法首先用有所应用.早期广泛应用在自然语言理解、智能用户攻击树4定义攻击规划库来联系孤立的警报集，然接口及用户模型等方面.目前其应用己扩展到网络后把攻击树转化为因果网络.在因果网络上，可以通安全、入侵检测，战术规划识别及工业控制等领域过合并领域知识来估计攻击目标的可能性和预测未 3.1网络安全来攻击」入侵检测是当前网络安全中一个非常活跃的研一个因果网络通常由一个有向无环图表示，它究领域.而入侵检测系统想要更进一步发展，就必须实际上也是一个与或图.图中每个节点表示一个变加入人工智能方法.入侵检测系统(DSs)要求从己量，变量有一个确定的状态集合，有向边表示变量之发生的动作中预测出未来动作，而这一过程在人工间的因果或依赖关系.因果网络的根节点表示攻击智能领域中称为规划识别.规划识别可以预测入侵规划的最终目标，内部节点表示子目标，叶节点表示者的未来动作，并做出适当的回应.因此，规划识别收到的证据.每个节点有两值状态，即0和1,1表示方法必将是未来入侵检测系统的重要组成部分节点所代表的目标或子目标得以实现，0则表示失 2001年，Geib和Goldman将规划识别应用到败.一个叶节点的状态值为1时，表示叶节点收到证入侵检测领域2！.该方法采用了Geib等人之前的据，否则值为0.“AND”节点表示到达一个目标的不基于规划执行的规划识别方法，该方法没有设置太同攻击步骤，而“OR”节点表示实现目标的不同方多的限制性假设，因此，能够处理较广泛的规划识别式.为实现对攻击规划的识别，还需要2个参数，一问题.该方法着重处理了与以往识别环境不同的敌个是父节点状态的优先概率，另一个是伴随每个子对环境下的规划识别问题，包括从已观察到的动作节点的一个条件概率表的集合CPT1.识别时，攻或状态改变中推理出未观察到的动作.这些能力的击分析系统会根据当前的警报集以及对其的分析，增加，也极大地扩展了规划识别的应用领域.该方法依据已经建立好的攻击因果网络来实现对攻击者目可以从同一观察数据流中区分出多个智能体的攻击标和策略的识别以及对未来目标的预测目标及规划网络攻击规划识别与传统的规划识别有着非常 Qin等人认为Geib和Goldman提出的旨在识大的区别，所以传统的规划识别方法并不适用于识别网络攻击的规划识别方法，对规划库的定义过于别网络攻击.基于因果网络的攻击规划识别可以针细致，会增加推理的计算复杂度.2004年，Xinzhou 对网络识别的特殊要求，来实现源于底层警报的相 Qin和Wenke Lee采用因果网络对网络攻击进行关性分析，识别攻击者的高层策略和目标，并基于观识别1.他们认为，将传统的规划识别应用到安全 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

图 1 DBN 表示 Fig11 DBN representation 度[42 ] ,但仍不能从根本上解决计算复杂度的问题. 2114 基于因果网络的攻击规划识别在安全管理中 ,安全警报的联系与分析是一项非常重要而又有挑战性的任务 ,之所以要进行这样的工作是要有效地识别攻击者的攻击目标、策略以及预测未来的攻击 ,以便及时有效地阻止攻击者对需要保护的网络和系统的攻击. Xinzhou Qin 和 Wenke Lee 提出一种名为因果网络 ( causal net2 work) 的方法来解决以上问题[ 43 ] . 这种方法首先用攻击树[44 ]定义攻击规划库来联系孤立的警报集 ,然后把攻击树转化为因果网络. 在因果网络上 ,可以通过合并领域知识来估计攻击目标的可能性和预测未来攻击. 一个因果网络通常由一个有向无环图表示 ,它实际上也是一个与或图. 图中每个节点表示一个变量 ,变量有一个确定的状态集合 ,有向边表示变量之间的因果或依赖关系. 因果网络的根节点表示攻击规划的最终目标 ,内部节点表示子目标 ,叶节点表示收到的证据. 每个节点有两值状态 ,即 0 和 1 ,1 表示节点所代表的目标或子目标得以实现 ,0 则表示失败. 一个叶节点的状态值为 1 时 ,表示叶节点收到证据 ,否则值为 0.“AND”节点表示到达一个目标的不同攻击步骤 ,而“OR”节点表示实现目标的不同方式. 为实现对攻击规划的识别 ,还需要 2 个参数 ,一个是父节点状态的优先概率 ,另一个是伴随每个子节点的一个条件概率表的集合 CPT [43 ] . 识别时 ,攻击分析系统会根据当前的警报集以及对其的分析 , 依据已经建立好的攻击因果网络来实现对攻击者目标和策略的识别以及对未来目标的预测. 网络攻击规划识别与传统的规划识别有着非常大的区别 ,所以传统的规划识别方法并不适用于识别网络攻击. 基于因果网络的攻击规划识别可以针对网络识别的特殊要求 ,来实现源于底层警报的相关性分析 ,识别攻击者的高层策略和目标 ,并基于观察到的攻击行为预测潜在的攻击. 与其他的网络规划识别方法相比 ,基于因果网络的攻击规划识别方法不但可以实现对孤立的警报集的相关性分析 ,重要的是它可以识别出攻击者的高层策略和目标. 但是这种方法在应用上还存在着一定问题. 首先因果网络是由攻击树转化而来的 ,而攻击树的定义和构造具有一定的难度 ,其困难程度相当于传统规划识别的规划库的建立 ,虽然 O. Sheyner 等人提出一种自动构造攻击树的方法[45 ] ,但仍存在着很多问题. 其次 ,因果网络的构造目前还停留在比较简单的层次上 ,即单连接因果网络 ,以简化因果网络连接程度的方式来减少概率推理的时间代价. 规划识别的方法很多 ,除以上方法外 ,还包括基于 Demp ster2Shafer 证据理论的规划识别[6 ] ,基于溯因理论的规划识别[ 46 ] ,基于案例的规划识别[47 ] , 基于语料库及统计方法的规划识别[48 - 49 ]等. 3 规划识别的应用规划识别经过近 30 年的发展 ,在很多领域中都有所应用. 早期广泛应用在自然语言理解、智能用户接口及用户模型等方面. 目前其应用已扩展到网络安全、入侵检测 ,战术规划识别及工业控制等领域. 311 网络安全入侵检测是当前网络安全中一个非常活跃的研究领域. 而入侵检测系统想要更进一步发展 ,就必须加入人工智能方法. 入侵检测系统 ( IDSs) 要求从已发生的动作中预测出未来动作 ,而这一过程在人工智能领域中称为规划识别. 规划识别可以预测入侵者的未来动作 ,并做出适当的回应. 因此 ,规划识别方法必将是未来入侵检测系统的重要组成部分. 2001 年 , Geib 和 Goldman 将规划识别应用到入侵检测领域[12 ] . 该方法采用了 Geib 等人之前的基于规划执行的规划识别方法 ,该方法没有设置太多的限制性假设 ,因此 ,能够处理较广泛的规划识别问题. 该方法着重处理了与以往识别环境不同的敌对环境下的规划识别问题 ,包括从已观察到的动作或状态改变中推理出未观察到的动作. 这些能力的增加 ,也极大地扩展了规划识别的应用领域. 该方法可以从同一观察数据流中区分出多个智能体的攻击目标及规划. Qin 等人认为 Geib 和 Goldman 提出的旨在识别网络攻击的规划识别方法 ,对规划库的定义过于细致 ,会增加推理的计算复杂度. 2004 年 , Xinzhou Qin 和 Wenke Lee 采用因果网络对网络攻击进行识别[43 ] . 他们认为 ,将传统的规划识别应用到安全第 1 期谷文祥 ,等 :规划识别的研究及其应用 ·9 ·

·10 智能系统学报第2卷领域必须解决以下问题.首先，传统的规划识别技术打破了早期方法只能识别敌方对象及智能体未经确通常应用在非敌对的情况下，识别过程可以是辅助认的观察结果的限制.Frank Mulder和Frans 式的，也可以是不受所识别智能体干扰的.然而，在 Voorbraak在2003年又对战术规划识别进行了形安全应用方面，攻击者试图消除或者干预对其入侵式化描述54，.他们认为战术规划识别中最重要的是行动的识别.其次，在传统规划识别中应用的假设在对敌军被观察对象一致性的识别.因为在战术规划对手式规划识别中已经不再适用.因此必须对原有识别中，不知道所观察到的动作或行为是否出自于方法加以改进，以适应应用领域的变化.他们研究了同一个对象.所以战术规划识别器不仅要生成规划组织概率推理方式，使其能够联系和分析攻击方案假设，还要对规划假设赋值，根据假设赋值来判断观所提出的方法可以解决如下问题：怎样从低层的警察到的动作是否属于同一对象.该方法主要应用于报中识别出独立的攻击方案，怎样识别攻击者的高军事领域，对于相似的敌对智能体间的识别也有较层方案及目标，怎样用观察到的攻击行为来预测潜好的应用在的攻击 Robert Suzic在2003年采用统计模型对敌军诸葛建伟等人针对网络攻防领域中规划识别的策略的不确定性加以表示和识别5].他们采用网络特点扩展了Hong Jun的目标图，形成了扩展目标结构将单一智能体问题扩展成在线多智能体随机策规划图模型，将其应用到了识别网络攻击上).基略识别问题.根据智能体之间的相互关系，Suzic创于该模型的攻击规划识别算法可以从大量底层警报建了一种与敌军组织相兼容的策略结构.通过这种信息中识别出攻击者的规划以及隐含的攻击者的意方法利用已知的军事组织知识，减少了大量的假设图空间.因此该方法可以降低问题复杂度，使得战术规 3.2军事指挥划识别方法更加可行.同样，通过在策略识别中应用战术规划识别需要能够处理不完全知识，动作统计模型，可以用一种相容的方式来处理不确定性」的随机结果及不确定观察.在军事应用中，特别在利也就是说，提高了策略识别的健壮性.为了达到信息用感知数据进行决策时，采用规划识别方法有其重融合的目的，Sc的模型可以整合预处理的不确定要的价值.战术规划识别的主要特点是快速、准确、动态感知数据，例如可以将敌人的位置与地形数据高效.因为军事指挥者通常需要快速、准确、高效地和不确定先验知识结合在一起，以健壮、合理的方式判断战场状况及战争走势，并根据判断结果来做出推断出多智能体策略战争部署 Suzc在其自身的研究基础上又进行了深入研早在1986年就已经有了战术规划识别方法，当究.2005年，他又提出了规划识别的一种通用模时是Jerome Azarewicz等人将规划识别的方法应型6]，并将其用于威胁评估.他认为规划识别应该用在了空运的战术决策制定中511.1989年，他们又以一种统计的健壮方式，考虑尽可能多的战术情况提出了基于模板的、应用于多智能体的战术规划识和单位类型.Suzic在其通用模型中加入了明确的效别方法，并将其应用在海军作战指挥中5].他们所用值，并将多实体贝叶斯网络(multi-entity bayesian 设计的多智能体模板用来获取战略指挥者的知识， networks,MEBN)作为设计灵活规划识别模型的特别是战船协同作战方面的知识.Azarewicz等人主要方法.这种网络可以将网络片段组合成贝叶斯提出的这一模板提供了一种灵活的知识表示方法，网络.通过使用多实体网络片段，这种模型能够扩展依据该模板构造的规划识别模型能够推理出多智能假设空间，并能表达多种多实体结构体规划方式所显露的不同情况的特征变量.模板实 3.3对手规划/敌意规划/应对规划例能够根据智能体的行为对智能体的未来动作做出多年来，规划识别的研究一直都聚焦在传统的假设.这种规划识别方法通过处理特征机制来限制规划识别领域和方法上，而规划识别的应用也仅限多智能体域中可能假设的增长.该方法能够解释敌在传统领域，比如自然语言理解，智能帮助系统等方船只的活动，并预测敌军的规划及目标，可用于辅近些年来，一些学者把目光放在了具有对抗性质的助海军指挥者进行战略决策研究领域上，如博弈策略、军事领域、网络入侵检测 1998年，Mulder提出了战术规划识别的一种系统等，这些具有对抗性质的领域可以称为对手规通用任务模型5).他认为，在许多领域中对所观察划(adversarial plan)领域或敌意规划(hostile plan) 到的人类行为进行识别都是非常重要的.Mulder提领域，把应对对手规划或敌意规划的规划称为应对出的通用任务模型主要用来识别敌方规划.该方法规划.具有对抗性质的规划领域与传统规划领域相 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

领域必须解决以下问题. 首先 ,传统的规划识别技术通常应用在非敌对的情况下 ,识别过程可以是辅助式的 ,也可以是不受所识别智能体干扰的. 然而 ,在安全应用方面 ,攻击者试图消除或者干预对其入侵行动的识别. 其次 ,在传统规划识别中应用的假设在对手式规划识别中已经不再适用. 因此必须对原有方法加以改进 ,以适应应用领域的变化. 他们研究了组织概率推理方式 ,使其能够联系和分析攻击方案. 所提出的方法可以解决如下问题 :怎样从低层的警报中识别出独立的攻击方案 ;怎样识别攻击者的高层方案及目标 ;怎样用观察到的攻击行为来预测潜在的攻击. 诸葛建伟等人针对网络攻防领域中规划识别的特点扩展了 Hong J un 的目标图 ,形成了扩展目标规划图模型 ,将其应用到了识别网络攻击上[ 50 ] . 基于该模型的攻击规划识别算法可以从大量底层警报信息中识别出攻击者的规划以及隐含的攻击者的意图. 312 军事指挥战术规划识别需要能够处理不完全知识 ,动作的随机结果及不确定观察. 在军事应用中 ,特别在利用感知数据进行决策时 ,采用规划识别方法有其重要的价值. 战术规划识别的主要特点是快速、准确、高效. 因为军事指挥者通常需要快速、准确、高效地判断战场状况及战争走势 ,并根据判断结果来做出战争部署. 早在 1986 年就已经有了战术规划识别方法 ,当时是 J erome Azarewicz 等人将规划识别的方法应用在了空运的战术决策制定中[51 ] . 1989 年 ,他们又提出了基于模板的、应用于多智能体的战术规划识别方法 ,并将其应用在海军作战指挥中[52 ] . 他们所设计的多智能体模板用来获取战略指挥者的知识 , 特别是战船协同作战方面的知识. Azarewicz 等人提出的这一模板提供了一种灵活的知识表示方法. 依据该模板构造的规划识别模型能够推理出多智能体规划方式所显露的不同情况的特征变量. 模板实例能够根据智能体的行为对智能体的未来动作做出假设. 这种规划识别方法通过处理特征机制来限制多智能体域中可能假设的增长. 该方法能够解释敌方船只的活动 ,并预测敌军的规划及目标 ,可用于辅助海军指挥者进行战略决策. 1998 年 ,Mulder 提出了战术规划识别的一种通用任务模型[ 53 ] . 他认为 ,在许多领域中对所观察到的人类行为进行识别都是非常重要的. Mulder 提出的通用任务模型主要用来识别敌方规划. 该方法打破了早期方法只能识别敌方对象及智能体未经确认的观察结果的限制. Frank Mulder 和 Frans Voorbraak 在 2003 年又对战术规划识别进行了形式化描述[54 ] . 他们认为战术规划识别中最重要的是对敌军被观察对象一致性的识别. 因为在战术规划识别中 ,不知道所观察到的动作或行为是否出自于同一个对象. 所以战术规划识别器不仅要生成规划假设 ,还要对规划假设赋值 ,根据假设赋值来判断观察到的动作是否属于同一对象. 该方法主要应用于军事领域 ,对于相似的敌对智能体间的识别也有较好的应用. Robert Suzic 在 2003 年采用统计模型对敌军策略的不确定性加以表示和识别[55 ] . 他们采用网络结构将单一智能体问题扩展成在线多智能体随机策略识别问题. 根据智能体之间的相互关系 ,Suzic 创建了一种与敌军组织相兼容的策略结构. 通过这种方法利用已知的军事组织知识 ,减少了大量的假设空间. 因此该方法可以降低问题复杂度 ,使得战术规划识别方法更加可行. 同样 ,通过在策略识别中应用统计模型 ,可以用一种相容的方式来处理不确定性 , 也就是说 ,提高了策略识别的健壮性. 为了达到信息融合的目的 ,Suzic 的模型可以整合预处理的不确定动态感知数据 ,例如可以将敌人的位置与地形数据和不确定先验知识结合在一起 ,以健壮、合理的方式推断出多智能体策略. Suzic 在其自身的研究基础上又进行了深入研究. 2005 年 ,他又提出了规划识别的一种通用模型[56 ] ,并将其用于威胁评估. 他认为规划识别应该以一种统计的健壮方式 ,考虑尽可能多的战术情况和单位类型. Suzic 在其通用模型中加入了明确的效用值 ,并将多实体贝叶斯网络(multi2entity bayesian networks , MEBN) 作为设计灵活规划识别模型的主要方法. 这种网络可以将网络片段组合成贝叶斯网络. 通过使用多实体网络片段 ,这种模型能够扩展假设空间 ,并能表达多种多实体结构. 313 对手规划/ 敌意规划/ 应对规划多年来 ,规划识别的研究一直都聚焦在传统的规划识别领域和方法上 ,而规划识别的应用也仅限在传统领域 ,比如自然语言理解 ,智能帮助系统等. 近些年来 ,一些学者把目光放在了具有对抗性质的研究领域上 ,如博弈策略、军事领域、网络入侵检测系统等 ,这些具有对抗性质的领域可以称为对手规划(adversarial plan) 领域或敌意规划 ( hostile plan) 领域 ,把应对对手规划或敌意规划的规划称为应对规划. 具有对抗性质的规划领域与传统规划领域相 ·10 · 智能系统学报第 2 卷

点击进入文档下载页（PDF格式）

共15页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录