人工智能基础：任务级行动序列问题中的定性偏好研究

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：916.19KB

第9卷第5期智能系统学报 Vol.9 No.5 2014年10月 CAAI Transactions on Intelligent Systems 0ct.2014 D0:10.3969/j.issn.1673-4785.201306013 任务级行动序列问题中的定性偏好研究王炎娟2，姚莉，刘斌 (1.国防科技大学信息系统工程重点实验室，湖南长沙410073：2.北京航天飞行控制中心，北京100094) 摘要：关注了一类典型行动序列，研究如何在动作集合上存在定性偏好，且偏好集合存在不一致性时开展规划。所考虑的行动序列问题称为任务级C0A,以抽象层次的动作为基本要素，所考虑的定性偏好包括静态偏好和时序偏好，所讨论的规划目的是获得最大满意度的COA方案。首先建立了偏好与约束的归一化形式描述，在此基础上形成了COA方案设计算法：进一步，使用计算辩论技术排除偏好集合中的不一致性，形成用户接受度最高的COA方案。文中建立的以定性推理为基础的规划框架，实现了偏好解耦，能够适应不同的领域问题，是以定量计算为基础的传统规划算法的有效补充。通过快速响应卫星成像的COA案例，演示了算法的可行性。关键词：行动序列：规划；定性偏好：时序偏好；计算辩论技术；偏好解耦中图分类号：TP391文献标志码：A文章编号：1673-4785(2014)05-0551-09 中文引用格式：王炎娟，姚莉，刘斌.任务级行动序列问题中的定性偏好研究[J].智能系统学报，2014,9(5)：551-559. 英文引用格式：WANG Yanjuan,,YAOi,LIU Bin.Research on qualitative preference in planning of task--level Course-of-action [J].CAAI Transactions on Intelligent Systems,2014,9(5):551-559. Research on qualitative preference in planning of task-level Course-of-action WANG Yanjuan'2,YAO Li',LIU Bin' (1.Science and Technology on Information Systems Engineering Laboratory,National University of Defense Technology,Changsha 410073 China;2.Beijing Aerospace Control Center,Beijing 100094,China) Abstract:This paper focuses on a special type of course-of-action.Specifically,performing study on planning with the existence of qualitative preferences and functions on the actions and owns the inner inconsistence.The course- of-action that is taken into consideration is called 'task-level'course-of-action(COA),with abstracted action as basic element.The qualitative preferences in discussion include static preferences and temporal preference.The ob- jective of planning is a COA plan with satisfaction.Firstly,a unified formulated description is established for con- straints and preferences,based on which an algorithm for COA planning is developed.Furthermore,computational argumentation is utilized to exclude inconsistence in the set of preferences,to maximize the user's satisfaction for COA planning.The planning framework based on qualitative deduction is an effective add-in for conventional plan- ning scheme based on quantitative computation.The property of preference-decoupling makes itself adaptable to ap- plications in different domain.A case study on scheduling responsive imaging satellites is proposed to demonstrate the effectiveness of the scheme. Keywords:course-of-action;planning;qualitative preference;temporal preference;computational argumentation; preference decoupling 行动序列(C0A)问题来自军事学领域，由于其收稿日期：2013-06-10. 基金项目：.国家自然科学基金资助项目(70971134) 关于时间、动作等基本概念和问题结构与调度、规划通信作者：王炎娟.E-mail:.nudtwyj@gmail.com 有着众多相通之处，已经得到了人工智能领域研究

第９卷第５期智能系统学报Ｖｏｌ．９ №．５２０１４年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１４ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０６０１３任务级行动序列问题中的定性偏好研究王炎娟１，２，姚莉１，刘斌１（１．国防科技大学信息系统工程重点实验室，湖南长沙４１００７３；２．北京航天飞行控制中心，北京１０００９４）摘要：关注了一类典型行动序列，研究如何在动作集合上存在定性偏好，且偏好集合存在不一致性时开展规划。所考虑的行动序列问题称为任务级ＣＯＡ，以抽象层次的动作为基本要素，所考虑的定性偏好包括静态偏好和时序偏好，所讨论的规划目的是获得最大满意度的ＣＯＡ方案。首先建立了偏好与约束的归一化形式描述，在此基础上形成了ＣＯＡ方案设计算法；进一步，使用计算辩论技术排除偏好集合中的不一致性，形成用户接受度最高的ＣＯＡ方案。文中建立的以定性推理为基础的规划框架，实现了偏好解耦，能够适应不同的领域问题，是以定量计算为基础的传统规划算法的有效补充。通过快速响应卫星成像的ＣＯＡ案例，演示了算法的可行性。关键词：行动序列；规划；定性偏好；时序偏好；计算辩论技术；偏好解耦中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１４）０５⁃０５５１⁃０９中文引用格式：王炎娟，姚莉，刘斌．任务级行动序列问题中的定性偏好研究［Ｊ］．智能系统学报，２０１４，９（５）：５５１⁃５５９．英文引用格式：ＷＡＮＧＹａｎｊｕａｎ，ＹＡＯＬｉ，ＬＩＵＢｉｎ．Ｒｅｓｅａｒｃｈｏｎｑｕａｌｉｔａｔｉｖｅｐｒｅｆｅｒｅｎｃｅｉｎｐｌａｎｎｉｎｇｏｆｔａｓｋ⁃ｌｅｖｅｌＣｏｕｒｓｅ⁃ｏｆ⁃ａｃｔｉｏｎ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１４，９（５）：５５１⁃５５９．Ｒｅｓｅａｒｃｈｏｎｑｕａｌｉｔａｔｉｖｅｐｒｅｆｅｒｅｎｃｅｉｎｐｌａｎｎｉｎｇｏｆｔａｓｋ⁃ｌｅｖｅｌＣｏｕｒｓｅ⁃ｏｆ⁃ａｃｔｉｏｎＷＡＮＧＹａｎｊｕａｎ１，２，ＹＡＯＬｉ１，ＬＩＵＢｉｎ１（１．ＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙｏｎＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓＥｎｇｉｎｅｅｒｉｎｇＬａｂｏｒａｔｏｒｙ，ＮａｔｉｏｎａｌＵｎｉｖｅｒｓｉｔｙｏｆＤｅｆｅｎｓｅＴｅｃｈｎｏｌｏｇｙ，Ｃｈａｎｇｓｈａ４１００７３Ｃｈｉｎａ；２．ＢｅｉｊｉｎｇＡｅｒｏｓｐａｃｅＣｏｎｔｒｏｌＣｅｎｔｅｒ，Ｂｅｉｊｉｎｇ１０００９４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｉｓｐａｐｅｒｆｏｃｕｓｅｓｏｎａｓｐｅｃｉａｌｔｙｐｅｏｆｃｏｕｒｓｅ⁃ｏｆ⁃ａｃｔｉｏｎ．Ｓｐｅｃｉｆｉｃａｌｌｙ，ｐｅｒｆｏｒｍｉｎｇｓｔｕｄｙｏｎｐｌａｎｎｉｎｇｗｉｔｈｔｈｅｅｘｉｓｔｅｎｃｅｏｆｑｕａｌｉｔａｔｉｖｅｐｒｅｆｅｒｅｎｃｅｓａｎｄｆｕｎｃｔｉｏｎｓｏｎｔｈｅａｃｔｉｏｎｓａｎｄｏｗｎｓｔｈｅｉｎｎｅｒｉｎｃｏｎｓｉｓｔｅｎｃｅ．Ｔｈｅｃｏｕｒｓｅ⁃ ｏｆ⁃ａｃｔｉｏｎｔｈａｔｉｓｔａｋｅｎｉｎｔｏｃｏｎｓｉｄｅｒａｔｉｏｎｉｓｃａｌｌｅｄ ‘ｔａｓｋ⁃ｌｅｖｅｌ’ ｃｏｕｒｓｅ⁃ｏｆ⁃ａｃｔｉｏｎ（ＣＯＡ），ｗｉｔｈａｂｓｔｒａｃｔｅｄａｃｔｉｏｎａｓｂａｓｉｃｅｌｅｍｅｎｔ．Ｔｈｅｑｕａｌｉｔａｔｉｖｅｐｒｅｆｅｒｅｎｃｅｓｉｎｄｉｓｃｕｓｓｉｏｎｉｎｃｌｕｄｅｓｔａｔｉｃｐｒｅｆｅｒｅｎｃｅｓａｎｄｔｅｍｐｏｒａｌｐｒｅｆｅｒｅｎｃｅ．Ｔｈｅｏｂ⁃ ｊｅｃｔｉｖｅｏｆｐｌａｎｎｉｎｇｉｓａＣＯＡｐｌａｎｗｉｔｈｓａｔｉｓｆａｃｔｉｏｎ．Ｆｉｒｓｔｌｙ，ａｕｎｉｆｉｅｄｆｏｒｍｕｌａｔｅｄｄｅｓｃｒｉｐｔｉｏｎｉｓｅｓｔａｂｌｉｓｈｅｄｆｏｒｃｏｎ⁃ ｓｔｒａｉｎｔｓａｎｄｐｒｅｆｅｒｅｎｃｅｓ，ｂａｓｅｄｏｎｗｈｉｃｈａｎａｌｇｏｒｉｔｈｍｆｏｒＣＯＡｐｌａｎｎｉｎｇｉｓｄｅｖｅｌｏｐｅｄ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｃｏｍｐｕｔａｔｉｏｎａｌａｒｇｕｍｅｎｔａｔｉｏｎｉｓｕｔｉｌｉｚｅｄｔｏｅｘｃｌｕｄｅｉｎｃｏｎｓｉｓｔｅｎｃｅｉｎｔｈｅｓｅｔｏｆｐｒｅｆｅｒｅｎｃｅｓ，ｔｏｍａｘｉｍｉｚｅｔｈｅｕｓｅｒ’ｓｓａｔｉｓｆａｃｔｉｏｎｆｏｒＣＯＡｐｌａｎｎｉｎｇ．Ｔｈｅｐｌａｎｎｉｎｇｆｒａｍｅｗｏｒｋｂａｓｅｄｏｎｑｕａｌｉｔａｔｉｖｅｄｅｄｕｃｔｉｏｎｉｓａｎｅｆｆｅｃｔｉｖｅａｄｄ⁃ｉｎｆｏｒｃｏｎｖｅｎｔｉｏｎａｌｐｌａｎ⁃ ｎｉｎｇｓｃｈｅｍｅｂａｓｅｄｏｎｑｕａｎｔｉｔａｔｉｖｅｃｏｍｐｕｔａｔｉｏｎ．Ｔｈｅｐｒｏｐｅｒｔｙｏｆｐｒｅｆｅｒｅｎｃｅ⁃ｄｅｃｏｕｐｌｉｎｇｍａｋｅｓｉｔｓｅｌｆａｄａｐｔａｂｌｅｔｏａｐ⁃ ｐｌｉｃａｔｉｏｎｓｉｎｄｉｆｆｅｒｅｎｔｄｏｍａｉｎ．Ａｃａｓｅｓｔｕｄｙｏｎｓｃｈｅｄｕｌｉｎｇｒｅｓｐｏｎｓｉｖｅｉｍａｇｉｎｇｓａｔｅｌｌｉｔｅｓｉｓｐｒｏｐｏｓｅｄｔｏｄｅｍｏｎｓｔｒａｔｅｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｓｃｈｅｍｅ．Ｋｅｙｗｏｒｄｓ：ｃｏｕｒｓｅ⁃ｏｆ⁃ａｃｔｉｏｎ；ｐｌａｎｎｉｎｇ；ｑｕａｌｉｔａｔｉｖｅｐｒｅｆｅｒｅｎｃｅ；ｔｅｍｐｏｒａｌｐｒｅｆｅｒｅｎｃｅ；ｃｏｍｐｕｔａｔｉｏｎａｌａｒｇｕｍｅｎｔａｔｉｏｎ；ｐｒｅｆｅｒｅｎｃｅｄｅｃｏｕｐｌｉｎｇ收稿日期：２０１３⁃０６⁃１０．基金项目：．国家自然科学基金资助项目（７０９７１１３４）通信作者：王炎娟．Ｅ⁃ｍａｉｌ：．ｎｕｄｔｗｙｊ＠ｇｍａｉｌ．ｃｏｍ．行动序列（ＣＯＡ）问题来自军事学领域，由于其关于时间、动作等基本概念和问题结构与调度、规划有着众多相通之处，已经得到了人工智能领域研究

·552. 智能系统学报第9卷者的广泛关注网。C0A的基本要素是动作(ac 文献[14]对时序软约束下的规划展开研究，根据软 tion),动作可以由子动作组合得到，由此构成了动约束内容判定两个动作之间的可能关系：紧随、超前作的分层结构。如军事领域的“完成阵地转移”，医或不相关，为软约束设置偏好程度参数，根据以上因学领域的“完成一个阶段的化疗”，日常生活领域的素在每个时间点上搜索选择可用动作，随着时间点 “吃晚饭”，所描述的动作都对应了一种状态的转的推移完成规划。这两种研究存在共同点，即依赖换，而其中不涉及动作的组织方式、实施流程、具体偏好或软约束的强度值作为判定依据，在动态搜索的资源分配和管理。与动作的分层结构对应的，过程中获得满意度或排除过约束。与本文最相关的 COA问题也可以具有分层结构。很多情况下，为了是Blom6]的研究。在存在多种偏好，且偏好之间完成一定层次的战略规划，COA不需要在最底层的有冲突时，Blom首先使用非单调推理技术排除其中动作上展开。本文关注一类典型的“任务级COA问的冲突，获得最大一致性集合，在该集合基础上再进题”，即任务级的动作随时间安排实现预定目标的行决策或规划，决策或规划的搜索都是传统方式，通问题，重点是在多种偏好并存时如何获得高质量的过这种设计实现了“偏好解耦”，即规划过程与偏好 COA方案。决策理论中，偏好一般是指每个决策者的表示方式或偏好内容无关，这对于规划算法在不在面对几个事件或结果时选择其中一个事件或结果同问题领域的通用性意义重大。遗憾的是，Blom并的倾向性[3]COA的偏好问题也已经得到了研究者没有关注时序偏好。Blom使用的逻辑工具为计算的很多关注[4]。偏好来自C0A的参与者或者发辩论。计算辩论技术是自1990年以来逐渐发展成起者，虽然不构成强制约束力，但对于C0A生成方熟并得到众多关注的逻辑工具，其在人工智能中的案的质量至关重要。有研究者指出，规划方案的质应用见于文献[15]。量最优，除了要满足所有的约束条件之外，一定也是针对带有定性偏好的任务级COA规划问题，本对各种软约束（包括用户的偏好）有了最大程度的文首先将使用比较格式给出任务级COA中的约束满足【)。如何描述规划方案的质量，或者说，如何和偏好定义，基于比较格式的形式化，给出COA方定义对用户满意度的最大化，因偏好表示方法不同案的生成算法：然后使用计算辩论技术消除约束/偏而变化。可以知道，在使用定量偏好描述时，可以使好集合中的不一致性，给出偏好集合上的最大满意用定量的效能函数作为衡量。除常见的权重表示偏度定义，在此基础上完成COA方案的生成。最大化好，研究者后来发展出了区间数8]、模糊数[9]等定任务的收益也不是任务级COA的主要目的，它只需量表示方式。关于偏好的研究指出]，定性偏好要保证高质量地完成预设目标，不需要定量优化的比定量偏好更具有普遍性，很多时候用户使用自然能力，因此获得的是一个可行解集合，而非确定的单语言描述的复杂偏好关系，定量偏好是不能胜任表个解。本文的研究是传统任务调度问题和约束问题达的：随之而来的，定性偏好的使用使得定量的效能研究的有效补充，同时也探讨了定性偏好关系的形函数不再有效。式化表达方式和推理方式。任务级别COA问题与任务调度有相似之处，都 1 涉及到多方面的约束，如资源约束、能量约束定性偏好表示与任务级C0A规划等。偏好关系也是软约束之一。从满足尽可能以任务级动作为基本元素的C0A问题称为任多的限制条件、尽可能好地完成任务的角度来考虑，务级COA。下面首先给出任务级动作的定义及其任务级C0A与任务调度问题类似，同样具有约束满形式化表示。足问题(CSP)[2]的特征。但是任务级C0A对时间定义1（任务级动作）给定COA问题P,满足资源的调度具有突出的需求，如何时开始一个动作，以下条件的动作称为任务级动作：何时结束一个动作，如何合理安排动作之间的时序 1)动作的结果是一种确定的状态。和因果关系。任务级COA的约束满足不能通过一 2)动作可以拆分为多个子动作或者元动作实个单一的效能函数来表述和分析。现，子动作集合及其排序方式可能有多种已经有研究者对定性偏好相关的规划开展了研 3)动作之间没有目标的重叠，即：动作A引起究。文献[13]从满意度的角度设计规划策略，对每的状态变化，没有可能是可以由动作B实现的。一个偏好设置偏好强度值，对一个规划序列中的所定义2（任务级动作的形式化表示）动作由一有偏好进行运算生成衡量值，通过该衡量值选择最个三元组(s,g,t)表示。其中，s是动作主体，g是优序列。这里探讨的偏好不包括时序相关的偏好。动作受体，t是某种时间标记的集合，可以是一个时

者的广泛关注［１⁃２］。ＣＯＡ的基本要素是动作（ａｃ⁃ ｔｉｏｎ），动作可以由子动作组合得到，由此构成了动作的分层结构。如军事领域的“完成阵地转移”，医学领域的“完成一个阶段的化疗”，日常生活领域的 “吃晚饭”，所描述的动作都对应了一种状态的转换，而其中不涉及动作的组织方式、实施流程、具体的资源分配和管理。与动作的分层结构对应的，ＣＯＡ问题也可以具有分层结构。很多情况下，为了完成一定层次的战略规划，ＣＯＡ不需要在最底层的动作上展开。本文关注一类典型的“任务级ＣＯＡ问题”，即任务级的动作随时间安排实现预定目标的问题，重点是在多种偏好并存时如何获得高质量的ＣＯＡ方案。决策理论中，偏好一般是指每个决策者在面对几个事件或结果时选择其中一个事件或结果的倾向性［３］ＣＯＡ的偏好问题也已经得到了研究者的很多关注［４⁃６］。偏好来自ＣＯＡ的参与者或者发起者，虽然不构成强制约束力，但对于ＣＯＡ生成方案的质量至关重要。有研究者指出，规划方案的质量最优，除了要满足所有的约束条件之外，一定也是对各种软约束（包括用户的偏好）有了最大程度的满足［７］。如何描述规划方案的质量，或者说，如何定义对用户满意度的最大化，因偏好表示方法不同而变化。可以知道，在使用定量偏好描述时，可以使用定量的效能函数作为衡量。除常见的权重表示偏好，研究者后来发展出了区间数［８］、模糊数［９］等定量表示方式。关于偏好的研究指出［１０］，定性偏好比定量偏好更具有普遍性，很多时候用户使用自然语言描述的复杂偏好关系，定量偏好是不能胜任表达的；随之而来的，定性偏好的使用使得定量的效能函数不再有效。任务级别ＣＯＡ问题与任务调度有相似之处，都涉及到多方面的约束，如资源约束、能量约束等［１１］。偏好关系也是软约束之一。从满足尽可能多的限制条件、尽可能好地完成任务的角度来考虑，任务级ＣＯＡ与任务调度问题类似，同样具有约束满足问题（ＣＳＰ）［１２］的特征。但是任务级ＣＯＡ对时间资源的调度具有突出的需求，如何时开始一个动作，何时结束一个动作，如何合理安排动作之间的时序和因果关系。任务级ＣＯＡ的约束满足不能通过一个单一的效能函数来表述和分析。已经有研究者对定性偏好相关的规划开展了研究。文献［１３］从满意度的角度设计规划策略，对每一个偏好设置偏好强度值，对一个规划序列中的所有偏好进行运算生成衡量值，通过该衡量值选择最优序列。这里探讨的偏好不包括时序相关的偏好。文献［１４］对时序软约束下的规划展开研究，根据软约束内容判定两个动作之间的可能关系：紧随、超前或不相关，为软约束设置偏好程度参数，根据以上因素在每个时间点上搜索选择可用动作，随着时间点的推移完成规划。这两种研究存在共同点，即依赖偏好或软约束的强度值作为判定依据，在动态搜索过程中获得满意度或排除过约束。与本文最相关的是Ｂｌｏｍ［６］的研究。在存在多种偏好，且偏好之间有冲突时，Ｂｌｏｍ首先使用非单调推理技术排除其中的冲突，获得最大一致性集合，在该集合基础上再进行决策或规划，决策或规划的搜索都是传统方式，通过这种设计实现了“偏好解耦”，即规划过程与偏好的表示方式或偏好内容无关，这对于规划算法在不同问题领域的通用性意义重大。遗憾的是，Ｂｌｏｍ并没有关注时序偏好。Ｂｌｏｍ使用的逻辑工具为计算辩论。计算辩论技术是自１９９０年以来逐渐发展成熟并得到众多关注的逻辑工具，其在人工智能中的应用见于文献［１５］。针对带有定性偏好的任务级ＣＯＡ规划问题，本文首先将使用比较格式给出任务级ＣＯＡ中的约束和偏好定义，基于比较格式的形式化，给出ＣＯＡ方案的生成算法；然后使用计算辩论技术消除约束／偏好集合中的不一致性，给出偏好集合上的最大满意度定义，在此基础上完成ＣＯＡ方案的生成。最大化任务的收益也不是任务级ＣＯＡ的主要目的，它只需要保证高质量地完成预设目标，不需要定量优化的能力，因此获得的是一个可行解集合，而非确定的单个解。本文的研究是传统任务调度问题和约束问题研究的有效补充，同时也探讨了定性偏好关系的形式化表达方式和推理方式。１定性偏好表示与任务级ＣＯＡ规划以任务级动作为基本元素的ＣＯＡ问题称为任务级ＣＯＡ。下面首先给出任务级动作的定义及其形式化表示。定义１（任务级动作）给定ＣＯＡ问题Ｐ，满足以下条件的动作称为任务级动作：１）动作的结果是一种确定的状态。２）动作可以拆分为多个子动作或者元动作实现，子动作集合及其排序方式可能有多种３）动作之间没有目标的重叠，即：动作Ａ引起的状态变化，没有可能是可以由动作Ｂ实现的。定义２（任务级动作的形式化表示）动作由一个三元组（ｓ，ｇ，ｔ）表示。其中，ｓ是动作主体，ｇ是动作受体，ｔ是某种时间标记的集合，可以是一个时 ·５５２· 智能系统学报第９卷

第5期王炎娟，等：任务级行动序列问题中的定性偏好研究 ·553· 间点、时间间隔或某种时间标记。所有的动作集合性偏好。构成三元组集合(s,g,t)。定量表示的偏好值，一般用某属性的被偏好程为了表达逻辑的完备性，元素sg、t设置通配度表示，为0~1的某个正数，数字越大表示偏好程符~，表示对应的sg、1位置可以任意取值。形如度越强。举例来说，p(A)=0.3表示动作A的偏好 (~,g,t)的表达式包含了多个元动作：(s1,g,t), 值为0.3，如果有p(B)=0.6,那么显然B比A更受 (s2g,t),(s3,g,t)等。(s,~,t),(s,g,~)与此偏好。在进行选择时，只要知道p(B)>p(A)这一类似。任务级C0A问题的定性偏好可以划分为两事实即可，至于B的受偏好程度是0.6还是0.7，都类。第1种是与时序无关的静态偏好，或者称为动可以得到B>A这一结论，不影响决策者的判断。作间的属性偏好，即：因为动作某种属性被偏好，即：定性偏好恰好具有这种相对偏好的表达能力。特殊用户倾向于选择动作A还是动作B。第2种是动作地，如果没有能够与动作A进行比较的动作，那么间的时序或因果顺序偏好，即：用户偏好于动作A在可以知道：A>⊙。动作B之前，还是动作B在动作A之前，本文从另一当然，定性偏好能够表达的并不局限于这种数个角度表述为：倾向于先执行使用动作A,还是先执值基础上的相对关系，比如时序偏好。从语义覆盖行动作B.下面给出了定性偏好的归一化表示。性的角度，定性偏好的表达是涵盖定量偏好的。定义3（定性偏好的归一化表示）定性偏好由断言2定性偏好表达不能替代定量表达。三元组(S,G,T)中的两个元素和一个二元操作符定性表达的优势在于复杂语义的阐述，不能像 (>或>)组成，形式化表达如下：传统的定量优化算法那样得到具有优化指标的唯一 (s,8,4)>g（8）最优解，一般只能得到可行解集合。本文的思路是， (s,g,l)Dg)(,84）定性偏好的推理过程服务于定量偏好。比如，给定式中：>为连接两个三元组的支配关系，给出了两一组偏好集合，首先使用定性表达确定它们内部是个选项的静态比较；>为连接两个三元组的一个不是有冲突，即：这个偏好集合是不是能够共存的， “在前面”的语义关系，给出了一种因果关系或者时如果可以，那么就继续进行数值规划，给出优化指间的比较。每个表达式只对三元组中的一个元素进标：否则就继续寻找下一组偏好，不在没有可能的偏行比较，>或>都可以配备有下标s,g或t,表示好集合上浪费定量优化的计算资源。引起比较关系的有效元素。断言3任务级层次的偏好与软约束具有相同为了表达逻辑的完备性，为三元组定义一个的结构。 “空”状态Θ，用以表征一个“不被偏好”的虚拟动软约束是指不具有强制力的约束关系，自然语作，意为任意一个非空动作均可以对它构成二元关言理解为“建议满足”而非“必需满足”，这与偏好的系。如自然语言的偏好表述：“用户偏好于动作语义有相通之处。更进一步，在把偏好和约束并列 (s1,g1,1)”,没有特定的比较对象，可以表示为考察时，约束也应该具有与偏好对等的表达方式，因 (s1,81,41)>日。此后文将对偏好和约束进行归一化表示。软约束与偏好的表示方式多种多样。除了经典的定量表偏好的区别仅在于：偏好具有人的主观特性，而软约示之外，定性表示可以划分为C-P网络[、时序逻束可能来自事物本身的客观特征，文中不明确区分辑4)、比较格式1]等。定义3给出的是一种比较软约束和偏好，统称为偏好：而约束则是指有强制约格式的表达方式，秉承了Blom的理念：偏好本质上束力的硬约束。是一种二元关系，因而本文选择的是一种相对偏好定义4（约束和偏好的归一化表示）约束和偏表示。这是实现偏好解耦设计的关键。好可以统一为四元组表示：〈R,,山，k〉。其中，R 通过引入>符号，时序或因果偏好的形式化表为二元关系>或>，4：、山为前述定义的三元组，述可以与静态偏好统一到一个框架内：而空状态⊙ k为0表示硬约束，k为正数表示偏好，数字越大，偏和任意状态(~，~，~)的存在，可以把非典型的好程度越弱。二元关系也赋予一个二元比较关系方式。如，动作假设偏好之间，以及偏好和约束之间没有相互（~,~,~)D(S1,81,4)表示用户偏好于最后矛盾，那么可以执行算法1获得COA方案。执行动作(s1,81,1）。算法1由约束/偏好集合生成C0A方案的两在展开后续推导之前，给出3个断言。阶段算法2DOF-SLCOA。断言1任务级层次的定量偏好可以转换到定输入：静态约束/偏好集合Ex,,时序约束/偏

间点、时间间隔或某种时间标记。所有的动作集合构成三元组集合（ｓ，ｇ，ｔ）。为了表达逻辑的完备性，元素ｓ、ｇ、ｔ设置通配符～，表示对应的ｓ、ｇ、ｔ位置可以任意取值。形如（～，ｇ，ｔ）的表达式包含了多个元动作：（ｓ１，ｇ，ｔ），（ｓ２，ｇ，ｔ），（ｓ３，ｇ，ｔ）等。（ｓ，～，ｔ），（ｓ，ｇ，～）与此类似。任务级ＣＯＡ问题的定性偏好可以划分为两类。第１种是与时序无关的静态偏好，或者称为动作间的属性偏好，即：因为动作某种属性被偏好，即：用户倾向于选择动作Ａ还是动作Ｂ。第２种是动作间的时序或因果顺序偏好，即：用户偏好于动作Ａ在动作Ｂ之前，还是动作Ｂ在动作Ａ之前，本文从另一个角度表述为：倾向于先执行使用动作Ａ，还是先执行动作Ｂ．下面给出了定性偏好的归一化表示。定义３（定性偏好的归一化表示）定性偏好由三元组（Ｓ，Ｇ，Ｔ）中的两个元素和一个二元操作符（ ≻ 或 ▷ ）组成，形式化表达如下：（ｓｉ，ｇｉ，ｔｉ） ≻ｓ（ｇ，ｔ）（ｓｊ，ｇｊ，ｔｊ）（ｓｉ，ｇｉ，ｔｉ）▷ｓ（ｇ，ｔ）（ｓｊ，ｇｊ，ｔｊ）式中： ≻ 为连接两个三元组的支配关系，给出了两个选项的静态比较； ▷ 为连接两个三元组的一个 “在前面”的语义关系，给出了一种因果关系或者时间的比较。每个表达式只对三元组中的一个元素进行比较， ≻ 或 ▷ 都可以配备有下标ｓ，ｇ或ｔ，表示引起比较关系的有效元素。为了表达逻辑的完备性，为三元组定义一个 “空”状态 Θ ，用以表征一个“不被偏好” 的虚拟动作，意为任意一个非空动作均可以对它构成二元关系。如自然语言的偏好表述： “ 用户偏好于动作（ｓ１，ｇ１，ｔ１） ”，没有特定的比较对象，可以表示为（ｓ１，ｇ１，ｔ１） ≻ｓΘ 。偏好的表示方式多种多样。除了经典的定量表示之外，定性表示可以划分为Ｃ⁃Ｐ网络［１６］、时序逻辑［４］、比较格式［１７⁃１８］等。定义３给出的是一种比较格式的表达方式，秉承了Ｂｌｏｍ的理念：偏好本质上是一种二元关系，因而本文选择的是一种相对偏好表示。这是实现偏好解耦设计的关键。通过引入 ▷ 符号，时序或因果偏好的形式化表述可以与静态偏好统一到一个框架内；而空状态 Θ 和任意状态（～，～，～）的存在，可以把非典型的二元关系也赋予一个二元比较关系方式。如，动作（～，～，～）▷ｓ（ｇ，ｔ）（ｓ１，ｇ１，ｔ１）表示用户偏好于最后执行动作（ｓ１，ｇ１，ｔ１）。在展开后续推导之前，给出３个断言。断言１任务级层次的定量偏好可以转换到定性偏好。定量表示的偏好值，一般用某属性的被偏好程度表示，为０～１的某个正数，数字越大表示偏好程度越强。举例来说，ｐ（Ａ）＝０．３表示动作Ａ的偏好值为０．３，如果有ｐ（Ｂ）＝０．６，那么显然Ｂ比Ａ更受偏好。在进行选择时，只要知道ｐ（Ｂ）＞ｐ（Ａ）这一事实即可，至于Ｂ的受偏好程度是０．６还是０．７，都可以得到Ｂ ≻ Ａ这一结论，不影响决策者的判断。定性偏好恰好具有这种相对偏好的表达能力。特殊地，如果没有能够与动作Ａ进行比较的动作，那么可以知道：Ａ ≻ Θ 。当然，定性偏好能够表达的并不局限于这种数值基础上的相对关系，比如时序偏好。从语义覆盖性的角度，定性偏好的表达是涵盖定量偏好的。断言２定性偏好表达不能替代定量表达。定性表达的优势在于复杂语义的阐述，不能像传统的定量优化算法那样得到具有优化指标的唯一最优解，一般只能得到可行解集合。本文的思路是，定性偏好的推理过程服务于定量偏好。比如，给定一组偏好集合，首先使用定性表达确定它们内部是不是有冲突，即：这个偏好集合是不是能够共存的，如果可以，那么就继续进行数值规划，给出优化指标；否则就继续寻找下一组偏好，不在没有可能的偏好集合上浪费定量优化的计算资源。断言３任务级层次的偏好与软约束具有相同的结构。软约束是指不具有强制力的约束关系，自然语言理解为“建议满足”而非“必需满足”，这与偏好的语义有相通之处。更进一步，在把偏好和约束并列考察时，约束也应该具有与偏好对等的表达方式，因此后文将对偏好和约束进行归一化表示。软约束与偏好的区别仅在于：偏好具有人的主观特性，而软约束可能来自事物本身的客观特征，文中不明确区分软约束和偏好，统称为偏好；而约束则是指有强制约束力的硬约束。定义４（约束和偏好的归一化表示）约束和偏好可以统一为四元组表示：〈Ｒ，ｕｉ，ｕｊ，ｋ〉。其中，Ｒ为二元关系 ≻ 或 ▷ ，ｕｉ、ｕｊ为前述定义的三元组，ｋ为０表示硬约束，ｋ为正数表示偏好，数字越大，偏好程度越弱。假设偏好之间，以及偏好和约束之间没有相互矛盾，那么可以执行算法１获得ＣＯＡ方案。算法１由约束／偏好集合生成ＣＯＡ方案的两阶段算法２ＤＯＦ⁃ＳＬＣＯＡ。输入：静态约束／偏好集合Ｅｘ≻ ，时序约束／偏第５期王炎娟，等：任务级行动序列问题中的定性偏好研究 ·５５３·

·554. 智能系统学报第9卷好集合ExP 击)关系，即有R二A×A。输出：动作序列(COA规划方案) 在AF=(A,R)中，若A是有限集，称AF有限步骤1从静态约束集合Ex,中选择可用动作的，否则称为无限的。对于Ha,b∈A,aRb或(a, 集合。 b)∈R表示a攻击b;a、b间不存在攻击关系，表 1)基于Ex,中的元素构建有向图H、。对于示为aRb或(a,b)R,亦称a、b是无冲突的。R Ex,中每个约束/偏好关系，连接两个三元组的> (a)={b∈AI aRb}表示被a攻击的论据集，R 关系对应导向图中的一个边，相关的两个三元组则 (a)={b∈A1bRa}表示攻击a的论据集：对于论据是图中的节点.从不同约束/偏好关系中提出的同集SCA和论据b∈A,若3a∈S,使得aRb,则称一个三元组对应同一个节点，因此，某一个节点可能 S攻击a。同理，有Rw(S)=U.esRw(a)（w∈ 会有边界指向多个节点，也可能有多个节点的边界 {+,-})。指向它。论据集S(S二A),若Ha,b∈S,(a,b)R, 2)选择有向图H,中的优势节点，即：每个支链称S是无冲突的(conflict-free)。论据集S是无冲突的起始节点，置于一个集合U,中。的，满足Ha∈R-(S)→(3b∈S).bRa,称S为步骤2结合时序约束，得到调度方案。可容许集(admissible set)。 1)U,中的每一个元素u都被替换为一个时序 AF=(A,R)可以表示为有向图，称为攻击图约束关系>O,构成时序约束/偏好关系集合如图1所示的攻击图中A={a,b,c,d},R={(a U。。 c),(b,a),(c,b),(c,a),(d,c)}。由此可知， 2)基于U。和Ex。生成有向图H。.U。或ExD R,(c)={a,b}及R_(c)={a,d}。中的>优势关系被翻译成有向图的边，而与之相关联的三元组被放置在节点位置。对等的三元组只作为一个节点出现。 3)寻找H。中的可用序列。从一个根节点出发，追踪连续的链接关系形成一个节点序列。图1辩论框架 4)节点序列经解释或翻译得到动作序列。 Fig.1 Argumentation framework 2非单调偏好的处理和最大满意度根据Dung的扩展语义，该实例中的首选扩展对于一个进行COA规划的智能体来说，只要约集合为Sd={d,b}.该集合满足以下条件，也就是束和偏好之间没有任何的冲突，偏好的作用与约束首选扩展语义的定义：是相同的。然而，经常出现的情况是，约束/偏好集 1)Sd中的论据相互之间不冲突：合中会出现一个以上的冲突，此时就需要首先排除 2)S中的论据不会被其他论据工具；或者，不一致性，获得具有最大一致性的约束/偏好集合， 3)如果论据x∈Spm被另一个论据y生S攻才能继续推理得到规划方案。冲突关系数目较多击，那么必然有第3个论据：∈S满足Ry. 时，约束或偏好之间相互的优势关系错综复杂，简单概括来讲，辩论就是一个信念萃取的过程，排除的逻辑判断不能确定最大一致性。本文使用计算辩那些内含不一致性的选项，达成一个最大一致性。论[9]这一非单调推理工具来执行逻辑推理。在后续章节里，将其直接用于逻辑推理，不再涉及背 2.1辩论基础后的逻辑过程。 2.2论据定义这里简要介绍了Dung的辩论框架与相关的定义，读者可以参考文献[町以获取更多关于辩论为了进行辩论，首先是构造论据。每一个约束的内容。或偏好自然地形成一个论据。定义5任务级C0A中的论据定义。一个约辩论框架为辩论提供了形式化建模方法，建立束或偏好相关的论据被定义一个4元结构：一种处理不确定、不一致信息的基础。下面简要介 (kpeuu'krank) 绍Dung辩论框架及其相关性质。式中：、分别为约束定义中的三元组.k表征辩论框架通常定义为二元组AF=(A,R),其中了关系类型，即>或>。km对应了>或>的上 A表示论据集，R是定义在论据集A上的二元（攻标，即0或者一个表征软约束强度的正整数

好集合Ｅｘ▷ 输出：动作序列（ＣＯＡ规划方案）步骤１从静态约束集合Ｅｘ≻ 中选择可用动作集合。１）基于Ｅｘ≻ 中的元素构建有向图Ｈ≻ 。对于Ｅｘ≻ 中每个约束／偏好关系，连接两个三元组的 ≻ 关系对应导向图中的一个边，相关的两个三元组则是图中的节点．从不同约束／偏好关系中提出的同一个三元组对应同一个节点，因此，某一个节点可能会有边界指向多个节点，也可能有多个节点的边界指向它。２）选择有向图Ｈ≻ 中的优势节点，即：每个支链的起始节点，置于一个集合Ｕ≻ 中。步骤２结合时序约束，得到调度方案。１）Ｕ≻ 中的每一个元素ｕ都被替换为一个时序约束关系ｕ▷Θ ，构成时序约束／偏好关系集合Ｕ▷ 。２）基于Ｕ▷ 和Ｅｘ▷ 生成有向图Ｈ▷ ．Ｕ▷ 或Ｅｘ▷ 中的 ▷ 优势关系被翻译成有向图的边，而与之相关联的三元组被放置在节点位置。对等的三元组只作为一个节点出现。３）寻找Ｈ▷ 中的可用序列。从一个根节点出发，追踪连续的链接关系形成一个节点序列。４）节点序列经解释或翻译得到动作序列。２非单调偏好的处理和最大满意度对于一个进行ＣＯＡ规划的智能体来说，只要约束和偏好之间没有任何的冲突，偏好的作用与约束是相同的。然而，经常出现的情况是，约束／偏好集合中会出现一个以上的冲突，此时就需要首先排除不一致性，获得具有最大一致性的约束／偏好集合，才能继续推理得到规划方案。冲突关系数目较多时，约束或偏好之间相互的优势关系错综复杂，简单的逻辑判断不能确定最大一致性。本文使用计算辩论［１９］这一非单调推理工具来执行逻辑推理。２．１辩论基础这里简要介绍了Ｄｕｎｇ的辩论框架与相关的定义，读者可以参考文献［１９］以获取更多关于辩论的内容。辩论框架为辩论提供了形式化建模方法，建立一种处理不确定、不一致信息的基础。下面简要介绍Ｄｕｎｇ辩论框架及其相关性质。辩论框架通常定义为二元组ＡＦ＝（Ａ，Ｒ），其中Ａ表示论据集，Ｒ是定义在论据集Ａ上的二元（攻击）关系，即有Ｒ ⊆ Ａ × Ａ。在ＡＦ＝（Ａ，Ｒ）中，若Ａ是有限集，称ＡＦ有限的，否则称为无限的。对于 ∀ａ，ｂ ∈ Ａ，ａＲｂ或（ａ，ｂ） ∈ Ｒ表示ａ攻击ｂ；ａ、ｂ间不存在攻击关系，表示为ａＲｂ或（ａ，ｂ） ∉ Ｒ，亦称ａ、ｂ是无冲突的。Ｒ＋（ａ）＝｛ｂ ∈ Ａ｜ａＲｂ｝表示被ａ攻击的论据集，Ｒ－（ａ）＝｛ｂ ∈Ａ｜ｂＲａ｝表示攻击ａ的论据集；对于论据集Ｓ ⊆ Ａ和论据ｂ ∈ Ａ，若 ∃ａ ∈ Ｓ，使得ａＲｂ，则称Ｓ攻击ａ。同理，有Ｒω（Ｓ）＝∪ａ∈ＳＲω（ａ）（ ω ∈ ｛＋，－｝）。论据集Ｓ（Ｓ ⊆Ａ），若 ∀ａ，ｂ ∈Ｓ，（ａ，ｂ） ∉Ｒ，称Ｓ是无冲突的（ｃｏｎｆｌｉｃｔ⁃ｆｒｅｅ）。论据集Ｓ是无冲突的，满足 ∀ａ ∈ Ｒ－（Ｓ） → （∃ｂ ∈ Ｓ）．ｂＲａ，称Ｓ为可容许集（ａｄｍｉｓｓｉｂｌｅｓｅｔ）。ＡＦ＝（Ａ，Ｒ）可以表示为有向图，称为攻击图。如图１所示的攻击图中Ａ＝｛ａ，ｂ，ｃ，ｄ｝，Ｒ＝｛（ａ，ｃ），（ｂ，ａ），（ｃ，ｂ），（ｃ，ａ），（ｄ，ｃ）｝。由此可知，Ｒ＋（ｃ）＝｛ａ，ｂ｝及Ｒ－（ｃ）＝｛ａ，ｄ｝。图１辩论框架Ｆｉｇ．１Ａｒｇｕｍｅｎｔａｔｉｏｎｆｒａｍｅｗｏｒｋ根据Ｄｕｎｇ的扩展语义，该实例中的首选扩展集合为Ｓｐｒｅｆ＝｛ｄ，ｂ｝．该集合满足以下条件，也就是首选扩展语义的定义：１）Ｓｐｒｅｆ中的论据相互之间不冲突；２）Ｓｐｒｅｆ中的论据不会被其他论据工具；或者，３）如果论据ｘ ∈ Ｓｐｒｅｆ被另一个论据ｙ ∉ Ｓｐｒｅｆ攻击，那么必然有第３个论据ｚ ∈ Ｓｐｒｅｆ满足ｚＲｙ．概括来讲，辩论就是一个信念萃取的过程，排除那些内含不一致性的选项，达成一个最大一致性。在后续章节里，将其直接用于逻辑推理，不再涉及背后的逻辑过程。２．２论据定义为了进行辩论，首先是构造论据。每一个约束或偏好自然地形成一个论据。定义５任务级ＣＯＡ中的论据定义。一个约束或偏好相关的论据被定义一个４元结构：ｋｔｙｐｅ，ｕｆ，ｕｒ，ｋｒａｎｋ ( ) 式中：ｕｆ、ｕｒ分别为约束定义中的三元组．ｋｔｙｐｅ表征了关系类型，即 ≻ 或 ▷ 。ｋｒａｎｋ对应了 ≻ 或 ▷ 的上标，即０或者一个表征软约束强度的正整数。 ·５５４· 智能系统学报第９卷

第5期王炎娟，等：任务级行动序列问题中的定性偏好研究 ·555. 不包含通配符~的论据称为元论据。与此相对中，一些偏好会被约束或其他一些更高优先级的偏的，含有通配符~的论据可以通过把~对应的元素好关系击败，因而被剔除，留在集合Ex,和Ex。中进行枚举，分解为多个元论据。两个元论据之间的的就是最大兼容性的约束子集。攻击关系定义如下。断言5论据的首选扩展集合给出的用户最大定义6（论据间的攻击关系）给定两个元论据满意度集合。 a:=(,,,km),西=(，，叫，写) 2.4主要结果它们之间的关系定义如下。本节的主要结果总结在算法2和算法3中。 1)两论据a:和g是可比的，当且仅当=。算法2基于辩论解决偏好不一致性。 2)冲突关系：两论据被称为是冲突的，当且仅输入：一个任务级COA问题，已建立约束/偏好当它们是可比的，而且=4，=。集合。 3)攻击关系：论据a:攻击a,记为a,Ra,当输出：首选扩展集Ex,与ExD。且仅当a:与a冲突，并且km≤。 1)构造论据集合，包含通配符的论据拆分为元 2.3任务级C0A的辩论框架论据。接下来建立任务级COA问题的辩论框架。 2)在论据间进行搜索，构造攻击关系。定义7任务级C0A辩论框架TCOA-ARG。对 3)执行DUNG的首选辩论语义，获得首选扩展于一个TCOA-ARG问题，其辩论框架为一个三元集合Ex,和ExD。组,其中A为来自约束集合和偏好集如果Ex,或Ex。是空集，那就意味着静态或时合的论据，R为论据间的攻击关系，SL为获得辩论序约束中存在一些不能解决的冲突。因而不能获得结果的辩论语义。调度方案。否则，就可以进行下一阶段的工作，引用该框架与Blom的偏好解耦框架是一致的[6]」算法1构造COA可行解。区别仅在于，针对静态和时序约束存在两种二元关算法3带定性约束/偏好的任务级COA规划系，因此构造攻击关系时每种论据都是局限在自己 ARG-COA。的二元关系归类中。结果自然是每种攻击关系操作输入：一个任务级COA问题。符都有一个独立的辩论结果。本文使用的辩论语义输出：COA规划方案。 SL与Blom!6]相同，即SL为Dung]首选扩展语义。 1)建立定性约束/偏好集合。断言4TC0A-ARG的辩论结果是一个静态 2)执行算法2获取一致性约束/偏好集合Ex, (时序)约束的首选扩展集，也就是说，没有内部冲与Exp。突的静态（时序）约束的最大集，记为 3)执行算法1得到规划结果。 A=A>UAp 3 案例研究 sL,Ex A 文中以一种卫星的突发性任务观测为背景展开 Ap SL Exe 案例研究。卫星设计如目前正在运行的LAPAN- 式中：A,和A。分别为基于>或>的论据子集， TUBSAT0]。卫星装有视频摄像机，提供实时目标 E:x,和E。分别为从A,和A。推导出来的首选扩监控，无板载存储。展集合。研究次日有2颗卫星过境，兴趣目标有3个，每需要指出的是，每一个论据均对应了一个约束个卫星均有2个可操作时间窗口。表1给出了卫星或偏好，表达了2个动作之间的优势关系。在辩论的技术状态描述，表2给出了卫星的可见窗口描述。表1卫星技术状态描述 Table 1 Description of satellites'technical status 卫星编号可见孤段/min 分辨力成像波段与测控站距离 s 15 2048×2048 红外/可见光 2000 S2 8 762x576 可见光 1000

不包含通配符～的论据称为元论据。与此相对的，含有通配符～的论据可以通过把～对应的元素进行枚举，分解为多个元论据。两个元论据之间的攻击关系定义如下。定义６（论据间的攻击关系）给定两个元论据ａｉ＝ｋｔｙｐｅｉ，ｕｆｉ，ｕｒｉ，ｋｒａｎｋｉ ( ) ，ａｊ＝ｋｔｙｐｅｊ，ｕｆｊ，ｕｒｊ，ｋｒａｎｋｊ ( ) 它们之间的关系定义如下。１）两论据ａｉ和ａｊ是可比的，当且仅当ｋｔｙｐｅｉ＝ｋｔｙｐｅｊ。２）冲突关系：两论据被称为是冲突的，当且仅当它们是可比的，而且ｕｆｉ＝ｕｒｊ，ｕｒｉ＝ｕｆｊ。３）攻击关系：论据ａｉ攻击ａｊ，记为ａｉＲ＿ａｊ，当且仅当ａｉ与ａｊ冲突，并且ｋｒａｎｋｉ ≤ ｋｒａｎｋｊ。２．３任务级ＣＯＡ的辩论框架接下来建立任务级ＣＯＡ问题的辩论框架。定义７任务级ＣＯＡ辩论框架ＴＣＯＡ⁃ＡＲＧ。对于一个ＴＣＯＡ⁃ＡＲＧ问题，其辩论框架为一个三元组＜Ａ，Ｒ，ＳＬ＞，其中Ａ为来自约束集合和偏好集合的论据，Ｒ为论据间的攻击关系，ＳＬ为获得辩论结果的辩论语义。该框架与Ｂｌｏｍ的偏好解耦框架是一致的［６］，区别仅在于，针对静态和时序约束存在两种二元关系，因此构造攻击关系时每种论据都是局限在自己的二元关系归类中。结果自然是每种攻击关系操作符都有一个独立的辩论结果。本文使用的辩论语义ＳＬ与Ｂｌｏｍ［６］相同，即ＳＬ为Ｄｕｎｇ［１９］首选扩展语义。断言４ＴＣＯＡ⁃ＡＲＧ的辩论结果是一个静态（时序）约束的首选扩展集，也就是说，没有内部冲突的静态（时序）约束的最大集，记为Ａ＝Ａ≻∪ Ａ▷ Ａ≻ ＳＬ→ Ｅｘ≻ Ａ▷ ＳＬ→ Ｅｘ▷ 式中：Ａ≻ 和Ａ▷ 分别为基于 ≻ 或 ▷ 的论据子集，Ｅｘ≻ 和Ｅｘ▷ 分别为从Ａ≻ 和Ａ▷ 推导出来的首选扩展集合。需要指出的是，每一个论据均对应了一个约束或偏好，表达了２个动作之间的优势关系。在辩论中，一些偏好会被约束或其他一些更高优先级的偏好关系击败，因而被剔除，留在集合Ｅｘ≻ 和Ｅｘ▷ 中的就是最大兼容性的约束子集。断言５论据的首选扩展集合给出的用户最大满意度集合。２．４主要结果本节的主要结果总结在算法２和算法３中。算法２基于辩论解决偏好不一致性。输入：一个任务级ＣＯＡ问题，已建立约束／偏好集合。输出：首选扩展集Ｅｘ≻ 与Ｅｘ▷ 。１）构造论据集合，包含通配符的论据拆分为元论据。２）在论据间进行搜索，构造攻击关系。３）执行ＤＵＮＧ的首选辩论语义，获得首选扩展集合Ｅｘ≻ 和Ｅｘ▷ 。如果Ｅｘ≻ 或Ｅｘ▷ 是空集，那就意味着静态或时序约束中存在一些不能解决的冲突。因而不能获得调度方案。否则，就可以进行下一阶段的工作，引用算法１构造ＣＯＡ可行解。算法３带定性约束／偏好的任务级ＣＯＡ规划ＡＲＧ⁃ＣＯＡ。输入：一个任务级ＣＯＡ问题。输出：ＣＯＡ规划方案。１）建立定性约束／偏好集合。２）执行算法２获取一致性约束／偏好集合Ｅｘ≻ 与Ｅｘ▷ 。３）执行算法１得到规划结果。３案例研究文中以一种卫星的突发性任务观测为背景展开案例研究。卫星设计如目前正在运行的ＬＡＰＡＮ⁃ ＴＵＢＳＡＴ［２０］。卫星装有视频摄像机，提供实时目标监控，无板载存储。研究次日有２颗卫星过境，兴趣目标有３个，每个卫星均有２个可操作时间窗口。表１给出了卫星的技术状态描述，表２给出了卫星的可见窗口描述。表１卫星技术状态描述Ｔａｂｌｅ１Ｄｅｓｃｒｉｐｔｉｏｎｏｆｓａｔｅｌｌｉｔｅｓ’ ｔｅｃｈｎｉｃａｌｓｔａｔｕｓ卫星编号可见弧段／ｍｉｎ分辨力成像波段与测控站距离Ｓ１１５２０４８×２０４８红外／可见光２０００Ｓ２８７６２×５７６可见光１０００第５期王炎娟，等：任务级行动序列问题中的定性偏好研究 ·５５５·

.556. 智能系统学报第9卷表2卫星可操控时间列表 Table 2 List of satellite's time widow for operation 卫星操作时间窗口 S [15:4015:55]am [17:1017:30]am S2 [9:409:55]am [11:0011:10]am 把观测任务视为COA问题，考察以下类型偏好。进入阴影区，在下一个任务之前不能充分充电。 1)目标的价值有优先级，用户在白天要首先观 (C2)(s1,g3,#)D8(s1,g3,45.o0pm) 察到优先级高的目标。现在可以综合(P1)~(P10)和(C1)~(C2), 2)根据地面测控站的要求，对同一个目标执行执行辩论并完成任务级COA方案。观测动作时，希望使用能提供较长可见弧段的卫星。从偏好构建论据时，还需要确定偏好自身的优 3)考虑到卫星的能量储备，在进行观测时，优先先级。在本案例中，根据偏好的提出者来确定Arank 考虑姿态机动小、耗费能量少的卫星。这个值。卫星运营商、卫星设计方和用户提出的偏 4)对同一目标成像，用户喜欢高分辨率的图像。好关系将分别有3、2和1的优先级。当然，从约束 5)对某目标成像时，用户希望首先得到低分辨构造的论据都具有0的优先级。率图像，再获得高分辨率图像，方便图像判读。 1)论据构建 6)从用户角度，监视运动目标具有更高优先级。 (P1):a1=[D,(~,g1,~）,(~,#,~),1] 7)从传输信道的稳定性来讲，希望使用距离测 (P2):a2=[D,（~,#~),(~,82,~）,1] 控站距离近的卫星进行观测。 (P3):a3=[>,(s2,~,~）,($2,~,~),3] 8)进行森林火灾目标的检测时，更希望使用配 (P4):a4=[>,(s1,8,~),(s181,~),2] 备红外相机的卫星。 (P5):a5=[>,(s1,~,~),（1,~,）,1] 下面根据以上规则给出各偏好的形式化表达。 (P6):a6=[>,(s2,#,~),(s1,#,~),1] 目标优先级偏好：目标g,的优先级最高，而目 (P7):a,=[>,(~g1,~),（~,g1,~),1] 标g,的优先级最低，因而有 (P8):ag=[>,Θ，(s1,g1,~）,1] (P1)（~81,)D(~,#,~) (P9):ag=[>,(s2,81,~),(52g1,~）,1] (P2)(~,#,~)D(~,82,~) (P10):a2=【>,(s2,82,#),(32,82,#),0] 可用测控弧段偏好： (C1):a0=[D,（~,~,0mw),（~g3,7t0mm),0] (P3)(s2,~,~)>（72,~,~) (C2):a4=[D,(s1,g3,#),(s1,g3,5.o0rw),0] 姿态机动能量偏好： 2)攻击关系构建 (P4)(s1,83,~）>(s1,81,~) 记成像分辨率偏好： A>={a3,a4,a5,a7,ag,ag,a12} (P5)(s1,~,~)>(51,~,~) Ac={a1,a2,a6,a10,a14} 低、高分辨率切换顺序偏好： A。内部没有冲突，因此，Ex。=A。·而对于A,则 (P6)(s2,,~)D(s1,~,~) 需要执行一个辩论过程以获得Ex,。移动目标监视偏好：论据a,拆分为 (P7)(~,g1,~）>（,7g1,~) 信道传输质量偏好： a5=[>,(s1,7g2,~),(s1,g2,~),1] a=[>,(s1g2,~),(5182,~),1] (P8)Θ>(51,81，~）输出帧率偏好： a3=[>,(s1,(g11g2）,~), (P9)(s281,~）>(5281,~) （51,(g1g2),~),1] 成像谱段偏好：目标g2处于森林火险等级较论据a,拆分为高的区域，优先考虑使用红外相机观测，即 a=[>,(s1,81,~),(s1,7g1,~),1] (P10)(52,g2,-)>(2,~,~) a7=[>,(s2,g1,~）,(s2,g1,~）,1] 下面给出3个约束关系。据气象预报，上午10 得到攻击关系如下：时前目标g,被云层覆盖，不能被观测到。 asRa3,aRas,anRas,agRas,agRa (C1)(~,83,410.0aw)D(~,g3,~) 3)辩论结果由于卫星自身的限制，次日下午5：00后卫星s1 依据攻击关系构成的导向图如图2所示。不应该被用于目标g,的观测，因为那时卫星会马上

表２卫星可操控时间列表Ｔａｂｌｅ２Ｌｉｓｔｏｆｓａｔｅｌｌｉｔｅ’ｓｔｉｍｅｗｉｄｏｗｆｏｒｏｐｅｒａｔｉｏｎ卫星操作时间窗口Ｓ１［１５：４０１５：５５］ａｍ［１７：１０１７：３０］ａｍＳ２［９：４０９：５５］ａｍ［１１：００１１：１０］ａｍ把观测任务视为ＣＯＡ问题，考察以下类型偏好。１）目标的价值有优先级，用户在白天要首先观察到优先级高的目标。２）根据地面测控站的要求，对同一个目标执行观测动作时，希望使用能提供较长可见弧段的卫星。３）考虑到卫星的能量储备，在进行观测时，优先考虑姿态机动小、耗费能量少的卫星。４）对同一目标成像，用户喜欢高分辨率的图像。５）对某目标成像时，用户希望首先得到低分辨率图像，再获得高分辨率图像，方便图像判读。６）从用户角度，监视运动目标具有更高优先级。７）从传输信道的稳定性来讲，希望使用距离测控站距离近的卫星进行观测。８）进行森林火灾目标的检测时，更希望使用配备红外相机的卫星。下面根据以上规则给出各偏好的形式化表达。目标优先级偏好：目标ｇ１的优先级最高，而目标ｇ２的优先级最低，因而有（Ｐ１）（～，ｇ１，～）▷ｇ（～，＃，～）（Ｐ２）（～，＃，～）▷ｇ（～，ｇ２，～）可用测控弧段偏好：（Ｐ３）（ｓ２，～，～） ≻ｓ（¬ ｓ２，～，～）姿态机动能量偏好：（Ｐ４）（ｓ１，ｇ３，～） ≻ｇ（ｓ１，ｇ１，～）成像分辨率偏好：（Ｐ５）（ｓ１，～，～） ≻ｓ（¬ ｓ１，～，～）低、高分辨率切换顺序偏好：（Ｐ６）（ｓ２，～，～）▷ｓ（ｓ１，～，～）移动目标监视偏好：（Ｐ７）（～，ｇ１，～） ≻ｇ（～，¬ ｇ１，～）信道传输质量偏好：（Ｐ８） Θ ≻ｓ（ｓ１，ｇ１，～）输出帧率偏好：（Ｐ９）（ｓ２，ｇ１，～） ≻ｓ（¬ ｓ２，ｇ１，～）成像谱段偏好：目标ｇ２处于森林火险等级较高的区域，优先考虑使用红外相机观测，即（Ｐ１０）（ｓ２，ｇ２，～） ≻０ｓ（¬ ｓ２，～，～）下面给出３个约束关系。据气象预报，上午１０时前目标ｇ３被云层覆盖，不能被观测到。（Ｃ１）（～，ｇ３，ｔ１０：００ＡＭ）▷０ｔ（～，ｇ３，～）由于卫星自身的限制，次日下午５：００后卫星ｓ１不应该被用于目标ｇ３的观测，因为那时卫星会马上进入阴影区，在下一个任务之前不能充分充电。（Ｃ２）（ｓ１，ｇ３，＃）▷０ｔ（ｓ１，ｇ３，ｔ５：００ＰＭ）现在可以综合（Ｐ１）～（Ｐ１０）和（Ｃ１）～（Ｃ２），执行辩论并完成任务级ＣＯＡ方案。从偏好构建论据时，还需要确定偏好自身的优先级。在本案例中，根据偏好的提出者来确定Ａｒａｎｋ这个值。卫星运营商、卫星设计方和用户提出的偏好关系将分别有３、２和１的优先级。当然，从约束构造的论据都具有０的优先级。１）论据构建（Ｐ１）：ａ１＝ [▷，（～，ｇ１，～），（～，＃，～），１] （Ｐ２）：ａ２＝ [▷，（～，＃～），（～，ｇ２，～），１] （Ｐ３）：ａ３＝ ≻，（ｓ２，～，～），（¬ ｓ [ ２，～，～），３] （Ｐ４）：ａ４＝ ≻，（ｓ１，ｇ３，～），（ｓ [ １，ｇ１，～），２] （Ｐ５）：ａ５＝ ≻，（ｓ１，～，～），（¬ ｓ [ １，～，～），１] （Ｐ６）：ａ６＝ ▷，（ｓ２，＃，～），（ｓ [ １，＃，～），１] （Ｐ７）：ａ７＝ [≻，（～，ｇ１，～），（～，¬ ｇ１，～），１] （Ｐ８）：ａ８＝ ≻，Θ，（ｓ [ １，ｇ１，～），１] （Ｐ９）：ａ９＝ ≻，（ｓ２，ｇ１，～），（¬ ｓ [ ２，ｇ１，～），１] （Ｐ１０）：ａ１２＝ ≻，（ｓ２，ｇ２，＃），（¬ ｓ [ ２，ｇ２，＃），０] （Ｃ１）：ａ１０＝ ▷，（～，～，ｔ１０：００ＡＭ），（～，ｇ３，¬ ｔ [ １０：００ＡＭ），０] （Ｃ２）：ａ１４＝ ▷，（ｓ１，ｇ３，＃），（ｓ１，ｇ３，ｔ [ ５：００ＰＭ），０] ２）攻击关系构建记Ａ≻ ＝ａ３，ａ４，ａ５，ａ７，ａ８，ａ９，ａ１２ { } Ａ▷ ＝ａ１，ａ２，ａ６，ａ１０，ａ１４ { } Ａ▷ 内部没有冲突，因此，Ｅｘ▷ ＝Ａ▷ ．而对于Ａ≻ 则需要执行一个辩论过程以获得Ｅｘ≻ 。论据ａ５拆分为ａ１５＝ ≻，（ｓ１，¬ ｇ２，～），（¬ ｓ [ １，¬ ｇ２，～），１] ａ２５＝ ≻，（ｓ１，ｇ２，～），（¬ ｓ [ １，ｇ２，～），１] ａ３５＝［≻，（ｓ１，¬ （ｇ１｜ｇ２），～），（¬ ｓ１，¬ （ｇ１｜ｇ２），～），１］论据ａ７拆分为ａ１７＝ ≻，（ｓ１，ｇ１，～），（ｓ [ １，¬ ｇ１，～），１] ａ２７＝ ≻，（ｓ２，ｇ１，～），（ｓ [ ２，¬ ｇ１，～），１] 得到攻击关系如下：ａ５Ｒａ３，ａ７Ｒａ４，ａ１２Ｒａ２５，ａ９Ｒａ１５，ａ８Ｒａ１７３）辩论结果依据攻击关系构成的导向图如图２所示。 ·５５６· 智能系统学报第９卷

第5期王炎娟，等：任务级行动序列问题中的定性偏好研究 ·557. 选择H、中的优势节点（攻击其他节点，而自己不被攻击的节点)构造集合U, a 4, U3 图2攻击关系导向图（52,~,~Xs2,g1,~）(51,g3,~)(~,82,#) Fig.2 Directed graph on attack relation 山1，山2，山3，山4等元素实际上均对应了多个三元组，相 A,的首选扩展容易从图中获得：互之间有交叉重合的部分，这些三元组被认为是真 Ex>=(a3,as,a,as,ao,an 4)构造有向图H 正能够起作用的部分，定义为U,: H,绘制如图3。 (62）(g） u2 u3 (1g） (g,#) (s2,81,#)(51,83,#)（52,82,#) (#,,） (⑤，g）(52g）（S18Sg1-）(S1g） 5)构造有向图H。图3有向图H、基于EX。和U,构造H。如图4所示。 Fig.3 Directed graph H (g一） (5n#,）（,ta0d (g,#) (51g, G1g)）(g制6g判 (8） (③，#） (omm) ⊙ ⊙ ⊙ 图4有向图Hp Fig.4 Directed graph H 6)构造C0A方案这意味着，操作员应该使用卫星$2在观测g2之接下来的求解步骤是通过合并节点获得动作序前观测g1:同时，应使用卫星s1观测目标g3,时间在列片段。对于虚线左侧的节点，尝试从虚线右侧找上午10时至下午5时之间。到匹配的节点，使得一个攻击链上相同位置的通配结合操控时间窗口分布，得到了调度方案如下符可以由相同的确定元素替代。例如，所示： (~,81,~),(~,g2,~)处于同一个攻击链中，而 (s2,81,[9:40,9:50]am）→ 在右侧，(52，g1,~),(52,g2,~)能够与他们匹 (s2,g2,[11:00,11:10]am）→ 配；而下一个攻击链(s2,#,~),(s1,#,~)则不能 (s1,83,15:40,15:55]) 从右侧找到一组元素来匹配与之匹配。最后得到匹在解决过程中可以看到从模糊语义经过标定和配结果如图5所示。校正逐步细化的过程。下面将本文的ARG-C0A算法与文献[21]中的 (Sigifiomam) WS数值优化算法进行对比。 (S2g1,#) 基于本文的背景案例生成3个测试集，分别包 (518,#) 含不同数目的约束和偏好，如表3所示。由于WSI 算法不支持时序关系求解，因此偏好只设定静态偏 (⑤2-8，#) 好。使用W$算法时，把偏好也作为约束统一求 (S:8lsmm 解，以无冲突约束和偏好的强度值之和为指标函数图5动作序列匹配结果图值，指标大于0的约束/偏好集合均为可行解。在同 Fig.5 Matched directed graph 样的处理平台上进行对比计算，结果如表3所示

图２攻击关系导向图Ｆｉｇ．２ＤｉｒｅｃｔｅｄｇｒａｐｈｏｎａｔｔａｃｋｒｅｌａｔｉｏｎＡ≻ 的首选扩展容易从图中获得：Ｅｘ≻ ＝ａ３，ａ４，ａ２７，ａ８，ａ９，ａ１２ { } ４）构造有向图Ｈ≻ Ｈ≻ 绘制如图３。图３有向图Ｈ≻ Ｆｉｇ．３ＤｉｒｅｃｔｅｄｇｒａｐｈＨ≻ 选择Ｈ≻ 中的优势节点（攻击其他节点，而自己不被攻击的节点）构造集合Ｕ≻ ｕ１ｕ２ｕ３ｕ４（ｓ２，～，～）（ｓ２，ｇ１，～）（ｓ１，ｇ３，～）（～，ｇ２，＃）ｕ１，ｕ２，ｕ３，ｕ４等元素实际上均对应了多个三元组，相互之间有交叉重合的部分，这些三元组被认为是真正能够起作用的部分，定义为Ｕ～ ≻ ：ｕ～２ｕ～３ｕ～４（ｓ２，ｇ１，＃）（ｓ１，ｇ３，＃）（ｓ２，ｇ２，＃）５）构造有向图Ｈ▷ 基于ＥＸ▷ 和Ｕ～ ≻ 构造Ｈ▷ 如图４所示。图４有向图Ｈ▷ Ｆｉｇ．４ＤｉｒｅｃｔｅｄｇｒａｐｈＨ▷ ６）构造ＣＯＡ方案接下来的求解步骤是通过合并节点获得动作序列片段。对于虚线左侧的节点，尝试从虚线右侧找到匹配的节点，使得一个攻击链上相同位置的通配符可以由相同的确定元素替代。例如， ( ～，ｇ１，～ ) ，( ～，ｇ２，～ ) 处于同一个攻击链中，而在右侧，ｓ( ２，ｇ１，～ ) ，ｓ( ２，ｇ２，～ ) 能够与他们匹配；而下一个攻击链ｓ( ２，＃，～ ) ，ｓ( １，＃，～ ) 则不能从右侧找到一组元素来匹配与之匹配。最后得到匹配结果如图５所示。图５动作序列匹配结果图Ｆｉｇ．５Ｍａｔｃｈｅｄｄｉｒｅｃｔｅｄｇｒａｐｈ这意味着，操作员应该使用卫星ｓ２在观测ｇ２之前观测ｇ１；同时，应使用卫星ｓ１观测目标ｇ３，时间在上午１０时至下午５时之间。结合操控时间窗口分布，得到了调度方案如下所示：（ｓ２，ｇ１，［９：４０，９：５０］ａｍ） → （ｓ２，ｇ２，［１１：００，１１：１０］ａｍ） → （ｓ１，ｇ３，［１５：４０，１５：５５］）在解决过程中可以看到从模糊语义经过标定和校正逐步细化的过程。下面将本文的ＡＲＧ⁃ＣＯＡ算法与文献［２１］中的ＷＳＩ数值优化算法进行对比。基于本文的背景案例生成３个测试集，分别包含不同数目的约束和偏好，如表３所示。由于ＷＳＩ算法不支持时序关系求解，因此偏好只设定静态偏好。使用ＷＳＩ算法时，把偏好也作为约束统一求解，以无冲突约束和偏好的强度值之和为指标函数值，指标大于０的约束／偏好集合均为可行解。在同样的处理平台上进行对比计算，结果如表３所示。第５期王炎娟，等：任务级行动序列问题中的定性偏好研究 ·５５７·

.558. 智能系统学报第9卷表3ARG-COA和WSI算法时的数值仿真对比 Table 3 Comparing the simulating results of ARG-COA and WSI 测试集1 测试集2 测试集3 约束数目 3 5 9 偏好数目 10 12 16 冲突数目 6 9 2 可行解数目 4 2 1 WSI获得可行解的时间/s 0.9.1.4 1.6.1.8 3.1 ARG-COA获得可行解的时间/s 1.1 1.2 1.3 WSI对约束/偏好的遍历次数 149 403 1413 ARG-COA对约束/偏好的遍历次数 91 153 325 仿真计算结果表明： 4 结束语 1)随着约束/偏好数目的增加，获得可行解的时间越来越长，但是WSI算法的时间增量更大。本文对任务级的COA问题开展研究，针对其中 2)WSI算法比ARG-COA算法对约束/偏好进的定性偏好进行了建模，闭关完成了COA方案生成行遍历次数要多，而且随着冲突数目的增加，两者的算法设计，以及在偏好与约束关系存在不一致性时差距越来越大。如何通过非单调推理获得最大一致性，最后形成了 3)WSI算法能够更早获得可行解，但是所有的任务级COA问题求解的两阶段算法。辩论工具的可行解是要依次获得的，这是由搜索过程决定的：而使用，一方面实现了偏好解耦，算法的设计具有了领 ARG-COA算法则是同步获得全部可行解的，花费较域无关的推广能力：另一个潜在好处是能够提供用少时间。户交互参与规划过程的可能性。本文的研究结果是前文指出，定性偏好也并不能替代定量偏好，同以定量优化为主的传统任务规划研究的有效补充。理，基于辩论的算法并不能替代定量优化算法。将来的研究将着力于与传统定量规划算法的结合， ARG-COA算法所获得的可行解，都是用户满意度意并逐步把任务级COA向动作级COA扩展，形成用义下的最优解。在算法1步骤2的3)子步骤，可能户满意度和资源约束满足均达到最优、具有用户交会在一些节点处出现分支，此时任何一个分支都对互能力的COA规划方法。应一个可行解，ARG-COA算法并不能从中选出惟一参考文献：的最优解，而这种“优中选优”是W$I优化算法可以胜任的。因此，两种算法的相互结合可达到互补的 [1]FERGUSON R W,RASCH R A,TURMEL W,et al.Quali- 效果：首先使用辩论算法排除确实不可能有解的偏 tative spatial interpretation of course-of-action diagrams [C] 好集合，然后再应用定量优化算法完成COA规划。 //Proceedings of the National Conference on Artificial Intel- ligence.AAAI Press,2000:1119-1120. 这将是后续研究关注的重点。 [2]FORBUS K D,USHER J,CHAPMAN V.Sketching for mil- 计算辩论工具不但能够给出推理结论，还能够 itary courses of action diagrams [C]//Proceedings of the 把推理过程展现给用户，因而进行COA的软件智能 8th International Conference on Intelligent user Interfaces. 体可以向用户表明，哪一个偏好被排除了，或者由于 ACM.2003:61-68. 用户过分强调哪一个偏好导致COA无法求解。由 [3]SLOVIC P.The construction of preference[J].American 于用户往往不是专业人员，对领域COA认识存在不 Psychologist.1995.50(5):364-371. 足，提出的偏好很可能不尽合理。当辩论过程给出 [4]BIENVENU M,MCILRAITH S.Qualitative dynamical pref- 反馈意见时，用户可以对自己的需求进行调整。如 erences in the situation calculus[C]//Multidisciplinary IJ- 案例中用户提出的某种偏好优先级默认为1，在发 CAl-05 Workshop on Advances in Preference Handling. 2005:30-35. 生冲突时可能会排除掉一些优先级为2，或3的关 [5]BIENVENU M,FRITZ C,MCILRAITH S A.Planning with 系，这可能是用户意料之外的，用户可以把自己偏好 qualitative temporal preferences [C]//Proceedings of the 的优先级更改为2或3，重新进行推理，从而允许某 10th International Conference on Principles of Knowledge 些动作。这种人机交互式的推理将是未来研究方向 Representation and Reasoning (KR).Lake District,UK, 之一。 2006:134-144

表３ＡＲＧ⁃ＣＯＡ和ＷＳＩ算法时的数值仿真对比Ｔａｂｌｅ３ＣｏｍｐａｒｉｎｇｔｈｅｓｉｍｕｌａｔｉｎｇｒｅｓｕｌｔｓｏｆＡＲＧ⁃ＣＯＡａｎｄＷＳＩ测试集１测试集２测试集３约束数目３５９偏好数目１０１２１６冲突数目６９１２可行解数目４２１ＷＳＩ获得可行解的时间／ｓ０．９，１．４１．６，１．８３．１ＡＲＧ⁃ＣＯＡ获得可行解的时间／ｓ１．１１．２１．３ＷＳＩ对约束／偏好的遍历次数１４９４０３１４１３ＡＲＧ⁃ＣＯＡ对约束／偏好的遍历次数９１１５３３２５仿真计算结果表明：１）随着约束／偏好数目的增加，获得可行解的时间越来越长，但是ＷＳＩ算法的时间增量更大。２）ＷＳＩ算法比ＡＲＧ⁃ＣＯＡ算法对约束／偏好进行遍历次数要多，而且随着冲突数目的增加，两者的差距越来越大。３）ＷＳＩ算法能够更早获得可行解，但是所有的可行解是要依次获得的，这是由搜索过程决定的；而ＡＲＧ⁃ＣＯＡ算法则是同步获得全部可行解的，花费较少时间。前文指出，定性偏好也并不能替代定量偏好，同理，基于辩论的算法并不能替代定量优化算法。ＡＲＧ⁃ＣＯＡ算法所获得的可行解，都是用户满意度意义下的最优解。在算法１步骤２的３）子步骤，可能会在一些节点处出现分支，此时任何一个分支都对应一个可行解，ＡＲＧ⁃ＣＯＡ算法并不能从中选出惟一的最优解，而这种“优中选优”是ＷＳＩ优化算法可以胜任的。因此，两种算法的相互结合可达到互补的效果：首先使用辩论算法排除确实不可能有解的偏好集合，然后再应用定量优化算法完成ＣＯＡ规划。这将是后续研究关注的重点。计算辩论工具不但能够给出推理结论，还能够把推理过程展现给用户，因而进行ＣＯＡ的软件智能体可以向用户表明，哪一个偏好被排除了，或者由于用户过分强调哪一个偏好导致ＣＯＡ无法求解。由于用户往往不是专业人员，对领域ＣＯＡ认识存在不足，提出的偏好很可能不尽合理。当辩论过程给出反馈意见时，用户可以对自己的需求进行调整。如案例中用户提出的某种偏好优先级默认为１，在发生冲突时可能会排除掉一些优先级为２，或３的关系，这可能是用户意料之外的，用户可以把自己偏好的优先级更改为２或３，重新进行推理，从而允许某些动作。这种人机交互式的推理将是未来研究方向之一。４结束语本文对任务级的ＣＯＡ问题开展研究，针对其中的定性偏好进行了建模，闭关完成了ＣＯＡ方案生成算法设计，以及在偏好与约束关系存在不一致性时如何通过非单调推理获得最大一致性，最后形成了任务级ＣＯＡ问题求解的两阶段算法。辩论工具的使用，一方面实现了偏好解耦，算法的设计具有了领域无关的推广能力；另一个潜在好处是能够提供用户交互参与规划过程的可能性。本文的研究结果是以定量优化为主的传统任务规划研究的有效补充。将来的研究将着力于与传统定量规划算法的结合，并逐步把任务级ＣＯＡ向动作级ＣＯＡ扩展，形成用户满意度和资源约束满足均达到最优、具有用户交互能力的ＣＯＡ规划方法。参考文献：［１］ＦＥＲＧＵＳＯＮＲＷ，ＲＡＳＣＨＲＡ，ＴＵＲＭＥＬＷ，ｅｔａｌ．Ｑｕａｌｉ⁃ ｔａｔｉｖｅｓｐａｔｉａｌｉｎｔｅｒｐｒｅｔａｔｉｏｎｏｆｃｏｕｒｓｅ⁃ｏｆ⁃ａｃｔｉｏｎｄｉａｇｒａｍｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌ⁃ ｌｉｇｅｎｃｅ．ＡＡＡＩＰｒｅｓｓ，２０００：１１１９⁃１１２０．［２］ＦＯＲＢＵＳＫＤ，ＵＳＨＥＲＪ，ＣＨＡＰＭＡＮＶ．Ｓｋｅｔｃｈｉｎｇｆｏｒｍｉｌ⁃ ｉｔａｒｙｃｏｕｒｓｅｓｏｆａｃｔｉｏｎｄｉａｇｒａｍｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔｕｓｅｒＩｎｔｅｒｆａｃｅｓ．ＡＣＭ，２００３：６１⁃６８．［３］ＳＬＯＶＩＣＰ．Ｔｈｅｃｏｎｓｔｒｕｃｔｉｏｎｏｆｐｒｅｆｅｒｅｎｃｅ［Ｊ］．ＡｍｅｒｉｃａｎＰｓｙｃｈｏｌｏｇｉｓｔ，１９９５，５０（５）：３６４⁃３７１．［４］ＢＩＥＮＶＥＮＵＭ，ＭＣＩＬＲＡＩＴＨＳ．Ｑｕａｌｉｔａｔｉｖｅｄｙｎａｍｉｃａｌｐｒｅｆ⁃ ｅｒｅｎｃｅｓｉｎｔｈｅｓｉｔｕａｔｉｏｎｃａｌｃｕｌｕｓ［Ｃ］／／ＭｕｌｔｉｄｉｓｃｉｐｌｉｎａｒｙＩＪ⁃ ＣＡＩ⁃０５ＷｏｒｋｓｈｏｐｏｎＡｄｖａｎｃｅｓｉｎＰｒｅｆｅｒｅｎｃｅＨａｎｄｌｉｎｇ．２００５：３０⁃３５．［５］ＢＩＥＮＶＥＮＵＭ，ＦＲＩＴＺＣ，ＭＣＩＬＲＡＩＴＨＳＡ．Ｐｌａｎｎｉｎｇｗｉｔｈｑｕａｌｉｔａｔｉｖｅｔｅｍｐｏｒａｌｐｒｅｆｅｒｅｎｃｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰｒｉｎｃｉｐｌｅｓｏｆＫｎｏｗｌｅｄｇｅＲｅｐｒｅｓｅｎｔａｔｉｏｎａｎｄＲｅａｓｏｎｉｎｇ（ＫＲ）．ＬａｋｅＤｉｓｔｒｉｃｔ，ＵＫ，２００６：１３４⁃１４４． ·５５８· 智能系统学报第９卷

第5期王炎娟，等：任务级行动序列问题中的定性偏好研究 ·559. [6]BLOM M.Arguments and actions:decoupling preference [17]DELGRANDE J P,SCHAUB T,TOMPITS H.Domain- and planning through argumentation [D].Melbourne:Uni- specific preferences for causal reasoning and planning versity of Melbourne,2011:15-60. [C]//Proceedings of the Ninth Intemational Conference [7]ROSSI F,VENABLE K B.Uncertainty in soft temporal con- on Principles of Knowledge Representation and Reasoning straint problems:a general framework and controllability al- (KR.2004).AAAI Press,2004:673-682. gorithms for the fuzzy case[]].Journal of Artificial Intelli- [18]DELGRANDE J P,SCHAUB T,TOMPITS H.A general gence Research,2006,27(1):617-674. framework for expressing preferences in causal reasoning [8]吴江，黄登仕.多属性决策中区间数偏好信息的一致化 and planning[J].Journal of Logic and Computation,2007, 方法[J].系统工程理论方法应用，2003,12(4)：359- 17(5):871-907. 362. [19]DUNG P M.On the acceptability of arguments and its fun- The uniform methods for interval number preference informa- damental role in nonmonotonic reasoning,logic program- tion in multi-attribute decision making[].Systems Engi- ming and n-person games J].Artificial Intelligence, neering-Theory Methodology Applications,2003,12 (4): 1995,77(2):321-357. 359-.362 [20]TRIHARJANTO R H,HASBI W,WIDIPAMINTO A,et [9]张凤华.模糊决策中决策偏好的情景依赖性[D].重庆： al.LAPAN-TUBSAT:micro-satellite platform for surveil- 西南大学，2010：30-55. lance remote sensing [C]//Proceedings of the 4S Sym- Zhang Fenghua.The scenario-dependent of decision prefer- posium:Small Satellites,Systems and Services.La Ro- ence in fuzzy decision[D].Chongqing:Southwest University. chelle,France:2004:66-70. 2010:30-55. [21]贺川，朱晓敏，邱涤珊.面向应急成像观测任务的多星 [10]BRAFMAN R,DOMSHLAK C.Preference handling-an 协同调度方法[J].系统工程与电子技术，2012,34(4)： introductory tutorial[J].AI Magazine,2009,30(1):58- 726-731. 95. HE Chuan,ZHU Xiaomin,QIU Dishan.Cooperative [11]MARINELLIA F,NOCELLAB S,ROSSIB F,et al.A La- scheduling method of multi-satellites for imaging reconnais- grangian heuristic for satellite range scheduling with re. sance in emergency condition[J].Systems Engineering and source constraints[J].Computers Operations Research, Electronics,2012,34(4):726-731. 2011,38(11):1572-1583. 作者简介： [12]KNIGHT R,SMITH B.Optimally solving nadir observation 王炎娟，女，1984年生，博士研究生， scheduling problems[C]//Proceedings of the 8th Interna- 主要研究方向为人工智能、信息系统与智 tional Symposium on Artifical Intelligence,Robotics and 能决策。 Automation in Space(i-SAIRAS2005).Munich,Germany: 2005:33-41. [13]GIUNCHIGLIA E,MARATEA M.Planning as satisfiability with preferences [C]//National Conference on Artificial 姚莉，女，1965年生，教授，博士生导 Intelligence.Boston:MIT Press,2007,22(2):987-992. 师，主要研究方向为人工智能、知识管理、 [14]BADALONI S,FALDA M,GIACOMIN M.Solving tempo- 信息系统与智能决策、计算辩论技术。 ral over-constrained problems using fuzzy techniques [J]. Journal of Intelligent and Fuzzy Systems,2007,18(2): 255-265. 刘斌，男，1989年生，博士研究生，主 [15]BENCH-CAPON T J M,DUNNE P E.Argumentation in 要研究方向为人工智能、信息系统与智 artificial intelligence[J].Artificial Intelligence,2007,171 能决策。 (10-15):619-641. [16]BOUTILIER C,BRAFMAN R I,DOMSHLAK C,et al. CP-nets:a tool for representing and reasoning with condi- tional ceteris paribus preference statements[].Journal of Artificial Intelligence Research,2004,21:135-191

［６］ＢＬＯＭＭ．Ａｒｇｕｍｅｎｔｓａｎｄａｃｔｉｏｎｓ：ｄｅｃｏｕｐｌｉｎｇｐｒｅｆｅｒｅｎｃｅａｎｄｐｌａｎｎｉｎｇｔｈｒｏｕｇｈａｒｇｕｍｅｎｔａｔｉｏｎ［Ｄ］．Ｍｅｌｂｏｕｒｎｅ：Ｕｎｉ⁃ ｖｅｒｓｉｔｙｏｆＭｅｌｂｏｕｒｎｅ，２０１１：１５⁃６０．［７］ＲＯＳＳＩＦ，ＶＥＮＡＢＬＥＫＢ．Ｕｎｃｅｒｔａｉｎｔｙｉｎｓｏｆｔｔｅｍｐｏｒａｌｃｏｎ⁃ ｓｔｒａｉｎｔｐｒｏｂｌｅｍｓ：ａｇｅｎｅｒａｌｆｒａｍｅｗｏｒｋａｎｄｃｏｎｔｒｏｌｌａｂｉｌｉｔｙａｌ⁃ ｇｏｒｉｔｈｍｓｆｏｒｔｈｅｆｕｚｚｙｃａｓｅ［Ｊ］．ＪｏｕｒｎａｌｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉ⁃ ｇｅｎｃｅＲｅｓｅａｒｃｈ，２００６，２７（１）：６１７⁃６７４．［８］吴江，黄登仕．多属性决策中区间数偏好信息的一致化方法［Ｊ］．系统工程理论方法应用，２００３，１２（４）：３５９⁃ ３６２．Ｔｈｅｕｎｉｆｏｒｍｍｅｔｈｏｄｓｆｏｒｉｎｔｅｒｖａｌｎｕｍｂｅｒｐｒｅｆｅｒｅｎｃｅｉｎｆｏｒｍａ⁃ ｔｉｏｎｉｎｍｕｌｔｉ⁃ａｔｔｒｉｂｕｔｅｄｅｃｉｓｉｏｎｍａｋｉｎｇ［Ｊ］．ＳｙｓｔｅｍｓＥｎｇｉ⁃ ｎｅｅｒｉｎｇ⁃ ＴｈｅｏｒｙＭｅｔｈｏｄｏｌｏｇｙＡｐｐｌｉｃａｔｉｏｎｓ，２００３，１２（４）：３５９⁃３６２［９］张凤华．模糊决策中决策偏好的情景依赖性［Ｄ］．重庆：西南大学，２０１０：３０⁃５５．ＺｈａｎｇＦｅｎｇｈｕａ．Ｔｈｅｓｃｅｎａｒｉｏ⁃ｄｅｐｅｎｄｅｎｔｏｆｄｅｃｉｓｉｏｎｐｒｅｆｅｒ⁃ ｅｎｃｅｉｎｆｕｚｚｙｄｅｃｉｓｉｏｎ［Ｄ］．Ｃｈｏｎｇｑｉｎｇ：ＳｏｕｔｈｗｅｓｔＵｎｉｖｅｒｓｉｔｙ．２０１０：３０⁃５５．［１０］ＢＲＡＦＭＡＮＲ，ＤＯＭＳＨＬＡＫＣ．Ｐｒｅｆｅｒｅｎｃｅｈａｎｄｌｉｎｇ—ａｎｉｎｔｒｏｄｕｃｔｏｒｙｔｕｔｏｒｉａｌ［Ｊ］．ＡＩＭａｇａｚｉｎｅ，２００９，３０（１）：５８⁃ ９５．［１１］ＭＡＲＩＮＥＬＬＩＡＦ，ＮＯＣＥＬＬＡＢＳ，ＲＯＳＳＩＢＦ，ｅｔａｌ．ＡＬａ⁃ ｇｒａｎｇｉａｎｈｅｕｒｉｓｔｉｃｆｏｒｓａｔｅｌｌｉｔｅｒａｎｇｅｓｃｈｅｄｕｌｉｎｇｗｉｔｈｒｅ⁃ ｓｏｕｒｃｅｃｏｎｓｔｒａｉｎｔｓ［Ｊ］．Ｃｏｍｐｕｔｅｒｓ＆ＯｐｅｒａｔｉｏｎｓＲｅｓｅａｒｃｈ，２０１１，３８（１１）：１５７２⁃１５８３．［１２］ＫＮＩＧＨＴＲ，ＳＭＩＴＨＢ．Ｏｐｔｉｍａｌｌｙｓｏｌｖｉｎｇｎａｄｉｒｏｂｓｅｒｖａｔｉｏｎｓｃｈｅｄｕｌｉｎｇｐｒｏｂｌｅｍｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ８ｔｈＩｎｔｅｒｎａ⁃ ｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＡｒｔｉｆｉｃａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＲｏｂｏｔｉｃｓａｎｄＡｕｔｏｍａｔｉｏｎｉｎＳｐａｃｅ（ｉ⁃ＳＡＩＲＡＳ２００５）．Ｍｕｎｉｃｈ，Ｇｅｒｍａｎｙ：２００５：３３⁃４１．［１３］ＧＩＵＮＣＨＩＧＬＩＡＥ，ＭＡＲＡＴＥＡＭ．Ｐｌａｎｎｉｎｇａｓｓａｔｉｓｆｉａｂｉｌｉｔｙｗｉｔｈｐｒｅｆｅｒｅｎｃｅｓ［Ｃ］／／ＮａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｂｏｓｔｏｎ：ＭＩＴＰｒｅｓｓ，２００７，２２（２）：９８７⁃９９２．［１４］ＢＡＤＡＬＯＮＩＳ，ＦＡＬＤＡＭ，ＧＩＡＣＯＭＩＮＭ．Ｓｏｌｖｉｎｇｔｅｍｐｏ⁃ ｒａｌｏｖｅｒ⁃ｃｏｎｓｔｒａｉｎｅｄｐｒｏｂｌｅｍｓｕｓｉｎｇｆｕｚｚｙｔｅｃｈｎｉｑｕｅｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＩｎｔｅｌｌｉｇｅｎｔａｎｄＦｕｚｚｙＳｙｓｔｅｍｓ，２００７，１８（２）：２５５⁃２６５．［１５］ＢＥＮＣＨ⁃ＣＡＰＯＮＴＪＭ，ＤＵＮＮＥＰＥ．Ａｒｇｕｍｅｎｔａｔｉｏｎｉｎａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ［Ｊ］．ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，２００７，１７１（１０⁃１５）：６１９⁃６４１．［１６］ＢＯＵＴＩＬＩＥＲＣ，ＢＲＡＦＭＡＮＲＩ，ＤＯＭＳＨＬＡＫＣ，ｅｔａｌ．ＣＰ⁃ｎｅｔｓ：ａｔｏｏｌｆｏｒｒｅｐｒｅｓｅｎｔｉｎｇａｎｄｒｅａｓｏｎｉｎｇｗｉｔｈｃｏｎｄｉ⁃ ｔｉｏｎａｌｃｅｔｅｒｉｓｐａｒｉｂｕｓｐｒｅｆｅｒｅｎｃｅｓｔａｔｅｍｅｎｔｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＲｅｓｅａｒｃｈ，２００４，２１：１３５⁃１９１．［１７］ＤＥＬＧＲＡＮＤＥＪＰ，ＳＣＨＡＵＢＴ，ＴＯＭＰＩＴＳＨ．Ｄｏｍａｉｎ⁃ ｓｐｅｃｉｆｉｃｐｒｅｆｅｒｅｎｃｅｓｆｏｒｃａｕｓａｌｒｅａｓｏｎｉｎｇａｎｄｐｌａｎｎｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮｉｎｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰｒｉｎｃｉｐｌｅｓｏｆＫｎｏｗｌｅｄｇｅＲｅｐｒｅｓｅｎｔａｔｉｏｎａｎｄＲｅａｓｏｎｉｎｇ（ＫＲ．２００４）．ＡＡＡＩＰｒｅｓｓ，２００４：６７３⁃６８２．［１８］ＤＥＬＧＲＡＮＤＥＪＰ，ＳＣＨＡＵＢＴ，ＴＯＭＰＩＴＳＨ．Ａｇｅｎｅｒａｌｆｒａｍｅｗｏｒｋｆｏｒｅｘｐｒｅｓｓｉｎｇｐｒｅｆｅｒｅｎｃｅｓｉｎｃａｕｓａｌｒｅａｓｏｎｉｎｇａｎｄｐｌａｎｎｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＬｏｇｉｃａｎｄＣｏｍｐｕｔａｔｉｏｎ，２００７，１７（５）：８７１⁃９０７．［１９］ＤＵＮＧＰＭ．Ｏｎｔｈｅａｃｃｅｐｔａｂｉｌｉｔｙｏｆａｒｇｕｍｅｎｔｓａｎｄｉｔｓｆｕｎ⁃ ｄａｍｅｎｔａｌｒｏｌｅｉｎｎｏｎｍｏｎｏｔｏｎｉｃｒｅａｓｏｎｉｎｇ，ｌｏｇｉｃｐｒｏｇｒａｍ⁃ ｍｉｎｇａｎｄｎ⁃ｐｅｒｓｏｎｇａｍｅｓ［Ｊ］．ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，１９９５，７７（２）：３２１⁃３５７．［２０］ＴＲＩＨＡＲＪＡＮＴＯＲＨ，ＨＡＳＢＩＷ，ＷＩＤＩＰＡＭＩＮＴＯＡ，ｅｔａｌ．ＬＡＰＡＮ⁃ＴＵＢＳＡＴ：ｍｉｃｒｏ⁃ｓａｔｅｌｌｉｔｅｐｌａｔｆｏｒｍｆｏｒｓｕｒｖｅｉｌ⁃ ｌａｎｃｅ＆ｒｅｍｏｔｅｓｅｎｓｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ＳＳｙｍ⁃ ｐｏｓｉｕｍ：ＳｍａｌｌＳａｔｅｌｌｉｔｅｓ，ＳｙｓｔｅｍｓａｎｄＳｅｒｖｉｃｅｓ．ＬａＲｏ⁃ ｃｈｅｌｌｅ，Ｆｒａｎｃｅ：２００４：６６⁃７０．［２１］贺川，朱晓敏，邱涤珊．面向应急成像观测任务的多星协同调度方法［Ｊ］．系统工程与电子技术，２０１２，３４（４）：７２６⁃７３１．ＨＥＣｈｕａｎ，ＺＨＵＸｉａｏｍｉｎ，ＱＩＵＤｉｓｈａｎ．Ｃｏｏｐｅｒａｔｉｖｅｓｃｈｅｄｕｌｉｎｇｍｅｔｈｏｄｏｆｍｕｌｔｉ⁃ｓａｔｅｌｌｉｔｅｓｆｏｒｉｍａｇｉｎｇｒｅｃｏｎｎａｉｓ⁃ ｓａｎｃｅｉｎｅｍｅｒｇｅｎｃｙｃｏｎｄｉｔｉｏｎ［Ｊ］．ＳｙｓｔｅｍｓＥｎｇｉｎｅｅｒｉｎｇａｎｄＥｌｅｃｔｒｏｎｉｃｓ，２０１２，３４（４）：７２６⁃７３１．作者简介：王炎娟，女，１９８４年生，博士研究生，主要研究方向为人工智能、信息系统与智能决策。姚莉，女，１９６５年生，教授，博士生导师，主要研究方向为人工智能、知识管理、信息系统与智能决策、计算辩论技术。刘斌，男，１９８９年生，博士研究生，主要研究方向为人工智能、信息系统与智能决策。第５期王炎娟，等：任务级行动序列问题中的定性偏好研究 ·５５９·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录