第9卷第5期 智能系统学报 Vol.9 No.5 2014年10月 CAAI Transactions on Intelligent Systems 0ct.2014 D0:10.3969/j.issn.1673-4785.201306013 任务级行动序列问题中的定性偏好研究 王炎娟2,姚莉,刘斌 (1.国防科技大学信息系统工程重点实验室,湖南长沙410073:2.北京航天飞行控制中心,北京100094) 摘要:关注了一类典型行动序列,研究如何在动作集合上存在定性偏好,且偏好集合存在不一致性时开展规划。 所考虑的行动序列问题称为任务级C0A,以抽象层次的动作为基本要素,所考虑的定性偏好包括静态偏好和时序偏 好,所讨论的规划目的是获得最大满意度的COA方案。首先建立了偏好与约束的归一化形式描述,在此基础上形成 了COA方案设计算法:进一步,使用计算辩论技术排除偏好集合中的不一致性,形成用户接受度最高的COA方案。 文中建立的以定性推理为基础的规划框架,实现了偏好解耦,能够适应不同的领域问题,是以定量计算为基础的传 统规划算法的有效补充。通过快速响应卫星成像的COA案例,演示了算法的可行性。 关键词:行动序列:规划;定性偏好:时序偏好;计算辩论技术;偏好解耦 中图分类号:TP391文献标志码:A文章编号:1673-4785(2014)05-0551-09 中文引用格式:王炎娟,姚莉,刘斌.任务级行动序列问题中的定性偏好研究[J].智能系统学报,2014,9(5):551-559. 英文引用格式:WANG Yanjuan,,YAOi,LIU Bin.Research on qualitative preference in planning of task--level Course-of-action [J].CAAI Transactions on Intelligent Systems,2014,9(5):551-559. Research on qualitative preference in planning of task-level Course-of-action WANG Yanjuan'2,YAO Li',LIU Bin' (1.Science and Technology on Information Systems Engineering Laboratory,National University of Defense Technology,Changsha 410073 China;2.Beijing Aerospace Control Center,Beijing 100094,China) Abstract:This paper focuses on a special type of course-of-action.Specifically,performing study on planning with the existence of qualitative preferences and functions on the actions and owns the inner inconsistence.The course- of-action that is taken into consideration is called 'task-level'course-of-action(COA),with abstracted action as basic element.The qualitative preferences in discussion include static preferences and temporal preference.The ob- jective of planning is a COA plan with satisfaction.Firstly,a unified formulated description is established for con- straints and preferences,based on which an algorithm for COA planning is developed.Furthermore,computational argumentation is utilized to exclude inconsistence in the set of preferences,to maximize the user's satisfaction for COA planning.The planning framework based on qualitative deduction is an effective add-in for conventional plan- ning scheme based on quantitative computation.The property of preference-decoupling makes itself adaptable to ap- plications in different domain.A case study on scheduling responsive imaging satellites is proposed to demonstrate the effectiveness of the scheme. Keywords:course-of-action;planning;qualitative preference;temporal preference;computational argumentation; preference decoupling 行动序列(C0A)问题来自军事学领域,由于其 收稿日期:2013-06-10. 基金项目:.国家自然科学基金资助项目(70971134) 关于时间、动作等基本概念和问题结构与调度、规划 通信作者:王炎娟.E-mail:.nudtwyj@gmail.com 有着众多相通之处,已经得到了人工智能领域研究
第 9 卷第 5 期 智 能 系 统 学 报 Vol.9 №.5 2014 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2014 DOI:10.3969 / j.issn.1673⁃4785.201306013 任务级行动序列问题中的定性偏好研究 王炎娟1,2 ,姚莉1 ,刘斌1 (1.国防科技大学 信息系统工程重点实验室,湖南 长沙 410073; 2. 北京航天飞行控制中心,北京 100094) 摘 要:关注了一类典型行动序列,研究如何在动作集合上存在定性偏好,且偏好集合存在不一致性时开展规划。 所考虑的行动序列问题称为任务级 COA,以抽象层次的动作为基本要素,所考虑的定性偏好包括静态偏好和时序偏 好,所讨论的规划目的是获得最大满意度的 COA 方案。 首先建立了偏好与约束的归一化形式描述,在此基础上形成 了 COA 方案设计算法;进一步,使用计算辩论技术排除偏好集合中的不一致性,形成用户接受度最高的 COA 方案。 文中建立的以定性推理为基础的规划框架,实现了偏好解耦,能够适应不同的领域问题,是以定量计算为基础的传 统规划算法的有效补充。 通过快速响应卫星成像的 COA 案例,演示了算法的可行性。 关键词:行动序列;规划;定性偏好;时序偏好;计算辩论技术;偏好解耦 中图分类号: TP391 文献标志码:A 文章编号:1673⁃4785(2014)05⁃0551⁃09 中文引用格式:王炎娟,姚莉,刘斌. 任务级行动序列问题中的定性偏好研究[J]. 智能系统学报, 2014, 9(5): 551⁃559. 英文引用格式:WANG Yanjuan, YAO Li, LIU Bin. Research on qualitative preference in planning of task⁃level Course⁃of⁃action [J]. CAAI Transactions on Intelligent Systems, 2014, 9(5): 551⁃559. Research on qualitative preference in planning of task⁃level Course⁃of⁃action WANG Yanjuan 1 , 2 , YAO Li 1 , LIU Bin 1 (1. Science and Technology on Information Systems Engineering Laboratory, National University of Defense Technology, Changsha 410073 China; 2. Beijing Aerospace Control Center, Beijing 100094, China) Abstract:This paper focuses on a special type of course⁃of⁃action. Specifically, performing study on planning with the existence of qualitative preferences and functions on the actions and owns the inner inconsistence. The course⁃ of⁃action that is taken into consideration is called ‘task⁃level’ course⁃of⁃action(COA), with abstracted action as basic element. The qualitative preferences in discussion include static preferences and temporal preference. The ob⁃ jective of planning is a COA plan with satisfaction. Firstly, a unified formulated description is established for con⁃ straints and preferences, based on which an algorithm for COA planning is developed. Furthermore, computational argumentation is utilized to exclude inconsistence in the set of preferences, to maximize the user’s satisfaction for COA planning. The planning framework based on qualitative deduction is an effective add⁃in for conventional plan⁃ ning scheme based on quantitative computation. The property of preference⁃decoupling makes itself adaptable to ap⁃ plications in different domain. A case study on scheduling responsive imaging satellites is proposed to demonstrate the effectiveness of the scheme. Keywords:course⁃of⁃action; planning; qualitative preference; temporal preference; computational argumentation; preference decoupling 收稿日期:2013⁃06⁃10. 基金项目:.国家自然科学基金资助项目(70971134) 通信作者:王炎娟. E⁃mail:.nudtwyj@ gmail.com. 行动序列(COA)问题来自军事学领域,由于其 关于时间、动作等基本概念和问题结构与调度、规划 有着众多相通之处,已经得到了人工智能领域研究
·552. 智能系统学报 第9卷 者的广泛关注网。C0A的基本要素是动作(ac 文献[14]对时序软约束下的规划展开研究,根据软 tion),动作可以由子动作组合得到,由此构成了动 约束内容判定两个动作之间的可能关系:紧随、超前 作的分层结构。如军事领域的“完成阵地转移”,医 或不相关,为软约束设置偏好程度参数,根据以上因 学领域的“完成一个阶段的化疗”,日常生活领域的 素在每个时间点上搜索选择可用动作,随着时间点 “吃晚饭”,所描述的动作都对应了一种状态的转 的推移完成规划。这两种研究存在共同点,即依赖 换,而其中不涉及动作的组织方式、实施流程、具体 偏好或软约束的强度值作为判定依据,在动态搜索 的资源分配和管理。与动作的分层结构对应的, 过程中获得满意度或排除过约束。与本文最相关的 COA问题也可以具有分层结构。很多情况下,为了 是Blom6]的研究。在存在多种偏好,且偏好之间 完成一定层次的战略规划,COA不需要在最底层的 有冲突时,Blom首先使用非单调推理技术排除其中 动作上展开。本文关注一类典型的“任务级COA问 的冲突,获得最大一致性集合,在该集合基础上再进 题”,即任务级的动作随时间安排实现预定目标的 行决策或规划,决策或规划的搜索都是传统方式,通 问题,重点是在多种偏好并存时如何获得高质量的 过这种设计实现了“偏好解耦”,即规划过程与偏好 COA方案。决策理论中,偏好一般是指每个决策者 的表示方式或偏好内容无关,这对于规划算法在不 在面对几个事件或结果时选择其中一个事件或结果 同问题领域的通用性意义重大。遗憾的是,Blom并 的倾向性[3]COA的偏好问题也已经得到了研究者 没有关注时序偏好。Blom使用的逻辑工具为计算 的很多关注[4]。偏好来自C0A的参与者或者发 辩论。计算辩论技术是自1990年以来逐渐发展成 起者,虽然不构成强制约束力,但对于C0A生成方 熟并得到众多关注的逻辑工具,其在人工智能中的 案的质量至关重要。有研究者指出,规划方案的质 应用见于文献[15]。 量最优,除了要满足所有的约束条件之外,一定也是 针对带有定性偏好的任务级COA规划问题,本 对各种软约束(包括用户的偏好)有了最大程度的 文首先将使用比较格式给出任务级COA中的约束 满足【)。如何描述规划方案的质量,或者说,如何 和偏好定义,基于比较格式的形式化,给出COA方 定义对用户满意度的最大化,因偏好表示方法不同 案的生成算法:然后使用计算辩论技术消除约束/偏 而变化。可以知道,在使用定量偏好描述时,可以使 好集合中的不一致性,给出偏好集合上的最大满意 用定量的效能函数作为衡量。除常见的权重表示偏 度定义,在此基础上完成COA方案的生成。最大化 好,研究者后来发展出了区间数8]、模糊数[9]等定 任务的收益也不是任务级COA的主要目的,它只需 量表示方式。关于偏好的研究指出],定性偏好 要保证高质量地完成预设目标,不需要定量优化的 比定量偏好更具有普遍性,很多时候用户使用自然 能力,因此获得的是一个可行解集合,而非确定的单 语言描述的复杂偏好关系,定量偏好是不能胜任表 个解。本文的研究是传统任务调度问题和约束问题 达的:随之而来的,定性偏好的使用使得定量的效能 研究的有效补充,同时也探讨了定性偏好关系的形 函数不再有效。 式化表达方式和推理方式。 任务级别COA问题与任务调度有相似之处,都 1 涉及到多方面的约束,如资源约束、能量约束 定性偏好表示与任务级C0A规划 等。偏好关系也是软约束之一。从满足尽可能 以任务级动作为基本元素的C0A问题称为任 多的限制条件、尽可能好地完成任务的角度来考虑, 务级COA。下面首先给出任务级动作的定义及其 任务级C0A与任务调度问题类似,同样具有约束满 形式化表示。 足问题(CSP)[2]的特征。但是任务级C0A对时间 定义1(任务级动作)给定COA问题P,满足 资源的调度具有突出的需求,如何时开始一个动作, 以下条件的动作称为任务级动作: 何时结束一个动作,如何合理安排动作之间的时序 1)动作的结果是一种确定的状态。 和因果关系。任务级COA的约束满足不能通过一 2)动作可以拆分为多个子动作或者元动作实 个单一的效能函数来表述和分析。 现,子动作集合及其排序方式可能有多种 已经有研究者对定性偏好相关的规划开展了研 3)动作之间没有目标的重叠,即:动作A引起 究。文献[13]从满意度的角度设计规划策略,对每 的状态变化,没有可能是可以由动作B实现的。 一个偏好设置偏好强度值,对一个规划序列中的所 定义2(任务级动作的形式化表示)动作由一 有偏好进行运算生成衡量值,通过该衡量值选择最 个三元组(s,g,t)表示。其中,s是动作主体,g是 优序列。这里探讨的偏好不包括时序相关的偏好。 动作受体,t是某种时间标记的集合,可以是一个时
者的广泛关注[1⁃2] 。 COA 的基本要素是动作( ac⁃ tion),动作可以由子动作组合得到,由此构成了动 作的分层结构。 如军事领域的“完成阵地转移”,医 学领域的“完成一个阶段的化疗”,日常生活领域的 “吃晚饭”,所描述的动作都对应了一种状态的转 换,而其中不涉及动作的组织方式、实施流程、具体 的资源分配和管理。 与动作的分层结构对应的, COA 问题也可以具有分层结构。 很多情况下,为了 完成一定层次的战略规划,COA 不需要在最底层的 动作上展开。 本文关注一类典型的“任务级 COA 问 题”,即任务级的动作随时间安排实现预定目标的 问题,重点是在多种偏好并存时如何获得高质量的 COA 方案。 决策理论中,偏好一般是指每个决策者 在面对几个事件或结果时选择其中一个事件或结果 的倾向性[ 3 ]COA 的偏好问题也已经得到了研究者 的很多关注[ 4⁃6 ] 。 偏好来自 COA 的参与者或者发 起者,虽然不构成强制约束力,但对于 COA 生成方 案的质量至关重要。 有研究者指出,规划方案的质 量最优,除了要满足所有的约束条件之外,一定也是 对各种软约束(包括用户的偏好)有了最大程度的 满足[ 7 ] 。 如何描述规划方案的质量,或者说,如何 定义对用户满意度的最大化,因偏好表示方法不同 而变化。 可以知道,在使用定量偏好描述时,可以使 用定量的效能函数作为衡量。 除常见的权重表示偏 好,研究者后来发展出了区间数[ 8 ] 、模糊数[ 9 ] 等定 量表示方式。 关于偏好的研究指出[ 10 ] ,定性偏好 比定量偏好更具有普遍性,很多时候用户使用自然 语言描述的复杂偏好关系,定量偏好是不能胜任表 达的;随之而来的,定性偏好的使用使得定量的效能 函数不再有效。 任务级别 COA 问题与任务调度有相似之处,都 涉及 到 多 方 面 的 约 束, 如 资 源 约 束、 能 量 约 束 等[ 11 ] 。 偏好关系也是软约束之一。 从满足尽可能 多的限制条件、尽可能好地完成任务的角度来考虑, 任务级 COA 与任务调度问题类似,同样具有约束满 足问题(CSP) [ 12 ]的特征。 但是任务级 COA 对时间 资源的调度具有突出的需求,如何时开始一个动作, 何时结束一个动作,如何合理安排动作之间的时序 和因果关系。 任务级 COA 的约束满足不能通过一 个单一的效能函数来表述和分析。 已经有研究者对定性偏好相关的规划开展了研 究。 文献[13]从满意度的角度设计规划策略,对每 一个偏好设置偏好强度值,对一个规划序列中的所 有偏好进行运算生成衡量值,通过该衡量值选择最 优序列。 这里探讨的偏好不包括时序相关的偏好。 文献[14]对时序软约束下的规划展开研究,根据软 约束内容判定两个动作之间的可能关系:紧随、超前 或不相关,为软约束设置偏好程度参数,根据以上因 素在每个时间点上搜索选择可用动作,随着时间点 的推移完成规划。 这两种研究存在共同点,即依赖 偏好或软约束的强度值作为判定依据,在动态搜索 过程中获得满意度或排除过约束。 与本文最相关的 是 Blom [ 6 ]的研究。 在存在多种偏好,且偏好之间 有冲突时,Blom 首先使用非单调推理技术排除其中 的冲突,获得最大一致性集合,在该集合基础上再进 行决策或规划,决策或规划的搜索都是传统方式,通 过这种设计实现了“偏好解耦”,即规划过程与偏好 的表示方式或偏好内容无关,这对于规划算法在不 同问题领域的通用性意义重大。 遗憾的是,Blom 并 没有关注时序偏好。 Blom 使用的逻辑工具为计算 辩论。 计算辩论技术是自 1990 年以来逐渐发展成 熟并得到众多关注的逻辑工具,其在人工智能中的 应用见于文献[15]。 针对带有定性偏好的任务级 COA 规划问题,本 文首先将使用比较格式给出任务级 COA 中的约束 和偏好定义,基于比较格式的形式化,给出 COA 方 案的生成算法;然后使用计算辩论技术消除约束/ 偏 好集合中的不一致性,给出偏好集合上的最大满意 度定义,在此基础上完成 COA 方案的生成。 最大化 任务的收益也不是任务级 COA 的主要目的,它只需 要保证高质量地完成预设目标,不需要定量优化的 能力,因此获得的是一个可行解集合,而非确定的单 个解。 本文的研究是传统任务调度问题和约束问题 研究的有效补充,同时也探讨了定性偏好关系的形 式化表达方式和推理方式。 1 定性偏好表示与任务级 COA 规划 以任务级动作为基本元素的 COA 问题称为任 务级 COA。 下面首先给出任务级动作的定义及其 形式化表示。 定义 1 (任务级动作)给定 COA 问题 P ,满足 以下条件的动作称为任务级动作: 1)动作的结果是一种确定的状态。 2)动作可以拆分为多个子动作或者元动作实 现,子动作集合及其排序方式可能有多种 3)动作之间没有目标的重叠,即:动作 A 引起 的状态变化,没有可能是可以由动作 B 实现的。 定义 2 (任务级动作的形式化表示)动作由一 个三元组 (s,g,t) 表示。 其中, s 是动作主体, g 是 动作受体, t 是某种时间标记的集合,可以是一个时 ·552· 智 能 系 统 学 报 第 9 卷
第5期 王炎娟,等:任务级行动序列问题中的定性偏好研究 ·553· 间点、时间间隔或某种时间标记。所有的动作集合 性偏好。 构成三元组集合(s,g,t)。 定量表示的偏好值,一般用某属性的被偏好程 为了表达逻辑的完备性,元素sg、t设置通配 度表示,为0~1的某个正数,数字越大表示偏好程 符~,表示对应的sg、1位置可以任意取值。形如 度越强。举例来说,p(A)=0.3表示动作A的偏好 (~,g,t)的表达式包含了多个元动作:(s1,g,t), 值为0.3,如果有p(B)=0.6,那么显然B比A更受 (s2g,t),(s3,g,t)等。(s,~,t),(s,g,~)与此 偏好。在进行选择时,只要知道p(B)>p(A)这一 类似。任务级C0A问题的定性偏好可以划分为两 事实即可,至于B的受偏好程度是0.6还是0.7,都 类。第1种是与时序无关的静态偏好,或者称为动 可以得到B>A这一结论,不影响决策者的判断。 作间的属性偏好,即:因为动作某种属性被偏好,即: 定性偏好恰好具有这种相对偏好的表达能力。特殊 用户倾向于选择动作A还是动作B。第2种是动作 地,如果没有能够与动作A进行比较的动作,那么 间的时序或因果顺序偏好,即:用户偏好于动作A在 可以知道:A>⊙。 动作B之前,还是动作B在动作A之前,本文从另一 当然,定性偏好能够表达的并不局限于这种数 个角度表述为:倾向于先执行使用动作A,还是先执 值基础上的相对关系,比如时序偏好。从语义覆盖 行动作B.下面给出了定性偏好的归一化表示。 性的角度,定性偏好的表达是涵盖定量偏好的。 定义3(定性偏好的归一化表示)定性偏好由 断言2定性偏好表达不能替代定量表达。 三元组(S,G,T)中的两个元素和一个二元操作符 定性表达的优势在于复杂语义的阐述,不能像 (>或>)组成,形式化表达如下: 传统的定量优化算法那样得到具有优化指标的唯一 (s,8,4)>g(8) 最优解,一般只能得到可行解集合。本文的思路是, (s,g,l)Dg)(,84) 定性偏好的推理过程服务于定量偏好。比如,给定 式中:>为连接两个三元组的支配关系,给出了两 一组偏好集合,首先使用定性表达确定它们内部是 个选项的静态比较;>为连接两个三元组的一个 不是有冲突,即:这个偏好集合是不是能够共存的, “在前面”的语义关系,给出了一种因果关系或者时 如果可以,那么就继续进行数值规划,给出优化指 间的比较。每个表达式只对三元组中的一个元素进 标:否则就继续寻找下一组偏好,不在没有可能的偏 行比较,>或>都可以配备有下标s,g或t,表示 好集合上浪费定量优化的计算资源。 引起比较关系的有效元素。 断言3任务级层次的偏好与软约束具有相同 为了表达逻辑的完备性,为三元组定义一个 的结构。 “空”状态Θ,用以表征一个“不被偏好”的虚拟动 软约束是指不具有强制力的约束关系,自然语 作,意为任意一个非空动作均可以对它构成二元关 言理解为“建议满足”而非“必需满足”,这与偏好的 系。如自然语言的偏好表述:“用户偏好于动作 语义有相通之处。更进一步,在把偏好和约束并列 (s1,g1,1)”,没有特定的比较对象,可以表示为 考察时,约束也应该具有与偏好对等的表达方式,因 (s1,81,41)>日。 此后文将对偏好和约束进行归一化表示。软约束与 偏好的表示方式多种多样。除了经典的定量表 偏好的区别仅在于:偏好具有人的主观特性,而软约 示之外,定性表示可以划分为C-P网络[、时序逻 束可能来自事物本身的客观特征,文中不明确区分 辑4)、比较格式1]等。定义3给出的是一种比较 软约束和偏好,统称为偏好:而约束则是指有强制约 格式的表达方式,秉承了Blom的理念:偏好本质上 束力的硬约束。 是一种二元关系,因而本文选择的是一种相对偏好 定义4(约束和偏好的归一化表示)约束和偏 表示。这是实现偏好解耦设计的关键。 好可以统一为四元组表示:〈R,,山,k〉。其中,R 通过引入>符号,时序或因果偏好的形式化表 为二元关系>或>,4:、山为前述定义的三元组, 述可以与静态偏好统一到一个框架内:而空状态⊙ k为0表示硬约束,k为正数表示偏好,数字越大,偏 和任意状态(~,~,~)的存在,可以把非典型的 好程度越弱。 二元关系也赋予一个二元比较关系方式。如,动作 假设偏好之间,以及偏好和约束之间没有相互 (~,~,~)D(S1,81,4)表示用户偏好于最后 矛盾,那么可以执行算法1获得COA方案。 执行动作(s1,81,1)。 算法1由约束/偏好集合生成C0A方案的两 在展开后续推导之前,给出3个断言。 阶段算法2DOF-SLCOA。 断言1任务级层次的定量偏好可以转换到定 输入:静态约束/偏好集合Ex,,时序约束/偏
间点、时间间隔或某种时间标记。 所有的动作集合 构成三元组集合 (s,g,t) 。 为了表达逻辑的完备性,元素 s、g、t 设置通配 符~ ,表示对应的 s、g、t 位置可以任意取值。 形如 ( ~ ,g,t) 的表达式包含了多个元动作: (s1 ,g,t), (s2 ,g,t),(s3 ,g,t) 等。 (s, ~ ,t) , (s,g, ~ ) 与此 类似。 任务级 COA 问题的定性偏好可以划分为两 类。 第 1 种是与时序无关的静态偏好,或者称为动 作间的属性偏好,即:因为动作某种属性被偏好,即: 用户倾向于选择动 作 A 还是动作 B。 第 2 种是动作 间的时序或因果顺序偏好,即:用户偏好于动作 A 在 动作 B 之前,还是动作 B 在动作 A 之前,本文从另一 个角度表述为:倾向于先执行使用动作 A ,还是先执 行动作 B. 下面给出了定性偏好的归一化表示。 定义 3 (定性偏好的归一化表示)定性偏好由 三元组( S,G,T )中的两个元素和一个二元操作符 ( ≻ 或 ▷ )组成,形式化表达如下: (si,gi,t i) ≻s(g,t)(sj,gj,t j) (si,gi,t i)▷s(g,t)(sj,gj,t j) 式中: ≻ 为连接两个三元组的支配关系,给出了两 个选项的静态比较; ▷ 为连接两个三元组的一个 “在前面”的语义关系,给出了一种因果关系或者时 间的比较。 每个表达式只对三元组中的一个元素进 行比较, ≻ 或 ▷ 都可以配备有下标 s,g 或 t, 表示 引起比较关系的有效元素。 为了表达逻辑的完备性,为三元组定义一个 “空”状态 Θ ,用以表征一个“不被偏好” 的虚拟动 作,意为任意一个非空动作均可以对它构成二元关 系。 如自然语言的偏好表述: “ 用户偏好于动作 (s1 ,g1 ,t 1 ) ”,没有特定的比较对象, 可以表示为 (s1 ,g1 ,t 1 ) ≻sΘ 。 偏好的表示方式多种多样。 除了经典的定量表 示之外,定性表示可以划分为 C⁃P 网络[16] 、时序逻 辑[4] 、比较格式[17⁃18]等。 定义 3 给出的是一种比较 格式的表达方式,秉承了 Blom 的理念:偏好本质上 是一种二元关系,因而本文选择的是一种相对偏好 表示。 这是实现偏好解耦设计的关键。 通过引入 ▷ 符号,时序或因果偏好的形式化表 述可以与静态偏好统一到一个框架内;而空状态 Θ 和任意状态 ( ~ , ~ , ~ ) 的存在,可以把非典型的 二元关系也赋予一个二元比较关系方式。 如,动作 ( ~ , ~ , ~ )▷s(g,t)(s1 ,g1 ,t 1 ) 表示用户偏好于最后 执行动作 (s1 ,g1 ,t 1 ) 。 在展开后续推导之前,给出 3 个断言。 断言 1 任务级层次的定量偏好可以转换到定 性偏好。 定量表示的偏好值,一般用某属性的被偏好程 度表示,为 0~ 1 的某个正数,数字越大表示偏好程 度越强。 举例来说, p(A) = 0.3 表示动作 A 的偏好 值为 0.3,如果有 p(B) = 0.6,那么显然 B 比 A 更 受 偏好。 在进行选择时,只要知道 p(B) > p(A) 这一 事实即可,至 于 B 的 受偏好程度是 0.6 还是 0.7,都 可以得到 B ≻ A 这一结论,不影响决策者的判断。 定性偏好恰好具有这种相对偏好的表达能力。 特殊 地,如果没有能够与动作 A 进 行比较的动作,那么 可以知道: A ≻ Θ 。 当然,定性偏好能够表达的并不局限于这种数 值基础上的相对关系,比如时序偏好。 从语义覆盖 性的角度,定性偏好的表达是涵盖定量偏好的。 断言 2 定性偏好表达不能替代定量表达。 定性表达的优势在于复杂语义的阐述,不能像 传统的定量优化算法那样得到具有优化指标的唯一 最优解,一般只能得到可行解集合。 本文的思路是, 定性偏好的推理过程服务于定量偏好。 比如,给定 一组偏好集合,首先使用定性表达确定它们内部是 不是有冲突,即:这个偏好集合是不是能够共存的, 如果可以,那么就继续进行数值规划,给出优化指 标;否则就继续寻找下一组偏好,不在没有可能的偏 好集合上浪费定量优化的计算资源。 断言 3 任务级层次的偏好与软约束具有相同 的结构。 软约束是指不具有强制力的约束关系,自然语 言理解为“建议满足”而非“必需满足”,这与偏好的 语义有相通之处。 更进一步,在把偏好和约束并列 考察时,约束也应该具有与偏好对等的表达方式,因 此后文将对偏好和约束进行归一化表示。 软约束与 偏好的区别仅在于:偏好具有人的主观特性,而软约 束可能来自事物本身的客观特征,文中不明确区分 软约束和偏好,统称为偏好;而约束则是指有强制约 束力的硬约束。 定义 4 (约束和偏好的归一化表示)约束和偏 好可以统一为四元组表示: 〈R,ui,uj,k〉 。 其中, R 为二元关系 ≻ 或 ▷ , ui 、 uj 为前述定义的三元组, k 为 0 表示硬约束, k 为正数表示偏好,数字越大,偏 好程度越弱。 假设偏好之间,以及偏好和约束之间没有相互 矛盾,那么可以执行算法 1 获得 COA 方案。 算法 1 由约束/ 偏好集合生成 COA 方案的两 阶段算法 2DOF⁃SLCOA。 输入: 静态约束/ 偏好集合 Ex≻ ,时序约束/ 偏 第 5 期 王炎娟,等:任务级行动序列问题中的定性偏好研究 ·553·
·554. 智能系统学报 第9卷 好集合ExP 击)关系,即有R二A×A。 输出:动作序列(COA规划方案) 在AF=(A,R)中,若A是有限集,称AF有限 步骤1从静态约束集合Ex,中选择可用动作 的,否则称为无限的。对于Ha,b∈A,aRb或(a, 集合。 b)∈R表示a攻击b;a、b间不存在攻击关系,表 1)基于Ex,中的元素构建有向图H、。对于 示为aRb或(a,b)R,亦称a、b是无冲突的。R Ex,中每个约束/偏好关系,连接两个三元组的> (a)={b∈AI aRb}表示被a攻击的论据集,R 关系对应导向图中的一个边,相关的两个三元组则 (a)={b∈A1bRa}表示攻击a的论据集:对于论据 是图中的节点.从不同约束/偏好关系中提出的同 集SCA和论据b∈A,若3a∈S,使得aRb,则称 一个三元组对应同一个节点,因此,某一个节点可能 S攻击a。同理,有Rw(S)=U.esRw(a)(w∈ 会有边界指向多个节点,也可能有多个节点的边界 {+,-})。 指向它。 论据集S(S二A),若Ha,b∈S,(a,b)R, 2)选择有向图H,中的优势节点,即:每个支链 称S是无冲突的(conflict-free)。论据集S是无冲突 的起始节点,置于一个集合U,中。 的,满足Ha∈R-(S)→(3b∈S).bRa,称S为 步骤2结合时序约束,得到调度方案。 可容许集(admissible set)。 1)U,中的每一个元素u都被替换为一个时序 AF=(A,R)可以表示为有向图,称为攻击图 约束关系>O,构成时序约束/偏好关系集合 如图1所示的攻击图中A={a,b,c,d},R={(a U。。 c),(b,a),(c,b),(c,a),(d,c)}。由此可知, 2)基于U。和Ex。生成有向图H。.U。或ExD R,(c)={a,b}及R_(c)={a,d}。 中的>优势关系被翻译成有向图的边,而与之相关 联的三元组被放置在节点位置。对等的三元组只作 为一个节点出现。 3)寻找H。中的可用序列。从一个根节点出 发,追踪连续的链接关系形成一个节点序列。 图1辩论框架 4)节点序列经解释或翻译得到动作序列。 Fig.1 Argumentation framework 2非单调偏好的处理和最大满意度 根据Dung的扩展语义,该实例中的首选扩展 对于一个进行COA规划的智能体来说,只要约 集合为Sd={d,b}.该集合满足以下条件,也就是 束和偏好之间没有任何的冲突,偏好的作用与约束 首选扩展语义的定义: 是相同的。然而,经常出现的情况是,约束/偏好集 1)Sd中的论据相互之间不冲突: 合中会出现一个以上的冲突,此时就需要首先排除 2)S中的论据不会被其他论据工具;或者, 不一致性,获得具有最大一致性的约束/偏好集合, 3)如果论据x∈Spm被另一个论据y生S攻 才能继续推理得到规划方案。冲突关系数目较多 击,那么必然有第3个论据:∈S满足Ry. 时,约束或偏好之间相互的优势关系错综复杂,简单 概括来讲,辩论就是一个信念萃取的过程,排除 的逻辑判断不能确定最大一致性。本文使用计算辩 那些内含不一致性的选项,达成一个最大一致性。 论[9]这一非单调推理工具来执行逻辑推理。 在后续章节里,将其直接用于逻辑推理,不再涉及背 2.1辩论基础 后的逻辑过程。 2.2论据定义 这里简要介绍了Dung的辩论框架与相关的 定义,读者可以参考文献[町以获取更多关于辩论 为了进行辩论,首先是构造论据。每一个约束 的内容。 或偏好自然地形成一个论据。 定义5任务级C0A中的论据定义。一个约 辩论框架为辩论提供了形式化建模方法,建立 束或偏好相关的论据被定义一个4元结构: 一种处理不确定、不一致信息的基础。下面简要介 (kpeuu'krank) 绍Dung辩论框架及其相关性质。 式中:、分别为约束定义中的三元组.k表征 辩论框架通常定义为二元组AF=(A,R),其中 了关系类型,即>或>。km对应了>或>的上 A表示论据集,R是定义在论据集A上的二元(攻 标,即0或者一个表征软约束强度的正整数
好集合 Ex▷ 输出: 动作序列(COA 规划方案) 步骤 1 从静态约束集合 Ex≻ 中选择可用动作 集合 。 1)基于 Ex≻ 中的元素构建有向图 H≻ 。 对于 Ex≻ 中每个约束/ 偏好关系,连接两个三元组的 ≻ 关系对应导向图中的一个边,相关的两个三元组则 是图中的节点. 从不同约束/ 偏好关系中提出的同 一个三元组对应同一个节点,因此,某一个节点可能 会有边界指向多个节点,也可能有多个节点的边界 指向它。 2)选择有向图 H≻ 中的优势节点,即:每个支链 的起始节点,置于一个集合 U≻ 中。 步骤 2 结合时序约束,得到调度方案。 1) U≻ 中的每一个元素 u 都被替换为一个时序 约束关 系 u▷Θ , 构 成 时 序 约 束/ 偏 好 关 系 集 合 U▷ 。 2)基于 U▷ 和 Ex▷ 生成有向图 H▷ . U▷ 或 Ex▷ 中的 ▷ 优势关系被翻译成有向图的边,而与之相关 联的三元组被放置在节点位置。 对等的三元组只作 为一个节点出现。 3)寻找 H▷ 中的可用序列。 从一个根节点出 发, 追踪连续的链接关系形成一个节点序列。 4)节点序列经解释或翻译得到动作序列。 2 非单调偏好的处理和最大满意度 对于一个进行 COA 规划的智能体来说,只要约 束和偏好之间没有任何的冲突,偏好的作用与约束 是相同的。 然而,经常出现的情况是,约束/ 偏好集 合中会出现一个以上的冲突,此时就需要首先排除 不一致性,获得具有最大一致性的约束/ 偏好集合, 才能继续推理得到规划方案。 冲突关系数目较多 时,约束或偏好之间相互的优势关系错综复杂,简单 的逻辑判断不能确定最大一致性。 本文使用计算辩 论[19]这一非单调推理工具来执行逻辑推理。 2.1 辩论基础 这里简要介绍了 Dung 的辩论框架与相关的 定义,读者可以参考文献[19] 以获取更多关于辩论 的内容。 辩论框架为辩论提供了形式化建模方法,建立 一种处理不确定、不一致信息的基础。 下面简要介 绍 Dung 辩论框架及其相关性质。 辩论框架通常定义为二元组 AF = (A,R) ,其中 A 表示论据集, R 是定义在论据集 A 上的二元(攻 击)关系,即有 R ⊆ A × A 。 在 AF = (A,R) 中,若 A 是有限集,称 AF 有限 的,否则称为无限的。 对于 ∀a,b ∈ A , aRb 或 (a, b) ∈ R 表示 a 攻击 b ; a 、 b 间不存在攻击关系,表 示为 aRb 或 (a,b) ∉ R ,亦称 a 、 b 是无冲突的。 R+ (a) = {b ∈ A | aRb} 表示被 a 攻击的论据集, R- (a) = {b ∈A | bRa} 表示攻击 a 的论据集;对于论据 集 S ⊆ A 和论据 b ∈ A ,若 ∃a ∈ S ,使得 aRb ,则称 S 攻击 a 。 同理, 有 Rω(S) =∪a∈SRω(a) ( ω ∈ { +, -} )。 论据集 S ( S ⊆A ),若 ∀a,b ∈S , (a,b) ∉R, 称 S 是无冲突的(conflict⁃free)。 论据集 S 是无冲突 的,满足 ∀a ∈ R - (S) → (∃b ∈ S).bRa ,称 S 为 可容许集(admissible set)。 AF = (A,R) 可以表示为有向图,称为攻击图。 如图 1 所示的攻击图中 A = {a,b,c,d} , R = {(a, c), (b,a), (c,b), (c,a), (d,c)} 。 由 此 可 知, R+ (c) ={a,b} 及 R- (c) = {a,d} 。 图 1 辩论框架 Fig.1 Argumentation framework 根据 Dung 的扩展语义,该实例中的首选扩展 集合为 Spref = {d,b} . 该集合满足以下条件,也就是 首选扩展语义的定义: 1) Spref 中的论据相互之间不冲突; 2) Spref 中的论据不会被其他论据工具; 或者, 3) 如果论据 x ∈ Spref 被另一个论据 y ∉ Spref 攻 击 , 那么必然有第 3 个论据 z ∈ Spref 满足 zRy . 概括来讲,辩论就是一个信念萃取的过程,排除 那些内含不一致性的选项,达成一个最大一致性。 在后续章节里,将其直接用于逻辑推理,不再涉及背 后的逻辑过程。 2.2 论据定义 为了进行辩论,首先是构造论据。 每一个约束 或偏好自然地形成一个论据。 定义 5 任务级 COA 中的论据定义。 一个约 束或偏好相关的论据被定义一个 4 元结构: k type ,u f ,u r ,k rank ( ) 式中: u f 、u r 分别为约束定义中的三元组. k type 表征 了关系类型,即 ≻ 或 ▷ 。 k rank 对应了 ≻ 或 ▷ 的上 标,即 0 或者一个表征软约束强度的正整数。 ·554· 智 能 系 统 学 报 第 9 卷
第5期 王炎娟,等:任务级行动序列问题中的定性偏好研究 ·555. 不包含通配符~的论据称为元论据。与此相对 中,一些偏好会被约束或其他一些更高优先级的偏 的,含有通配符~的论据可以通过把~对应的元素 好关系击败,因而被剔除,留在集合Ex,和Ex。中 进行枚举,分解为多个元论据。两个元论据之间的 的就是最大兼容性的约束子集。 攻击关系定义如下。 断言5论据的首选扩展集合给出的用户最大 定义6(论据间的攻击关系)给定两个元论据 满意度集合。 a:=(,,,km),西=(,,叫,写) 2.4主要结果 它们之间的关系定义如下。 本节的主要结果总结在算法2和算法3中。 1)两论据a:和g是可比的,当且仅当=。 算法2基于辩论解决偏好不一致性。 2)冲突关系:两论据被称为是冲突的,当且仅 输入:一个任务级COA问题,已建立约束/偏好 当它们是可比的,而且=4,=。 集合。 3)攻击关系:论据a:攻击a,记为a,Ra,当 输出:首选扩展集Ex,与ExD。 且仅当a:与a冲突,并且km≤。 1)构造论据集合,包含通配符的论据拆分为元 2.3任务级C0A的辩论框架 论据。 接下来建立任务级COA问题的辩论框架。 2)在论据间进行搜索,构造攻击关系。 定义7任务级C0A辩论框架TCOA-ARG。对 3)执行DUNG的首选辩论语义,获得首选扩展 于一个TCOA-ARG问题,其辩论框架为一个三元 集合Ex,和ExD。 组,其中A为来自约束集合和偏好集 如果Ex,或Ex。是空集,那就意味着静态或时 合的论据,R为论据间的攻击关系,SL为获得辩论 序约束中存在一些不能解决的冲突。因而不能获得 结果的辩论语义。 调度方案。否则,就可以进行下一阶段的工作,引用 该框架与Blom的偏好解耦框架是一致的[6]」 算法1构造COA可行解。 区别仅在于,针对静态和时序约束存在两种二元关 算法3带定性约束/偏好的任务级COA规划 系,因此构造攻击关系时每种论据都是局限在自己 ARG-COA。 的二元关系归类中。结果自然是每种攻击关系操作 输入:一个任务级COA问题。 符都有一个独立的辩论结果。本文使用的辩论语义 输出:COA规划方案。 SL与Blom!6]相同,即SL为Dung]首选扩展语义。 1)建立定性约束/偏好集合。 断言4TC0A-ARG的辩论结果是一个静态 2)执行算法2获取一致性约束/偏好集合Ex, (时序)约束的首选扩展集,也就是说,没有内部冲 与Exp。 突的静态(时序)约束的最大集,记为 3)执行算法1得到规划结果。 A=A>UAp 3 案例研究 sL,Ex A 文中以一种卫星的突发性任务观测为背景展开 Ap SL Exe 案例研究。卫星设计如目前正在运行的LAPAN- 式中:A,和A。分别为基于>或>的论据子集, TUBSAT0]。卫星装有视频摄像机,提供实时目标 E:x,和E。分别为从A,和A。推导出来的首选扩 监控,无板载存储。 展集合。 研究次日有2颗卫星过境,兴趣目标有3个,每 需要指出的是,每一个论据均对应了一个约束 个卫星均有2个可操作时间窗口。表1给出了卫星 或偏好,表达了2个动作之间的优势关系。在辩论 的技术状态描述,表2给出了卫星的可见窗口描述。 表1卫星技术状态描述 Table 1 Description of satellites'technical status 卫星编号可见孤段/min 分辨力 成像波段 与测控站距离 s 15 2048×2048 红外/可见光 2000 S2 8 762x576 可见光 1000
不包含通配符~的论据称为元论据。 与此相对 的,含有通配符 ~ 的论据可以通过把 ~ 对应的元素 进行枚举,分解为多个元论据。 两个元论据之间的 攻击关系定义如下。 定义 6 (论据间的攻击关系)给定两个元论据 ai = k type i ,u f i,u r i,k rank i ( ) ,aj = k type j ,u f j ,u r j ,k rank j ( ) 它们之间的关系定义如下。 1)两论据 ai 和 aj 是可比的,当且仅当 k type i = k type j 。 2)冲突关系 : 两论据被称为是冲突的, 当且仅 当它们是可比的,而且 u f i = u r j , u r i = u f j 。 3)攻击关系: 论据 ai 攻击 aj , 记为 aiR _ aj , 当 且仅当 ai 与 aj 冲突, 并且 k rank i ≤ k rank j 。 2.3 任务级 COA 的辩论框架 接下来建立任务级 COA 问题的辩论框架。 定义 7 任务级 COA 辩论框架 TCOA⁃ARG。 对 于一个 TCOA⁃ARG 问题, 其辩论框架为一个 三元 组 < A,R,SL > , 其中 A 为来自约束集合和偏好集 合的论据,R 为论据间的攻击关系,SL 为 获得辩论 结果的辩论语义。 该框架与 Blom 的偏好解耦框架是一致的[ 6 ] , 区别仅在于,针对静态和时序约束存在两种二元关 系,因此构造攻击关系时每种论据都是局限在自己 的二元关系归类中。 结果自然是每种攻击关系操作 符都有一个独立的辩论结果。 本文使用的辩论语义 SL 与 Blom [ 6 ]相同,即 SL 为 Dung [ 19 ]首选扩展语义。 断言 4 TCOA⁃ARG 的辩论结果是一个静态 (时序)约束的首选扩展集,也就是说,没有内部冲 突的静态(时序)约束的最大集, 记为 A = A≻∪ A▷ A≻ SL→ Ex≻ A▷ SL→ Ex▷ 式中: A≻ 和 A▷ 分别为基于 ≻ 或 ▷ 的论据子集, Ex≻ 和 Ex▷ 分别为从 A≻ 和 A▷ 推导出来的首选扩 展集合。 需要指出的是,每一个论据均对应了一个约束 或偏好,表达了 2 个动作之间的优势关系。 在辩论 中,一些偏好会被约束或其他一些更高优先级的偏 好关系击败,因而被剔除,留在集合 Ex≻ 和 Ex▷ 中 的就是最大兼容性的约束子集。 断言 5 论据的首选扩展集合给出的用户最大 满意度集合。 2.4 主要结果 本节的主要结果总结在算法 2 和算法 3 中。 算法 2 基于辩论解决偏好不一致性。 输入:一个任务级 COA 问题,已建立约束/ 偏好 集合 。 输出:首选扩展集 Ex≻ 与 Ex▷ 。 1 )构造论据集合,包含通配符的论据拆分为元 论据。 2 )在论据间进行搜索,构造攻击关系。 3 )执行 DUNG 的首选辩论语义,获得首选扩展 集合 Ex≻ 和 Ex▷ 。 如果 Ex≻ 或 Ex▷ 是空集,那就意味着静态或时 序约束中存在一些不能解决的冲突。 因而不能获得 调度方案。 否则,就可以进行下一阶段的工作,引用 算法 1 构造 COA 可行解。 算法 3 带定性约束/ 偏好的任务级 COA 规划 ARG⁃COA。 输入:一个任务级 COA 问题。 输出:COA 规划方案。 1)建立定性约束/ 偏好集合。 2 )执行算法 2 获取一致性约束/ 偏好集合 Ex≻ 与 Ex▷ 。 3) 执行算法 1 得到规划结果。 3 案例研究 文中以一种卫星的突发性任务观测为背景展开 案例研究。 卫星设计如目前正在运行的 LAPAN⁃ TUBSAT [ 20 ] 。 卫星装有视频摄像机,提供实时目标 监控,无板载存储。 研究次日有 2 颗卫星过境,兴趣目标有 3 个,每 个卫星均有 2 个可操作时间窗口。 表 1 给出了卫星 的技术状态描述,表 2 给出了卫星的可见窗口描述。 表 1 卫星技术状态描述 Table 1 Description of satellites’ technical status 卫星编号 可见弧段/ min 分辨力 成像波段 与测控站距离 S1 15 2 048×2 048 红外/ 可见光 2 000 S2 8 762×576 可见光 1 000 第 5 期 王炎娟,等:任务级行动序列问题中的定性偏好研究 ·555·
.556. 智能系统学报 第9卷 表2卫星可操控时间列表 Table 2 List of satellite's time widow for operation 卫星 操作时间窗口 S [15:4015:55]am [17:1017:30]am S2 [9:409:55]am [11:0011:10]am 把观测任务视为COA问题,考察以下类型偏好。 进入阴影区,在下一个任务之前不能充分充电。 1)目标的价值有优先级,用户在白天要首先观 (C2)(s1,g3,#)D8(s1,g3,45.o0pm) 察到优先级高的目标。 现在可以综合(P1)~(P10)和(C1)~(C2), 2)根据地面测控站的要求,对同一个目标执行 执行辩论并完成任务级COA方案。 观测动作时,希望使用能提供较长可见弧段的卫星。 从偏好构建论据时,还需要确定偏好自身的优 3)考虑到卫星的能量储备,在进行观测时,优先 先级。在本案例中,根据偏好的提出者来确定Arank 考虑姿态机动小、耗费能量少的卫星。 这个值。卫星运营商、卫星设计方和用户提出的偏 4)对同一目标成像,用户喜欢高分辨率的图像。 好关系将分别有3、2和1的优先级。当然,从约束 5)对某目标成像时,用户希望首先得到低分辨 构造的论据都具有0的优先级。 率图像,再获得高分辨率图像,方便图像判读。 1)论据构建 6)从用户角度,监视运动目标具有更高优先级。 (P1):a1=[D,(~,g1,~),(~,#,~),1] 7)从传输信道的稳定性来讲,希望使用距离测 (P2):a2=[D,(~,#~),(~,82,~),1] 控站距离近的卫星进行观测。 (P3):a3=[>,(s2,~,~),($2,~,~),3] 8)进行森林火灾目标的检测时,更希望使用配 (P4):a4=[>,(s1,8,~),(s181,~),2] 备红外相机的卫星。 (P5):a5=[>,(s1,~,~),(1,~,),1] 下面根据以上规则给出各偏好的形式化表达。 (P6):a6=[>,(s2,#,~),(s1,#,~),1] 目标优先级偏好:目标g,的优先级最高,而目 (P7):a,=[>,(~g1,~),(~,g1,~),1] 标g,的优先级最低,因而有 (P8):ag=[>,Θ,(s1,g1,~),1] (P1)(~81,)D(~,#,~) (P9):ag=[>,(s2,81,~),(52g1,~),1] (P2)(~,#,~)D(~,82,~) (P10):a2=【>,(s2,82,#),(32,82,#),0] 可用测控弧段偏好: (C1):a0=[D,(~,~,0mw),(~g3,7t0mm),0] (P3)(s2,~,~)>(72,~,~) (C2):a4=[D,(s1,g3,#),(s1,g3,5.o0rw),0] 姿态机动能量偏好: 2)攻击关系构建 (P4)(s1,83,~)>(s1,81,~) 记 成像分辨率偏好: A>={a3,a4,a5,a7,ag,ag,a12} (P5)(s1,~,~)>(51,~,~) Ac={a1,a2,a6,a10,a14} 低、高分辨率切换顺序偏好: A。内部没有冲突,因此,Ex。=A。·而对于A,则 (P6)(s2,,~)D(s1,~,~) 需要执行一个辩论过程以获得Ex,。 移动目标监视偏好: 论据a,拆分为 (P7)(~,g1,~)>(,7g1,~) 信道传输质量偏好: a5=[>,(s1,7g2,~),(s1,g2,~),1] a=[>,(s1g2,~),(5182,~),1] (P8)Θ>(51,81,~) 输出帧率偏好: a3=[>,(s1,(g11g2),~), (P9)(s281,~)>(5281,~) (51,(g1g2),~),1] 成像谱段偏好:目标g2处于森林火险等级较 论据a,拆分为 高的区域,优先考虑使用红外相机观测,即 a=[>,(s1,81,~),(s1,7g1,~),1] (P10)(52,g2,-)>(2,~,~) a7=[>,(s2,g1,~),(s2,g1,~),1] 下面给出3个约束关系。据气象预报,上午10 得到攻击关系如下: 时前目标g,被云层覆盖,不能被观测到。 asRa3,aRas,anRas,agRas,agRa (C1)(~,83,410.0aw)D(~,g3,~) 3)辩论结果 由于卫星自身的限制,次日下午5:00后卫星s1 依据攻击关系构成的导向图如图2所示。 不应该被用于目标g,的观测,因为那时卫星会马上
表 2 卫星可操控时间列表 Table 2 List of satellite’s time widow for operation 卫星 操作时间窗口 S 1 [15:40 15:55]am [17:10 17:30] am S 2 [9:40 9:55]am [11:00 11:10] am 把观测任务视为 COA 问题,考察以下类型偏好。 1)目标的价值有优先级,用户在白天要首先观 察到优先级高的目标。 2)根据地面测控站的要求,对同一个目标执行 观测动作时,希望使用能提供较长可见弧段的卫星。 3)考虑到卫星的能量储备,在进行观测时,优先 考虑姿态机动小、耗费能量少的卫星。 4)对同一目标成像,用户喜欢高分辨率的图像。 5)对某目标成像时,用户希望首先得到低分辨 率图像,再获得高分辨率图像,方便图像判读。 6)从用户角度,监视运动目标具有更高优先级。 7)从传输信道的稳定性来讲,希望使用距离测 控站距离近的卫星进行观测。 8)进行森林火灾目标的检测时,更希望使用配 备红外相机的卫星。 下面根据以上规则给出各偏好的形式化表达。 目标优先级偏好:目标 g 1的优先级最高,而目 标 g 2的优先级最低,因而有 (P1) ( ~ ,g1 , ~ )▷g( ~ ,#, ~ ) (P2) ( ~ ,#, ~ )▷g( ~ ,g2 , ~ ) 可用测控弧段偏好: (P3) (s2 , ~ , ~ ) ≻s(¬ s2 , ~ , ~ ) 姿态机动能量偏好: (P4) (s1 ,g3 , ~ ) ≻g(s1 ,g1 , ~ ) 成像分辨率偏好: (P5) (s1 , ~ , ~ ) ≻s(¬ s1 , ~ , ~ ) 低、高分辨率切换顺序偏好: (P6) (s2 , ~ , ~ )▷s(s1 , ~ , ~ ) 移动目标监视偏好: (P7) ( ~ ,g1 , ~ ) ≻g( ~ ,¬ g1 , ~ ) 信道传输质量偏好: (P8) Θ ≻s(s1 ,g1 , ~ ) 输出帧率偏好: (P9) (s2 ,g1 , ~ ) ≻s(¬ s2 ,g1 , ~ ) 成像谱段偏好:目标 g 2 处于森林火险等级较 高的区域,优先考虑使用红外相机观测,即 (P10) (s2 ,g2 , ~ ) ≻0 s(¬ s2 , ~ , ~ ) 下面给出 3 个约束关系。 据气象预报,上午 10 时前目标 g 3被云层覆盖,不能被观测到。 (C1) ( ~ ,g3 ,t 10:00AM )▷0 t ( ~ ,g3 , ~ ) 由于卫星自身的限制,次日下午 5:00 后卫星 s 1 不应该被用于目 标 g 3的观测,因为那时卫星会马上 进入阴影区,在下一个任务之前不能充分充电。 (C2) (s1 ,g3 ,#)▷0 t (s1 ,g3 ,t 5:00PM ) 现在可以综合 (P1) ~ (P10) 和 (C1) ~ (C2) , 执行辩论并完成任务级 COA 方案。 从偏好构建论据时,还需要确定偏好自身的优 先级。 在本案例中,根据偏好的提出者来确定 Arank 这个值。 卫星运营商、卫星设计方和用户提出的偏 好关系将分别有 3、2 和 1 的优先级。 当然,从约束 构造的论据都具有 0 的优先级。 1)论据构建 (P1): a1 = [▷,( ~ ,g1 , ~ ),( ~ ,#, ~ ),1] (P2) : a2 = [▷,( ~ ,# ~ ),( ~ ,g2 , ~ ),1] (P3) : a3 = ≻,(s2 , ~ , ~ ),(¬ s [ 2 , ~ , ~ ),3] (P4) : a4 = ≻,(s1 ,g3 , ~ ),(s [ 1 ,g1 , ~ ),2] (P5) : a5 = ≻,(s1 , ~ , ~ ),(¬ s [ 1 , ~ , ~ ),1] (P6) : a6 = ▷,(s2 ,#, ~ ),(s [ 1 ,#, ~ ),1] (P7) : a7 = [≻,( ~ ,g1 , ~ ),( ~ ,¬ g1 , ~ ),1] (P8) : a8 = ≻,Θ,(s [ 1 ,g1 , ~ ),1] (P9) : a9 = ≻,(s2 ,g1 , ~ ),(¬ s [ 2 ,g1 , ~ ),1] (P10) : a12 = ≻,(s2 ,g2 ,#),(¬ s [ 2 ,g2 ,#),0] (C1) : a10 = ▷,( ~, ~,t 10:00AM),( ~,g3,¬ t [ 10:00AM),0] (C2) : a14 = ▷,(s1 ,g3 ,#),(s1 ,g3 ,t [ 5:00PM ),0] 2)攻击关系构建 记 A≻ = a3 ,a4 ,a5 ,a7 ,a8 ,a9 ,a12 { } A▷ = a1 ,a2 ,a6 ,a10 ,a14 { } A▷ 内部没有冲突, 因此, Ex▷ = A▷ . 而对于 A≻ 则 需要执行一个辩论过程以获得 Ex≻ 。 论据 a5 拆分为 a 1 5 = ≻,(s1 ,¬ g2 , ~ ),(¬ s [ 1 ,¬ g2 , ~ ),1] a 2 5 = ≻,(s1 ,g2 , ~ ),(¬ s [ 1 ,g2 , ~ ),1] a 3 5 = [≻,(s1 ,¬ (g1 | g2 ), ~ ), (¬ s1 ,¬ (g1 | g2 ), ~ ),1] 论据 a7 拆分为 a 1 7 = ≻,(s1 ,g1 , ~ ),(s [ 1 ,¬ g1 , ~ ),1] a 2 7 = ≻,(s2 ,g1 , ~ ),(s [ 2 ,¬ g1 , ~ ),1] 得到攻击关系如下: a5Ra3 , a7Ra4 , a12Ra 2 5 , a9Ra 1 5 , a8Ra 1 7 3)辩论结果 依据攻击关系构成的导向图如图 2 所示。 ·556· 智 能 系 统 学 报 第 9 卷
第5期 王炎娟,等:任务级行动序列问题中的定性偏好研究 ·557. 选择H、中的优势节点(攻击其他节点,而自己 不被攻击的节点)构造集合U, a 4, U3 图2攻击关系导向图 (52,~,~Xs2,g1,~)(51,g3,~)(~,82,#) Fig.2 Directed graph on attack relation 山1,山2,山3,山4等元素实际上均对应了多个三元组,相 A,的首选扩展容易从图中获得: 互之间有交叉重合的部分,这些三元组被认为是真 Ex>=(a3,as,a,as,ao,an 4)构造有向图H 正能够起作用的部分,定义为U,: H,绘制如图3。 (62)(g) u2 u3 (1g) (g,#) (s2,81,#)(51,83,#)(52,82,#) (#,,) (⑤,g)(52g)(S18Sg1-)(S1g) 5)构造有向图H。 图3有向图H、 基于EX。和U,构造H。如图4所示。 Fig.3 Directed graph H (g一) (5n#,)(,ta0d (g,#) (51g, G1g))(g制6g判 (8) (③,#) (omm) ⊙ ⊙ ⊙ 图4有向图Hp Fig.4 Directed graph H 6)构造C0A方案 这意味着,操作员应该使用卫星$2在观测g2之 接下来的求解步骤是通过合并节点获得动作序 前观测g1:同时,应使用卫星s1观测目标g3,时间在 列片段。对于虚线左侧的节点,尝试从虚线右侧找 上午10时至下午5时之间。 到匹配的节点,使得一个攻击链上相同位置的通配 结合操控时间窗口分布,得到了调度方案如下 符可以由相同的确定元素替代。例如, 所示: (~,81,~),(~,g2,~)处于同一个攻击链中,而 (s2,81,[9:40,9:50]am)→ 在右侧,(52,g1,~),(52,g2,~)能够与他们匹 (s2,g2,[11:00,11:10]am)→ 配;而下一个攻击链(s2,#,~),(s1,#,~)则不能 (s1,83,15:40,15:55]) 从右侧找到一组元素来匹配与之匹配。最后得到匹 在解决过程中可以看到从模糊语义经过标定和 配结果如图5所示。 校正逐步细化的过程。 下面将本文的ARG-C0A算法与文献[21]中的 (Sigifiomam) WS数值优化算法进行对比。 (S2g1,#) 基于本文的背景案例生成3个测试集,分别包 (518,#) 含不同数目的约束和偏好,如表3所示。由于WSI 算法不支持时序关系求解,因此偏好只设定静态偏 (⑤2-8,#) 好。使用W$算法时,把偏好也作为约束统一求 (S:8lsmm 解,以无冲突约束和偏好的强度值之和为指标函数 图5动作序列匹配结果图 值,指标大于0的约束/偏好集合均为可行解。在同 Fig.5 Matched directed graph 样的处理平台上进行对比计算,结果如表3所示
图 2 攻击关系导向图 Fig.2 Directed graph on attack relation A≻ 的首选扩展容易从图中获得: Ex≻ = a3 ,a4 ,a 2 7 ,a8 ,a9 ,a12 { } 4)构造有向图 H≻ H≻ 绘制如图 3。 图 3 有向图 H≻ Fig.3 Directed graph H≻ 选择 H≻ 中的优势节点(攻击其他节点,而自己 不被攻击的节点)构造集合 U≻ u1 u2 u3 u4 (s2 , ~ , ~ )(s2 ,g1 , ~ )(s1 ,g3 , ~ ) ( ~ ,g2 ,#) u1 ,u2 ,u3 ,u4 等元素实际上均对应了多个三元组,相 互之间有交叉重合的部分,这些三元组被认为是真 正能够起作用的部分,定义为 U ~ ≻ : u ~ 2 u ~ 3 u ~ 4 (s2 ,g1 ,#) (s1 ,g3 ,#) (s2 ,g2 ,#) 5)构造有向图 H▷ 基于 EX▷ 和 U ~ ≻ 构造 H▷ 如图 4 所示。 图 4 有向图 H▷ Fig.4 Directed graph H▷ 6)构造 COA 方案 接下来的求解步骤是通过合并节点获得动作序 列片段。 对于虚线左侧的节点,尝试从虚线右侧找 到匹配的节点,使得一个攻击链上相同位置的通配 符 可 以 由 相 同 的 确 定 元 素 替 代。 例 如, ( ~ ,g1 , ~ ) ,( ~ ,g2 , ~ ) 处于同一个攻击链中,而 在右侧, s( 2 ,g1 , ~ ) , s( 2 ,g2 , ~ ) 能够与他们匹 配;而下一个攻击链 s( 2 ,#, ~ ) , s( 1 ,#, ~ ) 则不能 从右侧找到一组元素来匹配与之匹配。 最后得到匹 配结果如图 5 所示。 图 5 动作序列匹配结果图 Fig.5 Matched directed graph 这意味着,操作员应该使用卫星 s2 在观测 g2 之 前观测 g1 ;同时,应使用卫星 s1 观测目标 g3 ,时间在 上午 10 时至下午 5 时之间。 结合操控时间窗口分布,得到了调度方案如下 所示: (s2 ,g1 ,[9:40,9:50]am) → (s2 ,g2 ,[11:00,11:10]am) → (s1 ,g3 ,[15:40,15:55]) 在解决过程中可以看到从模糊语义经过标定和 校正逐步细化的过程。 下面将本文的 ARG⁃COA 算法与文献[ 21 ] 中的 WSI 数值优化算法进行对比。 基于本文的背景案例生成 3 个测试集,分别包 含不同数目的约束和偏好,如表 3 所示。 由于 WSI 算法不支持时序关系求解,因此偏好只设定静态偏 好。 使用 WSI 算法时,把偏好也作为约束统一求 解,以无冲突约束和偏好的强度值之和为指标函数 值,指标大于 0 的约束/ 偏好集合均为可行解。 在同 样的处理平台上进行对比计算,结果如表 3 所示。 第 5 期 王炎娟,等:任务级行动序列问题中的定性偏好研究 ·557·
.558. 智能系统学报 第9卷 表3ARG-COA和WSI算法时的数值仿真对比 Table 3 Comparing the simulating results of ARG-COA and WSI 测试集1 测试集2 测试集3 约束数目 3 5 9 偏好数目 10 12 16 冲突数目 6 9 2 可行解数目 4 2 1 WSI获得可行解的时间/s 0.9.1.4 1.6.1.8 3.1 ARG-COA获得可行解的时间/s 1.1 1.2 1.3 WSI对约束/偏好的遍历次数 149 403 1413 ARG-COA对约束/偏好的遍历次数 91 153 325 仿真计算结果表明: 4 结束语 1)随着约束/偏好数目的增加,获得可行解的时 间越来越长,但是WSI算法的时间增量更大。 本文对任务级的COA问题开展研究,针对其中 2)WSI算法比ARG-COA算法对约束/偏好进 的定性偏好进行了建模,闭关完成了COA方案生成 行遍历次数要多,而且随着冲突数目的增加,两者的 算法设计,以及在偏好与约束关系存在不一致性时 差距越来越大。 如何通过非单调推理获得最大一致性,最后形成了 3)WSI算法能够更早获得可行解,但是所有的 任务级COA问题求解的两阶段算法。辩论工具的 可行解是要依次获得的,这是由搜索过程决定的:而 使用,一方面实现了偏好解耦,算法的设计具有了领 ARG-COA算法则是同步获得全部可行解的,花费较 域无关的推广能力:另一个潜在好处是能够提供用 少时间。 户交互参与规划过程的可能性。本文的研究结果是 前文指出,定性偏好也并不能替代定量偏好,同 以定量优化为主的传统任务规划研究的有效补充。 理,基于辩论的算法并不能替代定量优化算法。 将来的研究将着力于与传统定量规划算法的结合, ARG-COA算法所获得的可行解,都是用户满意度意 并逐步把任务级COA向动作级COA扩展,形成用 义下的最优解。在算法1步骤2的3)子步骤,可能 户满意度和资源约束满足均达到最优、具有用户交 会在一些节点处出现分支,此时任何一个分支都对 互能力的COA规划方法。 应一个可行解,ARG-COA算法并不能从中选出惟一 参考文献: 的最优解,而这种“优中选优”是W$I优化算法可以 胜任的。因此,两种算法的相互结合可达到互补的 [1]FERGUSON R W,RASCH R A,TURMEL W,et al.Quali- 效果:首先使用辩论算法排除确实不可能有解的偏 tative spatial interpretation of course-of-action diagrams [C] 好集合,然后再应用定量优化算法完成COA规划。 //Proceedings of the National Conference on Artificial Intel- ligence.AAAI Press,2000:1119-1120. 这将是后续研究关注的重点。 [2]FORBUS K D,USHER J,CHAPMAN V.Sketching for mil- 计算辩论工具不但能够给出推理结论,还能够 itary courses of action diagrams [C]//Proceedings of the 把推理过程展现给用户,因而进行COA的软件智能 8th International Conference on Intelligent user Interfaces. 体可以向用户表明,哪一个偏好被排除了,或者由于 ACM.2003:61-68. 用户过分强调哪一个偏好导致COA无法求解。由 [3]SLOVIC P.The construction of preference[J].American 于用户往往不是专业人员,对领域COA认识存在不 Psychologist.1995.50(5):364-371. 足,提出的偏好很可能不尽合理。当辩论过程给出 [4]BIENVENU M,MCILRAITH S.Qualitative dynamical pref- 反馈意见时,用户可以对自己的需求进行调整。如 erences in the situation calculus[C]//Multidisciplinary IJ- 案例中用户提出的某种偏好优先级默认为1,在发 CAl-05 Workshop on Advances in Preference Handling. 2005:30-35. 生冲突时可能会排除掉一些优先级为2,或3的关 [5]BIENVENU M,FRITZ C,MCILRAITH S A.Planning with 系,这可能是用户意料之外的,用户可以把自己偏好 qualitative temporal preferences [C]//Proceedings of the 的优先级更改为2或3,重新进行推理,从而允许某 10th International Conference on Principles of Knowledge 些动作。这种人机交互式的推理将是未来研究方向 Representation and Reasoning (KR).Lake District,UK, 之一。 2006:134-144
表 3 ARG⁃COA 和 WSI 算法时的数值仿真对比 Table 3 Comparing the simulating results of ARG⁃COA and WSI 测试集 1 测试集 2 测试集 3 约束数目 3 5 9 偏好数目 10 12 16 冲突数目 6 9 12 可行解数目 4 2 1 WSI 获得可行解的时间/ s 0.9,1.4 1.6,1.8 3.1 ARG⁃COA 获得可行解的时间/ s 1.1 1.2 1.3 WSI 对约束/ 偏好的遍历次数 149 403 1 413 ARG⁃COA 对约束/ 偏好的遍历次数 91 153 325 仿真计算结果表明: 1)随着约束/ 偏好数目的增加,获得可行解的时 间越来越长,但是 WSI 算法的时间增量更大。 2) WSI 算法比 ARG⁃COA 算法对约束/ 偏好进 行遍历次数要多,而且随着冲突数目的增加,两者的 差距越来越大。 3)WSI 算法能够更早获得可行解,但是所有的 可行解是要依次获得的,这是由搜索过程决定的;而 ARG⁃COA 算法则是同步获得全部可行解的,花费较 少时间。 前文指出,定性偏好也并不能替代定量偏好,同 理,基于辩论的算法并不能替代定量优化算法。 ARG⁃COA 算法所获得的可行解,都是用户满意度意 义下的最优解。 在算法 1 步骤 2 的 3)子步骤,可能 会在一些节点处出现分支,此时任何一个分支都对 应一个可行解,ARG⁃COA 算法并不能从中选出惟一 的最优解,而这种“优中选优”是 WSI 优化算法可以 胜任的。 因此,两种算法的相互结合可达到互补的 效果:首先使用辩论算法排除确实不可能有解的偏 好集合,然后再应用定量优化算法完成 COA 规划。 这将是后续研究关注的重点。 计算辩论工具不但能够给出推理结论,还能够 把推理过程展现给用户,因而进行 COA 的软件智能 体可以向用户表明,哪一个偏好被排除了,或者由于 用户过分强调哪一个偏好导致 COA 无法求解。 由 于用户往往不是专业人员,对领域 COA 认识存在不 足,提出的偏好很可能不尽合理。 当辩论过程给出 反馈意见时,用户可以对自己的需求进行调整。 如 案例中用户提出的某种偏好优先级默认为 1,在发 生冲突时可能会排除掉一些优先级为 2,或 3 的关 系,这可能是用户意料之外的,用户可以把自己偏好 的优先级更改为 2 或 3,重新进行推理,从而允许某 些动作。 这种人机交互式的推理将是未来研究方向 之一。 4 结束语 本文对任务级的 COA 问题开展研究,针对其中 的定性偏好进行了建模,闭关完成了 COA 方案生成 算法设计,以及在偏好与约束关系存在不一致性时 如何通过非单调推理获得最大一致性,最后形成了 任务级 COA 问题求解的两阶段算法。 辩论工具的 使用,一方面实现了偏好解耦,算法的设计具有了领 域无关的推广能力;另一个潜在好处是能够提供用 户交互参与规划过程的可能性。 本文的研究结果是 以定量优化为主的传统任务规划研究的有效补充。 将来的研究将着力于与传统定量规划算法的结合, 并逐步把任务级 COA 向动作级 COA 扩展,形成用 户满意度和资源约束满足均达到最优、具有用户交 互能力的 COA 规划方法。 参考文献: [1]FERGUSON R W, RASCH R A, TURMEL W, et al. Quali⁃ tative spatial interpretation of course⁃of⁃action diagrams [C] / / Proceedings of the National Conference on Artificial Intel⁃ ligence. AAAI Press, 2000: 1119⁃1120. [2]FORBUS K D, USHER J, CHAPMAN V. Sketching for mil⁃ itary courses of action diagrams [ C] / / Proceedings of the 8th International Conference on Intelligent user Interfaces. ACM, 2003: 61⁃68. [3] SLOVIC P. The construction of preference [ J]. American Psychologist, 1995, 50(5): 364⁃371. [4]BIENVENU M, MCILRAITH S.Qualitative dynamical pref⁃ erences in the situation calculus[C] / / Multidisciplinary IJ⁃ CAI⁃05 Workshop on Advances in Preference Handling. 2005: 30⁃35 . [5]BIENVENU M, FRITZ C, MCILRAITH S A. Planning with qualitative temporal preferences [C] / / Proceedings of the 10th International Conference on Principles of Knowledge Representation and Reasoning ( KR). Lake District, UK, 2006: 134⁃144. ·558· 智 能 系 统 学 报 第 9 卷
第5期 王炎娟,等:任务级行动序列问题中的定性偏好研究 ·559. [6]BLOM M.Arguments and actions:decoupling preference [17]DELGRANDE J P,SCHAUB T,TOMPITS H.Domain- and planning through argumentation [D].Melbourne:Uni- specific preferences for causal reasoning and planning versity of Melbourne,2011:15-60. [C]//Proceedings of the Ninth Intemational Conference [7]ROSSI F,VENABLE K B.Uncertainty in soft temporal con- on Principles of Knowledge Representation and Reasoning straint problems:a general framework and controllability al- (KR.2004).AAAI Press,2004:673-682. gorithms for the fuzzy case[]].Journal of Artificial Intelli- [18]DELGRANDE J P,SCHAUB T,TOMPITS H.A general gence Research,2006,27(1):617-674. framework for expressing preferences in causal reasoning [8]吴江,黄登仕.多属性决策中区间数偏好信息的一致化 and planning[J].Journal of Logic and Computation,2007, 方法[J].系统工程理论方法应用,2003,12(4):359- 17(5):871-907. 362. [19]DUNG P M.On the acceptability of arguments and its fun- The uniform methods for interval number preference informa- damental role in nonmonotonic reasoning,logic program- tion in multi-attribute decision making[].Systems Engi- ming and n-person games J].Artificial Intelligence, neering-Theory Methodology Applications,2003,12 (4): 1995,77(2):321-357. 359-.362 [20]TRIHARJANTO R H,HASBI W,WIDIPAMINTO A,et [9]张凤华.模糊决策中决策偏好的情景依赖性[D].重庆: al.LAPAN-TUBSAT:micro-satellite platform for surveil- 西南大学,2010:30-55. lance remote sensing [C]//Proceedings of the 4S Sym- Zhang Fenghua.The scenario-dependent of decision prefer- posium:Small Satellites,Systems and Services.La Ro- ence in fuzzy decision[D].Chongqing:Southwest University. chelle,France:2004:66-70. 2010:30-55. [21]贺川,朱晓敏,邱涤珊.面向应急成像观测任务的多星 [10]BRAFMAN R,DOMSHLAK C.Preference handling-an 协同调度方法[J].系统工程与电子技术,2012,34(4): introductory tutorial[J].AI Magazine,2009,30(1):58- 726-731. 95. HE Chuan,ZHU Xiaomin,QIU Dishan.Cooperative [11]MARINELLIA F,NOCELLAB S,ROSSIB F,et al.A La- scheduling method of multi-satellites for imaging reconnais- grangian heuristic for satellite range scheduling with re. sance in emergency condition[J].Systems Engineering and source constraints[J].Computers Operations Research, Electronics,2012,34(4):726-731. 2011,38(11):1572-1583. 作者简介: [12]KNIGHT R,SMITH B.Optimally solving nadir observation 王炎娟,女,1984年生,博士研究生, scheduling problems[C]//Proceedings of the 8th Interna- 主要研究方向为人工智能、信息系统与智 tional Symposium on Artifical Intelligence,Robotics and 能决策。 Automation in Space(i-SAIRAS2005).Munich,Germany: 2005:33-41. [13]GIUNCHIGLIA E,MARATEA M.Planning as satisfiability with preferences [C]//National Conference on Artificial 姚莉,女,1965年生,教授,博士生导 Intelligence.Boston:MIT Press,2007,22(2):987-992. 师,主要研究方向为人工智能、知识管理、 [14]BADALONI S,FALDA M,GIACOMIN M.Solving tempo- 信息系统与智能决策、计算辩论技术。 ral over-constrained problems using fuzzy techniques [J]. Journal of Intelligent and Fuzzy Systems,2007,18(2): 255-265. 刘斌,男,1989年生,博士研究生,主 [15]BENCH-CAPON T J M,DUNNE P E.Argumentation in 要研究方向为人工智能、信息系统与智 artificial intelligence[J].Artificial Intelligence,2007,171 能决策。 (10-15):619-641. [16]BOUTILIER C,BRAFMAN R I,DOMSHLAK C,et al. CP-nets:a tool for representing and reasoning with condi- tional ceteris paribus preference statements[].Journal of Artificial Intelligence Research,2004,21:135-191
[6] BLOM M. Arguments and actions: decoupling preference and planning through argumentation [D]. Melbourne: Uni⁃ versity of Melbourne, 2011: 15⁃60. [7]ROSSI F, VENABLE K B. Uncertainty in soft temporal con⁃ straint problems: a general framework and controllability al⁃ gorithms for the fuzzy case[ J]. Journal of Artificial Intelli⁃ gence Research, 2006, 27(1): 617⁃674. [8]吴江, 黄登仕. 多属性决策中区间数偏好信息的一致化 方法[J].系统工程理论方法应用, 2003, 12 ( 4): 359⁃ 362. The uniform methods for interval number preference informa⁃ tion in multi⁃attribute decision making [ J]. Systems Engi⁃ neering⁃ Theory Methodology Applications, 2003, 12 ( 4): 359⁃362 [9]张凤华. 模糊决策中决策偏好的情景依赖性[D]. 重庆: 西南大学,2010:30⁃55. Zhang Fenghua. The scenario⁃dependent of decision prefer⁃ ence in fuzzy decision[D]. Chongqing:Southwest University. 2010: 30⁃55. [10] BRAFMAN R, DOMSHLAK C. Preference handling—an introductory tutorial[J]. AI Magazine, 2009, 30(1): 58⁃ 95. [11]MARINELLIA F, NOCELLAB S, ROSSIB F, et al. A La⁃ grangian heuristic for satellite range scheduling with re⁃ source constraints[ J]. Computers & Operations Research, 2011, 38 (11): 1572⁃1583. [12]KNIGHT R, SMITH B. Optimally solving nadir observation scheduling problems[C] / / Proceedings of the 8th Interna⁃ tional Symposium on Artifical Intelligence, Robotics and Automation in Space(i⁃SAIRAS2005). Munich, Germany: 2005: 33⁃41. [13]GIUNCHIGLIA E, MARATEA M. Planning as satisfiability with preferences [ C] / / National Conference on Artificial Intelligence. Boston: MIT Press, 2007, 22(2): 987⁃992. [14]BADALONI S, FALDA M, GIACOMIN M. Solving tempo⁃ ral over⁃constrained problems using fuzzy techniques [ J]. Journal of Intelligent and Fuzzy Systems, 2007, 18 ( 2): 255⁃265. [15] BENCH⁃CAPON T J M, DUNNE P E. Argumentation in artificial intelligence[ J].Artificial Intelligence,2007, 171 (10⁃15): 619⁃641. [16] BOUTILIER C, BRAFMAN R I, DOMSHLAK C, et al. CP⁃nets: a tool for representing and reasoning with condi⁃ tional ceteris paribus preference statements[ J]. Journal of Artificial Intelligence Research, 2004, 21: 135⁃191. [17] DELGRANDE J P, SCHAUB T, TOMPITS H. Domain⁃ specific preferences for causal reasoning and planning [C] / / Proceedings of the Ninth International Conference on Principles of Knowledge Representation and Reasoning (KR.2004).AAAI Press, 2004: 673⁃682. [18]DELGRANDE J P, SCHAUB T, TOMPITS H. A general framework for expressing preferences in causal reasoning and planning[J]. Journal of Logic and Computation, 2007, 17(5): 871⁃907. [19]DUNG P M. On the acceptability of arguments and its fun⁃ damental role in nonmonotonic reasoning, logic program⁃ ming and n⁃person games [ J ]. Artificial Intelligence, 1995, 77 (2): 321⁃357. [20]TRIHARJANTO R H, HASBI W, WIDIPAMINTO A, et al. LAPAN⁃TUBSAT: micro⁃satellite platform for surveil⁃ lance & remote sensing [C] / / Proceedings of the 4S Sym⁃ posium: Small Satellites, Systems and Services. La Ro⁃ chelle, France: 2004: 66⁃70. [21]贺川, 朱晓敏, 邱涤珊. 面向应急成像观测任务的多星 协同调度方法[J].系统工程与电子技术, 2012, 34(4): 726⁃731. HE Chuan, ZHU Xiaomin, QIU Dishan. Cooperative scheduling method of multi⁃satellites for imaging reconnais⁃ sance in emergency condition[ J].Systems Engineering and Electronics, 2012, 34 (4): 726⁃731. 作者简介: 王炎娟,女,1984 年生,博士研究生, 主要研究方向为人工智能、信息系统与智 能决策。 姚莉,女,1965 年生,教授,博士生导 师,主要研究方向为人工智能、知识管理、 信息系统与智能决策、计算辩论技术。 刘斌,男,1989 年生,博士研究生,主 要研究方向为人工智能、信息系统与智 能决策。 第 5 期 王炎娟,等:任务级行动序列问题中的定性偏好研究 ·559·