第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201905052 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190904.1826.004html 非完备决策信息系统中的不确定性度量 高文华,梁吉业2,王宝丽3,庞天杰 (1.太原师范学院计算机科学与技术系,山西晋中030619,2.山西大学计算智能与中文信息处理教育部重点 实验室,山西太原030006:3.运城学院数学与信息技术学院,山西运城044000) 摘要:针对粗糙集数据分析中的不确定性度量问题。本文首先构造一种新型的考虑条件属性缺失度的目标 概念条件嫡和决策知识条件嫡。在此基础上,提出基于条件嫡的属性权重确定技术和最小条件嫡非完备属性 取值补充方法,用以解决属性权重完全未知的非完备多属性决策问题。应用实例分析表明:该方法能有效结合 粗粒度的初步分级信息,客观地确定决策因素取值,具有很强的解释意义,得到的决策结果更为合理有效。 关键词:非完备决策系统:相容关系;知识粒度;不确定性度量;条件熵:属性权重:最小条件嫡原则;多属性决 策方法 中图分类号:TP301文献标志码:A文章编号:1673-4785(2019)06-1100-11 中文引用格式:高文华,梁吉业,王宝丽,等.非完备决策信息系统中的不确定性度量J川.智能系统学报,2019,14(6): 1100-1110. 英文引用格式:GAO Wenhua,LIANG Jiye,WANG Baoli,etal.Uncertainty measure in incomplete decision information systemJ.. CAAI transactions on intelligent systems,2019,14(6):1100-1110. Uncertainty measure in incomplete decision information system GAO Wenhua,LIANG Jiye',WANG Baoli,PANG Tianjie' (1.Department of Computer Science and Technology,Taiyuan Normal University,Jinzhong 030619,China;2.Key Laboratory of Ministry of Education for Computational Intelligence and Chinese Information Processing,Taiyuan 030006,China;3.School of Mathematics and Information Technology,Yuncheng University,Yuncheng 044000,China) Abstract:In order to solve uncertainty measure problem in data analysis of rough set,this study first constructs a new type of conditional entropy of the objective concept and conditional entropy of decision knowledge,with consideration of the degree of missing of conditional attributes,and moreover,proposes the conditional entropy-based attribute weight determination technique and a complementary method for incomplete attributes with minimum conditional entropy,so as to solve a kind of incomplete multi-attribute decision-making problem whose attribute weight is completely unknown. The real practical application shows that the proposed method can effectively combine coarse-grained preliminary clas- sification information to objectively determine the value of decision factors,having strong explanatory significance,and the obtained decision results are more reasonable and effective. Keywords:incomplete decision system;tolerance relation;knowledge granularity;uncertainty measure;conditional en- tropy;attribute weight;minimum conditional entropy principle;multi-attribute decision-making method 粗糙集理论是由Pawlak四提出的一种处理不发挥着重要的作用。 精确、不确定和模糊信息的数学工具,目前已被 目前,国内外学者已经对经典粗糙集理论的 广泛应用于病症诊断、金融风险和机器故障分析 不确定性度量问题做了系统的研究。这些研 等问题中2。不确定性度量是粗糙集理论中的 究大多基于完备描述的信息系统。现实问题中, 一个重要研究问题,它在属性约简、规则获取中 由于属性度量的高代价性、评价者对问题的判断 收稿日期:2019-05-27.网络出版日期:2019-09-05 水平不足或数据输入人员的疏忽问题,常存在属 基金项目:国家自然科学基金项目(61703363):山西省重点实 验室开放课题基金项目(CICIP2018008). 性值缺失的非完备信息系统。这种非完备信息系 通信作者:梁吉业.E-mail:ly@sxu.edu.cn. 统中的不确定性度量对于非完备知识获取等相关
DOI: 10.11992/tis.201905052 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190904.1826.004.html 非完备决策信息系统中的不确定性度量 高文华1 ,梁吉业2 ,王宝丽3 ,庞天杰1 (1. 太原师范学院 计算机科学与技术系,山西 晋中 030619; 2. 山西大学 计算智能与中文信息处理教育部重点 实验室,山西 太原 030006; 3. 运城学院 数学与信息技术学院,山西 运城 044000) 摘 要:针对粗糙集数据分析中的不确定性度量问题。本文首先构造一种新型的考虑条件属性缺失度的目标 概念条件熵和决策知识条件熵。在此基础上,提出基于条件熵的属性权重确定技术和最小条件熵非完备属性 取值补充方法,用以解决属性权重完全未知的非完备多属性决策问题。应用实例分析表明:该方法能有效结合 粗粒度的初步分级信息,客观地确定决策因素取值,具有很强的解释意义,得到的决策结果更为合理有效。 关键词:非完备决策系统;相容关系;知识粒度;不确定性度量;条件熵;属性权重;最小条件熵原则;多属性决 策方法 中图分类号:TP301 文献标志码:A 文章编号:1673−4785(2019)06−1100−11 中文引用格式:高文华, 梁吉业, 王宝丽, 等. 非完备决策信息系统中的不确定性度量 [J]. 智能系统学报, 2019, 14(6): 1100–1110. 英文引用格式:GAO Wenhua, LIANG Jiye, WANG Baoli, et al. Uncertainty measure in incomplete decision information system[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1100–1110. Uncertainty measure in incomplete decision information system GAO Wenhua1 ,LIANG Jiye2 ,WANG Baoli3 ,PANG Tianjie1 (1. Department of Computer Science and Technology, Taiyuan Normal University, Jinzhong 030619, China; 2. Key Laboratory of Ministry of Education for Computational Intelligence and Chinese Information Processing, Taiyuan 030006, China; 3. School of Mathematics and Information Technology, Yuncheng University, Yuncheng 044000, China) Abstract: In order to solve uncertainty measure problem in data analysis of rough set, this study first constructs a new type of conditional entropy of the objective concept and conditional entropy of decision knowledge, with consideration of the degree of missing of conditional attributes, and moreover, proposes the conditional entropy-based attribute weight determination technique and a complementary method for incomplete attributes with minimum conditional entropy, so as to solve a kind of incomplete multi-attribute decision-making problem whose attribute weight is completely unknown. The real practical application shows that the proposed method can effectively combine coarse-grained preliminary classification information to objectively determine the value of decision factors, having strong explanatory significance, and the obtained decision results are more reasonable and effective. Keywords: incomplete decision system; tolerance relation; knowledge granularity; uncertainty measure; conditional entropy; attribute weight; minimum conditional entropy principle; multi-attribute decision-making method 粗糙集理论是由 Pawlak[1] 提出的一种处理不 精确、不确定和模糊信息的数学工具,目前已被 广泛应用于病症诊断、金融风险和机器故障分析 等问题中[2-4]。不确定性度量是粗糙集理论中的 一个重要研究问题,它在属性约简、规则获取中 发挥着重要的作用。 目前,国内外学者已经对经典粗糙集理论的 不确定性度量问题做了系统的研究[5-13]。这些研 究大多基于完备描述的信息系统。现实问题中, 由于属性度量的高代价性、评价者对问题的判断 水平不足或数据输入人员的疏忽问题,常存在属 性值缺失的非完备信息系统。这种非完备信息系 统中的不确定性度量对于非完备知识获取等相关 收稿日期:2019−05−27. 网络出版日期:2019−09−05. 基金项目:国家自然科学基金项目 (61703363);山西省重点实 验室开放课题基金项目 (CICIP2018008). 通信作者:梁吉业. E-mail:ljy@sxu.edu.cn. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
第6期 高文华,等:非完备决策信息系统中的不确定性度量 ·1101· 问题的求解也至关重要。近年来,研究者对非完 值域,则V=UaEA Va;信息函数f:U×A→V,表示 备信息系统或非完备决策系统的不确定度量取得 论域中每个对象在每个属性上均对应一个属性值。 了一系列非常重要且有意义的研究成果46。文 若在信息系统S中存在xeU、a∈A使得fx,a) 献[17刀对3种类型的决策表(完备、非完备和最 等于空值,其中空值用*表示,则称该信息系统为 大一致块)计算粗糙集的模糊性和粗略决策。文 非完备信息系统,记作IS。 献[18]在非完备决策系统中定义了一种条件嫡。 若A=CUd,C为有限的条件属性集,d为决策 而进一步研究发现,该条件嫡对知识粒度不具有 属性,Cnd=、V=UascV.、f:U×(CUd)→V,则称 单调性,这使得评估不完备决策系统中的不确定 之为决策信息系统,记作DS。若*∈Vc、*Va, 性变得不那么合理。文献[19]进一步研究非完备 则称决策信息系统为DS。 决策系统的不确定性度量,提出对知识粒度变化 在非完备信息系统中,由于一些缺失值的存 敏感且具有单调性的条件熵。虽然这些度量值随 在,完备信息系统中的等价关系已不适用于辨别 着知识粒度的变化而改变,但没有充分考虑由于 任意两个对象间的关系。Kryszkiewicz2I运用较 属性值缺失引起的不确定性。因此,构造既具有 弱的相容关系刻画非完备信息系统中对象之间的 知识粒度单调性又可体现属性缺失的不确定性度 相似性关系,进一步刻画概念的上、下近似。 量具有重要的意义。 定义1相容关系T(P)定义为: 非完备多属性决策问题是一类重要的多属性 T(P)=((u,v)EUXUNaEP,a(u)=a(v)va(u)=*Va(v)=*) 决策问题。属性权重的合理设定是获得可信决策 (1) 结果的保障;属性缺失值填充是有效集结不同属 T(P)是论域U上的相容关系,满足自反性和 性信息的关键。目前属性权重确定方法大都基于 对称性。在非完备信息系统中,相容关系指的是 完备描述的多属性决策问题。文献[20]基于嫡权 将缺失值看作与任何同属性下的已知值有相等的 法设定属性权重。文献21]利用优势粗糙集中属 可能性的一种描述。对象u在知识P下与对象v 性的综合优势度来确定多属性决策中的属性权 可能的不可区分的相容类为T(W)={v∈UI(u,)∈ 重。文献[22]基于信息量确定属性权重。上述赋 T(P)小,山,v∈U,称T(w为相容关系下的信息粒度。 权方法是从信息论的角度来计算的属性权重,不 12非完备信息系统中的不确定性度量 再依赖于数据分布,且具有客观性。属性缺失值 非完备信息系统中的信息熵在文献[14]中首 的填充方法通常使用统计分析法和最近邻法等填 次进行了深入的探讨与研究。 充方法将非完备系统完备化,然而,在特定情况 定义21在非完备信息系统IS=(U,A,V 下,这些填充方法填充的结果会与实际数据产生 中,PcA,属性P在论域U上的信息嫡定义为: 偏离,从而导致不尽合理的决策结果。 1 u ITp(u) log 本文考虑条件属性值缺失的情形,提出了一 HP)= U (2) 种新的条件熵用以刻画非完备决策系统中的知识 式中:T(u)是非完备信息系统中在U上定义的 不确定性程度,同时分析新的条件熵具有有界、 相容关系下的相容类;U1表示集合U的基数。 单调以及完备可退化的特性。此外,将新条件嫡 文献[14)对非完备信息系统的不确定性度量 应用于非完备多属性决策问题求解中,提出一种 进行了研究,文献[18]进一步考虑了非完备决策 基于条件熵的非完备多属性决策方法。该方法以 信息系统中的不确定性度量,提出了条件信息熵 条件熵为统领,确定属性权重并以最小条件熵为 的概念。 准则选择填充值,以此更加客观地求解现实中存 定义311 DS=(U,CU{d),V,f)为非完备决策 在的非完备多属性决策问题,并获得合理有效的 信息系统,P,QsCU{d)。属性Q相对属性P的条 决策结果。最后应用房屋评测实例说明所提方法 件熵定义为: 的有效性与合理性。 To(u)nTr(u) H(QIP)=- 〉log IT(u) (3) 1相关概念 其中T()与To(w)是非完备信息系统中在U上 1.1基本定义 定义的相容关系下的相容类。 信息系统S=(U,Vf,A)是一个4元组,其中 文献[19]进一步对文献[18]中的条件信息嫡 U是由对象构成的非空有限集合,称为论域。A为 进行了改进,提出一种满足单调性的条件熵度量 有限属性集,V。为属性a的值域,V为属性集A的 公式
问题的求解也至关重要。近年来,研究者对非完 备信息系统或非完备决策系统的不确定度量取得 了一系列非常重要且有意义的研究成果[14-16]。文 献 [17] 对 3 种类型的决策表 (完备、非完备和最 大一致块) 计算粗糙集的模糊性和粗略决策。文 献 [18] 在非完备决策系统中定义了一种条件熵。 而进一步研究发现,该条件熵对知识粒度不具有 单调性,这使得评估不完备决策系统中的不确定 性变得不那么合理。文献 [19] 进一步研究非完备 决策系统的不确定性度量,提出对知识粒度变化 敏感且具有单调性的条件熵。虽然这些度量值随 着知识粒度的变化而改变,但没有充分考虑由于 属性值缺失引起的不确定性。因此,构造既具有 知识粒度单调性又可体现属性缺失的不确定性度 量具有重要的意义。 非完备多属性决策问题是一类重要的多属性 决策问题。属性权重的合理设定是获得可信决策 结果的保障;属性缺失值填充是有效集结不同属 性信息的关键。目前属性权重确定方法大都基于 完备描述的多属性决策问题。文献 [20] 基于熵权 法设定属性权重。文献 [21] 利用优势粗糙集中属 性的综合优势度来确定多属性决策中的属性权 重。文献 [22] 基于信息量确定属性权重。上述赋 权方法是从信息论的角度来计算的属性权重,不 再依赖于数据分布,且具有客观性。属性缺失值 的填充方法通常使用统计分析法和最近邻法等填 充方法将非完备系统完备化,然而,在特定情况 下,这些填充方法填充的结果会与实际数据产生 偏离,从而导致不尽合理的决策结果。 本文考虑条件属性值缺失的情形,提出了一 种新的条件熵用以刻画非完备决策系统中的知识 不确定性程度,同时分析新的条件熵具有有界、 单调以及完备可退化的特性。此外,将新条件熵 应用于非完备多属性决策问题求解中,提出一种 基于条件熵的非完备多属性决策方法。该方法以 条件熵为统领,确定属性权重并以最小条件熵为 准则选择填充值,以此更加客观地求解现实中存 在的非完备多属性决策问题,并获得合理有效的 决策结果。最后应用房屋评测实例说明所提方法 的有效性与合理性。 1 相关概念 1.1 基本定义 S = ⟨U,V, f,A⟩ U A Va a V A 信息系统 是一个 4 元组,其中 是由对象构成的非空有限集合,称为论域。 为 有限属性集, 为属性 的值域, 为属性集 的 值域,则 V = ∪a∈AVa;信息函数 f : U × A → V ,表示 论域中每个对象在每个属性上均对应一个属性值。 S x ∈ U、a ∈ A f(x,a) IS 若在信息系统 中存在 使得 等于空值,其中空值用*表示,则称该信息系统为 非完备信息系统,记作 。 A = C ∪d C d C ∩d = ϕ、V = ∪a∈CVa、f : U ×(C ∪d) → V, DS ∗ ∈ VC、∗ < Vd IDS 若 , 为有限的条件属性集, 为决策 属性, 则称 之为决策信息系统,记作 。若 , 则称决策信息系统为 。 在非完备信息系统中,由于一些缺失值的存 在,完备信息系统中的等价关系已不适用于辨别 任意两个对象间的关系。Kryszkiewicz[23] 运用较 弱的相容关系刻画非完备信息系统中对象之间的 相似性关系,进一步刻画概念的上、下近似。 定义 1 T(P) [23] 相容关系 定义为: T(P)={(u, v) ∈ U×U |∀a∈P,a(u)=a(v)∨a(u)=∗∨a(v)=∗} (1) T(P) U u P v {v ∈ U |(u, v) ∈ T(P)} u, v ∈ U TP(u) 是论域 上的相容关系,满足自反性和 对称性。在非完备信息系统中,相容关系指的是 将缺失值看作与任何同属性下的已知值有相等的 可能性的一种描述。对象 在知识 下与对象 可能的不可区分的相容类为 TP(u) = , ,称 为相容关系下的信息粒度。 1.2 非完备信息系统中的不确定性度量 非完备信息系统中的信息熵在文献 [14] 中首 次进行了深入的探讨与研究。 IS = ⟨U,A,V, f⟩ P ⊆ A P U 定义 2 [14] 在非完备信息系统 中, ,属性 在论域 上的信息熵定义为: H(P) = − 1 U ∑ |U| i=1 log |TP(ui)| |U| (2) TP(ui) U |U| U 式中: 是非完备信息系统中在 上定义的 相容关系下的相容类; 表示集合 的基数。 文献 [14] 对非完备信息系统的不确定性度量 进行了研究,文献 [18] 进一步考虑了非完备决策 信息系统中的不确定性度量,提出了条件信息熵 的概念。 IDS = ⟨U,C ∪{d},V, f⟩ P,Q ⊆ C ∪{d} Q P 定义 3 [18] 为非完备决策 信息系统, 。属性 相对属性 的条 件熵定义为: H1(Q|P) = − 1 |U| ∑m i=1 log TQ(ui)∩TP(ui) |TP(ui)| (3) 其中 TP(ui) 与 TQ(ui) 是非完备信息系统中在 U 上 定义的相容关系下的相容类。 文献 [19] 进一步对文献 [18] 中的条件信息熵 进行了改进,提出一种满足单调性的条件熵度量 公式。 第 6 期 高文华,等:非完备决策信息系统中的不确定性度量 ·1101·
·1102- 智能系统学报 第14卷 定义4四设DS=(U,CUD,Vf)、*生Vo、*∈Vc SA()={41} 是非完备决策系统,其中,U={1,2,…,nl,B≤C SA,()={u3,6} 是一个属性集,U/D={Y,Y2,…,Ym}。则决策属性 Sa,(45)={u4,4,6} D相对属性B的条件熵定义为: SA,(2)={2,6} .(o) Ta(ua)nY Sa(4)={u4,5l log (4) Ts(ui SA,(6)={u2,g,4,6} 其中Ts(,)是非完备信息系统中在U上定义的相 Sa(4)={u1l 容关系下的相容类。 SA,(3)={3,6} 然而,定义3及定义4并没有明显地刻画出 SA(s)={u4,5,6} 非完备决策系统的属性值缺失程度的特点,如果 SA(2)={2,6} 此属性(或属性集)的信息变得更粗糙(即此属性 S(u4)={u4,4s} 或属性集上有更多的缺失值),则在该属性集下的 SA(6)={u2,4,5,6 不确定性应该更大,但有时上述不确定性度量值 由此,可知 却保持不变,相关实例见例1。 SA(u=S(u.SA(U2)=SA(u2) 例1表1与表2是2个给定的决策信息表。 论域与条件属性集分别为U={山1,2,3,4,s,6}和 SA(uS=S:(u3).SA(U)=SA:(UA) A1={a1,a2,a3,a4}、A2={b1,b2,b3,b4}。二者的决策知 SA.(us)=SA(us).SA(u)=SA:(u6) 识相同,可表示为U/d={w,,{,4,s,w6》,表2 2)根据定义3,计算2个非完备决策系统的 将表1的部分属性值进行修改,以获得比表1 条件熵分别为: 缺失值更多的决策表。 H,da)=-而台 T(uOTA (u 表1一个非完备决策表 TA.(U Table 1 An incomplete decision table 6×0+0+og2+0+0+log =0.2358 U a d 1 31 11 3 H(dh,)=-名×0+0+1e2+0+0+log-0.2358 2 2 2 3 4 3)根据定义4,计算2个非完备决策系统的 U3 2 4 2 条件熵分别为: 4 2 H,dA)=-) Ta,(UY 14s =1= ITA,(U) 2 2 2 1,12 Us 0+og+2×og2+ 2. 6 og +1og3 表2表1部分已知值缺失化后的非完备决策表 1.3,311 Table 2 An incomplete decision table with partial known values modified in Tablel 2.2 1 12 U b b2 ba d Ha(dA)=-0+6log+2x6log+6 6 33,1 =0.8742 12 2 从以上计算可以看出表1与表2两个非完备 《3 4 2 决策信息系统的两种条件嫡都相同,但实际上由 Ua 2 于属性值缺失程度不同,它们所蕴含的信息不 5 2 同,所以非完备决策信息系统的不确定性也应该 不同。 利用定义3和定义4,分别计算表1和表2两 2非完备决策系统中的条件熵 个系统的条件熵。 1)由相容关系分别计算6个对象在属性A1、A2 在经典粗糙集理论中,产生不确定性的原因 下的相容类: 主要有两个方面:1)信息粒度带来的知识不确定
IDS=⟨U,C ∪ D,V, f⟩、∗ < VD、∗ ∈ VC U = {u1,u2,··· ,un} B ⊆ C U/D = {Y1,Y2,··· ,Ym} D B 定义 4 [19] 设 是非完备决策系统,其中, , 是一个属性集, 。则决策属性 相对属性 的条件熵定义为: H2(D|B) = − ∑ |U| i=1 ∑m j=1 TB(ui)∩Yj |U| log TB(ui)∩Yj |TB(ui)| (4) 其中 TB(ui) 是非完备信息系统中在 U 上定义的相 容关系下的相容类。 然而,定义 3 及定义 4 并没有明显地刻画出 非完备决策系统的属性值缺失程度的特点,如果 此属性 (或属性集) 的信息变得更粗糙 (即此属性 或属性集上有更多的缺失值),则在该属性集下的 不确定性应该更大,但有时上述不确定性度量值 却保持不变,相关实例见例 1。 U = {u1,u2,u3,u4,u5,u6} A1 = {a1,a2,a3,a4} A2 = {b1,b2,b3,b4} U/d = {{u1,u3},{u2,u4,u5,u6}} 例 1 表 1 与表 2 是 2 个给定的决策信息表。 论域与条件属性集分别为 和 、 。二者的决策知 识相同,可表示为 ,表 2 将表 1 的部分属性值进行修改,以获得比表 1 缺失值更多的决策表。 表 1 一个非完备决策表 Table 1 An incomplete decision table U a1 a2 a3 a4 d u1 1 2 3 4 × u2 2 2 3 4 √ u3 2 2 4 2 × u4 1 ∗ 3 2 √ u5 ∗ 2 3 2 √ u6 2 2 ∗ ∗ √ 表 2 表 1 部分已知值缺失化后的非完备决策表 Table 2 An incomplete decision table with partial known values modified in Table1 U b1 b2 b3 b4 d u1 1 2 3 4 × u2 2 ∗ 3 4 √ u3 ∗ ∗ 4 2 × u4 1 ∗ 3 2 √ u5 ∗ ∗ 3 2 √ u6 2 2 ∗ ∗ √ 利用定义 3 和定义 4,分别计算表 1 和表 2 两 个系统的条件熵。 1) 由相容关系分别计算 6 个对象在属性 A1、A2 下的相容类: S A1 (u1) = {u1} S A1 (u3) = {u3,u6} S A1 (u5) = {u4 ,u5 ,u6} S A1 (u2) = {u2,u6} S A1 (u4) = {u4,u5} S A1 (u6) = {u2,u3,u5,u6} S A2 (u1) = {u1} S A2 (u3) = {u3 ,u6} S A2 (u5) = {u4,u5,u6} S A2 (u2) = {u2,u6} S A2 (u4) = {u4 ,u5} S A2 (u6) = {u2 ,u3 ,u5 ,u6} 由此,可知 S A1 (u1) = S A2 (u1) , S A1 (u2) = S A2 (u2) S A1 (u3) = S A2 (u3) , S A1 (u4) = S A2 (u4) S A1 (u5) = S A2 (u5) , S A1 (u6) = S A2 (u6) 2) 根据定义 3,计算 2 个非完备决策系统的 条件熵分别为: H1(d |A1 ) = − 1 |U| ∑m i=1 log Td(ui)∩TA1 (ui) TA1 (ui) = − 1 6 × ( 0+0+log 1 2 +0+0+log 3 4 ) =0.235 8 H1(d |A2 ) = − 1 6 × ( 0+0+log 1 2 +0+0+log 3 4 ) =0.235 8 3) 根据定义 4,计算 2 个非完备决策系统的 条件熵分别为: H2(d |A1 ) = − ∑ |U| i=1 ∑m j=1 TA1 (ui)∩Yj |U| log TA1 (ui)∩Yj TA1 (ui) = − [ 0+ 2 6 log 2 2 +2× 1 6 log 1 2 + 2 6 log 2 2 + 3 6 log 3 3 + ( 1 6 log 1 4 + 3 6 log 3 4 )] = 0.874 2 H2(d|A2 ) = − [ 0+ 2 6 log 2 2 +2× 1 6 log 1 2 + 2 6 log 2 2 + 3 6 log 3 3 + ( 1 6 log 1 4 + 3 6 log 3 4 )] = 0.874 2 从以上计算可以看出表 1 与表 2 两个非完备 决策信息系统的两种条件熵都相同,但实际上由 于属性值缺失程度不同,它们所蕴含的信息不 同,所以非完备决策信息系统的不确定性也应该 不同。 2 非完备决策系统中的条件熵 在经典粗糙集理论中,产生不确定性的原因 主要有两个方面:1) 信息粒度带来的知识不确定 ·1102· 智 能 系 统 学 报 第 14 卷
第6期 高文华,等:非完备决策信息系统中的不确定性度量 ·1103· 性;2)粗糙集边界引起的集合不确定性。然而对 下缺失值的个数。以下出现的相同符号意义与此 于非完备信息系统,经过分析发现:已有的不确 相同,不再赘述。 定性度量方法在同一非完备信息系统中,相同属 基于上述分析,构造出非完备信息系统中目 性集下的属性值缺失程度不同所形成的系统会得 标概念的不确定性度量。 到相同的度量值,这时,如果直接应用已有的度 定义7设IS=(U,Vf,A),PSA,是一个非完备 量公式来度量非完备信息系统的不确定性,就存 信息系统,U/T(P)={Tr(,Tp(,…,Tp(4)h,XU, 在一定的局限性,因为已有的度量方法只考虑了 则目标概念X在覆盖U/T(P)下的不确定性度量为: 非完备信息系统中由于知识粒度引起的不确定性 yTnN1og号 H.xIP)- IT(u)OXI 以及由粗糙集边界带来的集合不确定性,而没有 IU川 (6) TP(uil 考虑由于属性值缺失所引起的不确定性。针对以 定义7给出了非完备信息系统中目标概念的 上问题,本文在非完备信息系统中提出一种考虑 不确定性度量,该度量不但反映了非完备信息系 缺失值程度的不确定性度量,并进一步考虑了非 统中由于知识粒度及集合引起的不确定性,还反 完备决策信息系统中的不确定性度量,提出新的 映了由于属性值缺失所引起的不确定性。 条件嫡,讨论了其相关性质。从新的角度验证并 定理1设IS=(U,Vf,A,PSA,是一个非完 说明条件嫡能够更加精确地度量非完备决策系统 备信息系统,XcU,那么H(XP)是定义5下的 的不确定性。 不确定性度量。 通过以上分析,将完备信息系统下的不确定 证明式(6)是由2部分因子组成,其中一个 性度量公理化定义推广到非完备信息系统中,提 出如下非完备信息系统中不确定性度量满足条件。 因子为HxP)=-Xjog Cnx,另 定义5设IS=(U,Vf,A),PsA,是一个非完 备信息系统,X二U,(U)是U上所有覆盖的全体 一个因子为G@=可 Y=Tp(u)OX,Y=T(u)nX,x=IY=IT(u)0 集合,T(U)是U的幂集,若存在平(U「(U)到实数 ,y=Y1=Tu)nX9、X=U-X.则 集R的映射函数H(XIP):(UT(U)→R,满足如 Tp(ua)=YiUYf,ITp(ua)I IY;UY1=IY+IYI=x;+yi 下条件,则称它为目标概念X在覆盖UT(P)下的 所以 不确定性度量。 1)非负性:YPSA,有HXIP)≥0。 H(XIP)=- 凸Tu)X)nX_ IUI log lT-(u:川 2)不变性:若YP、QSA,有HXIP)=HXIQ), 那么存在映射f:U/T(P)→U/T(Q),使得对于任意 x:+y月 ie{1,2,…,UI,有Tp(u=f(Tp()川,且在属性集P 与属性集Q下的缺失值程度相同,其中,U/TP)= 易知函数fx)=-xog x中在x≥0≥0范 T(u),Tn(),…,Tp(4ul,U/T(Q)={Te(u,Te(),…, 围内单调递增,且f0,0)=0,则fx,y)≥0,故H(X To(uu)lo 1P)≥0。 3)单调性:YP、QSA,若P≤Q,且属性集P 1)非负性:易知a≥0,所以G(a)>0。又因为 比属性集Q下的缺失值程度小,则H(XIP)<H(XIQ)。 HXIP)≥0.得H(XIP)≥0: 基于上述条件,构造出非完备信息系统中知 对于任意T(w,)∈U/T(P),当且仅当T(u)nX= 识的不确定性度量。 中或T()cX时,有H.(XP)=0。 定义6设IS=(U,Vf,A,PCA,是一个非完备信 2)不变性:若VP.OCA,要使H(XIP)=H(XIQ), 息系统,XU,U/T(P)={Tp(山),Tp(2),…,T(4M, 则必对覆盖U/T(P)={T(u),T(),…,Tr(4uM,U/T 则属性集P在论域U上的信息嫡定义为: (Q)=Te(),Te(),…,Te(4)h,有ITp(ul=Te()i∈ H.(P)=-z 分To 1,2,…,Ul),即 (5) 0台101 H(X P)=- ( IT(uaOXI log 号Q 1U1 TP(ui)l 吗lTe(4)nX,Te(u)nX 式中:= 一Q(4)={ala∈PAa()=*4∈U: =H(XIQ) P To(u i=1,2,…,U八;lQ(u训表示对象4在条件属性描述 又必须在属性集P与属性集Q下的缺失值
性;2) 粗糙集边界引起的集合不确定性。然而对 于非完备信息系统,经过分析发现:已有的不确 定性度量方法在同一非完备信息系统中,相同属 性集下的属性值缺失程度不同所形成的系统会得 到相同的度量值,这时,如果直接应用已有的度 量公式来度量非完备信息系统的不确定性,就存 在一定的局限性,因为已有的度量方法只考虑了 非完备信息系统中由于知识粒度引起的不确定性 以及由粗糙集边界带来的集合不确定性,而没有 考虑由于属性值缺失所引起的不确定性。针对以 上问题,本文在非完备信息系统中提出一种考虑 缺失值程度的不确定性度量,并进一步考虑了非 完备决策信息系统中的不确定性度量,提出新的 条件熵,讨论了其相关性质。从新的角度验证并 说明条件熵能够更加精确地度量非完备决策系统 的不确定性。 通过以上分析,将完备信息系统下的不确定 性度量公理化定义推广到非完备信息系统中,提 出如下非完备信息系统中不确定性度量满足条件。 IS = ⟨U,V, f,A⟩,P ⊆ A, X ⊆ U Ψ(U) U Γ(U) U Ψ(U) Γ(U) R 1 H(X |P) Ψ(U)Γ(U) → R 1 X U/T(P) 定义 5 设 是一个非完 备信息系统, , 是 上所有覆盖的全体 集合, 是 的幂集,若存在 到实数 集 的映射函数 : ,满足如 下条件,则称它为目标概念 在覆盖 下的 不确定性度量。 1) 非负性: ∀P ⊆ A, 有 H(X |P) ⩾ 0。 ∀P、Q ⊆ A, H(X |P) = H(X |Q) f U/T(P) → U/T(Q) i ∈ {1,2,··· ,|U|}, |TP(ui)| = | f(TP(ui))| P Q {TP(u1), TP(u|U|)},U/T(Q) = {TQ(u1),TQ(u2),··· , TQ(u|U|)} 2) 不变性:若 有 , 那么存在映射 : ,使得对于任意 有 ,且在属性集 与属性集 下的缺失值程度相同,其中,U/T(P) = TP(u2),···, 。 ∀P、Q ⊆ A, P ⪯ Q P Q H(X |P) 0 H(X |P) ⩾ 0 Hα(X |P) ⩾ 0 1) 非负性:易知 ,所以 。又因为 ,得 ; TP(ui) ∈ U/T(P), TP(ui)∩ X= ϕ TP(ui) ⊆ X Hα(X |P) = 0 对于任意 当且仅当 或 时,有 。 ∀P,Q ⊆ A, H(X |P) = H(X |Q), U/T(P) = {TP(u1),TP(u2),··· ,TP(u|U|)} U/T (Q)=TQ(u1),TQ(u2),··· ,TQ ( u|U| )} |TP(ui)|= TQ(ui) (∀i ∈ {1,2,··· ,|U|}), 2) 不变性:若 要使 则必对覆盖 , ,有 即 H(X |P) = − ∑ |U| i=1 |TP(ui)∩ X| |U| log |TP(ui)∩ X| |TP(ui)| = − ∑ |U| i=1 TQ(ui)∩ X |U| log TQ(ui)∩ X TQ(ui) = H(X |Q) 又必须在属性集 P 与属性集 Q 下的缺失值 第 6 期 高文华,等:非完备决策信息系统中的不确定性度量 ·1103·
·1104· 智能系统学报 第14卷 程度相同,即G(ar)=G(ae)。 因此H(DP)可以取到最小值,且为O。 则得到 2)当Tp(w)=U,U/D={1,{2h,…,{4uh,且当所 H(XIP)=G(ap)H(XIP)=G(aQ)H(XIQ)=H(X|Q) 有条件属性值缺失时,H(DIP)达到最大值2IogU 3)单调性:因为函数fx,y)=-xlog(x/x+y)在 当所有条件属性值缺失时,即IQ(w训=UI×PI, 区间x≥0,y≥0上单调递增,且fx,y)≥0,所以 得a=IU,又因为T(4)=U,U/D={l,{2…,{u} 式(6)中一个因子H(XP)≥0,且单调递增,另一 所以,利用式(⑦)得H(D1P)=2u1ogIU。 个因子为函数G(a)=2”>0,且单调递增,所以H.(X 因此,决策属性D相对属性P的条件熵取值 P)≥0,且单调递增,即满足单调性。 范围为0≤H(DIP)≤21ogIW。 由此可知,式(6)是非完备信息系统下的一种 性质3设IDS=(U,CUD,Vf,PQSC,*Vo,*∈ 不确定性度量。 Vc是一非完备决策系统,其中U/T(P)={T(), 考虑非完备信息系统中目标概念的不确定性 Tp(2,…,Tp(4)h,U/D={Y,Yz,…,Ym}。对于任意 程度,可诱导出非完备决策系统中知识的不确定 4∈Ua∈C,(i∈1,2,…,UD,将fu,a)≠*转化为, 性度量。 a)=*,得到改变后的非完备决策系统DS'。则改 定义8设DS=(U,CUD,V,f),P∈C,*年Vo,*EVc 变后的非完备决策系统下决策属性D相对属性 是一个非完备决策系统,U/T(P)={T(),Tp(),…, P的条件熵大于原决策系统下决策属性D相对 Tr(4uh,XsU,T()是在U上定义的相容关系下 属性P的条件熵,即H(DP)>H(DP)。 的相容类,U/D={Y,Y2,…,Ym}。则决策属性D相 证明由于u,∈U,a∈C,(ie1,2,…,UD,将f(u, 对属性P的条件嫡定义为: a)≠*转化为f,a)=*,则Tp(u)sTp'(u)。由定理 H(DIP)=- Tr(u)nY log 1可知,一因子H(XP)随着T()变粗,单调递 (7) 1=1 ITp(ua) 增,则H'(YP)≥H(YP),G=1,2,…,m),即 性质1设DS=(U,CUD,V,f),P,QCC,*生Vn,*∈ 马lT')nyoT'r)ny log Vc是一非完备决策系统,其中U/T(P)=(T(), I0 IT(uiyI Tr(,…,Tn(4h,U/T(Q)={Te(4),…,Te(4h,若 T)nY以g T-(u)nY T(u训=Te(,且在属性集P与属性集Q下的 IUI IT (u) ,j=1,2.…,m) 缺失值程度相同,即ap=ae,则H(DP)=H(D1Q)。 则 性质1表明本文构造的条件熵满足不确定度 量的不变性条件,即若2个知识P,QSC,粗细相 lTnYylranY, log Te(uiYl 同,且缺失值程度相同时,它们具有相同的不确 101 定性度量值,这意味着知识粒度粗细程度及属性 T-(u)nY 值缺失程度相同,其不确定性也相同。 22 IU☑ log T(u 性质2设DS=(U,CUD,Vf,P,QSC,*生Vo,*∈ 又因为改变后的非完备决策系统DS的缺失 Vc是一非完备决策系统,其中U/T(P)={T(),TP 值增多,即a>a,也即 (,…,T(4ul,U/D={Y,Y2,…,Ymo决策属性D相对 22 属性P的条件嫡取值范围为0≤H(DIP)≤21ogIU。 可可 证明1)当T()SY,时,H(DP)取最小值为0。 所以 由T()sY可知,对任意的∈U,有 H(DP)>H(DP) IT-(u)Y_T(=1 性质3表明由定义8构造的条件嫡满足不确 TP(uil Te(uil 定性度量的单调性条件,即若2个知识PQSC, 则 P≤Q,且IQ(l<2o(u),则决策属性D相对属 T-(u)OY 性P的条件嫡小于决策属性D相对属性Q的条 log 1=0 ITp(ui)l 件熵,这意味着非完备决策信息系统存在的缺失 根据定义8得HDP)=0。反之,若T(u)¢ 值越多,则条件熵越大,不确定性也越大。 Y,则 性质4非完备决策系统DS=(U,CUD,V,f), 退化为完备决策信息系统DS=(U,CUD,V,f),其 中PC,U/T(P)={T(4),Tp(u),…,Tr(4uh,U/D=Y, 又2始终大于零,所以H(DP)≠0产生矛盾, Y2,…,Ym}。则完备决策系统中决策属性D相对属
程度相同,即 G(αP) = G(αQ)。 则得到 Hα(X |P)=G(αP) H(X |P)=G(αQ) H(X |Q)=Hα(X |Q) f(x, y) = −x log(x/x+y) x ⩾ 0, y ⩾ 0 f(x, y) ⩾ 0 H(X/P) ⩾ 0, G(α) = 2 α > 0, Hα (X |P) ⩾ 0 3) 单调性:因为函数 在 区间 上单调递增,且 ,所以 式 (6) 中一个因子 且单调递增,另一 个因子为函数 且单调递增,所以 ,且单调递增,即满足单调性。 由此可知,式 (6) 是非完备信息系统下的一种 不确定性度量。 考虑非完备信息系统中目标概念的不确定性 程度,可诱导出非完备决策系统中知识的不确定 性度量。 IDS=⟨U,C∪D,V, f⟩,P ⊆ C,∗ H(D|P) 性质3 设 是一非完备决策系统,其中 。对于任意 ,将 转化为 f ,得到改变后的非完备决策系统 。则改 变后的非完备决策系统下决策属性 相对属性 的条件熵大于原决策系统下决策属性 相对 属性 的条件熵,即 。 ∀ui ∈ U,a ∈ C,(i ∈ 1,2,··· ,|U|), f(ui , a) , ∗ f(ui ,a) = ∗ TP(ui) ⊆ TP ′ (ui) H(X |P) TP(ui) H ′ (Yj |P) ⩾ H(Yj |P),(j = 1,2,··· ,m) 证明 由于 将 转化为 ,则 。由定理 1 可知,一因子 随着 变粗,单调递 增,则 ,即 − ∑ |U| i=1 T ′ P(ui)∩Yj |U| log T ′ P(ui)∩Yj |TP(ui) ′ | ⩾ − ∑ |U| i=1 TP(ui)∩Yj |U| log TP(ui)∩Yj |TP(ui)| ,(j = 1,2,··· ,m) 则 − ∑ |U| i=1 ∑m j=1 T ′ P(ui)∩Yj |U| log T ′ P(ui)∩Yj |TP(ui) ′ | ⩾ − ∑ |U| i=1 ∑m j=1 TP(ui)∩Yj |U| log TP(ui)∩Yj |TP(ui)| IDS′ α ′ > α 又因为改变后的非完备决策系统 的缺失 值增多,即 ,也即 2 α ′ |U| > 2 α |U| 所以 H ′ (D|P) > H(D|P) P,Q ⊆ C P ⪯ Q |QP(ui)| < QQ(ui) D P D Q 性质 3 表明由定义 8 构造的条件熵满足不确 定性度量的单调性条件,即若 2 个知识 , ,且 ,则决策属性 相对属 性 的条件熵小于决策属性 相对属性 的条 件熵,这意味着非完备决策信息系统存在的缺失 值越多,则条件熵越大,不确定性也越大。 IDS = ⟨U,C ∪ D,V, f⟩, DS = ⟨U,C ∪ D,V, f⟩, P ⊆ C,U/T(P)={TP(u1),TP(u2),··· ,TP(u|U|)},U/D={Y1, Y2,··· ,Ym} D 性质 4 非完备决策系统 退化为完备决策信息系统 其 中 。则完备决策系统中决策属性 相对属 ·1104· 智 能 系 统 学 报 第 14 卷
第6期 高文华,等:非完备决策信息系统中的不确定性度量 ·1105· 性P的条件熵为: C,都有0≤Sig(a)≤1。 Hos(DIP)=- 020 证明1)由性质2可知,H(DP)可以取最小 (8) X 值,且为0。则若h=0,(i=1,2,…,m)则决策属 证明完备决策系统中无缺失值,即α=0, 性d相对该属性a,的条件熵为h:=0,从而Sig(a)=1。 相容关系退化为等价关系,则相容类T(u)退化 2)要使Sga=0,则必须=元.即存在- 为等价类[lp,U/P=(X,X2…,Xn,因此, 个条件嫡h≠0j=1,2,…,m),其余条件熵h,=0(i≠ H(DIP)=-i 分Yo IT(u) ),即属性a的重要度为0,则可对该决策系统的 条件属性集进行属性约简。 220 由式(9)可知A,≤∑,所以0≤ h:≤1,则 22忆0w. 0≤1- U ∑ ,即0≤Sig(a)≤l. 性质6设DS=(U,CUD,V,f),PQsC,*Vo,*∈ 2m2a- Vc是一非完备决策系统,则对于a:∈C,属性 X a:∈C是必要的充分必要条件是sig(a)>0。 202a0 由以上性质知,sig(a)的取值越大,则该属性 X X 在属性集C中越重要。 完备决策信息系统中属性D相对属性P的 定义10设IDS=,*生Vo,*∈Vc 条件熵Hs(DP)可以看成是以条件概率区nY 是一个非完备决策信息系统,属性集C={a1,2,…, X!为自变量的函数值的加权平均的平方。 am,属性a:∈C的权重为: Sig(a) Wi= (10) 3基于条件熵的多属性决策方法 多属性决策广泛存在于现实生活中,它主要 32基于条件熵的缺失值填充方法 包括选择、分级及排序。排序是指根据属性信息 设DS=(U,CU{d,Vf),*生Vo,*∈Vc是一个非 将系统中的整个对象集形成全序。分级是指根据 完备决策信息系统,其中Ud={Y,Y2,…,Ym以,则 一定准则将对象划分成若干类,若分类的个数等 基于条件嫡的非完备决策系统的填充方法叙述 同于对象的个数时,就将分级转化为排序。但在 如下。 实际情况下,决策结果多数以分级的形式存在, 非完备决策系统中缺失值的平均填充值: 因此可将决策系统中的分级看作初步决策,进而 ∑f,a) 利用条件嫡计算决策系统的属性权重,及对属性 Fawg(4,a)= MLEU (11) 缺失值进行填充,在此基础上,通过计算加权平 U, 均值来获得细粒度的排序,使得排序结果更合理。 其中U}={f(,a)ld(u)=d()}。 3.1基于条件熵的属性权重确定方法 非完备决策系统中缺失值的众数填充值: 定义9设DS=是一个非完 FLmode(u:,aj)=mode(Va,/(*)) (12) 备决策信息系统,属性集C={a1,a2,…,am},定义 其中mode(V,/I*)表示全体对象山在属性a下 属性a:∈C在属性集C中的重要度为: 的所有已知值中出现次数最多的属性值。 Sig(a)=1- hi (9) Fl-mde-a(u,a)=mod elf(,a)d(4,a)=d(u,a) 4∈U (13) 其中h=H(dla)i=1,2,…,m)o 利用Hl=FL-avg U(FL modenFl-.mdc-d)得到缺失 基于条件熵的属性重要度定义具有如下性质: 值填充f(4,a)=*的所有可能值,将所有可能值 性质5设DS=(U,CUD,V,f,PQ≤C,*Vo 依次填充该缺失值,然后分别计算填充后系统的 *∈Vc是一非完备决策系统,则对于任意属性a:∈ 条件嫡,比较度量值,取最小度量值对应的填充
性 P 的条件熵为: HDS(D|P) = − ∑n i=1 ( |Xi | |U| ) 2∑m j=1 Xi ∩Yj |Xi | log Xi ∩Yj |Xi | (8) α = 0 TP(ui) [ui]P U/P = {X1,X2,··· ,Xn} 证明 完备决策系统中无缺失值,即 , 相容关系退化为等价关系,则相容类 退化 为等价类 , ,因此, H(D|P) = − 2 α |U| ∑ |U| i=1 ∑m j=1 TP(ui)∩Yj |U| log TP(ui)∩Yj |TP(ui)| = − 1 |U| ∑ |U| i=1 ∑m j=1 [ui]P ∩Yj |U| log [ui]P ∩Yj |[ui]P| = − 1 |U| ∑n i=1 |Xi | ∑m j=1 Xi ∩Yj |U| log Xi ∩Yj |Xi | = − ∑n i=1 |Xi | |U| ∑m j=1 |Xi | |U| Xi ∩Yj |Xi | log Xi ∩Yj |Xi | = − ∑n i=1 ( |Xi | |U| ) 2∑m j=1 Xi ∩Yj |Xi | log Xi ∩Yj |Xi | D P HDS(D|P) Xi ∩Yj |Xi | 完备决策信息系统中属性 相对属性 的 条件熵 可以看成是以条件概率 / 为自变量的函数值的加权平均的平方。 3 基于条件熵的多属性决策方法 多属性决策广泛存在于现实生活中,它主要 包括选择、分级及排序。排序是指根据属性信息 将系统中的整个对象集形成全序。分级是指根据 一定准则将对象划分成若干类,若分类的个数等 同于对象的个数时,就将分级转化为排序。但在 实际情况下,决策结果多数以分级的形式存在, 因此可将决策系统中的分级看作初步决策,进而 利用条件熵计算决策系统的属性权重,及对属性 缺失值进行填充,在此基础上,通过计算加权平 均值来获得细粒度的排序,使得排序结果更合理。 3.1 基于条件熵的属性权重确定方法 IDS = C = {a1,a2,··· ,am} ai ∈ C C 定义 9 设 是一个非完 备决策信息系统,属性集 ,定义 属性 在属性集 中的重要度为: Sig(ai) = 1− hi ∑m i hi (9) 其中 hi = H(d |ai )(i = 1,2,··· ,m)。 基于条件熵的属性重要度定义具有如下性质: IDS = ⟨U,C ∪ D,V, f⟩,P,Q ⊆ C,∗ 0 性质6 设 是一非完备决策系统,则对于 ,属性 是必要的充分必要条件是 。 sig(ai) C 由以上性质知, 的取值越大,则该属性 在属性集 中越重要。 IDS =,∗ < VD,∗ ∈VC C = {a1,a2,··· , am} ai ∈ C 定义 10 设 是一个非完备决策信息系统,属性集 ,属性 的权重为: ωi = Sig(ai) ∑m i=1 Sig(ai) (10) 3.2 基于条件熵的缺失值填充方法 IDS = ⟨U,C ∪{d},V, f⟩,∗ < VD,∗ ∈ VC U/d = {Y1,Y2,··· ,Ym} 设 是一个非 完备决策信息系统,其中 ,则 基于条件熵的非完备决策系统的填充方法叙述 如下。 非完备决策系统中缺失值的平均填充值: Fl−avg(ui ,aj) = ∑ uk∈Uj ′ f(uk ,aj) Uj ′ (11) Uj ′ = {f(uk 其中 ,aj)|d(uk) = d(ui)}。 非完备决策系统中缺失值的众数填充值: Fl− mod e(ui ,aj) = mod e(Vaj /{∗}) (12) mod e(Vaj 其中 /{∗}) 表示全体对象 ui 在属性 aj 下 的所有已知值中出现次数最多的属性值。 Fl− mod e−d(ui ,aj) = mod e{f(uk ,aj) d(uk ,aj) = d(ui ,aj) uk ∈ U} (13) Fl = Fl−avg ∪(Fl− mod e ∩Fl− mod e−d) f(ui ,aj) = ∗ 利用 得到缺失 值填充 的所有可能值,将所有可能值 依次填充该缺失值,然后分别计算填充后系统的 条件熵,比较度量值,取最小度量值对应的填充 第 6 期 高文华,等:非完备决策信息系统中的不确定性度量 ·1105·
·1106· 智能系统学报 第14卷 值,即 表3一个具有非完备评价信息的房屋评测表 v'=argmin H(dIC,v) (14) Table 3 A house evaluation form with incomplete decision 为该缺失值的填充值。若有多个取值,则该缺 information 失值的填充值为v的平均值。 房装修质 结构安 结构可 构件耐 评测 33基于条件熵的多属性决策方法 屋 量a1 全性a 靠性a 久性a4 等级 算法基于条件嫡的多属性排序方法 X1 2 2 3 3 优 输入非完备决策信息系统DS=,*Vo,*eVc,其中U/d={Y1,Y2,…,Ylo X3 2 2 中 输出全序化结果1。 X4 3 3 1 优 1)基于相容关系,计算每个对象在每个属性 a:∈C下的相容类: 2 2 良 T(ad={(w,w)∈U×Ua()=a()Va(u)=*Vau)= X6 1 3 中 *,a∈Ch,T.()={ujEU (u,w)∈T(a),YaeC 3 1 2 良 2)利用条件嫡的定义,计算决策属性d相对 X8 2 3 2 优 每个属性,:∈C的条件熵 2 3 中 H(dla)= 2只lT.(u)ny以olT.()n x10 1 2 3 良 log T.(u)l 3)利用基于条件熵的属性权重方法,根据式 类似地,可得到所有对象在其他3个属性 (9)、(10)计算每个属性a:∈C分别在属性集C中 a2、a、a4下对应的相容类。 的重要度及权重。 2)分别计算决策属性d相对每个属性a1、 4)利用式(11)(14)对非完备决策系统进行 2、a、a4的条件熵为 填充。 12l=2.a=l2=2.h=Hda)=3.827 al 5)在填充后的系统中,计算每个对象在属性 集C上的加权求和,即 IQ(1.-(x=1.h=Hdldz )=1.3977 lazl 1q Dc(u)= >d:f(4,a) (15) lQ(x)I=2,a= x=2,h=Hdla)=3.4921 la3l 4案例分析 1ecM=3,a=lxl=3,h=Hda,)=10.3726 laal 3)由式(9)分别计算属性a1、2、a3、a4在属 以某鉴定机构对危旧房屋评估受损水平的多 性集C中的属性重要度为 属性决策问题为例进行分析。鉴定机构负责人派 出2位专家根据房屋装修质量a、房屋安全出口 Sig(a1)=1- h =0.799,Sig(a2)=1- -=0.927 结构安全性a2、房屋结构可靠性a和房屋主体构 件耐久性a4,将10座房屋进行了初步评定,决策 2 属性d表示评测等级,U/d={x1,x4,x,{x,{x,x6,xg, h3 ha Sig(a3)=1- =0.817,Sig(a4)=1- =0.457 4 {x,,10》,见表3,表中"*"表示该房屋在某属性 下的属性值是存在的,只是由于数据暂时无法得 到而被遗漏了。现根据非完备多属性排序方法的 由式(10)计算各属性权重分别为 算法将10座房屋进行降序排列。 wa,=0.266,wa.=0.309,wa,=0.272,wa=0.152 1)计算10个对象在属性a,下的相容类: 4)利用条件熵方法对非完备决策系统进行 Ta (x1)=(x1,xs,x6x8,x.Ta (x2)=[x2,x3,x,6X 填充: Ta,(3)={,x3,x5,6,x1o,Ta,(x4)={x4,x5,x6,} 首先得到房屋评测系统中f(x4,a)fxg,a3), f(:,a2)的值缺失,然后由式(11)人(13)计算每个缺 Ta(s)={x1,2,…,x0l,Tm(x6)={,x2,…,x1o} 失值的所有可能值。 Ta(x)={xa,xs,X6,xl,Ta(xg)=[x1,xs,X6,xg,X9l FLavg(us,a1)=(2).FL mod e-a(us,a)=(1,3] Ta,(x)={x1,5,x6,xg,xgh,Ta,(x10)={2,,5,x6,x10} FLmod e(us,a)=(1,2)
值,即 v ∗ = argmin v∈Fl H(d |C, v ) (14) v ∗ v ∗ 为该缺失值的填充值。若 有多个取值,则该缺 失值的填充值为 的平均值。 3.3 基于条件熵的多属性决策方法 算法 基于条件熵的多属性排序方法 IDS = ,∗ < VD,∗ ∈ VC, U/d = {Y1,Y2,··· ,Ym} 输入 非完备决策信息系统 其中 。 输出 全序化结果 I。 ai ∈ C 1) 基于相容关系,计算每个对象在每个属性 下的相容类: T(a) = {(ui ,uj) ∈ U ×U a(ui) = a(uj) ∨a(ui) = ∗∨a(uj) = ∗,a ∈ C}, Ta(ui) = {uj ∈ U (ui ,uj) ∈ T(a) ,∀a ∈ C} d ai ∈ C 2) 利用条件熵的定义,计算决策属性 相对 每个属性 的条件熵 H(d |a) = − 2 α |U| ∑ |U| i=1 ∑m j=1 Ta(ui)∩Yj |U| log Ta(ui)∩Yj |Ta(ui)| ai ∈ C C 3) 利用基于条件熵的属性权重方法,根据式 (9)、(10) 计算每个属性 分别在属性集 中 的重要度及权重。 4) 利用式 (11)~(14) 对非完备决策系统进行 填充。 C 5) 在填充后的系统中,计算每个对象在属性 集 上的加权求和,即 DC(ui) = ∑ |C| j=1 ωj f(ui ,aj) (15) 4 案例分析 a1 a2 a3 a4 d U/d = {{x1, x4, x8},{x2},{x3, x6, x9}, {x5, x7, x10}} ∗ 以某鉴定机构对危旧房屋评估受损水平的多 属性决策问题为例进行分析。鉴定机构负责人派 出 2 位专家根据房屋装修质量 、房屋安全出口 结构安全性 、房屋结构可靠性 和房屋主体构 件耐久性 ,将 10 座房屋进行了初步评定,决策 属性 表示评测等级, ,见表 3,表中" "表示该房屋在某属性 下的属性值是存在的,只是由于数据暂时无法得 到而被遗漏了。现根据非完备多属性排序方法的 算法将 10 座房屋进行降序排列。 1) 计算 10 个对象在属性 a1 下的相容类: Ta1 (x1) = {x1, x5, x6, x8, x9}, Ta1 (x2) = {x2, x3, x5, x6, x10} Ta1 (x3) = {x2, x3, x5, x6, x10},Ta1 (x4) = {x4, x5, x6, x7} Ta1 (x5) = {x1, x2,··· , x10}, Ta1 (x6) = {x1, x2,··· , x10} Ta1 (x7) = {x4, x5, x6, x7}, Ta1 (x8) = {x1, x5, x6, x8, x9} Ta1 (x9) = {x1, x5, x6, x8, x9}, Ta1 (x10) = {x2, x3, x5, x6, x10} a2、a3、a4 类似地,可得到所有对象在其他 3 个属性 下对应的相容类。 d a1、 a2、a3、a4 2) 分别计算决策属性 相对每个属性 的条件熵为 |Q(xi)| = 2,α = |Q(xi)| |a1| = 2,h1 = H(d |a1 ) = 3.822 7 |Q(xi)| = 1,α = |Q(xi)| |a2| = 1,h2 = H(d |a2 ) = 1.397 7 |Q(xi)| = 2,α = |Q(xi)| |a3| = 2,h3 = H(d |a3 ) = 3.492 1 |Q(xi)| = 3,α = |Q(xi)| |a4| = 3,h4 = H(d |a4 ) = 10.372 6 a1、a2、a3、a4 C 3) 由式 (9) 分别计算属性 在属 性集 中的属性重要度为 Sig(a1) = 1− h1 ∑4 i=1 hi = 0.799,Sig(a2) = 1− h2 ∑4 i=1 hi = 0.927 Sig(a3) = 1− h3 ∑4 i=1 hi = 0.817,Sig(a4) = 1− h4 ∑4 i=1 hi = 0.457 由式 (10) 计算各属性权重分别为 ωa1 = 0.266,ωa2 = 0.309,ωa3 = 0.272,ωa4 = 0.152 4) 利用条件熵方法对非完备决策系统进行 填充: f(x4,a3) f(x8,a3), ··· f(x3,a2) 首先得到房屋评测系统中 , , 的值缺失,然后由式 (11)~(13) 计算每个缺 失值的所有可能值。 Fl−avg(u5,a1) = {2},Fl− mod e−d(u5,a1) = {1,3} Fl− mod e(u5,a1) = {1,2} 表 3 一个具有非完备评价信息的房屋评测表 Table 3 A house evaluation form with incomplete decision information 房 屋 装修质 量a1 结构安 全性a2 结构可 靠性a3 构件耐 久性a4 评测 等级 x1 2 2 3 3 优 x2 1 1 1 ∗ 差 x3 1 ∗ 2 2 中 x4 3 3 ∗ 1 优 x5 ∗ 2 3 2 良 x6 ∗ 1 1 3 中 x7 3 1 2 ∗ 良 x8 2 3 ∗ 2 优 x9 2 1 1 3 中 x10 1 2 3 ∗ 良 ·1106· 智 能 系 统 学 报 第 14 卷
第6期 高文华,等:非完备决策信息系统中的不确定性度量 ·1107· 由此可得Fl(s,a)={1,2,即fx,a1)=1或f(xs, 表4完备化表3后的房屋评测表 a1)=2。 Table 4 An evaluation form by complementing Table 3 类似地,可得其他7个缺失值填充的所有可 a d 能值: X1 2 2 3 3 优 f(x6,a1)=1.5或fx6,a1)=1或fx6,a1)=2 1 1 1 2 差 fx3,a2)=1 3 1 2 2 中 fx4,a3)=3 3 3 优 fxg,3)=3 fx,a4)=2或f,a4)=3 1.5 3 良 f(x,a)=2 X6 1.75 1 2 中 fx1o,a4)=2 3 1 2 良 所以以下对fx,a)、fx6a1)和fx2,a),利用 Xg 2 3 优 式(14)进行选择。 2 1 3 % 1)当fx5,a)=2及fx,a1)=1时,分别利用 x10 1 2 3 2 良 式(7)计算填充该缺失值后系统的条件嫡,并比 较条件熵值。 在填充后的系统中,根据式(15)及3)的属性 计算当fx,a1)=1时,每个对象在属性集C 权重,计算非完备决策信息系统中每个对象的加 下的相容类为T(),当f(x,a1)=2时,每个对象 权平均值,则取值为: 在属性集C下的相容类为T(u),则T(u)cT) Dc(x)=2.422,Dc()=1.151,Dc(x3)=1.423 cY,i=5,10,其余对象的相容类T(w)=T(,则 Dc(x4)=2.693,Dc(x)=2.137,Dc(x6)=1.503 H(dC)=P(dIC)。因此,根据式(14)得=1, Dc()=1.955,Dc(x8)=2.579,Dc(g)=1.569 =2,故f,a)=1.5。 Dc(x1o)=2.004 2)类似地,分别将fx6,a1)=1.5、f6,a1)=1及 最终全序化结果为: fx6,a)=2填充该系统,利用式(7)计算填充后系 x4>X8>之x5>x0>>Xg>6>x3>X2 在初始评测等级中,优、良、中、差分别对应 统的条件熵(T(u)、Tw)和T()分别表示3个 的分类为{,x4,xs,{,,x0,{,6,{2},根据 可能值填充后系统中每个对象在属性集C下的 排序结果可知,该4类按照等级高低依次排出。 相容类),即 房屋4的初始评测为优,且在排序结果中排在第 H'd1C)=- Te(Ylog cy=o 1og 1个,说明房屋4在4个评测指标下的综合评测 T(u 是处于最优的。本文方法将10座不同房屋区分 Hrdc)=-2 Te(ua)nY 开,得到合理有效的全序化结果。 1UI T2( 为了进一步说明本文基于条件熵的多属性决 10×(4 策方法的可行性,现将本文所提方法与其他排序 1 ×1og2(亏》=0.1345 方法在2个完备信息和2个非完备信息的算例中 (dIc)=-i ° Yog Te(uanY 1≥0 进行比较分析。由于本文需要进行初步决策,所 T2(u) 以将其他排序方法获得的结果按照1:1:1的比例 比较3个度量值,由式(14)得=1.5,=2,故 分成3类或4类视为分级结果,进而利用本文排 fx6,a1)=1.75。 序方法将分级转化为排序。对比结果如表58所示。 3)当f,a4)=2及f2,a4)=3时,利用式 表5本文方法与文献[24方法的排序结果比较 (⑦)计算填充该缺失值后系统的条件嫡,并比较度 Table 5 Comparison of the ranking results between the 量值。 proposed method and literature [24 由相容关系计算得:当f2,a4)=2时,每个对 排序方法 文献[24] 本文方法 象在属性集C下的相容类为T(),f,a4)=3 X1>X12>X10>X3>X1>X12>x10>x4> 时,每个对象在属性集C下的相容类为T(),得 X5>X15>X4>x14≥X5>x14>X3>x11> 排序结果 到T(u)sT(,则H'(dIC)g>x8>11> x15>g>2>x8> 式(14)得到fx2,a4)=2。填充结果见表4。 X13>X6>X X13>X6>x
Fl(u5,a1) = {1,2}, f(x5,a1) = 1或f(x5, a1) = 2 由此可得 即 。 类似地,可得其他 7 个缺失值填充的所有可 能值: f(x6,a1) = 1.5或f(x6,a1) = 1或f(x6,a1) = 2 f(x3,a2) = 1 f(x4,a3) = 3 f(x8,a3) = 3 f(x2,a4) = 2或f(x2,a4) = 3 f(x7,a4) = 2 f(x10,a4) = 2 所以以下对 f(x5,a1)、 f(x6,a1) 和 f(x2,a4) ,利用 式 (14) 进行选择。 1) 当 f(x5,a1) = 2 及 f(x5,a1) = 1 时,分别利用 式 (7) 计算填充该缺失值后系统的条件熵,并比 较条件熵值。 f(x5,a1) = 1 C T 1 C (ui) f(x5,a1) = 2 C T 2 C (ui) T 1 C (ui) ⊂ T 2 C (ui) ⊂ Yj ,i = 5,10, T 2 C (ui) = T 1 C (ui) H 1 (d |C ) = H 2 (d |C ) v ∗ 1 = 1 v ∗ 2 = 2 f(x5,a1) = 1.5 计算当 时,每个对象在属性集 下的相容类为 ,当 时,每个对象 在属性集 下的相容类为 ,则 其余对象的相容类 ,则 。因此,根据 式 (14) 得 , ,故 。 f(x6,a1) = 1.5 f(x6,a1) = 1 f(x6,a1) = 2 T 1 C (ui) T 2 C (ui) T 3 C (ui) 2) 类似地,分别将 、 及 填充该系统,利用式 (7) 计算填充后系 统的条件熵 ( 、 和 分别表示 3 个 可能值填充后系统中每个对象在属性集 C 下的 相容类),即 H 1 (d |C ) = − 2 α |U| ∑ |U| i=1 ∑m j=1 T 1 C (ui)∩Yj |U| log T 1 C (ui)∩Yj T 1 C (ui) = 0 H 2 (d |C ) = − 2 α |U| ∑ |U| i=1 ∑m j=1 T 2 C (ui)∩Yj |U| log T 2 C (ui)∩Yj T 2 C (ui) = − 2 1.75 10 ×(4× 1 10 ×log2( 1 2 )) = 0.1345 H 3 (d |C ) = − 2 α |U| ∑ |U| i=1 ∑m j=1 T 3 C (ui)∩Yj |U| log T 3 C (ui)∩Yj T 3 C (ui) = 0 v ∗ 1 = 1.5 v ∗ 2 = 2 f(x6,a1) = 1.75 比较 3 个度量值,由式 (14) 得 , ,故 。 3) 当 f(x2,a4) = 2 及 f(x2,a4) = 3 时,利用 式 (7) 计算填充该缺失值后系统的条件熵,并比较度 量值。 f(x2,a4) = 2 C T 1 C (ui) f(x2,a4) = 3 C T 2 C (ui) T 1 C (ui) ⊆ T 2 C (ui) H 1 (d |C ) < H 2 (d |C ) f(x2,a4) = 2 由相容关系计算得:当 时,每个对 象在属性集 下的相容类为 , 时,每个对象在属性集 下的相容类为 ,得 到 ,则 。因此,由 式 (14) 得到 。填充结果见表 4。 表 4 完备化表 3 后的房屋评测表 Table 4 An evaluation form by complementing Table 3 U a1 a2 a3 a4 d x1 2 2 3 3 优 x2 1 1 1 2 差 x3 1 1 2 2 中 x4 3 3 3 1 优 x5 1.5 2 3 2 良 x6 1.75 1 1 3 中 x7 3 1 2 2 良 x8 2 3 3 2 优 x9 2 1 1 3 中 x10 1 2 3 2 良 在填充后的系统中,根据式 (15) 及 3) 的属性 权重,计算非完备决策信息系统中每个对象的加 权平均值,则取值为: DC(x1) = 2.422,DC(x2) = 1.151,DC(x3) = 1.423 DC(x4) = 2.693,DC(x5) = 2.137,DC(x6) = 1.503 DC(x7) = 1.955,DC(x8) = 2.579,DC(x9) = 1.569 DC(x10) = 2.004 最终全序化结果为: x4 ≻ x8 ≻ x1 ≻ x5 ≻ x10 ≻ x7 ≻ x9 ≻ x6 ≻ x3 ≻ x2 {x1, x4, x8},{x5, x7, x10},{x3, x6, x9},{x2} 在初始评测等级中,优、良、中、差分别对应 的分类为 ,根据 排序结果可知,该 4 类按照等级高低依次排出。 房屋 4 的初始评测为优,且在排序结果中排在第 1 个,说明房屋 4 在 4 个评测指标下的综合评测 是处于最优的。本文方法将 10 座不同房屋区分 开,得到合理有效的全序化结果。 为了进一步说明本文基于条件熵的多属性决 策方法的可行性,现将本文所提方法与其他排序 方法在 2 个完备信息和 2 个非完备信息的算例中 进行比较分析。由于本文需要进行初步决策,所 以将其他排序方法获得的结果按照 1∶1∶1 的比例 分成 3 类或 4 类视为分级结果,进而利用本文排 序方法将分级转化为排序。对比结果如表 5~8 所示。 表 5 本文方法与文献 [24] 方法的排序结果比较 Table 5 Comparison of the ranking results between the proposed method and literature [24] 排序方法 文献[24] 本文方法 排序结果 x1 ≻ x12 ≻ x10 ≻ x3 ≻ x5 ≻ x15 ≻ x4 ≻ x14 ≻ x2 ≻ x9 ≻ x8 ≻ x11 ≻ x13 ≻ x6 ≻ x7 x1 ≻ x12 ≻ x10 ≻ x4 ≻ x5 ≻ x14 ≻ x3 ≻ x11 ≻ x15 ≻ x9 ≻ x2 ≻ x8 ≻ x13 ≻ x6 ≻ x7 第 6 期 高文华,等:非完备决策信息系统中的不确定性度量 ·1107·
·1108· 智能系统学报 第14卷 文献[24]采用嫡权法确定属性权重,并基于 属性的重要度不同,本文利用提出的新条件熵计 优势关系的排序方法将具有完备信息的对象进行 算决策系统的属性权重,能够避免排序问题中赋 排序,获得的结果与本文获得的排序结果大致相 权方法带来的主观性。对于属性值缺失的情形, 同,但仍然存在主观因素。条件嫡可用于评估属 本文以最小条件嫡为准则对属性缺失值进行填 性的重要性,因此本文根据条件熵越小,属性越 充,并利用基本的加权求和方法获得细粒度的排 重要的特征确定属性权重,更客观、更合理地解 序,能够避免计算量较大的问题。 决排序问题。 2)从排序结果上看,本文提出基于条件熵的 表6本文方法与文献[2)方法的排序结果比较 多属性决策排序方法,能够有效地解决由分级结 Table 6 Comparison of the ranking results between the 果的粗粒度到排序结果的细粒度的转换,获得合 proposed method and literature [25] 理的排序结果。 排序方法 文献[25] 本文方法 X6>X3>x1>X2> X6>X3>X1>2> 5结束语 排序结果 X4~X5 X5>x4 本文首先针对非完备决策系统中属性值缺失 文献[25]提出一种新的排序模型将对象排 导致系统不确定性的问题,构造一种新型的考虑 序,然而利用该模型得到的排序结果存在明显的 条件属性缺失度的目标概念条件嫡与决策知识条 “并列”现象。本文在获得的排序结果基本一致的 件熵。性质分析表明本文所提出的条件嫡在体现 情况下,既考虑了条件属性与决策属性之间建立 不确定性时会更加敏感,是一种合理的不确定性 的关联性,又将并列的对象区分开,使得到的排 度量。具有当系统缺失值增加时,新的条件熵增 序结果更合理。 大;当知识粒度变细时,新条件嫡随之减小的性 表7本文方法与文献[26方法的排序结果比较 质。其次,基于本文所提出的新的条件嫡,设计 Table 7 Comparison of the ranking results between the 了基于条件熵的属性权重确定及最小条件熵非完 proposed method and literature [26] 备属性取值补充方法,以解决属性权重完全未知 排序方法 文献[26 本文方法 的非完备多属性决策问题。最后通过与其他排序 X4>x1>X5>X3> X4>X1>X5>X3> 排序结果 方法比较分析,说明了该方法能有效利用粗粒度 x6>2 X6>2 的分级信息,获得更加合理有效的细粒度的排序 文献[26]基于α-先验概率优势关系的对象 结果。 排序方法获得的排序结果相同,虽然该方法较好 参考文献: 地解决了非完备信息系统的排序问题,但是未考 虑属性在决策方法中的重要性。因此,本文基于 [1]PAWLAK Z.Rough sets[J].International journal of com- 条件嫡的多属性决策方法更客观、合理。 puter and information science,1982,11(5):341-356. 表8本文方法与文献27]方法的排序结果比较 [2]苗夺谦,张清华,钱宇华,等.从人类智能到机器实现模 Table 8 Comparison of the ranking results between the 型一粒计算理论与方法[.智能系统学报,2016, proposed method and literature [27] 11(6):743-757. 排序方法 文献[2刀 本文方法 MIAO Duoqian,ZHANG Qinghua,QIAN Yuhua,et al. x1>X7>x8>X> X4 X8>X>7> From human intelligence to machine implementation mod- 排序结果 X5>x10>Xg>X6≥ X5>10>xg>X6> el:theories and applications based on granular 3>X3 x3>3 computing[J].CAAI transactions on intelligent systems, 文献[27]提出基于加权a优势关系的排序方 2016,11(6):743-757 [3]梁吉业,钱宇华,李德玉,等.大数据挖掘的粒计算理论 法,较好地解决了非完备数据的排序问题,但是 与方法[).中国科学(信息科学),2015,4511):1355- 由于α取值的主观性,得到的排序结果不稳定。 1369 本文方法不仅使用客观赋权法确定属性权重避免 LIANG Jiye,QIAN Yuhua,LI Deyu,et al.Theory and 主观性,还利用使系统条件熵最小原理进行缺失 method of granular computing for big data mining[J].Sci- 值填充,进而将对象区分开,获得合理、有效的全 entia sinica informationis,2015,45(11):1355-1369. 序化结果。 [4]王国胤,张清华,马希骜,等.知识不确定性问题的粒计 对比分析: 算模型).软件学报,2011,22(4):676-694. 1)从排序方法上看,由于条件属性集中每个 WANG Guoyin,ZHANG Qinghua,MA Xi'ao,et al.Gran-
文献 [24] 采用熵权法确定属性权重,并基于 优势关系的排序方法将具有完备信息的对象进行 排序,获得的结果与本文获得的排序结果大致相 同,但仍然存在主观因素。条件熵可用于评估属 性的重要性,因此本文根据条件熵越小,属性越 重要的特征确定属性权重,更客观、更合理地解 决排序问题。 表 6 本文方法与文献 [25] 方法的排序结果比较 Table 6 Comparison of the ranking results between the proposed method and literature [25] 排序方法 文献[25] 本文方法 排序结果 x6 ≻ x3 ≻ x1 ≻ x2 ≻ x4 ∼ x5 x6 ≻ x3 ≻ x1 ≻ x2 ≻ x5 ≻ x4 文献 [25] 提出一种新的排序模型将对象排 序,然而利用该模型得到的排序结果存在明显的 “并列”现象。本文在获得的排序结果基本一致的 情况下,既考虑了条件属性与决策属性之间建立 的关联性,又将并列的对象区分开,使得到的排 序结果更合理。 表 7 本文方法与文献 [26] 方法的排序结果比较 Table 7 Comparison of the ranking results between the proposed method and literature [26] 排序方法 文献[26] 本文方法 排序结果 x4 ≻ x1 ≻ x5 ≻ x3 ≻ x6 ≻ x2 x4 ≻ x1 ≻ x5 ≻ x3 ≻ x6 ≻ x2 文献 [26] 基于 α− 先验概率优势关系的对象 排序方法获得的排序结果相同,虽然该方法较好 地解决了非完备信息系统的排序问题,但是未考 虑属性在决策方法中的重要性。因此,本文基于 条件熵的多属性决策方法更客观、合理。 表 8 本文方法与文献 [27] 方法的排序结果比较 Table 8 Comparison of the ranking results between the proposed method and literature [27] 排序方法 文献[27] 本文方法 排序结果 x1 ≻ x7 ≻ x8 ≻ x4 ≻ x5 ≻ x10 ≻ x9 ≻ x6 ≻ x3 ≻ x2 x4 ≻ x8 ≻ x1 ≻ x7 ≻ x5 ≻ x10 ≻ x9 ≻ x6 ≻ x3 ≻ x2 α α 文献 [27] 提出基于加权 优势关系的排序方 法,较好地解决了非完备数据的排序问题,但是 由于 取值的主观性,得到的排序结果不稳定。 本文方法不仅使用客观赋权法确定属性权重避免 主观性,还利用使系统条件熵最小原理进行缺失 值填充,进而将对象区分开,获得合理、有效的全 序化结果。 对比分析: 1) 从排序方法上看,由于条件属性集中每个 属性的重要度不同,本文利用提出的新条件熵计 算决策系统的属性权重,能够避免排序问题中赋 权方法带来的主观性。对于属性值缺失的情形, 本文以最小条件熵为准则对属性缺失值进行填 充,并利用基本的加权求和方法获得细粒度的排 序,能够避免计算量较大的问题。 2) 从排序结果上看,本文提出基于条件熵的 多属性决策排序方法,能够有效地解决由分级结 果的粗粒度到排序结果的细粒度的转换,获得合 理的排序结果。 5 结束语 本文首先针对非完备决策系统中属性值缺失 导致系统不确定性的问题,构造一种新型的考虑 条件属性缺失度的目标概念条件熵与决策知识条 件熵。性质分析表明本文所提出的条件熵在体现 不确定性时会更加敏感,是一种合理的不确定性 度量。具有当系统缺失值增加时,新的条件熵增 大;当知识粒度变细时,新条件熵随之减小的性 质。其次,基于本文所提出的新的条件熵,设计 了基于条件熵的属性权重确定及最小条件熵非完 备属性取值补充方法,以解决属性权重完全未知 的非完备多属性决策问题。最后通过与其他排序 方法比较分析,说明了该方法能有效利用粗粒度 的分级信息,获得更加合理有效的细粒度的排序 结果。 参考文献: PAWLAK Z. Rough sets[J]. International journal of computer and information science, 1982, 11(5): 341–356. [1] 苗夺谦, 张清华, 钱宇华, 等. 从人类智能到机器实现模 型—粒计算理论与方法 [J]. 智能系统学报, 2016, 11(6): 743–757. MIAO Duoqian, ZHANG Qinghua, QIAN Yuhua, et al. From human intelligence to machine implementation model: theories and applications based on granular computing[J]. CAAI transactions on intelligent systems, 2016, 11(6): 743–757. [2] 梁吉业, 钱宇华, 李德玉, 等. 大数据挖掘的粒计算理论 与方法 [J]. 中国科学(信息科学), 2015, 45(11): 1355– 1369. LIANG Jiye, QIAN Yuhua, LI Deyu, et al. Theory and method of granular computing for big data mining[J]. Scientia sinica informationis, 2015, 45(11): 1355–1369. [3] 王国胤, 张清华, 马希骜, 等. 知识不确定性问题的粒计 算模型 [J]. 软件学报, 2011, 22(4): 676–694. WANG Guoyin, ZHANG Qinghua, MA Xi’ao, et al. Gran- [4] ·1108· 智 能 系 统 学 报 第 14 卷
第6期 高文华,等:非完备决策信息系统中的不确定性度量 ·1109· ular computing models for knowledge uncertainty[J] tion sciences,2012,198:62-80. Journal of software,2011,22(4):676-694. [16]QIAN Yuhua,LIANG Jiye,WANG Feng.A new method [5]PAWLAK Z.Vagueness and uncertainty:a rough set per- for measuring the uncertainty in incomplete information spective[J].Computational intelligence,1995,11(2): systems[].International journal of uncertainty,fuzziness 227-232 and knowledge-based systems,2009,17(6):855-880. [6]DUNTSCH I.GEDIGA G.Uncertainty measures of rough [17]QIAN Yuhua,LIANG Jiye,DANG Chuangyin.Consist- set prediction[J].Artificial intelligence,1998,106(1): 109-137. ency measure,inclusion degree and fuzzy measure in de- [7]WIERMAN M J.Measuring uncertainty in rough set the- cision tables[J].Fuzzy sets and systems,2008,159(18): ory[J].International journal of general systems,1999, 2353-2377. 28(4/5):283-297. [18]DAI Jianhua,XU Qing,WANG Wentao,et al.Condition [8]CHAKRABARTY K.BISWAS R.NANDA S.Fuzziness al entropy for incomplete decision systems and its applic- in rough sets[J].Fuzzy sets and systems,2000,110(2): ation in data miningJ.International journal of general 247-251 systems,2012,41(7):713-728. [9]苗夺谦,王珏.粗糙集理论中知识粗糙性与信息嫡关系 [19]DAI Jianhua,WANG Wentao,XU Qing.An uncertainty 的讨论).模式识别与人工智能,1998,11(1):34-40. measure for incomplete decision tables and its applica- MIAO Duoqian,WANG Jue.On the relationships between tions[J].IEEE transactions on cybernetics,2013,43(4): information entropy and roughness of knowledge in rough 1277-1289. set theory[J].Pattern recognition and artificial intelligence, 1998,11(1):34-40 [20]YANG Jiping,QIU Wanhua.A measure of risk AND A [10]LIANG Jiye,WANG Junhong,QIAN Yuhua.A new decision-making model based on expected utility and en- measure of uncertainty based on knowledge granulation tropy[J].European journal of operational research,2005, for rough sets[J].Information sciences,2009,179(4): 164(3:792-799. 458-470. [21]吕跃进,张旭娜,韦碧鹏.基于优势关系粗糙集的模糊 [11]王国胤,于洪,杨大春.基于条件信息嫡的决策表约 综合评价的权重确定U.统计与决策,2012(20):44-46 简[.计算机学报,2002,25(7):759-766 LV Yuejin,ZHANG Xuna,WEI Bipeng.Rough set based WANG Guoyin,YU Hong,YANG Dachun.Decision ta- on dominance relation of fuzzy comprehensive evalu- ble reduction based on conditional information entropy[]. ation of the weight[J].Control and decision,2012(20): Chinese journal of computers,2002,25(7):759-766. 44-46. [12]黄国顺,文翰.基于严凹函数的粗糙集不确定性度 [22]李佳,梁吉业,庞天杰.一种基于优势粗糙集的多属性 量.软件学报,2018.29(11):34843499 决策排序方法[刀.南京大学学报(自然科学),2016, HUANG Guoshun,WEN Han.Uncertainty measures of 52(5)844-852 rough set based on strictly concave functions[J].Journal LI Jia,LIANG Jiye,PANG Tianjie.A sorting method of of software,.2018,29(11):3484-3499. multi-attribute decision making based on dominance [13]黄国顺,曾凡智,陈广义,等.基于严凸函数的知识粒度 rough set theory[J].Journal of Nanjing University (Natur- 与相对粒度[).模式识别与人工智能,2013,26(10): al Sciences),2016,52(5):844-852. 897-908 [23]KRYSZKIEWICZ M.Rough set approach to incomplete HUANG Guoshun,ZENG Fanzhi,CHEN Guangyi,et al. information systems[J].Information sciences,1998. Knowledge granularity and relative granularity based on 112(1/2/3/4):39-49. strictly convex function[J].Pattern recognition and artifi- [24]王利东,田晓娟,杨艳冰.基于熵权与优势关系的教学 cial intelligence,2013,26(10):897-908. 效果评价方案J).数学的实践与认识,2014,44(10): [14]LIANG J,SHIZ,LI D,et al.Information entropy,rough 8-12 entropy and knowledge granulation in incomplete inform- WANG Lidong,TIAN Xiaojuan,YANG Yanbing.The ation systems[J].International journal of general systems, comprehensive evaluation of teaching based on entropy 2006.35(6:641-654. weight and dominance relation[J].Mathematics in prac- [15]DAI Jianhua,XU Qing.Approximations and uncertainty tice and theory,2014,44(10):8-12 measures in incomplete information systems[J].Informa- [25]翁世洲,吕跃进,莫京兰.基于优势关系的排序模型及
ular computing models for knowledge uncertainty[J]. Journal of software, 2011, 22(4): 676–694. PAWLAK Z. Vagueness and uncertainty: a rough set perspective[J]. Computational intelligence, 1995, 11(2): 227–232. [5] DÜNTSCH I, GEDIGA G. Uncertainty measures of rough set prediction[J]. Artificial intelligence, 1998, 106(1): 109–137. [6] WIERMAN M J. Measuring uncertainty in rough set theory[J]. International journal of general systems, 1999, 28(4/5): 283–297. [7] CHAKRABARTY K, BISWAS R, NANDA S. Fuzziness in rough sets[J]. Fuzzy sets and systems, 2000, 110(2): 247–251. [8] 苗夺谦, 王珏. 粗糙集理论中知识粗糙性与信息熵关系 的讨论 [J]. 模式识别与人工智能, 1998, 11(1): 34–40. MIAO Duoqian, WANG Jue. On the relationships between information entropy and roughness of knowledge in rough set theory[J]. Pattern recognition and artificial intelligence, 1998, 11(1): 34–40. [9] LIANG Jiye, WANG Junhong, QIAN Yuhua. A new measure of uncertainty based on knowledge granulation for rough sets[J]. Information sciences, 2009, 179(4): 458–470. [10] 王国胤, 于洪, 杨大春. 基于条件信息熵的决策表约 简 [J]. 计算机学报, 2002, 25(7): 759–766. WANG Guoyin, YU Hong, YANG Dachun. Decision table reduction based on conditional information entropy[J]. Chinese journal of computers, 2002, 25(7): 759–766. [11] 黄国顺, 文翰. 基于严凹函数的粗糙集不确定性度 量 [J]. 软件学报, 2018, 29(11): 3484–3499. HUANG Guoshun, WEN Han. Uncertainty measures of rough set based on strictly concave functions[J]. Journal of software, 2018, 29(11): 3484–3499. [12] 黄国顺, 曾凡智, 陈广义, 等. 基于严凸函数的知识粒度 与相对粒度 [J]. 模式识别与人工智能, 2013, 26(10): 897–908. HUANG Guoshun, ZENG Fanzhi, CHEN Guangyi, et al. Knowledge granularity and relative granularity based on strictly convex function[J]. Pattern recognition and artificial intelligence, 2013, 26(10): 897–908. [13] LIANG J, SHI Z, LI D, et al. Information entropy, rough entropy and knowledge granulation in incomplete information systems[J]. International journal of general systems, 2006, 35(6): 641–654. [14] DAI Jianhua, XU Qing. Approximations and uncertainty measures in incomplete information systems[J]. Informa- [15] tion sciences, 2012, 198: 62–80. QIAN Yuhua, LIANG Jiye, WANG Feng. A new method for measuring the uncertainty in incomplete information systems[J]. International journal of uncertainty, fuzziness and knowledge-based systems, 2009, 17(6): 855–880. [16] QIAN Yuhua, LIANG Jiye, DANG Chuangyin. Consistency measure, inclusion degree and fuzzy measure in decision tables[J]. Fuzzy sets and systems, 2008, 159(18): 2353–2377. [17] DAI Jianhua, XU Qing, WANG Wentao, et al. Conditional entropy for incomplete decision systems and its application in data mining[J]. International journal of general systems, 2012, 41(7): 713–728. [18] DAI Jianhua, WANG Wentao, XU Qing. An uncertainty measure for incomplete decision tables and its applications[J]. IEEE transactions on cybernetics, 2013, 43(4): 1277–1289. [19] YANG Jiping, QIU Wanhua. A measure of risk AND A decision-making model based on expected utility and entropy[J]. European journal of operational research, 2005, 164(3): 792–799. [20] 吕跃进, 张旭娜, 韦碧鹏. 基于优势关系粗糙集的模糊 综合评价的权重确定 [J]. 统计与决策, 2012(20): 44–46. LV Yuejin, ZHANG Xuna, WEI Bipeng. Rough set based on dominance relation of fuzzy comprehensive evaluation of the weight[J]. Control and decision, 2012(20): 44–46. [21] 李佳, 梁吉业, 庞天杰. 一种基于优势粗糙集的多属性 决策排序方法 [J]. 南京大学学报(自然科学), 2016, 52(5): 844–852. LI Jia, LIANG Jiye, PANG Tianjie. A sorting method of multi-attribute decision making based on dominance rough set theory[J]. Journal of Nanjing University (Natural Sciences), 2016, 52(5): 844–852. [22] KRYSZKIEWICZ M. Rough set approach to incomplete information systems[J]. Information sciences, 1998, 112(1/2/3/4): 39–49. [23] 王利东, 田晓娟, 杨艳冰. 基于熵权与优势关系的教学 效果评价方案 [J]. 数学的实践与认识, 2014, 44(10): 8–12. WANG Lidong, TIAN Xiaojuan, YANG Yanbing. The comprehensive evaluation of teaching based on entropy weight and dominance relation[J]. Mathematics in practice and theory, 2014, 44(10): 8–12. [24] [25] 翁世洲, 吕跃进, 莫京兰. 基于优势关系的排序模型及 第 6 期 高文华,等:非完备决策信息系统中的不确定性度量 ·1109·