第12卷第3期 智能系统学报 Vol.12 No.3 2017年6月 CAAI Transactions on Intelligent Systems Jun.2017 D0I:10.11992/is.21704025 网络出版地址:http:/kns.cmki.net/kcms/detail/23.1538.TP.20170703.1853.010.html 广义分布保持属性约简研究 高学义12,张楠2,童向荣12,姜丽丽12 (1.烟台大学数据科学与智能技术山东省高校重,点实验室,山东烟台264005:2.烟台大学计算机与控制工程学 院,山东烟台264005) 摘要:属性约简是粗糙集理论的重要研究内容之一。分布约简保证约简前后每个对象的概率分布保持不变,即保 证每条规则的置信度在约简前后不发生改变。实际应用中,人们往往更加关注可信度较高或较低的规则。因此,在 本文中引入了广义分布保持属性约简,该属性约简可以保证规则的置信度P(P∈[0,α]或[B,1])在约简前后不变。 同时,给出了广义分布保持属性约简的判定方法与基于差别矩阵的广义分布保持属性约简算法,深入讨论了几种特 殊情形下的广义分布保持约简。最后,在4个UCI数据集上进行的实验分析表明,几种特殊情形下的广义分布保持 属性约简可退化为已有的一些属性约简,且在不同置信区间下求得的广义分布保持属性约简存在包含关系,验证了 相关结论的正确性。 关键词:分布保持:属性约简:粗糙集:概率分布:差别矩阵 中图分类号:TP181文献标志码:A文章编号:1673-4785(2017)03-0377-09 中文引用格式:高学义,张楠,童向荣,等.广义分布保持属性约简研究[J].智能系统学报,2017,12(3):377-385 英文引用格式:GAO Xueyi,ZHANG Nan,TONG Xiangrong,etat.Research on attribute reduction using generalized distribution preservation[J].CAAI transactions on intelligent systems,2017,12(3):377-385. Research on attribute reduction using generalized distribution preservation GAO Xueyi2,ZHANG Nan'2,TONG Xiangrong'2,JIANG Lili2 (1.Key Lab for Data Science and Intelligent Technology of Shandong Higher Education Institutes,Yantai University,Yantai 264005, China;2.School of Computer and Control Engineering,Yantai University,Yantai 264005,China) Abstract:Attribute reduction is a pertinent issue in rough set theory.Distribution reduction ensures that the probability distribution of each target does not change before and after reduction;i.e.,it ensures that the confidence of every rule remains unchanged before and after reduction.In actual applications,people are often interested in rules that have higher or lower confidences.Thus,attribute reduction based on generalized distribution preservation is proposed in this paper.Confidences in [0,a]or [B,1]were unchanged using the proposed technique.We also propose judgment methods for generalized-distribution-preservation attribute reduction and investigate the generalized attribute-reduction algorithm based on a discernibility matrix.Some special cases with respect to generalized-distribution-preservation attribute reduction are discussed in depth.Finally,experiments on four data sets downloaded from UCI show that some special cases with respect to generalized distribution preservation reduction could degenerate into some existing attribute reductions and inclusion relations exist in generalized distribution preservation attribute reduction under different confidence intervals,verifying the correctness of the relevant conclusions. Keywords:distribution preservation;attribute reduction;rough sets;probability distribution;discernibility matrix 粗糙集理论是由波兰学者Pawlak教授于1982 年提出的一种用于处理和分析不确定、不精确数据 的数学方法与工具[1-]。目前,粗糙集理论在机器 收稿日期:2017-04-19.网络出版日期:2017-07-03. 基金项目:国家自然科学基金项目(61403329,61572418,61502410. 学习、决策分析、模式识别、数据挖掘和智能信息处 61572419):山东省自然科学基金项目(ZR2013FQ020, 理等领域得到了广泛应用。 ZR2015PF010):山东省高等学校科技计划项目(J15LN09 116LN17). 属性约简或知识约简是粗糙集理论的重要研 通信作者:张楠.E-mail:zhangnane0851@163.com
第 12 卷第 3 期 智 能 系 统 学 报 Vol.12 №.3 2017 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2017 DOI:10.11992 / tis. 21704025 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.TP.20170703.1853.010.html 广义分布保持属性约简研究 高学义1,2 ,张楠1,2 ,童向荣1,2 ,姜丽丽1,2 (1. 烟台大学 数据科学与智能技术山东省高校重点实验室,山东 烟台 264005; 2. 烟台大学 计算机与控制工程学 院,山东 烟台 264005) 摘 要:属性约简是粗糙集理论的重要研究内容之一。 分布约简保证约简前后每个对象的概率分布保持不变,即保 证每条规则的置信度在约简前后不发生改变。 实际应用中,人们往往更加关注可信度较高或较低的规则。 因此,在 本文中引入了广义分布保持属性约简,该属性约简可以保证规则的置信度 P(P∈[0,α]或[ β,1])在约简前后不变。 同时,给出了广义分布保持属性约简的判定方法与基于差别矩阵的广义分布保持属性约简算法,深入讨论了几种特 殊情形下的广义分布保持约简。 最后,在 4 个 UCI 数据集上进行的实验分析表明,几种特殊情形下的广义分布保持 属性约简可退化为已有的一些属性约简,且在不同置信区间下求得的广义分布保持属性约简存在包含关系,验证了 相关结论的正确性。 关键词:分布保持;属性约简;粗糙集;概率分布;差别矩阵 中图分类号:TP181 文献标志码:A 文章编号:1673-4785(2017)03-0377-09 中文引用格式:高学义,张楠,童向荣,等.广义分布保持属性约简研究[J]. 智能系统学报, 2017, 12(3): 377-385. 英文引用格式:GAO Xueyi,ZHANG Nan,TONG Xiangrong,et at. Research on attribute reduction using generalized distribution preservation[J]. CAAI transactions on intelligent systems, 2017, 12(3): 377-385. Research on attribute reduction using generalized distribution preservation GAO Xueyi 1,2 , ZHANG Nan 1,2 , TONG Xiangrong 1,2 , JIANG Lili 1,2 (1.Key Lab for Data Science and Intelligent Technology of Shandong Higher Education Institutes, Yantai University, Yantai 264005, China; 2. School of Computer and Control Engineering, Yantai University, Yantai 264005, China) Abstract:Attribute reduction is a pertinent issue in rough set theory. Distribution reduction ensures that the probability distribution of each target does not change before and after reduction; i.e., it ensures that the confidence of every rule remains unchanged before and after reduction. In actual applications, people are often interested in rules that have higher or lower confidences. Thus, attribute reduction based on generalized distribution preservation is proposed in this paper. Confidences in [0, α] or [β, 1] were unchanged using the proposed technique. We also propose judgment methods for generalized⁃distribution⁃preservation attribute reduction and investigate the generalized attribute⁃reduction algorithm based on a discernibility matrix. Some special cases with respect to generalized⁃distribution⁃preservation attribute reduction are discussed in depth. Finally, experiments on four data sets downloaded from UCI show that some special cases with respect to generalized distribution preservation reduction could degenerate into some existing attribute reductions and inclusion relations exist in generalized distribution preservation attribute reduction under different confidence intervals, verifying the correctness of the relevant conclusions. Keywords: distribution preservation; attribute reduction; rough sets; probability distribution; discernibility matrix 收稿日期:2017-04-19. 网络出版日期:2017-07-03. 基金项目:国家自然科学基金项目( 61403329, 61572418, 61502410, 61572419);山 东 省 自 然 科 学 基 金 项 目 ( ZR2013FQ020, ZR2015PF 010);山东省高等学校科技计划项目( J15LN09, 116LN17). 通信作者:张楠.E⁃mail:zhangnan0851@ 163.com. 粗糙集理论是由波兰学者 Pawlak 教授于 1982 年提出的一种用于处理和分析不确定、不精确数据 的数学方法与工具[1-4] 。 目前,粗糙集理论在机器 学习、决策分析、模式识别、数据挖掘和智能信息处 理等领域得到了广泛应用。 属性约简或知识约简是粗糙集理论的重要研
·378 智能系统学报 第12卷 究内容之一,其本质是获取保持知识库某种分类能 (P(D[u:]),P(D2[u:]),P(Du:])). 力在约简前后不发生改变的最小属性子集描述,国 其中,P(D|[]4)=|D,n[u,]4l/八[u:]al,ie{1, 内外学者做了大量的相关研究工作。1992年, 2,…,nj∈{1,2,…,|U/Dl}o SkowrontS)提出了差别矩阵的概念,为获取信息系统 定义2设决策表DT=(U,ATUD,V,f),U= 或决策表的所有约简或最小约简提供了理论基础: {41,山2,…,un},U/D={D1,D2,…,D1wom},记d为 1998年,Kryszkiewicz讨论了基于差别矩阵的不完 D,对应的决策值,则Hu:∈U,A二AT,u:在A下关于 备信息系统广义决策保持属性约简问题:2003年, 决策属性D的[α,B]决策-置信度序偶集定义为 张文修等)给出了分布约简和分配约简的差别矩 Y(u:)=(d,P(DI[u:])> 阵约简方法,并提出了最大分布约简;2007年,徐伟 a≤P(Dl[山:]a)≤BAa≤P(Dl[u:]Ar)≤B吲 华等[劉给出了优势关系下基于差别矩阵的分布约 式中:i∈{1,2,…,n}j∈{1,2,…,U/D},a和B 简和最大分布约简:2009年,苗夺谦等[提出了不 满足(a=0∧Be[0,1])或(a∈[0,1]∧B=1)。 可分辨关系保持属性约简和相应的差别矩阵构造 根据定义2,若对于Vu∈U,均满足Ya(u)= 方法:2010年,张楠等10讨论了区间值信息系统下 Y:(u),则称A是广义分布协调集。若A是广义 的属性约简问题。为了提高属性约简的算法效率, 分布协调集,且A的任意子集不是广义分布协调 多种启发式属性约简算法相继被提出。1999年,苗 集,则称A为广义分布保持约简。据此,给出广义 夺谦等山从信息论的角度给出了属性重要度的度 分布保持约简的形式化定义如下。 量方法,在此基础上提出了基于互信息的启发式约 定义3给定决策表DT=(U,ATUD,V,f), 简算法:2002年,王国胤等1提出了基于条件信息 U={山1,山2,…,山n},VACAT,若A是一个广义分布 嫡的启发式属性约简算法:2010年,钱宇华等1)提 保持约简,当且仅当以下两个条件成立: 出了正向近似的基本概念并将其应用于启发式属 1)YuU,Y (u)=Y (u); 性约简的构造过程,提高了属性约简的计算效率: 2)HBCA,YAa(u)≠Y(w)。 2011年,钱宇华等[4-s1进一步将正向近似应用于不 式中:a和B满足(a=0八B∈[0,1])或(a∈[0,1]A 完备决策表的启发式属性约简,改善了不完备决策 B=1),i,je{1,2,…,n}。 表下启发式属性约简的求取效率:陈红梅等[16-17)]在 由定义3可知,对于置信度在[α,B]内的规则, 动态属性约简方面做了大量的研究工作;文献[18- 它们的置信度在广义分布保持约简前后保持不变。 19]对现有的属性约简之间的关系进行了深入讨论 2广义分布保持属性约简的判定与 与研究。 分布约简保证每个对象在约简前后的概率分 方法 布保持不变,即保证每条规则的置信度在约简前后 首先,给出广义分布协调集的等价证明。 不发生改变。在实际应用中,人们往往更关注可信 定理1设决策表DT=(U,ATUD,V,f),U= 度较高或较低的规则20),分布约简的标准过于严 {u1,2,…,un},A≤AT,则A是广义分布协调集 格,很多对实际决策无用的规则的置信度在约简前 当且仅当对于Hu,4,∈U,当Y(u,)≠Y(u) 后也要保持不变,很可能使得最终约简过于冗长, 成立时,有[4:]4∩[]4=☑。其中,a和B满足 对实际决策造成一定的干扰。本文在分布约简的 (a=0AB∈[0,1])或(∈[0,1]AB=1)。 基础上,通过弱化分布约简的约简标准,提出了一 证明不妨记p([4:]4)={[山]r:[u]ArC 种新的属性约简,即广义分布保持属性约简,该属 [u:]4},其中i,j∈{1,2,…,n}。由于ACAT,故 性约简可以保证规则的置信度(P∈[0,α]或[B, p([u:])构成[u:]a的一个划分。 1])在约简前后不变,并对广义分布保持属性约简 “→”:设A是决策表DT上的广义分布协调 的方法和相关性质进行了研究和讨论。 集。4,叫eU,当[山,]4n[4,]4≠时,有[4]4= [4]A。因此Ya(山,)=Ya(w)。但有Y(u:)= 1广义分布保持属性约简 Y(u,)成立,并且有Y(4,)=Ya(u,),从 定义1)设决策表DT=(U,ATUD,V,f),论域 而Y(u)=Y(4,)。因此,若Y(u:)≠ U={山1,2,…,山n},则H:∈U,ACAT,对象:在属性 Y(4),有[u]an[4]=0。 A下关于决策属性集D的概率分布定义为u,(u,)= “=”:对于H4,∈U,当[u]灯≤[u:]A时,有
究内容之一,其本质是获取保持知识库某种分类能 力在约简前后不发生改变的最小属性子集描述,国 内外 学 者 做 了 大 量 的 相 关 研 究 工 作。 1992 年, Skowron [5]提出了差别矩阵的概念,为获取信息系统 或决策表的所有约简或最小约简提供了理论基础; 1998 年,Kryszkiewicz [6]讨论了基于差别矩阵的不完 备信息系统广义决策保持属性约简问题;2003 年, 张文修等[7] 给出了分布约简和分配约简的差别矩 阵约简方法,并提出了最大分布约简;2007 年,徐伟 华等[8]给出了优势关系下基于差别矩阵的分布约 简和最大分布约简;2009 年,苗夺谦等[9] 提出了不 可分辨关系保持属性约简和相应的差别矩阵构造 方法;2010 年,张楠等[10] 讨论了区间值信息系统下 的属性约简问题。 为了提高属性约简的算法效率, 多种启发式属性约简算法相继被提出。 1999 年,苗 夺谦等[11]从信息论的角度给出了属性重要度的度 量方法,在此基础上提出了基于互信息的启发式约 简算法;2002 年,王国胤等[12] 提出了基于条件信息 熵的启发式属性约简算法;2010 年,钱宇华等[13] 提 出了正向近似的基本概念并将其应用于启发式属 性约简的构造过程,提高了属性约简的计算效率; 2011 年,钱宇华等[14-15]进一步将正向近似应用于不 完备决策表的启发式属性约简,改善了不完备决策 表下启发式属性约简的求取效率;陈红梅等[16-17] 在 动态属性约简方面做了大量的研究工作;文献[18- 19]对现有的属性约简之间的关系进行了深入讨论 与研究。 分布约简保证每个对象在约简前后的概率分 布保持不变,即保证每条规则的置信度在约简前后 不发生改变。 在实际应用中,人们往往更关注可信 度较高或较低的规则[20] ,分布约简的标准过于严 格,很多对实际决策无用的规则的置信度在约简前 后也要保持不变,很可能使得最终约简过于冗长, 对实际决策造成一定的干扰。 本文在分布约简的 基础上,通过弱化分布约简的约简标准,提出了一 种新的属性约简,即广义分布保持属性约简,该属 性约简可以保证规则的置信度( P∈[ 0,α] 或[ β, 1])在约简前后不变,并对广义分布保持属性约简 的方法和相关性质进行了研究和讨论。 1 广义分布保持属性约简 定义 1 [7] 设决策表 DT=(U,AT∪D,V, f),论域 U={u1,u2,…,un },则∀ui∈U,A⊆AT,对象 ui 在属性 A 下关于决策属性集 D 的概率分布定义为 μA(ui) = (P(D1 [ui]A),P(D2 [ui]A),…,P(D U/ D [ui]A))。 其中,P(Dj [ui] A ) = Dj∩[ui] A / [ui] A ,i∈{1, 2,…,n},j∈{1,2,…, U/ D }。 定义 2 设决策表 DT = (U,AT∪D,V,f),U = {u1 ,u2 ,…,un },U/ D = {D1 ,D2 ,…,D| U/ D| },记 dj 为 Dj 对应的决策值,则∀ui∈U,A⊆AT,ui 在 A 下关于 决策属性 D 的[α,β]决策-置信度序偶集定义为 Υ [α,β] A (ui) = {〈dj,P(Dj [ui] A )〉 α ≤ P(Dj [ui]A) ≤ β ∧ α ≤ P(Dj [ui]AT) ≤ β} 式中:i∈{1,2,…,n},j∈{1,2,…, U/ D },α 和 β 满足(α= 0∧β∈[0,1])或(α∈[0,1]∧β = 1)。 根据定义 2,若对于∀u∈U,均满足 Υ [α,β] A (u)= Υ [α,β] AT (u),则称 A 是广义分布协调集。 若 A 是广义 分布协调集,且 A 的任意子集不是广义分布协调 集,则称 A 为广义分布保持约简。 据此,给出广义 分布保持约简的形式化定义如下。 定义 3 给定决策表 DT = (U,AT∪D,V,f ), U= {u1 ,u2 ,…,un },∀A⊆AT,若 A 是一个广义分布 保持约简,当且仅当以下两个条件成立: 1)∀ui⊆U,Υ [α,β] A (ui)= Υ [α,β] AT (ui); 2)∀B⊂A,Υ [α,β] B (uj)≠Υ [α,β] A (uj)。 式中:α 和 β 满足(α=0∧β∈[0,1])或(α∈[0,1]∧ β = 1),i,j∈{1,2,…,n}。 由定义 3 可知,对于置信度在[α,β]内的规则, 它们的置信度在广义分布保持约简前后保持不变。 2 广义分布保持属性约简的判定与 方法 首先,给出广义分布协调集的等价证明。 定理 1 设决策表 DT = (U,AT∪D,V,f ),U = {u1 ,u2 ,…,un },∀A⊆AT,则 A 是广义分布协调集 当且仅当对于∀ui,uj∈U,当 Υ [α,β] AT (ui)≠Υ [α,β] AT (uj) 成立时,有[ ui ] A ∩[ uj ] A = ⌀。 其中,α 和 β 满足 (α= 0∧β∈[0,1])或(α∈[0,1]∧β = 1)。 证明 不妨记 ρ([ ui ] A ) = {[ uj ] AT :[ uj ] AT ⊆ [ui ] A },其中 i,j∈{1,2,…,n}。 由于 A⊆AT,故 ρ([ui] A )构成[ui] A 的一个划分。 “⇒”: 设 A 是决策表 DT 上的广义分布协调 集。 ∀ui,uj∈U,当[ui] A∩[ uj] A≠⌀时,有[ ui] A = [uj]A。 因此 Υ [α,β] A (ui )= Υ [α,β] A (uj )。 但有 Υ [α,β] AT (ui )= Υ [α,β] A (ui) 成立,并且有 Υ [α,β] AT ( uj ) = Υ [α,β] A ( uj ),从 而 Υ [α,β] AT (ui)= Υ [α,β] AT ( uj )。 因此, 若 Υ [α,β] AT ( ui ) ≠ Υ [α,β] AT (uj),有[ui] A∩[uj] A =⌀。 “⇐”:对于∀ui ∈U,当[uj] AT ⊆[ui] A 时,有 ·378· 智 能 系 统 学 报 第 12 卷
第3期 高学义,等:广义分布保持属性约简研究 .379· [u:]4n[w]4≠☑,故Yg()=Y(u)。即对 “←”:不妨假设3(u,山)eD°,使得AnM)= 于HDeU/D,记d为D对应的决策值,若(d, ②,显然Y(u)≠Y(y,)。HaeA,必然有a年 P(D[u,]Ar))eY(u,),则必有(d,P(D Ma,也即f(a,4,)=f(a,马)。故有[4]a=[u,]A [4]Ar)》eYg1(4)成立,并且P(D|[u]r)= [u:]4∩[4]A≠0,由定理1可得A不是广义分布协调 P(D:[4]Ar),其中,k∈{1,2,…,|U/D}。为后续 集。定理得证。 证明方便,不妨记p([u:]a)={p1,P1,…P1p(,。 定义5设DT=(U,ATUD,V,f),M1为广 由于p([:]a)={[u:]r:[u:]Ar[u:]a},故有 义分布保持约简的差别矩阵,其对应的差别函数为 Ie(I DF(Ma间)=∧{VMaI1≤i≤j≤n 式中:VM]=Va(a∈Ma)表示Ma]中所有 P(D [u;])=- ie.() I[u:] 属性的析取,且a和B满足(α=0∧B∈[0,1])或 p.Del le.I (a∈[0,1]ΛB=1)。 u]T([u]= 通过化DF(M])的主合取范式转化为主析 Ip([a】) 取范式即可得到所有广义分布保持属性约简。 习 le,I Pna.)TaRepa1 定理3设DT=(U,ATUD,V,fD,Ma1为DT ( e,I 的广义分布保持约简的差别矩阵,且α和B满足 {Pa,Illr)'Tp,ep[ul. (a=0∧B∈[0,1])或(a∈[0,1]AB=1)。DF P(DI[u:]Ar) (Ma,刷])是由Ma]导出的差别函数,DF(Ma])的 因此,Y刷(u:)=Ya(u),从而A是广义分 极小析取范式为 布协调集,证毕。 DF(M)=立(Ra,)。 k=1x=1 定理1给出了判断属性子集是广义分布协调集 记Ak={as=1,2,…,9},则{A4k=1,2,…, 的方法,由此可进一步得到广义分布保持约简的方 t是决策表的所有广义分布保持约简,其中t表示 法,在此可给出广义分布差别矩阵的概念。 DF(Ma])的极小析取范式中的合取项数目。 定义4给定决策表DT=(U,ATUD,V,f), 证明Vk≤t,HMa)∈Ma],由极小析取 U=山1,山2,…,n},AT={a1,a2,…,a1r}为条件 范式的定义知A∩M1≠⑦,再由定理2可得A 属性集,D={d}为决策属性,记 D°={(u,4)Y(:)≠Y(4)月 是广义分布协调集。同时,DF(Ma)=(A), 定义 若在A:中去掉任意一个属性形成A:,则必然 AT))()D 3Ma)∈Ma],使得A∩M]=☑,故A不是 广义分布协调集,从而A是广义分布保持约简。 AT,(4,4)年D° 由于DF(Ma])中包含了所有的Ma),因此 为(u,4)的广义分布可辨识属性集,Ma刷= 不存在其他的广义分布保持约简,定理得证。 {Ma|i,j∈{l,2,…,n}为决策表的-个nxn的 广义分布差别矩阵,其为对称矩阵,α和B满足(a= 3广义分布保持属性约简算法 0AB∈[0,1])或(a∈[0,1]∧B=1)。 本节给出广义分布保持约简算法(generalized 定理2设DT=(U,ATUD,V,f),VACAT, distribution preservation reduction algorithm,GDPRA), 则A是广义分布协调集一H山,叫∈U,若M≠ 算法描述如下。 O,有AnMa]≠☑。其中,a和B满足(a=0 输入决策表DT=(U,ATUD,V,f),a和B。 B∈[0,1])或(a∈[0,1]AB=1). 输出DT的所有广义分布保持属性约简。 证明若(u,4)使D·,显然有A∩M≠☑。 1)计算每个对象在条件属性集下关于决策属 反之,则有 性的置信度分布ur0 “→”:由于A是广义分布协调集,故对于 2)根据每个对象的置信度分布ur获取每个对 (u,4)∈D°,Y(u,)≠Y(4,),由定理1可 象的[α,B]决策-置信度序偶集。 得[u:]an[4]a=。因此,3aeA,不等式f(a, 3)根据对象之间的决策-置信度序偶集构造相 u:)≠f(a,u)成立,故aeMa,即AnMa≠O。 应的广义分布差别矩阵
[ui] A∩[uj] A≠⌀,故 Υ [α,β] AT (ui)= Υ [α,β] AT (uj)。 即对 于∀Dk∈U/ D,记 dk 为 Dk 对应的决策值,若〈 dk, P(Dk [ui] AT )〉 ∈ Υ [α,β] AT ( ui ), 则 必 有 〈 dk, P(Dk [uj] AT )〉 ∈Υ [α,β] AT ( uj ) 成立,并且 P(Dk [ui]AT ) = P(Dk [uj]AT),其中,k∈{1,2,…, U/ D }。 为后续 证明方便,不妨记 ρ([ui] A )= {ρ1 ,ρ1 ,…,ρ ρ([ui ] A ) }。 由于 ρ([ui] A)= {[ui]AT ∶ [ui] AT⊆[ui] A },故有 P(Dk [ui]A) = ∑ ρ([ui ]A ) s = 1 { ρs ∩ Dk :ρs ∈ ρ([ui]A)} [ui]A = ∑ ρ([ui ] A ) s = 1 ρs ∩ Dk ρs · ρs [ui] A :ρ { s ∈ ρ([ui] A )} = ∑ ρ([ui ] A ) s = 1 P(Dk ρs)· ρs [ui] A :ρ { s ∈ ρ([ui] A )} = ∑ ρ([ui ]A ) s = 1 P(Dk [ui]AT)· ρs [ui]A :ρ { s ∈ ρ([ui]A)} = P(Dk [ui] AT ) 因此,Υ [α,β] AT (ui) = Υ [α,β] A ( ui),从而 A 是广义分 布协调集,证毕。 定理 1 给出了判断属性子集是广义分布协调集 的方法,由此可进一步得到广义分布保持约简的方 法,在此可给出广义分布差别矩阵的概念。 定义 4 给定决策表 DT = (U,AT∪D,V, f ), U= {u1 ,u2 ,…,un },AT = { a1 ,a2 ,…,a AT } 为条件 属性集,D= {d}为决策属性,记 D ∗ = {(ui,uj) Υ [α,β] AT (ui) ≠ Υ [α,β] AT (uj)} 定义 M [α, β] ij = {a ∈ AT f(a,ui) ≠ f(a,uj)},(ui,uj)∈D ∗ AT, (ui,uj) ∉ D { ∗ 为( ui, uj ) 的 广 义 分 布 可 辨 识 属 性 集, M [α,β] = {M [α,β] ij i,j∈{1,2,…,n}}为决策表的一个 n×n 的 广义分布差别矩阵,其为对称矩阵,α 和 β 满足(α = 0∧β∈[0,1])或(α∈[0,1]∧β = 1)。 定理 2 设 DT = (U,AT∪D,V,f ),∀A⊆AT, 则 A 是广义分布协调集⇔∀ui,uj∈U,若 M [α,β] ij ≠ ⌀,有 A∩M [α,β] ij ≠⌀。 其中,α 和 β 满足( α = 0∧ β∈[0,1])或(α∈[0,1]∧β = 1)。 证明 若(ui,uj)∉D ∗ ,显然有 A∩M [α,β] ij ≠⌀。 反之,则有 “⇒”: 由 于 A 是 广 义 分 布 协 调 集, 故 对 于 ∀(ui,uj)∈D ∗ ,Υ [α,β] AT (ui)≠Υ [α,β] AT (uj),由定理 1 可 得[ui] A∩[uj] A = ⌀。 因此,∃a∈A,不等式 f ( a, ui)≠f(a,uj)成立,故 a∈M [α,β] ij ,即 A∩M [α,β] ij ≠⌀。 “⇐”:不妨假设∃(ui,uj)∈D ∗ ,使得 A∩M [α,β] ij = ⌀,显然 Υ [α,β] AT (ui)≠Υ [α,β] AT (uj )。 ∀a∈A,必然有 a∉ M [α,β] ij ,也即 f (a,ui ) = f (a,uj )。 故有[ui]A = [uj]A, [ui]A∩[uj]A≠⌀,由定理 1 可得 A 不是广义分布协调 集。 定理得证。 定义 5 设 DT = (U,AT∪D,V,f ),M [α,β] 为广 义分布保持约简的差别矩阵,其对应的差别函数为 DF(M [α,β] ) =∧ {∨ M [α,β] ij 1 ≤ i ≤ j ≤ n} 式中:∨M [α,β] ij = ∨a( a∈M [α,β] ij )表示 M [α,β] ij 中所有 属性的析取,且 α 和 β 满足(α = 0∧β∈[0,1]) 或 (α∈[0,1]∧β = 1)。 通过化 DF(M [α,β] ) 的主合取范式转化为主析 取范式即可得到所有广义分布保持属性约简。 定理 3 设 DT = (U,AT∪D,V, f),M [α,β]为 DT 的广义分布保持约简的差别矩阵,且 α 和 β 满足 (α= 0∧β∈[ 0,1]) 或( α∈[ 0,1] ∧β = 1)。 DF (M [α,β] )是由 M [α,β]导出的差别函数,DF(M [α,β] )的 极小析取范式为 DF(M [α,β] ) =∨ t k = 1 (∧ qk s = 1 ai s )。 记 Ak = { ai s s = 1,2,…,qk},则{Ak k = 1,2,…, t}是决策表的所有广义分布保持约简,其中 t 表示 DF(M [α,β] )的极小析取范式中的合取项数目。 证明 ∀k ≤ t,∀M [α,β] ij ∈ M [α,β] ,由极小析取 范式的定义知 Ak ∩ M [α,β] ij ≠ ⌀,再由定理 2 可得 Ak 是广义分布协调集。 同时,DF(M [α,β] ) =∨ t k = 1 (Ak), 若在 Ak 中 去 掉 任 意 一 个 属 性 形 成 Ak ′, 则 必 然 ∃M [α,β] ij ∈ M [α,β] ,使得 Ak ′ ∩ M [α,β] ij = ⌀,故 Ak ′ 不是 广义分布协调集,从而 Ak 是广义分布保持约简。 由于 DF(M [α,β] ) 中包含了所有的 M [α,β] ij ,因此 不存在其他的广义分布保持约简,定理得证。 3 广义分布保持属性约简算法 本节给出广义分布保持约简算法(generalized distribution preservation reduction algorithm,GDPRA), 算法描述如下。 输入 决策表 DT = (U,AT∪D,V, f ),α 和 β。 输出 DT 的所有广义分布保持属性约简。 1) 计算每个对象在条件属性集下关于决策属 性的置信度分布 μAT 。 2) 根据每个对象的置信度分布 μAT获取每个对 象的[α,β]决策-置信度序偶集。 3) 根据对象之间的决策-置信度序偶集构造相 应的广义分布差别矩阵。 第 3 期 高学义,等:广义分布保持属性约简研究 ·379·
·380. 智能系统学报 第12卷 4)根据广义分布差别矩阵构造广义分布差别 Y98.(1)={} 函数,并通过吸收率进行简化。 Y08,(u2)={ 5)在DF(Ma))基础上通过结合律获取所有 Y9.(u3)=⑦ 的广义分布保持约简。 Ya.(u4)=⑦ 其中,a和B满足(a=0∧B∈[0,1])或(a∈ 3)构造广义分布差别矩阵 [0,1]ΛB=1)。 [a,B]=[0,0.3]时对应的广义分布差别矩阵 由于上述算法是通过差别矩阵获取决策表的 如表2所示,[a,β]=[0.8,1]时对应的广义分布差 所有的广义分布保持约简,故算法在最坏情况下的 别矩阵如表3所示。 时间复杂度为O(|AT2),最坏情况下的空间复 表2广义分布差别矩阵1 杂度为O(|ATIU2),其中1U1为样本空间中的对 Table 2 Generalized distribution discernibility matrix 1 象数目,|AT为条件属性数,下面通过例1简要说 M[o.0.3] 明GDPRA的执行过程。 AT {a2} a2,a3}}a2,a3 例1如表1所示,论域为U={山1,山2,山3,u4}, {a2} AT {a3 {a3} AT={a1,a2,a3,a4}为条件属性集,D={d为决策属 u3 {a2,a3} {a3} AT AT 性,分别求[a,B]=[0,0.3]以及[a,B]=[0.8,1]时 的所有广义分布保持约简。 {a2,a3} {a3} AT AT 表1决策表 表3广义分布差别矩阵2 Table 1 Decision table Table 3 Generalized distribution discernibility matrix 2 a a Mlas.1] 41 2 AT 1 1 0 0 {a2} {a2,a3}{a2,a3} la2l AT {a3} {a3} 1 0 0 1 u3 {a2,a} 1a31 AT AT u3 1 0 2 {a2,a3}1a3} AT AT 1 0 4)获取差别函数并进行简化 1)获取每个对象的置信度分布 DF(Mo.aJ)=(a2)A(a3) U/AT={E1,E2,E3} DF(Ma8.)=(a2)A(a3) U/D={D1,D2,D3 5)通过结合律获取所有的广义分布保持约简 E,={u1} 由计算得,[a,B]=[0,0.3]时和[a,B]=[0.8, E2={u2} 1]时的所有广义分布保持约简均为{a2,a3}。 E3={u3,u4} D1=u1} 4一些特殊情形下的讨论 D2={u2,u4} 值得注意的是,给定决策表DT=(U,ATUD,V, D3={u3} ),当α和B取某些特殊值时,广义分布保持约简可 (41)=(1,0,0) 以退化为目前已存在的一些约简,本节将根据α和 u(42)=(0,1,0) B不同的特殊取值情况展开讨论,并给出相应的结 r(3)=(0,0.5,0.5) 论。其中,将MN、Mpos以及Ms分别记为广义决 r(44)=(0,0.5,0.5) 策可辨识矩阵、正域可辨识矩阵以及分布可辨识矩 2)获取每个对象的[α,B]决策-置信度序偶集 阵,同时,将M、M以及M分别记为对象山, 当a=0,B=0.3时 和”:对应在广义决策可辨识矩阵、正域可辨识矩阵 Y9a(41)={,} 以及分布可辨识矩阵的可辨识属性集,其中论域为 Y9aJ(2)={,} U={u1,山2,…,4n},i,je{1,2,…,n}。 Y00J(u3)={} 1)a=B=0时 Y0aJ(u4)={ 当α和B取值均为0时,广义分布保持约简实 当x=0.8,B=1时 质是保证对于置信度为0的规则在约简前后的置信
4) 根据广义分布差别矩阵构造广义分布差别 函数,并通过吸收率进行简化。 5) 在 DF(M [α,β] )基础上通过结合律获取所有 的广义分布保持约简。 其中,α 和 β 满足(α = 0∧β∈[0,1]) 或(α∈ [0,1]∧β = 1)。 由于上述算法是通过差别矩阵获取决策表的 所有的广义分布保持约简,故算法在最坏情况下的 时间复杂度为 O( AT | U| 2 ),最坏情况下的空间复 杂度为 O( AT U 2 ),其中|U | 为样本空间中的对 象数目, AT 为条件属性数,下面通过例 1 简要说 明 GDPRA 的执行过程。 例 1 如表 1 所示,论域为 U = {u1 ,u2 ,u3 ,u4 }, AT= {a1 ,a2 ,a3 ,a4 }为条件属性集,D= {d}为决策属 性,分别求[α,β] = [0,0.3]以及[α,β] = [0.8,1]时 的所有广义分布保持约简。 表 1 决策表 Table 1 Decision table U a1 a2 a3 a4 d u1 1 1 0 1 0 u2 1 0 0 1 1 u3 1 0 1 1 2 u4 1 0 1 1 1 1)获取每个对象的置信度分布 U/ AT = {E1 ,E2 ,E3 } U/ D= {D1 ,D2 ,D3 } E1 = {u1 } E2 = {u2 } E3 = {u3 ,u4 } D1 = {u1 } D2 = {u2 ,u4 } D3 = {u3 } μAT(u1 )= (1,0,0) μAT(u2 )= (0,1,0) μAT(u3 )= (0,0.5,0.5) μAT(u4 )= (0,0.5,0.5) 2)获取每个对象的[α,β]决策-置信度序偶集 当 α= 0,β = 0.3 时 Υ [0,0.3] AT (u1 )= {<1,0>,<2,0>} Υ [0,0.3] AT (u2 )= {<0,0>,<2,0>} Υ [0,0.3] AT (u3 )= {<0,0>} Υ [0,0.3] AT (u4 )= {<0,0>} 当 α= 0.8,β = 1 时 Υ [0.8,1] AT (u1 )= {<0,1>} Υ [0.8,1] AT (u2 )= {<1,1>} Υ [0.8,1] AT (u3 )= ⌀ Υ [0.8,1] AT (u4 )= ⌀ 3)构造广义分布差别矩阵 [α,β] = [0,0.3] 时对应的广义分布差别矩阵 如表 2 所示,[α,β] = [0.8,1]时对应的广义分布差 别矩阵如表 3 所示。 表 2 广义分布差别矩阵 1 Table 2 Generalized distribution discernibility matrix 1 M [0,0.3] u1 u2 u3 u4 u1 AT {a2 } {a2 ,a3 } {a2 ,a3 } u2 {a2 } AT {a3 } {a3 } u3 {a2 ,a3 } {a3 } AT AT u4 {a2 ,a3 } {a3 } AT AT 表 3 广义分布差别矩阵 2 Table 3 Generalized distribution discernibility matrix 2 M [0.8,1] u1 u2 u3 u4 u1 AT {a2 } {a2 ,a3 } {a2 ,a3 } u2 {a2 } AT {a3 } {a3 } u3 {a2 ,a3 } {a3 } AT AT u4 {a2 ,a3 } {a3 } AT AT 4)获取差别函数并进行简化 DF(M [0,0.3] ) = (a2 ) ∧ (a3 ) DF(M [0.8,1] ) = (a2 ) ∧ (a3 ) 5)通过结合律获取所有的广义分布保持约简 由计算得,[α,β] = [0,0.3]时和[α,β] = [0.8, 1]时的所有广义分布保持约简均为{a2 ,a3 }。 4 一些特殊情形下的讨论 值得注意的是,给定决策表 DT = (U,AT∪D,V, f),当 α 和 β 取某些特殊值时,广义分布保持约简可 以退化为目前已存在的一些约简,本节将根据 α 和 β 不同的特殊取值情况展开讨论,并给出相应的结 论。 其中,将 MGEN、MPOS以及 MDIS分别记为广义决 策可辨识矩阵、正域可辨识矩阵以及分布可辨识矩 阵,同时,将 M GEN ij 、M POS ij 以及 M DIS ij 分别记为对象 ui 和 uj 对应在广义决策可辨识矩阵、正域可辨识矩阵 以及分布可辨识矩阵的可辨识属性集,其中论域为 U= {u1 ,u2 ,…,un },i,j∈{1,2,…,n}。 1)α= β = 0 时 当 α 和 β 取值均为 0 时,广义分布保持约简实 质是保证对于置信度为 0 的规则在约简前后的置信 ·380· 智 能 系 统 学 报 第 12 卷
第3期 高学义,等:广义分布保持属性约简研究 .381· 度均为0,而对于置信度不为0的规则在约简前后 当Y(u)=Y(u)时,有Y(u)= 的置信度均不为0,由此可得如下结论。 Y(u)=☑或(u:)=Y(w)≠☑成立。 定理4设决策表DT=(U,ATUD,Vf),对于 对于前者,HDeU/D,使得[u:]Ar∩D:≠[u:]Ar成 VRCAT且R≠O,a=B=0,若R是决策表DT的一 立并且[u]灯∩D≠[山]Ar成立,故有 个广义分布保持约简,则R必定同时是决策表DT ,w∈BNDAT(D);对于后者,3D∈U/D,使 的一个广义决策保持约简。 ([:]r∩D=[u:]Ar)A([4]Ar∩D=[]Ar)成 证明不妨设u,山∈U,其中[山:]ar∩[4]r= 立,即f(:,d)=f(w,d),故由定义4可知Ms= O,同时设U/D={D,D2,…,Dwom}。若有Y90(u)≠ M=AT。 Yo(4)成立,则3D.∈U/D,其中ke{1,2,…, 综上,由于4:,山∈U,故在=B=1的条件下, |U/D},使得[u:]r∩Ds=☑A4]r∩D≠或 Ms=M.成立,故R是决策表DT的广义分布保 [u:]r∩D≠A[山]r∩Dk=☑成立,也即 持约简,则R必定同时是决策表DT的一个正域保 δr(u:)≠8r(u)成立,故由定义4可知有M0.o= 持约简,证毕。 M={a∈ATf(u:,a)≠f(4,a)}成立;反之,若 3)a=0,B=1时 Y9(u,)=Y9,0(4),则DeU/D,有[u:]rn 当α=0,B=1时,广义分布保持约简实质是保 D,≠☑A[w]a∩D≠☑或[u:]arnD= 证了置信度在[0,1]内的所有规则在约简前后的置 ☑A[4]r∩D=成立,故8Ar(u:)=δm(u),由定 信度不变,同时易得,此时对象的[,B]决策-置信 义4可知M.o1=M=AT成立。由于Hu,4,e 度序偶集等价于在决策等价类划分上的置信度分 U,故在a=B=0条件下,有Mcv=Mo,成立,故R 布,由此可得如下结论。 是决策表DT的一个广义分布保持约简,则R必定 定理6决策表DT=(U,ATUD,V,f),对于 同时是决策表DT的一个广义决策保持约简,证毕。 VRCAT且R≠☑,a=0且B=1,若R是决策表DT 2)a=B=1时 的一个广义分布保持约简,则R必定同时是决策表 显然,当=B=1时,广义分布保持约简实质是 DT的一个分布保持约简。 保证了置信度为1的规则在约简前后的置信度保持 证明不妨设V4,4,eU,其中[山:]rn[4,]Ar= 不变,由此可得如下结论。 ⑦,U/D={D1,D2,,D1n}:若Y0(u,)≠Y 定理5决策表DT=(U,ATUD,V,f),对于 (),则3D∈U/D,使得P(DI[u:]Ar)≠P(DI VRCAT且R≠☑,令a=B=1,若R是决策表DT []Ar),故有uT(:)≠uT(u)成立,所以由定义4 的一个广义分布保持约简,则R必定同时是决策表 可知Ms=Mo.={aEATlf:,a)≠f(4,a)};反 DT的一个正域保持约简。 之,若Y9(u,)=Y0(y)成立,则D∈U/D,有 证明不妨设Hu,4∈U,其中,[u:]rn P(D[u:]r)=P(D[,]r)成立,则由定义4可 [4,]Ar=,U/D=D,D2,…,D1wn,分情况进行 知M=M=AT;由于H4,4eU,故在a=0, 如下讨论。 B=1的条件下,有Ms=Mo,成立,故R是决策表 当Y(w)≠Y(u)成立时,有M.={a∈ DT的一个广义分布保持约简,必定同时是决策表 ATfu,a)≠f(y,a)}成立。假设Y(u,)≠0且 DT的一个分布保持约简,证毕。 Y(y)≠,则3D∈UWD,使得P(D.I[u:]r)= 综上,图1给出了广义分布保持约简与上述几 P(D[y]r)=1成立,故有u:,4∈POSr(D)且f(u, 种约简之间的关系。 d)≠f(4,d)成立,即M={a∈ATf(4,a)≠f(马, a=B=1 正域保持约简 a)}=M成立。若假设不成立,则有(u:EPOSAT(D)A L,∈BNDAT(D)或(4∈POSAT(D)A4:∈BNDAT a-0,1 “义分布保持约简 分布保持约简 (D)成立;若f(4,d)≠f,d)成立,则有M= 1 aEATIf(u,,a)≠f(4,a)=Mg.,若f(u,d)= a=B-0 广义决策保持约简 f(u,d),则有Mos=AT,同时必然4∈[u:]r,4∈ [4]r,使得f(u,d)≠f代u,d),故M={aeAT| 图1几种不同约简之间的关系 f,a)≠f4,a)}=M写.,故M=M写山。 Fig.1 Relationships among different reductions
度均为 0,而对于置信度不为 0 的规则在约简前后 的置信度均不为 0,由此可得如下结论。 定理 4 设决策表 DT = (U,AT∪D,V,f ),对于 ∀R⊆AT 且 R≠⌀,α= β = 0,若 R 是决策表 DT 的一 个广义分布保持约简,则 R 必定同时是决策表 DT 的一个广义决策保持约简。 证明 不妨设∀ui,uj∈U,其中[ui]AT∩[uj]AT = ⌀,同时设 U/ D={D1,D2,…,D|U/ D| }。 若有 Υ [0,0] AT (ui)≠ Υ [0,0] AT ( uj ) 成立,则∃Dk ∈U/ D,其中k∈{ 1,2,…, U/ D },使得[ui] AT∩Dk = ⌀∧[uj] AT∩Dk≠⌀或 [ui] AT ∩ Dk ≠ ⌀ ∧ [uj] AT ∩ Dk = ⌀ 成 立, 也 即 δAT(ui)≠δAT(uj)成立,故由定义 4 可知有 M [0,0] ij = M GEN ij = {a∈AT f( ui,a) ≠f( uj,a)} 成立;反之,若 Υ [0,0] AT ( ui ) = Υ [0,0] AT ( uj ),则∀Dk ∈U/ D,有[ui] AT ∩ Dk≠ ⌀ ∧ [uj] AT ∩ Dk ≠ ⌀ 或 [ui] AT ∩ Dk = ⌀∧[uj] AT∩Dk =⌀成立,故 δAT(ui)= δAT(uj),由定 义 4 可知 M [0,0] ij = M GEN ij = AT 成立。 由于∀ui,uj ∈ U,故在 α = β = 0 条件下,有 MGEN = M [0,0] 成立,故 R 是决策表 DT 的一个广义分布保持约简,则 R 必定 同时是决策表 DT 的一个广义决策保持约简,证毕。 2)α= β = 1 时 显然,当 α= β = 1 时,广义分布保持约简实质是 保证了置信度为 1 的规则在约简前后的置信度保持 不变,由此可得如下结论。 定理 5 决策表 DT = (U,AT∪D,V,f),对于 ∀R⊆AT 且 R≠⌀,令 α = β = 1,若 R 是决策表 DT 的一个广义分布保持约简,则 R 必定同时是决策表 DT 的一个正域保持约简。 证明 不 妨 设 ∀ui, uj ∈ U, 其 中, [ui] AT ∩ [uj] AT =⌀,U/ D= {D1 ,D2 ,…,D U/ D },分情况进行 如下讨论。 当 Υ [1,1] AT (ui)≠Υ [1,1] AT (uj)成立时,有 M [1,1] ij = {a∈ AT f(ui,a)≠f(uj,a)}成立。 假设 Υ [1,1] AT (ui)≠⌀ 且 Υ [1,1] AT (uj)≠⌀,则∃Dk∈U/ D,使得 P(Dk [ui]AT ) = P(Dk [uj]AT)= 1 成立,故有 ui,uj∈POSAT(D)且 f(ui, d)≠f(uj,d)成立,即 M POS ij = {a∈AT f(ui,a)≠f(uj, a)} =M [1,1] ij 成立。 若假设不成立,则有(ui∈POSAT(D)∧ uj∈BNDAT ( D)) 或 ( uj ∈ POSAT ( D) ∧ ui ∈ BNDAT (D))成立;若 f( ui,d)≠f(uj,d)成立,则有 M POS ij = {a∈AT f(ui,a)≠f(uj,a)} = M [1,1] ij ,若 f( ui,d) = f(uj,d),则有 M POS ij =AT,同时必然∃ui′∈[ui]AT,uj′∈ [uj] AT ,使得f(ui′,d)≠f(uj′,d),故 M POS i′j′ = { a∈AT f(ui′,a)≠f(uj′,a)} =M [1,1] ij ,故 M POS i′j′ =M [1,1] ij 。 当 Υ [1,1] AT ( ui ) = Υ [1,1] AT ( uj ) 时, 有 Υ [1,1] AT ( ui ) = Υ [1,1] AT (uj)= ⌀ 或 Υ [1,1] AT ( ui) = Υ [1,1] AT ( uj)≠⌀成立。 对于前者,∀Dk∈U/ D,使得[ui] AT∩Dk≠[ui] AT成 立 并 且 [uj] AT ∩ Dk ≠ [uj] AT 成 立, 故 有 ui,uj∈BNDAT(D); 对 于 后 者, ∃Dk ∈ U/ D, 使 ([ui] AT∩Dk = [ui] AT ) ∧( [uj] AT ∩Dk = [uj] AT ) 成 立,即 f( ui,d) = f(uj,d),故由定义 4 可知 M POS ij = M [1,1] ij =AT。 综上,由于∀ui,uj∈U,故在 α= β = 1 的条件下, MPOS =M [1,1]成立,故 R 是决策表 DT 的广义分布保 持约简,则 R 必定同时是决策表 DT 的一个正域保 持约简,证毕。 3) α= 0,β = 1 时 当 α = 0,β = 1 时,广义分布保持约简实质是保 证了置信度在[0,1]内的所有规则在约简前后的置 信度不变,同时易得,此时对象的[α,β]决策-置信 度序偶集等价于在决策等价类划分上的置信度分 布,由此可得如下结论。 定理 6 决策表 DT = (U,AT∪D,V,f ),对于 ∀R⊆AT 且 R≠⌀,α= 0 且 β = 1,若 R 是决策表 DT 的一个广义分布保持约简,则 R 必定同时是决策表 DT 的一个分布保持约简。 证明 不妨设∀ui,uj∈U,其中[ui]AT∩[uj]AT = ⌀,U/ D= {D1 ,D2 ,…,D U/ D };若 Υ [0,1] AT (ui)≠Υ [0,1] AT (uj ),则∃Dk ∈U/ D,使得 P(Dk [ui] AT ) ≠P(Dk [uj] AT ),故有 μAT(ui)≠μAT(uj)成立,所以由定义 4 可知 M DIS ij =M [0,1] ij = {a∈AT f(ui,a)≠f(uj,a)};反 之,若 Υ [0,1] AT (ui)= Υ [0,1] AT (uj)成立,则∀Dk∈U/ D,有 P(Dk [ui] AT )= P(Dk [uj] AT )成立,则由定义 4 可 知 M DIS ij = M [0,1] ij = AT;由于∀ui,uj ∈U,故在 α = 0, β = 1 的条件下,有 MDIS = M [0,1] 成立,故 R 是决策表 DT 的一个广义分布保持约简,必定同时是决策表 DT 的一个分布保持约简,证毕。 综上,图 1 给出了广义分布保持约简与上述几 种约简之间的关系。 图 1 几种不同约简之间的关系 Fig.1 Relationships among different reductions 第 3 期 高学义,等:广义分布保持属性约简研究 ·381·
.382. 智能系统学报 第12卷 例2表1所示决策表,论域U={u1,山2,u3, 一个广义分布保持约简,进一步,若给定置信度区 u4},AT={a1,a2,a3,a,}为条件属性集,D={d}为决 间[a',B],且满足[a',B]≤[a,B],则3A'≤A,使 策属性。由 得A'是置信度区间[α',B]下的一个广义分布保持 U/AT={E1,E2,E3} 约简,且满足A'二A。其中,a和B满足(a=0∧B∈ E1={u1} [0,1])或(a∈[0,1]ΛB=1)。 E2={u2} 证明由已知条件得,[a',B]C[a,B],Hu∈ E2={山3,u4} U,有Ya剧(u)=Ya](u)。则u∈U,必然有 U/D={D1,D2,D3} Ye(u)=Yg(u),故A是决策表在置信度区 D1={u1} 间[α',B]下的一个广义分布协调集。假设A是决 D2={42,u4} 策表在置信度区间[α',B]下的一个广义分布约简, D3={u3} 则有A'CA:反之,必然3A'CA,使得Y0F](u)= POST(D)=u1,u2 Ya](u),故3A'CA,使得A'≤A成立,证毕。 8Ar(u1)={0} 5实验分析 8Ar(u2)={1} 8Ar(u3)={1,2 本节采用4个UCI数据集进行实验,数据集信 8Ar(u4)={1,2 息如表5所示,其中,|U川表示数据集的样本数, um(u1)=(1,0,0) |AT表示数据集的特征数,|D表示分类数。对于 uA(2)=(0,1,0) 数据集的预处理,处理策略如下:缺失特征值通过 r(u3)=(0,0.5,0.5) 用该缺失特征值所对应特征下的多数特征值进行 r(u4)=(0,0.5,0.5) 填充,连续型特征进行等频离散化,名词性特征值 求得正域保持约简为a2,a3},广义决策保持约 用整数进行替换,所有数据集的预处理均在Weka 简为{a2,a3},分布保持约简为{a2,a3}。 3.6下进行。实验环境如下:Windows7旗舰版32位 因此,当a=B=1时,可得:Y(1)={(0,1)}, 操作系统,intel Pentium G640C处理器,主频 Y(42)={(1,1)},Y(4)=⑦, 2.8GHz,内存6.0GB,所有算法均采用MATLAB Y(u)=0。 R2010h编写实现。 据此构造广义分布差别矩阵,如表4所示。 表5UCI数据集信息 表4广义分布差别矩阵 Table 5 Information of UCI data sets Table 4 Generalized distribution discernibility matrix 数据集 IUI ATI DI Mu. 42 Haberman's Survival 306 3 2 AT {a2} {a2,a3 {a2,a3 Blood Transfusion Service Center 748 2 {a2} AT {a3} {a3} Stone Flakes 79 3 us {a2,a3} {a3} AT AT Airfoil Self-Noise 1503 5 16 4 {a2,a3} {a} AT AT 注:BTSC为数据集Blood Transfusion Service Center的 由广义分布差别矩阵可得所有的广义分布保 缩写 持约简为{a2,a3},与正域约简一致。同理,a=B=0 实验分为两部分。第1部分验证置信度区间分 时的广义分布保持约简为a2,a3},与广义决策约简 别为[1.0,1.0]、[0.0,0.0]以及[0.0,1.0]时,广义分 一致;a=0,B=1时的广义分布保持约简为{a2, 布保持约简可分别退化为正域保持约简、广义决策 a3},与分布约简一致。 保持约简以及分布约简,同时,也可验证广义分布 由定理4~6可得如下结论。 保持约简算法的正确性:第2部分验证在较小的置 推论1设DT=(U,ATUD,V,f),置信度区间 信度区间下求得的广义分布保持约简是在较大的 为[a,B],VACAT,且A是置信度区间[a,B]下的 置信度区间下求得的广义分布保持约简的子集
例 2 表 1 所示决策表,论域 U = { u1 ,u2 ,u3 , u4 },AT = {a1 ,a2 ,a3 ,a4 }为条件属性集,D= {d}为决 策属性。 由 U/ AT = {E1 ,E2 ,E3 } E1 = {u1 } E2 = {u2 } E2 = {u3 ,u4 } U/ D= {D1 ,D2 ,D3 } D1 = {u1 } D2 = {u2 ,u4 } D3 = {u3 } POSAT(D)= {u1 ,u2 } δAT(u1 )= {0} δAT(u2 )= {1} δAT(u3 )= {1,2} δAT(u4 )= {1,2} μAT(u1 )= (1,0,0) μAT(u2 )= (0,1,0) μAT(u3 )= (0,0.5,0.5) μAT(u4 )= (0,0.5,0.5) 求得正域保持约简为{a2 ,a3 },广义决策保持约 简为{a2 ,a3 },分布保持约简为{a2 ,a3 }。 因此,当 α=β = 1 时,可得:Υ [1,1] AT (u1 )= {〈0,1〉}, Υ [1,1] AT ( u2 ) = {〈 1, 1 〉}, Υ [1,1] AT ( u3 ) = ⌀, Υ [1,1] AT (u4 )= ⌀。 据此构造广义分布差别矩阵,如表 4 所示。 表 4 广义分布差别矩阵 Table 4 Generalized distribution discernibility matrix M [1,1] u1 u2 u3 u4 u1 AT {a2 } {a2 ,a3 } {a2 ,a3 } u2 {a2 } AT {a3 } {a3 } u3 {a2 ,a3 } {a3 } AT AT u4 {a2 ,a3 } {a3 } AT AT 由广义分布差别矩阵可得所有的广义分布保 持约简为{a2 ,a3 },与正域约简一致。 同理,α = β = 0 时的广义分布保持约简为{a2 ,a3 },与广义决策约简 一致;α = 0, β = 1 时的广义分布保持约简为{ a2 , a3 },与分布约简一致。 由定理 4~6 可得如下结论。 推论 1 设 DT = (U,AT∪D,V,f ),置信度区间 为[α,β],∀A⊆AT,且 A 是置信度区间[α,β]下的 一个广义分布保持约简,进一步,若给定置信度区 间[α′,β′],且满足[α′,β′]⊆[α,β],则∃A′⊆A,使 得 A′是置信度区间[α′,β′]下的一个广义分布保持 约简,且满足 A′⊆A。 其中,α 和 β 满足(α = 0∧β∈ [0,1])或(α∈[0,1]∧β = 1)。 证明 由已知条件得,[α′,β′]⊆[α,β],∀u∈ U,有 Υ [α,β] A ( u) = Υ [α,β] AT ( u)。 则 ∀u ∈ U, 必然有 Υ [α′,β′] A (u)= Υ [α′,β′] AT ( u),故 A 是决策表在置信度区 间[α′,β′]下的一个广义分布协调集。 假设 A 是决 策表在置信度区间[α′,β′]下的一个广义分布约简, 则有 A′⊆A;反之,必然∃A′⊂A,使得 Υ [α′,β′] A′ ( u) = Υ [α′,β′] A (u),故∃A′⊆A,使得 A′⊆A 成立,证毕。 5 实验分析 本节采用 4 个 UCI 数据集进行实验,数据集信 息如表 5 所示,其中, U 表示数据集的样本数, AT 表示数据集的特征数, D 表示分类数。 对于 数据集的预处理,处理策略如下:缺失特征值通过 用该缺失特征值所对应特征下的多数特征值进行 填充,连续型特征进行等频离散化,名词性特征值 用整数进行替换,所有数据集的预处理均在 Weka 3.6下进行。 实验环境如下:Windows 7 旗舰版 32 位 操 作 系 统, Intel Pentium G640C 处 理 器, 主 频 2.8 GHz,内 存 6.0 GB, 所 有 算 法 均 采 用 MATLAB R2010b 编写实现。 表 5 UCI 数据集信息 Table 5 Information of UCI data sets 数据集 U AT D Haberman’s Survival 306 3 2 Blood Transfusion Service Center 748 4 2 Stone Flakes 79 7 3 Airfoil Self⁃Noise 1503 5 16 注:BTSC 为数据集 Blood Transfusion Service Center 的 缩写 实验分为两部分。 第 1 部分验证置信度区间分 别为[1.0,1.0]、[0.0,0.0]以及[0.0,1.0]时,广义分 布保持约简可分别退化为正域保持约简、广义决策 保持约简以及分布约简,同时,也可验证广义分布 保持约简算法的正确性;第 2 部分验证在较小的置 信度区间下求得的广义分布保持约简是在较大的 置信度区间下求得的广义分布保持约简的子集。 ·382· 智 能 系 统 学 报 第 12 卷
第3期 高学义,等:广义分布保持属性约简研究 ·383. 5.1广义分布保持属性约简的退化情形 5.2不同置信度区间下约简的包含关系 本节中,分别令[a,B]取值为[1.0,1.0]、[0.0 本部分实验设置如下:首先,固定α的值为0.0, 0.0]和[0.0,1.0],并求4个UCI数据集的广义分布 令B取值范围为0.0-1.0,取值间隔为0.2,记录随B 保持约简,然后,分别求它们在正域保持约简算法 取值的变化在不同置信度区间下求得的广义分布 positive region preservation reduction algorithm, 保持约简。同样的,固定B的值为1.0,令α取值范 PRPRA),广义决策保持约简算法(algorithm of 围为0.0~1.0,取值间隔为0.2,记录随a取值的变 generalized decision preservation reduction,AGDPR) 化在不同置信度区间下求得的广义分布保持约简, 以及分布保持约简算法(distribution preservation 实验结果如表9~12所示。 reduction algorithm,DPRA)下的约简,通过前后对 表9数据集1:Haberman's survival 比,验证广义分布保持约简在3个特殊置信度区间 Table 9 Data set 1:Haberman's survival 下的退化情况,实验结果如表6~8所示。 [a,β] 约简 [a,B] 约简 表6 GDPRA和PRPRA的约简结果([a&,B]=[1,1]) Table 6 Reduction results for GDPRA and PRPRA [0.0.0.0] 12,3 [0.0.1.0] {1.2,3} ([xB]=[1,1]) [0.0.0.2] 11,2,3 [0.2.1.0] {1.2,3} 数据集 GDPRA PRPRA [0.0,0.4] 11,2,3 [0.4.1.0] {1.2,3} Haberman's Survival 12,3} {2,3 [0.0.0.6] 11.2.3} [0.6,1.0] {1.2,3} BTSC {1,49 11,4 [0.0.0.8] {1.2.3 [0.8.1.0] {1.2,3} Stone Flakes {2,6,7} {2,6,71 Airfoil Self-Noise {1,2.3.4}11.2.3,41 [0.0.1.0] 11,2,3 [1.0.1.0] {2,3} 表7 GDPRA和GDECPRA的约简结果([&,B]=[0,O]) 表10 数据集2:blood transfusion service center Table 7 Reduction results for GDPRA and GDECPRA Table 10 Data set 2:blood transfusion service center ([a,B]=[0,0]) [a,β] 约简 [a,β] 约简 数据集 GDPRA GDECPRA [0.0.0.0] {1,4 0.0.1.0]{1,2,4},11,3,4 Haberman's Survival {2,3 12,3 [0.0,02]{1,2.4},{1.3,4} [0.2.1.0]{1.2.4},{1.3.4} BTSC 11,4 {1,4} [0.0.0.4]}1,2.4},{1.3,4} [0.4.1.0] 11.2.4},13.4 Stone Flakes {2,3,4,5,6,7}{2,3,4,5,6,7 「0.0.0.61{1,2.4,{1.3.480.6.1.0111,2.4},{1.3.4} Airfoil Self-Noise {1.2,3.4.5} {1.2,3.4.5} 表8 GDPRA和DPRA的约简结果([,B]=[0,1]) 「0.0.0.811,2.4,{1.3,4}[0.8,1.01 112.4},13.4 Table 8 Reduction results for GDPRA and DPRA [0.0.1.0]{1,2.4}.{1.3,4} [1.0.1.0] 11,4} ([w,B]=[0,1]) 表11 数据集3:stone flakes 数据集 GDPRA DPRA Table 11 Data set 3:stone flakes Haberman's Survival {1,2,3} {1,2.3} [a,β] 约简 [a,B] 约简 BTSC {1.2.4},1.3.4}{1.2.4},{1,3.4 [0.0.0.0] {2,3.4.5.6.7} [0.0.1.0] {2.3,4.56.7} Stone Flakes {2,3,4,5,6,7} {2,3,4,5,6,7 [0.0,0.2] {2,3,4,5,6,7 「0.2.1.01 12,3,4,5,6,7 Airfoil Self-Noise {1.2.3,4.5} {1.2.3,4.5 「0.0.0.41{2,3,4.5.6.7 [0.4,1.0] {2.3,4,5,6.71 当[a,B]分别为[1.0,1.0]、[0.0,0.0]以及 [0.0,0.6]{2,3,4,5.6,7 [0.6.1.0] {2,3.4,5.6.7} [O.O,1.0]时,GDPRA的约简结果分别同PRPRA AGDPR以及DPRA的约简结果一致,验证了相关结 [0.0,0.8]{2,3,4,5.6.7} [0.8,1.0] {2,4,5,6,7} 论的正确性。 [0.0,1.0]{2,3,4,5,6,7 1.0.1.0] {2.6.7
5.1 广义分布保持属性约简的退化情形 本节中,分别令[α,β]取值为[1.0,1.0]、[0.0, 0.0]和[0.0,1.0],并求 4 个 UCI 数据集的广义分布 保持约简,然后,分别求它们在正域保持约简算法 ( positive region preservation reduction algorithm, PRPRA), 广 义 决 策 保 持 约 简 算 法 ( algorithm of generalized decision preservation reduction, AGDPR) 以及 分 布 保 持 约 简 算 法 ( distribution preservation reduction algorithm,DPRA) 下的约简,通过前后对 比,验证广义分布保持约简在 3 个特殊置信度区间 下的退化情况,实验结果如表 6~8 所示。 表 6 GDPRA 和 PRPRA 的约简结果([α,β] =[1,1]) Table 6 Reduction results for GDPRA and PRPRA ([α,β] =[1,1]) 数据集 GDPRA PRPRA Haberman’s Survival {2,3} {2,3} BTSC {1,4} {1,4} Stone Flakes {2,6,7} {2,6,7} Airfoil Self-Noise {1,2,3,4} {1,2,3,4} 表 7 GDPRA 和 GDECPRA 的约简结果([α,β] =[0,0]) Table 7 Reduction results for GDPRA and GDECPRA ([α,β] =[0,0]) 数据集 GDPRA GDECPRA Haberman’s Survival {2,3} {2,3} BTSC {1,4} {1,4} Stone Flakes {2,3,4,5,6,7} {2,3,4,5,6,7} Airfoil Self-Noise {1,2,3,4,5} {1,2,3,4,5} 表 8 GDPRA 和 DPRA 的约简结果([α,β] =[0,1]) Table 8 Reduction results for GDPRA and DPRA ([α,β] =[0,1]) 数据集 GDPRA DPRA Haberman’s Survival {1,2,3} {1,2,3} BTSC {1,2,4},{1,3,4} {1,2,4},{1,3,4} Stone Flakes {2,3,4,5,6,7} {2,3,4,5,6,7} Airfoil Self-Noise {1,2,3,4,5} {1,2,3,4,5} 当[ α,β] 分别为[ 1. 0,1. 0]、 [ 0. 0,0. 0] 以及 [0.0,1.0] 时,GDPRA 的约简结果分别同 PRPRA、 AGDPR 以及 DPRA 的约简结果一致,验证了相关结 论的正确性。 5.2 不同置信度区间下约简的包含关系 本部分实验设置如下:首先,固定 α 的值为0.0, 令 β 取值范围为 0.0~1.0,取值间隔为 0.2,记录随 β 取值的变化在不同置信度区间下求得的广义分布 保持约简。 同样的,固定 β 的值为 1.0,令 α 取值范 围为 0.0~1.0,取值间隔为 0.2,记录随 α 取值的变 化在不同置信度区间下求得的广义分布保持约简, 实验结果如表 9~12 所示。 表 9 数据集 1:Haberman’s survival Table 9 Data set 1:Haberman’s survival [α,β] 约简 [α,β] 约简 [0.0,0.0] {2,3} [0.0,1.0] {1,2,3} [0.0,0.2] {1,2,3} [0.2,1.0] {1,2,3} [0.0,0.4] {1,2,3} [0.4, 1.0] {1,2,3} [0.0,0.6] {1,2,3} [0.6, 1.0] {1,2,3} [0.0,0.8] {1,2,3} [0.8, 1.0] {1,2,3} [0.0,1.0] {1,2,3} [1.0, 1.0] {2,3} 表 10 数据集 2:blood transfusion service center Table 10 Data set 2:blood transfusion service center [α,β] 约简 [α,β] 约简 [0.0,0.0] {1,4} [0.0,1.0] {1,2,4},{1,3,4} [0.0,0.2] {1,2,4},{1,3,4} [0.2,1.0] {1,2,4},{1,3,4} [0.0,0.4] {1,2,4},{1,3,4} [0.4,1.0] {1,2,4},{1,3,4} [0.0,0.6] {1,2,4},{1,3,4} [0.6,1.0] {1,2,4},{1,3,4} [0.0,0.8] {1,2,4},{1,3,4} [0.8,1.0] {1,2,4},{1,3,4} [0.0,1.0] {1,2,4},{1,3,4} [1.0,1.0] {1,4} 表 11 数据集 3:stone flakes Table 11 Data set 3:stone flakes [α,β] 约简 [α,β] 约简 [0.0,0.0] {2,3,4,5,6,7} [0.0,1.0] {2,3,4,5,6,7} [0.0,0.2] {2,3,4,5,6,7} [0.2,1.0] {2,3,4,5,6,7} [0.0,0.4] {2,3,4,5,6,7} [0.4,1.0] {2,3,4,5,6,7} [0.0,0.6] {2,3,4,5,6,7} [0.6,1.0] {2,3,4,5,6,7} [0.0,0.8] {2,3,4,5,6,7} [0.8,1.0] {2,4,5,6,7} [0.0,1.0] {2,3,4,5,6,7} [1.0,1.0] {2,6,7} 第 3 期 高学义,等:广义分布保持属性约简研究 ·383·
·384. 智能系统学报 第12卷 表12数据集4:airfoil self-.noise computers,2009,32(7):1229-1246 Table 12 Data set 4:airfoil self-noise [5]SKOWRON A,RAUSZER C.The discernibility matrices [a,B] 约简 [a,B] 约简 and functions in information systems[.Theory and decision [0.0.0.0] {1,2.3.4.5} [0.0.1.0] {1,2,3,4.5} 1 library,1992,11:331-362. [6]KRYSZKIEWICZ M.Rough set approach to incomplete [0.0,0.2] 11,2,3,4,5 [0.2.1.0] 11,2,3,4,5 information systems[J].Information sciences,1998,112 [0.0.0.4] {1.2.3.4,5} [0.4.1.0] 11.2.3.4.5} (1/2/3/4):39-49. [0.0,0.6] {1,2,3,4,5 [0.6,1.01 11,2,3,4 [7]张文修,米据生,吴伟志.不协调目标信息系统的知识 [0.0,0.8] {1,2,3,4,5} 「0.8.1.01 {1,2,3,41 约简[J].计算机学报,2003,26(1):12-18. [0.0,1.0] {1,2,3,4,5 [1.0,1.0] 11,2,3,4} ZHANG Wenxiu,MI Jusheng,WU Weizhi.Knowledge reductions in inconsistent information systems[J].Chinese 6 结束语 journal of computers,2003,26(1):12-18. 实际中,具有较高或较低置信度的规则往往更 [8]徐伟华,张文修.基于优势关系下不协调目标信息系统 易受到人们的关注,若通过分布约简进行规则提 的分布约简[J].模糊系统与数学,2007,21(4): 124-131. 取,提取的规则可能过于冗长,不便于实际决策。 XU Weihua,ZHANG Wenxiu.Distribution reduction in 因此,本文对分布约简的约简标准进行弱化,提出 inconsistent information systems based on dominance 了广义分布保持约简的概念。理论与实验分析表 relations[J].Fuzzy systems and mathematics,2007,21 明,当置信度区间取某些特殊值时,广义分布保持 (4):124-131. 属性约简可退化为现有的一些属性约简,表明了广 [9]MIAO Duoqian,ZHAO Yan,YAO Yiyu,et al.Relative 义分布保持属性约简具有一定的泛化性能,同时为 reducts in consistent and inconsistent decision tables of the 深入研究不同属性约简之间的相互关系开阔了研 Pawlak rough set model[J].Information sciences,2009, 究思路。实验数据表明,广义分布保持属性约简较 179(24):4140-4150. 分布约简可以获取更加简短的规则,且根据实际需 [10]张楠,苗夺谦,岳晓冬.区间值信息系统的知识约简 要可以调整置信度区间以获取所需规则,使得广义 [J].计算机研究与发展,2010,47(8):1362-1371. 分布保持属性约简可以适应不同的实际需求。但 ZHANG Nan,MIAO Duoqian,YUE Xiaodong. 考虑到本文提出的算法主要是通过差别矩阵获取 Approaches to knowledge reduction in interval-valued information systems[J].Journal of computer research and 所有的广义分布保持属性约简,其时间和空间复杂 development,2010,47(8):1362-1371. 度较高,不便于在实际应用中推广,具有一定的局 [11]苗夺谦,胡桂荣.知识约简的一种启发式算法[J].计 限性,故开发更为高效的广义分布保持属性约简算 算机研究与发展,1999,36(6):681-684 法是未来主要的研究工作之一。 MIAO Duoqian,HU Guirong.A heuristic algorithm for 参考文献: reduction of knowledge[J].Journal of computer research and development,1999,36(6):681-684. [1]PAWLAK Z.Rough sets[J].International journal of com- [12]王国胤,于洪,杨大春.基于条件信息嫡的决策表约简 puter and information sciences,1982,11(5):341-356. [J].计算机学报,2002,25(7):759-766, [2]PAWLAK Z.Rough sets:theoretical aspects of reasoning about WANG Guoyin,YU Hong,YANG Dachun.Decision table data[M].Boston:Kluwer Academic Publishers,1992. reduction based on conditional information entropy[J]. [3]张文修.粗糙集理论与方法[M].北京:科学出版 Chinese journal of computers,2002,25(7):759-766. 社,2001. [13]QIAN Yuhua,LIANG Jiye,PEDRYCZ W,et al.Positive [4]王国胤,姚一豫,于洪.粗糙集理论与应用研究综述 approximation:an accelerator for attribute reduction in [J].计算机学报,2009,32(7):1229-1246. rough set theory J].Artificial intelligence,2010,174 WANG Guoyin,YAO Yiyu,YU Hong.A survey on rough (9):597-618 set theory and applications J].Chinese journal of [14]QIAN Yuhua,LIANG Jiye,PEDRYCZ W,et al.An
表 12 数据集 4:airfoil self⁃noise Table 12 Data set 4: airfoil self⁃noise [α,β] 约简 [α,β] 约简 [0.0,0.0] {1,2,3,4,5} [0.0,1.0] {1,2,3,4,5} [0.0,0.2] {1,2,3,4,5} [0.2,1.0] {1,2,3,4,5} [0.0,0.4] {1,2,3,4,5} [0.4,1.0] {1,2,3,4,5} [0.0,0.6] {1,2,3,4,5} [0.6,1.0] {1,2,3,4} [0.0,0.8] {1,2,3,4,5} [0.8,1.0] {1,2,3,4} [0.0,1.0] {1,2,3,4,5} [1.0,1.0] {1,2,3,4} 6 结束语 实际中,具有较高或较低置信度的规则往往更 易受到人们的关注,若通过分布约简进行规则提 取,提取的规则可能过于冗长,不便于实际决策。 因此,本文对分布约简的约简标准进行弱化,提出 了广义分布保持约简的概念。 理论与实验分析表 明,当置信度区间取某些特殊值时,广义分布保持 属性约简可退化为现有的一些属性约简,表明了广 义分布保持属性约简具有一定的泛化性能,同时为 深入研究不同属性约简之间的相互关系开阔了研 究思路。 实验数据表明,广义分布保持属性约简较 分布约简可以获取更加简短的规则,且根据实际需 要可以调整置信度区间以获取所需规则,使得广义 分布保持属性约简可以适应不同的实际需求。 但 考虑到本文提出的算法主要是通过差别矩阵获取 所有的广义分布保持属性约简,其时间和空间复杂 度较高,不便于在实际应用中推广,具有一定的局 限性,故开发更为高效的广义分布保持属性约简算 法是未来主要的研究工作之一。 参考文献: [1]PAWLAK Z. Rough sets[ J]. International journal of com⁃ puter and information sciences, 1982, 11(5): 341-356. [2]PAWLAK Z. Rough sets: theoretical aspects of reasoning about data[M]. Boston:Kluwer Academic Publishers, 1992. [3] 张 文 修. 粗 糙 集 理 论 与 方 法 [ M]. 北 京: 科 学 出 版 社, 2001. [4]王国胤, 姚一豫, 于洪. 粗糙集理论与应用研究综述 [J]. 计算机学报, 2009, 32(7): 1229-1246. WANG Guoyin, YAO Yiyu, YU Hong. A survey on rough set theory and applications [ J ]. Chinese journal of computers, 2009, 32(7): 1229-1246. [5] SKOWRON A, RAUSZER C. The discernibility matrices and functions in information systems[J]. Theory and decision library, 1992, 11: 331-362. [6 ] KRYSZKIEWICZ M. Rough set approach to incomplete information systems [ J]. Information sciences, 1998, 112 (1 / 2 / 3 / 4): 39-49. [7]张文修, 米据生, 吴伟志. 不协调目标信息系统的知识 约简[J]. 计算机学报, 2003, 26(1): 12-18. ZHANG Wenxiu, MI Jusheng, WU Weizhi. Knowledge reductions in inconsistent information systems[ J]. Chinese journal of computers, 2003, 26(1): 12-18. [8]徐伟华, 张文修. 基于优势关系下不协调目标信息系统 的分 布 约 简 [ J]. 模 糊 系 统 与 数 学, 2007, 21 ( 4 ): 124-131. XU Weihua, ZHANG Wenxiu. Distribution reduction in inconsistent information systems based on dominance relations[ J]. Fuzzy systems and mathematics, 2007, 21 (4):124-131. [9] MIAO Duoqian, ZHAO Yan, YAO Yiyu, et al. Relative reducts in consistent and inconsistent decision tables of the Pawlak rough set model [ J]. Information sciences, 2009, 179(24): 4140-4150. [10]张楠, 苗夺谦, 岳晓冬. 区间值信息系统的知识约简 [J]. 计算机研究与发展, 2010, 47(8): 1362-1371. ZHANG Nan, MIAO Duoqian, YUE Xiaodong. Approaches to knowledge reduction in interval⁃valued information systems[J]. Journal of computer research and development, 2010, 47(8): 1362-1371. [11]苗夺谦, 胡桂荣. 知识约简的一种启发式算法[ J]. 计 算机研究与发展, 1999, 36(6): 681-684. MIAO Duoqian, HU Guirong. A heuristic algorithm for reduction of knowledge [ J]. Journal of computer research and development, 1999, 36(6): 681-684. [12]王国胤, 于洪, 杨大春. 基于条件信息熵的决策表约简 [J]. 计算机学报, 2002, 25(7): 759-766. WANG Guoyin, YU Hong, YANG Dachun. Decision table reduction based on conditional information entropy [ J ]. Chinese journal of computers, 2002, 25(7): 759-766. [13]QIAN Yuhua, LIANG Jiye, PEDRYCZ W, et al. Positive approximation: an accelerator for attribute reduction in rough set theory [ J ]. Artificial intelligence, 2010, 174 (9): 597-618. [14] QIAN Yuhua, LIANG Jiye, PEDRYCZ W, et al. An ·384· 智 能 系 统 学 报 第 12 卷
第3期 高学义,等:广义分布保持属性约简研究 ·385· efficient accelerator for attribute reduction from incom-plete [20]ZHANG Xiao,MEI Changlin,CHEN Degang,et al. data in rough set framework[J].Pattern recognition, Multi-confidence rule acquisition and confidence-preserved 2011,44(8):1658-1670. attribute reduction in interval-valued decision systems[J]. [15]钱宇华,梁吉业,王锋.面向非完备决策表的正向近似 International journal of approximate reasoning,2014,55 特征选择加速算法[J].计算机学报,2011,34(3): (8):1787-1804. 435-442 作者简介: QIAN Yuhua,LIANG Jiye,WANG Feng.A positive 高学义,男,1992年生,硕士研究 approximation based accelerated algorithm to feature selection from incomplete decision tables [J].Chinese 生,主要研究方向为粗糙集、数据挖掘 journal of computers,2011,34(3):435-442. 与机器学习。 [16]CHEN Hongmei,LI Tianrui,RUAN Da,et al.A rough- set based incremental approach for updating approximations under dynamic maintenance environments[J].IEEE transactions on knowledge and data engineering,2013,25 张楠,男,1979年生,博士,主要研 (2):274-284. 究方向为粗糙集、认知信息学与人工 [17]CHEN Hongmei,LI Tianrui,LUO Chuan,et al.A rough set- 智能。 based method for updating decision rules on attribute values' coarsening and refining[J].IEEE transactions on knowledge and data engineering,2014,26(12):2866-2899. [18]JIA Xiuyi,SHANG Lin,ZHOU Bing,et al.Generalized attribute reduct in rough set theory[J].Knowledge-based 童向荣,男,1975年生,教授,博土, systems,2015,91:204-218. 主要研究方向为多Agent系统、分布式 [19]ZHOU Jie,MIAO Duoqian,PEDRYCZ W,et al.Analysis 人工智能与数据挖掘技术。 of alternative objective functions for attribute reduction in complete decision tables [J].Soft computing,2011,15 (8):1601-1616
efficient accelerator for attribute reduction from incom⁃plete data in rough set framework [ J ]. Pattern recognition, 2011, 44(8): 1658-1670. [15]钱宇华, 梁吉业, 王锋. 面向非完备决策表的正向近似 特征选择加速算法[ J]. 计算机学报, 2011, 34 ( 3): 435-442. QIAN Yuhua, LIANG Jiye, WANG Feng. A positive approximation based accelerated algorithm to feature selection from incomplete decision tables [ J ]. Chinese journal of computers, 2011, 34(3): 435-442. [16]CHEN Hongmei, LI Tianrui, RUAN Da, et al. A rough⁃ set based incremental approach for updating approximations under dynamic maintenance environments[J]. IEEE transactions on knowledge and data engineering, 2013, 25 (2): 274-284. [17]CHEN Hongmei, LI Tianrui, LUO Chuan, et al. A rough set⁃ based method for updating decision rules on attribute values’ coarsening and refining[J]. IEEE transactions on knowledge and data engineering, 2014, 26(12): 2866-2899. [18] JIA Xiuyi, SHANG Lin, ZHOU Bing, et al. Generalized attribute reduct in rough set theory[ J]. Knowledge-based systems, 2015, 91: 204-218. [19]ZHOU Jie, MIAO Duoqian, PEDRYCZ W, et al. Analysis of alternative objective functions for attribute reduction in complete decision tables [ J]. Soft computing, 2011, 15 (8): 1601-1616. [ 20 ] ZHANG Xiao, MEI Changlin, CHEN Degang, et al. Multi⁃confidence rule acquisition and confidence⁃preserved attribute reduction in interval⁃valued decision systems[ J]. International journal of approximate reasoning, 2014, 55 (8): 1787-1804. 作者简介: 高学义,男,1992 年生,硕士研究 生,主要研究方向为粗糙集、数据挖掘 与机器学习。 张楠,男,1979 年生,博士,主要研 究方向为粗糙集、认知信息学与人工 智能。 童向荣,男,1975 年生,教授,博士, 主要研究方向为多 Agent 系统、分布式 人工智能与数据挖掘技术。 第 3 期 高学义,等:广义分布保持属性约简研究 ·385·