【智能系统】集值信息系统的快速正域约简

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：3.86MB

第14卷第3期智能系统学报 Vol.14 No.3 2019年5月 CAAI Transactions on Intelligent Systems May 2019 D0:10.11992/tis.201804059 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180608.1405.006html 集值信息系统的快速正域约简陈曼如，张楠，童向荣'，岳晓冬2 (1.烟台大学数据科学与智能技术山东省高校重点实验室，山东烟台264005,2.上海大学计算机工程与科学学院.上海200444) 摘要：针对集值信息系统正域约简算法在大规模数据集下的运行效率问题，提出一种基于启发式的集值信息系统快速正域约简算法。通过研究属性和对象在约简过程中对算法运行效率产生的影响，在集值信息系统中引入属性无关性和属性重要度保序性的相关定义，介绍了使得算法运行效率提升的相关定理、快速算法和应用实例。通过实验对提出算法的有效性进行分析和验证。实验表明，提出算法的运行效率优于原始算法的运行效率。关键词：属性约简：粗糙集；集值信息系统：特征选择；启发式算法；正域约简：快速约简算法；粗糙近似中图分类号：TP18文献标志码：A文章编号：1673-4785(2019)03-0471-08 中文引用格式：陈曼如，张楠，童向荣，等.集值信息系统的快速正域约简J智能系统学报，2019,14(3)：471-478. 英文引用格式：CHEN Manru,,ZHANG Nan,,TONG Xiangrong,.etal.Quick positive region reduction in set-valued information systemsJ.CAAI transactions on intelligent systems,2019,14(3):471-478. Quick positive region reduction in set-valued information systems CHEN Manru',ZHANG Nan',TONG Xiangrong',YUE Xiaodong? (1.Key Lab for Data Science and Intelligence Technology of Shandong Higher Education Institutes,Yantai University,Yantai 264005,China;2.School of Computer Engineering and Science,Shanghai University,Shanghai 200444,China) Abstract:This study aims to propose a quick positive reduction algorithm based on the heuristic method to increase the efficiency of the set-valued positive reduction algorithm under large-scale data.The definitions of attribute independ- ence and attribute importance isotonicity are introduced in the set-valued information system by investigating the influ- ence of an attribute and object on the efficiency of algorithm during the reduction process,and the relevant theorem,fast algorithm,and practical example for improving the efficiency of the algorithm are introduced.Finally,the experimental results show the efficiency and effectiveness of the proposed method and its better efficiency in comparison to that of the original algorithm. Keywords:attribute reduction;rough set;set-valued information systems:feature selection:heuristic algorithm;posit- ive region reduction;quick algorithm reduction;rough approximations 粗糙集理论-(rough set theory)是分析、处理目前，粗糙集理论已经广泛应用于数据挖掘、机不精确和不确定数据的有效工具。由于粗糙集理器学习与模式识别等研究领域。论中的等价关系在实际应用中局限性较大，各种集值信息系统是重要的单值系统的扩展模基于二元关系的扩展粗糙集模型3得以发展。型，其中集值是用来描述不精确和缺失的信息，收稿日期：2018-04-27.网络出版日期：2018-06-11. 集值信息系统在现实生活中的应用广泛。近年基金项目：国家自然科学基金项目(61403329,61572418,61702439. 61572419,61502410):山东省自然科学基金项目来，许多学者对集值系统做了深人、大量的研究 (ZR2018BA004,ZR2016FM42):烟台大学研究生科技创新基金项目(YDZD1807). 工作。Guan等提出最大相容类的定义解决了同通信作者：张楠.E-mail:changnan0851@l63.com. 一相容类中对象不一定两两相似的问题，并且提

DOI: 10.11992/tis.201804059 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180608.1405.006.html 集值信息系统的快速正域约简陈曼如1 ，张楠1 ，童向荣1 ，岳晓冬2 （1. 烟台大学数据科学与智能技术山东省高校重点实验室，山东烟台 264005; 2. 上海大学计算机工程与科学学院，上海 200444）摘要：针对集值信息系统正域约简算法在大规模数据集下的运行效率问题，提出一种基于启发式的集值信息系统快速正域约简算法。通过研究属性和对象在约简过程中对算法运行效率产生的影响，在集值信息系统中引入属性无关性和属性重要度保序性的相关定义，介绍了使得算法运行效率提升的相关定理、快速算法和应用实例。通过实验对提出算法的有效性进行分析和验证。实验表明，提出算法的运行效率优于原始算法的运行效率。关键词：属性约简；粗糙集；集值信息系统；特征选择；启发式算法；正域约简；快速约简算法；粗糙近似中图分类号：TP18 文献标志码：A 文章编号：1673−4785(2019)03−0471−08 中文引用格式：陈曼如, 张楠, 童向荣, 等. 集值信息系统的快速正域约简[J]. 智能系统学报, 2019, 14(3): 471–478. 英文引用格式：CHEN Manru, ZHANG Nan, TONG Xiangrong, et al. Quick positive region reduction in set-valued information systems[J]. CAAI transactions on intelligent systems, 2019, 14(3): 471–478. Quick positive region reduction in set-valued information systems CHEN Manru1 ，ZHANG Nan1 ，TONG Xiangrong1 ，YUE Xiaodong2 (1. Key Lab for Data Science and Intelligence Technology of Shandong Higher Education Institutes, Yantai University, Yantai 264005, China; 2. School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China) Abstract: This study aims to propose a quick positive reduction algorithm based on the heuristic method to increase the efficiency of the set-valued positive reduction algorithm under large-scale data. The definitions of attribute independence and attribute importance isotonicity are introduced in the set-valued information system by investigating the influence of an attribute and object on the efficiency of algorithm during the reduction process, and the relevant theorem, fast algorithm, and practical example for improving the efficiency of the algorithm are introduced. Finally, the experimental results show the efficiency and effectiveness of the proposed method and its better efficiency in comparison to that of the original algorithm. Keywords: attribute reduction; rough set; set-valued information systems; feature selection; heuristic algorithm; positive region reduction; quick algorithm reduction; rough approximations 粗糙集理论[1-2] (rough set theory) 是分析、处理不精确和不确定数据的有效工具。由于粗糙集理论中的等价关系在实际应用中局限性较大，各种基于二元关系的扩展粗糙集模型[3-8]得以发展。目前，粗糙集理论已经广泛应用于数据挖掘、机器学习与模式识别等研究领域。集值信息系统是重要的单值系统的扩展模型，其中集值是用来描述不精确和缺失的信息，集值信息系统在现实生活中的应用广泛。近年来，许多学者对集值系统做了深入、大量的研究工作。Guan 等 [9]提出最大相容类的定义解决了同一相容类中对象不一定两两相似的问题，并且提收稿日期：2018−04−27. 网络出版日期：2018−06−11. 基金项目：国家自然科学基金项目 (61403329，61572418，61702439， 61572419， 61502410)；山东省自然科学基金项目 (ZR2018BA004，ZR2016FM42)；烟台大学研究生科技创新基金项目 (YDZD1807). 通信作者：张楠. E-mail：zhangnan0851@163.com. 第 14 卷第 3 期智能系统学报 Vol.14 No.3 2019 年 5 月 CAAI Transactions on Intelligent Systems May 2019

·472· 智能系统学报第14卷出A-相对约简和E-相对约简。Qian等1o提出基表1集值决策系统于优势关系的合取型集值序信息系统和吸取型集 Table 1 Set-valued decision systems 值序信息系统并构建了两种粗糙集模型。杨习贝 a a as as d 等在集值系统中提出模糊优势关系，考虑到了 {2} {1,2} {1} {1} {1} 对象之间的优势程度。Huang等提出概率集值 1) {1,2 {1.2} {2) {2} 信息系统和基于巴氏距离的λ-相容关系，更合理 {1} {1,2} {1} {1} {2} 2 地描述了在概率集值信息系统对象间的关系。 X4 {2} {1,2} {1,2} {2} {1} 1 Wei等基于模糊相似类和模糊相似度提出两种 Xs {1.2} 2 {1} {1} 2} 1 不同的模糊粗糙集模型。Zhang等将量化粗糙 X6 {1,2 {1} {2} {1} {2} 2 集和优势粗糙集结合，提出了一种基于大规模集 {1} {1,2} {2} {1} {1,2} 2 值信息系统的特征选择和近似推理的通用框架。 X8 {1} {1} {1,2} {2} {2}1 Skowron等l认为差别矩阵方法虽然可以求得数据集的所有约简，但是其效率相对于启发式定义2集值信息系统SIS=(U,AT,V,fD,HAS 算法较低，故应用性较差。由于现实生活中数据 AT,则A在U上的相容关系定义为信息量的不断增大，集值系统中属性约简算法的 TA={x,y)eU×UNa∈A,a(x)nay≠o}. 等价关系在集值信息系统不再成立，T4满足效率需要做进一步研究。罗川等6在集值序决策自反性和对称性，不一定满足传递性。设T(,)为系统中通过计算粗糙近似提出了基于增加和删除相容类，定义Ta(x)=y∈UI(x,y)∈Ta,表示与对象策略的增量式算法；Zhang等1m在集值系统中提 x关于相容关系TA的最大不可分辨对象集合。出了构造关系矩阵的基本方法并且通过研究属性 U/Ta=(TA(xx∈U形成对论域的一个覆盖，其中集变化时关系矩阵变化的性质，得到了关系矩阵任意两个集合都可能相交。更新的增量式方法；刘莹莹等在集值信息系统定义3集值信息系统SIS=(U,AT,V,f),XcU, 中通过定义一种新的相似度，提出基于相似度的 ASAT,则在相容关系A下集合X的下、上近似分启发式算法；马建敏等在集值信息系统中引入别为A(X)={x∈UITA(x)CX)和A(X)={x∈UTA(x)n 信息量等概念，提出一种新的启发式约简算法。 X≠o}。 X的下近似是在相容关系A下确定属于X的 1基础知识全体对象集合，而X的上近似是在相容关系A下 1.1集值信息系统相关基础知识可能属于X的全体对象集合。定义1集值信息系统是一个四元组SIS= 根据定义3可得：POSA(X)=A(X),BNA(X)=A(X)- (U,AT,Vf),其中：U是非空有限对象的集合，称为 A()。POS(X)称为在相容关系A下集合X的正论域；AT是非空有限属性的集合；V。是条件属性域，它表示在相容关系A下可以确定划分到集合 X里的对象集合；BNa(X)为在相容关系A下集合值集合，有V=UaeAT Va;对于Va∈AT满足f(x,a)∈Va X的边界域，它表示在相容关系A下不能完全确的集值映射为f:U×AT→2"。定划分是否属于集合X的对象集合。若属性集合由条件属性集合C和决策属性集定义4集值决策系统SIS=(U,AT,Vf),A二AT, 合D组成，DnC=O,f:U×C→2为集值映射， UND(D)={D1,D2,…,Dh,则决策属性D在相容关 f:U×D→V。为单值映射，则该信息系统称为集系A的下、上近似分别为A(D)=(x∈UID,∈U/ND(D), 值决策系统SDS=(U,CUD,V,f)。 Ta()SD}和A(D)={x∈UID,∈U/ND(D),TA(x)n 为方便起见Vo={1,2,,rl,UND(D)={D, D≠O。其中j∈(1,2，…，IU/ND(D。A(D)也称 D2,,D,其中IND(D)={(x,xx,x)∈U2,fx,D)= 为决策属性集合D在相容关系A下的正域， fx,D。UND(D)表示D在U上的划分。 A(D)=POSA(D)。例1表1为集值决策系统SDS=(U,CUD,V,f), 1.2集值信息系统的正域约简算法其中：U={x1,,x4,x,x6,x}为论域，C= 定义5集值决策系统SDS=(U,CUD,V,f), {a1,a2,a,a4,as}为条件属性集合，D={d为决策属 ASC,则决策属性集合D在相容关系A下的近似性集合。分类质量定义为

λ 出 A-相对约简和 E-相对约简。Qian 等 [10]提出基于优势关系的合取型集值序信息系统和吸取型集值序信息系统并构建了两种粗糙集模型。杨习贝等 [11]在集值系统中提出模糊优势关系，考虑到了对象之间的优势程度。Huang 等 [12]提出概率集值信息系统和基于巴氏距离的 -相容关系，更合理地描述了在概率集值信息系统对象间的关系。 Wei 等 [13]基于模糊相似类和模糊相似度提出两种不同的模糊粗糙集模型。Zhang 等 [14]将量化粗糙集和优势粗糙集结合，提出了一种基于大规模集值信息系统的特征选择和近似推理的通用框架。 Skowron 等 [15]认为差别矩阵方法虽然可以求得数据集的所有约简，但是其效率相对于启发式算法较低，故应用性较差。由于现实生活中数据信息量的不断增大，集值系统中属性约简算法的效率需要做进一步研究。罗川等[16]在集值序决策系统中通过计算粗糙近似提出了基于增加和删除策略的增量式算法；Zhang 等 [17]在集值系统中提出了构造关系矩阵的基本方法并且通过研究属性集变化时关系矩阵变化的性质，得到了关系矩阵更新的增量式方法；刘莹莹等[18]在集值信息系统中通过定义一种新的相似度，提出基于相似度的启发式算法；马建敏等[19]在集值信息系统中引入信息量等概念，提出一种新的启发式约简算法。 1 基础知识 1.1 集值信息系统相关基础知识 (U,AT,V, f) U Va V = ∪a∈ATVa ∀a ∈ AT f(x,a) ∈ Va f : U ×AT → 2 V 定义 1 集值信息系统是一个四元组 SIS = ，其中：是非空有限对象的集合，称为论域；AT 是非空有限属性的集合；是条件属性值集合，有；对于满足的集值映射为。 C D∩C = Ø f : U ×C → 2 VC f : U × D → VD SDS = (U,C ∪ D,V, f) 若属性集合由条件属性集合和决策属性集合 D 组成，，为集值映射，为单值映射，则该信息系统称为集值决策系统。 VD = {1,2,···,r} U/IND(D) = {D1, D2,···,Dr} IND(D) = {(xi , xj)|(xi , xj) ∈ U 2 , f(xi ,D) = f(xj ,D)} U/IND(D) 为方便起见，，其中。表示 D 在 U 上的划分。 SDS = (U,C ∪ D,V, f) U ={x1, x2, x3, x4, x5, x6, x7, x8} {a1,a2,a3,a4,a5} D = {d} 例 1 表 1 为集值决策系统，其中：为论域， C = 为条件属性集合，为决策属性集合。表 1 集值决策系统 Table 1 Set-valued decision systems U a1 a2 a3 a4 a5 d x1 {2} {1, 2} {1} {1} {1} 1 x2 {1} {1, 2} {1, 2} {2} {2} 1 x3 {1} {1, 2} {1} {1} {2} 2 x4 {2} {1, 2} {1, 2} {2} {1} 1 x5 {1, 2} {2} {1} {1} {2} 1 x6 {1, 2} {1} {2} {1} {2} 2 x7 {1} {1, 2} {2} {1} {1, 2} 2 x8 {1} {1} {1, 2} {2} {2} 1 定义 2 集值信息系统 SIS = (U,AT,V, f)，∀A ⊆ AT，则 A 在 U 上的相容关系定义为 TA = {(x, y) ∈ U ×U|∀a ∈ A,a(x)∩a(y) , ∅}。 TA TA(x) TA(x) = {y ∈ U|(x, y) ∈ TA} x TA U/TA = {TA(x)|x ∈ U} 等价关系在集值信息系统不再成立，满足自反性和对称性，不一定满足传递性。设为相容类，定义，表示与对象关于相容关系的最大不可分辨对象集合。形成对论域的一个覆盖，其中任意两个集合都可能相交。 SIS = (U,AT,V, f) X ⊆ U A ⊆ ATA(X) = {x ∈ U|TA(x) ⊆ X} A(X) = {x ∈ U|TA(x)∩ X , ∅} 定义 3 集值信息系统，，，则在相容关系 A 下集合 X 的下、上近似分别为和。 X 的下近似是在相容关系 A 下确定属于 X 的全体对象集合，而 X 的上近似是在相容关系 A 下可能属于 X 的全体对象集合。 POSA(X) = A(X),BNA(X) = A(X)− A(X) POSA(X) BNA(X) 根据定义3可得：。称为在相容关系 A 下集合 X 的正域，它表示在相容关系 A 下可以确定划分到集合 X 里的对象集合；为在相容关系 A 下集合 X 的边界域，它表示在相容关系 A 下不能完全确定划分是否属于集合 X 的对象集合。 SIS = (U,AT,V, f) A ⊆ AT U/IND(D) = {D1,D2,··· ,Dr} A(D) = {x ∈ U|Dj ∈ U/IND(D), TA(x) ⊆ Dj} A(D) = {x ∈ U|Dj ∈ U/IND(D),TA(x)∩ Dj , ∅} j ∈ {1,2,··· ,|U/IND(D)|} A(D) A(D) = POSA(D) 定义 4 集值决策系统，，，则决策属性 D 在相容关系A的下、上近似分别为和。其中。也称为决策属性集合 D 在相容关系 A 下的正域，。 1.2 集值信息系统的正域约简算法 SDS = (U,C ∪ D,V, f) A ⊆ C 定义 5 集值决策系统，，则决策属性集合 D 在相容关系 A 下的近似分类质量定义为 ·472· 智能系统学报第 14 卷

第3期陈曼如，等：集值信息系统的快速正域约简 ·473· Ya(D)= POSA(D) (1) 5)返回R。 IU升由算法1可得，在3)迭代的过程中，每次选近似分类质量刻画了在相容关系A下可以正取一个属性重要度最大的属性加入到R中，在这确划分到决策属性集合D的对象集合数与论域个过程中需要不断地计算整个论域上的正域，从个数的比重。而使得算法计算量非常大，效率不够理想，很难定义6集值决策系统SDS=(U,CUD,Vf), 应用在大规模数据集下。 A≤C,则集合A是集值决策系统的一个正区域保例2表1为集值决策系统SDS=(U,CUD,V,fD, 持属性约简当且仅当以下两个条件成立：其中，U={1,x2,x3,x4x,6,7,xs}为论域，C={a1,2, 1)Ya(D)=Yc(D); a3,a4,as}为条件属性集合，D={d为决策属性集合。 2)VBCA,YB(D)0,则a属于集值决策系统SDS的核属性。 Qian等222提出了正向近似的加速原理。本根据文献[20]给出集值信息系统下经典正域节在文献[21-22]算法的基础上介绍集值信息系统属性约简算法(positive region reduction algorithm, 下的正域属性约简算法的加速原理以及相关性 PRRA),见算法1。质，给出了算法的伪代码描述和两个算法的时间算法1PRRA 复杂度对比与分析。输入集值决策系统SDS=(U,CUD,VfD: 定理1集值决策系统SDS=(U,CUD,Vf,设输出集值决策系统SDS的一个属性约简R。属性子集P、Q满足PcOcC,则POS(D)CPOSo(D). 1)R=0。该定理表明，如果两个属性集合存在包含关 2)计算Sigimner(a,C,C,D,U),i∈{1,2，…，lC,如系，则这两个属性集合相对于决策属性D的正域果Sigm(a,C,C,D,U)>0,则将a:存入R中。也存在包含关系。证略。 3)若y(D)=yc(D),则终止；否则对条件属性定理2集值决策系统SDS=(U,CUD,Vf), C-R进行如下操作：条件属性集合C={a1,a2,…,agl,属性集合P,= 计算Sigouer(ao,R,C,D,U)=max{Sigu(a,C,D,R, {a1,a2,…,a},i=1,2,…,lC1,则定义： U)},R←RU{aol,其中a∈C-R。若有多个最大 POSP (U,D)=POSE,(U,D)UPOSP (U+1,D) 值，则选择与R组合数最少的属性。式中：U1=U,U41=U-POSn(U,D) 4)对R中的每个条件属性a进行如下操作：定理3集值决策系统SDS=(U,CUD,Vf), ①计算yR-iai(D): A,BCC,若U/TA=UIT则POSA(U,D)=POSs(U,D ②若yR-a1(D)=yc(D),则a;为冗余属性，R=R-{ah 证明设U/Ta={X1,X2,…Xh,U/Ta={Y,Y2,… 否则a为非冗余属性，R保持不变。 Y山，如果U/T4=U/T,则X=Y,i=1,2,…,U八，那

γA(D) = |POSA(D)| |U| (1) D 近似分类质量刻画了在相容关系 A 下可以正确划分到决策属性集合的对象集合数与论域个数的比重。 SDS = (U,C ∪ D,V, f) A ⊆ C 定义 6 集值决策系统，，则集合 A 是集值决策系统的一个正区域保持属性约简当且仅当以下两个条件成立： 1) γA(D) = γC(D) ； 2) ∀B ⊂ A，γB(D) 0 a SDS 对于给定集值决策系统，，若，则属于集值决策系统的核属性。根据文献[20]给出集值信息系统下经典正域属性约简算法 (positive region reduction algorithm， PRRA)，见算法 1。算法 1 PRRA 输入集值决策系统 SDS = (U,C ∪ D,V, f) ；输出集值决策系统 SDS 的一个属性约简 R。 1) R = ∅。 Siginner(ai ,C,C,D,U) i ∈ {1,2,··· ,|C|} Siginner(ai ,C,C,D,U) > 0 ai 2) 计算，，如果，则将存入 R 中。 γR(D) = γC(D) C −R 3) 若，则终止；否则对条件属性进行如下操作： Sigouter(a0,R,C,D,U) = max{Sigouter(ak ,C,D,R, R ← R∪ {a0} ak ∈ C −R 计算 U)}，，其中。若有多个最大值，则选择与 R 组合数最少的属性。 4) 对 R 中的每个条件属性 ai进行如下操作： ①计算 γR−{ai}(D) ； γR−{ai}(D)=γC(D) ai R=R−{ai} ai ②若，则为冗余属性，，否则为非冗余属性，R 保持不变。 5) 返回 R。由算法 1 可得，在 3) 迭代的过程中，每次选取一个属性重要度最大的属性加入到 R 中，在这个过程中需要不断地计算整个论域上的正域，从而使得算法计算量非常大，效率不够理想，很难应用在大规模数据集下。 SDS=(U,C ∪ D,V, f) U = {x1, x2, x3, x4, x5, x6, x7, x8} C = {a1,a2, a3,a4,a5} D = {d} 例 2 表 1 为集值决策系统，其中，为论域，为条件属性集合，为决策属性集合。采用 PRRA 算法对表 1 约简过程如下。 R = {a3,a4} γC(D) = 0.625 1) 表 1 中经求其核属性集为，决策属性 D 相对于条件属性 C 的近似分类质量为； 2) 对 C −R 中每个条件属性重复进行如下操作： C −R Sigouter(a1,R,C,D,U) = 0.125 Sigouter(a2,R,C,D,U) = Sigouter(a3,R,C,D,U) = 0.125 根据定义 8 计算中属性的重要度，其中，， 0，。 a1 a3 (a1,R,C,D,U) = Sigouter(a3,R,C,D,U) = a1 a1 R = R∪ {a1} ={a1,a3,a4} γR(D) = γC(D) = 0.625 由于属性和属性的外部属性重要度 Sigouter 0.125，故选择与 R 组合数最少的属性。根据算法 1 中步骤 3) 将加入 R 中，得，且，终止步骤 3)。 γR−{a1 }(D) , γC(D) 3) 去除集合 R 中的冗余属性，由于，故集合 R 中无冗余属性，算法终止。故算法 PRRA 得到约简， R = {a1,a3,a4}。 2 集值系统的快速正域约简 Qian 等 [21-22]提出了正向近似的加速原理。本节在文献[21-22]算法的基础上介绍集值信息系统下的正域属性约简算法的加速原理以及相关性质，给出了算法的伪代码描述和两个算法的时间复杂度对比与分析。 SDS = (U,C ∪ D,V, f) P Q P ⊂ Q ⊆ C POSP(D) ⊆ POSQ(D)。定理 1 集值决策系统，设属性子集、满足，则该定理表明，如果两个属性集合存在包含关系，则这两个属性集合相对于决策属性 D 的正域也存在包含关系。证略。 SDS = (U,C ∪ D,V, f) C = {a1,a2,··· ,a|C|} Pi = {a1,a2,··· ,ai} i = 1,2,··· ,|C| 定理 2 集值决策系统，条件属性集合，属性集合，，则定义： POSPi+1 (U,D) = POSPi (U,D)∪POSPi+1 (Ui+1 ,D)。 U1 = U Ui+1 = U −POSPi 式中：， (U,D)。 SDS = (U,C ∪ D,V, f) A,B ⊆ C U/TA = U/TB POSA(U,D) = POSB(U,D) 定理 3 集值决策系统，，若，则。 U/TA ={X1,X2,···,X|U|} U/TB={Y1,Y2,···, Y|U|} U/TA = U/TB Xi = Yi i = 1,2,··· ,|U| 证明设，，如果，则，，那第 3 期陈曼如，等：集值信息系统的快速正域约简 ·473·

·474· 智能系统学报第14卷么POSA(U,D)=POSs(UD),证毕。定理2表明，计算属性重要度时由于删除正定理4集值决策系统SDS=(U,CUD,V,f), 域和冗余属性集合后属性重要度保持不变，这样 AcC,Ya∈C-A,如果U/TA=U/TAua,那么POSA(U,D)= 在计算属性约简时，每次迭代过程中可以删除候 POPOSAUte(U,D),则属性a为冗余属性。选集合产生的正域和冗余属性集合，使得算法效证明设U/TA={X1,X,…,Xl,UTAu4={Y, 率提升。 Y,,Yl,因为U/TA=U/Taa,即POSA(U,D)= 算法2 QPRRA POSAUla(U,D),因此对于任意beC-A-{a,有POSAu 输入集值决策系统SDS=(U,CUD,VfD: (U,D)=POSAUIbUta(U,D)。所以a是约简过程中的输出集值决策系统SDS的一个属性约简R。冗余属性，可以被删除。证毕。 1)令i=1,R1=R,U1=U,C1=C,Ca=o,R=o。定理5集值决策系统SDS=(U,CUD,Vf), 2)对条件属性C,-R进行如下操作：计算 ASC,如果Va,b∈C-A-A,并且Sigouter(a,A,C,D,U- Sig uer(do.R.Ci.D,U)=maxSigue(a,R.Ci,D.U),R Sigoer(b,A,C,D,U≥0，那么Sigouer(a,A,C',D,U)- RU{ao,其中a∈C:-R。若有多个最大值，则选择 Sigouer(b,A,C',D,U≥0。其中，属性集合C'=C-A, 与R组合数最少的属性。 A'=(clPOS (U,D)=POSGute (U.D),cEC-A),U=U- 3)计算U+1=U,-POS(UD)。 POS(U,D)。证明根据定义Sigouter(a,A,C,D,U)=yAua(D)- 4)计算C={a∈C,-R:U/TR=U/Tual,C41= Ya(D),要度仅取决于ya(D)=POSA(D/IU。由于U= C-C4,令i=i+l。 U-POS(U,D),所以POS(U,D)=o,POS ute(U, 5)若yR(D)=y(D),转到6)，否则转到2)。 D)=POSuta(U,D)-POS(U,D)。又因为C'nA'=O, 可)对C-R中的每个条件属性a,进行如下操作： AcC',故POS(U,D)=POS(U,D)。因此 ①计算yR-a(D)方 Sig(a.A.C.D.U)D)-c(D) ②若yR-a(D)=yc(D),则a为冗余属性，R= Siger(d.A.CD.U)(D-(D) R-{al,否则a为非冗余属性，R保持不变。 IPOSSuta(U.D)-IPOS(U.D) )返回R。 IUI POS UL(U.D)-IPOS (U.D) 在算法2中，候选属性集合的正域随着每轮 IU-I IPOSSUta(U,D)I-IPOS(U,D)I 迭代过程选择属性重要度最大的属性加入而增 IUI POS UL(U,D)I-IPOS(U,D) 大，因此在计算正域时，可以通过叠加的方式计 IUPOSSuta(U,D)I-IPOSS(U.D)I IU 算，无需重新直接计算新的D关于约简属性集合 IUI POSSuta (U,D)I-IPOS(U.D)IUI 的正域，证略。因为1U/IU≥0，若Sigouter(a,A,C,D,U)≥Sigouer(b, 算法2原理流程如图1所示。集值信息系统 A,C,D,U),Sigoue(a,A,C',D,U)Sigouer(b,A,C',D, 的快速正域约简算法(quick positive region reduc- U)。证毕。 tion algorithm,QPRRA). 评估候选属性选取合适属性加入集合计算属性候选属性集合去正域去元余满足终止条件输出重要度属性图1算法2原理流程 Fig.1 Flow chart for algorithm 2 算法2无需首先求出核属性，直接迭代选择集规模缩小，算法效率提升。在图1中，A对应算属性重要度最大的属性加入候选属性集合，因此法步骤2)，计算当前轮次需评估的属性重要度，对于无核的数据集算法效率提升。在约简过程 B对应算法步骤3)，删除当前轮次的正域，C对应中，根据属性重要度的保序性，即定理5，算法在算法步骤4)，删除当前轮次的冗余属性集合。每轮迭代过程中删除正域和冗余属性，使得数据下面比较分析PRRA算法和QPRRA算法的

么 POSA(U,D) = POSB(U,D) ，证毕。 SDS = (U,C ∪ D,V, f) A⊆C ∀a∈C−A U/TA=U/TA∪{a} POSA(U,D)= POPOSA∪{a}(U,D) 定理 4 集值决策系统，，，如果，那么，则属性 a 为冗余属性。 U/TA = {X1,X2,···,X|U|} U/TA∪{a} = {Y1, Y2,···,Y|U|} U/TA = U/TA∪{a} POSA(U,D) = POSA∪{a}(U,D) b ∈ C − A− {a} POSA∪{b} (U,D) = POSA∪{b}∪{a}(U,D) a 证明设，，因为，即，因此对于任意，有。所以是约简过程中的冗余属性，可以被删除。证毕。 SDS = (U,C ∪ D,V, f) A ⊆ C ∀a,b ∈ C − A− A ′ Sigouter(a,A,C,D,U)− Sigouter(b,A,C,D,U) ⩾ 0 Sigouter(a,A,C ′ ,D,U ∗ )− Sigouter(b,A,C ′ ,D,U ∗ ) ⩾ 0 C ′ = C − A ′ A ′ = {c|POSC A (U,D) = POSC A∪{c} (U,D), c ∈ C − A} U ∗ = U− POSC A (U,D) 定理 5 集值决策系统，，如果，并且，那么。其中，属性集合，，。 Sigouter(a,A,C,D,U) = γA∪{a}(D)− γA(D) γA(D) = |POSA(D)|/|U| U −POSC A (U,D) POSC A (U ∗ ,D) = ∅ POSC A∪{a} (U ∗ , D) = POSC A∪{a} (U,D)−POSC A (U,D) C ′∩A ′ =∅ A ⊂ C ′ POSC ′ A (U ∗ ,D) = POSC A (U ∗ ,D) 证明根据定义，要度仅取决于。由于 U * = ，所以，。又因为，，故。因此 Sigouter(a,A,C,D,U) Sigouter(a,A,C′ ,D,U∗ ) = γ (C,U) A∪{a} (D)−γ (C,U) A (D) γ (C′ ,U∗ ) A∪{a} (D)−γ (C′ ,U∗ ) A (D) = |U ∗ | |U| |POSC A∪{a} (U,D)| − |POSC A (U,D)| |POSC′ A∪{a} (U∗ ,D)| − |POSC′ A (U∗ ,D)| = |U ∗ | |U| |POSC A∪{a} (U,D)| − |POSC A (U,D)| |POSC A∪{a} (U∗ ,D)| − |POSC A (U∗ ,D)| = |U ∗ | |U| |POSC A∪{a} (U,D)| − |POSC A (U,D)| |POSC A∪{a} (U,D)| − |POSC A (U,D)| = |U ∗ | |U| |U ∗ |/|U|⩾0 Sigouter(a,A,C,D,U)⩾Sigouter(b, A,C,D,U) Sigouter(a,A,C ′ ,D,U ∗ ) ⩾ Sigouter(b,A,C ′ ,D, U ∗ ) 因为，若，则。证毕。定理 2 表明，计算属性重要度时由于删除正域和冗余属性集合后属性重要度保持不变，这样在计算属性约简时，每次迭代过程中可以删除候选集合产生的正域和冗余属性集合，使得算法效率提升。算法 2 QPRRA 输入集值决策系统 SDS = (U,C ∪ D,V, f) ；输出集值决策系统 SDS 的一个属性约简 R。 1) 令 i = 1，R1 = R，U1 = U，C1 = C，Cd = ∅，R = ∅。 Ci −R Sigouter(a0,R,Ci ,D,Ui)=max{Sigouter(ak ,R,Ci ,D,Ui)} R ← R∪ {a0} ak ∈ Ci −R 2) 对条件属性进行如下操作：计算，，其中。若有多个最大值，则选择与 R 组合数最少的属性。 Ui+1 = Ui −POSCi R (Ui 3) 计算 ,D)。 C Ui d = {a ∈ Ci −R : U/TR = U/TR∪{a}} Ci+1 = Ci −C Ui d i = i+1 4) 计算，，令。 γ Ui R (D) = γ Ui Ci 5) 若 (D) ，转到 6)，否则转到 2)。 6) 对 C −R 中的每个条件属性 ak，进行如下操作： ①计算 γR−{ak }(D) ； γR−{ak }(D) = γC(D) ak R− {ak} ak ②若，则为冗余属性，R = ，否则为非冗余属性，R 保持不变。 7) 返回 R。在算法 2 中，候选属性集合的正域随着每轮迭代过程选择属性重要度最大的属性加入而增大，因此在计算正域时，可以通过叠加的方式计算，无需重新直接计算新的 D 关于约简属性集合的正域，证略。算法 2 原理流程如图 1 所示。集值信息系统的快速正域约简算法 (quick positive region reduction algorithm，QPRRA)。候选属性集合选取合适属性加入候选属性集合 Y N 满足终止条件评估 A B C 输出去冗余属性计算属性重要度去正域图 1 算法 2 原理流程 Fig. 1 Flow chart for algorithm 2 算法 2 无需首先求出核属性，直接迭代选择属性重要度最大的属性加入候选属性集合，因此对于无核的数据集算法效率提升。在约简过程中，根据属性重要度的保序性，即定理 5，算法在每轮迭代过程中删除正域和冗余属性，使得数据集规模缩小，算法效率提升。在图 1 中，A 对应算法步骤 2)，计算当前轮次需评估的属性重要度， B 对应算法步骤 3)，删除当前轮次的正域，C 对应算法步骤 4)，删除当前轮次的冗余属性集合。下面比较分析 PRRA 算法和 QPRRA 算法的 ·474· 智能系统学报第 14 卷

第3期陈曼如，等：集值信息系统的快速正域约简 ·475· 时间复杂度。令T,和T2分别为PRRA算法和去除R中的冗余属性，由于yR-ai(D)≠yc(D), QPRRA算法的时间复杂度。令IC=m表示数据 i=1,3,4,故R中无冗余属性，算法终止。故算法集条件属性数，U川=n表示数据集对象数，1Cl=m QPRRA得到约简，即R={a1,a,a4}o 表示第i轮需评估的属性数（已删除第i-1轮所求冗余属性数)，U=n,为第i轮剩余的对象数。 3实验分析在算法2中，计算去掉正区域并且删除冗余属性为了证明提出算法的有效性，实验选取了集合将最大属性重要度的属性加入到当前约简的 6组UCI标准数据库(http://archive.ics.uci.edu/m- 时间复杂度为02m-i+1n,去冗余过程时间 )中的数据集，为了得到集值数据集对这6组数复杂度为O(m2n)。而在算法1中，计算核属性的据集进行预处理，在条件属性集上随机对10%的时间复杂度为Om2),计算最大属性重要度的属数据进行对应属性上的并集操作，如表2所示。性加入到当前约简的时间复杂度为0(m-i+1)2m)。表2数据集描述 Table 2 Description of data sets 去冗余过程时间复杂度为O(m2m)。PRRA算法时间复杂度为T1=Om2n+Σm-i+1)2m),QPRRA 编号数据集对象数特征数类别数 1 Flag 194 8 算法时间复杂度为T2=0(m2n+∑(m:-i+1)2)。 2 Lung Cancer 32 57 QPRRA算法效率优于PRRA算法。 3 Molecular Biology 106 58 2 例3表1为集值决策系统SDS=(U,CUD, 4 Dermatology 366 35 6 V,f),其中，U={x,x,3,x4,x,x6,x,xg}为论域，C= {a1,a2,a3,a4,as}为条件属性集合，D={d为决策属 5 SCADI 70 206 7 性集合。 6 QSAR Biodegradation 1055 42 9 采用QPRRA算法对表1进行3轮约简。所有实验在PC机上进行，操作系统为Mi- 第1轮迭代过程：计算C1-R中属性的重要 crosoft Windows7(64b,处理器及其型号为Inter Core 度，分别为Sigouter(a1R,C1,D,U1)=0,Sigu(a2,R,C, i5-2450M,内存为4GB,所有算法均使用MAT- D,U)=0,Sigoer(a3,R,C1,D.U)=0,Sigouer(d.R.C1. LAB7.11.0(R2010b)编写实现。在实验中，分别用 D,Ui)=0.375,Sigouer(a5,R,C1,D,U1)=0。由于Sigouter 上述2种约简算法对6组UCI数据集进行处理， (a,R,C1,D,U)=0.375最大，故R=RU{a4}={aa}, 比较它们约简所耗费的时间。实验中，将上述 U2=U-POSG(U1.D)=x1.X3XsX6 C2 =C1-C= 6组数据集分别分为10等份，用来记录两个算法 a1,a2,a,a4,as,无冗余属性，且y0(D)≠y(D),继的时间差异。例如，假设数据集有1000个对象，续循环。第1号数据集用来表示1~100个对象，第2号数第2轮迭代过程：计算C2-R中属性的重要据集用来表示1~200个对象，以此类推，第10号度，分别为Sigouer(a1R,C1,D,U2)=0,Sigouer(a2,R,C1, 数据集用来表示1~1000个对象。实验一共分为 D.U2)=0,Sigouer(a3.R.C1,D.U2)=0.4,Sigouer(as,R.C1. 3个部分。第1部分为算法PRRA、算法QPRRA、 D,U2)=0。由于Sigoue(a3,R,C1,D,U2)=0.4最大，故基于相似度的集值信息系统属性约简算法] R=RUla3]=(a3,al.U3=U2-POSG(U2,D)=(x1.Xxsh, (SRA)和基于信息量的集值信息系统属性约简算 C3=C2-C出={a1,a2,a,ash,无冗余属性。且yR(D)≠ 法1(IRA)的约简结果长度和计算时间的比较。 Y哈(D),继续循环。第2部分为算法PRRA、QPRRA、SRA和IRA随第3轮迭代过程：计算C,-R中属性的重要着论域的增大算法计算时间变化的实验。第3部度，分别为Sigouer(a1,R,C1,D,U3)=0.33,Sigouter(a2,R,C1, 分为数据集Lung Cancer迭代过程中对象和属性 D,U3)=0,Sigouter((as,R,C1,D,U3)=0.33。由于Siguter 的变化。 (a1,R,C1,D,U3)=Sigouer(a,R,C1,D,U3)=0.33,故选择表2给出了6组数据集的对象数、特征数和与R组合数最少的属性1。故R=RU{a1}={a1, 类别数的对比，从表中可以看出，本文选取了不 a3,a4},U4=U3-POS(U3,D)={x3,xsl,C4=C3-C4= 同规模的数据集，最大规模数据集为QSAR Bio-- {a1,asl,删除冗余属性a2。且y(D)=y公(D),终止 degradation,对象数有1044个，最小规模数据集循环。为Lung Cancer,.对象数有32个，最大特征数数据

T1 T2 |C| = m |U| = n |Ci | = mi i−1 |Ui | = ni O( ∑ |C| i=1 (mi −i+1)2 ni) O(m 2n) O(m 2n) O( ∑ |C| i=1 (m−i+1)2n) O(m 2n) T1 = O(m 2n+ ∑ |C| i=1 (m−i+1)2n) T2 = O(m 2n+ ∑ |C| i=1 (mi −i+1)2 ni) 时间复杂度。令和分别为 PRRA 算法和 QPRRA 算法的时间复杂度。令表示数据集条件属性数，表示数据集对象数，表示第 i 轮需评估的属性数 (已删除第轮所求冗余属性数)，为第 i 轮剩余的对象数。在算法 2 中，计算去掉正区域并且删除冗余属性集合将最大属性重要度的属性加入到当前约简的时间复杂度为，去冗余过程时间复杂度为。而在算法 1 中，计算核属性的时间复杂度为，计算最大属性重要度的属性加入到当前约简的时间复杂度为。去冗余过程时间复杂度为。PRRA 算法时间复杂度为， QPRRA 算法时间复杂度为。 QPRRA 算法效率优于 PRRA 算法。 SDS = (U,C ∪ D, U = {x1, x2, x3, x4, x5, x6, x7, x8} {a1,a2,a3,a4,a5} D = {d} 例 3 表 1 为集值决策系统 V, f )，其中，为论域，C = 为条件属性集合，为决策属性集合。采用 QPRRA 算法对表 1 进行 3 轮约简。 C1 −R Sigouter(a1,R,C1,D,U1) = 0 Sigouter(a2,R,C1, D,U1) = 0 Sigouter(a3, R,C1,D,U1)=0 Sigouter(a4,R,C1, D,U1) = 0.375 Sigouter(a5,R,C1,D,U1) = 0 Sigouter (a4,R,C1,D,U1) = 0.375 R∪ {a4} = {a4} U2 = U1 −POSC1 R (U1,D)= {x1, x3, x5,x6,x7} C2 = C1 −C U1 d = {a1,a2,a3,a4,a5} γ U1 R (D) ,γ U1 C1 (D) 第 1 轮迭代过程：计算中属性的重要度，分别为，，，，。由于最大，故 R = ，，，无冗余属性，且，继续循环。 C2 −R Sigouter(a1,R,C1,D,U2) = 0 Sigouter(a2,R,C1, D,U2) = 0 Sigouter(a3,R,C1,D,U2) = 0.4 Sigouter(a5,R,C1, D,U2) = 0 Sigouter(a3,R,C1,D,U2) = 0.4 R =R∪ {a3}={a3,a4},U3 =U2−POSC2 R (U2,D)= {x1, x3, x5}, C3 =C2−C U2 d = {a1,a2,a3,a5} γ U2 R (D) , γ U2 C2 (D) 第 2 轮迭代过程：计算中属性的重要度，分别为，，，。由于最大，故，无冗余属性。且，继续循环。 C3 −R Sigouter(a1,R,C1,D,U3)=0.33 Sigouter(a2,R,C1, D,U3)=0 Sigouter(a5,R,C1,D,U3) = 0.33 (a1,R,C1,D,U3) =Sigouter(a5,R,C1,D,U3) = 0.33 R a1 R = R∪ {a1} = {a1, a3,a4} U4 = U3−POSC3 R (U3,D)= {x3, x5} C4 = C3 −C U3 d = {a1,a5} a2 γ U3 R (D) = γ U3 C3 (D) 第 3 轮迭代过程：计算中属性的重要度，分别为，，。由于 Sigouter ，故选择与组合数最少的属性。故，，，删除冗余属性。且，终止循环。 γR−{ai}(D) , γC(D) i = 1,3,4 R = {a1,a3,a4} 去除 R 中的冗余属性，由于，，故 R 中无冗余属性，算法终止。故算法 QPRRA 得到约简，即。 3 实验分析为了证明提出算法的有效性，实验选取了 6 组 UCI 标准数据库 (http://archive.ics.uci.edu/ml/) 中的数据集，为了得到集值数据集对这 6 组数据集进行预处理，在条件属性集上随机对 10% 的数据进行对应属性上的并集操作，如表 2 所示。所有实验在 PC 机上进行，操作系统为 Microsoft Windows 7(64 b)，处理器及其型号为 Inter Core i5-2450M，内存为 4 GB，所有算法均使用 MATLAB7.11.0(R2010b) 编写实现。在实验中，分别用上述 2 种约简算法对 6 组 UCI 数据集进行处理，比较它们约简所耗费的时间。实验中，将上述 6 组数据集分别分为 10 等份，用来记录两个算法的时间差异。例如，假设数据集有 1 000 个对象，第 1 号数据集用来表示 1~100 个对象，第 2 号数据集用来表示 1~200 个对象，以此类推，第 10 号数据集用来表示 1~1 000 个对象。实验一共分为 3 个部分。第 1 部分为算法 PRRA、算法 QPRRA、基于相似度的集值信息系统属性约简算法[ 1 8 ] (SRA) 和基于信息量的集值信息系统属性约简算法 [19] (IRA) 的约简结果长度和计算时间的比较。第 2 部分为算法 PRRA、QPRRA、SRA 和 IRA 随着论域的增大算法计算时间变化的实验。第 3 部分为数据集 Lung Cancer 迭代过程中对象和属性的变化。表 2 给出了 6 组数据集的对象数、特征数和类别数的对比，从表中可以看出，本文选取了不同规模的数据集，最大规模数据集为 QSAR Biodegradation，对象数有 1 044 个，最小规模数据集为 Lung Cancer，对象数有 32 个，最大特征数数据表 2 数据集描述 Table 2 Description of data sets 编号数据集对象数特征数类别数 1 Flag 194 29 8 2 Lung Cancer 32 57 2 3 Molecular Biology 106 58 2 4 Dermatology 366 35 6 5 SCADI 70 206 7 6 QSAR Biodegradation 1 055 42 9 第 3 期陈曼如，等：集值信息系统的快速正域约简 ·475·

·476· 智能系统学报第14卷集SCADI,.特征数有206个，而Flag的特征数为法PRRA、QPRRA、IRA和SRA的计算时间和选 29个，在数据集中为特征数最少的。6组数据集择特征数的对比，可以看出，算法QPRRA 有不同的类别数，最大类别数数据集QSAR Bio- 和PRRA约简结果长度优于算法SRA和IRA,算 degrada-tion,类别数为9，数据集Lung Cancer和法OPRRA效率明显优于算法PRRA和IRA。图2 Molecular Biology类别数最小为2。表3给出了算为4种算法的实验对比。表3算法PRRA和QPRRA的计算时间和约简结果 Table 3 Time regurired and attribute reduction of the algorithms PRRA IRA SRA OPRRA 数据集原始特征约简时间s 约简时间/s 约简时间s 约简时间s Flag 29 11 130.7 13 102.5 14 36.8 11 30.1 Lung Cancer 57 8 37.9 12 37.5 12 10.9 8 5.2 Molecular Biology 58 6 74.6 个 66.2 > 14.8 6 11.4 Dermatology 35 13 263.4 17 251.4 17 139.2 12 80.8 SCADI 206 19 4315.0 26 8446.9 27 569.2 19 422.1 QSAR Biodegradation 42 15 7731.3 22 6730.4 24 1259.6 15 1266.8 从图2和表3可以看出，算法QPRRA效率优算法求核的时间，并且在每轮迭代过程中，不仅于其他3个算法效率，在数据集QSAR Biodegra 删除了当前轮次候选属性集合产生的正域，也删 dation上，算法SRA略优于算法QPRRA。例如，除了当前轮次产生的冗余属性集合，使得数据集对于数据集Lung Cancer,.算法PRRA时间耗费为规模不断变小，算法运行时间缩短。从表4可得， 37.9s.算法QPRRA时间耗费为5.2s,加速比达到 Lung Cancer数据集核为空，在每轮迭代过程中删了72，实验效果明显。因为对于核为空的数据集除了正域和冗余属性，使得数据集规模缩小，算而言，QPRRA算法无需计算核属性集合，节省了法效率提升。 140 40 -QPRRA -QPRRA 120 -A-PRRA 35 A-PRRA +SRA 100 30 SRA 令-IRA 25 合IRA 80 20 60 15 40 10 20 5 4 6 4 6 10 论域大小论域大小 (a)Flag (b)Lung Cancer 0 300 70 -e-QPRRA -0OPRRA APRRA 250 A-PRRA 60 +SRA SRA 合-IRA 200 令-RA 兰40 兰150 100 10 50 4 6 4 6 8 10 论域大小论域大小 (c)Molecular Biology (d)Dermatology

集 SCADI，特征数有 206 个，而 Flag 的特征数为 29 个，在数据集中为特征数最少的。6 组数据集有不同的类别数，最大类别数数据集 QSAR Biodegrada-tion，类别数为 9，数据集 Lung Cancer 和 Molecular Biology 类别数最小为 2。表 3 给出了算法 PRRA、QPRRA、IRA 和 SRA 的计算时间和选择特征数的对比，可以看出，算法 QPRRA 和 PRRA 约简结果长度优于算法 SRA 和 IRA，算法 QPRRA 效率明显优于算法 PRRA 和 IRA。图 2 为 4 种算法的实验对比。表 3 算法 PRRA 和 QPRRA 的计算时间和约简结果 Table 3 Time regurired and attribute reduction of the algorithms 数据集原始特征 PRRA IRA SRA QPRRA 约简时间/s 约简时间/s 约简时间/s 约简时间/s Flag 29 11 130.7 13 102.5 14 36.8 11 30.1 Lung Cancer 57 8 37.9 12 37.5 12 10.9 8 5.2 Molecular Biology 58 6 74.6 7 66.2 7 14.8 6 11.4 Dermatology 35 13 263.4 17 251.4 17 139.2 12 80.8 SCADI 206 19 4 315.0 26 8 446.9 27 569.2 19 422.1 QSAR Biodegradation 42 15 7 731.3 22 6 730.4 24 1 259.6 15 1 266.8 从图 2 和表 3 可以看出，算法 QPRRA 效率优于其他 3 个算法效率，在数据集 QSAR Biodegra dation 上，算法 SRA 略优于算法 QPRRA。例如，对于数据集 Lung Cancer，算法 PRRA 时间耗费为 37.9 s，算法 QPRRA 时间耗费为 5.2 s，加速比达到了 7.2，实验效果明显。因为对于核为空的数据集而言，QPRRA 算法无需计算核属性集合，节省了算法求核的时间，并且在每轮迭代过程中，不仅删除了当前轮次候选属性集合产生的正域，也删除了当前轮次产生的冗余属性集合，使得数据集规模不断变小，算法运行时间缩短。从表 4 可得， Lung Cancer 数据集核为空，在每轮迭代过程中删除了正域和冗余属性，使得数据集规模缩小，算法效率提升。 0 2 4 6 8 10 20 40 60 80 100 120 140 论域大小 t/s QPRRA PRRA SRA IRA (a) Flag 0 2 4 6 8 10 5 10 15 20 25 30 35 40 论域大小 t/s QPRRA PRRA SRA IRA (b) Lung Cancer 0 2 4 6 8 10 10 20 30 40 50 60 70 80 论域大小 t/s QPRRA PRRA SRA IRA (c) Molecular Biology 0 2 4 6 8 10 50 100 150 200 250 300 论域大小 t/s QPRRA PRRA SRA IRA (d) Dermatology ·476· 智能系统学报第 14 卷

第3期陈曼如，等：集值信息系统的快速正域约简 ·477· 支10 -OPRRA -QPRRA A-PRRA 5 A-PRRA -SRA -IRA 6 SRA -RA 3 的￥ 4 6 8 10 0 6 8 10 论域大小论域大小 (e)SCADI (f)QSAR Biodegradation 图2算法PRRA和算法OPRRA计算时间 Fig.2 Time reguired for PRRA and QPRRA versus the data size 表4算法PRRA和QPRRA在Lung Cancer数据集上每参考文献：轮迭代对象和属性的变化 Table 4 Changes of the number of objects and attributes [1]PAWLAK Z.Rough sets[J].International journal of com- within each loop of algorithms PRRA and QPRRA puter and information sciences,1982,11(5):341-356. on Lung Cancer [2]王国胤，姚一豫，于洪.粗糙集理论与应用研究综述 PRRA QPRRA 计算机学报，2009,32(7)：1229-1246 迭代次数对象数属性数对象数属性数 WANG Guoyin,YAO Yiyu,YU Hong.A survey on rough 32 55 29 55 set theory and applications[J].Chinese journal of com- 2 32 54 25 54 puters,.2009,32(7)1229-1246. 3 32 53 22 53 [3]MIAO Duogian.ZHAO Yan,YAO Yiyu,et al.Relative re- 少 ducts in consistent and inconsistent decision tables of the 4 32 52 18 Pawlak rough set model[J].Information sciences,2009, 51 14 47 179(24):4140-4150. 6 32 50 > 2 [4]LI Hua,LI Deyu,ZHAI Yanhui,et al.A novel attribute re- 7 32 49 4 25 duction approach for multi-label data based on rough set 8 32 48 2 12 theory[J].Information sciences,2016,367/368:827-847. [5]YAO Yiyu,ZHAO Yan.Attribute reduction in decision- 4结束语 theoretic rough set models[J].Information sciences,2008. 178(17):3356-3373. 本文提出了一种在集值信息系统下的正域属 [6]JIA Xiuyi,SHANG Lin,ZHOU Bin,et al.Generalized at- 性保持约简快速算法，算法无需计算核属性集 tribute reduct in rough set theory[J.Knowledge-based sys- 合，直接开始迭代选择属性重要度最大的属性加 tems,2016,91:204-218. 入候选属性集合，每轮迭代过程中删除一部分正 [7]张楠，苗夺谦，岳晓冬，区间值信息系统的知识约简域，使得数据集对象数不断减少，算法效率提升，计算机研究与发展，2010,47(8：1362-1371 在删除一部分正域的同时，删除冗余的属性集 ZHANG Nan,MIAO Duoqian,YUE Xiaodong.Ap- 合，使得算法的效率进一步提升。实验选取6组 proaches to knowledge reduction in interval-valued in- UCI数据集对提出算法的有效性进行验证，实验 formation systems[J].Journal of computer research and de- velopment,.2010,47(8):1362-1371 表明：提出算法的效率优于经典算法效率，实现 [8]HU Qinghua,ZHAO Hui,XIE Zongxia,et al.Consistency 了对经典算法的优化，尤其是在无核数据集上加 based attribute reduction[C]//Advances in Knowledge Dis- 速效果明显，因为省去了计算核属性集的时间， covery and Data Mining.Berlin,Heidelberg,Germany, 这使得该算法能更好地应用于较大规模数据的处 2007:96-107. 理。本文是基于删除正域和冗余属性机制基础上 [9]GUAN Yanyong,WANG Hongkai.Set-valued informa- 进行的研究，对每次迭代过程中产生正域和冗余 tion systems[J].Information sciences,2006,176(17): 属性较少的数据集加速效果不够明显，故提出算 2507-2525 法的普遍适用性是未来研究方向之一。 [10]QIAN Yuhua,DANG Chuanyin,LIANG Jiye,et al.Set-

表 4 算法 PRRA 和 QPRRA 在 Lung Cancer 数据集上每轮迭代对象和属性的变化 Table 4 Changes of the number of objects and attributes within each loop of algorithms PRRA and QPRRA on Lung Cancer 迭代次数 PRRA QPRRA 对象数属性数对象数属性数 1 32 55 29 55 2 32 54 25 54 3 32 53 22 53 4 32 52 18 52 5 32 51 14 47 6 32 50 7 42 7 32 49 4 25 8 32 48 2 12 4 结束语本文提出了一种在集值信息系统下的正域属性保持约简快速算法，算法无需计算核属性集合，直接开始迭代选择属性重要度最大的属性加入候选属性集合，每轮迭代过程中删除一部分正域，使得数据集对象数不断减少，算法效率提升，在删除一部分正域的同时，删除冗余的属性集合，使得算法的效率进一步提升。实验选取 6 组 UCI 数据集对提出算法的有效性进行验证，实验表明：提出算法的效率优于经典算法效率，实现了对经典算法的优化，尤其是在无核数据集上加速效果明显，因为省去了计算核属性集的时间，这使得该算法能更好地应用于较大规模数据的处理。本文是基于删除正域和冗余属性机制基础上进行的研究，对每次迭代过程中产生正域和冗余属性较少的数据集加速效果不够明显，故提出算法的普遍适用性是未来研究方向之一。参考文献： PAWLAK Z. Rough sets[J]. International journal of computer and information sciences, 1982, 11(5): 341–356. [1] 王国胤, 姚一豫, 于洪. 粗糙集理论与应用研究综述[J]. 计算机学报, 2009, 32(7): 1229–1246. WANG Guoyin, YAO Yiyu, YU Hong. A survey on rough set theory and applications[J]. Chinese journal of computers, 2009, 32(7): 1229–1246. [2] MIAO Duoqian, ZHAO Yan, YAO Yiyu, et al. Relative reducts in consistent and inconsistent decision tables of the Pawlak rough set model[J]. Information sciences, 2009, 179(24): 4140–4150. [3] LI Hua, LI Deyu, ZHAI Yanhui, et al. A novel attribute reduction approach for multi-label data based on rough set theory[J]. Information sciences, 2016, 367/368: 827–847. [4] YAO Yiyu, ZHAO Yan. Attribute reduction in decisiontheoretic rough set models[J]. Information sciences, 2008, 178(17): 3356–3373. [5] JIA Xiuyi, SHANG Lin, ZHOU Bin, et al. Generalized attribute reduct in rough set theory[J]. Knowledge-based systems, 2016, 91: 204–218. [6] 张楠, 苗夺谦, 岳晓冬. 区间值信息系统的知识约简[J]. 计算机研究与发展, 2010, 47(8): 1362–1371. ZHANG Nan, MIAO Duoqian, YUE Xiaodong. Approaches to knowledge reduction in interval-valued information systems[J]. Journal of computer research and development, 2010, 47(8): 1362–1371. [7] HU Qinghua, ZHAO Hui, XIE Zongxia, et al. Consistency based attribute reduction[C]//Advances in Knowledge Discovery and Data Mining. Berlin, Heidelberg, Germany, 2007: 96–107. [8] GUAN Yanyong, WANG Hongkai. Set-valued information systems[J]. Information sciences, 2006, 176(17): 2507–2525. [9] [10] QIAN Yuhua, DANG Chuanyin, LIANG Jiye, et al. Set- 0 2 4 6 8 10 1 2 3 4 5 6 论域大小 t/s QPRRA PRRA SRA IRA (e) SCADI 0 2 4 6 8 10 1 2 3 4 5 6 7 8 论域大小 t/s QPRRA PRRA SRA IRA (f) QSAR Biodegradation ×103 ×103 图 2 算法 PRRA 和算法 QPRRA 计算时间 Fig. 2 Time reguired for PRRA and QPRRA versus the data size 第 3 期陈曼如，等：集值信息系统的快速正域约简 ·477·

·478· 智能系统学报第14卷 valued ordered information systems[J].Information sci- MA Jianmin,ZHANG Wenxiu.Information quantity- ences,.2009,179(16):2809-2832 based attribute reduction in set-valued information sys- [11]杨习贝，张再跃，张明.集值信息系统中的模糊优势关 tems[J].Fuzzy systems and mathematics,2013,27(2): 系粗糙集[).计算机科学，2011,38(2)：234-237. 177-182 YANG Xibei,ZHANG Zaiyue,ZHANG Ming.Fuzzy [20]苗夺谦，李道国.粗糙集理论、算法与应用[M.北京：清 dominance-based rough set in set-valued information sys- 华大学出版社，2008」 tem[J].Computer science,2011,38(2):234-237. [21]QIAN Yuhua,LIANG Jiye,PEDRYCZ W.et al.Positive [12]HUANG Yanyong,LI Tianrui,LUO Chuan,et al.Dy- approximation:an accelerator for attribute reduction in namic variable precision rough set approach for probabil- rough set theory[J].Artificial intelligence,2010,174(9/10): istic set-valued information systems[J].Knowledge-based 597-618. systems.2017,122:131-147. [22]钱宇华，梁吉业，王锋.面向非完备决策表的正向近似 [13]WEI Wei,CUI Junbiao,LIANG Jiye,et al.Fuzzy rough 特征选择加速算法[J.计算机学报，2011,34(3)： approximations for set-valued data[J].Information sci- 435-442. ences,2016.360:181-201. [14]ZHANG Hongying,YANG Shuyun.Feature selection QIAN Yuhua,LIANG Jiye,WANG Feng.A positive-ap- proximation based accelerated algorithm to feature selec- and approximate reasoning of large-scale set-valued de- tion from incomplete decision tables[].Chinese journal cision tables based on a-dominance-based quantitative rough sets[J].Information sciences,2017,378:328-347. of computers,2011,34(3):435-442. [15]SKOWRON A.RAUSZER C.The discernibility matrices 作者简介： and functions in information systems[Cl//Intelligent De- 陈曼如，女，1993年生，硕士研究 cision Support Theory and Decision Library.Dordrecht, 生，主要研究方向为粗糙集、数据挖掘 Netherlands,1992:331-362 与机器学习。 [16]LUO Chuan,LI Tianrui,CHEN Hongmei,et al.Fast al- gorithms for computing rough approximations in set-val- ued decision systems while updating criteria values[J].In- formation sciences,2015,299:221-242. [17]ZHANG Junbo,LI Tianrui,RUAN Da,et al.Rough sets 张楠.男，1979年生，博士研究 based matrix approaches with dynamic attribute variation 生，主要研究方向为粗糙集、认知信息 in set-valued information systems[J].International journ- 学与人工智能。 al of approximate reasoning,2012,53(4):620-635. [18]刘莹莹，吕跃进.基于相似度的集值信息系统属性约简算法[】.南京大学学报（自然科学版），2015,51(2)： 384389 LIU Yingying,LYU Yuejin.Attribute reduction in set- 童向荣，男，1975年生.教授，主要研究方向为多Agent系统、分布式 valued information system based on similarity[J].Journal 人工智能与数据挖掘技术。发表学术 of Nanjing university(natural sciences),2015,51(2): 论文50余篇，被SCI检索2篇、EI检 384389 索20余篇。 [19]马建敏，张文修.基于信息量的集值信息系统的属性约简.模糊系统与数学，2013,272)：177-182

valued ordered information systems[J]. Information sciences, 2009, 179(16): 2809–2832. 杨习贝, 张再跃, 张明. 集值信息系统中的模糊优势关系粗糙集[J]. 计算机科学, 2011, 38(2): 234–237. YANG Xibei, ZHANG Zaiyue, ZHANG Ming. Fuzzy dominance-based rough set in set-valued information system[J]. Computer science, 2011, 38(2): 234–237. [11] HUANG Yanyong, LI Tianrui, LUO Chuan, et al. Dynamic variable precision rough set approach for probabilistic set-valued information systems[J]. Knowledge-based systems, 2017, 122: 131–147. [12] WEI Wei, CUI Junbiao, LIANG Jiye, et al. Fuzzy rough approximations for set-valued data[J]. Information sciences, 2016, 360: 181–201. [13] ZHANG Hongying, YANG Shuyun. Feature selection and approximate reasoning of large-scale set-valued decision tables based on α-dominance-based quantitative rough sets[J]. Information sciences, 2017, 378: 328–347. [14] SKOWRON A, RAUSZER C. The discernibility matrices and functions in information systems[C]//Intelligent Decision Support Theory and Decision Library. Dordrecht, Netherlands, 1992: 331–362. [15] LUO Chuan, LI Tianrui, CHEN Hongmei, et al. Fast algorithms for computing rough approximations in set-valued decision systems while updating criteria values[J]. Information sciences, 2015, 299: 221–242. [16] ZHANG Junbo, LI Tianrui, RUAN Da, et al. Rough sets based matrix approaches with dynamic attribute variation in set-valued information systems[J]. International journal of approximate reasoning, 2012, 53(4): 620–635. [17] 刘莹莹, 吕跃进. 基于相似度的集值信息系统属性约简算法[J]. 南京大学学报 (自然科学版), 2015, 51(2): 384–389. LIU Yingying, LYU Yuejin. Attribute reduction in setvalued information system based on similarity[J]. Journal of Nanjing university (natural sciences), 2015, 51(2): 384–389. [18] 马建敏, 张文修. 基于信息量的集值信息系统的属性约简[J]. 模糊系统与数学, 2013, 27(2): 177–182. [19] MA Jianmin, ZHANG Wenxiu. Information quantitybased attribute reduction in set-valued information systems[J]. Fuzzy systems and mathematics, 2013, 27(2): 177–182. 苗夺谦, 李道国. 粗糙集理论、算法与应用[M]. 北京: 清华大学出版社, 2008. [20] QIAN Yuhua, LIANG Jiye, PEDRYCZ W, et al. Positive approximation: an accelerator for attribute reduction in rough set theory[J]. Artificial intelligence, 2010, 174(9/10): 597–618. [21] 钱宇华, 梁吉业, 王锋. 面向非完备决策表的正向近似特征选择加速算法[J]. 计算机学报, 2011, 34(3): 435–442. QIAN Yuhua, LIANG Jiye, WANG Feng. A positive-approximation based accelerated algorithm to feature selection from incomplete decision tables[J]. Chinese journal of computers, 2011, 34(3): 435–442. [22] 作者简介：陈曼如，女，1993 年生，硕士研究生，主要研究方向为粗糙集、数据挖掘与机器学习。张楠，男，1979 年生，博士研究生，主要研究方向为粗糙集、认知信息学与人工智能。童向荣，男，1975 年生，教授，主要研究方向为多 Agent 系统、分布式人工智能与数据挖掘技术。发表学术论文 50 余篇，被 SCI 检索 2 篇、EI 检索 20 余篇。 ·478· 智能系统学报第 14 卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

【智能系统】集值信息系统的快速正域约简