《智能系统学报》：连续型数据的辨识矩阵属性约简方法

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：692.67KB

第12卷第3期智能系统学报 Vol.12 No.3 2017年6月 CAAI Transactions on Intelligent Systems Jun.2017 D0I:10.11992/tis.201704032 网络出版地址：http:/kns.cmki.net/kcms/detail/23.1538.TP.20170703.1854.016.html 连续型数据的辨识矩阵属性约简方法冯丹1,2，黄洋2，石云鹏2，王长忠2 (1.国网葫芦岛供电公司信息道信分公司，辽宁葫芦岛125000：2.渤海大学数理学院，辽宁锦州121000) 摘要：属性约简是粗糙集理论在数据处理方面的重要应用，已有的针对连续型数据的属性约简算法主要集中在基于正域的贪心算法，该方法只考虑了一致样本和其他样本的可辨识性，而忽略了边界样本点间可区分性。为了克服基于正域算法的缺点，提出了连续型数据的辨识矩阵属性约简模型，该模型不但考虑了正域样本的一致性，同时考虑了边界样本的可分性。基于该模型，分析了属性约简结构，定义了辨识矩阵来刻画特征子集的分类能力，构造了实值型数据的属性约简启发式算法，并利用UCI标准数据集进行了验证。理论分析和实验结果表明，提出的算法能够有效地处理连续型数据，提高了数据的分类精度。关键词：邻域关系；粗糙集；属性约简：辨识矩阵：启发式算法中图分类号：TP391:TP274文献标志码：A文章编号：1673-4785(2017)03-0371-06 中文引用格式：冯丹，黄洋，石云鹏，等.连续型数据的辨识矩阵属性约简方法[J].智能系统学报，2017,12(3)：371-376. 英文引用格式：FENG Dan,HUANG Yang,SHI Yunpeng,etal.A discernibility matri-based attribute reduction for continuous data[J].CAAI transactions on intelligent systems,2017,12(3):371-376. A discernibility matrix-based attribute reduction for continuous data FENG Dan'2,HUANG Yang',SHI Yunpeng',Wang Changzhong? (1.Information and Communication Branch,State Grid Power Supply Company of Huludao,Huludao 125000,China;2.College of Mathematics and Physics,Bohai University,Jinzhou 121000,China) Abstract:In data processing,attribute reduction is an important application of rough set theory.The existing methods for continuous data mainly concentrate on the greedy algorithms based on the positive region.These methods take account of only the identifiability between consistent samples and other samples while ignoring distinguishability among the boundary samples.To overcome the disadvantage based on the positive domain algorithm,this paper proposed a new method for attribute reduction using a discernibility matrix.The model considers not only the consistency of samples in the positive region but also the reparability of boundary samples.On this basis,this paper analyzes the structure of attribute reduction and defines a discernibility matrix to characterize the discernibility ability of a subset of attributes.Next,an attribute reduction algorithm was designed based on the discernibility matrix.The validity of the proposed algorithm was verified using UCI standard data sets and theoretical analysis. Keywords:neighborhood relation;rough set;attribute reduction;discernibility matrix;heuristic algorithm 粗糙集理论是由波兰数学家Z.Pawlak于础。其主要思想是在确保信息表的分类能力不变 1982年提出的，它是一种处理不确定性知识的数据的情况下，删除掉不必要属性，保留必要属性，从而分析理论。目前粗糙集理论已被广泛应用于人工导出问题的分类规则。属性约简无疑是在获取规智能、过程控制、数据挖掘、决策支持以及知识发现则的过程中最重要的核心问题，历来受到大家的等领域。属性约简是粗糙集理论的研究内容之一，关注。它是利用粗糙集进行数据挖掘、规则抽取的理论基传统的粗糙集理论[1)是基于等价关系来描述的，由等价关系粒化样本空间形成信息粒子，构造收稿日期：2017-04-23.网络出版日期：2017-07-03. 论域上的上、下近似算子，进而研究知识约简与知基金项目：国家自然科学基金项目(61572082,61673396,61473111 61363056):辽宁省教育厅项目(LZ2016003):辽宁省自然科识获取问题。但是经典粗糙集只适用于离散型的学基金项目(2014020142)：辽宁省高校创新团队计划项目数据，对于连续型数据，必须通过离散化才能处理。 (LT2014024). 通信作者：王长忠.E-mail:changzhongwang@126.com. 然而，数据的离散化会导致大量信息丢失，从而使

第１２卷第３期智能系统学报Ｖｏｌ．１２ №．３２０１７年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０４０３２网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０７０３．１８５４．０１６．ｈｔｍｌ连续型数据的辨识矩阵属性约简方法冯丹１，２，黄洋２，石云鹏２，王长忠２（１．国网葫芦岛供电公司信息通信分公司，辽宁葫芦岛１２５０００；２．渤海大学数理学院，辽宁锦州１２１０００）摘要：属性约简是粗糙集理论在数据处理方面的重要应用，已有的针对连续型数据的属性约简算法主要集中在基于正域的贪心算法，该方法只考虑了一致样本和其他样本的可辨识性，而忽略了边界样本点间可区分性。为了克服基于正域算法的缺点，提出了连续型数据的辨识矩阵属性约简模型，该模型不但考虑了正域样本的一致性，同时考虑了边界样本的可分性。基于该模型，分析了属性约简结构，定义了辨识矩阵来刻画特征子集的分类能力，构造了实值型数据的属性约简启发式算法，并利用ＵＣＩ标准数据集进行了验证。理论分析和实验结果表明，提出的算法能够有效地处理连续型数据，提高了数据的分类精度。关键词：邻域关系；粗糙集；属性约简；辨识矩阵；启发式算法中图分类号：ＴＰ３９１；ＴＰ２７４文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０３－０３７１－０６中文引用格式：冯丹，黄洋，石云鹏，等．连续型数据的辨识矩阵属性约简方法［Ｊ］．智能系统学报，２０１７，１２（３）：３７１－３７６．英文引用格式：ＦＥＮＧＤａｎ，ＨＵＡＮＧＹａｎｇ，ＳＨＩＹｕｎｐｅｎｇ，ｅｔａｌ．Ａｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｘ⁃ｂａｓｅｄａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｆｏｒｃｏｎｔｉｎｕｏｕｓｄａｔａ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（３）：３７１－３７６．Ａｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｘ⁃ｂａｓｅｄａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｆｏｒｃｏｎｔｉｎｕｏｕｓｄａｔａＦＥＮＧＤａｎ１，２，ＨＵＡＮＧＹａｎｇ２，ＳＨＩＹｕｎｐｅｎｇ２，ＷａｎｇＣｈａｎｇｚｈｏｎｇ２（１．ＩｎｆｏｒｍａｔｉｏｎａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎＢｒａｎｃｈ，ＳｔａｔｅＧｒｉｄＰｏｗｅｒＳｕｐｐｌｙＣｏｍｐａｎｙｏｆＨｕｌｕｄａｏ，Ｈｕｌｕｄａｏ１２５０００，Ｃｈｉｎａ；２．ＣｏｌｌｅｇｅｏｆＭａｔｈｅｍａｔｉｃｓａｎｄＰｈｙｓｉｃｓ，ＢｏｈａｉＵｎｉｖｅｒｓｉｔｙ，Ｊｉｎｚｈｏｕ１２１０００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｄａｔａｐｒｏｃｅｓｓｉｎｇ，ａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｉｓａｎｉｍｐｏｒｔａｎｔａｐｐｌｉｃａｔｉｏｎｏｆｒｏｕｇｈｓｅｔｔｈｅｏｒｙ．Ｔｈｅｅｘｉｓｔｉｎｇｍｅｔｈｏｄｓｆｏｒｃｏｎｔｉｎｕｏｕｓｄａｔａｍａｉｎｌｙｃｏｎｃｅｎｔｒａｔｅｏｎｔｈｅｇｒｅｅｄｙａｌｇｏｒｉｔｈｍｓｂａｓｅｄｏｎｔｈｅｐｏｓｉｔｉｖｅｒｅｇｉｏｎ．Ｔｈｅｓｅｍｅｔｈｏｄｓｔａｋｅａｃｃｏｕｎｔｏｆｏｎｌｙｔｈｅｉｄｅｎｔｉｆｉａｂｉｌｉｔｙｂｅｔｗｅｅｎｃｏｎｓｉｓｔｅｎｔｓａｍｐｌｅｓａｎｄｏｔｈｅｒｓａｍｐｌｅｓｗｈｉｌｅｉｇｎｏｒｉｎｇｄｉｓｔｉｎｇｕｉｓｈａｂｉｌｉｔｙａｍｏｎｇｔｈｅｂｏｕｎｄａｒｙｓａｍｐｌｅｓ．Ｔｏｏｖｅｒｃｏｍｅｔｈｅｄｉｓａｄｖａｎｔａｇｅｂａｓｅｄｏｎｔｈｅｐｏｓｉｔｉｖｅｄｏｍａｉｎａｌｇｏｒｉｔｈｍ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｎｅｗｍｅｔｈｏｄｆｏｒａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｕｓｉｎｇａｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｘ．Ｔｈｅｍｏｄｅｌｃｏｎｓｉｄｅｒｓｎｏｔｏｎｌｙｔｈｅｃｏｎｓｉｓｔｅｎｃｙｏｆｓａｍｐｌｅｓｉｎｔｈｅｐｏｓｉｔｉｖｅｒｅｇｉｏｎｂｕｔａｌｓｏｔｈｅｒｅｐａｒａｂｉｌｉｔｙｏｆｂｏｕｎｄａｒｙｓａｍｐｌｅｓ．Ｏｎｔｈｉｓｂａｓｉｓ，ｔｈｉｓｐａｐｅｒａｎａｌｙｚｅｓｔｈｅｓｔｒｕｃｔｕｒｅｏｆａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎａｎｄｄｅｆｉｎｅｓａｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｘｔｏｃｈａｒａｃｔｅｒｉｚｅｔｈｅｄｉｓｃｅｒｎｉｂｉｌｉｔｙａｂｉｌｉｔｙｏｆａｓｕｂｓｅｔｏｆａｔｔｒｉｂｕｔｅｓ．Ｎｅｘｔ，ａｎａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎａｌｇｏｒｉｔｈｍｗａｓｄｅｓｉｇｎｅｄｂａｓｅｄｏｎｔｈｅｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｘ．ＴｈｅｖａｌｉｄｉｔｙｏｆｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｗａｓｖｅｒｉｆｉｅｄｕｓｉｎｇＵＣＩｓｔａｎｄａｒｄｄａｔａｓｅｔｓａｎｄｔｈｅｏｒｅｔｉｃａｌａｎａｌｙｓｉｓ．Ｋｅｙｗｏｒｄｓ：ｎｅｉｇｈｂｏｒｈｏｏｄｒｅｌａｔｉｏｎ；ｒｏｕｇｈｓｅｔ；ａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎ；ｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｘ；ｈｅｕｒｉｓｔｉｃａｌｇｏｒｉｔｈｍ收稿日期：２０１７－０４－２３．网络出版日期：２０１７－０７－０３．基金项目：国家自然科学基金项目（６１５７２０８２，６１６７３３９６，６１４７３１１１，６１３６３０５６）；辽宁省教育厅项目（ＬＺ２０１６００３）；辽宁省自然科学基金项目（２０１４０２０１４２）；辽宁省高校创新团队计划项目（ＬＴ２０１４０２４）．通信作者：王长忠．Ｅ⁃ｍａｉｌ：ｃｈａｎｇｚｈｏｎｇｗａｎｇ＠１２６．ｃｏｍ．粗糙集理论是由波兰数学家Ｚ．Ｐａｗｌａｋ［１］于１９８２年提出的，它是一种处理不确定性知识的数据分析理论。目前粗糙集理论已被广泛应用于人工智能、过程控制、数据挖掘、决策支持以及知识发现等领域。属性约简是粗糙集理论的研究内容之一，它是利用粗糙集进行数据挖掘、规则抽取的理论基础。其主要思想是在确保信息表的分类能力不变的情况下，删除掉不必要属性，保留必要属性，从而导出问题的分类规则。属性约简无疑是在获取规则的过程中最重要的核心问题，历来受到大家的关注。传统的粗糙集理论［１－３］是基于等价关系来描述的，由等价关系粒化样本空间形成信息粒子，构造论域上的上、下近似算子，进而研究知识约简与知识获取问题。但是经典粗糙集只适用于离散型的数据，对于连续型数据，必须通过离散化才能处理。然而，数据的离散化会导致大量信息丢失，从而使

·372 智能系统学报第12卷计算的结果不能准确地反映分类信息。为此，经典 [x:]D=x;EUld(x;)=d(x) 粗糙集理论被进行了多角度的推广，其中包括邻域则称M。为U上的决策等价关系，[x:]。为x:的关粗糙集模型4-川、优势粗糙集模型-)、覆盖粗糙于M。的决策等价类。称(U,A,F,D)为基于邻域关集模型[14-6]、模糊粗糙集模型[7-2]等。邻域粗糙系的决策信息表，简称邻域决策表。若MCM。,则集模型是重要的推广模型之一，基于此模型，许多称(U,A,F,D)是协调的，否则，称它是不协调的。学者研究了不同的依赖度函数，并设计了相应的属 U上的所有决策等价类构成了U的一个划分，记性约简算法[4-山)。例如，Hus)利用邻域的概念定义为U/D={[x:]ox:∈U。了样本空间的决策正域，构造了邻域依赖度函数来同理，决策等价关系M。可以用关系矩阵N。来刻画属性的分类能力，用于处理混合数据的属性约表示。即对于任意x:,x∈U,如果x∈[x:]。,那么简：Zhao)根据数据精度设计了一个自适应性的邻记N,(i,j)=1,否则记N(i,)=0。域粗糙集模型，并给出了基于该模型的代价敏感属设(U,A,F,D)为决策表，U/D={X,X2,…, 性约简算法：Chen[】利用邻域粗糙集模型和信息测 X,}为决策划分，BCA,对于任意X:∈U/D,定义X 度为肿瘤分类进行特征选择：Zu)对邻域粗糙集的下近似为B(X)={x:∈U:6g(x:)≤X},D关于模型的边界进行分布优化，从而为粒度的选取和组 B的正域定义为POSg(D)=U=1B(X)。显然，合提供了新方法。然而，邻域粗糙集模型中的决策 POSg(D)SPOS,(D)。正域只考虑了一致性样本与其他样本的可辨识性，设a:∈BCA,如果POSg(D)=POSg-a(D),则忽略了边界样本的可分性。因此，基于正域的依赖称a:相对于D是B中不必要的属性；否则，称a:是度函数不能正确地刻画一个属性子集的分类能力。 B中必要的属性。如果POS(D)=POS,(D)且B中为了克服基于正域算法的缺点，本文提出了基于辨每一个属性相对于D都是B中必要的，则称B是A 识矩阵的属性约简算法。该算法克服了依赖度算的一个属性约简。法的局限性。定理1设(U,A,F,D={d})为决策表，BCA, 1 邻域关系决策表的属性约简则POSe(D)=POS,(D)的充要条件是：对于任意 x,∈0，如果满足以下条件之一，即设(U,A,F)为信息表，其中，U={x1,x2,…,xn} 1)x:∈POS,(D),x年POS(D)Ad(x)≠d(x); 为样本集合，A={a1,a2,…,am}是属性集合，F={f: 2)x:,xeP0S(D)Λ[x:]∩[x]o=☑： j≤m}为U和A的关系集，f:U→V,j≤m,V,为属性则有x,生8(x:)=xδ(x:)。 a的值域。证明充分性证明。设Hx:,x∈U,如果x:∈ 定义1 设U={x1,x2,…,xn}为样本集， POS4(D)和x生POS4(D)且d(x:)≠d(x),则3 BCA,令 X。∈U/D使得x,∈A(X。)以及xX,于是8，(x:)C M={(x:x)∈U×U:lf(x)-f(x)≤e,Ha∈B} X。,从而x8(x:)。由于POS(D)=POS4(D),所则称M。为U上的邻域关系，称(U,A,F)为基于邻以对于任意X∈U/D,都有B(X,)=A(X:),当然也域关系的信息系统，简称邻域信息表，ε表示相似度有A(X。)=B(X)。由x:∈A(X),可得x:∈B(X),于阈值。对于任意x,∈U,令是6(x)CX。,因此x8(x:)o δ(x:）={x∈U:(x:,x）∈Mg} 如果x,E POS(D)且[x:]n∩[x]n=☑，则则称δ(x:)为x:关于Ms的邻域。存在X。和X,∈U/D使得X。≠X1且满足x:∈A(X。) 邻域关系可以用一个关系矩阵来表示。设属以及x生X。由x:∈A(X,)可得6，(x:)二X。,从而性a1∈A,对于任意x:,x∈U,如果x∈8，(x:),那么 xδ：(x:)。类似地，由于POSB(D)=POS,(D),所记N,(i,)=1,否则记N,(i,j)=0。因此，一个属性以A(X)=B(X)。由x:∈A(X。),可得x:∈ a,唯一地对应一个关系矩阵N,。而属性集合A的 B(X。)。从而8s(x)CX。,因此x生8B(x:)。关系矩阵可以由公式N,=∩4，计算。必要性证明。设x:∈POS,(D),所以存在X。∈ 定义2设(U,A,F,D={d})为决策表，其中 U/D使得8，(x:)CX。对于满足x年POS.(D)且 (U,A,F)为信息表，A={a1,a2,…am},D为决策属 d(x:)≠d(x)的任意x∈U,有x年X。,因此x 性。对于任意x∈U,令 6,(x)。由于x年84(x)→x8(x:),所以8(x:) M。={(x:,x)∈U×Ud(x:)=d(x) X,从而x:∈POSB(D)。于是POS,(D)CPOS(D)

计算的结果不能准确地反映分类信息。为此，经典粗糙集理论被进行了多角度的推广，其中包括邻域粗糙集模型［４－１１］、优势粗糙集模型［１２－１３］、覆盖粗糙集模型［１４－１６］、模糊粗糙集模型［１７－２２］等。邻域粗糙集模型是重要的推广模型之一，基于此模型，许多学者研究了不同的依赖度函数，并设计了相应的属性约简算法［４－１１］。例如，Ｈｕ［５］利用邻域的概念定义了样本空间的决策正域，构造了邻域依赖度函数来刻画属性的分类能力，用于处理混合数据的属性约简；Ｚｈａｏ［７］根据数据精度设计了一个自适应性的邻域粗糙集模型，并给出了基于该模型的代价敏感属性约简算法；Ｃｈｅｎ［８］利用邻域粗糙集模型和信息测度为肿瘤分类进行特征选择；Ｚｈｕ［９］对邻域粗糙集模型的边界进行分布优化，从而为粒度的选取和组合提供了新方法。然而，邻域粗糙集模型中的决策正域只考虑了一致性样本与其他样本的可辨识性，忽略了边界样本的可分性。因此，基于正域的依赖度函数不能正确地刻画一个属性子集的分类能力。为了克服基于正域算法的缺点，本文提出了基于辨识矩阵的属性约简算法。该算法克服了依赖度算法的局限性。１邻域关系决策表的属性约简设（Ｕ，Ａ，Ｆ）为信息表，其中，Ｕ＝｛ｘ１，ｘ２，…，ｘｎ｝为样本集合，Ａ＝｛ａ１，ａ２，…，ａｍ｝是属性集合，Ｆ＝｛ｆｊ：ｊ≤ｍ｝为Ｕ和Ａ的关系集，ｆｊ：Ｕ→Ｖｊ，ｊ≤ｍ，Ｖｊ为属性ａｊ的值域。定义１设Ｕ＝｛ｘ１，ｘ２， …，ｘｎ｝为样本集，Ｂ⊆Ａ，令ＭＢ＝｛（ｘｉ，ｘｊ） ∈Ｕ × Ｕ：ｆａ（ｘｉ）－ｆａ（ｘｊ） ≤ε，∀ａ ∈Ｂ｝则称ＭＢ为Ｕ上的邻域关系，称（Ｕ，Ａ，Ｆ）为基于邻域关系的信息系统，简称邻域信息表，ε 表示相似度阈值。对于任意ｘｉ∈Ｕ，令 δＢ（ｘｉ）＝｛ｘｊ ∈ Ｕ：（ｘｉ，ｘｊ） ∈ ＭＢ｝则称 δＢ（ｘｉ）为ｘｉ关于ＭＢ的邻域。邻域关系可以用一个关系矩阵来表示。设属性ａｌ∈Ａ，对于任意ｘｉ，ｘｊ∈Ｕ，如果ｘｊ∈δａｌ（ｘｉ），那么记Ｎｌ（ｉ，ｊ）＝１，否则记Ｎｌ（ｉ，ｊ）＝０。因此，一个属性ａｌ唯一地对应一个关系矩阵Ｎｌ。而属性集合Ａ的关系矩阵可以由公式ＮＡ＝∩ａｌ∈ＡＮｌ计算。定义２设（Ｕ，Ａ，Ｆ，Ｄ＝｛ｄ｝）为决策表，其中（Ｕ，Ａ，Ｆ）为信息表，Ａ＝｛ａ１，ａ２，…ａｍ｝，Ｄ为决策属性。对于任意ｘ∈Ｕ，令ＭＤ＝（ｘｉ，ｘｊ） ∈ Ｕ × Ｕｄ（ｘｉ）＝ｄ（ｘ { ｊ）} ［ｘｉ］Ｄ＝｛ｘｊ ∈ Ｕｄ（ｘｉ）＝ｄ（ｘｊ）｝则称ＭＤ为Ｕ上的决策等价关系，ｘｉ [ ] Ｄ为ｘｉ的关于ＭＤ的决策等价类。称（Ｕ，Ａ，Ｆ，Ｄ）为基于邻域关系的决策信息表，简称邻域决策表。若ＭＡ⊆ＭＤ，则称（Ｕ，Ａ，Ｆ，Ｄ）是协调的，否则，称它是不协调的。Ｕ上的所有决策等价类构成了Ｕ的一个划分，记为Ｕ／Ｄ＝ｘｉ [ ] Ｄｘ { ｉ∈Ｕ} 。同理，决策等价关系ＭＤ可以用关系矩阵ＮＤ来表示。即对于任意ｘｉ，ｘｊ∈Ｕ，如果ｘｊ∈［ｘｉ］Ｄ，那么记ＮＤ（ｉ，ｊ）＝１，否则记ＮＤ（ｉ，ｊ）＝０。设（Ｕ，Ａ，Ｆ，Ｄ）为决策表，Ｕ／Ｄ＝｛Ｘ１，Ｘ２，…，Ｘｒ｝为决策划分，Ｂ⊆Ａ，对于任意Ｘｋ∈Ｕ／Ｄ，定义Ｘｋ的下近似为Ｂ（Ｘｋ）＝｛ｘｉ ∈Ｕ：δＢ（ｘｉ） ⊆Ｘ｝，Ｄ关于Ｂ的正域定义为ＰＯＳＢ（Ｄ）＝ ∪ｒｋ＝１Ｂ（Ｘｋ）。显然，ＰＯＳＢ（Ｄ）⊆ＰＯＳＡ（Ｄ）。设ａｉ∈Ｂ⊆Ａ，如果ＰＯＳＢ（Ｄ）＝ＰＯＳＢ－｛ａｉ｝（Ｄ），则称ａｉ相对于Ｄ是Ｂ中不必要的属性；否则，称ａｉ是Ｂ中必要的属性。如果ＰＯＳＢ（Ｄ）＝ＰＯＳＡ（Ｄ）且Ｂ中每一个属性相对于Ｄ都是Ｂ中必要的，则称Ｂ是Ａ的一个属性约简。定理１设（Ｕ，Ａ，Ｆ，Ｄ＝｛ｄ｝）为决策表，Ｂ⊆Ａ，则ＰＯＳＢ（Ｄ）＝ＰＯＳＡ（Ｄ）的充要条件是：对于任意ｘｉ，ｘｊ∈Ｕ，如果满足以下条件之一，即１）ｘｉ∈ＰＯＳＡ（Ｄ），ｘｊ∉ＰＯＳＡ（Ｄ）∧ｄ（ｘｉ）≠ｄ（ｘｊ）；２）ｘｉ，ｘｊ∈ＰＯＳＡ（Ｄ）∧［ｘｉ］Ｄ∩［ｘｊ］Ｄ＝∅；则有ｘｊ∉δＡ（ｘｉ）⇒ｘｊ∉δＢ（ｘｉ）。证明充分性证明。设∀ｘｉ，ｘｊ∈Ｕ，如果ｘｉ ∈ ＰＯＳＡ（Ｄ）和ｘｊ∉ＰＯＳＡ（Ｄ）且ｄ（ｘｉ） ≠ｄ（ｘｊ），则∃ Ｘ０∈Ｕ／Ｄ使得ｘｉ∈Ａ（Ｘ０）以及ｘｊ∉Ｘ０，于是 δＡ（ｘｉ）⊆ Ｘ０，从而ｘｊ∉δＡ（ｘｉ）。由于ＰＯＳＢ（Ｄ）＝ＰＯＳＡ（Ｄ），所以对于任意Ｘｋ∈Ｕ／Ｄ，都有Ｂ（Ｘｋ）＝Ａ（Ｘｋ），当然也有Ａ（Ｘ０）＝Ｂ（Ｘ０）。由ｘｉ∈Ａ（Ｘ０），可得ｘｉ∈Ｂ（Ｘ０），于是 δＢ（ｘｉ）⊆Ｘ０，因此ｘｊ∉δＢ（ｘｉ）。如果ｘｉ，ｘｊ∈ＰＯＳＡ（Ｄ）且［ｘｉ］Ｄ∩［ｘｊ］Ｄ＝ ∅，则存在Ｘ０和Ｘ１∈Ｕ／Ｄ使得Ｘ０≠Ｘ１且满足ｘｉ∈Ａ（Ｘ０）以及ｘｊ∉Ｘ０。由ｘｉ∈Ａ（Ｘ０）可得 δＡ（ｘｉ） ⊆Ｘ０，从而ｘｊ∉δＡ（ｘｉ）。类似地，由于ＰＯＳＢ（Ｄ）＝ＰＯＳＡ（Ｄ），所以Ａ（Ｘ０）＝Ｂ（Ｘ０）。由ｘｉ ∈ Ａ（Ｘ０），可得ｘｉ ∈ Ｂ（Ｘ０）。从而 δＢ（ｘｉ）⊆Ｘ０，因此ｘｊ∉δＢ（ｘｉ）。必要性证明。设ｘｉ∈ＰＯＳＡ（Ｄ），所以存在Ｘ０∈ Ｕ／Ｄ使得 δＡ（ｘｉ） ⊆Ｘ０。对于满足ｘｊ ∉ＰＯＳＡ（Ｄ）且ｄ（ｘｉ）≠ｄ（ｘｊ）的任意ｘｊ ∈Ｕ，有ｘｊ ∉Ｘ０，因此ｘｊ ∉ δＡ（ｘｉ）。由于ｘｊ∉δＡ（ｘｉ）⇒ｘｊ∉δＢ（ｘｉ），所以 δＢ（ｘｉ）⊆ Ｘ０，从而ｘｉ∈ＰＯＳＢ（Ｄ）。于是ＰＯＳＡ（Ｄ）⊆ＰＯＳＢ（Ｄ）， ·３７２· 智能系统学报第１２卷

第3期冯丹，等：连续型数据的辨识矩阵属性约简方法 ·373· 而POSg(D)CPOS,(D)显然成立，因此POSB(D)= 表1病例决策信息表 P0S,(D)。 Table 1 Decision information for cases 另设x,x∈POS4(D)且[x:]。∩[x]。=☑，则序号 a 存在X,X,∈U/D(X。≠X)使得8(x:)≤X。=[x:]D 0.66 0.45 0.20 0.82 和8(x)CX1=[x]0。由于x4(x:)→x X2 0.47 0.30 0.06 0.65 1 6(x:),所以6(x:)CX。,从而x:∈POSg(D)。于是 X3 0.05 0.80 0.40 0.10 2 POS(D)CPOS(D),而POSB(D)CPOS,(D)是显 0.35 0.51 0.00 0.52 2 然成立的，因此POS(D)=POS4(D)。综上所述，结 0.31 0.20 0.15 0.70 论成立。根据定理1可以定义如下的辨识矩阵。 0.00 1.00 0.20 0.00 2 定义3设(U,A,F,D={d})为决策表，U= 取￡=0.25，根据定义1和定义2，计算关系矩阵 {x1,x2,…,xn},A={a1,a2,am},令 N,(i≤4)、N,以及决策关系矩阵N。分别为 DIS =(x,)x;EPOS,(D),;POS,(D)A 110000 110110 111111 d(x:)≠d(x)}U{(x,x)lx,x∈ 110110 110110 110111 P0S,(D)A[x:]。∩[x]。= 001001 001001 101011 N,= ,N3= 则称DIS为决策表(U,A,F,D)的可辨识域。对于 010110 ,N2= 110100 110111 任意的样本对(x:,x)eDIS,记 010110 110010 111111 {a∈A:年δn(x:)},(x:,x)∈DIS 001001 001001] 111111 DM(i,j)= 110010 110000 110010 (A,(x,x)生DIS 110110 110110 110010 则称DM(i,j)为x,x的辩识集合，称DM为基于 001001 001001 001101 邻域关系的辨识矩阵。 N .NA= ,N= 010110 010100 001101 定理2设DM为决策表(U,A,F,D={d})的 110110 010010 110010 辨识矩阵，B二A,则B是决策表的一个约简的充要 001001 001001 001101」条件是：B满足B∩DM(i,j)≠☑，Hx:,x∈U的最说明N4￠N。由以上计算知，POS(D)={x1,x, 小子集。 x5,x6}。根据定义3，得到辨识矩阵如表2所示。定理2说明通过辨识矩阵可以等价地刻画决策表2病例决策信息表的辨识矩阵表的属性约简。下面给出决策表的属性约简的辨 Table 2 Discernibility matrix of case decisions 识公式。通过析取和合取运算可以获得决策表的序号 X2 全部约简。 a1,a2,a4a1,a4 1,a2,a4 定义4设DM为决策表(U,A,F,D)的辨识矩阵，U={x1,x2,…,xn},辨识函数定义为 A y A f(U,A,F,D)=A (V DM(i,j)) x3 a1,a2,d4 A A a1,2,a4 A i.i=1 定理3设f(U,A,F,D)为决策表(U,A,F,D) A A A 的辨识函数，如果通过析取和合取运算，有 A A a1,a2,a4 a1,a2,a4 f(U,A,F,D)=V (A B) x6a1,a2,a4a1,a2,a4 A A a,a,aa A k=1 式中：B,CA,且B中每个属性只能出现一次。则称所以，可得决策表的辨识函数为 {B:k≤}是A的所有约简组成的集类。 f=(a Va)A(a VaVa)Aa2= A的所有约简组成的集类记为RED,(A)={B: (a1∧a2)V(a2Aa4) k≤}。因此{a1,a2}和{a2,a4}是病例决策表的两个下面通过一个具体的实例来说明应用辨识矩约简。阵方法如何求解邻域决策表的属性约简。 2属性约简算法例1表1是具有4种症状a1、a2、a3、a4的某些病例信息，具体描述如表1所示。经典粗糙集算法是以等价关系作为聚类标准

而ＰＯＳＢ（Ｄ）⊆ＰＯＳＡ（Ｄ）显然成立，因此ＰＯＳＢ（Ｄ）＝ＰＯＳＡ（Ｄ）。另设ｘｉ，ｘｊ∈ＰＯＳＡ（Ｄ）且［ｘｉ］Ｄ∩［ｘｊ］Ｄ＝ ∅，则存在Ｘ０，Ｘ１∈Ｕ／ＤＸ０≠Ｘ１ ( ) 使得 δＡ（ｘｉ）⊆Ｘ０＝［ｘｉ］Ｄ和 δＡ（ｘｊ） ⊆ Ｘ１＝［ｘｊ］Ｄ。由于ｘｊ ∉ δＡ（ｘｉ） ⇒ ｘｊ ∉ δＢ（ｘｉ），所以 δＢ（ｘｉ）⊆Ｘ０，从而ｘｉ∈ＰＯＳＢ（Ｄ）。于是ＰＯＳＡ（Ｄ） ⊆ＰＯＳＢ（Ｄ），而ＰＯＳＢ（Ｄ）⊆ＰＯＳＡ（Ｄ）是显然成立的，因此ＰＯＳＢ（Ｄ）＝ＰＯＳＡ（Ｄ）。综上所述，结论成立。根据定理１可以定义如下的辨识矩阵。定义３设（Ｕ，Ａ，Ｆ，Ｄ＝｛ｄ｝）为决策表，Ｕ＝｛ｘ１，ｘ２，…，ｘｎ｝，Ａ＝｛ａ１，ａ２，…ａｍ｝，令ＤＩＳ＝｛（ｘｉ，ｘｊ）ｘｉ ∈ＰＯＳＡ（Ｄ），ｘｊ ∉ ＰＯＳＡ（Ｄ） ∧ ｄ（ｘｉ） ≠ ｄ（ｘｊ）｝ ∪ ｛（ｘｉ，ｘｊ）ｘｉ，ｘｊ ∈ ＰＯＳＡ（Ｄ） ∧ ［ｘｉ］Ｄ ∩ ［ｘｊ］Ｄ＝ ∅｝则称ＤＩＳ为决策表（Ｕ，Ａ，Ｆ，Ｄ）的可辨识域。对于任意的样本对（ｘｉ，ｘｊ）∈ＤＩＳ，记ＤＭ（ｉ，ｊ）＝｛ａｌ ∈ Ａ：ｘｊ ∉ δａｌ（ｘｉ）｝，（ｘｉ，ｘｊ） ∈ ＤＩＳＡ，（ｘｉ，ｘｊ） ∉ ＤＩＳ { 则称ＤＭ（ｉ，ｊ）为ｘｉ，ｘｊ的辩识集合，称ＤＭ为基于邻域关系的辨识矩阵。定理２设ＤＭ为决策表（Ｕ，Ａ，Ｆ，Ｄ＝｛ｄ｝）的辨识矩阵，Ｂ⊆Ａ，则Ｂ是决策表的一个约简的充要条件是：Ｂ满足Ｂ∩ＤＭ（ｉ，ｊ）≠∅，∀ｘｉ，ｘｊ∈Ｕ的最小子集。定理２说明通过辨识矩阵可以等价地刻画决策表的属性约简。下面给出决策表的属性约简的辨识公式。通过析取和合取运算可以获得决策表的全部约简。定义４设ＤＭ为决策表（Ｕ，Ａ，Ｆ，Ｄ）的辨识矩阵，Ｕ＝｛ｘ１，ｘ２，…，ｘｎ｝，辨识函数定义为ｆ(Ｕ，Ａ，Ｆ，Ｄ) ＝ ∧ ｎｉ，ｊ＝１（∨ ＤＭ（ｉ，ｊ））定理３设ｆ（Ｕ，Ａ，Ｆ，Ｄ）为决策表（Ｕ，Ａ，Ｆ，Ｄ）的辨识函数，如果通过析取和合取运算，有ｆ（Ｕ，Ａ，Ｆ，Ｄ）＝∨ ｌｋ＝１（∧ Ｂｋ）式中：Ｂｋ⊆Ａ，且Ｂｋ中每个属性只能出现一次。则称 {Ｂｋ：ｋ≤ｌ}是Ａ的所有约简组成的集类。Ａ的所有约简组成的集类记为ＲＥＤＤ（Ａ）＝｛Ｂｋ：ｋ≤ｌ｝。下面通过一个具体的实例来说明应用辨识矩阵方法如何求解邻域决策表的属性约简。例１表１是具有４种症状ａ１、ａ２、ａ３、ａ４的某些病例信息，具体描述如表１所示。表１病例决策信息表Ｔａｂｌｅ１Ｄｅｃｉｓｉｏｎｉｎｆｏｒｍａｔｉｏｎｆｏｒｃａｓｅｓ序号ａ１ａ２ａ３ａ４Ｄｘ１０．６６０．４５０．２００．８２１ｘ２０．４７０．３００．０６０．６５１ｘ３０．０５０．８００．４００．１０２ｘ４０．３５０．５１０．０００．５２２ｘ５０．３１０．２００．１５０．７０１ｘ６０．００１．０００．２００．００２取 ε ＝０．２５，根据定义１和定义２，计算关系矩阵Ｎｌ（ｉ≤４）、ＮＡ以及决策关系矩阵ＮＤ分别为Ｎ１＝１１００００１１０１１０００１００１０１０１１００１０１１０００１００１ é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ，Ｎ２＝１１０１１０１１０１１０００１００１１１０１００１１００１０００１００１ é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ，Ｎ３＝１１１１１１１１０１１１１０１０１１１１０１１１１１１１１１１１１１１１ é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú Ｎ４＝１１００１０１１０１１０００１００１０１０１１０１１０１１０００１００１ é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ，ＮＡ＝１１００００１１０１１０００１００１０１０１０００１００１０００１００１ é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ，ＮＤ＝１１００１０１１００１０００１１０１００１１０１１１００１０００１１０１ é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú 说明ＮＡ⊄ＮＤ。由以上计算知，ＰＯＳＡ（Ｄ）＝｛ｘ１，ｘ３，ｘ５，ｘ６｝。根据定义３，得到辨识矩阵如表２所示。表２病例决策信息表的辨识矩阵Ｔａｂｌｅ２Ｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｘｏｆｃａｓｅｄｅｃｉｓｉｏｎｓ序号ｘ１ｘ２ｘ３ｘ４ｘ５ｘ６ｘ１ＡＡａ１，ａ２，ａ４ａ１，ａ４Ａａ１，ａ２，ａ４ｘ２ＡＡＡＡＡＡｘ３ａ１，ａ２，ａ４ＡＡＡａ１，ａ２，ａ４Ａｘ４ＡＡＡＡＡＡｘ５ＡＡａ１，ａ２，ａ４ＡＡａ１，ａ２，ａ４ｘ６ａ１，ａ２，ａ４ａ１，ａ２，ａ４ＡＡａ１，ａ２，ａ４Ａ所以，可得决策表的辨识函数为ｆ＝（ａ１ ∨ ａ４） ∧ （ａ１ ∨ ａ２ ∨ ａ４） ∧ ａ２＝（ａ１ ∧ ａ２） ∨ （ａ２ ∧ ａ４）因此｛ａ１，ａ２｝和｛ａ２，ａ４｝是病例决策表的两个约简。２属性约简算法经典粗糙集算法是以等价关系作为聚类标准第３期冯丹，等：连续型数据的辨识矩阵属性约简方法 ·３７３·

·374· 智能系统学报第12卷的。对于数值型数据集，首先进行离散化并构造等计算正域POS,(D) 价关系。若两个样本在所有属性上取值一样，那么这两个样本就为一类，否则不是一类。而在离散化 Va,eA,计算可辨识矩阵y 过程中，避免不了信息流失，而这恰恰是当今研究计算可辨识矩阵W 的热点。本算法通过定义一个距离参数，考虑某两个样本在属性上的相似程度。如果两个样本之间赋初值REDA 距离小于阈值，则这两个样本就可以聚为一类，这 a,eRED,计算N:Ro和sUm(N,En】比经典粗糙集的理论显然更多地考虑了样本之间选择最优的a,并且RED-{A-a} 的联系，避免大量信息的流失，从而提高了属性约简的精度。由于利用定理3去搜索决策表的全部约 e,令N,(i)=1,否则令N,(i,j)= 为了说明该算法的有效性和可行性，首先对各个数 0:当N(i,j)=1,令N,(i,j)=0。据集进行了属性约简，选取约简数据的最高分类精 4)计算N4=UN,RED-A。度所对应的属性数目进行比较，具体结果如表4所 5)a,∈A,计算N1ta和sum(N1i-a),其中示，其中ε列表示对应数据约简后所取得的最高分 sum(N)表示对矩阵V的行列求和。类精度的相似度阈值的取值。表5和表6分别给出 6)选择满足sum（Niod-a4l）=max（sum 了各个数据集属性约简前后的分类精度。 (Nid)的ak,令RED4-{A-ak}。表3数据描述 7)如果(sum(N4)-sum(N))/|U<8,输出约 Table 3 Data information 简RED。否则，转到5)。序号 Data sets Samples Numerical Classes 了更好地理解所提出的算法，下面给出该算法 1 Glass 214 10 6 的流程图，如图1。 2 Colon 62 1224 2 3实验分析 Wine 178 13 3 为了验证算法的有效性，从一些文献中选出4 Wdbe 569 30 2 个相关的属性约简方法与本文所提的算法作比较。这4个算法分别是经典粗糙集算法(FCMRS)[)、邻 Prostate 102 12625 2 域粗糙集算法(NBRS)[、邻域粗糙信息测度算法从表4中可以看出，这5种属性约简方法都能 (NBIM)[]以及自适应邻域粗糙集模型够有效地对数据集进行属性约简。FCMRS算法选 (APTNB))。本实验主要从算法选择的属性数目取的属性数目最少，DISRS算法次之。表5和表6 和相应的分类精度两个方面进行比较。计算机运表明，DISRS算法的分类精度最高，FCMRS算法的行的环境参数为：奔腾双核，CPUE52001.90GHz, 分类精度最低。同时，DISRS算法所对应的分类精 RAM4.0GB,软件为MATLAB2007。度明显好于其他方法。10次分类任务，DISRS算法

的。对于数值型数据集，首先进行离散化并构造等价关系。若两个样本在所有属性上取值一样，那么这两个样本就为一类，否则不是一类。而在离散化过程中，避免不了信息流失，而这恰恰是当今研究的热点。本算法通过定义一个距离参数，考虑某两个样本在属性上的相似程度。如果两个样本之间距离小于阈值，则这两个样本就可以聚为一类，这比经典粗糙集的理论显然更多地考虑了样本之间的联系，避免大量信息的流失，从而提高了属性约简的精度。由于利用定理３去搜索决策表的全部约简是一个ＮＰ问题，因此利用本文提出的辨识矩阵的概念来构造一个启发式算法。算法辨识矩阵属性约简算法（ＤＩＳＲＳ）。输入（Ｕ，Ａ，Ｄ＝｛ｄ｝），阈值 θ ／／ θ 是用于算法停止搜索的阈值。输出约简ＲＥＤ。１）计算正域ＰＯＳＡ（Ｄ）。２）计算出关系矩阵ＮＤ，即对于任意的样本ｘｉ，ｘｊ∈Ｕ，若ｄ（ｘｉ） ≠ｄ（ｘｊ），令ＮＤ（ｉ，ｊ）＝０，否则，令ＮＤ（ｉ，ｊ）＝１。３）∀ａｌ∈Ａ，计算可辨识矩阵Ｎｌ，对于任意ｘｉ∈ ＰＯＳＡ（Ｄ）和任意ｘｊ ∈ Ｕ，当ＮＤ（ｉ，ｊ）＝０时，若ｆｌ（ｘｉ）－ｆｌ（ｘｊ）＞ε，令Ｎｌ（ｉ，ｊ）＝１，否则令Ｎｌ（ｉ，ｊ）＝０；当ＮＤ（ｉ，ｊ）＝１，令Ｎｌ（ｉ，ｊ）＝０。４）计算ＮＡ＝∪Ｎｌ，ＲＥＤ←Ａ。５）∀ａｌ∈Ａ，计算Ｎ｛ｒｅｄ－ａｌ｝和ｓｕｍ（Ｎ｛ｒｅｄ－ａｌ｝），其中ｓｕｍ（Ｎ｛ｒｅｄ－ａｌ｝）表示对矩阵Ｎ｛ｒｅｄ－ａｌ｝的行列求和。６）选择满足ｓｕｍ（Ｎ｛ｒｅｄ－ａｋ｝）＝ｍａｘｉ（ｓｕｍ（Ｎ｛ｒｅｄ－ａｉ｝））的ａｋ，令ＲＥＤ←｛Ａ－ａｋ｝。７）如果（ｓｕｍ（ＮＡ）－ｓｕｍ（Ｎｒｅｄ））／Ｕ＜θ，输出约简ＲＥＤ。否则，转到５）。了更好地理解所提出的算法，下面给出该算法的流程图，如图１。３实验分析为了验证算法的有效性，从一些文献中选出４个相关的属性约简方法与本文所提的算法作比较。这４个算法分别是经典粗糙集算法（ＦＣＭＲＳ）［１］、邻域粗糙集算法（ＮＢＲＳ）［５］、邻域粗糙信息测度算法（ＮＢＩＭ）［８］以及自适应邻域粗糙集模型（ＡＰＴＮＢ）［７］。本实验主要从算法选择的属性数目和相应的分类精度两个方面进行比较。计算机运行的环境参数为：奔腾双核，ＣＰＵＥ５２００１．９０ＧＨｚ，ＲＡＭ４．０ＧＢ，软件为ＭＡＴＬＡＢ２００７。图１属性约简算法流程图Ｆｉｇ．１Ｆｌｏｗｃｈａｒｔｏｆａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎ本实验采用Ｋ近邻（ＫＮＮ，Ｋ＝３）和支持向量机（ＲＢＦ⁃ＳＶＭ）分类器来评估这些属性约简算法的优劣，ＲＢＦ⁃ＳＶＭ分类器中参数采用默认值。数据的分类精度是基于十折交叉验证方法计算的。从ＵＣＩ数据集中选择了５个数值型的数据集，其属性和分类信息描述如表３所示。在本文所提的算法（ＤＩＳＲＳ）中，停止搜索的阈值 θ 设置为 θ ＝０．００５。为了说明该算法的有效性和可行性，首先对各个数据集进行了属性约简，选取约简数据的最高分类精度所对应的属性数目进行比较，具体结果如表４所示，其中 ε 列表示对应数据约简后所取得的最高分类精度的相似度阈值的取值。表５和表６分别给出了各个数据集属性约简前后的分类精度。表３数据描述Ｔａｂｌｅ３Ｄａｔａｉｎｆｏｒｍａｔｉｏｎ序号ＤａｔａｓｅｔｓＳａｍｐｌｅｓＮｕｍｅｒｉｃａｌＣｌａｓｓｅｓ１Ｇｌａｓｓ２１４１０６２Ｃｏｌｏｎ６２１２２４２３Ｗｉｎｅ１７８１３３４Ｗｄｂｃ５６９３０２５Ｐｒｏｓｔａｔｅ１０２１２６２５２从表４中可以看出，这５种属性约简方法都能够有效地对数据集进行属性约简。ＦＣＭＲＳ算法选取的属性数目最少，ＤＩＳＲＳ算法次之。表５和表６表明，ＤＩＳＲＳ算法的分类精度最高，ＦＣＭＲＳ算法的分类精度最低。同时，ＤＩＳＲＳ算法所对应的分类精度明显好于其他方法。１０次分类任务，ＤＩＳＲＳ算法 ·３７４· 智能系统学报第１２卷

第3期冯丹，等：连续型数据的辨识矩阵属性约简方法 ·375· 获得了8次最高分类精度，APTNB获得了2次，数用于分类，因此属性约简后的数据分类精度明显 NBIM获得了1次，而FCMRS和NBRS算法没有获高于FCMRS算法。然而，NBRS、NBIM和APTNB 得最高分类精度。但是NBRS算法的性能要比算法只考虑一致样本和其他样本的可辨识性，忽略 FCMRS方法好很多。这说明邻域粗糙集模型在处了边界样本点间可区分性，因此这3种算法的分类理连续型数据时比经典粗糙集方法具有更大的优精度低于DISRS算法精度。而DISRS算法克服了势。造成FCMRS算法选择的属性数目少、分类精 NBRS、NBM和APTNB算法的缺点，因此，在数据度低的原因，可能是由于FCMRS算法固有的离散实验分析中取得了较好的性能，即DISRS算法的分化步骤破坏了原有数据的分类信息。而NBRS、类精度不仅高于其他算法，而且有效地删减了属 NBM和APTNB算法避免了离散化步骤，直接利用性。根据数据实验分析表明，本文提出的算法是行相似关系粒化数据空间，构造分类目标的依赖度函之有效的，达到了理论预期的效果。表4属性约简的结果 Table 4 Result of attribute reduction Data sets Raw data FCMRS NBRS NBIM APTNB DISRS Glass 10 J 8 6 0.225 Colon 1224 4 10 13 8 8 0.275 Wine 13 6 9 10 6 > 0.425 Wdbe 30 > 16 8 19 12 0.325 Prostate 12625 2 4 3 4 3 0.25 平均值 2780.4 48 9.4 10.4 8.8 7.2 表5约简数据的SVM后的分类精度 Table5 Classification accuracy of reduced data with SVM % Data sets Raw data FCMRS NBRS NBIM APTNB DISRS Glass 91.58±11.02 89.33±3.06 92.32±6.86 92.56±6.12 93.07±5.33 94.43±4.36 Colon 76.17±17.23 81.07±14.28 82.67±11.78 83.11±12.32 83.46±10.69 84.86±10.11 Wine 95.56±3.33 92.11±3.56 96.18±2.72 95.27±3.64 96.78±2.22 96.78±3.89 Wdbe 94.03±4.83 93.06±8.47 96.81±4.80 97.20±3.59 97.00±2.94 97.17±3.12 Prostate 81.23±15.83 81.86±13.47 85.86±10.81 86.55±12.35 88.39±11.88 88.86±9.98 平均值 87.71±10.45 86.09±7.14 90.77±8.04 90.94±7.60 91.74±6.61 92.42±6.29 表6约简数据的3NN分类精度 Table 6 Classification accuracy of reduced data with 3NN 号 Data sets Raw data FCMRS NBRS NBIM APTNB DISRS Glass 89.73±6.72 89.10±5.00 91.43±5.49 91.37±4.87 91.44±3.98 93.34±3.00 Colon 76.15±16.55 78.33±13.06 81.88±12.08 82.85±11.77 82.76±10.98 83.71±10.23 Wine 94.52±5.63 92.45±6.82 96.78±1.67 97.19±1.08 96.43±3.56 97.22±1.98 Wdbe 94.62±2.57 92.26±7.33 97.00±1.82 97.00±3.16 97.00±3.05 97.17±2.18 Prostate 89.73±6.72 89.10±5.00 91.43±5.49 92.37±4.87 93.44±3.98 93.34±3.00 平均值 87.18±9.50 86.80±9.31 90.29±6.86 90.87±6.71 91.02±6.62 91.75±5.57 致样本有关，也与边界样本有关。而辨识矩阵的 4 结束语概念正好反映了一组特征的区分能力。本文研究邻域粗糙集中基于正域的贪心算法只考虑了了基于邻域辨识矩阵的属性约简方法，设计了启发区分一致性样本和异类样本，忽略了边界样本间的式属性约简的算法，并通过UCI数据集验证了该算区分性。事实上，一个属性子集的分类能力不仅与法的有效性。未来的工作将讨论该方法在分类决

获得了８次最高分类精度，ＡＰＴＮＢ获得了２次，ＮＢＩＭ获得了１次，而ＦＣＭＲＳ和ＮＢＲＳ算法没有获得最高分类精度。但是ＮＢＲＳ算法的性能要比ＦＣＭＲＳ方法好很多。这说明邻域粗糙集模型在处理连续型数据时比经典粗糙集方法具有更大的优势。造成ＦＣＭＲＳ算法选择的属性数目少、分类精度低的原因，可能是由于ＦＣＭＲＳ算法固有的离散化步骤破坏了原有数据的分类信息。而ＮＢＲＳ、ＮＢＩＭ和ＡＰＴＮＢ算法避免了离散化步骤，直接利用相似关系粒化数据空间，构造分类目标的依赖度函数用于分类，因此属性约简后的数据分类精度明显高于ＦＣＭＲＳ算法。然而，ＮＢＲＳ、ＮＢＩＭ和ＡＰＴＮＢ算法只考虑一致样本和其他样本的可辨识性，忽略了边界样本点间可区分性，因此这３种算法的分类精度低于ＤＩＳＲＳ算法精度。而ＤＩＳＲＳ算法克服了ＮＢＲＳ、ＮＢＩＭ和ＡＰＴＮＢ算法的缺点，因此，在数据实验分析中取得了较好的性能，即ＤＩＳＲＳ算法的分类精度不仅高于其他算法，而且有效地删减了属性。根据数据实验分析表明，本文提出的算法是行之有效的，达到了理论预期的效果。表４属性约简的结果Ｔａｂｌｅ４ＲｅｓｕｌｔｏｆａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎＤａｔａｓｅｔｓＲａｗｄａｔａＦＣＭＲＳＮＢＲＳＮＢＩＭＡＰＴＮＢＤＩＳＲＳ ε Ｇｌａｓｓ１０５８８７６０．２２５Ｃｏｌｏｎ１２２４４１０１３８８０．２７５Ｗｉｎｅ１３６９１０６７０．４２５Ｗｄｂｃ３０７１６１８１９１２０．３２５Ｐｒｏｓｔａｔｅ１２６２５２４３４３０．２５平均值２７８０．４４．８９．４１０．４８．８７．２表５约简数据的ＳＶＭ后的分类精度Ｔａｂｌｅ５ＣｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｏｆｒｅｄｕｃｅｄｄａｔａｗｉｔｈＳＶＭ％ＤａｔａｓｅｔｓＲａｗｄａｔａＦＣＭＲＳＮＢＲＳＮＢＩＭＡＰＴＮＢＤＩＳＲＳＧｌａｓｓ９１．５８ ± １１．０２８９．３３ ± ３．０６９２．３２ ± ６．８６９２．５６ ± ６．１２９３．０７ ± ５．３３９４．４３ ± ４．３６Ｃｏｌｏｎ７６．１７ ± １７．２３８１．０７ ± １４．２８８２．６７ ± １１．７８８３．１１ ± １２．３２８３．４６ ± １０．６９８４．８６ ± １０．１１Ｗｉｎｅ９５．５６ ± ３．３３９２．１１ ± ３．５６９６．１８ ± ２．７２９５．２７ ± ３．６４９６．７８ ± ２．２２９６．７８ ± ３．８９Ｗｄｂｃ９４．０３ ± ４．８３９３．０６ ± ８．４７９６．８１ ± ４．８０９７．２０ ± ３．５９９７．００ ± ２．９４９７．１７ ± ３．１２Ｐｒｏｓｔａｔｅ８１．２３ ± １５．８３８１．８６ ± １３．４７８５．８６ ± １０．８１８６．５５ ± １２．３５８８．３９ ± １１．８８８８．８６ ± ９．９８平均值８７．７１ ± １０．４５８６．０９ ± ７．１４９０．７７ ± ８．０４９０．９４ ± ７．６０９１．７４ ± ６．６１９２．４２ ± ６．２９表６约简数据的３ＮＮ分类精度Ｔａｂｌｅ６Ｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｏｆｒｅｄｕｃｅｄｄａｔａｗｉｔｈ３ＮＮ％ＤａｔａｓｅｔｓＲａｗｄａｔａＦＣＭＲＳＮＢＲＳＮＢＩＭＡＰＴＮＢＤＩＳＲＳＧｌａｓｓ８９．７３ ± ６．７２８９．１０ ± ５．００９１．４３ ± ５．４９９１．３７ ± ４．８７９１．４４ ± ３．９８９３．３４ ± ３．００Ｃｏｌｏｎ７６．１５ ± １６．５５７８．３３ ± １３．０６８１．８８ ± １２．０８８２．８５ ± １１．７７８２．７６ ± １０．９８８３．７１ ± １０．２３Ｗｉｎｅ９４．５２ ± ５．６３９２．４５ ± ６．８２９６．７８ ± １．６７９７．１９ ± １．０８９６．４３ ± ３．５６９７．２２ ± １．９８Ｗｄｂｃ９４．６２ ± ２．５７９２．２６ ± ７．３３９７．００ ± １．８２９７．００ ± ３．１６９７．００ ± ３．０５９７．１７ ± ２．１８Ｐｒｏｓｔａｔｅ８９．７３ ± ６．７２８９．１０ ± ５．００９１．４３ ± ５．４９９２．３７ ± ４．８７９３．４４ ± ３．９８９３．３４ ± ３．００平均值８７．１８ ± ９．５０８６．８０ ± ９．３１９０．２９ ± ６．８６９０．８７ ± ６．７１９１．０２ ± ６．６２９１．７５ ± ５．５７４结束语邻域粗糙集中基于正域的贪心算法只考虑了区分一致性样本和异类样本，忽略了边界样本间的区分性。事实上，一个属性子集的分类能力不仅与一致样本有关，也与边界样本有关。而辨识矩阵的概念正好反映了一组特征的区分能力。本文研究了基于邻域辨识矩阵的属性约简方法，设计了启发式属性约简的算法，并通过ＵＣＩ数据集验证了该算法的有效性。未来的工作将讨论该方法在分类决第３期冯丹，等：连续型数据的辨识矩阵属性约简方法 ·３７５·

·376· 智能系统学报第12卷策中的应用。 [14]WANG C,HE Q,CHEN D G,et al.A novel method for attribute reduction of covering decision tables[]]. 参考文献： Information sciences,2014,254:181-196. [15]WANG C.SHAO M,SUN B,et al.An improved attribute [1]PAWLAK Z.Rough sets [J].International journal of reduction scheme with covering based rough sets[J]. computer and information sciences,1982,11 (5): Applied soft computing,2015,26(1):235-243. 341-356. [16]ZHU W,WANG F Y.Reduction and maximization of [2]SKOWRON A,RAUSZER C.The discernibility matrices and covering generalized rough sets[].Information sciences, functions in information systems [C]//Slowinski R. 2003,152:217-230. (Ed.),Intelligent Decision Support.Dordrecht,Kluwer [17]DUBOIS D,PRADE H.Rough fuzzy sets and fuzzy rough Academic Publishers,1992:331-362. sets[]International journal of general systems,1990, [3]MI J S,WU W Z,ZHANG W X.Approaches to knowledge 17:191-208. reduction based on variable precision rough sets model [] [18]WANG C.QI Y,HU Q,et al.A fitting model for feature Information sciences,2004,159(3/4):255-272 selection with fuzzy rough sets[J.IEEE transaction on [4]WU W Z,ZHANG W X.Neighborhood operator systems fuzzy systems,2016,99:1-1. and approximations[J].Information sciences,2002,144 [19]WANG C.SHAO M,QIAN Y.Feature subset selection (1/4):201-217. based on fuzzy neighborhood rough sets[J].Knowledge- [5]HU Q H,YU D,LIU J F,et al.Neighborhood-rough-set based systems,2016,111(1):173-179. based heterogeneous feature subset selection [J]. [20]CHEN D G,ZHANG L,ZHAO S Y,et al.A novel algorithm Information sciences,2008,178(18):3577-3594. for finding reducts with fuzzy rough sets[.IEEE transaction [6]KIM D.Data classification based on tolerant rough set [J]. on fuzzy systems,2013,20(2):385-389. Pattern recognition,2001,34(8):1613-1624. [21]WANG X Z,ZHAI J H,LU S X.Induction of multiple [7]ZHAO H,WANG P,HU Q H.Cost-sensitive feature fuzzy decision trees based on rough set technique[J]. selection based on adaptive neighborhood granularity with Information sciences,2008,178(16):3188-3202. multi-level confidence [J].Information sciences,2016, [22]ZHAO S Y,TSANG CC,CHEN D.Building a rule-based 366:134-149. classifier by using fuzzy rough set technique[J].IEEE [8]CHEN Y,ZHANG Z,ZHENG J,et al.Gene selection for transaction on knowledge and data engineering,2010.22 tumor classification using neighborhood rough sets and (5):624-638. entropy measures [J].Journal of biomedical informatics, 作者简介： 2017.67:59-68 冯丹，女，1977年生，高级工程师， [9]ZHU P,HU Q H.Adaptive neighborhood granularity 主要研究方向为计算机信息管理、数据 selection and combination based on margin distribution 挖掘。已发表学术论文10余篇。 optimation [J].Information sciences,2013,249:1-12. [10]鲍丽娜，丁世飞，许新征，等.基于邻域粗糙集的极速学习机算法[J].济南大学学报，2015,29(5)： 367-371. BAO Lina,DING Shifei,XU Xinzheng,et al.Extreme learning machine algorithm based on neighborhood rough sets 黄洋，女，1994年生，硕士研究生 []Journal of jinan university,2015,29(5):367-371. 主要研究方向为粒计算与数据挖掘。 [11]谢娟英，李楠，乔子芮.基于邻域粗糙集的不完整决策系统特征选择算法[J].南京大学学报，2016,47： 384-390. XIE Juanying,LI Nan,QIAO Zirui.A feature selection algorithm based on neighborhood rough sets for incomplete information systems[J].Journal of Nanjing university, 2016,47:384-390. 石云鹏，男，1994年生，硕士研究 [12]徐伟华.序信息系统与粗糙集[M].北京：科学出版生，主要研究方向为粒计算与数据社，2013. 挖掘。 [13]GRECO S,MATARAZZO B,SLOWINSKI R.Rough sets methodology for sorting problems in presence of multiple attributes and criteria[].European journal of operational research,2002,38:247-259

策中的应用。参考文献：［１］ＰＡＷＬＡＫＺ．Ｒｏｕｇｈｓｅｔｓ［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｌｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒａｎｄｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，１９８２，１１（５）：３４１－３５６．［２］ＳＫＯＷＲＯＮＡ，ＲＡＵＳＺＥＲＣ．Ｔｈｅｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｃｅｓａｎｄｆｕｎｃｔｉｏｎｓｉｎｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ［Ｃ］／／ＳｌｏｗｉｎｓｋｉＲ．（Ｅｄ．），ＩｎｔｅｌｌｉｇｅｎｔＤｅｃｉｓｉｏｎＳｕｐｐｏｒｔ．Ｄｏｒｄｒｅｃｈｔ，ＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒｓ，１９９２：３３１－３６２．［３］ＭＩＪＳ，ＷＵＷＺ，ＺＨＡＮＧＷＸ．Ａｐｐｒｏａｃｈｅｓｔｏｋｎｏｗｌｅｄｇｅｒｅｄｕｃｔｉｏｎｂａｓｅｄｏｎｖａｒｉａｂｌｅｐｒｅｃｉｓｉｏｎｒｏｕｇｈｓｅｔｓｍｏｄｅｌ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２００４，１５９（３／４）：２５５－２７２．［４］ＷＵＷＺ，ＺＨＡＮＧＷＸ．Ｎｅｉｇｈｂｏｒｈｏｏｄｏｐｅｒａｔｏｒｓｙｓｔｅｍｓａｎｄａｐｐｒｏｘｉｍａｔｉｏｎｓ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２００２，１４４（１／４）：２０１－２１７．［５］ＨＵＱＨ，ＹＵＤ，ＬＩＵＪＦ，ｅｔａｌ．Ｎｅｉｇｈｂｏｒｈｏｏｄ⁃ｒｏｕｇｈ⁃ｓｅｔｂａｓｅｄｈｅｔｅｒｏｇｅｎｅｏｕｓｆｅａｔｕｒｅｓｕｂｓｅｔｓｅｌｅｃｔｉｏｎ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２００８，１７８（１８）：３５７７－３５９４．［６］ＫＩＭＤ．Ｄａｔａｃｌａｓｓｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎｔｏｌｅｒａｎｔｒｏｕｇｈｓｅｔ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２００１，３４（８）：１６１３－１６２４．［７］ＺＨＡＯＨ，ＷＡＮＧＰ，ＨＵＱＨ．Ｃｏｓｔ⁃ｓｅｎｓｉｔｉｖｅｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｂａｓｅｄｏｎａｄａｐｔｉｖｅｎｅｉｇｈｂｏｒｈｏｏｄｇｒａｎｕｌａｒｉｔｙｗｉｔｈｍｕｌｔｉ⁃ｌｅｖｅｌｃｏｎｆｉｄｅｎｃｅ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２０１６，３６６：１３４－１４９．［８］ＣＨＥＮＹ，ＺＨＡＮＧＺ，ＺＨＥＮＧＪ，ｅｔａｌ．Ｇｅｎｅｓｅｌｅｃｔｉｏｎｆｏｒｔｕｍｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｎｅｉｇｈｂｏｒｈｏｏｄｒｏｕｇｈｓｅｔｓａｎｄｅｎｔｒｏｐｙｍｅａｓｕｒｅｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｂｉｏｍｅｄｉｃａｌｉｎｆｏｒｍａｔｉｃｓ，２０１７，６７：５９－６８［９］ＺＨＵＰ，ＨＵＱＨ．Ａｄａｐｔｉｖｅｎｅｉｇｈｂｏｒｈｏｏｄｇｒａｎｕｌａｒｉｔｙｓｅｌｅｃｔｉｏｎａｎｄｃｏｍｂｉｎａｔｉｏｎｂａｓｅｄｏｎｍａｒｇｉｎｄｉｓｔｒｉｂｕｔｉｏｎｏｐｔｉｍａｔｉｏｎ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２０１３，２４９：１－１２．［１０］鲍丽娜，丁世飞，许新征，等．基于邻域粗糙集的极速学习机算法［Ｊ］．济南大学学报，２０１５，２９（５）：３６７－３７１．ＢＡＯＬｉｎａ，ＤＩＮＧＳｈｉｆｅｉ，ＸＵＸｉｎｚｈｅｎｇ，ｅｔａｌ．Ｅｘｔｒｅｍｅｌｅａｒｎｉｎｇｍａｃｈｉｎｅａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｎｅｉｇｈｂｏｒｈｏｏｄｒｏｕｇｈｓｅｔｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｊｉｎａｎｕｎｉｖｅｒｓｉｔｙ，２０１５，２９（５）：３６７－３７１．［１１］谢娟英，李楠，乔子芮．基于邻域粗糙集的不完整决策系统特征选择算法［Ｊ］．南京大学学报，２０１６，４７：３８４－３９０．ＸＩＥＪｕａｎｙｉｎｇ，ＬＩＮａｎ，ＱＩＡＯＺｉｒｕｉ．Ａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｎｅｉｇｈｂｏｒｈｏｏｄｒｏｕｇｈｓｅｔｓｆｏｒｉｎｃｏｍｐｌｅｔｅｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＮａｎｊｉｎｇｕｎｉｖｅｒｓｉｔｙ，２０１６，４７：３８４－３９０．［１２］徐伟华．序信息系统与粗糙集［Ｍ］．北京：科学出版社，２０１３．［１３］ＧＲＥＣＯＳ，ＭＡＴＡＲＡＺＺＯＢ，ＳＬＯＷＩＮＳＫＩＲ．Ｒｏｕｇｈｓｅｔｓｍｅｔｈｏｄｏｌｏｇｙｆｏｒｓｏｒｔｉｎｇｐｒｏｂｌｅｍｓｉｎｐｒｅｓｅｎｃｅｏｆｍｕｌｔｉｐｌｅａｔｔｒｉｂｕｔｅｓａｎｄｃｒｉｔｅｒｉａ［Ｊ］．Ｅｕｒｏｐｅａｎｊｏｕｒｎａｌｏｆｏｐｅｒａｔｉｏｎａｌｒｅｓｅａｒｃｈ，２００２，３８：２４７－２５９．［１４］ＷＡＮＧＣ，ＨＥＱ，ＣＨＥＮＤＧ，ｅｔａｌ．Ａｎｏｖｅｌｍｅｔｈｏｄｆｏｒａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｏｆｃｏｖｅｒｉｎｇｄｅｃｉｓｉｏｎｔａｂｌｅｓ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２０１４，２５４：１８１－１９６．［１５］ＷＡＮＧＣ，ＳＨＡＯＭ，ＳＵＮＢ，ｅｔａｌ．Ａｎｉｍｐｒｏｖｅｄａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｓｃｈｅｍｅｗｉｔｈｃｏｖｅｒｉｎｇｂａｓｅｄｒｏｕｇｈｓｅｔｓ［Ｊ］．Ａｐｐｌｉｅｄｓｏｆｔｃｏｍｐｕｔｉｎｇ，２０１５，２６（１）：２３５－２４３．［１６］ＺＨＵＷ，ＷＡＮＧＦＹ．Ｒｅｄｕｃｔｉｏｎａｎｄｍａｘｉｍｉｚａｔｉｏｎｏｆｃｏｖｅｒｉｎｇｇｅｎｅｒａｌｉｚｅｄｒｏｕｇｈｓｅｔｓ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２００３，１５２：２１７－２３０．［１７］ＤＵＢＯＩＳＤ，ＰＲＡＤＥＨ．Ｒｏｕｇｈｆｕｚｚｙｓｅｔｓａｎｄｆｕｚｚｙｒｏｕｇｈｓｅｔｓ［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｌｊｏｕｒｎａｌｏｆｇｅｎｅｒａｌｓｙｓｔｅｍｓ，１９９０，１７：１９１－２０８．［１８］ＷＡＮＧＣ，ＱＩＹ，ＨＵＱ，ｅｔａｌ．Ａｆｉｔｔｉｎｇｍｏｄｅｌｆｏｒｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｗｉｔｈｆｕｚｚｙｒｏｕｇｈｓｅｔｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｏｎｆｕｚｚｙｓｙｓｔｅｍｓ，２０１６，９９：１－１．［１９］ＷＡＮＧＣ，ＳＨＡＯＭ，ＱＩＡＮＹ．Ｆｅａｔｕｒｅｓｕｂｓｅｔｓｅｌｅｃｔｉｏｎｂａｓｅｄｏｎｆｕｚｚｙｎｅｉｇｈｂｏｒｈｏｏｄｒｏｕｇｈｓｅｔｓ［Ｊ］．Ｋｎｏｗｌｅｄｇｅ⁃ ｂａｓｅｄｓｙｓｔｅｍｓ，２０１６，１１１（１）：１７３－１７９．［２０］ＣＨＥＮＤＧ，ＺＨＡＮＧＬ，ＺＨＡＯＳＹ，ｅｔａｌ．Ａｎｏｖｅｌａｌｇｏｒｉｔｈｍｆｏｒｆｉｎｄｉｎｇｒｅｄｕｃｔｓｗｉｔｈｆｕｚｚｙｒｏｕｇｈｓｅｔｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｏｎｆｕｚｚｙｓｙｓｔｅｍｓ，２０１３，２０（２）：３８５－３８９．［２１］ＷＡＮＧＸＺ，ＺＨＡＩＪＨ，ＬＵＳＸ．Ｉｎｄｕｃｔｉｏｎｏｆｍｕｌｔｉｐｌｅｆｕｚｚｙｄｅｃｉｓｉｏｎｔｒｅｅｓｂａｓｅｄｏｎｒｏｕｇｈｓｅｔｔｅｃｈｎｉｑｕｅ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２００８，１７８（１６）：３１８８－３２０２．［２２］ＺＨＡＯＳＹ，ＴＳＡＮＧＣＣ，ＣＨＥＮＤ．Ｂｕｉｌｄｉｎｇａｒｕｌｅ－ｂａｓｅｄｃｌａｓｓｉｆｉｅｒｂｙｕｓｉｎｇｆｕｚｚｙｒｏｕｇｈｓｅｔｔｅｃｈｎｉｑｕｅ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｏｎｋｎｏｗｌｅｄｇｅａｎｄｄａｔａｅｎｇｉｎｅｅｒｉｎｇ，２０１０，２２（５）：６２４－６３８．作者简介：冯丹，女，１９７７年生，高级工程师，主要研究方向为计算机信息管理、数据挖掘。已发表学术论文１０余篇。黄洋，女，１９９４年生，硕士研究生，主要研究方向为粒计算与数据挖掘。石云鹏，男，１９９４年生，硕士研究生，主要研究方向为粒计算与数据挖掘。 ·３７６· 智能系统学报第１２卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录