的。对于数值型数据集，首先进行离散化并构造等价关系。若两个样本在所有

正在加载图片...

·374· 智能系统学报第12卷的。对于数值型数据集，首先进行离散化并构造等计算正域POS,(D) 价关系。若两个样本在所有属性上取值一样，那么这两个样本就为一类，否则不是一类。而在离散化 Va,eA,计算可辨识矩阵y 过程中，避免不了信息流失，而这恰恰是当今研究计算可辨识矩阵W 的热点。本算法通过定义一个距离参数，考虑某两个样本在属性上的相似程度。如果两个样本之间赋初值REDA 距离小于阈值，则这两个样本就可以聚为一类，这 a,eRED,计算N:Ro和sUm(N,En】比经典粗糙集的理论显然更多地考虑了样本之间选择最优的a,并且RED-{A-a} 的联系，避免大量信息的流失，从而提高了属性约简的精度。由于利用定理3去搜索决策表的全部约 <(sum(N)-sum(NU 简是一个NP问题，因此利用本文提出的辨识矩阵的概念来构造一个启发式算法。 N 算法辨识矩阵属性约简算法(DISRS)。输出约简RED 输入(U,A,D={d}),阈值0/10是用于算法图1属性约简算法流程图停止搜索的阈值。 Fig.1 Flow chart of attribute reduction 输出约简RED。本实验采用K近邻(KNN,K=3)和支持向量机 1)计算正域POS(D)。 (RBF-SVM)分类器来评估这些属性约简算法的优 2)计算出关系矩阵N。,即对于任意的样本x:, 劣，RBF-SVM分类器中参数采用默认值。数据的分 x∈U,若d(x:)≠d(x),令No(i,ji)=0,否则，令类精度是基于十折交叉验证方法计算的。从UCI N,(i,j)=1。数据集中选择了5个数值型的数据集，其属性和分 3)Va,∈A,计算可辨识矩阵N,对于任意x:∈ 类信息描述如表3所示。在本文所提的算法 POS(D)和任意x∈U,当N(i,j)=0时，若 (DISRS)中，停止搜索的阈值0设置为0=0.005。 f(x)-f(x)>e,令N,(i)=1,否则令N,(i,j)= 为了说明该算法的有效性和可行性，首先对各个数 0:当N(i,j)=1,令N,(i,j)=0。据集进行了属性约简，选取约简数据的最高分类精 4)计算N4=UN,RED-A。度所对应的属性数目进行比较，具体结果如表4所 5)a,∈A,计算N1ta和sum(N1i-a),其中示，其中ε列表示对应数据约简后所取得的最高分 sum(N)表示对矩阵V的行列求和。类精度的相似度阈值的取值。表5和表6分别给出 6)选择满足sum（Niod-a4l）=max（sum 了各个数据集属性约简前后的分类精度。 (Nid)的ak,令RED4-{A-ak}。表3数据描述 7)如果(sum(N4)-sum(N))/|U<8,输出约 Table 3 Data information 简RED。否则，转到5)。序号 Data sets Samples Numerical Classes 了更好地理解所提出的算法，下面给出该算法 1 Glass 214 10 6 的流程图，如图1。 2 Colon 62 1224 2 3实验分析 Wine 178 13 3 为了验证算法的有效性，从一些文献中选出4 Wdbe 569 30 2 个相关的属性约简方法与本文所提的算法作比较。这4个算法分别是经典粗糙集算法(FCMRS)[)、邻 Prostate 102 12625 2 域粗糙集算法(NBRS)[、邻域粗糙信息测度算法从表4中可以看出，这5种属性约简方法都能 (NBIM)[]以及自适应邻域粗糙集模型够有效地对数据集进行属性约简。FCMRS算法选 (APTNB))。本实验主要从算法选择的属性数目取的属性数目最少，DISRS算法次之。表5和表6 和相应的分类精度两个方面进行比较。计算机运表明，DISRS算法的分类精度最高，FCMRS算法的行的环境参数为：奔腾双核，CPUE52001.90GHz, 分类精度最低。同时，DISRS算法所对应的分类精 RAM4.0GB,软件为MATLAB2007。度明显好于其他方法。10次分类任务，DISRS算法的。对于数值型数据集，首先进行离散化并构造等价关系。若两个样本在所有属性上取值一样，那么这两个样本就为一类，否则不是一类。而在离散化过程中，避免不了信息流失，而这恰恰是当今研究的热点。本算法通过定义一个距离参数，考虑某两个样本在属性上的相似程度。如果两个样本之间距离小于阈值，则这两个样本就可以聚为一类，这比经典粗糙集的理论显然更多地考虑了样本之间的联系，避免大量信息的流失，从而提高了属性约简的精度。由于利用定理３去搜索决策表的全部约简是一个ＮＰ问题，因此利用本文提出的辨识矩阵的概念来构造一个启发式算法。算法辨识矩阵属性约简算法（ＤＩＳＲＳ）。输入（Ｕ，Ａ，Ｄ＝｛ｄ｝），阈值 θ ／／ θ 是用于算法停止搜索的阈值。输出约简ＲＥＤ。１）计算正域ＰＯＳＡ（Ｄ）。２）计算出关系矩阵ＮＤ，即对于任意的样本ｘｉ，ｘｊ∈Ｕ，若ｄ（ｘｉ） ≠ｄ（ｘｊ），令ＮＤ（ｉ，ｊ）＝０，否则，令ＮＤ（ｉ，ｊ）＝１。３）∀ａｌ∈Ａ，计算可辨识矩阵Ｎｌ，对于任意ｘｉ∈ ＰＯＳＡ（Ｄ）和任意ｘｊ ∈ Ｕ，当ＮＤ（ｉ，ｊ）＝０时，若ｆｌ（ｘｉ）－ｆｌ（ｘｊ）＞ε，令Ｎｌ（ｉ，ｊ）＝１，否则令Ｎｌ（ｉ，ｊ）＝０；当ＮＤ（ｉ，ｊ）＝１，令Ｎｌ（ｉ，ｊ）＝０。４）计算ＮＡ＝∪Ｎｌ，ＲＥＤ←Ａ。５）∀ａｌ∈Ａ，计算Ｎ｛ｒｅｄ－ａｌ｝和ｓｕｍ（Ｎ｛ｒｅｄ－ａｌ｝），其中ｓｕｍ（Ｎ｛ｒｅｄ－ａｌ｝）表示对矩阵Ｎ｛ｒｅｄ－ａｌ｝的行列求和。６）选择满足ｓｕｍ（Ｎ｛ｒｅｄ－ａｋ｝）＝ｍａｘｉ（ｓｕｍ（Ｎ｛ｒｅｄ－ａｉ｝））的ａｋ，令ＲＥＤ←｛Ａ－ａｋ｝。７）如果（ｓｕｍ（ＮＡ）－ｓｕｍ（Ｎｒｅｄ））／Ｕ＜θ，输出约简ＲＥＤ。否则，转到５）。了更好地理解所提出的算法，下面给出该算法的流程图，如图１。３实验分析为了验证算法的有效性，从一些文献中选出４个相关的属性约简方法与本文所提的算法作比较。这４个算法分别是经典粗糙集算法（ＦＣＭＲＳ）［１］、邻域粗糙集算法（ＮＢＲＳ）［５］、邻域粗糙信息测度算法（ＮＢＩＭ）［８］以及自适应邻域粗糙集模型（ＡＰＴＮＢ）［７］。本实验主要从算法选择的属性数目和相应的分类精度两个方面进行比较。计算机运行的环境参数为：奔腾双核，ＣＰＵＥ５２００１．９０ＧＨｚ，ＲＡＭ４．０ＧＢ，软件为ＭＡＴＬＡＢ２００７。图１属性约简算法流程图Ｆｉｇ．１Ｆｌｏｗｃｈａｒｔｏｆａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎ本实验采用Ｋ近邻（ＫＮＮ，Ｋ＝３）和支持向量机（ＲＢＦ⁃ＳＶＭ）分类器来评估这些属性约简算法的优劣，ＲＢＦ⁃ＳＶＭ分类器中参数采用默认值。数据的分类精度是基于十折交叉验证方法计算的。从ＵＣＩ数据集中选择了５个数值型的数据集，其属性和分类信息描述如表３所示。在本文所提的算法（ＤＩＳＲＳ）中，停止搜索的阈值 θ 设置为 θ ＝０．００５。为了说明该算法的有效性和可行性，首先对各个数据集进行了属性约简，选取约简数据的最高分类精度所对应的属性数目进行比较，具体结果如表４所示，其中 ε 列表示对应数据约简后所取得的最高分类精度的相似度阈值的取值。表５和表６分别给出了各个数据集属性约简前后的分类精度。表３数据描述Ｔａｂｌｅ３Ｄａｔａｉｎｆｏｒｍａｔｉｏｎ序号ＤａｔａｓｅｔｓＳａｍｐｌｅｓＮｕｍｅｒｉｃａｌＣｌａｓｓｅｓ１Ｇｌａｓｓ２１４１０６２Ｃｏｌｏｎ６２１２２４２３Ｗｉｎｅ１７８１３３４Ｗｄｂｃ５６９３０２５Ｐｒｏｓｔａｔｅ１０２１２６２５２从表４中可以看出，这５种属性约简方法都能够有效地对数据集进行属性约简。ＦＣＭＲＳ算法选取的属性数目最少，ＤＩＳＲＳ算法次之。表５和表６表明，ＤＩＳＲＳ算法的分类精度最高，ＦＣＭＲＳ算法的分类精度最低。同时，ＤＩＳＲＳ算法所对应的分类精度明显好于其他方法。１０次分类任务，ＤＩＳＲＳ算法 ·３７４· 智能系统学报第１２卷

<<向上翻页向下翻页>>

点击下载：《智能系统学报》：连续型数据的辨识矩阵属性约简方法