简算法是可行的。表３６个数据集特性Ｔａｂｌｅ３Ａｄｅｓｃｒ

正在加载图片...

第4期钱进，等：面向成组对象集的增量式属性约简算法 ·501· 简算法是可行的。一个过程，挖掘规则才是最终的输出。因此，充分利表36个数据集特性用先前约简中信息不仅能够快速得到约简，而且更 Table 3 A description of six data sets 容易地利用已有知识进行规则更新。本文所提出的序号数据集对象数属性个数类别数面向成组对象集的增量式约简方法就是充分利用先 1 Chess 3196 36 2 前约简中信息来快速更新约简，不仅具有较高的约 2 mushroom 8124 22 2 简传承率，而且可以快速进行增量式学习，具有良好 3 nursery 12960 9 5 的实用性。作者下一步将利用Map Reduce进一步 4 Connect 67557 42 研究大规模数据集增量式属性约简方法。 5 Datasetl 200000 30 参考文献： 6 Dataset2 500000 30 9 [1]PAWLAK Z.Rough sets[J].International journal of com- 下面比较约简长度与约简的传承性。图2给出了 puter information sciences,1982.11(5):341-356. 6个数据集在不同增长比例下的约简长度。在4个数 [2]SKOWRON A,RAUSZER C.The discernibility matrices 据集上，约简不变，则只需要生成新增数据集的规则， and functions in information systems[M]//SLOWINSKI R. 原始规则集不必重新生成，而在另外两个数据集上，约 Intelligent Decision Support,Handbook of Applications and 简长度稍微增长，这主要因为新增对象与原始数据集 Advances of the Rough Sets Theory.Netherlands:Springer, 引起冲突，需要另外的属性集来细分原始对象，这时除 1992:311-362 了生成新规则集外，还需要修改部分原始规则。 [3]苗夺谦，胡桂荣.知识约简的一种启发式算法[J].计算机研究与发展，1999.36(6)：681-684. MIAO Duoqian,HU Guirong.A heuristic algorithm for re- 35 20% 30 40% duction of knowledge []Journal of computer research and 60% 25 80% development,.1999.36(6):681-684. 100% [4]王国胤，于洪，杨大春.基于条件信息熵的决策表约简 15 [J].计算机学报，2002,25(7)：759-766. 10 5 WANG Guoyin,YU Hong,YANG Dachun.Decision table 2 reduction based on conditional information entropy[].Chi- 3 4 数据集 nese journal of computers,2002,25(7):759-766. [5]HU Feng,WANG Guoyin,HUANG Hai,et al.Incremental 图2约简长度比较 attribute reduction based on elementary sets[M]//SLEZAK Fig.2 Comparison of Reduct length D,WANG Guoyin,SZCZUKA M,et al.Proceedings of the 表4给出了约简的传承性。从表4可以看出， 10th International Conference on Rough Sets,Fuzzy Sets, 利用先前约简中信息所得到的新约简结果变化不 Data Mining,and Granular Computing.Berlin Heidelberg: 大，约简传承性较好。 Springer,2005:185-193. 表4约简传承性比较 [6]杨明.一种基于改进差别矩阵的属性约简增量式更新算 Table 4 Comparison of Reduct inheritance rate 号法[J刀.计算机学报，2007,30(5)：815-822. YANG Ming.An incremental updating algorithm for attribute 数据集 20% 40% 60% 80% 100% reduction based on improved discernibility matrix[.Chi- Chess 100 100 95.45 95.45 95.45 nese journal of computers,2007,30(5)815-822. mushroom 100 100 100 100 100 [7]冯少荣，张东站.一种高效的增量式属性约简算法[J], nursery 100 100 100 100 100 控制与决策，2011,26(4)：495-500. Connect 100 100 100 100 100 FENG Shaorong,ZHANG Dongzhan.Effective incremental Datasetl 100 100 100 100 100 algorithm for attribute reduction[J].Control and decision, Dataset2 100 100 90.9 90.9 100 2011.26(4):495-500. [8]尹林子，阳春华，王晓丽，等.基于标记可辨识矩阵的 4 结论增量式属性约简算法[J].自动化学报，2014,40(3)： 397-404. 在数据挖掘中，属性约简仅仅是数据预处理中 YIN Linzi,YANG Chunhua,WANG Xiaoli,et al.An in-简算法是可行的。表３６个数据集特性Ｔａｂｌｅ３Ａｄｅｓｃｒｉｐｔｉｏｎｏｆｓｉｘｄａｔａｓｅｔｓ序号数据集对象数属性个数类别数１Ｃｈｅｓｓ３１９６３６２２ｍｕｓｈｒｏｏｍ８１２４２２２３ｎｕｒｓｅｒｙ１２９６０９５４Ｃｏｎｎｅｃｔ６７５５７４２３５Ｄａｔａｓｅｔ１２０００００３０５６Ｄａｔａｓｅｔ２５０００００３０９下面比较约简长度与约简的传承性。图２给出了６个数据集在不同增长比例下的约简长度。在４个数据集上，约简不变，则只需要生成新增数据集的规则，原始规则集不必重新生成，而在另外两个数据集上，约简长度稍微增长，这主要因为新增对象与原始数据集引起冲突，需要另外的属性集来细分原始对象，这时除了生成新规则集外，还需要修改部分原始规则。图２约简长度比较Ｆｉｇ．２ＣｏｍｐａｒｉｓｏｎｏｆＲｅｄｕｃｔｌｅｎｇｔｈ表４给出了约简的传承性。从表４可以看出，利用先前约简中信息所得到的新约简结果变化不大，约简传承性较好。表４约简传承性比较Ｔａｂｌｅ４ＣｏｍｐａｒｉｓｏｎｏｆＲｅｄｕｃｔｉｎｈｅｒｉｔａｎｃｅｒａｔｅ％数据集２０％４０％６０％８０％１００％Ｃｈｅｓｓ１００１００９５．４５９５．４５９５．４５ｍｕｓｈｒｏｏｍ１００１００１００１００１００ｎｕｒｓｅｒｙ１００１００１００１００１００Ｃｏｎｎｅｃｔ１００１００１００１００１００Ｄａｔａｓｅｔ１１００１００１００１００１００Ｄａｔａｓｅｔ２１００１００９０．９９０．９１００４结论在数据挖掘中，属性约简仅仅是数据预处理中一个过程，挖掘规则才是最终的输出。因此，充分利用先前约简中信息不仅能够快速得到约简，而且更容易地利用已有知识进行规则更新。本文所提出的面向成组对象集的增量式约简方法就是充分利用先前约简中信息来快速更新约简，不仅具有较高的约简传承率，而且可以快速进行增量式学习，具有良好的实用性。作者下一步将利用ＭａｐＲｅｄｕｃｅ进一步研究大规模数据集增量式属性约简方法。参考文献：［１］ＰＡＷＬＡＫＺ．Ｒｏｕｇｈｓｅｔｓ［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｌｊｏｕｒｎａｌｏｆｃｏｍ⁃ ｐｕｔｅｒ＆ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，１９８２，１１（５）：３４１－３５６．［２］ＳＫＯＷＲＯＮＡ，ＲＡＵＳＺＥＲＣ．Ｔｈｅｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｃｅｓａｎｄｆｕｎｃｔｉｏｎｓｉｎｉｎｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ［Ｍ］／／ＳＬＯＷＩＮＳＫＩＲ．ＩｎｔｅｌｌｉｇｅｎｔＤｅｃｉｓｉｏｎＳｕｐｐｏｒｔ，ＨａｎｄｂｏｏｋｏｆＡｐｐｌｉｃａｔｉｏｎｓａｎｄＡｄｖａｎｃｅｓｏｆｔｈｅＲｏｕｇｈＳｅｔｓＴｈｅｏｒｙ．Ｎｅｔｈｅｒｌａｎｄｓ：Ｓｐｒｉｎｇｅｒ，１９９２：３１１－３６２．［３］苗夺谦，胡桂荣．知识约简的一种启发式算法［Ｊ］．计算机研究与发展，１９９９，３６（６）：６８１－６８４．ＭＩＡＯＤｕｏｑｉａｎ，ＨＵＧｕｉｒｏｎｇ．Ａｈｅｕｒｉｓｔｉｃａｌｇｏｒｉｔｈｍｆｏｒｒｅ⁃ ｄｕｃｔｉｏｎｏｆｋｎｏｗｌｅｄｇｅ［Ｊ］．Ｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒｒｅｓｅａｒｃｈａｎｄｄｅｖｅｌｏｐｍｅｎｔ，１９９９，３６（６）：６８１－６８４．［４］王国胤，于洪，杨大春．基于条件信息熵的决策表约简［Ｊ］．计算机学报，２００２，２５（７）：７５９－７６６．ＷＡＮＧＧｕｏｙｉｎ，ＹＵＨｏｎｇ，ＹＡＮＧＤａｃｈｕｎ．Ｄｅｃｉｓｉｏｎｔａｂｌｅｒｅｄｕｃｔｉｏｎｂａｓｅｄｏｎｃｏｎｄｉｔｉｏｎａｌｉｎｆｏｒｍａｔｉｏｎｅｎｔｒｏｐｙ［Ｊ］．Ｃｈｉ⁃ ｎｅｓｅｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒｓ，２００２，２５（７）：７５９－７６６．［５］ＨＵＦｅｎｇ，ＷＡＮＧＧｕｏｙｉｎ，ＨＵＡＮＧＨａｉ，ｅｔａｌ．Ｉｎｃｒｅｍｅｎｔａｌａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｂａｓｅｄｏｎｅｌｅｍｅｎｔａｒｙｓｅｔｓ［Ｍ］／／ＳＬＥＺＡＫＤ，ＷＡＮＧＧｕｏｙｉｎ，ＳＺＣＺＵＫＡＭ，ｅｔａｌ．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｏｕｇｈＳｅｔｓ，ＦｕｚｚｙＳｅｔｓ，ＤａｔａＭｉｎｉｎｇ，ａｎｄＧｒａｎｕｌａｒＣｏｍｐｕｔｉｎｇ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２００５：１８５－１９３．［６］杨明．一种基于改进差别矩阵的属性约简增量式更新算法［Ｊ］．计算机学报，２００７，３０（５）：８１５－８２２．ＹＡＮＧＭｉｎｇ．Ａｎｉｎｃｒｅｍｅｎｔａｌｕｐｄａｔｉｎｇａｌｇｏｒｉｔｈｍｆｏｒａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｂａｓｅｄｏｎｉｍｐｒｏｖｅｄｄｉｓｃｅｒｎｉｂｉｌｉｔｙｍａｔｒｉｘ［Ｊ］．Ｃｈｉ⁃ ｎｅｓｅｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒｓ，２００７，３０（５）８１５－８２２．［７］冯少荣，张东站．一种高效的增量式属性约简算法［Ｊ］．控制与决策，２０１１，２６（４）：４９５－５００．ＦＥＮＧＳｈａｏｒｏｎｇ，ＺＨＡＮＧＤｏｎｇｚｈａｎ．Ｅｆｆｅｃｔｉｖｅｉｎｃｒｅｍｅｎｔａｌａｌｇｏｒｉｔｈｍｆｏｒａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎ［Ｊ］．Ｃｏｎｔｒｏｌａｎｄｄｅｃｉｓｉｏｎ，２０１１，２６（４）：４９５－５００．［８］尹林子，阳春华，王晓丽，等．基于标记可辨识矩阵的增量式属性约简算法［Ｊ］．自动化学报，２０１４，４０（３）：３９７－４０４．ＹＩＮＬｉｎｚｉ，ＹＡＮＧＣｈｕｎｈｕａ，ＷＡＮＧＸｉａｏｌｉ，ｅｔａｌ．Ａｎｉｎ⁃ 第４期钱进，等：面向成组对象集的增量式属性约简算法 ·５０１·

<<向上翻页向下翻页>>

点击下载：【知识工程】面向成组对象集的增量式属性约简算法