正在加载图片...
第1期 冯柳伟,等:最近最远得分的聚类性能评价指标 ·73· Soybean-small来验证CH指标、BWP指标、IGP指标 5 结束语 和NFS指标在确定类别数时的性能。 表8给出了数据集Wine在采用不同评价指标 众所周知,很多聚类算法需要根据先验知识给 时,在不同的类别数下的指标值,其中带下划线的 出算法所需要的类别数。但是,在很多实际应用中 数据是该指标下的最大值。NFS指标和BWP指标 很难获得有效的先验知识,因此确定聚类问题的类 在类别数K=3时取最大值,而其他指标在类别数K 别数成为了一个研究的热点。本文首先基于最近 =2时取最大值,但是由于数据集Wime的真实类别 邻一致性和最远邻相异性的原则,提出了一种最近 数为3,因此采用NFS指标和BWP指标可以得到正 最远得分评价指标(NFS),并在此基础上提出了一 确的类别数,而采用其他评价指标则无法得到正确 种基于NS自动聚类算法,实现了对类别数和类别 的类别数。 中心的自动估计。与已经提出的评价指标相比, 表81 Wine的指标值 NFS指标是基于数据集统计信息的指标,而且NFS Table 8 The index value for Wine 指标考虑了最近样本和最远样本两个方面,通过评 类别数 CH BWP IGP NFS 分机制还保证了每个样本都对评价指标产生影响。 从而使NFS指标在RIS等数据集中呈现较好的结 2 7521600 0.32507 0.96217 0.86706 果。但是NFS指标并不是最完美的,因此还需要继 49268500.33404 0.94062 0.9009 续进行相关研究。 33564400.3023 0.78952 0.77477 参考文献: 25788400.26958 0.71 0.69746 [1]刘恋,常冬霞,邓勇.动态小生境人工鱼群算法的图像 6 21474150.23255 0.67366 0.69212 分割[J].智能系统学报,2015,10(5):669-674. > 18239050.20382 0.64983 0.66635 LIU Lian,CHANG Dongxia,DENG Yong.An image 16088700.18771 0.64815 0.6332 segmentation method based on dynamic niche artificial fish- swarm algorithm J].CAAI transactions on intelligent 14387650.18471 0.61281 0.61655 systems,2015,10(5):669-674. 12918500.178710.59433 0.5766 [2]NIKOLAOU T G.KOLOKOTSA DS,STAVRAKAKIS G S. 最终类别数 2 et al.On the application of clustering techniques for office buildings'energy and thermal comfort classification [J]. 表9给出了4组真实数据集分别在采用不同评 IEEE transactions on smart grid,2012,3(4):2196-2210. 价指标下得到的类别数,这里依然是运行多次实验 [3]CHANG Hong,YEUNG D Y.Robust path-based spectral 通过投票准则确定最终的类别数,括号中的数据表 clustering with application to image segmentation [C]/ 示类别数出现的百分比。参考表1中各数据集的真 Proceedings of the Tenth IEEE International Conference on 实类别数,可以得到如下结论:采用NS指标可以 Computer Vision.Beijing,China,2005,1:278-285. 得到所有真实数据集的正确的类别数,其中对于 [4]SHI Jianbo,MALIK J.Normalized cuts and image Balance Scale和Wine数据集,评价结果稳定,效果 segmentation[J].IEEE transactions on pattern analysis 较好,而对于IRIS和Soybean-small数据集,评价结 and machine intelligence,2000,22(8):888-905. 果差一点,只有60%和45%的正确率:然而采用 [5]XIE X L,BENI G.A validity measure for Fuzzy clustering BWP指标只可以得到数据集Wine的正确类别数, [J].IEEE transactions on pattern analysis and machine 而且评价结果稳定:但是采用CH指标和IGP指标 intelligence,1991,13(8):841-847 则无法得到数据集的正确类别数。 [6]PAL N R.BEZDEK J C.On cluster validity for the fuzzy c- 表9真实数据集的类别数 means model J].IEEE transactions on fuzzy systems, Table 9 The cluster number of the real datasets 1995,3(3):370-379. [7]郑宏亮,徐本强,赵晓慧,等.新的模糊聚类有效性指 数据集 CH BWP IGP NFS 标[J].计算机应用,2014.34(8):2166-2169 IRIS 2(100)2(100) 2(100) 3(60) ZHENG Hongliang,XU Benqiang,ZHAO Xiaohui,et al. Balance Scale 2(100)8(70)2(100) 3(100) Novel validity index for fuzzy clustering J].Journal of Wine 2(100)3(100)2(100) 3(100) computer applications,2014,34(8):2166-2169. Soybean-small 2(100)3(32.9)3(40) 4(45) [8]岳士弘,黄妮,王鹏龙.基于矩阵特征值分析的模糊聚Soybean⁃small来验证 CH 指标、BWP 指标、IGP 指标 和 NFS 指标在确定类别数时的性能。 表 8 给出了数据集 Wine 在采用不同评价指标 时,在不同的类别数下的指标值,其中带下划线的 数据是该指标下的最大值。 NFS 指标和 BWP 指标 在类别数 K = 3 时取最大值,而其他指标在类别数 K = 2 时取最大值,但是由于数据集 Wine 的真实类别 数为 3,因此采用 NFS 指标和 BWP 指标可以得到正 确的类别数,而采用其他评价指标则无法得到正确 的类别数。 表 8 Wine 的指标值 Table 8 The index value for Wine 类别数 CH BWP IGP NFS 2 7 521 600 0.325 07 0.962 17 0.867 06 3 4 926 850 0.334 04 0.940 62 0.900 9 4 3 356 440 0.302 3 0.789 52 0.774 77 5 2 578 840 0.269 58 0.71 0.697 46 6 2 147 415 0.232 55 0.673 66 0.692 12 7 1 823 905 0.203 82 0.649 83 0.666 35 8 1 608 870 0.187 71 0.648 15 0.633 2 9 1 438 765 0.184 71 0.612 81 0.616 55 10 1 291 850 0.178 71 0.594 33 0.576 6 最终类别数 2 3 2 3 表 9 给出了 4 组真实数据集分别在采用不同评 价指标下得到的类别数,这里依然是运行多次实验 通过投票准则确定最终的类别数,括号中的数据表 示类别数出现的百分比。 参考表 1 中各数据集的真 实类别数,可以得到如下结论:采用 NFS 指标可以 得到所有真实数据集的正确的类别数,其中对于 Balance Scale 和 Wine 数据集,评价结果稳定,效果 较好,而对于 IRIS 和 Soybean⁃small 数据集,评价结 果差一点,只有 60% 和 45% 的正确率;然而采用 BWP 指标只可以得到数据集 Wine 的正确类别数, 而且评价结果稳定;但是采用 CH 指标和 IGP 指标 则无法得到数据集的正确类别数。 表 9 真实数据集的类别数 Table 9 The cluster number of the real datasets 数据集 CH BWP IGP NFS IRIS 2(100) 2(100) 2(100) 3(60) Balance Scale 2(100) 8(70) 2(100) 3(100) Wine 2(100) 3(100) 2(100) 3(100) Soybean⁃small 2(100) 3(32.9) 3(40) 4(45) 5 结束语 众所周知,很多聚类算法需要根据先验知识给 出算法所需要的类别数。 但是,在很多实际应用中 很难获得有效的先验知识,因此确定聚类问题的类 别数成为了一个研究的热点。 本文首先基于最近 邻一致性和最远邻相异性的原则,提出了一种最近 最远得分评价指标(NFS),并在此基础上提出了一 种基于 NFS 自动聚类算法,实现了对类别数和类别 中心的自动估计。 与已经提出的评价指标相比, NFS 指标是基于数据集统计信息的指标,而且 NFS 指标考虑了最近样本和最远样本两个方面,通过评 分机制还保证了每个样本都对评价指标产生影响。 从而使 NFS 指标在 IRIS 等数据集中呈现较好的结 果。 但是 NFS 指标并不是最完美的,因此还需要继 续进行相关研究。 参考文献: [1]刘恋, 常冬霞, 邓勇. 动态小生境人工鱼群算法的图像 分割[J]. 智能系统学报, 2015, 10(5): 669-674. LIU Lian, CHANG Dongxia, DENG Yong. An image segmentation method based on dynamic niche artificial fish⁃ swarm algorithm [ J ]. CAAI transactions on intelligent systems, 2015, 10(5): 669-674. [2]NIKOLAOU T G, KOLOKOTSA D S, STAVRAKAKIS G S, et al. On the application of clustering techniques for office buildings􀆳 energy and thermal comfort classification [ J ]. IEEE transactions on smart grid, 2012, 3(4): 2196-2210. [3] CHANG Hong, YEUNG D Y. Robust path⁃based spectral clustering with application to image segmentation [ C] / / Proceedings of the Tenth IEEE International Conference on Computer Vision. Beijing, China, 2005, 1: 278-285. [ 4 ] SHI Jianbo, MALIK J. Normalized cuts and image segmentation [ J]. IEEE transactions on pattern analysis and machine intelligence, 2000, 22(8): 888-905. [5]XIE X L, BENI G. A validity measure for Fuzzy clustering [ J]. IEEE transactions on pattern analysis and machine intelligence, 1991, 13(8): 841-847. [6]PAL N R, BEZDEK J C. On cluster validity for the fuzzy c⁃ means model [ J ]. IEEE transactions on fuzzy systems, 1995, 3(3): 370-379. [7]郑宏亮, 徐本强, 赵晓慧, 等. 新的模糊聚类有效性指 标[J]. 计算机应用, 2014, 34(8): 2166-2169. ZHENG Hongliang, XU Benqiang, ZHAO Xiaohui, et al. Novel validity index for fuzzy clustering [ J ]. Journal of computer applications, 2014, 34(8): 2166-2169. [8]岳士弘, 黄媞, 王鹏龙. 基于矩阵特征值分析的模糊聚 第 1 期 冯柳伟,等:最近最远得分的聚类性能评价指标 ·73·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有