3. 2 真实数据聚类算法性能的评价一直是一个具有挑战性的问题 ,为了

正在加载图片...

·98* 智能系统学报第4卷 3.2真实数据从表2中可以看出，FKM-SC算法明显更接近聚类算法性能的评价一直是一个具有挑战性的于实际的聚类中心，即更接近与原始数据的类别分问题，为了评价改进算法性能，采用ARI(adjusted 布；而M和FQM算法由于对初始值敏感，故稳定 rand index)iol来评价算法，它将聚类划分看作是样性较差.FKHM-SC算法采用对初值不敏感的FKHM 本之间的一种关系，每一个样本要么划分在同一类，算法，实验结果表明FIM-SC算法提高了聚类结要么在不同类.准确度就等于正确匹配对数与两两果的稳定性。比较次数的比值，其中准确度在0和1之间取值，其 322聚类性能仿真值越大表明聚类结果与被分析数据越匹配，即算法图2给出了M、FQM、SC和FKHM-SC4种算的有效性越高】法在表1中4个真实数据集上的聚类性能曲线图，为了验证算法的有效性，采用UC数据库1上从图2的4个图中可以观察到：的ris.Gass、bnosphere.Sonari这4组数据作为测试 1)M和FQM算法在4个数据集上出现了明数据.UC数据库是一个专门用于测试机器学习、数显的性能波动，SC算法在Glass数据集上稳定性较据挖掘算法的数据库，库中的数据都有确定的分类，差，而FKM-SC算法性能曲线平稳.故可以说明因此可以直观的表示聚类结果的质量.表1给出真 M和FOM算法对初值敏感性较强，SC算法对初值实数据集的数据特征」敏感性稍弱，而FIHM-SC算法没有出现任何波动，表1真实数据集稳定性较好 Table 1 Real data sets ◆-KM■-CM-SC-'KHM-SC 1.0r 数据集属性数目类的个数数据点总数 0.9外 Iris 4 3 150 三0.8 Glass 9 6 0.7 214 0.6 bnosphere 34 2 351 0.5 1 4 56 Sonar 60 2 208 聚类次数 3.21稳定性仿真 (a）lris ◆KM--FCM-SCW-FKHM-SC 在稳定性仿真实验中，采用is数据集作为测 0.55 试数据.该数据集共有3类，其中第1类和其他2类 0.50 有较好的分离，另外两类之间存在交迭.它的实际聚 0.45 类中心位置分别为(6588297455522026)、 0.40 (5.0063.41814640244)、(5.93627704260 0.35 5 6 8 10 1.326)分别采用M、FQM和FKHM-SC算法对ris 聚类次数 (h)Glass 数据集聚类10次，每次3种算法均采用相同的随机 0.74 ◆KM■-FCM女-SC#kKHM-SG 初始值，取其平均值，聚类中心结果如表2 0.72 表23种算法对is数据聚类的结果三0.70 Table 2 Cluster results of three a lgorithm s n Ir is da ta 0.68 0.66 聚类算法聚类中心 0.64 6 M 67218 30542 5.5121 1.9906 聚类次数 (c)lonsphere 50232 34393 1.4673 02474 0.60 ◆-KM ■-FCM SC -FKHM-SC 57725 27180 40822 1.2758 0.58 FOM 60814 30702 5.6025 20134 年056 0.54 50593 321741.8000 03799 0.52 0.50 60744 28618 46401 1.5533 4 5 6 7 8 910 聚类次数 FKHM-SC 65957 2993453549 1.9088 (d)Sonar 50091341131.482602504 图24种算法的对比实验结果 5.756027072 42220 1.3260 Fig 2 Comparisons of four algorithms 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net3. 2 真实数据聚类算法性能的评价一直是一个具有挑战性的问题 ,为了评价改进算法性能 ,采用 AR I( adjusted rand index) [ 10 ]来评价算法 ,它将聚类划分看作是样本之间的一种关系 ,每一个样本要么划分在同一类 , 要么在不同类. 准确度就等于正确匹配对数与两两比较次数的比值 ,其中准确度在 0和 1之间取值 ,其值越大表明聚类结果与被分析数据越匹配 ,即算法的有效性越高. 为了验证算法的有效性 ,采用 UC I数据库 [ 11 ]上的 Iris、Glass、Ionosphere、Sonar这 4组数据作为测试数据. UC I数据库是一个专门用于测试机器学习、数据挖掘算法的数据库 ,库中的数据都有确定的分类 , 因此可以直观的表示聚类结果的质量. 表 1给出真实数据集的数据特征. 表 1 真实数据集 Table 1 Rea l da ta sets 数据集属性数目类的个数数据点总数 Iris 4 3 150 Glass 9 6 214 Ionosphere 34 2 351 Sonar 60 2 208 3. 2. 1 稳定性仿真在稳定性仿真实验中 ,采用 Iris数据集作为测试数据. 该数据集共有 3类 ,其中第 1类和其他 2类有较好的分离 ,另外两类之间存在交迭. 它的实际聚类中心位置分别为 ( 6. 588 2. 974 5. 552 2. 026 )、 (5. 006 3. 418 1. 464 0. 244 )、( 5. 936 2. 770 4. 260 1. 326)分别采用 KM、FCM和 FKHM2SC算法对 Iris 数据集聚类 10次 ,每次 3种算法均采用相同的随机初始值 ,取其平均值 ,聚类中心结果如表 2. 表 2 3种算法对 Iris数据聚类的结果 Table 2 C luster results of three a lgor ithm s in Ir is da ta 聚类算法聚类中心 KM 6. 721 8 3. 054 2 5. 512 1 1. 990 6 5. 023 2 3. 439 3 1. 467 3 0. 247 4 5. 772 5 2. 718 0 4. 082 2 1. 275 8 FCM 6. 081 4 3. 070 2 5. 602 5 2. 013 4 5. 059 3 3. 217 4 1. 800 0 0. 379 9 6. 074 4 2. 861 8 4. 640 1 1. 553 3 FKHM2SC 6. 595 7 2. 993 4 5. 354 9 1. 908 8 5. 009 1 3. 411 3 1. 482 6 0. 250 4 5. 756 0 2. 707 2 4. 222 0 1. 326 0 从表 2中可以看出 , FKHM2SC算法明显更接近于实际的聚类中心 ,即更接近与原始数据的类别分布 ;而 KM 和 FCM算法由于对初始值敏感 ,故稳定性较差. FKHM2SC算法采用对初值不敏感的 FKHM 算法 ,实验结果表明 FKHM2SC算法提高了聚类结果的稳定性. 3. 2. 2 聚类性能仿真图 2给出了 KM、FCM、SC和 FKHM2SC 4种算法在表 1中 4个真实数据集上的聚类性能曲线图. 从图 2的 4个图中可以观察到 : 1) KM 和 FCM 算法在 4个数据集上出现了明显的性能波动 , SC算法在 Glass数据集上稳定性较差 ,而 FKHM2SC算法性能曲线平稳. 故可以说明 KM和 FCM算法对初值敏感性较强 , SC算法对初值敏感性稍弱 ,而 FKHM2SC算法没有出现任何波动 , 稳定性较好. 图 2 4种算法的对比实验结果 Fig. 2 Comparisons of four algorithm s ·98· 智能系统学报第 4卷

<<向上翻页向下翻页>>

点击下载：机器学习：基于模糊K-harmonic means的谱聚类算法