正在加载图片...
·1564· 北京科技大学学报 第36卷 3.0 。原始数据 聚类1 2.5 十聚类2 ×聚类3 2.0 1.5 1.0 05 10 1520253035 聚类数 图1 Dataset_32聚类结果 图4模糊聚类有效性指标折线图 Fig.1 DFAC clustering results of Dataset_3_2 Fig.4 Broken line graph of fuzzy clustering validity index ○原始数据 3.3效率测试 聚类1 为了验证算法的执行效率,图5给出DBSCAN 聚类2 5 ×聚类3 和DFAC算法对各个数据集进行聚类得到最佳聚类 聚类4 聚类5 结果所需要时间的柱状图.从图中可以看出,除 Breast Cancer数据集以外,DFAC算法对其余数据集 10 的运行时间均少于DBSCAN算法.其中DFAC算法 对ris、Wine、Seed、Breast Cancer、Dataset_3_2及 Dataset5_2数据集的运行时间分别为0.45、0.99、 0.90、10.79、1.37及2.74s.对比Iis和Wine这两 个数据集,它们的聚类数均为3且样本数相似,但 10 12 Wine数据维数远多于is,因此DFAC对Wine数据 图2 Dataset_52聚类结果 集的运行时间多于Iris.对比Wine和Seed数据集 Fig.2 DFAC clustering results of Dataset_5_2 可知,Wine数据集的样本数少于Seed数据集,但 20.图3中红色星状点表示根据式(3)得到的聚类 Wine数据维度大于Seed数据集,且二者聚类数相 中心.从图中可以看出算法选择的20个聚类中心 等,因此DFAC算法对这两个数据集的运行时间相 仅有2个聚类中心有误,由此可知基于自适应邻域 近.Dataset_32和Dataset_.5_2这两个数据集的样 半径计算样本密度选出的聚类中心的正确率较高. 本数以及维数都相近,但后者的聚类数多于前者,导 最终通过对聚类中心进一步更新,DFAC算法对此 致在搜索最佳聚类数时后者的运行时间多于前者. 数据集的聚类正确率为100%,也说明了DFAC算 Breast Cancer数据集的样本数最多且数据维度也较 法对聚类数较多数据集的有效性. 大,因此在众多数据集中运行时间最长.由此可以 得出数据集的数据量(其中包括样本数和数据维 原始数据来初始聚类中心 度)和聚类数都会影响DFAC算法的运行时间. 12 10 10 ODFAC 米 ▣DBSCAN 6 2 米 Can 32 5 10 15 Bre 数据集 图3多聚类数据集聚类中心的选择 图5算法运行时间对比 Fig.3 Initial cluster centers of a multi-cluster dataset Fig.5 Comparison of run time北 京 科 技 大 学 学 报 第 36 卷 图 1 Dataset_3_2 聚类结果 Fig. 1 DFAC clustering results of Dataset_3_2 图 2 Dataset_5_2 聚类结果 Fig. 2 DFAC clustering results of Dataset_5_2 20. 图 3 中红色星状点表示根据式( 3) 得到的聚类 中心. 从图中可以看出算法选择的 20 个聚类中心 仅有 2 个聚类中心有误,由此可知基于自适应邻域 半径计算样本密度选出的聚类中心的正确率较高. 最终通过对聚类中心进一步更新,DFAC 算法对此 数据集的聚类正确率为 100% ,也说明了 DFAC 算 法对聚类数较多数据集的有效性. 图 3 多聚类数据集聚类中心的选择 Fig. 3 Initial cluster centers of a multi-cluster dataset 图 4 模糊聚类有效性指标折线图 Fig. 4 Broken line graph of fuzzy clustering validity index 3. 3 效率测试 为了验证算法的执行效率,图 5 给出 DBSCAN 和 DFAC 算法对各个数据集进行聚类得到最佳聚类 结果所需要时间的柱状图. 从图中可以看出,除 Breast Cancer 数据集以外,DFAC 算法对其余数据集 的运行时间均少于 DBSCAN 算法. 其中 DFAC 算法 对 Iris、Wine、Seed、Breast Cancer、Dataset _ 3 _ 2 及 Dataset_5_2 数据集的运行时间分别为 0. 45、0. 99、 0. 90、10. 79、1. 37 及 2. 74 s. 对比 Iris 和 Wine 这两 个数据集,它们的聚类数均为 3 且样本数相似,但 Wine 数据维数远多于 Iris,因此 DFAC 对 Wine 数据 图 5 算法运行时间对比 Fig. 5 Comparison of run time 集的运行时间多于 Iris. 对比 Wine 和 Seed 数据集 可知,Wine 数据集的样本数少于 Seed 数据集,但 Wine 数据维度大于 Seed 数据集,且二者聚类数相 等,因此 DFAC 算法对这两个数据集的运行时间相 近. Dataset_3_2 和 Dataset_5 _2 这两个数据集的样 本数以及维数都相近,但后者的聚类数多于前者,导 致在搜索最佳聚类数时后者的运行时间多于前者. Breast Cancer 数据集的样本数最多且数据维度也较 大,因此在众多数据集中运行时间最长. 由此可以 得出数据集的数据量( 其中包括样本数和数据维 度) 和聚类数都会影响 DFAC 算法的运行时间. · 4651 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有