北京科技大学学报第 36 卷图 1 Dataset_3_

正在加载图片...

·1564· 北京科技大学学报第36卷 3.0 。原始数据聚类1 2.5 十聚类2 ×聚类3 2.0 1.5 1.0 05 10 1520253035 聚类数图1 Dataset_32聚类结果图4模糊聚类有效性指标折线图 Fig.1 DFAC clustering results of Dataset_3_2 Fig.4 Broken line graph of fuzzy clustering validity index ○原始数据 3.3效率测试聚类1 为了验证算法的执行效率，图5给出DBSCAN 聚类2 5 ×聚类3 和DFAC算法对各个数据集进行聚类得到最佳聚类聚类4 聚类5 结果所需要时间的柱状图.从图中可以看出，除 Breast Cancer数据集以外，DFAC算法对其余数据集 10 的运行时间均少于DBSCAN算法.其中DFAC算法对ris、Wine、Seed、Breast Cancer、Dataset_3_2及 Dataset5_2数据集的运行时间分别为0.45、0.99、 0.90、10.79、1.37及2.74s.对比Iis和Wine这两个数据集，它们的聚类数均为3且样本数相似，但 10 12 Wine数据维数远多于is,因此DFAC对Wine数据图2 Dataset_52聚类结果集的运行时间多于Iris.对比Wine和Seed数据集 Fig.2 DFAC clustering results of Dataset_5_2 可知，Wine数据集的样本数少于Seed数据集，但 20.图3中红色星状点表示根据式(3)得到的聚类 Wine数据维度大于Seed数据集，且二者聚类数相中心.从图中可以看出算法选择的20个聚类中心等，因此DFAC算法对这两个数据集的运行时间相仅有2个聚类中心有误，由此可知基于自适应邻域近.Dataset_32和Dataset_.5_2这两个数据集的样半径计算样本密度选出的聚类中心的正确率较高. 本数以及维数都相近，但后者的聚类数多于前者，导最终通过对聚类中心进一步更新，DFAC算法对此致在搜索最佳聚类数时后者的运行时间多于前者. 数据集的聚类正确率为100%，也说明了DFAC算 Breast Cancer数据集的样本数最多且数据维度也较法对聚类数较多数据集的有效性. 大，因此在众多数据集中运行时间最长.由此可以得出数据集的数据量（其中包括样本数和数据维原始数据来初始聚类中心度)和聚类数都会影响DFAC算法的运行时间. 12 10 10 ODFAC 米 ▣DBSCAN 6 2 米 Can 32 5 10 15 Bre 数据集图3多聚类数据集聚类中心的选择图5算法运行时间对比 Fig.3 Initial cluster centers of a multi-cluster dataset Fig.5 Comparison of run time北京科技大学学报第 36 卷图 1 Dataset_3_2 聚类结果 Fig． 1 DFAC clustering results of Dataset_3_2 图 2 Dataset_5_2 聚类结果 Fig． 2 DFAC clustering results of Dataset_5_2 20．图 3 中红色星状点表示根据式( 3) 得到的聚类中心．从图中可以看出算法选择的 20 个聚类中心仅有 2 个聚类中心有误，由此可知基于自适应邻域半径计算样本密度选出的聚类中心的正确率较高．最终通过对聚类中心进一步更新，DFAC 算法对此数据集的聚类正确率为 100% ，也说明了 DFAC 算法对聚类数较多数据集的有效性．图 3 多聚类数据集聚类中心的选择 Fig． 3 Initial cluster centers of a multi-cluster dataset 图 4 模糊聚类有效性指标折线图 Fig． 4 Broken line graph of fuzzy clustering validity index 3. 3 效率测试为了验证算法的执行效率，图 5 给出 DBSCAN 和 DFAC 算法对各个数据集进行聚类得到最佳聚类结果所需要时间的柱状图．从图中可以看出，除 Breast Cancer 数据集以外，DFAC 算法对其余数据集的运行时间均少于 DBSCAN 算法．其中 DFAC 算法对 Iris、Wine、Seed、Breast Cancer、Dataset _ 3 _ 2 及 Dataset_5_2 数据集的运行时间分别为 0. 45、0. 99、 0. 90、10. 79、1. 37 及 2. 74 s．对比 Iris 和 Wine 这两个数据集，它们的聚类数均为 3 且样本数相似，但 Wine 数据维数远多于 Iris，因此 DFAC 对 Wine 数据图 5 算法运行时间对比 Fig． 5 Comparison of run time 集的运行时间多于 Iris．对比 Wine 和 Seed 数据集可知，Wine 数据集的样本数少于 Seed 数据集，但 Wine 数据维度大于 Seed 数据集，且二者聚类数相等，因此 DFAC 算法对这两个数据集的运行时间相近． Dataset_3_2 和 Dataset_5 _2 这两个数据集的样本数以及维数都相近，但后者的聚类数多于前者，导致在搜索最佳聚类数时后者的运行时间多于前者． Breast Cancer 数据集的样本数最多且数据维度也较大，因此在众多数据集中运行时间最长．由此可以得出数据集的数据量( 其中包括样本数和数据维度) 和聚类数都会影响 DFAC 算法的运行时间． · 4651 ·

<<向上翻页向下翻页>>

点击下载：一种基于密度的模糊自适应聚类算法