正在加载图片...
第5期 刘贝贝,等:基于密度的统计合并聚类算法 ·719. 自上而下依次取为8,1;16,70:8,70:8,6;7,8;9, 3.5真实数据集实验 20)对数据中的噪声具有良好的鲁棒性。 基于对人工数据集良好的聚类效果,本节继续 200r 应用DSMC算法对真实数据集进行聚类,并同K 150 means、Ncuts、DBSCAN算法的聚类结果作比较。实 100 验对象选自UCI数据库(http:/archive.ics.uci.edu/ 50 m/,加州大学欧文分校提出的用于机器学习的数据 。 库,目前包含223个数据集)中的4个不同的数据 -100 0 100200300 集,分别是iris,wine,seeds,.glass。4个数据集的基 20八 本特征如表1所示。 150 表1真实数据集的特征描述 100 Table 1 Characteristic description of real data sets 50 数据集 样本点数 特征个数 类别数 100 100 200 300 iris 150 4 3 200 wine 178 13 150 100 seeds 210 7 3 50 glass 214 10 6 -100 0 100200300 在实验中,DSMC算法中的参数k和Q自上而 图6DSMC算法对逐渐增加噪声点的数据集聚类结果 下依次取为6,140:8,7:6,180:6,70.DBSCAN算法 Fig.6 Clustering results over the noisy data sets of 中的参数m和r自上而下依次取为11,0.5;7,51:5, DSMC algorithm 1.1:l5,8.由表2可知,DSMC算法对iis、seeds和 glass的聚类效果要好于其他3种聚类算法;对wine 3.4混合形状的人工数据集实验 的聚类虽然不如Ncuts算法,但结果基本令人满意, 为进一步说明DSMC算法的有效性,将该算法 说明DSMC算法对真实数据集也有良好的聚类 应用于混合形状的人工数据集(凸状和非凸状混 结果。 合),其中,该混合数据集含有1520个数据点,包括 320个噪声点。图7表明,DSMC算法(参数k和Q 表2算法对真实数据集聚类结果的比较 为10,100)对这种密度不均匀的混合数据集也能很 Table 2 Comparison of clustering results on real data sets 好地聚类。 Accuracy/% 数据集 10 DSMC K-means Ncuts DBSCAN iris 97.33 89.33 81.33 75.33 wine 72.47 70.22 79.21 53.37 h4 seeds 90.48 89.05 85.24 89.52 glass 77.57 72.90 46.26 64.95 10 3.6DSMC算法参数分析 图7DSMC算法对混合数据集的聚类结果 DSMC算法中涉及到的2个重要参数分别是独 Fig.7 Clustering results of DSMC algorithm for mixed 立随机变量的个数Q和邻域内数据点的个数k。 data set 独立随机变量的个数Q控制了算法的分类精 确度。在固定k邻域的情况下,随着Q取值的逐渐自上而下依次取为 8,1;16,70;8,70;8,6;7,8;9, 20)对数据中的噪声具有良好的鲁棒性。 图 6 DSMC 算法对逐渐增加噪声点的数据集聚类结果 Fig. 6 Clustering results over the noisy data sets of DSMC algorithm 3.4 混合形状的人工数据集实验 为进一步说明 DSMC 算法的有效性,将该算法 应用于混合形状的人工数据集(凸状和非凸状混 合),其中,该混合数据集含有 1 520 个数据点,包括 320 个噪声点。 图 7 表明,DSMC 算法(参数 k 和 Q 为 10,100)对这种密度不均匀的混合数据集也能很 好地聚类。 图 7 DSMC 算法对混合数据集的聚类结果 Fig.7 Clustering results of DSMC algorithm for mixed data set 3.5 真实数据集实验 基于对人工数据集良好的聚类效果,本节继续 应用 DSMC 算法对真实数据集进行聚类,并同 K⁃ means、Ncuts、DBSCAN 算法的聚类结果作比较。 实 验对象选自 UCI 数据库(http: / / archive.ics.uci.edu / ml / ,加州大学欧文分校提出的用于机器学习的数据 库,目前包含 223 个数据集)中的 4 个不同的数据 集,分别是 iris,wine,seeds,glass。 4 个数据集的基 本特征如表 1 所示。 表 1 真实数据集的特征描述 Table 1 Characteristic description of real data sets 数据集 样本点数 特征个数 类别数 iris 150 4 3 wine 178 13 3 seeds 210 7 3 glass 214 10 6 在实验中,DSMC 算法中的参数 k 和 Q 自上而 下依次取为 6,140;8,7;6,180;6,70. DBSCAN 算法 中的参数 m 和 r 自上而下依次取为 11,0.5;7,51;5, 1.1;15,8. 由表 2 可知,DSMC 算法对 iris、seeds 和 glass 的聚类效果要好于其他 3 种聚类算法;对 wine 的聚类虽然不如 Ncuts 算法,但结果基本令人满意, 说明 DSMC 算法对真实数据集也有良好的聚类 结果。 表 2 算法对真实数据集聚类结果的比较 Table 2 Comparison of clustering results on real data sets 数据集 Accuracy / % DSMC K⁃means Ncuts DBSCAN iris 97.33 89.33 81.33 75.33 wine 72.47 70.22 79.21 53.37 seeds 90.48 89.05 85.24 89.52 glass 77.57 72.90 46.26 64.95 3.6 DSMC 算法参数分析 DSMC 算法中涉及到的 2 个重要参数分别是独 立随机变量的个数 Q 和邻域内数据点的个数 k。 独立随机变量的个数 Q 控制了算法的分类精 确度。 在固定 k 邻域的情况下,随着 Q 取值的逐渐 第 5 期 刘贝贝,等:基于密度的统计合并聚类算法 ·719·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有