自上而下依次取为８，１；１６，７０；８，７０；８，６；７，８；９，２０

正在加载图片...

第5期刘贝贝，等：基于密度的统计合并聚类算法 ·719. 自上而下依次取为8,1；16,70：8,70：8,6；7,8；9， 3.5真实数据集实验 20)对数据中的噪声具有良好的鲁棒性。基于对人工数据集良好的聚类效果，本节继续 200r 应用DSMC算法对真实数据集进行聚类，并同K 150 means、Ncuts、DBSCAN算法的聚类结果作比较。实 100 验对象选自UCI数据库(http:/archive.ics.uci.edu/ 50 m/,加州大学欧文分校提出的用于机器学习的数据。库，目前包含223个数据集)中的4个不同的数据 -100 0 100200300 集，分别是iris,wine,seeds,.glass。4个数据集的基 20八本特征如表1所示。 150 表1真实数据集的特征描述 100 Table 1 Characteristic description of real data sets 50 数据集样本点数特征个数类别数 100 100 200 300 iris 150 4 3 200 wine 178 13 150 100 seeds 210 7 3 50 glass 214 10 6 -100 0 100200300 在实验中，DSMC算法中的参数k和Q自上而图6DSMC算法对逐渐增加噪声点的数据集聚类结果下依次取为6,140：8,7：6,180：6,70.DBSCAN算法 Fig.6 Clustering results over the noisy data sets of 中的参数m和r自上而下依次取为11,0.5；7,51：5， DSMC algorithm 1.1:l5,8.由表2可知，DSMC算法对iis、seeds和 glass的聚类效果要好于其他3种聚类算法；对wine 3.4混合形状的人工数据集实验的聚类虽然不如Ncuts算法，但结果基本令人满意，为进一步说明DSMC算法的有效性，将该算法说明DSMC算法对真实数据集也有良好的聚类应用于混合形状的人工数据集（凸状和非凸状混结果。合)，其中，该混合数据集含有1520个数据点，包括 320个噪声点。图7表明，DSMC算法（参数k和Q 表2算法对真实数据集聚类结果的比较为10,100)对这种密度不均匀的混合数据集也能很 Table 2 Comparison of clustering results on real data sets 好地聚类。 Accuracy/% 数据集 10 DSMC K-means Ncuts DBSCAN iris 97.33 89.33 81.33 75.33 wine 72.47 70.22 79.21 53.37 h4 seeds 90.48 89.05 85.24 89.52 glass 77.57 72.90 46.26 64.95 10 3.6DSMC算法参数分析图7DSMC算法对混合数据集的聚类结果 DSMC算法中涉及到的2个重要参数分别是独 Fig.7 Clustering results of DSMC algorithm for mixed 立随机变量的个数Q和邻域内数据点的个数k。 data set 独立随机变量的个数Q控制了算法的分类精确度。在固定k邻域的情况下，随着Q取值的逐渐自上而下依次取为８，１；１６，７０；８，７０；８，６；７，８；９，２０）对数据中的噪声具有良好的鲁棒性。图６ＤＳＭＣ算法对逐渐增加噪声点的数据集聚类结果Ｆｉｇ．６ＣｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｖｅｒｔｈｅｎｏｉｓｙｄａｔａｓｅｔｓｏｆＤＳＭＣａｌｇｏｒｉｔｈｍ３．４混合形状的人工数据集实验为进一步说明ＤＳＭＣ算法的有效性，将该算法应用于混合形状的人工数据集（凸状和非凸状混合），其中，该混合数据集含有１５２０个数据点，包括３２０个噪声点。图７表明，ＤＳＭＣ算法（参数ｋ和Ｑ为１０，１００）对这种密度不均匀的混合数据集也能很好地聚类。图７ＤＳＭＣ算法对混合数据集的聚类结果Ｆｉｇ．７ＣｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｆＤＳＭＣａｌｇｏｒｉｔｈｍｆｏｒｍｉｘｅｄｄａｔａｓｅｔ３．５真实数据集实验基于对人工数据集良好的聚类效果，本节继续应用ＤＳＭＣ算法对真实数据集进行聚类，并同Ｋ⁃ ｍｅａｎｓ、Ｎｃｕｔｓ、ＤＢＳＣＡＮ算法的聚类结果作比较。实验对象选自ＵＣＩ数据库（ｈｔｔｐ：／／ａｒｃｈｉｖｅ．ｉｃｓ．ｕｃｉ．ｅｄｕ／ｍｌ／，加州大学欧文分校提出的用于机器学习的数据库，目前包含２２３个数据集）中的４个不同的数据集，分别是ｉｒｉｓ，ｗｉｎｅ，ｓｅｅｄｓ，ｇｌａｓｓ。４个数据集的基本特征如表１所示。表１真实数据集的特征描述Ｔａｂｌｅ１Ｃｈａｒａｃｔｅｒｉｓｔｉｃｄｅｓｃｒｉｐｔｉｏｎｏｆｒｅａｌｄａｔａｓｅｔｓ数据集样本点数特征个数类别数ｉｒｉｓ１５０４３ｗｉｎｅ１７８１３３ｓｅｅｄｓ２１０７３ｇｌａｓｓ２１４１０６在实验中，ＤＳＭＣ算法中的参数ｋ和Ｑ自上而下依次取为６，１４０；８，７；６，１８０；６，７０．ＤＢＳＣＡＮ算法中的参数ｍ和ｒ自上而下依次取为１１，０．５；７，５１；５，１．１；１５，８．由表２可知，ＤＳＭＣ算法对ｉｒｉｓ、ｓｅｅｄｓ和ｇｌａｓｓ的聚类效果要好于其他３种聚类算法；对ｗｉｎｅ的聚类虽然不如Ｎｃｕｔｓ算法，但结果基本令人满意，说明ＤＳＭＣ算法对真实数据集也有良好的聚类结果。表２算法对真实数据集聚类结果的比较Ｔａｂｌｅ２Ｃｏｍｐａｒｉｓｏｎｏｆｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｎｒｅａｌｄａｔａｓｅｔｓ数据集Ａｃｃｕｒａｃｙ／％ＤＳＭＣＫ⁃ｍｅａｎｓＮｃｕｔｓＤＢＳＣＡＮｉｒｉｓ９７．３３８９．３３８１．３３７５．３３ｗｉｎｅ７２．４７７０．２２７９．２１５３．３７ｓｅｅｄｓ９０．４８８９．０５８５．２４８９．５２ｇｌａｓｓ７７．５７７２．９０４６．２６６４．９５３．６ＤＳＭＣ算法参数分析ＤＳＭＣ算法中涉及到的２个重要参数分别是独立随机变量的个数Ｑ和邻域内数据点的个数ｋ。独立随机变量的个数Ｑ控制了算法的分类精确度。在固定ｋ邻域的情况下，随着Ｑ取值的逐渐第５期刘贝贝，等：基于密度的统计合并聚类算法 ·７１９·

<<向上翻页向下翻页>>

点击下载：机器学习：基于密度的统计合并聚类算法编辑部