增大，聚类个数也会随之增多。图８显示了在固定ｋ的情况下，不同的

正在加载图片...

·720 智能系统学报第10卷增大，聚类个数也会随之增多。图8显示了在固定 150 k的情况下，不同的Q值对环状人工数据集和真实数据集iis产生的不同聚类效果。对于环状人工数 100 据集，固定k=8,Q取1~16时数据集得到完美聚 50 类，随着Q值的增大，分类更加细化，聚类个数逐渐 0 增多。对于真实数据集iis,固定k=6,Q取1~52 -20 50100 150 时数据集后2类不能被分开，分类正确率低：当Q (a)k=6(1-7) (b)k=2(1-5) 增大至53~252时，后两类被分开，分类正确率增至 140 最大；当Q取252以上，类别数增加，分类正确率 120 下降。 100 80 80 60 40 6 0 0 50100150 (c)k=10(8-18) (d)k=6 0 50 2 100150 40 (a)Q-1(1-16) (b)O=1(1-52) 140 120 20 50100150 100 80 60 (e)k=20(19以上) (Dk=10(7以上) 40 -2 0 2 50.100150 图9固定Q值时，不同k的聚类结果 (c)Q=50(17-52) (d)Q=100(53-251) Fig.9 Clustering results of different k with a fixed value 200r 150 4 结束语 100 6o6a 随着信息技术水平的不断提高，具有噪声和重 50 叠现象的数据源越来越多，仅限于计算机领域的聚 -202 50100150 类方法不能很好地处理该问题。为此，本文提出了 (e)Q=150(53以上) (6Q=500(252以上) 一种同统计思想相结合的快速聚类算法一DSMC算图8固定k值时，不同Q的聚类结果法，它使用了一个简单的合并顺序和统计判定准则， Fig.8 Clustering results of different O with a fixed k value 将数据点的每一个特征看作一组独立随机变量，根邻域内数据点的个数k决定了算法的合并顺据独立有限差分不等式得出统计合并判定准则，同序，在固定Q值的情况下，随着k邻域的逐渐增大，时，结合数据点的密度信息，把密度从大到小的排序聚类个数会随之减少。图9显示了在固定Q的情作为凝聚过程中的合并顺序，进而实现各类数据点况下，将k逐渐增大时的两个数据集聚类效果。对的统计合并。对人工数据集和真实数据集测试的实于环状人工数据集，固定Q=1,当k取1~7时，分类验结果表明，DSMC算法对于非凸状、重叠和加入噪个数过多，聚类结果并不理想：当k取8~18时，聚声的数据集都有良好的聚类效果。类结果稳定且保持较高水平：当k取19以上时，数据集被聚为一类，结果不理想。对于真实数据集i 在后续的研究工作中，将进一步推广DSMC算 is,同人工数据集类似，当k取53~251时，可获得法的应用范围，使其能够快速、高效地处理大数据、稳定的高水平聚类结果。在线数据等多种型态的复杂聚类问题。增大，聚类个数也会随之增多。图８显示了在固定ｋ的情况下，不同的Ｑ值对环状人工数据集和真实数据集ｉｒｉｓ产生的不同聚类效果。对于环状人工数据集，固定ｋ＝８，Ｑ取１～１６时数据集得到完美聚类，随着Ｑ值的增大，分类更加细化，聚类个数逐渐增多。对于真实数据集ｉｒｉｓ，固定ｋ＝６，Ｑ取１～５２时数据集后２类不能被分开，分类正确率低；当Ｑ增大至５３～２５２时，后两类被分开，分类正确率增至最大；当Ｑ取２５２以上，类别数增加，分类正确率下降。图８固定ｋ值时，不同Ｑ的聚类结果Ｆｉｇ．８ＣｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｆｄｉｆｆｅｒｅｎｔＱｗｉｔｈａｆｉｘｅｄｋｖａｌｕｅ邻域内数据点的个数ｋ决定了算法的合并顺序，在固定Ｑ值的情况下，随着ｋ邻域的逐渐增大，聚类个数会随之减少。图９显示了在固定Ｑ的情况下，将ｋ逐渐增大时的两个数据集聚类效果。对于环状人工数据集，固定Ｑ＝１，当ｋ取１～７时，分类个数过多，聚类结果并不理想；当ｋ取８～１８时，聚类结果稳定且保持较高水平；当ｋ取１９以上时，数据集被聚为一类，结果不理想。对于真实数据集ｉ⁃ ｒｉｓ，同人工数据集类似，当ｋ取５３～２５１时，可获得稳定的高水平聚类结果。图９固定Ｑ值时，不同ｋ的聚类结果Ｆｉｇ．９ＣｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｆｄｉｆｆｅｒｅｎｔｋｗｉｔｈａｆｉｘｅｄＱｖａｌｕｅ４结束语随着信息技术水平的不断提高，具有噪声和重叠现象的数据源越来越多，仅限于计算机领域的聚类方法不能很好地处理该问题。为此，本文提出了一种同统计思想相结合的快速聚类算法—ＤＳＭＣ算法，它使用了一个简单的合并顺序和统计判定准则，将数据点的每一个特征看作一组独立随机变量，根据独立有限差分不等式得出统计合并判定准则，同时，结合数据点的密度信息，把密度从大到小的排序作为凝聚过程中的合并顺序，进而实现各类数据点的统计合并。对人工数据集和真实数据集测试的实验结果表明，ＤＳＭＣ算法对于非凸状、重叠和加入噪声的数据集都有良好的聚类效果。在后续的研究工作中，将进一步推广ＤＳＭＣ算法的应用范围，使其能够快速、高效地处理大数据、在线数据等多种型态的复杂聚类问题。 ·７２０· 智能系统学报第１０卷

<<向上翻页向下翻页>>

点击下载：机器学习：基于密度的统计合并聚类算法编辑部