正在加载图片...
·720 智能系统学报 第10卷 增大,聚类个数也会随之增多。图8显示了在固定 150 k的情况下,不同的Q值对环状人工数据集和真实 数据集iis产生的不同聚类效果。对于环状人工数 100 据集,固定k=8,Q取1~16时数据集得到完美聚 50 类,随着Q值的增大,分类更加细化,聚类个数逐渐 0 增多。对于真实数据集iis,固定k=6,Q取1~52 -20 50100 150 时数据集后2类不能被分开,分类正确率低:当Q (a)k=6(1-7) (b)k=2(1-5) 增大至53~252时,后两类被分开,分类正确率增至 140 最大;当Q取252以上,类别数增加,分类正确率 120 下降。 100 80 80 60 40 6 0 0 50100150 (c)k=10(8-18) (d)k=6 0 50 2 100150 40 (a)Q-1(1-16) (b)O=1(1-52) 140 120 20 50100150 100 80 60 (e)k=20(19以上) (Dk=10(7以上) 40 -2 0 2 50.100150 图9固定Q值时,不同k的聚类结果 (c)Q=50(17-52) (d)Q=100(53-251) Fig.9 Clustering results of different k with a fixed value 200r 150 4 结束语 100 6o6a 随着信息技术水平的不断提高,具有噪声和重 50 叠现象的数据源越来越多,仅限于计算机领域的聚 -202 50100150 类方法不能很好地处理该问题。为此,本文提出了 (e)Q=150(53以上) (6Q=500(252以上) 一种同统计思想相结合的快速聚类算法一DSMC算 图8固定k值时,不同Q的聚类结果 法,它使用了一个简单的合并顺序和统计判定准则, Fig.8 Clustering results of different O with a fixed k value 将数据点的每一个特征看作一组独立随机变量,根 邻域内数据点的个数k决定了算法的合并顺 据独立有限差分不等式得出统计合并判定准则,同 序,在固定Q值的情况下,随着k邻域的逐渐增大, 时,结合数据点的密度信息,把密度从大到小的排序 聚类个数会随之减少。图9显示了在固定Q的情 作为凝聚过程中的合并顺序,进而实现各类数据点 况下,将k逐渐增大时的两个数据集聚类效果。对 的统计合并。对人工数据集和真实数据集测试的实 于环状人工数据集,固定Q=1,当k取1~7时,分类 验结果表明,DSMC算法对于非凸状、重叠和加入噪 个数过多,聚类结果并不理想:当k取8~18时,聚 声的数据集都有良好的聚类效果。 类结果稳定且保持较高水平:当k取19以上时,数 据集被聚为一类,结果不理想。对于真实数据集i 在后续的研究工作中,将进一步推广DSMC算 is,同人工数据集类似,当k取53~251时,可获得 法的应用范围,使其能够快速、高效地处理大数据、 稳定的高水平聚类结果。 在线数据等多种型态的复杂聚类问题。增大,聚类个数也会随之增多。 图 8 显示了在固定 k 的情况下,不同的 Q 值对环状人工数据集和真实 数据集 iris 产生的不同聚类效果。 对于环状人工数 据集,固定 k = 8,Q 取 1 ~ 16 时数据集得到完美聚 类,随着 Q 值的增大,分类更加细化,聚类个数逐渐 增多。 对于真实数据集 iris,固定 k = 6,Q 取 1 ~ 52 时数据集后 2 类不能被分开,分类正确率低;当 Q 增大至 53~252 时,后两类被分开,分类正确率增至 最大;当 Q 取 252 以上,类别数增加,分类正确率 下降。 图 8 固定 k 值时,不同 Q 的聚类结果 Fig.8 Clustering results of different Q with a fixed k value 邻域内数据点的个数 k 决定了算法的合并顺 序,在固定 Q 值的情况下,随着 k 邻域的逐渐增大, 聚类个数会随之减少。 图 9 显示了在固定 Q 的情 况下,将 k 逐渐增大时的两个数据集聚类效果。 对 于环状人工数据集,固定 Q= 1,当 k 取 1~7 时,分类 个数过多,聚类结果并不理想;当 k 取 8 ~ 18 时,聚 类结果稳定且保持较高水平;当 k 取 19 以上时,数 据集被聚为一类,结果不理想。 对于真实数据集 i⁃ ris,同人工数据集类似,当 k 取 53 ~ 251 时,可获得 稳定的高水平聚类结果。 图 9 固定 Q 值时,不同 k 的聚类结果 Fig.9 Clustering results of different k with a fixed Q value 4 结束语 随着信息技术水平的不断提高,具有噪声和重 叠现象的数据源越来越多,仅限于计算机领域的聚 类方法不能很好地处理该问题。 为此,本文提出了 一种同统计思想相结合的快速聚类算法—DSMC 算 法,它使用了一个简单的合并顺序和统计判定准则, 将数据点的每一个特征看作一组独立随机变量,根 据独立有限差分不等式得出统计合并判定准则,同 时,结合数据点的密度信息,把密度从大到小的排序 作为凝聚过程中的合并顺序,进而实现各类数据点 的统计合并。 对人工数据集和真实数据集测试的实 验结果表明,DSMC 算法对于非凸状、重叠和加入噪 声的数据集都有良好的聚类效果。 在后续的研究工作中,将进一步推广 DSMC 算 法的应用范围,使其能够快速、高效地处理大数据、 在线数据等多种型态的复杂聚类问题。 ·720· 智 能 系 统 学 报 第 10 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有