２）ＤＢＳＣＡＮ算法：共有２个参数，一个是点的邻域半径ｒ，一个是

正在加载图片...

第5期刘贝贝，等：基于密度的统计合并聚类算法 ·717 2)DBSCAN算法：共有2个参数，一个是点的邻 10 域半径r,一个是邻域内点的个数阈值m。在实验中，m一般取10左右的数，邻域半径r则根据数据集的直径做决定。 3)DSMC算法：共有2个参数，分别是邻域内点的个数k和划分尺度参数Q。参数k的取值一般根 10 据数据集中数据点的总个数确定。一般初始值取 200 10左右。对于该方法特有的参数Q,它控制了算法对数据集的划分细度，即当Q较小时，数据集划分 150 细度小，聚类个数少；当Q较大时，数据集划分细度 100 大，聚类个数多。由于参数Q是一个特征独立随机变量的个数，因此其取值范围为正整数，实验中具体 -100 100200300 取值根据数据集分类需求进行调整，默认初始值为1。 (c)DBSCAN算法 31形状不同的人工数据集实验 10 10r 将4种聚类算法(K-means,Ncuts,DBSCAN, 5 DSMC)分别应用于4种不同形状的人工数据集上。它们通过不同类型的高斯分布随机生成，样本点的个数从左到右第1行分别为600、900：第2行分别 10 为660（包含60个随机噪声点），1100（包含100个 10 10 随机噪声点)。 200 10 10r 150 =100 -100 100200300 200 (d)DSMC算法图4算法对不同形状数据集的分类结果比较 Fig.4 Comparison of classification results of algorithms for different shape data sets 对任意形状的数据集都有良好聚类效果的算法 100 100200300 才能称之为好的聚类算法。由图4可以看出，K (a)K-means算法 means和Ncuts算法并不能很好的聚类非凸数据集， 10r 而DBSCAN算法（参数m和r从左到右第1行为8， 0.4:7,0.7:第2行为100,48：15,0.4)和本文提出的 DSMC算法（参数k和Q从左到右第1行为6,200： 8,1:第2行为8,1：8,6)对任意形状数据集的聚类 10 效果都很令人满意，但对于较为稀疏的数据点的聚类，DSMC算法相对更优。 3.2重叠程度不同的人工数据集实验对数据重叠的鲁棒性也是判断聚类算法好坏的标准之一。本节中，通过对重叠程度逐渐增大的2 类不同形状的人工数据集进行实验，比较4种聚类 -100 算法对数据重叠的鲁棒性。其中，团状数据集含有 0 100200300 600个数据点：环状数据集含有1000个数据点。 (b)Ncuts算法２）ＤＢＳＣＡＮ算法：共有２个参数，一个是点的邻域半径ｒ，一个是邻域内点的个数阈值ｍ。在实验中，ｍ一般取１０左右的数，邻域半径ｒ则根据数据集的直径做决定。３）ＤＳＭＣ算法：共有２个参数，分别是邻域内点的个数ｋ和划分尺度参数Ｑ。参数ｋ的取值一般根据数据集中数据点的总个数确定。一般初始值取１０左右。对于该方法特有的参数Ｑ，它控制了算法对数据集的划分细度，即当Ｑ较小时，数据集划分细度小，聚类个数少；当Ｑ较大时，数据集划分细度大，聚类个数多。由于参数Ｑ是一个特征独立随机变量的个数，因此其取值范围为正整数，实验中具体取值根据数据集分类需求进行调整，默认初始值为１。３．１形状不同的人工数据集实验将４种聚类算法（Ｋ⁃ｍｅａｎｓ，Ｎｃｕｔｓ，ＤＢＳＣＡＮ，ＤＳＭＣ）分别应用于４种不同形状的人工数据集上。它们通过不同类型的高斯分布随机生成，样本点的个数从左到右第１行分别为６００、９００；第２行分别为６６０（包含６０个随机噪声点），１１００（包含１００个随机噪声点）。（ａ）Ｋ⁃ｍｅａｎｓ算法（ｂ）Ｎｃｕｔｓ算法（ｃ）ＤＢＳＣＡＮ算法（ｄ）ＤＳＭＣ算法图４算法对不同形状数据集的分类结果比较Ｆｉｇ．４Ｃｏｍｐａｒｉｓｏｎｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅｓｕｌｔｓｏｆａｌｇｏｒｉｔｈｍｓｆｏｒｄｉｆｆｅｒｅｎｔｓｈａｐｅｄａｔａｓｅｔｓ对任意形状的数据集都有良好聚类效果的算法才能称之为好的聚类算法。由图４可以看出，Ｋ⁃ ｍｅａｎｓ和Ｎｃｕｔｓ算法并不能很好的聚类非凸数据集，而ＤＢＳＣＡＮ算法（参数ｍ和ｒ从左到右第１行为８，０．４；７，０．７；第２行为１００，４８；１５，０．４）和本文提出的ＤＳＭＣ算法（参数ｋ和Ｑ从左到右第１行为６，２００；８，１；第２行为８，１；８，６）对任意形状数据集的聚类效果都很令人满意，但对于较为稀疏的数据点的聚类，ＤＳＭＣ算法相对更优。３．２重叠程度不同的人工数据集实验对数据重叠的鲁棒性也是判断聚类算法好坏的标准之一。本节中，通过对重叠程度逐渐增大的２类不同形状的人工数据集进行实验，比较４种聚类算法对数据重叠的鲁棒性。其中，团状数据集含有６００个数据点；环状数据集含有１０００个数据点。第５期刘贝贝，等：基于密度的统计合并聚类算法 ·７１７·

<<向上翻页向下翻页>>

点击下载：机器学习：基于密度的统计合并聚类算法编辑部