本文将密度聚类算法与基于统计模型相结合，基于数理统计理论，假定数据集由统

正在加载图片...

·96. 智能系统学报第11卷本文将密度聚类算法与基于统计模型相结合， 3实验与分析基于数理统计理论，假定数据集由统计过程产生，并通过找出最佳拟合模型来描述数据集，自适应计算本文算法采用了Java语言，在Windows XP系出最优全局参数Eps和Minpts。统和eclipse环境下运行，PC机硬件配置：Pentium 2.2种子代表对象的选择 (R)CPU,3GB内存，300GB硬盘。为了验证本文本文提出一种改进的基于DBSCAN的快速聚改进算法的有效性，根据数据集的维度、数据量和密类算法，在通过选用核心对象附近区域包含的所有度分布3种标准进行数据库的选择，选取UCI数据对象的代表对象作为种子对象扩展类，减少了区域库中的4种典型数据集ris、Wine、Glass和cmc。根查询的次数，减低了聚类时间和/0开销。据聚类准确度和时间特性分析2项指标对DB- 对于一个给出Eps和MinPts的核心对象P,为 SCAN、I-DBSCANU8劉和AF-DBSCAN算法性能进行比了便于阐述，仅考虑二维对象，算法可用于其他大于较分析，其中聚类准确度采用F-Measure)。DB- 二维的高维对象。代表对象选择过多则难以发挥算 SCAN中根据k-dist曲线，选取dist,曲线图进行参数法效率，选择过少则容易造成对象丢失，影响算法聚 Eps值的确定，如图5所示。类质量。FDBSCAN[5]算法在区域查询后，在第1轮根据图5中平缓变化后急剧上升处对应的k 核心点区域查询时无丢失对象现象，而在以种子对 dist值作为全局参数Eps的值，且Minpts值设为4。象进行类扩展时，产生丢失对象，因此需要选择足够得到4种数据集ris、Wine、Glass和cmc的(Minpts, 多的代表对象：而I-DBSCAN[6]在二维数据中采用 Eps)分别为(4,0.436)、(4,27.330)、(4,3.700)和至多8个代表对象，不存在对象丢失的情况。本文 (4.1.732)。结合FDBSCAN与I-DBSCAN,第1轮区域查询时采用4个代表对象进行类扩展，继续扩展类时，选择8 1.0r 个代表对象进行类扩展。本算法在提高查询效率的 0.9 基础上，解决了类扩展时丢失对象的问题。 0.8 0.7 本文提出的代表对象选择方式如下：以核心对 0.6 象p为中心，Eps为半径画圆，以对象p为原点画坐 0.5 标系交圆周于A、C、E和G4点，再画2条分别与x 0.4 轴成45°和135°角的直径交圆周于B、D、F和H4 0.3 点。第1轮选择代表对象时，以核心点边界的A、C、 0.2 0.1 E和G点为参照，在p的Eps区域中分别选择离A、 0 C、E和G点最近的点作为代表对象。当对于不同 20 40 6080100120140160 数据点个数参照点存在离其距离最近的点为同一点时，此点只能被选择1次，且属于第1个参考点的代表对象。 (a)is数据集如果对象是n维数据，则至多可以选择2n个代表对象。 8 在继续扩展类选择代表对象时，以核心点边界 7 的A、B、C、D、E、F、G和H点为参照点选择代表对 6 象，其原则为p的Es区域中选择离参考点对象最 5 近的点作为代表对象，即使1个代表对象到2个以 4 上的参考点都是最近的，它也只被选1次，且归入第 3 1个参考点的代表对象。因此，在二维空间范围内，对任一对象的被选代表对象数最多为8个。一般情况下，对n维空间，由于有3"-1个参考点和2个象 0 限，因此被选种子数最多为3”-1个，按照以上方式 20406080100120140160180200220 实现区域查询，有效提高聚类效率以及解决对象丢数据点个数失的问题。 (b)Glass数据集本文将密度聚类算法与基于统计模型相结合，基于数理统计理论，假定数据集由统计过程产生，并通过找出最佳拟合模型来描述数据集，自适应计算出最优全局参数Ｅｐｓ和Ｍｉｎｐｔｓ。２．２种子代表对象的选择本文提出一种改进的基于ＤＢＳＣＡＮ的快速聚类算法，在通过选用核心对象附近区域包含的所有对象的代表对象作为种子对象扩展类，减少了区域查询的次数，减低了聚类时间和Ｉ／Ｏ开销。对于一个给出Ｅｐｓ和ＭｉｎＰｔｓ的核心对象Ｐ，为了便于阐述，仅考虑二维对象，算法可用于其他大于二维的高维对象。代表对象选择过多则难以发挥算法效率，选择过少则容易造成对象丢失，影响算法聚类质量。ＦＤＢＳＣＡＮ［１５］算法在区域查询后，在第１轮核心点区域查询时无丢失对象现象，而在以种子对象进行类扩展时，产生丢失对象，因此需要选择足够多的代表对象；而Ｉ⁃ＤＢＳＣＡＮ［６］在二维数据中采用至多８个代表对象，不存在对象丢失的情况。本文结合ＦＤＢＳＣＡＮ与Ｉ⁃ＤＢＳＣＡＮ，第１轮区域查询时采用４个代表对象进行类扩展，继续扩展类时，选择８个代表对象进行类扩展。本算法在提高查询效率的基础上，解决了类扩展时丢失对象的问题。本文提出的代表对象选择方式如下：以核心对象ｐ为中心，Ｅｐｓ为半径画圆，以对象ｐ为原点画坐标系交圆周于Ａ、Ｃ、Ｅ和Ｇ４点，再画２条分别与ｘ轴成４５°和１３５°角的直径交圆周于Ｂ、Ｄ、Ｆ和Ｈ４点。第１轮选择代表对象时，以核心点边界的Ａ、Ｃ、Ｅ和Ｇ点为参照，在ｐ的Ｅｐｓ区域中分别选择离Ａ、Ｃ、Ｅ和Ｇ点最近的点作为代表对象。当对于不同参照点存在离其距离最近的点为同一点时，此点只能被选择１次，且属于第１个参考点的代表对象。如果对象是ｎ维数据，则至多可以选择２ｎ个代表对象。在继续扩展类选择代表对象时，以核心点边界的Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇ和Ｈ点为参照点选择代表对象，其原则为ｐ的Ｅｐｓ区域中选择离参考点对象最近的点作为代表对象，即使１个代表对象到２个以上的参考点都是最近的，它也只被选１次，且归入第１个参考点的代表对象。因此，在二维空间范围内，对任一对象的被选代表对象数最多为８个。一般情况下，对ｎ维空间，由于有３ｎ－１个参考点和２ｎ个象限，因此被选种子数最多为３ｎ－１个，按照以上方式实现区域查询，有效提高聚类效率以及解决对象丢失的问题。３实验与分析本文算法采用了Ｊａｖａ语言，在ＷｉｎｄｏｗｓＸＰ系统和ｅｃｌｉｐｓｅ环境下运行，ＰＣ机硬件配置：Ｐｅｎｔｉｕｍ（Ｒ）ＣＰＵ，３ＧＢ内存，３００ＧＢ硬盘。为了验证本文改进算法的有效性，根据数据集的维度、数据量和密度分布３种标准进行数据库的选择，选取ＵＣＩ数据库中的４种典型数据集Ｉｒｉｓ、Ｗｉｎｅ、Ｇｌａｓｓ和ｃｍｃ。根据聚类准确度和时间特性分析２项指标对ＤＢ⁃ ＳＣＡＮ、Ｉ⁃ＤＢＳＣＡＮ［８］和ＡＦ⁃ＤＢＳＣＡＮ算法性能进行比较分析，其中聚类准确度采用Ｆ⁃Ｍｅａｓｕｒｅ［１３］。ＤＢ⁃ ＳＣＡＮ中根据ｋ⁃ｄｉｓｔ曲线，选取ｄｉｓｔ４曲线图进行参数Ｅｐｓ值的确定，如图５所示。根据图５中平缓变化后急剧上升处对应的ｋ⁃ ｄｉｓｔ值作为全局参数Ｅｐｓ的值，且Ｍｉｎｐｔｓ值设为４。得到４种数据集Ｉｒｉｓ、Ｗｉｎｅ、Ｇｌａｓｓ和ｃｍｃ的（Ｍｉｎｐｔｓ，Ｅｐｓ）分别为（４，０．４３６）、（４，２７．３３０）、（４，３．７００）和（４，１．７３２）。（ａ）Ｉｒｉｓ数据集（ｂ）Ｇｌａｓｓ数据集 ·９６· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】一种改进的自适应快速AF-DBSCAN聚类算法编辑部