机器学习：基于密度的统计合并聚类算法编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：2.19MB

第10卷第5期智能系统学报 Vol.10 No.5 2015年10月 CAAI Transactions on Intelligent Systems 0ct.2015 D0I:10.11992/is.201410028 网s络出版地址：htp://ww.cmki.net/kcms/detail/23.1538.tp.20150930.1556.016.html 基于密度的统计合并聚类算法刘贝贝，马儒宁1，丁军娣2 (1.南京航空航天大学理学院，江苏南京211100：2.南京理工大学计算机科学与技术学院，江苏南京210094) 摘要：针对现有聚类算法处理噪声能力差和速度较慢的问题，提出了一种基于密度的统计合并聚类算法(DSMC)。该算法将数据点的每一个特征看作一组独立随机变量，根据独立有限差分不等式得出统计合并判定准则：同时，结合数据点的密度信息，把密度从大到小的排序作为凝聚过程中的合并顺序，实现了各类数据点的统计合并。人工数据集和真实数据集的实验结果表明，DSMC算法不仅可以处理凸状数据集，对于非凸、重叠、加入噪声的数据集也有良好的聚类效果，充分表明了该算法的适用性和有效性。关键词：数据点：密度：随机变量：合并：聚类：噪声中图分类号：0235：TP311文献标志码：A文章编号：1673-4785(2015)05-0712-10 中文引用格式：刘贝贝，马儒宁，丁军娣.基于密度的统计合并聚类算法[J].智能系统学报，2015,10(5)：712-721. 英文写引用格式：LIU Beibei,MA Runing,DINGJundi.Density-based statistical merging clustering algorithm[J].CAAI Transac- tions on Intelligent Systems,2015,10(5):712-721. Density-based statistical merging clustering algorithm LIU Beibei',MA Runing',DING Jundi2 (1.College of Science,Nanjing University of Aeronautics and Astronautics,Nanjing 211100,China:2.School of Computer Science and Technology,Nanjing University of Science and Technology,Nanjing 210094,China) Abstract:The ability of existing clustering algorithms to deal with noise is poor,and the speed is slow,instead this paper proposes a density-based statistical merging clustering algorithm (DSMC).The new algorithm takes each group of data points as a set of independent random variables,and gathers statistical criteria from the independent bounded difference inequality.Meanwhile,combined with the density information of the data points,the DSMC al- gorithm takes the descending order of the density as the merging order in the process of condensation,and thereby achieves statistical merging of different types of data points.The experimental results with both artificial datasets and real datasets show that the DSMC algorithm can not only deal with convex data set,and also has good clustering effects on nonconvex shaped,overlapped and noisy,data sets.This proves that the algorithm has good applicability and validity. Keywords:data points;density;random variable;merging;clustering algorithm;noise 聚类2]是数据挖掘领域中十分重要的数据分算法，它的主要特点是在对数据集进行分类之前，需析技术。具体来说，聚类就是将给定的数据集划分要事先确定聚类个数，然后将数据集划分到确定好成互不相交的非空子集的过程。由于初始条件和聚的各类别中。根据划分过程中数据点类别归属的明类准则的不唯一性，使得各种各样的聚类算法应运确性，又可将分割聚类分为硬聚类和模糊聚类4]。而生。根据算法形成方式的不同，可以将其分为2 硬聚类中数据点的类别归属是明确的。每个数大类：基于划分的聚类算法和基于层次的聚类算据点对各类别的隶属度取0或1，即一个数据点必法[)。基于划分的聚类算法也可以称为分割聚类须属于某一类别且只能属于该类别。硬聚类的数学定义描述如下：设给定的数据集为X={x1,x2,…, 收稿日期：201410-21.网络出版日期：2015-09-30. xn}∈Rx,x,(i=1,2,…,n)表示第i个数据点。预基金项目：国家自然科学基金资助项目(61103058). 通信作者：丁军娣.E-mail:dingjundi2010@njust..cdu.cn. 先确定将X划分为k个子集C={C,C2,…,C}

第１０卷第５期智能系统学报Ｖｏｌ．１０ №．５２０１５年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１５ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１４１００２８网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１５０９３０．１５５６．０１６．ｈｔｍｌ基于密度的统计合并聚类算法刘贝贝１，马儒宁１，丁军娣２（１．南京航空航天大学理学院，江苏南京２１１１００；２．南京理工大学计算机科学与技术学院，江苏南京２１００９４）摘要：针对现有聚类算法处理噪声能力差和速度较慢的问题，提出了一种基于密度的统计合并聚类算法（ＤＳＭＣ）。该算法将数据点的每一个特征看作一组独立随机变量，根据独立有限差分不等式得出统计合并判定准则；同时，结合数据点的密度信息，把密度从大到小的排序作为凝聚过程中的合并顺序，实现了各类数据点的统计合并。人工数据集和真实数据集的实验结果表明，ＤＳＭＣ算法不仅可以处理凸状数据集，对于非凸、重叠、加入噪声的数据集也有良好的聚类效果，充分表明了该算法的适用性和有效性。关键词：数据点；密度；随机变量；合并；聚类；噪声中图分类号：Ｏ２３５；ＴＰ３１１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０５⁃０７１２⁃１０中文引用格式：刘贝贝，马儒宁，丁军娣．基于密度的统计合并聚类算法［Ｊ］．智能系统学报，２０１５，１０（５）：７１２⁃７２１．英文引用格式：ＬＩＵＢｅｉｂｅｉ，ＭＡＲｕｎｉｎｇ，ＤＩＮＧＪｕｎｄｉ．Ｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃ⁃ ｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（５）：７１２⁃７２１．Ｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍＬＩＵＢｅｉｂｅｉ１，ＭＡＲｕｎｉｎｇ１，ＤＩＮＧＪｕｎｄｉ２（１．ＣｏｌｌｅｇｅｏｆＳｃｉｅｎｃｅ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＡｅｒｏｎａｕｔｉｃｓａｎｄＡｓｔｒｏｎａｕｔｉｃｓ，Ｎａｎｊｉｎｇ２１１１００，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｎａｎｊｉｎｇ２１００９４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅａｂｉｌｉｔｙｏｆｅｘｉｓｔｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓｔｏｄｅａｌｗｉｔｈｎｏｉｓｅｉｓｐｏｏｒ，ａｎｄｔｈｅｓｐｅｅｄｉｓｓｌｏｗ，ｉｎｓｔｅａｄｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ（ＤＳＭＣ）．Ｔｈｅｎｅｗａｌｇｏｒｉｔｈｍｔａｋｅｓｅａｃｈｇｒｏｕｐｏｆｄａｔａｐｏｉｎｔｓａｓａｓｅｔｏｆｉｎｄｅｐｅｎｄｅｎｔｒａｎｄｏｍｖａｒｉａｂｌｅｓ，ａｎｄｇａｔｈｅｒｓｓｔａｔｉｓｔｉｃａｌｃｒｉｔｅｒｉａｆｒｏｍｔｈｅｉｎｄｅｐｅｎｄｅｎｔｂｏｕｎｄｅｄｄｉｆｆｅｒｅｎｃｅｉｎｅｑｕａｌｉｔｙ．Ｍｅａｎｗｈｉｌｅ，ｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅｄｅｎｓｉｔｙｉｎｆｏｒｍａｔｉｏｎｏｆｔｈｅｄａｔａｐｏｉｎｔｓ，ｔｈｅＤＳＭＣａｌ⁃ ｇｏｒｉｔｈｍｔａｋｅｓｔｈｅｄｅｓｃｅｎｄｉｎｇｏｒｄｅｒｏｆｔｈｅｄｅｎｓｉｔｙａｓｔｈｅｍｅｒｇｉｎｇｏｒｄｅｒｉｎｔｈｅｐｒｏｃｅｓｓｏｆｃｏｎｄｅｎｓａｔｉｏｎ，ａｎｄｔｈｅｒｅｂｙａｃｈｉｅｖｅｓｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｏｆｄｉｆｆｅｒｅｎｔｔｙｐｅｓｏｆｄａｔａｐｏｉｎｔｓ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｗｉｔｈｂｏｔｈａｒｔｉｆｉｃｉａｌｄａｔａｓｅｔｓａｎｄｒｅａｌｄａｔａｓｅｔｓｓｈｏｗｔｈａｔｔｈｅＤＳＭＣａｌｇｏｒｉｔｈｍｃａｎｎｏｔｏｎｌｙｄｅａｌｗｉｔｈｃｏｎｖｅｘｄａｔａｓｅｔ，ａｎｄａｌｓｏｈａｓｇｏｏｄｃｌｕｓｔｅｒｉｎｇｅｆｆｅｃｔｓｏｎｎｏｎｃｏｎｖｅｘｓｈａｐｅｄ，ｏｖｅｒｌａｐｐｅｄａｎｄｎｏｉｓｙ，ｄａｔａｓｅｔｓ．Ｔｈｉｓｐｒｏｖｅｓｔｈａｔｔｈｅａｌｇｏｒｉｔｈｍｈａｓｇｏｏｄａｐｐｌｉｃａｂｉｌｉｔｙａｎｄｖａｌｉｄｉｔｙ．Ｋｅｙｗｏｒｄｓ：ｄａｔａｐｏｉｎｔｓ；ｄｅｎｓｉｔｙ；ｒａｎｄｏｍｖａｒｉａｂｌｅ；ｍｅｒｇｉｎｇ；ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ；ｎｏｉｓｅ收稿日期：２０１４⁃１０⁃２１．网络出版日期：２０１５⁃０９⁃３０．基金项目：国家自然科学基金资助项目（６１１０３０５８）．通信作者：丁军娣．Ｅ⁃ｍａｉｌ：ｄｉｎｇｊｕｎｄｉ２０１０＠ｎｊｕｓｔ．ｅｄｕ．ｃｎ．聚类［１⁃２］是数据挖掘领域中十分重要的数据分析技术。具体来说，聚类就是将给定的数据集划分成互不相交的非空子集的过程。由于初始条件和聚类准则的不唯一性，使得各种各样的聚类算法应运而生。根据算法形成方式的不同，可以将其分为２大类：基于划分的聚类算法和基于层次的聚类算法［３］。基于划分的聚类算法也可以称为分割聚类算法，它的主要特点是在对数据集进行分类之前，需要事先确定聚类个数，然后将数据集划分到确定好的各类别中。根据划分过程中数据点类别归属的明确性，又可将分割聚类分为硬聚类和模糊聚类［４］。硬聚类中数据点的类别归属是明确的。每个数据点对各类别的隶属度取０或１，即一个数据点必须属于某一类别且只能属于该类别。硬聚类的数学定义描述如下：设给定的数据集为Ｘ＝｛ｘ１，ｘ２，…，ｘｎ｝∈Ｒｎ×ｄ，ｘｉ（ｉ＝１，２，…，ｎ）表示第ｉ个数据点。预先确定将Ｘ划分为ｋ个子集Ｃ＝｛Ｃ１，Ｃ２，…，Ｃｋ｝

（ｋ≤ｎ），则Ｃｉ满足如下条件：１）Ｃｉ ≠∅，（ｉ＝１，２， …，ｋ），即每一子集至少含有一个数据点；２）Ｃｉ∩Ｃｊ＝ ∅，（１≤ｉ≠ｊ≤ｋ），即每个数据点只能属于一个子集；３）∪ｋｉ＝１Ｃｉ＝Ｘ，即每个数据点必须归属于某一子集。数据点ｘｊ（ｊ＝１，２，…，ｎ）对子集Ｃｉ（ｉ＝１，２，…，ｋ）的隶属关系可用隶属函数ｕｉｊ表示，当ｕｉｊ＝１时，ｘｊ∈ Ｃｉ，当ｕｉｊ＝０时，ｘｊ∉Ｃｉ，其中隶属函数ｕｉｊ∈｛０，１｝且满足 ∑ ｋｉ＝１ｕｉｊ＝１，∀ｊ，０＜ ∑ ｎｊ＝１ｕｉｊ＜ｎ，∀ｉ。硬聚类的代表算法有Ｋ⁃ｍｅａｎｓ算法［５］和Ｎｃｕｔｓ（ｎｏｒｍａｌ⁃ ｉｚｅｄｃｕｔｓ）算法［６］。二者都是致力于得到使目标函数达到最值的最优聚类。Ｋ⁃ｍｅａｎｓ算法取误差平方和函数作为目标函数，对初始聚类中心和异常点较为敏感，且面对非凸数据集易陷入局部最优。Ｎｃｕｔｓ算法取规范割函数为目标函数，将数据集的聚类问题转化为空间中带权无向图的最优划分问题。Ｎｃｕｔｓ算法可以聚类任意形状的数据，但大数据聚类问题对其相似性矩阵的存储和特征向量的计算都是种挑战。在模糊聚类中，数据点的类别归属是不明确的，一个数据点可以属于所有类别。模糊聚类隶属度的取值由硬聚类中只能取０或１变为可以取［０，１］的任意值，该值用来表示每个数据点属于各个类别的可能性，仍然满足任意数据点对所有类别的隶属度之和为１。代表性的模糊聚类算法有ＦＣＭ算法［７］和ＰＣＭ（ｐｏｓｓｉｂｉｌｉｔｉｃＣｍｅａｎｓ）算法［８］。ＦＣＭ算法利用数据点对每一类别的隶属度构成了一个隶属矩阵，然后将算法的目标函数转变为一个与隶属矩阵相关的函数，通过优化该目标函数完成聚类。为克服ＦＣＭ对噪声敏感的缺点，Ｋｒｉｓｈｎａｐｕｒａｍ和Ｋｅｌｌｅｒ提出了ＰＣＭ算法。该算法舍弃了ＦＣＭ算法中每一点对各类别隶属度总和为１的约束条件，使得噪声点具有很小的隶属度值，从而增加了算法对噪声的鲁棒性。层次聚类算法又称为树聚类算法。它的主要思想是对给定的数据集依照相似性矩阵进行层次分解，使得聚类结果可以由二叉树或系统树图来描述，即树状嵌套结构为Ｈ＝｛Ｈ１，Ｈ２，…，Ｈｑ｝，（ｑ≤ ｎ），ｎ为数据点的个数，当Ｃｉ∈Ｈｍ，Ｃｊ∈Ｈｌ且ｍ＞ｌ，有Ｃｉ∈Ｃｊ或Ｃｉ∩Ｃｊ＝ ∅对所有ｉ成立，ｊ≠ｉ，ｍ，ｌ＝１，２，…，ｑ。层次聚类算法又分为分裂式和凝聚式２种。分裂式层次聚类算法采用“自顶向下” 的方式进行。将数据集看作一类，根据类内最大相似性的原则将数据集逐渐细分，直到满足终止条件或每一个数据点构成一类时停止分裂，例如ＭＯＮＡ（ｍｏｎｏ⁃ ｔｈｅｔｉｃａｎａｌｙｓｉｓ）算法［９］和ＤＩＡＮＡ（ｄｉｖｉｓｉｖｅａｎａｌｙｓｉｓ）算法［９］等。凝聚式层次聚类算法［１０］采用“自底向上”的方式进行。一开始将数据集的每个数据点看作一类，然后进行一系列的合并操作，直到满足终止条件或所有数据点归为一类时停止凝聚。大部分层次聚类算法都是采用凝聚式聚类，代表性的算法有基于代表点的ＣＵＲＥ算法［１１］、基于稠密点的ＤＢＳＣＡＮ算法［１２］、ＮＢＣ（ｎｅｉｇｈｂｏｒｈｏｏｄｂａｓｅｄｃｌｕｓｔｅｒｉｎｇ）算法［１３］、以及基于核心点的ＭｕｌＣＡ（ｍｕｌｔｉｌｅｖｅｌｃｏｒｅ⁃ｓｅｔｓｂａｓｅｄａｇｇｒｅｇａｔｉｏｎ）算法［１４］等。随着信息技术的迅猛发展，数据源开始不断膨胀，数据结构也变得日渐复杂，具有类内相异、类间相似、噪声和重叠现象的数据集层出不穷，这对于计算机领域中一些易受噪声点和数据集大小影响的经典聚类算法（如Ｋ⁃ｍｅａｎｓ、Ｎｃｕｔｓ等）来说，是一种巨大的挑战。在寻求更优的聚类算法的道路上，人们开始将其他专业领域的知识同聚类算法相结合，统计思想逐步被应用于聚类算法中。早期统计聚类方法有ＧＭＤＤ算法［１５］和ＥＭ算法［１６］等。ＧＭＤＤ算法将数据点和噪声点看作是由不同混合高斯分布生成的点集，利用一个增强的模型模拟估计含有噪声点的原始模型。ＥＭ算法是一种迭代算法，用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。２００４年，针对复杂的图像分割问题，Ｎｏｃｋ和Ｎｉｅｌｓｅｎ提出了统计区域合并算法（ｓｔａｔｉｓｔｉｃａｌｒｅｇｉｏｎｍｅｒｇｉｎｇ，ＳＲＭ）［１７］。具体地，该算法将像素点作为最基本的区域，把像素的３个颜色特征看做３组独立随机变量，对每一组独立随机变量，根据独立有限差分不等式得出合并的判定准则，利用像素点梯度值从小到大的排序获得合并顺序，依据合并准则和合并顺序，结合像素或区域进行迭代生长。通过控制每组独立随机变量的个数，ＳＲＭ算法实现了对复杂图像中目标的快速分割和有效提取。受ＳＲＭ方法的启发，本文提出了一种基于密度的统计合并聚类算法（ｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍｅｒ⁃ ｇｉｎｇｃｌｕｓｔｅｒｉｎｇ，ＤＳＭＣ），该算法主要包括２个步骤：１）根据数据点的密度信息获得合并顺序及每一数据点的ｋ邻域。首先利用数据点的空间位置信息及多维特征信息，计算数据点之间的相似性得到相似性矩阵，确定每一数据点的ｋ邻域。然后将稠密点与其ｋ邻域中所有点的相似性的最小值作为数据点的密度信息，将密度从大到小的排序作为合并的顺序。２）按照合并顺序依次将稠密点与其ｋ邻域中的数据点进行合并判定。将数据点的每个特征看作一组独立随机变量，根据独立有限差分不等式得出的合并判定准则判断两点是否合并。当２个数据点对其任意的特征具有相同的期望时，划分为同一类第５期刘贝贝，等：基于密度的统计合并聚类算法 ·７１３·

·714 智能系统学报第10卷别：当2个数据点对其特征至少有一个期望显著不该统计模型对数据点及数据点特征的取样是相同时，划分为不同类别。遍历所有的稠密点，实现对互独立的。对于Q个独立随机变量的分布没有特数据集的分类。定要求，即独立不一定同分布。Q的传统取值一般相比于上述基于密度的凝聚聚类算法（如DB- 为1，即数据点的每个特征只由一个随机变量表示， SCAN、NBC)DSMC算法在数据点生长合并的过程但是这一取值对于较小的数据集难以获得可靠的估中，不仅利用了数据点的密度信息，还利用了根据统计信息。当Q增大时，数据点的特征可以被描述的计判定准则得出的数据点每一个特征的差异性信更加细致，因此，Q成为该算法的重要参数之一。调息。因此，该算法对噪声具有更好的鲁棒性，也对不整参数Q,不仅可以改变算法的统计复杂性，还可以规则形状的数据集和密度不均匀的数据集具有更好控制分类的精确度。将Q的取值从小调大，可以建的聚类效果。立一个层次由粗到细的数据聚类结果。 1 DSM 1.2统计合并判定 DSM算法对数据点的合并由一个特定的统计 1.1统计模型的建立合并判定准则决定。为了简单起见，先只考虑含有设给定的数据集为X,包含n个数据点，每个数一个特征信息的数据集，即一个数据点用一组独立据点含有多个特征信息，用2={A,B,C,…}表示特随机变量表示。在此基础上，将得到的结果扩展到征集合，每个特征的取值范围为[L,U:](i=A,B, 具有更多的特征信息的数据集中。 C,…)。为方便应用，对数据集X作整体移动（特征为了得出统计合并判定准则，介绍定理如下：信息整体改变不影响分类)，使得特征的取值范围定理1（独立有限差分不等式[8]）设X= 变为[0，g](i=A,B,C,…),其中g:=IU,-Ll。 (X1,X2,…,X)是一组独立随机变量，X的取值范然后，将数据点的每一个特征用Q个独立随机变量围为A(k=1,2,…,n)。假设存在一个定义在表示，每一个随机变量对应一个分布。以特征A为 Π4：的实值函数f,当变量X与X'仅在第k个条件例，其可表示为A=（A1,A2,…,A),随机变量A (G=1,2,…,Q)对应第j个分布。由于Q个独立不同时，满足fX)-f(X)1≤r4,则Hr≥0，有随机变量和的取值应属于[0，g:](i=A,B,C,…), PfX)-u≥)≤exp(-2x2/∑.()) 则每一个随机变量的取值为[0，g,/Q](i=A,B,C, 式中：4为f代X)的期望，即μ=EfX)。 …)。这样，一个数据点的特征信息就由多组独立根据定理1，可以推出给定数据集X中的不同随机变量表示。类别的绝对偏差不等式。记C为数据集X中的类对于给定的数据集X,假设存在具有完美聚类别（单个数据点可作为一个类别），1C1为类别内数结果的数据集X·,那么在X·中，最优的聚类结果据点的个数，C表示类别C与其他类别合并时的代具有如下性质：1)同一类别中的数据点，对于任意表点，E(C)表示该类别相关数据点Q个独立随机给定的数据特征都具有相同的期望：2)不同的类别变量期望和的期望。中的数据点，对于任意给定的数据特征至少有一个期望不同。这一性质在合并判定过程中起到非常重推论1考虑数据集X中的类别组合(C1,C2), V0<δ≤1，下面不等式成立的概率不超过6：要的作用。 I(C-C)-E(G-C)l≥ 数据点x的特征A G*a 11 2 当E(A,=∑E(A).xy 式中：g=max(g:)(i=A,B,C,…)。 =E(A).=∑E(A) 属于同一类别证明已知类别C,中的数据点可由Q1C,I个数据点的特征A 当E(4A)f∑E(A)xy 属于同一类别独立随机变量表示，类别C2中的数据点可由Q1C2 个独立随机变量表示。(C-C)为实值函数，由于 =E(A)=∑E(A) C,C分别是C1,C,的代表点，若变动C中的变量，「的最大取值为g/(Q1C,I),若变动C2中的变图12个数据点任一特征聚类的统计说明量，4的最大取值为g/(Q1C2I)。 Fig.I The statistical description of two data points 记rc,=g/(QC,),6,=g/(Q|C,l),则 clustering about any feature ∑()2=Q(IC,le,)2+IC2lr)2)=

别；当２个数据点对其特征至少有一个期望显著不同时，划分为不同类别。遍历所有的稠密点，实现对数据集的分类。相比于上述基于密度的凝聚聚类算法（如ＤＢ⁃ ＳＣＡＮ、ＮＢＣ）ＤＳＭＣ算法在数据点生长合并的过程中，不仅利用了数据点的密度信息，还利用了根据统计判定准则得出的数据点每一个特征的差异性信息。因此，该算法对噪声具有更好的鲁棒性，也对不规则形状的数据集和密度不均匀的数据集具有更好的聚类效果。１ＤＳＭ１．１统计模型的建立设给定的数据集为Ｘ，包含ｎ个数据点，每个数据点含有多个特征信息，用 Ω＝｛Ａ，Ｂ，Ｃ，…｝表示特征集合，每个特征的取值范围为［Ｌｉ，Ｕｉ］（ｉ＝Ａ，Ｂ，Ｃ，…）。为方便应用，对数据集Ｘ作整体移动（特征信息整体改变不影响分类），使得特征的取值范围变为［０，ｇｉ］（ｉ＝Ａ，Ｂ，Ｃ，…），其中ｇｉ＝｜Ｕｉ－Ｌｉ｜。然后，将数据点的每一个特征用Ｑ个独立随机变量表示，每一个随机变量对应一个分布。以特征Ａ为例，其可表示为Ａ＝（Ａ１，Ａ２，…，ＡＱ），随机变量Ａｊ（ｊ＝１，２，…，Ｑ）对应第ｊ个分布。由于Ｑ个独立随机变量和的取值应属于［０，ｇｉ］（ｉ＝Ａ，Ｂ，Ｃ，…），则每一个随机变量的取值为［０，ｇｉ／Ｑ］（ｉ＝Ａ，Ｂ，Ｃ， …）。这样，一个数据点的特征信息就由多组独立随机变量表示。对于给定的数据集Ｘ，假设存在具有完美聚类结果的数据集Ｘ ∗ ，那么在Ｘ ∗ 中，最优的聚类结果具有如下性质：１）同一类别中的数据点，对于任意给定的数据特征都具有相同的期望；２）不同的类别中的数据点，对于任意给定的数据特征至少有一个期望不同。这一性质在合并判定过程中起到非常重要的作用。图１２个数据点任一特征聚类的统计说明Ｆｉｇ．１Ｔｈｅｓｔａｔｉｓｔｉｃａｌｄｅｓｃｒｉｐｔｉｏｎｏｆｔｗｏｄａｔａｐｏｉｎｔｓｃｌｕｓｔｅｒｉｎｇａｂｏｕｔａｎｙｆｅａｔｕｒｅ该统计模型对数据点及数据点特征的取样是相互独立的。对于Ｑ个独立随机变量的分布没有特定要求，即独立不一定同分布。Ｑ的传统取值一般为１，即数据点的每个特征只由一个随机变量表示，但是这一取值对于较小的数据集难以获得可靠的估计信息。当Ｑ增大时，数据点的特征可以被描述的更加细致，因此，Ｑ成为该算法的重要参数之一。调整参数Ｑ，不仅可以改变算法的统计复杂性，还可以控制分类的精确度。将Ｑ的取值从小调大，可以建立一个层次由粗到细的数据聚类结果。１．２统计合并判定ＤＳＭ算法对数据点的合并由一个特定的统计合并判定准则决定。为了简单起见，先只考虑含有一个特征信息的数据集，即一个数据点用一组独立随机变量表示。在此基础上，将得到的结果扩展到具有更多的特征信息的数据集中。为了得出统计合并判定准则，介绍定理如下：定理１（独立有限差分不等式［１８］）设Ｘ＝（Ｘ１，Ｘ２，…，Ｘｎ）是一组独立随机变量，Ｘｋ的取值范围为Ａｋ（ｋ＝１，２，…，ｎ）。假设存在一个定义在 ∏ｋＡｋ的实值函数ｆ，当变量Ｘ与Ｘ′仅在第ｋ个条件不同时，满足｜ｆ(Ｘ) －ｆ（Ｘ′）｜≤ｒｋ，则∀τ≥０，有Ｐ(ｆ(Ｘ) － μ ≥ τ) ≤ ｅｘｐ－２τ ２／ ∑ｋｒｋ ( ) ２ ( ) 式中：μ 为ｆ（Ｘ）的期望，即 μ ＝Ｅｆ（Ｘ）。根据定理１，可以推出给定数据集Ｘ中的不同类别的绝对偏差不等式。记Ｃ为数据集Ｘ中的类别（单个数据点可作为一个类别），｜Ｃ｜为类别内数据点的个数，Ｃ ( 表示类别Ｃ与其他类别合并时的代表点，Ｅ（Ｃ）表示该类别相关数据点Ｑ个独立随机变量期望和的期望。推论１考虑数据集Ｘ中的类别组合（Ｃ１，Ｃ２）， ∀０＜δ≤１，下面不等式成立的概率不超过 δ：Ｃ１ ( －Ｃ２ ( ( ) －ＥＣ１ ( －Ｃ２ ( ( ) ≥ ｇ１２Ｑ１Ｃ１＋１Ｃ２ æ è ç ö ø ÷ ｌｎ２ δ 式中：ｇ＝ｍａｘｇｉ ( ) （ｉ＝Ａ，Ｂ，Ｃ，…）。证明已知类别Ｃ１中的数据点可由Ｑ｜Ｃ１｜个独立随机变量表示，类别Ｃ２中的数据点可由Ｑ｜Ｃ２｜个独立随机变量表示。Ｃ１ ( －Ｃ２ ( ( ) 为实值函数，由于Ｃ１ ( ，Ｃ２ ( 分别是Ｃ１，Ｃ２的代表点，若变动Ｃ１中的变量，ｒｋ的最大取值为ｇ／（Ｑ｜Ｃ１｜），若变动Ｃ２中的变量，ｒｋ的最大取值为ｇ／（Ｑ｜Ｃ２｜）。记ｒＣ１＝ｇ／（ＱＣ１），ｒＣ２＝ｇ／（ＱＣ２），则 ∑ｋｒｋ ( ) ２＝ＱＣ１ｒＣ１ ( ) ２＋Ｃ２ｒＣ２ ( ) ２ ( ) ＝ ·７１４· 智能系统学报第１０卷

第5期刘贝贝，等：基于密度的统计合并聚类算法 ·715· 由上述合并顺序的获取过程可以看出，k邻域大小的选择直接影响了数据点密度的大小，进而影 1(11 2 响了DSMC算法的合并顺序。因此，k邻域的大小根据定理1，取=gG十Gg血谷>0，也被看作是DSMC算法的一个重要参数。则在该算法中，密度的大小不仅受到k邻域的影 P(I(C-C)-E(G-C)l≥ 响，也会受到距离度量(x,y)的影响。针对不同特征的数据集，选取合适的f(x,y)可以得到更好的聚 171 类结果。在算法中较为常见的距离度量有欧式距离，马氏距离，最大/最小值距离等。本文实验中主 2r2 < 要应用一种距离度量，它利用数据点最大特征差异 2 进行排序，使得d=max,eks(max(x:-y:),(i=A, 推论得证。 B,C,…),K(x)表示点x的k邻域。随机生成含由推论1可知，当δ取值接近于零时（本文有20个点的数据集，选取k邻域大小为4，利用上若未特别标明，8取为1/(61X12),类别组合述距离度量，得到DSMC算法的合并顺序如图2 (C,C2)满足不等式1(C-C3)-E(C,-C)1≤ 所示。 b(C1,C2)的概率接近于1，其中b(C1,C2)= 20TG,7G方：若(G,G)可以合并，说 1 明在数据集X·中2者属于同一类别，则有 E(C,-C,)=0。根据这2个前提条件得到如下统计合并判定准则： ● M(C1,C2)= |ue,1(G-C)l≤b(C,c) false,其他当类别组合(C,C,)满足|(C-C)|≤ (a)原图 b(C1,C2)时，则合并(C1,C2);反之则不然。将该准则扩展到具有多个特征信息的数据集中，形式如下： ftue,a∈{A,B,…f, M(C,C2上 I(G-Ca)|≤b(C,G) false,其他 1.3合并顺序建立合适的合并准则后，聚类算法的结果受合并顺序的影响。与随机选取数据点进行合并判定的算法不同，DSMC算法利用了数据点的密度信息以获得合并顺序。获取过程可叙述如下：首先，计算数 (b)k=4时的合并顺序图2DSMC算法的合并顺序据集中任意2点之间的距离度量（例如欧式距离、 Fig.2 Merging order of DSMC algorithm 最大/最小距离、马氏距离等)，获得度量矩阵：然后，确定每一数据点的k邻域，选取k邻域中所有点 2DSMC算法的实现与稠密点距离度量的最大值，作为稠密点的局部密度信息：最后，根据获得的局部密度信息，将所有数 2.1DSMC算法的实现细节据点按密度从大到小排序，得到算法的合并顺序。通过对DSMC算法的详细介绍可知，DSMC算在整个算法过程中，基于密度的合并顺序保证了在法主要通过2个步骤实现：步骤1是根据数据点的任意2个不同的类别进行合并判定时，其自身已经密度信息获得合并顺序及每一数据点的k邻域：步完成所有可能的合并。骤2是按照合并顺序依次将稠密点与其k邻域中的

ｇ２Ｑ１Ｃ１＋１Ｃ２ æ è ç ö ø ÷ 根据定理１，取 τ ＝ｇ１２Ｑ１Ｃ１＋１Ｃ２ æ è ç ö ø ÷ｌｎ２ δ ＞０，则ＰＣ１ ( －Ｃ２ ( ( ) －ＥＣ１ ( －Ｃ２ ( ( ( ) ≥ ｇ１２Ｑ１Ｃ１＋１Ｃ２ æ è ç ö ø ÷ ｌｎ２ δ ö ø ÷ ≤ ｅｘｐ－２τ ２ ∑ｋｒｋ ( ) ２ æ è çç ö ø ÷÷ ＝ δ ２＜ δ 推论得证。由推论１可知，当 δ 取值接近于零时（本文若未特别标明， δ 取为１／（６｜Ｘ｜２），类别组合（Ｃ１，Ｃ２）满足不等式｜Ｃ１ ( －Ｃ２ ( ( ) －ＥＣ１ ( －Ｃ２ ( ( ) ｜ ≤ ｂ（Ｃ１，Ｃ２）的概率接近于１，其中ｂＣ１，Ｃ２ ( ) ＝ｇ１２Ｑ（１Ｃ１＋１Ｃ２）ｌｎ２ δ ；若（Ｃ１，Ｃ２）可以合并，说明在数据集Ｘ ∗ 中２者属于同一类别，则有Ｅ（Ｃ１ ( －Ｃ２ ( ）＝０。根据这２个前提条件得到如下统计合并判定准则：ＭＣ１，Ｃ２ ( ) ＝ｔｒｕｅ，Ｃ１ ( －Ｃ１ ( ( ) ≤ ｂＣ１，Ｃ２ ( ) ｆａｌｓｅ，其他 { 当类别组合（Ｃ１，Ｃ２）满足Ｃ１ ( －Ｃ２ ( ( ) ≤ ｂ（Ｃ１，Ｃ２）时，则合并（Ｃ１，Ｃ２）；反之则不然。将该准则扩展到具有多个特征信息的数据集中，形式如下：ＭＣ１，Ｃ２ ( )＝ｔｒｕｅ， ∀ａ ∈｛Ａ，Ｂ，…｝，Ｃａ１ ( －Ｃａ２ ( ( ) ≤ｂ（Ｃ１，Ｃ２）ｆａｌｓｅ，其他 ì î í ï ï ï ï １．３合并顺序建立合适的合并准则后，聚类算法的结果受合并顺序的影响。与随机选取数据点进行合并判定的算法不同，ＤＳＭＣ算法利用了数据点的密度信息以获得合并顺序。获取过程可叙述如下：首先，计算数据集中任意２点之间的距离度量（例如欧式距离、最大／最小距离、马氏距离等），获得度量矩阵；然后，确定每一数据点的ｋ邻域，选取ｋ邻域中所有点与稠密点距离度量的最大值，作为稠密点的局部密度信息；最后，根据获得的局部密度信息，将所有数据点按密度从大到小排序，得到算法的合并顺序。在整个算法过程中，基于密度的合并顺序保证了在任意２个不同的类别进行合并判定时，其自身已经完成所有可能的合并。由上述合并顺序的获取过程可以看出，ｋ邻域大小的选择直接影响了数据点密度的大小，进而影响了ＤＳＭＣ算法的合并顺序。因此，ｋ邻域的大小也被看作是ＤＳＭＣ算法的一个重要参数。在该算法中，密度的大小不仅受到ｋ邻域的影响，也会受到距离度量ｆ（ｘ，ｙ）的影响。针对不同特征的数据集，选取合适的ｆ（ｘ，ｙ）可以得到更好的聚类结果。在算法中较为常见的距离度量有欧式距离，马氏距离，最大／最小值距离等。本文实验中主要应用一种距离度量，它利用数据点最大特征差异进行排序，使得ｄ＝ｍａｘｙ∈Ｋ（ｘ）ｍａｘｘｉ－ｙｉ ( ( ) ) ，（ｉ＝Ａ，Ｂ，Ｃ，…），Ｋ（ｘ）表示点ｘ的ｋ邻域。随机生成含有２０个点的数据集，选取ｋ邻域大小为４，利用上述距离度量，得到ＤＳＭＣ算法的合并顺序如图２所示。（ａ）原图（ｂ）ｋ＝４时的合并顺序图２ＤＳＭＣ算法的合并顺序Ｆｉｇ．２ＭｅｒｇｉｎｇｏｒｄｅｒｏｆＤＳＭＣａｌｇｏｒｉｔｈｍ２ＤＳＭＣ算法的实现２．１ＤＳＭＣ算法的实现细节通过对ＤＳＭＣ算法的详细介绍可知，ＤＳＭＣ算法主要通过２个步骤实现：步骤１是根据数据点的密度信息获得合并顺序及每一数据点的ｋ邻域；步骤２是按照合并顺序依次将稠密点与其ｋ邻域中的第５期刘贝贝，等：基于密度的统计合并聚类算法 ·７１５·

·716 智能系统学报第10卷数据点进行合并判定，通过遍历所有的稠密点完成计合并判定得到聚类结果：过程③根据临近数据点数据的聚类。其中，为更好地处理噪声点，在步骤2 的类别对噪声点进行聚类，比较其k邻域中各类别中只对a比例的数据（本文默认α=0.9）进行统计点的个数，将它归为点数最多类别。判定，剩余数据点根据临近数据点的类别标号。根 200 200 据这2个步骤的内容，具体说明DSMC算法的聚类 150 150 过程如下。 100 。=.100 步骤1：计算数据点的合并顺序并获得数据点 50 的k邻域。 ①504 %⊙j 输入：数据集X;k邻域中数据点个数k。 1000100 200300-1000100200300 1)计算数据集中任意两个点距离，存入矩 1② 阵D。 2)将矩阵D按列进行升序排列，存入矩阵D, 200 200. 其第k行按升序排列，得到密度从大到小的顺序d。 150 150 3)根据顺序d确定数据点的k邻域。 a.100 。.100 输出：合并顺序d:k邻域矩阵W。 ③50 步骤2：将稠密点与其k邻域中的数据点进行合并判定，然后合并剩余点完成聚类。 100 0100 200300-1000100200300 x 输入：数据集X;合并顺序d:k邻域矩阵W。图3DSMC算法的聚类过程 1)对数据集中90%的数据点（稠密点）进行合 Fig.3 Clustering process of DSMC algorithm 并判定。 2.2计算复杂度分析 a)根据合并顺序d确定当前稠密点C,然后依由上述聚类过程可知，DSMC算法的计算量主次选定其k邻域内的点作为当前合并点C,判断要集中于2个步骤： 1)构建数据点的距离度量矩阵： CC的类别归属： 2)统计合并判定时对稠密点及其k邻域的 b)计算统计判定准则的临界值b(C,C2)(推迭代。论1)，若满足统计合并判定准则，则合并C,C,:若不对于步骤1)，给定含有n个点的数据集，距离满足，则进行下一组合并判断，直到遍历完k邻域内度量矩阵的计算复杂度为0(n2):对于步骤2)，遍所有的点：历数据集中所有稠密点，将当前稠密点依次与其k c)重复步骤a)和b),直到遍历完数据集X中邻域中的点进行统计合并判定，由于k邻域内点的所有的稠密点。最大迭代次数为k,因此，步骤2)的计算复杂度为 2)对剩余的10%的数据点进行近邻合并。 O(km)。一般地，k的取值远小于n,则DSMC算法的计算复杂度可近似于距离度量矩阵的计算复杂度 a)根据合并顺序d确定当前点C; 0(n2)。 b)判断其k邻域内点的分类情况。若有已分类的点，且其k邻域中属于该类别的点数最多，则将 3实验比较与评价 C归于该类别：若没有已分类的点，则C,不作改变：将DSMC算法同3种经典聚类算法作比较，它 c)重复步骤a)和b),直到遍历完剩余所有的们分别是通过聚类中心实现的K-means算法、基于数据点。图论的Ncuts算法和基于密度的DBSCAN算法。针 3)计算数据集X的分类个数nbcluster。对具有不同形状，不同重叠程度和不同噪声点数的输出：聚类个数nbcluster. 人工数据集以及部分真实数据集进行实验。进一步由高斯分布随机生成一个可被分为2类的数据地，对本文提出的DSMC算法的参数选择进行了实集X,其含40个数据点。用DSMC算法（参数k和验分析。 Q取为5,15)对数据集X进行聚类，具体过程如图3 由于不同的算法具有不同的参数，在3.1~3.5 所示。过程①对于给定的数据集X计算合并顺序，节的实验中，实验参数设置如下：得到首要稠密点及其k邻域：过程②按照数据集的 1)K-means和Ncuts算法：只有1个参数，即想合并顺序，依次对稠密点和其k邻域中的点进行统要达到的聚类个数。一般地，实验中将数据集真实的聚类个数取为参数值

数据点进行合并判定，通过遍历所有的稠密点完成数据的聚类。其中，为更好地处理噪声点，在步骤２中只对 α 比例的数据（本文默认 α ＝０．９）进行统计判定，剩余数据点根据临近数据点的类别标号。根据这２个步骤的内容，具体说明ＤＳＭＣ算法的聚类过程如下。步骤１：计算数据点的合并顺序并获得数据点的ｋ邻域。输入：数据集Ｘ；ｋ邻域中数据点个数ｋ。１）计算数据集中任意两个点距离，存入矩阵Ｄ。２）将矩阵Ｄ按列进行升序排列，存入矩阵Ｄ１，其第ｋ行按升序排列，得到密度从大到小的顺序ｄ。３）根据顺序ｄ确定数据点的ｋ邻域。输出：合并顺序ｄ；ｋ邻域矩阵Ｗ。步骤２：将稠密点与其ｋ邻域中的数据点进行合并判定，然后合并剩余点完成聚类。输入：数据集Ｘ；合并顺序ｄ；ｋ邻域矩阵Ｗ。１）对数据集中９０％的数据点（稠密点）进行合并判定。ａ）根据合并顺序ｄ确定当前稠密点Ｃ１ ( ，然后依次选定其ｋ邻域内的点作为当前合并点Ｃ２ ( ，判断Ｃ１ ( Ｃ２ ( 的类别归属；ｂ）计算统计判定准则的临界值ｂ（Ｃ１，Ｃ２）（推论１），若满足统计合并判定准则，则合并Ｃ１ ( Ｃ２ ( ；若不满足，则进行下一组合并判断，直到遍历完ｋ邻域内所有的点；ｃ）重复步骤ａ）和ｂ），直到遍历完数据集Ｘ中所有的稠密点。２）对剩余的１０％的数据点进行近邻合并。ａ）根据合并顺序ｄ确定当前点Ｃ１ ( ；ｂ）判断其ｋ邻域内点的分类情况。若有已分类的点，且其ｋ邻域中属于该类别的点数最多，则将Ｃ１ ( 归于该类别；若没有已分类的点，则Ｃ１ ( 不作改变；ｃ）重复步骤ａ）和ｂ），直到遍历完剩余所有的数据点。３）计算数据集Ｘ的分类个数ｎｂｃｌｕｓｔｅｒ。输出：聚类个数ｎｂｃｌｕｓｔｅｒ。由高斯分布随机生成一个可被分为２类的数据集Ｘ，其含４０个数据点。用ＤＳＭＣ算法（参数ｋ和Ｑ取为５，１５）对数据集Ｘ进行聚类，具体过程如图３所示。过程①对于给定的数据集Ｘ计算合并顺序，得到首要稠密点及其ｋ邻域；过程②按照数据集的合并顺序，依次对稠密点和其ｋ邻域中的点进行统计合并判定得到聚类结果；过程③根据临近数据点的类别对噪声点进行聚类，比较其ｋ邻域中各类别点的个数，将它归为点数最多类别。图３ＤＳＭＣ算法的聚类过程Ｆｉｇ．３ＣｌｕｓｔｅｒｉｎｇｐｒｏｃｅｓｓｏｆＤＳＭＣａｌｇｏｒｉｔｈｍ２．２计算复杂度分析由上述聚类过程可知，ＤＳＭＣ算法的计算量主要集中于２个步骤：１）构建数据点的距离度量矩阵；２）统计合并判定时对稠密点及其ｋ邻域的迭代。对于步骤１），给定含有ｎ个点的数据集，距离度量矩阵的计算复杂度为Ｏ（ｎ２）；对于步骤２），遍历数据集中所有稠密点，将当前稠密点依次与其ｋ邻域中的点进行统计合并判定，由于ｋ邻域内点的最大迭代次数为ｋ，因此，步骤２）的计算复杂度为Ｏ（ｋｎ）。一般地，ｋ的取值远小于ｎ，则ＤＳＭＣ算法的计算复杂度可近似于距离度量矩阵的计算复杂度Ｏ（ｎ２）。３实验比较与评价将ＤＳＭＣ算法同３种经典聚类算法作比较，它们分别是通过聚类中心实现的Ｋ⁃ｍｅａｎｓ算法、基于图论的Ｎｃｕｔｓ算法和基于密度的ＤＢＳＣＡＮ算法。针对具有不同形状，不同重叠程度和不同噪声点数的人工数据集以及部分真实数据集进行实验。进一步地，对本文提出的ＤＳＭＣ算法的参数选择进行了实验分析。由于不同的算法具有不同的参数，在３．１～３．５节的实验中，实验参数设置如下：１）Ｋ⁃ｍｅａｎｓ和Ｎｃｕｔｓ算法：只有１个参数，即想要达到的聚类个数。一般地，实验中将数据集真实的聚类个数取为参数值。 ·７１６· 智能系统学报第１０卷

第5期刘贝贝，等：基于密度的统计合并聚类算法 ·717 2)DBSCAN算法：共有2个参数，一个是点的邻 10 域半径r,一个是邻域内点的个数阈值m。在实验中，m一般取10左右的数，邻域半径r则根据数据集的直径做决定。 3)DSMC算法：共有2个参数，分别是邻域内点的个数k和划分尺度参数Q。参数k的取值一般根 10 据数据集中数据点的总个数确定。一般初始值取 200 10左右。对于该方法特有的参数Q,它控制了算法对数据集的划分细度，即当Q较小时，数据集划分 150 细度小，聚类个数少；当Q较大时，数据集划分细度 100 大，聚类个数多。由于参数Q是一个特征独立随机变量的个数，因此其取值范围为正整数，实验中具体 -100 100200300 取值根据数据集分类需求进行调整，默认初始值为1。 (c)DBSCAN算法 31形状不同的人工数据集实验 10 10r 将4种聚类算法(K-means,Ncuts,DBSCAN, 5 DSMC)分别应用于4种不同形状的人工数据集上。它们通过不同类型的高斯分布随机生成，样本点的个数从左到右第1行分别为600、900：第2行分别 10 为660（包含60个随机噪声点），1100（包含100个 10 10 随机噪声点)。 200 10 10r 150 =100 -100 100200300 200 (d)DSMC算法图4算法对不同形状数据集的分类结果比较 Fig.4 Comparison of classification results of algorithms for different shape data sets 对任意形状的数据集都有良好聚类效果的算法 100 100200300 才能称之为好的聚类算法。由图4可以看出，K (a)K-means算法 means和Ncuts算法并不能很好的聚类非凸数据集， 10r 而DBSCAN算法（参数m和r从左到右第1行为8， 0.4:7,0.7:第2行为100,48：15,0.4)和本文提出的 DSMC算法（参数k和Q从左到右第1行为6,200： 8,1:第2行为8,1：8,6)对任意形状数据集的聚类 10 效果都很令人满意，但对于较为稀疏的数据点的聚类，DSMC算法相对更优。 3.2重叠程度不同的人工数据集实验对数据重叠的鲁棒性也是判断聚类算法好坏的标准之一。本节中，通过对重叠程度逐渐增大的2 类不同形状的人工数据集进行实验，比较4种聚类 -100 算法对数据重叠的鲁棒性。其中，团状数据集含有 0 100200300 600个数据点：环状数据集含有1000个数据点。 (b)Ncuts算法

２）ＤＢＳＣＡＮ算法：共有２个参数，一个是点的邻域半径ｒ，一个是邻域内点的个数阈值ｍ。在实验中，ｍ一般取１０左右的数，邻域半径ｒ则根据数据集的直径做决定。３）ＤＳＭＣ算法：共有２个参数，分别是邻域内点的个数ｋ和划分尺度参数Ｑ。参数ｋ的取值一般根据数据集中数据点的总个数确定。一般初始值取１０左右。对于该方法特有的参数Ｑ，它控制了算法对数据集的划分细度，即当Ｑ较小时，数据集划分细度小，聚类个数少；当Ｑ较大时，数据集划分细度大，聚类个数多。由于参数Ｑ是一个特征独立随机变量的个数，因此其取值范围为正整数，实验中具体取值根据数据集分类需求进行调整，默认初始值为１。３．１形状不同的人工数据集实验将４种聚类算法（Ｋ⁃ｍｅａｎｓ，Ｎｃｕｔｓ，ＤＢＳＣＡＮ，ＤＳＭＣ）分别应用于４种不同形状的人工数据集上。它们通过不同类型的高斯分布随机生成，样本点的个数从左到右第１行分别为６００、９００；第２行分别为６６０（包含６０个随机噪声点），１１００（包含１００个随机噪声点）。（ａ）Ｋ⁃ｍｅａｎｓ算法（ｂ）Ｎｃｕｔｓ算法（ｃ）ＤＢＳＣＡＮ算法（ｄ）ＤＳＭＣ算法图４算法对不同形状数据集的分类结果比较Ｆｉｇ．４Ｃｏｍｐａｒｉｓｏｎｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅｓｕｌｔｓｏｆａｌｇｏｒｉｔｈｍｓｆｏｒｄｉｆｆｅｒｅｎｔｓｈａｐｅｄａｔａｓｅｔｓ对任意形状的数据集都有良好聚类效果的算法才能称之为好的聚类算法。由图４可以看出，Ｋ⁃ ｍｅａｎｓ和Ｎｃｕｔｓ算法并不能很好的聚类非凸数据集，而ＤＢＳＣＡＮ算法（参数ｍ和ｒ从左到右第１行为８，０．４；７，０．７；第２行为１００，４８；１５，０．４）和本文提出的ＤＳＭＣ算法（参数ｋ和Ｑ从左到右第１行为６，２００；８，１；第２行为８，１；８，６）对任意形状数据集的聚类效果都很令人满意，但对于较为稀疏的数据点的聚类，ＤＳＭＣ算法相对更优。３．２重叠程度不同的人工数据集实验对数据重叠的鲁棒性也是判断聚类算法好坏的标准之一。本节中，通过对重叠程度逐渐增大的２类不同形状的人工数据集进行实验，比较４种聚类算法对数据重叠的鲁棒性。其中，团状数据集含有６００个数据点；环状数据集含有１０００个数据点。第５期刘贝贝，等：基于密度的统计合并聚类算法 ·７１７·

（ａ）Ｋ⁃ｍｅａｎｓ算法（ｂ）Ｎｃｕｔｓ算法（ｃ）ＤＢＳＣＡＮ算法（ｄ）ＤＳＭＣ算法图５对不同重叠程度的团状和环状数据集的分类结果比较Ｆｉｇ．５Ｃｏｍｐａｒｉｓｏｎｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅｓｕｌｔｓｏｎｄｉｆｆｅｒｅｎｔｄｅ⁃ ｇｒｅｅｏｆｏｖｅｒｌａｐｂｅｔｗｅｅｎｇｒｏｕｐａｎｄｃｙｃｌｉｃｄａｔａｓｅｔｓ从图５的实验结果可以看出，对于团状数据集，Ｋ⁃ｍｅａｎｓ、Ｎｃｕｔｓ和ＤＳＭＣ（参数ｋ和Ｑ自上而下依次取为６，２００；６，１６０）算法都能够很好的处理重叠问题，而ＤＢＳＣＡＮ算法（参数ｍ和ｒ自上而下依次取为８，０．４；１０，０．６）虽然对一般的团状数据集聚类效果显著，但随着数据集重叠程度的逐渐增大，聚类效果也开始变差。对于环状数据集，像Ｋ⁃ｍｅａｎｓ、Ｎｃｕｔｓ这种无法很好的聚类非凸数据集的算法，对于重叠的环状数据集一样效果不好；而ＤＢＳＣＡＮ算法（参数ｍ和ｒ自上而下依次取为１５，０．４；１０，０．５）对环状数据集的聚类类似于团状数据集，对重叠度较高的数据集不能很好地聚类；本文提出的ＤＳＭＣ算法（参数ｋ和Ｑ自上而下依次取为７，１５；７，７５）对于高重叠度的环状数据集虽然没有得到完美的聚类结果，但将内环与外环数据归为２类的结果基本令人满意。相比其他３种聚类算法而言，ＤＳＭＣ算法对重叠的鲁棒性较好。３．３噪声点个数不同的人工数据集实验随着数据源含有噪声现象的增多，算法对噪声的处理效果也越来越受到人们的关注。为检验本文提出的ＤＳＭＣ算法对含有噪声的数据集的聚类效果，对逐渐增加噪声点的两类非凸数据集进行实验。其中，第１个数据集含有４００个数据点，第２个数据集含有１０００个数据点，自上而下对２个数据集分别加入１００、２００、３００个噪声点。图６的实验结果说明，ＤＳＭＣ算法（参数ｋ和Ｑ ·７１８· 智能系统学报第１０卷

第5期刘贝贝，等：基于密度的统计合并聚类算法 ·719. 自上而下依次取为8,1；16,70：8,70：8,6；7,8；9， 3.5真实数据集实验 20)对数据中的噪声具有良好的鲁棒性。基于对人工数据集良好的聚类效果，本节继续 200r 应用DSMC算法对真实数据集进行聚类，并同K 150 means、Ncuts、DBSCAN算法的聚类结果作比较。实 100 验对象选自UCI数据库(http:/archive.ics.uci.edu/ 50 m/,加州大学欧文分校提出的用于机器学习的数据。库，目前包含223个数据集)中的4个不同的数据 -100 0 100200300 集，分别是iris,wine,seeds,.glass。4个数据集的基 20八本特征如表1所示。 150 表1真实数据集的特征描述 100 Table 1 Characteristic description of real data sets 50 数据集样本点数特征个数类别数 100 100 200 300 iris 150 4 3 200 wine 178 13 150 100 seeds 210 7 3 50 glass 214 10 6 -100 0 100200300 在实验中，DSMC算法中的参数k和Q自上而图6DSMC算法对逐渐增加噪声点的数据集聚类结果下依次取为6,140：8,7：6,180：6,70.DBSCAN算法 Fig.6 Clustering results over the noisy data sets of 中的参数m和r自上而下依次取为11,0.5；7,51：5， DSMC algorithm 1.1:l5,8.由表2可知，DSMC算法对iis、seeds和 glass的聚类效果要好于其他3种聚类算法；对wine 3.4混合形状的人工数据集实验的聚类虽然不如Ncuts算法，但结果基本令人满意，为进一步说明DSMC算法的有效性，将该算法说明DSMC算法对真实数据集也有良好的聚类应用于混合形状的人工数据集（凸状和非凸状混结果。合)，其中，该混合数据集含有1520个数据点，包括 320个噪声点。图7表明，DSMC算法（参数k和Q 表2算法对真实数据集聚类结果的比较为10,100)对这种密度不均匀的混合数据集也能很 Table 2 Comparison of clustering results on real data sets 好地聚类。 Accuracy/% 数据集 10 DSMC K-means Ncuts DBSCAN iris 97.33 89.33 81.33 75.33 wine 72.47 70.22 79.21 53.37 h4 seeds 90.48 89.05 85.24 89.52 glass 77.57 72.90 46.26 64.95 10 3.6DSMC算法参数分析图7DSMC算法对混合数据集的聚类结果 DSMC算法中涉及到的2个重要参数分别是独 Fig.7 Clustering results of DSMC algorithm for mixed 立随机变量的个数Q和邻域内数据点的个数k。 data set 独立随机变量的个数Q控制了算法的分类精确度。在固定k邻域的情况下，随着Q取值的逐渐

自上而下依次取为８，１；１６，７０；８，７０；８，６；７，８；９，２０）对数据中的噪声具有良好的鲁棒性。图６ＤＳＭＣ算法对逐渐增加噪声点的数据集聚类结果Ｆｉｇ．６ＣｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｖｅｒｔｈｅｎｏｉｓｙｄａｔａｓｅｔｓｏｆＤＳＭＣａｌｇｏｒｉｔｈｍ３．４混合形状的人工数据集实验为进一步说明ＤＳＭＣ算法的有效性，将该算法应用于混合形状的人工数据集（凸状和非凸状混合），其中，该混合数据集含有１５２０个数据点，包括３２０个噪声点。图７表明，ＤＳＭＣ算法（参数ｋ和Ｑ为１０，１００）对这种密度不均匀的混合数据集也能很好地聚类。图７ＤＳＭＣ算法对混合数据集的聚类结果Ｆｉｇ．７ＣｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｆＤＳＭＣａｌｇｏｒｉｔｈｍｆｏｒｍｉｘｅｄｄａｔａｓｅｔ３．５真实数据集实验基于对人工数据集良好的聚类效果，本节继续应用ＤＳＭＣ算法对真实数据集进行聚类，并同Ｋ⁃ ｍｅａｎｓ、Ｎｃｕｔｓ、ＤＢＳＣＡＮ算法的聚类结果作比较。实验对象选自ＵＣＩ数据库（ｈｔｔｐ：／／ａｒｃｈｉｖｅ．ｉｃｓ．ｕｃｉ．ｅｄｕ／ｍｌ／，加州大学欧文分校提出的用于机器学习的数据库，目前包含２２３个数据集）中的４个不同的数据集，分别是ｉｒｉｓ，ｗｉｎｅ，ｓｅｅｄｓ，ｇｌａｓｓ。４个数据集的基本特征如表１所示。表１真实数据集的特征描述Ｔａｂｌｅ１Ｃｈａｒａｃｔｅｒｉｓｔｉｃｄｅｓｃｒｉｐｔｉｏｎｏｆｒｅａｌｄａｔａｓｅｔｓ数据集样本点数特征个数类别数ｉｒｉｓ１５０４３ｗｉｎｅ１７８１３３ｓｅｅｄｓ２１０７３ｇｌａｓｓ２１４１０６在实验中，ＤＳＭＣ算法中的参数ｋ和Ｑ自上而下依次取为６，１４０；８，７；６，１８０；６，７０．ＤＢＳＣＡＮ算法中的参数ｍ和ｒ自上而下依次取为１１，０．５；７，５１；５，１．１；１５，８．由表２可知，ＤＳＭＣ算法对ｉｒｉｓ、ｓｅｅｄｓ和ｇｌａｓｓ的聚类效果要好于其他３种聚类算法；对ｗｉｎｅ的聚类虽然不如Ｎｃｕｔｓ算法，但结果基本令人满意，说明ＤＳＭＣ算法对真实数据集也有良好的聚类结果。表２算法对真实数据集聚类结果的比较Ｔａｂｌｅ２Ｃｏｍｐａｒｉｓｏｎｏｆｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｎｒｅａｌｄａｔａｓｅｔｓ数据集Ａｃｃｕｒａｃｙ／％ＤＳＭＣＫ⁃ｍｅａｎｓＮｃｕｔｓＤＢＳＣＡＮｉｒｉｓ９７．３３８９．３３８１．３３７５．３３ｗｉｎｅ７２．４７７０．２２７９．２１５３．３７ｓｅｅｄｓ９０．４８８９．０５８５．２４８９．５２ｇｌａｓｓ７７．５７７２．９０４６．２６６４．９５３．６ＤＳＭＣ算法参数分析ＤＳＭＣ算法中涉及到的２个重要参数分别是独立随机变量的个数Ｑ和邻域内数据点的个数ｋ。独立随机变量的个数Ｑ控制了算法的分类精确度。在固定ｋ邻域的情况下，随着Ｑ取值的逐渐第５期刘贝贝，等：基于密度的统计合并聚类算法 ·７１９·

·720 智能系统学报第10卷增大，聚类个数也会随之增多。图8显示了在固定 150 k的情况下，不同的Q值对环状人工数据集和真实数据集iis产生的不同聚类效果。对于环状人工数 100 据集，固定k=8,Q取1~16时数据集得到完美聚 50 类，随着Q值的增大，分类更加细化，聚类个数逐渐 0 增多。对于真实数据集iis,固定k=6,Q取1~52 -20 50100 150 时数据集后2类不能被分开，分类正确率低：当Q (a)k=6(1-7) (b)k=2(1-5) 增大至53~252时，后两类被分开，分类正确率增至 140 最大；当Q取252以上，类别数增加，分类正确率 120 下降。 100 80 80 60 40 6 0 0 50100150 (c)k=10(8-18) (d)k=6 0 50 2 100150 40 (a)Q-1(1-16) (b)O=1(1-52) 140 120 20 50100150 100 80 60 (e)k=20(19以上) (Dk=10(7以上) 40 -2 0 2 50.100150 图9固定Q值时，不同k的聚类结果 (c)Q=50(17-52) (d)Q=100(53-251) Fig.9 Clustering results of different k with a fixed value 200r 150 4 结束语 100 6o6a 随着信息技术水平的不断提高，具有噪声和重 50 叠现象的数据源越来越多，仅限于计算机领域的聚 -202 50100150 类方法不能很好地处理该问题。为此，本文提出了 (e)Q=150(53以上) (6Q=500(252以上) 一种同统计思想相结合的快速聚类算法一DSMC算图8固定k值时，不同Q的聚类结果法，它使用了一个简单的合并顺序和统计判定准则， Fig.8 Clustering results of different O with a fixed k value 将数据点的每一个特征看作一组独立随机变量，根邻域内数据点的个数k决定了算法的合并顺据独立有限差分不等式得出统计合并判定准则，同序，在固定Q值的情况下，随着k邻域的逐渐增大，时，结合数据点的密度信息，把密度从大到小的排序聚类个数会随之减少。图9显示了在固定Q的情作为凝聚过程中的合并顺序，进而实现各类数据点况下，将k逐渐增大时的两个数据集聚类效果。对的统计合并。对人工数据集和真实数据集测试的实于环状人工数据集，固定Q=1,当k取1~7时，分类验结果表明，DSMC算法对于非凸状、重叠和加入噪个数过多，聚类结果并不理想：当k取8~18时，聚声的数据集都有良好的聚类效果。类结果稳定且保持较高水平：当k取19以上时，数据集被聚为一类，结果不理想。对于真实数据集i 在后续的研究工作中，将进一步推广DSMC算 is,同人工数据集类似，当k取53~251时，可获得法的应用范围，使其能够快速、高效地处理大数据、稳定的高水平聚类结果。在线数据等多种型态的复杂聚类问题

增大，聚类个数也会随之增多。图８显示了在固定ｋ的情况下，不同的Ｑ值对环状人工数据集和真实数据集ｉｒｉｓ产生的不同聚类效果。对于环状人工数据集，固定ｋ＝８，Ｑ取１～１６时数据集得到完美聚类，随着Ｑ值的增大，分类更加细化，聚类个数逐渐增多。对于真实数据集ｉｒｉｓ，固定ｋ＝６，Ｑ取１～５２时数据集后２类不能被分开，分类正确率低；当Ｑ增大至５３～２５２时，后两类被分开，分类正确率增至最大；当Ｑ取２５２以上，类别数增加，分类正确率下降。图８固定ｋ值时，不同Ｑ的聚类结果Ｆｉｇ．８ＣｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｆｄｉｆｆｅｒｅｎｔＱｗｉｔｈａｆｉｘｅｄｋｖａｌｕｅ邻域内数据点的个数ｋ决定了算法的合并顺序，在固定Ｑ值的情况下，随着ｋ邻域的逐渐增大，聚类个数会随之减少。图９显示了在固定Ｑ的情况下，将ｋ逐渐增大时的两个数据集聚类效果。对于环状人工数据集，固定Ｑ＝１，当ｋ取１～７时，分类个数过多，聚类结果并不理想；当ｋ取８～１８时，聚类结果稳定且保持较高水平；当ｋ取１９以上时，数据集被聚为一类，结果不理想。对于真实数据集ｉ⁃ ｒｉｓ，同人工数据集类似，当ｋ取５３～２５１时，可获得稳定的高水平聚类结果。图９固定Ｑ值时，不同ｋ的聚类结果Ｆｉｇ．９ＣｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｆｄｉｆｆｅｒｅｎｔｋｗｉｔｈａｆｉｘｅｄＱｖａｌｕｅ４结束语随着信息技术水平的不断提高，具有噪声和重叠现象的数据源越来越多，仅限于计算机领域的聚类方法不能很好地处理该问题。为此，本文提出了一种同统计思想相结合的快速聚类算法—ＤＳＭＣ算法，它使用了一个简单的合并顺序和统计判定准则，将数据点的每一个特征看作一组独立随机变量，根据独立有限差分不等式得出统计合并判定准则，同时，结合数据点的密度信息，把密度从大到小的排序作为凝聚过程中的合并顺序，进而实现各类数据点的统计合并。对人工数据集和真实数据集测试的实验结果表明，ＤＳＭＣ算法对于非凸状、重叠和加入噪声的数据集都有良好的聚类效果。在后续的研究工作中，将进一步推广ＤＳＭＣ算法的应用范围，使其能够快速、高效地处理大数据、在线数据等多种型态的复杂聚类问题。 ·７２０· 智能系统学报第１０卷

第5期刘贝贝，等：基于密度的统计合并聚类算法 ·721. [14]马儒宁，王秀丽，丁军娣.多层核心集凝聚算法[J】.软参考文献：件学报，2013,24(3)：490-506. [1]XU Rui,WUNSCHII D.Survey of clustering algorithms[J]. MA Runing,WANG Xiuli,DING Jundi.Multilevel core- IEEE Transactions on Neural Networks,2005,16(3): sets based aggregation clustering algorithm[J].Journal of 645-678. Software,2013,24(3):490-506. [2]JAIN A K,MURTY M N,FLYNN P J.Data clustering:a [15]ZHUANG Xuan,HUANG Yan,PALANIAPPAN K,et al. review[J].Acm Computing Surveys,1999,31(2):264- Gaussian mixture density modeling,decomposition,and 323. applications[J].IEEE Transactions on Image Processing, [3]MURTAGH F,CONTRERAS P.Algorithms for hierarchical 1996,5(9):1293-1302. clustering:an overview [J].Wiley Interdisciplinary Re- [16]MACLACHLAN G J,KRISHNAN T.The EM algorithm views:Data Mining and Knowledge Discovery,2012,2 and extensions[J].Series in Probability Statistics, (1):86-97. 1997.15(1):154-156. [4]TSENG L Y,YANG S B.A genetic approach to the auto- matic clustering problem[J].Pattern Recognition,2001, [17 NOCK R,NIELSEN F.Statistical region merging [J]. 34(2):415-424. IEEE Transactions on Pattern Analysis and Machine Intel- [5]FORGY E W.Cluster analysis of multivariate data:efficien- 1l igence,2004,26(11):1452-1458. cy versus interpretability of classifications[.Biometrics, [18]HABIB M,MCDIARMID C.RAMIREZ-ALFONSIN J,et 1965,21:768-769. al.Probabilistic methods for algorithmic discrete mathemat- [6]SHI J,MALIK J.Normalized cuts and image segmentation ics[M].Berlin:Springer-Verlag,1998:1-54. [J].IEEE Transactions on Pattern Analysis and Machine 作者简介： Intelligence,2000,22(8):888-905. 刘贝贝，女，1990年生，硕士研究 [7]BEZDEK J C,EHRLICH R,FULL W.FCM:The fuzzy c- means clustering algorithm[J].Computers Geosciences, 生，主要研究方向为模式识别。 1984,10(2-3):191-203. [8]KRISHNAPURAM R,KELLER J M.A possibilistic ap- proach to clustering[].IEEE Transactions on Fuzzy Sys- tems,1993,1(2):98-110. [9]ALPERT C J,KAHNG A B.Recent directions in netlist partitioning:a survey[J].Integration,the VLSI Journal, 马儒宁，男，1976年生，副教授，博 1995.19(1):1-81. 士，主要研究方向为应用数学、模式识 [10]ACKERMANN M R,BLOMER J,KUNTZE D,et al. 别。参与完成国家自然科学基金项目 Analysis of agglomerative clustering [J].Algorithmica, 10余项。发表学术论文20余篇，其中 2014,69(1):184-215. [11]GUHA S,RASTOGI R,SHIM K.Cure:an efficient clus- 被SCL,EI收录10余篇。 tering algorithm for large databases[J].Information Sys- tems,2001,26(1):35-58. [12]ESTER M,KRIEGEL H P,SANDER J,et al.A density- 丁军娣，女，1978年生，副教授，博 based algorithm for discovering clusters in large spatial data- 士，中国计算机学会会员，主要研究方 bases with noise [C]//Proceedings of 2nd International 向为模式识别、计算机视觉。主持并完 Conference on Knowledge Discovery and Data Mining.Port- 成国家自然科学基金项目10余项。发 land.USA,1996:226-231. 表学术论文20余篇，其中被SCI,EI收 [13 ZHOU Shuigeng,ZHAO Yue,GUAN Jihong,et al.A 录10余篇。 neighborhood-based clustering algorithm[M]//Advances in Knowledge Discovery and Data Mining.Berlin/Heidelberg: Springer,2005:361-371

参考文献：［１］ＸＵＲｕｉ，ＷＵＮＳＣＨＩＩＤ．Ｓｕｒｖｅｙｏｆｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ，２００５，１６（３）：６４５⁃６７８．［２］ＪＡＩＮＡＫ，ＭＵＲＴＹＭＮ，ＦＬＹＮＮＰＪ．Ｄａｔａｃｌｕｓｔｅｒｉｎｇ：ａｒｅｖｉｅｗ［Ｊ］．ＡｃｍＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ，１９９９，３１（２）：２６４⁃ ３２３．［３］ＭＵＲＴＡＧＨＦ，ＣＯＮＴＲＥＲＡＳＰ．Ａｌｇｏｒｉｔｈｍｓｆｏｒｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇ：ａｎｏｖｅｒｖｉｅｗ［Ｊ］．ＷｉｌｅｙＩｎｔｅｒｄｉｓｃｉｐｌｉｎａｒｙＲｅ⁃ ｖｉｅｗｓ：ＤａｔａＭｉｎｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，２０１２，２（１）：８６⁃９７．［４］ＴＳＥＮＧＬＹ，ＹＡＮＧＳＢ．Ａｇｅｎｅｔｉｃａｐｐｒｏａｃｈｔｏｔｈｅａｕｔｏ⁃ ｍａｔｉｃｃｌｕｓｔｅｒｉｎｇｐｒｏｂｌｅｍ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００１，３４（２）：４１５⁃４２４．［５］ＦＯＲＧＹＥＷ．Ｃｌｕｓｔｅｒａｎａｌｙｓｉｓｏｆｍｕｌｔｉｖａｒｉａｔｅｄａｔａ：ｅｆｆｉｃｉｅｎ⁃ ｃｙｖｅｒｓｕｓｉｎｔｅｒｐｒｅｔａｂｉｌｉｔｙｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎｓ［Ｊ］．Ｂｉｏｍｅｔｒｉｃｓ，１９６５，２１：７６８⁃７６９．［６］ＳＨＩＪ，ＭＡＬＩＫＪ．Ｎｏｒｍａｌｉｚｅｄｃｕｔｓａｎｄｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２０００，２２（８）：８８８⁃９０５．［７］ＢＥＺＤＥＫＪＣ，ＥＨＲＬＩＣＨＲ，ＦＵＬＬＷ．ＦＣＭ：Ｔｈｅｆｕｚｚｙｃ⁃ ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．Ｃｏｍｐｕｔｅｒｓ＆Ｇｅｏｓｃｉｅｎｃｅｓ，１９８４，１０（２⁃３）：１９１⁃２０３．［８］ＫＲＩＳＨＮＡＰＵＲＡＭＲ，ＫＥＬＬＥＲＪＭ．Ａｐｏｓｓｉｂｉｌｉｓｔｉｃａｐ⁃ ｐｒｏａｃｈｔｏｃｌｕｓｔｅｒｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＦｕｚｚｙＳｙｓ⁃ ｔｅｍｓ，１９９３，１（２）：９８⁃１１０．［９］ＡＬＰＥＲＴＣＪ，ＫＡＨＮＧＡＢ．Ｒｅｃｅｎｔｄｉｒｅｃｔｉｏｎｓｉｎｎｅｔｌｉｓｔｐａｒｔｉｔｉｏｎｉｎｇ：ａｓｕｒｖｅｙ［Ｊ］．Ｉｎｔｅｇｒａｔｉｏｎ，ｔｈｅＶＬＳＩＪｏｕｒｎａｌ，１９９５，１９（１）：１⁃８１．［１０］ＡＣＫＥＲＭＡＮＮＭＲ，ＢＬÖＭＥＲＪ，ＫＵＮＴＺＥＤ，ｅｔａｌ．Ａｎａｌｙｓｉｓｏｆａｇｇｌｏｍｅｒａｔｉｖｅｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ａｌｇｏｒｉｔｈｍｉｃａ，２０１４，６９（１）：１８４⁃２１５．［１１］ＧＵＨＡＳ，ＲＡＳＴＯＧＩＲ，ＳＨＩＭＫ．Ｃｕｒｅ：ａｎｅｆｆｉｃｉｅｎｔｃｌｕｓ⁃ ｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｌａｒｇｅｄａｔａｂａｓｅｓ［Ｊ］．ＩｎｆｏｒｍａｔｉｏｎＳｙｓ⁃ ｔｅｍｓ，２００１，２６（１）：３５⁃５８．［１２］ＥＳＴＥＲＭ，ＫＲＩＥＧＥＬＨＰ，ＳＡＮＤＥＲＪ，ｅｔａｌ．Ａｄｅｎｓｉｔｙ⁃ ｂａｓｅｄａｌｇｏｒｉｔｈｍｆｏｒｄｉｓｃｏｖｅｒｉｎｇｃｌｕｓｔｅｒｓｉｎｌａｒｇｅｓｐａｔｉａｌｄａｔａ⁃ ｂａｓｅｓｗｉｔｈｎｏｉｓｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．Ｐｏｒｔ⁃ ｌａｎｄ，ＵＳＡ，１９９６：２２６⁃２３１．［１３］ＺＨＯＵＳｈｕｉｇｅｎｇ，ＺＨＡＯＹｕｅ，ＧＵＡＮＪｉｈｏｎｇ，ｅｔａｌ．Ａｎｅｉｇｈｂｏｒｈｏｏｄ⁃ｂａｓｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｍ］／／ＡｄｖａｎｃｅｓｉｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．Ｂｅｒｌｉｎ／Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２００５：３６１⁃３７１．［１４］马儒宁，王秀丽，丁军娣．多层核心集凝聚算法［Ｊ］．软件学报，２０１３，２４（３）：４９０⁃５０６．ＭＡＲｕｎｉｎｇ，ＷＡＮＧＸｉｕｌｉ，ＤＩＮＧＪｕｎｄｉ．Ｍｕｌｔｉｌｅｖｅｌｃｏｒｅ⁃ ｓｅｔｓｂａｓｅｄａｇｇｒｅｇａｔｉｏｎｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ，２０１３，２４（３）：４９０⁃５０６．［１５］ＺＨＵＡＮＧＸｕａｎ，ＨＵＡＮＧＹａｎ，ＰＡＬＡＮＩＡＰＰＡＮＫ，ｅｔａｌ．Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｄｅｎｓｉｔｙｍｏｄｅｌｉｎｇ，ｄｅｃｏｍｐｏｓｉｔｉｏｎ，ａｎｄａｐｐｌｉｃａｔｉｏｎｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，１９９６，５（９）：１２９３⁃１３０２．［１６］ＭＡＣＬＡＣＨＬＡＮＧＪ，ＫＲＩＳＨＮＡＮＴ．ＴｈｅＥＭａｌｇｏｒｉｔｈｍａｎｄｅｘｔｅｎｓｉｏｎｓ［Ｊ］．ＳｅｒｉｅｓｉｎＰｒｏｂａｂｉｌｉｔｙ＆Ｓｔａｔｉｓｔｉｃｓ，１９９７，１５（１）：１５４⁃１５６．［１７］ＮＯＣＫＲ，ＮＩＥＬＳＥＮＦ．Ｓｔａｔｉｓｔｉｃａｌｒｅｇｉｏｎｍｅｒｇｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌ⁃ ｌｉｇｅｎｃｅ，２００４，２６（１１）：１４５２⁃１４５８．［１８］ＨＡＢＩＢＭ，ＭＣＤＩＡＲＭＩＤＣ，ＲＡＭＩＲＥＺ⁃ＡＬＦＯＮＳＩＮＪ，ｅｔａｌ．Ｐｒｏｂａｂｉｌｉｓｔｉｃｍｅｔｈｏｄｓｆｏｒａｌｇｏｒｉｔｈｍｉｃｄｉｓｃｒｅｔｅｍａｔｈｅｍａｔ⁃ ｉｃｓ［Ｍ］．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ⁃Ｖｅｒｌａｇ，１９９８：１⁃５４．作者简介：刘贝贝，女，１９９０年生，硕士研究生，主要研究方向为模式识别。马儒宁，男，１９７６年生，副教授，博士，主要研究方向为应用数学、模式识别。参与完成国家自然科学基金项目１０余项。发表学术论文２０余篇，其中被ＳＣＩ、ＥＩ收录１０余篇。丁军娣，女，１９７８年生，副教授，博士，中国计算机学会会员，主要研究方向为模式识别、计算机视觉。主持并完成国家自然科学基金项目１０余项。发表学术论文２０余篇，其中被ＳＣＩ、ＥＩ收录１０余篇。第５期刘贝贝，等：基于密度的统计合并聚类算法 ·７２１·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录