【机器学习】一种改进的搜索密度峰值的聚类算法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：3.55MB

第12卷第2期智能系统学报 Vol.12 No.2 2017年4月 CAAI Transactions on Intelligent Systems Apr.2017 D0I:10.11992/is.201512036 一种改进的搜索密度峰值的聚类算法淦文燕，刘冲 (解放军理工大学指挥信息系统学院，江苏南京210007) 摘要：聚类是大数据分析与数据挖掘的基础问题。刊登在2014年《Science》杂志上的文章《Clustering by fast search and find of density peaks》提出一种快速搜索密度峰值的聚类算法，算法简单实用，但聚类结果依赖于参数d.的经验选择。论文提出一种改进的搜索密度峰值的聚类算法，引入密度估计嫡自适应优化算法参数。对比实验结果表明，改进方法不仅可以较好地解决原算法的参数人为确定的不足，而且具有相对更好的聚类性能。关键词：数据挖掘：聚类算法：核密度估计：熵中图分类号：TP311文献标志码：A文章编号：1673-4785(2017)02-0229-07 中文引用格式：淦文燕，刘冲.一种改进的搜索密度峰值的聚类算法[J].智能系统学报，2017,12(2)：229-236. 英文引用格式：GAN Wenyan,LIU Chong.An improved clustering algorithm that searches and finds density peaks[J].CAAI transactions on intelligent systems,2017,12(2):229-236. An improved clustering algorithm that searches and finds density peaks GAN Wenyan,LIU Chong College of Command Information System,PLA University of Science and Technology,Nanjing 210007,China) Abstract:Clustering is a fundamental issue for big data analysis and data mining.In July 2014,a paper in the Journal of Science proposed a simple yet effective clustering algorithm based on the idea that cluster centers are characterized by a higher density than their neighbors and having a relatively large distance from points with higher densities.The proposed algorithm can detect clusters of arbitrary shapes and differing densities but is very sensitive to tunable parameter d..In this paper,we propose an improved clustering algorithm that adaptively optimizes pa- rameter de.The time complexity of our algorithm was super-linear with respect to the size of the dataset.Further, our theoretical analysis and experimental results show the effectiveness and efficiency of our improved algorithm. Keywords:data mining;clustering algorithms;kernel density estimation;entropy 互联网时代，随着社交网络、电子商务与移动通似性尽量大)。与分类不同，聚类无须明确的类标信等技术的蓬勃发展，人类社会进入以PB级数据记，无须区分训练集与测试集，是一种寻求数据自然信息为特征的大数据时代。如何从海量复杂数据集聚簇结构的非监督学习方法，可以产生问题中数据中自动发现新知识、新规律，实现从数据到知识到决的概括性描述，可以自动构建分类层次结构，具有更策的挑战与跨越1-】，成为各行各业普遍面临的严好的普适性：同时，聚类又具有不确定性。对于给定峻技术挑战。的数据集，聚类结果不仅依赖于实际的数据分布，而所谓聚类，就是根据描述事物的某些属性，将且取决于问题的应用背景与目标，不存在唯一正确事物聚集成若干类，使得类间相似性尽量小，类内相的聚类划分。正由于这种普适性与不确定性，使聚类问题比分类问题更复杂、更具挑战性，被认为是大收稿日期：2015-12-31. 基金项目：国家自然科学基金项目(60974086). 数据分析与数据挖掘的基础问题，也成为统计、模式通信作者：刘冲.E-mail:c1368542460@126.com. 识别、机器学习、人工智能等诸多学科领域中一个非

第１２卷第２期智能系统学报Ｖｏｌ．１２ №．２２０１７年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５１２０３６一种改进的搜索密度峰值的聚类算法淦文燕，刘冲（解放军理工大学指挥信息系统学院，江苏南京２１０００７）摘要：聚类是大数据分析与数据挖掘的基础问题。刊登在２０１４年《Ｓｃｉｅｎｃｅ》杂志上的文章《Ｃｌｕｓｔｅｒｉｎｇｂｙｆａｓｔｓｅａｒｃｈａｎｄｆｉｎｄｏｆｄｅｎｓｉｔｙｐｅａｋｓ》提出一种快速搜索密度峰值的聚类算法，算法简单实用，但聚类结果依赖于参数ｄｃ的经验选择。论文提出一种改进的搜索密度峰值的聚类算法，引入密度估计熵自适应优化算法参数。对比实验结果表明，改进方法不仅可以较好地解决原算法的参数人为确定的不足，而且具有相对更好的聚类性能。关键词：数据挖掘；聚类算法；核密度估计；熵中图分类号：ＴＰ３１１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０２－０２２９－０７中文引用格式：淦文燕，刘冲．一种改进的搜索密度峰值的聚类算法［Ｊ］．智能系统学报，２０１７，１２（２）：２２９－２３６．英文引用格式：ＧＡＮＷｅｎｙａｎ，ＬＩＵＣｈｏｎｇ．Ａｎｉｍｐｒｏｖｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｔｈａｔｓｅａｒｃｈｅｓａｎｄｆｉｎｄｓｄｅｎｓｉｔｙｐｅａｋｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（２）：２２９－２３６．ＡｎｉｍｐｒｏｖｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｔｈａｔｓｅａｒｃｈｅｓａｎｄｆｉｎｄｓｄｅｎｓｉｔｙｐｅａｋｓＧＡＮＷｅｎｙａｎ，ＬＩＵＣｈｏｎｇ（ＣｏｌｌｅｇｅｏｆＣｏｍｍａｎｄＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍ，ＰＬＡＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｎａｎｊｉｎｇ２１０００７，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｃｌｕｓｔｅｒｉｎｇｉｓａｆｕｎｄａｍｅｎｔａｌｉｓｓｕｅｆｏｒｂｉｇｄａｔａａｎａｌｙｓｉｓａｎｄｄａｔａｍｉｎｉｎｇ．ＩｎＪｕｌｙ２０１４，ａｐａｐｅｒｉｎｔｈｅＪｏｕｒｎａｌｏｆＳｃｉｅｎｃｅｐｒｏｐｏｓｅｄａｓｉｍｐｌｅｙｅｔｅｆｆｅｃｔｉｖｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｈｅｉｄｅａｔｈａｔｃｌｕｓｔｅｒｃｅｎｔｅｒｓａｒｅｃｈａｒａｃｔｅｒｉｚｅｄｂｙａｈｉｇｈｅｒｄｅｎｓｉｔｙｔｈａｎｔｈｅｉｒｎｅｉｇｈｂｏｒｓａｎｄｈａｖｉｎｇａｒｅｌａｔｉｖｅｌｙｌａｒｇｅｄｉｓｔａｎｃｅｆｒｏｍｐｏｉｎｔｓｗｉｔｈｈｉｇｈｅｒｄｅｎｓｉｔｉｅｓ．Ｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｃａｎｄｅｔｅｃｔｃｌｕｓｔｅｒｓｏｆａｒｂｉｔｒａｒｙｓｈａｐｅｓａｎｄｄｉｆｆｅｒｉｎｇｄｅｎｓｉｔｉｅｓｂｕｔｉｓｖｅｒｙｓｅｎｓｉｔｉｖｅｔｏｔｕｎａｂｌｅｐａｒａｍｅｔｅｒｄｃ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａｎｉｍｐｒｏｖｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｔｈａｔａｄａｐｔｉｖｅｌｙｏｐｔｉｍｉｚｅｓｐａ⁃ ｒａｍｅｔｅｒｄｃ．Ｔｈｅｔｉｍｅｃｏｍｐｌｅｘｉｔｙｏｆｏｕｒａｌｇｏｒｉｔｈｍｗａｓｓｕｐｅｒ⁃ｌｉｎｅａｒｗｉｔｈｒｅｓｐｅｃｔｔｏｔｈｅｓｉｚｅｏｆｔｈｅｄａｔａｓｅｔ．Ｆｕｒｔｈｅｒ，ｏｕｒｔｈｅｏｒｅｔｉｃａｌａｎａｌｙｓｉｓａｎｄｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓａｎｄｅｆｆｉｃｉｅｎｃｙｏｆｏｕｒｉｍｐｒｏｖｅｄａｌｇｏｒｉｔｈｍ．Ｋｅｙｗｏｒｄｓ：ｄａｔａｍｉｎｉｎｇ；ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ；ｋｅｒｎｅｌｄｅｎｓｉｔｙｅｓｔｉｍａｔｉｏｎ；ｅｎｔｒｏｐｙ收稿日期：２０１５－１２－３１．基金项目：国家自然科学基金项目（６０９７４０８６）．通信作者：刘冲．Ｅ⁃ｍａｉｌ：ｌｃ１３６８５４２４６０＠１２６．ｃｏｍ．互联网时代，随着社交网络、电子商务与移动通信等技术的蓬勃发展，人类社会进入以ＰＢ级数据信息为特征的大数据时代。如何从海量复杂数据集中自动发现新知识、新规律，实现从数据到知识到决策的挑战与跨越［１－２］，成为各行各业普遍面临的严峻技术挑战。所谓聚类，就是根据描述事物的某些属性，将事物聚集成若干类，使得类间相似性尽量小，类内相似性尽量大［３］。与分类不同，聚类无须明确的类标记，无须区分训练集与测试集，是一种寻求数据自然聚簇结构的非监督学习方法，可以产生问题中数据的概括性描述，可以自动构建分类层次结构，具有更好的普适性；同时，聚类又具有不确定性。对于给定的数据集，聚类结果不仅依赖于实际的数据分布，而且取决于问题的应用背景与目标，不存在唯一正确的聚类划分。正由于这种普适性与不确定性，使聚类问题比分类问题更复杂、更具挑战性，被认为是大数据分析与数据挖掘的基础问题，也成为统计、模式识别、机器学习、人工智能等诸多学科领域中一个非

.230 智能系统学报第12卷常活跃且非常重要的研究热点[3-) 3)指数核估计 2014年《Science》杂志上刊登了一篇题为 p,= (4) 《Clustering by fast search and find of density peaks》)t的 ∑e() 论文口，论文提出一种快速搜索和发现密度峰值的式中：d为样本点x:、x间的距离，采用满足三角不聚类算法。算法将具有局部极大密度估计值的样本等式的距离度量，如欧氏距离：d>0是预先指定的点视为聚类中心，通过快速搜索聚类中心，将每一个密度估计参数，相当于核函数的窗宽。非中心样本点沿着密度递增的最近邻方向迭代划分高密度最近邻距离6则定义为x到具有更大密给相应的聚类中心，实现数据划分。算法思路新颖，度估计值的最近邻样本点的距离，即简单实用，具有良好的聚类质量，能够发现任意形 6=min (d) (5) jpi>PI 状、大小和密度的聚类，能够有效处理噪声和离群数显然，具有全局最大密度估计值的样本点不存据，对人脸等高维非结构化数据具有良好的适用性。在高密度最近邻，可简单地令其高密度最近邻距离虽然论文的局限性遭到众多读者的质疑，如聚类结等于所有样本点间距离的最大值。果严重依赖于密度参数d,的仔细选择，但整体上可 1.2基于决策图的聚类划分以为聚类算法设计提供一种新思路。通过计算每个样本点x,(1≤i≤n)的局部密度本文深入探讨了快速搜索密度峰值点的聚类算估计值d。和高密度最近邻距离6，算法将原始数据法[)的局限性，引入基于密度估计嫡最小化的自适集D映射到由局部密度估计p和高密度最近邻距离应参数优化方法弥补其核函数及其参数值人为确定 6组成的二维特征空间中。直觉上，代表聚类中心的的羁绊，提出一种改进的搜索密度峰值点的聚类算样本点应同时具有较大的局部密度估计值p和较大法。在重现论文算法并获得与原作者相同实验结果的高密度最近邻距离P。由此，通过特征空间中决策的基础上，用改进算法重新聚类。对比实验结果表图的可视化，可以实现基于中心的聚类划分。明，改进算法不仅能有效解决原算法的参数优选问图1所示为论文实验采用的模拟测试数据集及题，而且具有相对更好的聚类性能。其聚类结果)。测试数据包含4000个样本点，分别取自6个不同的二维正态分布，还有一些噪声数 1快速搜索密度峰值的聚类算法据。图1(a)所示为采用式(2)所示的截断核估计给定数据集D={x1,x2,…,x},快速搜索且参数d.取最小2%的距离做截断时（即d.取值为密度峰值点的聚类算法)。假设聚类中心对应所有样本点间距离的最小2%的距离中的最大距某些具有局部极大密度估计值的样本点，这些样离)，测试数据集投影到以局部密度估计P值为横本点可以看作由低密度样本点所包围的“高密度轴、以高密度最近邻距离δ为纵轴的二维空间中形峰值点”，距离其他高密度近邻样本相对较远。成的决策图)：显然，图中虚线框选出的5个样本算法通过快速搜索和发现代表聚类中心的“高密点同时具有较大的局部密度估计值ρ和高密度最近度峰值点”，将每个非中心样本点沿着密度估计邻距离P,可以被选为5个聚类中心，相应聚类结果值递增的最近邻方向迭代移动到相应的聚类中如图1(b)所示。4000个样本点被划分为5个类和心，实现数据划分。这里涉及两个基本概念：局噪声数据，每个类用与中心样本点相同的数字来标部密度估计和高密度最近邻距离。记。其中，第五类最大，包含多于1500个样本点， 1.1局部密度估计与高密度最近邻距离第一类最小，仅有200多个样本点。显然，算法具有 x:∈D,1≤i≤n,局部密度估计值d.定义为良好的聚类质量，可以发现不同形状、大小和密度的 p,=∑x(dg,d) (1) 聚类，可以有效处理噪声数据。 1对i 但算法中存在一个重要参数，即密度参数d。。式中：X(·)相当于核密度估计的核函数，论文给出论文认为，参数d,的取值虽然会影响样本点的局部 3种可选的核函数形态，相应的密度估计公式如下：密度估计与高密度最近邻距离，但不会严重影响最 1)截断核估计终的聚类结果，通常选取所有样本点间距离的最小 p=a,-d),X)=,<0 (0,x≥0(2) 1%~2%做截断即可（即令d。取值为所有样本点间距离的最小1%~2%的距离中的最大距离)。但重 2)高斯核估计现论文算法及其实验结果时，我们发现，核函数的选。￡倒： (3) 择及其参数d的取值都会严重影响最终聚类结果

常活跃且非常重要的研究热点［３－５］。２０１４年《Ｓｃｉｅｎｃｅ》杂志上刊登了一篇题为《Ｃｌｕｓｔｅｒｉｎｇｂｙｆａｓｔｓｅａｒｃｈａｎｄｆｉｎｄｏｆｄｅｎｓｉｔｙｐｅａｋｓ》的论文［１］，论文提出一种快速搜索和发现密度峰值的聚类算法。算法将具有局部极大密度估计值的样本点视为聚类中心，通过快速搜索聚类中心，将每一个非中心样本点沿着密度递增的最近邻方向迭代划分给相应的聚类中心，实现数据划分。算法思路新颖，简单实用，具有良好的聚类质量，能够发现任意形状、大小和密度的聚类，能够有效处理噪声和离群数据，对人脸等高维非结构化数据具有良好的适用性。虽然论文的局限性遭到众多读者的质疑，如聚类结果严重依赖于密度参数ｄｃ的仔细选择，但整体上可以为聚类算法设计提供一种新思路。本文深入探讨了快速搜索密度峰值点的聚类算法［１］的局限性，引入基于密度估计熵最小化的自适应参数优化方法弥补其核函数及其参数值人为确定的羁绊，提出一种改进的搜索密度峰值点的聚类算法。在重现论文算法并获得与原作者相同实验结果的基础上，用改进算法重新聚类。对比实验结果表明，改进算法不仅能有效解决原算法的参数优选问题，而且具有相对更好的聚类性能。１快速搜索密度峰值的聚类算法给定数据集Ｄ＝ｘ１，ｘ２，…，ｘｎ { } ，快速搜索密度峰值点的聚类算法［１］。假设聚类中心对应某些具有局部极大密度估计值的样本点，这些样本点可以看作由低密度样本点所包围的“ 高密度峰值点” ，距离其他高密度近邻样本相对较远。算法通过快速搜索和发现代表聚类中心的“ 高密度峰值点” ，将每个非中心样本点沿着密度估计值递增的最近邻方向迭代移动到相应的聚类中心，实现数据划分。这里涉及两个基本概念：局部密度估计和高密度最近邻距离。１．１局部密度估计与高密度最近邻距离 ∀ｘｉ ∈ Ｄ，１ ≤ ｉ ≤ ｎ，局部密度估计值ｄｃ定义为 ρｉ＝１≤∑ ｊ≠ｉ≤ｎ χ ｄｉｊ，ｄｃ ( ) （１）式中： χ (·) 相当于核密度估计的核函数，论文给出３种可选的核函数形态，相应的密度估计公式如下：１）截断核估计 ρｉ＝ ∑ ｊ≠ｉ χ ｄｉｊ－ｄｃ ( ) ， χ (ｘ) ＝１，ｘ＜００，ｘ ≥ ０ { （２）２）高斯核估计 ρｉ＝ ∑ ｊ≠ｉｅ－ｄｉｊｄｃ ( ) ２（３）３）指数核估计 ρｉ＝ ∑ ｊ≠ｉｅ－ｄｉｊｄ２ｃ ( ) （４）式中：ｄｉｊ为样本点ｘｉ、ｘｊ间的距离，采用满足三角不等式的距离度量，如欧氏距离；ｄｃ＞０是预先指定的密度估计参数，相当于核函数的窗宽。高密度最近邻距离 δｉ则定义为ｘｉ到具有更大密度估计值的最近邻样本点的距离，即 δｉ＝ｍｉｎｊ：ρｊ＞ ρｉｄｉｊ ( ) （５）显然，具有全局最大密度估计值的样本点不存在高密度最近邻，可简单地令其高密度最近邻距离等于所有样本点间距离的最大值。１．２基于决策图的聚类划分通过计算每个样本点ｘｉ（１ ≤ｉ ≤ｎ）的局部密度估计值ｄｃ和高密度最近邻距离 δｉ，算法将原始数据集Ｄ映射到由局部密度估计 ρ 和高密度最近邻距离 δ 组成的二维特征空间中。直觉上，代表聚类中心的样本点应同时具有较大的局部密度估计值 ρ 和较大的高密度最近邻距离 ρ。由此，通过特征空间中决策图的可视化，可以实现基于中心的聚类划分。图１所示为论文实验采用的模拟测试数据集及其聚类结果［１］。测试数据包含４０００个样本点，分别取自６个不同的二维正态分布，还有一些噪声数据。图１（ａ）所示为采用式（２）所示的截断核估计且参数ｄｃ取最小２％的距离做截断时（即ｄｃ取值为所有样本点间距离的最小２％的距离中的最大距离），测试数据集投影到以局部密度估计 ρ 值为横轴、以高密度最近邻距离 δ 为纵轴的二维空间中形成的决策图［１］；显然，图中虚线框选出的５个样本点同时具有较大的局部密度估计值 ρ 和高密度最近邻距离 ρ，可以被选为５个聚类中心，相应聚类结果如图１（ｂ）所示。４０００个样本点被划分为５个类和噪声数据，每个类用与中心样本点相同的数字来标记。其中，第五类最大，包含多于１５００个样本点，第一类最小，仅有２００多个样本点。显然，算法具有良好的聚类质量，可以发现不同形状、大小和密度的聚类，可以有效处理噪声数据。但算法中存在一个重要参数，即密度参数ｄｃ。论文认为，参数ｄｃ的取值虽然会影响样本点的局部密度估计与高密度最近邻距离，但不会严重影响最终的聚类结果，通常选取所有样本点间距离的最小１％～２％做截断即可（即令ｄｃ取值为所有样本点间距离的最小１％～２％的距离中的最大距离）。但重现论文算法及其实验结果时，我们发现，核函数的选择及其参数ｄｃ的取值都会严重影响最终聚类结果。 ·２３０· 智能系统学报第１２卷

.232 智能系统学报第12卷 7 2.3 图3(a)、3(b)所示为采用式(4)的指数核估计 6 且参数d。取最小2%的距离做截断时，aggregation数 1。据集得到的聚类决策图及相应聚类结果。由图3 (b)可知，聚类算法可以正确识别aggregation数据集的7个不同大小、形状和密度的聚类。但如果采用截断核，且令d.分别取最小5%或1%的距离做截断，聚类结果如图3(c)、3(d)所示。图3(c)中，聚类质量明显下降，很多样本点被误分噪声数据。由 10 15 20 25 此可见，聚类结果对参数d.的取值非常敏感，进一 (a)决策图步分析核函数选择对聚类结果的影响。定性讨论核函数及其参数d.的选择对聚类结果的影响。给定 20 包含n个样本点的数据集D,根据式(1)，任一样本 15 点x,∈D处的局部密度估计值d.等价于以其他样本点x∈D为中心的、n-1个核函数的叠加，其中j≠ i。这表示每个样本点的局部密度估计值等于所有其他样本点在该处的“贡献”的叠加，“贡献”的大小依赖于两点间的距离。 10 图4(a)、4(b)所示为采用指数核估计且d.选 -155-10 -5 0x5101520 取最小2%的距离做截断时，spiral数据集得到聚类决策图及其聚类结果，显然聚类结果可以正确识别 (b)d选取最小3%的距离做截断 spiral数据集的3个螺旋形聚类。但如果采用式图4 spiral数据集的聚类结果（采用指数核估计） (5)所示的高斯核估计，令d。分别选取最小1%或 Fig.4 The clustering results for aggregation datasets using exponential kernel estimation) 2%的距离做截断时，聚类结果如图5(a)、5(b)所 20 示。显然，当d。取值固定时，聚类结果对核函数的选择也非常敏感。事实上，采用高斯核估计对spiral 数据集进行聚类分析，d。要选取大于2%的距离做截断，才能得到相对较好的聚类结果。而不是简单地令d。选取所有样本点间距离的最小1%-2%做截断即可。 -10 采用式(2)所示的截断核估计时，每个样本点 5-10 x:处的密度估计值d为离散值，等价于x,的d邻域 -5 05101520 内近邻样本点的个数，密度估计具有局域性。这里 (a)d。选取最小1%的距离做截断的密度参数d。表示截断距离，当样本点间距离超过 20 d.时，其贡献可以忽略不计：而采用式(3)所示的高斯核估计时，每个样本点x,处的局部密度估计值d 10 为连续值，参数d,的作用也是控制密度估计的局域性，但近邻样本点的贡献会随距离的增长而衰减。根据高斯函数的数学性质，当距离大于3d。/2时，样本点的贡献会快速衰减为0，指示着高斯核估计 -10 的截断距离近似为3d。/2;类似地，采用式(4)所 -15-10-50.5101520 示的指数核估计时，每个样本点x:处的局部密度估计值d.虽然也是连续值，但相对于高斯核估计，近 (b)d选取最小2%的距离做截断邻样本点对x:处密度估计的贡献随距离增长而衰图5 spiral数据集的聚类结果（采用高斯核估计） Fig.5 The clustering results for aggregation datasets 减的速度相对较慢，指示着相对更大的截断距离。（using gaussian kernel estimation)】图6所示为d。=2时指数核与高斯核的截断距离比较，图中指数核的截断距离远大于高斯核，这意

（ａ）决策图（ｂ）ｄｃ选取最小３％的距离做截断图４ｓｐｉｒａｌ数据集的聚类结果（采用指数核估计）Ｆｉｇ．４Ｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｆｏｒａｇｇｒｅｇａｔｉｏｎｄａｔａｓｅｔｓ（ｕｓｉｎｇｅｘｐｏｎｅｎｔｉａｌｋｅｒｎｅｌｅｓｔｉｍａｔｉｏｎ）（ａ）ｄｃ选取最小１％的距离做截断（ｂ）ｄｃ选取最小２％的距离做截断图５ｓｐｉｒａｌ数据集的聚类结果（采用高斯核估计）Ｆｉｇ．５Ｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｆｏｒａｇｇｒｅｇａｔｉｏｎｄａｔａｓｅｔｓ（ｕｓｉｎｇｇａｕｓｓｉａｎｋｅｒｎｅｌｅｓｔｉｍａｔｉｏｎ）图３（ａ）、３（ｂ）所示为采用式（４）的指数核估计且参数ｄｃ取最小２％的距离做截断时，ａｇｇｒｅｇａｔｉｏｎ数据集得到的聚类决策图及相应聚类结果。由图３（ｂ）可知，聚类算法可以正确识别ａｇｇｒｅｇａｔｉｏｎ数据集的７个不同大小、形状和密度的聚类。但如果采用截断核，且令ｄｃ分别取最小５％或１％的距离做截断，聚类结果如图３（ｃ）、３（ｄ）所示。图３（ｃ）中，聚类质量明显下降，很多样本点被误分噪声数据。由此可见，聚类结果对参数ｄｃ的取值非常敏感，进一步分析核函数选择对聚类结果的影响。定性讨论核函数及其参数ｄｃ的选择对聚类结果的影响。给定包含ｎ个样本点的数据集Ｄ，根据式（１），任一样本点ｘｉ ÎＤ处的局部密度估计值ｄｃ等价于以其他样本点ｘｊÎＤ为中心的、ｎ－１个核函数的叠加，其中ｊ ≠ ｉ。这表示每个样本点的局部密度估计值等于所有其他样本点在该处的“贡献”的叠加，“贡献”的大小依赖于两点间的距离。图４（ａ）、４（ｂ）所示为采用指数核估计且ｄｃ选取最小２％的距离做截断时，ｓｐｉｒａｌ数据集得到聚类决策图及其聚类结果，显然聚类结果可以正确识别ｓｐｉｒａｌ数据集的３个螺旋形聚类。但如果采用式（５）所示的高斯核估计，令ｄｃ分别选取最小１％或２％的距离做截断时，聚类结果如图５（ａ）、５（ｂ）所示。显然，当ｄｃ取值固定时，聚类结果对核函数的选择也非常敏感。事实上，采用高斯核估计对ｓｐｉｒａｌ数据集进行聚类分析，ｄｃ要选取大于２％的距离做截断，才能得到相对较好的聚类结果。而不是简单地令ｄｃ选取所有样本点间距离的最小１％－２％做截断即可。采用式（２）所示的截断核估计时，每个样本点ｘｉ处的密度估计值ｄｃ为离散值，等价于ｘｉ的ｄｃ邻域内近邻样本点的个数，密度估计具有局域性。这里的密度参数ｄｃ表示截断距离，当样本点间距离超过ｄｃ时，其贡献可以忽略不计；而采用式（３）所示的高斯核估计时，每个样本点ｘｉ处的局部密度估计值ｄｃ为连续值，参数ｄｃ的作用也是控制密度估计的局域性，但近邻样本点的贡献会随距离的增长而衰减。根据高斯函数的数学性质，当距离大于３ｄｃ／２时，样本点的贡献会快速衰减为０，指示着高斯核估计的截断距离近似为３ｄｃ／２；类似地，采用式（４）所示的指数核估计时，每个样本点ｘｉ处的局部密度估计值ｄｃ虽然也是连续值，但相对于高斯核估计，近邻样本点对ｘｉ处密度估计的贡献随距离增长而衰减的速度相对较慢，指示着相对更大的截断距离。图６所示为ｄｃ＝２时指数核与高斯核的截断距离比较，图中指数核的截断距离远大于高斯核，这意 ·２３２· 智能系统学报第１２卷

第2期淦文燕，等：一种改进的搜索密度峰值的聚类算法 .233. 味着：d。取值相同时，采用指数核估计样本点的局可知，有0≤H≤log(n)。显然，所有样本点的局部部密度，有贡献的近邻样本点相对更多：而采用高斯密度估计值近似相等时，具有最大的密度估计嫡。核估计进行聚类分析时，参数d.的取值应相对较对于给定的核函数形态，分析密度参数d。由0 大，才能产生与指数核估计相似的聚类结果。至+0递增过程中密度估计嫡H的变化情况：当 1.0m d。→0时，H趋近于Hx=log(n);随着d.的增大， 0.9 0.8 +高斯核 H首先减小，在某个优化d.值处达到最小值，然后 0.7 ·指数核又逐渐增大，当d。→+o时，再次趋近于最大值 0.6 0.5 Hx=log(n)。对应最小密度估计嫡的d.值可以看 0.4 作参数优化值。也就是说，优化d。值可以看作一个 0.3 单变量非线性函数的最优化问题，即有 0.2 截断距离4.24 截断距离18 0.1 min H=- (7) 0 2 4 6 8101214161820 d 此类问题存在很多标准算法，如简单试探法和图6指数核与高斯核的截断距离比较模拟退火法等。实际应用中可采用样本容量的随机 Fig.6 Comparison of truncative distance between expo- 抽样方法降低优化d。值的时间开销。n很大时，可 nential kernel and Gaussian kernel 以采用抽样率不小于2.5%的随机抽样方法来提高综上所述，快速搜索密度峰值点的聚类算法虽优化算法的性能)。然具有良好的聚类质量，可以发现不同形状、大小和理论上，对于用户任意指定的核函数形态，采用密度的聚类，可以有效处理噪声数据，但聚类结果严基于密度估计嫡最小化的参数优化方法，都可以根重依赖于核函数及其参数d.的人为选择，论文中没据底层数据的分布特点自动优选合适的参数d。值。有讨论核函数选择对密度估计乃至最终聚类结果的最终的密度估计结果取决于参数d.的优化值，而与影响。事实上，参数d。的选择不能脱离具体的核函核函数的具体形态的相关性并不明显。考虑到高斯数而单独讨论：即使针对特定的核函数，参数d。的函数具有良好的数学性质和普适性，建议采用式取值通常也依赖于数据分布的具体特点，不存在适 (3)所示的高斯核估计方法计算所有样本点的局部用于所有问题的经验策略。考虑到实际应用中，让密度估计值。用户选择合适的核函数及参数显然是不切实际的。 2.2局部密度估计值的近似计算下面，我们将引入一种基于密度估计嫡最小化的自给定包含n个样本点的数据集D,考虑到计算适应参数优化方法，根据核函数形态与底层数据分每个样本点x:∈D的局部密度估计值d.需要遍历所布特点自动选择合适的参数d值，弥补核函数及其有其他样本点，算法复杂度较高，近似为0(n2)。参数值人为确定的羁绊。同时，我们将引入局部密根据高斯函数的数学性质，对于给定的参数d,值，度估计值的近似计算方法改进算法性能，由此得到改进的快速搜索密度峰值点的聚类算法。当样本点间当距离大于3d./2时，局部密度估计的贡献会快速衰减为0，即每个样本点的局部密度估 2 改进的搜索密度峰值的聚类算法计值取决于半径为3d/√万的邻域范围内的近邻样 2.1基于密度估计熵最小化的自适应参数优选本点的影响。由此，可以引入局部密度估计的近似信息论中用香农熵作为系统不确定性的度量，计算改善聚类算法的性能。熵越大，不确定性就越大。给定n个样本点的局部具体来说，以√瓦d.为尺度对包含样本点的最小密度估计值P1,P2,…,P。,如果每个样本点的密度估数域空间进行网格划分，构建空间索引结构（如B 计值相等，我们对底层数据分布的不确定性最大，具树)存贮每个非空网格单元的样本点数n,和样本均有最大的香农嫡。反之，不确定性最小，具有最小的值x等信息[)。香农嫡。由此，可以引入如下的密度估计嫡)衡量计算任一样本点x:(1≤i≤n)的局部密度估样本点局部密度估计的合理性，即计值p:时，只考虑样本点x:所处网格单元cell(x:) 及其邻近网格单元neighbor(cell(x:))内所有样本 (6) Z 点的影响，由此得到样本点x:的局部密度估计值P: 式中：Z为一个标准化因子。分析密度估计熵的性质的近似计算公式，即有

味着：ｄｃ取值相同时，采用指数核估计样本点的局部密度，有贡献的近邻样本点相对更多；而采用高斯核估计进行聚类分析时，参数ｄｃ的取值应相对较大，才能产生与指数核估计相似的聚类结果。图６指数核与高斯核的截断距离比较Ｆｉｇ．６Ｃｏｍｐａｒｉｓｏｎｏｆｔｒｕｎｃａｔｉｖｅｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｅｘｐｏ⁃ ｎｅｎｔｉａｌｋｅｒｎｅｌａｎｄＧａｕｓｓｉａｎｋｅｒｎｅｌ综上所述，快速搜索密度峰值点的聚类算法虽然具有良好的聚类质量，可以发现不同形状、大小和密度的聚类，可以有效处理噪声数据，但聚类结果严重依赖于核函数及其参数ｄｃ的人为选择，论文中没有讨论核函数选择对密度估计乃至最终聚类结果的影响。事实上，参数ｄｃ的选择不能脱离具体的核函数而单独讨论；即使针对特定的核函数，参数ｄｃ的取值通常也依赖于数据分布的具体特点，不存在适用于所有问题的经验策略。考虑到实际应用中，让用户选择合适的核函数及参数显然是不切实际的。下面，我们将引入一种基于密度估计熵最小化的自适应参数优化方法，根据核函数形态与底层数据分布特点自动选择合适的参数ｄｃ值，弥补核函数及其参数值人为确定的羁绊。同时，我们将引入局部密度估计值的近似计算方法改进算法性能，由此得到改进的快速搜索密度峰值点的聚类算法。２改进的搜索密度峰值的聚类算法２．１基于密度估计熵最小化的自适应参数优选信息论中用香农熵作为系统不确定性的度量，熵越大，不确定性就越大。给定ｎ个样本点的局部密度估计值 ρ１，ρ２，…，ρｎ，如果每个样本点的密度估计值相等，我们对底层数据分布的不确定性最大，具有最大的香农熵。反之，不确定性最小，具有最小的香农熵。由此，可以引入如下的密度估计熵［７］衡量样本点局部密度估计的合理性，即Ｈ＝－ ∑ ｎｉ＝１ ρｉＺｌｏｇ（ ρｉＺ），Ｚ＝ ∑ ｎｉ＝１ ρｉ（６）式中：Ｚ为一个标准化因子。分析密度估计熵的性质可知，有０ ≤ Ｈ ≤ ｌｏｇ(ｎ) 。显然，所有样本点的局部密度估计值近似相等时，具有最大的密度估计熵。对于给定的核函数形态，分析密度参数ｄｃ由０至＋ ¥递增过程中密度估计熵Ｈ的变化情况：当ｄｃ ®０时，Ｈ趋近于Ｈｍａｘ＝ｌｏｇ（ｎ）；随着ｄｃ的增大，Ｈ首先减小，在某个优化ｄｃ值处达到最小值，然后又逐渐增大，当ｄｃ ® ＋ ¥时，再次趋近于最大值Ｈｍａｘ＝ｌｏｇ（ｎ）。对应最小密度估计熵的ｄｃ值可以看作参数优化值。也就是说，优化ｄｃ值可以看作一个单变量非线性函数的最优化问题，即有ｍｉｎＨｄｃ＝－ ∑ ｎｉ＝１ ρｉＺｌｏｇ（ ρｉＺ）（７）此类问题存在很多标准算法，如简单试探法和模拟退火法等。实际应用中可采用样本容量的随机抽样方法降低优化ｄｃ值的时间开销。ｎ很大时，可以采用抽样率不小于２．５％的随机抽样方法来提高优化算法的性能［５］。理论上，对于用户任意指定的核函数形态，采用基于密度估计熵最小化的参数优化方法，都可以根据底层数据的分布特点自动优选合适的参数ｄｃ值。最终的密度估计结果取决于参数ｄｃ的优化值，而与核函数的具体形态的相关性并不明显。考虑到高斯函数具有良好的数学性质和普适性，建议采用式（３）所示的高斯核估计方法计算所有样本点的局部密度估计值。２．２局部密度估计值的近似计算给定包含ｎ个样本点的数据集Ｄ，考虑到计算每个样本点ｘｉ ÎＤ的局部密度估计值ｄｃ需要遍历所有其他样本点，算法复杂度较高，近似为Ｏｎ２ ( ) 。根据高斯函数的数学性质，对于给定的参数ｄｃ值，当样本点间当距离大于３ｄｃ／２时，局部密度估计的贡献会快速衰减为０，即每个样本点的局部密度估计值取决于半径为３ｄｃ／２的邻域范围内的近邻样本点的影响。由此，可以引入局部密度估计的近似计算改善聚类算法的性能。具体来说，以２ｄｃ为尺度对包含样本点的最小数域空间进行网格划分，构建空间索引结构（如Ｂ + 树）存贮每个非空网格单元的样本点数ｎｃ和样本均值ｘｃ等信息［３］。计算任一样本点ｘｉ（１ ≤ ｉ ≤ ｎ）的局部密度估计值 ρｉ时，只考虑样本点ｘｉ所处网格单元ｃｅｌｌ（ｘｉ）及其邻近网格单元ｎｅｉｇｈｂｏｒ（ｃｅｌｌ（ｘｉ））内所有样本点的影响，由此得到样本点ｘｉ的局部密度估计值 ρｉ的近似计算公式，即有第２期淦文燕，等：一种改进的搜索密度峰值的聚类算法 ·２３３·

.234. 智能系统学报第12卷 P:≈ ∑，e(自)产+Phc)(8) 000个样本点。图7(a)所示为原算法[]的聚类结 e cell(E)y≠i 果，其参数d.值是一个经验值0.03，即选取最小2% eigoe.（x;）= 的距离做截断：图7(b)所示为改进算法的聚类结 Ce neighbor(cell() 果，其参数d.值是通过密度估计嫡最小化得到的优 (9) 化值，略大于论文)实验采用的经验值，但聚类质其中P恤.(x,)的计算公式代表邻近网格量相对更好，而且抗噪声能力更好。单元内的样本点对P:的贡献。此时计算任一样本 0.5 点的局部密度估计值所需时间开销仅为空间索引时间，即O(log(na),nd<n为非空网格单元数，而构造空间索引结构所需时间为O(og(n)),算法总的时间复杂度近似为O(log(nd))。具体算法描述如下： 2.3改进算法描述给定数据集D={x1,x2,…,x},改进的快速搜 0.5 索密度峰值的聚类算法可以描述如下。 -0.8-0.6-0.4-0.200.20.40.6 算法改进的搜索密度峰值的聚类算法 (a)原算法(d.=0.03) (ICADEP) 0.5 输入数据集D={x1,x2,…,xn},抽样个数 nsample 输出数据划分Π。算法步骤： I)随机抽取nap。个样本点组成抽样数据集 SampleSet; 2)d.=Optimal_Parameter(SampleSet);/用抽样数据集优化估计密度参数d。; -08060402.002040.6 3)Map CreateMap(D,- );/以为尺度 (b)ICADEP算法(d.=0.05) 图74000个随机样本点的聚类结果比较对空间进行网格划分并构建索引树： Fig.7 Comparison of clustering results of 4000 random 4)p =Density_Estimation(D,Map,d);// sample points 算所有样本点的局部密度估计值P1,P2,…,Pn; 图8(a)所示为原算法聚类结果，参数d.选取 5)8=NN_Distance(D,Map,p);/按照局部最小2%的距离做截断，即d.=2.23:而图8(b)所示密度估从大到小的顺序，计算所有样本点的高密度的改进算法聚类结果中，通过密度估计嫡最小化得最所邻距离81，…，6n; 到的优化d。值虽然略小于论文实验的经验值，即 6)C=Decision_Graph(D,p,δ)：//形成决策 d.=2.02,但聚类结果同样能够正确识别原始数据分图，根据用户交互，确定代表聚类中心的样本子集：布的7个内在的数据类。 7)Π=Partition(D,C);/将所有非中心样本 20 15 点沿着密度估计值递增的最近邻方向，迭代划分给 10 相应的聚类中心，实现数据划分。 - 3实验结果与比较 -5 这里采用图1、2所示的测试数据集检验改进算法ICADEP的有效性。所有程序用软件Matlab2011 102势 -15 实现，测试在一台PC机(i5-3210MCPU、8GHz内 20-15-10-5 05101520 存、Win7)上进行，聚类结果如图7~9所示。图7所 (a)原算法(d。=2.23) 示的测试数据包含6个聚类和一些噪声数据，共4

ρｉ ≈ ∑ ｘｊ∈ｃｅｌｌｘｉ ( ) ∧ｊ≠ｉｅ－ｄｉｊｄｃ ( ) ２＋ φｎｅｉｇｈｂｏｒ＿ｃｅｌｌｓｘｉ ( ) （８） φｎｅｉｇｈｂｏｒ＿ｃｅｌｌｓ（ｘｉ）＝Ｃ∈ｎｅｉｇｈ∑ｂｏｒ（ｃｅｌｌ（ｘｉ））ｎｃ·ｅ－ｄｘｉ，ｘｃ ( ) ｄｃ ( ) ２（９）其中 φｎｅｉｇｈｂｏｒ＿ｃｅｌｌｓｘｉ ( ) 的计算公式代表邻近网格单元内的样本点对 ρｉ的贡献。此时计算任一样本点的局部密度估计值所需时间开销仅为空间索引时间，即Ｏ（ｌｏｇ（ｎｇｒｉｄ）），ｎｇｒｉｄ＜＜ｎ为非空网格单元数，而构造空间索引结构所需时间为Ｏ（ｌｏｇ（ｎｇｒｉｄ）），算法总的时间复杂度近似为Ｏ（ｌｏｇ（ｎｇｒｉｄ））。具体算法描述如下：２．３改进算法描述给定数据集Ｄ＝ｘ１，ｘ２，…，ｘｎ { } ，改进的快速搜索密度峰值的聚类算法可以描述如下。算法改进的搜索密度峰值的聚类算法（ＩＣＡＤＥＰ）输入数据集Ｄ＝ｘ１，ｘ２，…，ｘｎ { } ，抽样个数ｎｓａｍｐｌｅ；输出数据划分P。算法步骤：１）随机抽取ｎｓａｍｐｌｅ个样本点组成抽样数据集ＳａｍｐｌｅＳｅｔ；２）ｄｃ＝Ｏｐｔｉｍａｌ＿Ｐａｒａｍｅｔｅｒ（ＳａｍｐｌｅＳｅｔ）；／／用抽样数据集优化估计密度参数ｄｃ；３）Ｍａｐ＝ＣｒｅａｔｅＭａｐ（Ｄ，ｄｃ２）；／／以ｄｃ２为尺度对空间进行网格划分并构建索引树；４） ρ ＝Ｄｅｎｓｉｔｙ＿Ｅｓｔｉｍａｔｉｏｎ（Ｄ，Ｍａｐ，ｄｃ）；／／计算所有样本点的局部密度估计值 ρ１，ρ２，…，ρｎ；５） δ ＝ＮＮ＿Ｄｉｓｔａｎｃｅ（Ｄ，Ｍａｐ， ρ ）；／／按照局部密度估从大到小的顺序，计算所有样本点的高密度最所邻距离 δ１，…，δｎ；６）Ｃ＝Ｄｅｃｉｓｉｏｎ＿Ｇｒａｐｈ（Ｄ， ρ， δ ）；／／形成决策图，根据用户交互，确定代表聚类中心的样本子集；７）P＝Ｐａｒｔｉｔｉｏｎ（Ｄ，Ｃ）；／／将所有非中心样本点沿着密度估计值递增的最近邻方向，迭代划分给相应的聚类中心，实现数据划分。３实验结果与比较这里采用图１、２所示的测试数据集检验改进算法ＩＣＡＤＥＰ的有效性。所有程序用软件Ｍａｔｌａｂ２０１１实现，测试在一台ＰＣ机（ｉ５－３２１０ＭＣＰＵ、８ＧＨｚ内存、Ｗｉｎ７）上进行，聚类结果如图７～９所示。图７所示的测试数据包含６个聚类和一些噪声数据，共４０００个样本点。图７（ａ）所示为原算法［１］的聚类结果，其参数ｄｃ值是一个经验值０．０３，即选取最小２％的距离做截断；图７（ｂ）所示为改进算法的聚类结果，其参数ｄｃ值是通过密度估计熵最小化得到的优化值，略大于论文［１］实验采用的经验值，但聚类质量相对更好，而且抗噪声能力更好。（ａ）原算法［１］（ｄｃ＝０．０３）（ｂ）ＩＣＡＤＥＰ算法（ｄｃ＝０．０５）图７４０００个随机样本点的聚类结果比较Ｆｉｇ．７Ｃｏｍｐａｒｉｓｏｎｏｆｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｆ４０００ｒａｎｄｏｍｓａｍｐｌｅｐｏｉｎｔｓ图８（ａ）所示为原算法聚类结果，参数ｄｃ选取最小２％的距离做截断，即ｄｃ＝２．２３；而图８（ｂ）所示的改进算法聚类结果中，通过密度估计熵最小化得到的优化ｄｃ值虽然略小于论文［１］实验的经验值，即ｄｃ＝２．０２，但聚类结果同样能够正确识别原始数据分布的７个内在的数据类。（ａ）原算法［１］（ｄｃ＝２．２３） ·２３４· 智能系统学报第１２卷

第2期淦文燕，等：一种改进的搜索密度峰值的聚类算法 .235. 20 20 15 15 10 0 -5 2妫 -10 -1 -15 20-15-10-505101520 -20-15-10-505101520 (b)ICADEP算法(d.=2.02) (d)ICADEP算法的相应聚类结果(d=O.866) 图8 aggregation数据集的聚类结果比较图9 spiral数据集的聚类结果比较 Fig.8 Comparison of clustering results for aggregation Fig.9 Comparison of clustering results for spiral datasets datasets 图9(a)所示为原算法聚类结果，算法采用指数图9所示为spiral数据集的聚类结果比较。核估计，参数d.选取最小3%的距离做截断，即有 d.=1.07:而图9(b)所示的改进算法聚类结果中，通 2●3 过密度估计嫡最小化得到的优化d值略小于论 5 文实验的经验值，即有d.=0.866,聚类结果同样能够正确识别原数据集内在的3个螺旋类。 4结束语聚类是大数据分析与数据挖掘的基础问题。 6 81012 20l4年f刊登在《Science》上的论文《Clustering by fast 0 search and find of density peaks》提出一种快速搜索 (a)原算法0的决策图(d.=1.07) 和发现密度峰值点的聚类算法。算法简单实用，能 20 够发现任意形状、大小和密度的聚类，能够有效处理噪声和离群数据，但聚类结果依赖于核函数及其参 10 数d。的人为选择。论文提出一种改进的快速搜索密度峰值的聚类算法，引入基于密度估计熵最小化的自适应参数优化方法，弥补核函数及其参数值人为确定的羁绊：引入局部密度估计值的近似计算方 -10 法，改善聚类算法性能。比较实验结果表明，改进算 -15 法不仅能有效解决原算法的参数优选问题，而且具 20-15-10-505101520 有相对更好的聚类性能，算法时间复杂度近似为 (b)原算法山的相应聚类结果(d.=1.07) O(log(nad））,nid<<no 参考文献： 6 2●●3 [1]RODRIGUEZ A,LAIO A.Clustering by fast search and find of density peaks[J].Science,2014,344(6191):1492- 1496. [2]MANYIKA J,CHUI M,BROWN B,et al.Big data:the next frontier for innovation,competition,and productivity [M].McKinsey Global Institute,2011. [3]HAN Jiawei,KAMBER M,PEI Jian.Data mining:con- 6 cepts and techniques M].3rd ed.Burlington:Morgan Kaufmann,2011. (c)ICADEP算法的决策图(d,=O.866) [4]JAIN A K.Data clustering:50 years beyond k-means[Z]

（ｂ）ＩＣＡＤＥＰ算法（ｄｃ＝２．０２）图８ａｇｇｒｅｇａｔｉｏｎ数据集的聚类结果比较Ｆｉｇ．８Ｃｏｍｐａｒｉｓｏｎｏｆｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｆｏｒａｇｇｒｅｇａｔｉｏｎｄａｔａｓｅｔｓ图９所示为ｓｐｉｒａｌ数据集的聚类结果比较。（ａ）原算法［１］的决策图（ｄｃ＝１．０７）（ｂ）原算法［１］的相应聚类结果（ｄｃ＝１．０７）（ｃ）ＩＣＡＤＥＰ算法的决策图（ｄｃ＝０．８６６）（ｄ）ＩＣＡＤＥＰ算法的相应聚类结果（ｄｃ＝０．８６６）图９ｓｐｉｒａｌ数据集的聚类结果比较Ｆｉｇ．９Ｃｏｍｐａｒｉｓｏｎｏｆｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｆｏｒｓｐｉｒａｌｄａｔａｓｅｔｓ图９（ａ）所示为原算法聚类结果，算法采用指数核估计，参数ｄｃ选取最小３％的距离做截断，即有ｄｃ＝１．０７；而图９（ｂ）所示的改进算法聚类结果中，通过密度估计熵最小化得到的优化ｄｃ值略小于论文［１］实验的经验值，即有ｄｃ＝０．８６６，聚类结果同样能够正确识别原数据集内在的３个螺旋类。４结束语聚类是大数据分析与数据挖掘的基础问题。２０１４年刊登在《Ｓｃｉｅｎｃｅ》上的论文《Ｃｌｕｓｔｅｒｉｎｇｂｙｆａｓｔｓｅａｒｃｈａｎｄｆｉｎｄｏｆｄｅｎｓｉｔｙｐｅａｋｓ》提出一种快速搜索和发现密度峰值点的聚类算法。算法简单实用，能够发现任意形状、大小和密度的聚类，能够有效处理噪声和离群数据，但聚类结果依赖于核函数及其参数ｄｃ的人为选择。论文提出一种改进的快速搜索密度峰值的聚类算法，引入基于密度估计熵最小化的自适应参数优化方法，弥补核函数及其参数值人为确定的羁绊；引入局部密度估计值的近似计算方法，改善聚类算法性能。比较实验结果表明，改进算法不仅能有效解决原算法的参数优选问题，而且具有相对更好的聚类性能，算法时间复杂度近似为Ｏ（ｌｏｇ（ｎｇｒｉｄ）），ｎｇｒｉｄ＜＜ｎ。参考文献：［１］ＲＯＤＲＩＧＵＥＺＡ，ＬＡＩＯＡ．Ｃｌｕｓｔｅｒｉｎｇｂｙｆａｓｔｓｅａｒｃｈａｎｄｆｉｎｄｏｆｄｅｎｓｉｔｙｐｅａｋｓ［Ｊ］．Ｓｃｉｅｎｃｅ，２０１４，３４４（６１９１）：１４９２－１４９６．［２］ＭＡＮＹＩＫＡＪ，ＣＨＵＩＭ，ＢＲＯＷＮＢ，ｅｔａｌ．Ｂｉｇｄａｔａ：ｔｈｅｎｅｘｔｆｒｏｎｔｉｅｒｆｏｒｉｎｎｏｖａｔｉｏｎ，ｃｏｍｐｅｔｉｔｉｏｎ，ａｎｄｐｒｏｄｕｃｔｉｖｉｔｙ［Ｍ］．ＭｃＫｉｎｓｅｙＧｌｏｂａｌＩｎｓｔｉｔｕｔｅ，２０１１．［３］ＨＡＮＪｉａｗｅｉ，ＫＡＭＢＥＲＭ，ＰＥＩＪｉａｎ．Ｄａｔａｍｉｎｉｎｇ：ｃｏｎ⁃ ｃｅｐｔｓａｎｄｔｅｃｈｎｉｑｕｅｓ［Ｍ］．３ｒｄｅｄ．Ｂｕｒｌｉｎｇｔｏｎ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，２０１１．［４］ＪＡＩＮＡＫ．Ｄａｔａｃｌｕｓｔｅｒｉｎｇ：５０ｙｅａｒｓｂｅｙｏｎｄｋ⁃ｍｅａｎｓ［Ｚ］．第２期淦文燕，等：一种改进的搜索密度峰值的聚类算法 ·２３５·

·236 智能系统学报第12卷 Pattern Recognition Letters,2009. [9]GIONIS A,MANNILA H,TSAPARAS P.Clustering aggre- [5]唐杰，东昱晓，蒋朦，等.SIGKDD二十周年庆典[J].中 gation[J].ACM transactions on knowledge discovery from 国计算机学会通讯，2014,10(10)：58-64. data,2007,1(1):Article No.4. [6]http://comments.sicencemag.org/content/10.1126/science. 作者简介： 1242072[0L/EB]. 淦文燕，女，副教授。主要研究方 [7]淦文燕，李德毅.基于核密度估计的层次聚类算法[J]· 向为人工智能，数据挖掘，机器学习。系统仿真学报，2004,16(2)：302-305. GAN Wenyan,LI Deyi.Hierarchical clustering based on kernel density estimation[J].Journal of System Simulation, 2004,16(2):302-305. [8]ESTER M,KRIEGEL H,SANDER J,et al.A density 刘冲，男，硕士研究生，主要研究方 based algorithm for discovering clusters in large spatial data- 向为大数据分析，数据挖掘。 bases with noise[C]//Proceedings of the 2nd international conference on knowledge discovery and data mining.Port- land.1996:226-231. 2017第二届群体智能和进化计算会议 2017 2nd Conference on Swarm Intelligence and Evolutionary Computation CSIEC) Optimization is at the heart of many real world problems in various fields ranging from scientific research to industry and commerce.To tackle complex real world problems,experts have been looking into natural processes and creatures for years.Over the last years,nature-inspired search techniques and optimization algorithms have been became the subject of many researches and currently are used in various field of science,ranging from scientific research to industry and com- merce.The two main families of algorithms that primarily constitute this field today are the evolutionary computing methods and the swarm intelligence algorithms.Many heuristic algorithms in each group are invented where each one has its own distinguishing features.Furthermore,encountering various problems,algorithms are enhanced by offering different strate- gies including inventing different variants,producing specialized operators,co-evolution,hybridization,dynamic control- ling,and so on.2nd Conference on Swarm Intelligence and Evolutionary Computation (CSIEC2017)is an opportunity for researchers to share their contemporary knowledge in the field of nature-inspired intelligent computation based on the prin- ciples of swarm and evolutionary algorithms.The conference welcomes significant contributions in both English and Farsi languages. Topics of interest include but are not limited to: Search Domains Problem Domains Application Domains Website:http://csiec2017en.uk.ac.ir/App_Web/%28Guest%29/Default.aspx

ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅｔｔｅｒｓ，２００９．［５］唐杰，东昱晓，蒋朦，等．ＳＩＧＫＤＤ二十周年庆典［Ｊ］．中国计算机学会通讯，２０１４，１０（１０）：５８－６４．［６］ｈｔｔｐ：／／ｃｏｍｍｅｎｔｓ．ｓｉｃｅｎｃｅｍａｇ．ｏｒｇ／ｃｏｎｔｅｎｔ／１０．１１２６／ｓｃｉｅｎｃｅ．１２４２０７２［ＯＬ／ＥＢ］．［７］淦文燕，李德毅．基于核密度估计的层次聚类算法［Ｊ］．系统仿真学报，２００４，１６（２）：３０２－３０５．ＧＡＮＷｅｎｙａｎ，ＬＩＤｅｙｉ．Ｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎｋｅｒｎｅｌｄｅｎｓｉｔｙｅｓｔｉｍａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｙｓｔｅｍＳｉｍｕｌａｔｉｏｎ，２００４，１６（２）：３０２－３０５．［８］ＥＳＴＥＲＭ，ＫＲＩＥＧＥＬＨ，ＳＡＮＤＥＲＪ，ｅｔａｌ．Ａｄｅｎｓｉｔｙｂａｓｅｄａｌｇｏｒｉｔｈｍｆｏｒｄｉｓｃｏｖｅｒｉｎｇｃｌｕｓｔｅｒｓｉｎｌａｒｇｅｓｐａｔｉａｌｄａｔａ⁃ ｂａｓｅｓｗｉｔｈｎｏｉｓｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２ｎｄｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙａｎｄｄａｔａｍｉｎｉｎｇ．Ｐｏｒｔ⁃ ｌａｎｄ，１９９６：２２６－２３１．［９］ＧＩＯＮＩＳＡ，ＭＡＮＮＩＬＡＨ，ＴＳＡＰＡＲＡＳＰ．Ｃｌｕｓｔｅｒｉｎｇａｇｇｒｅ⁃ ｇａｔｉｏｎ［Ｊ］．ＡＣＭｔｒａｎｓａｃｔｉｏｎｓｏｎｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙｆｒｏｍｄａｔａ，２００７，１（１）：ＡｒｔｉｃｌｅＮｏ．４．作者简介：淦文燕，女，副教授。主要研究方向为人工智能，数据挖掘，机器学习。刘冲，男，硕士研究生，主要研究方向为大数据分析，数据挖掘。２０１７第二届群体智能和进化计算会议２０１７２ｎｄＣｏｎｆｅｒｅｎｃｅｏｎＳｗａｒｍＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＥｖｏｌｕｔｉｏｎａｒｙＣｏｍｐｕｔａｔｉｏｎ（ＣＳＩＥＣ）Ｏｐｔｉｍｉｚａｔｉｏｎｉｓａｔｔｈｅｈｅａｒｔｏｆｍａｎｙｒｅａｌｗｏｒｌｄｐｒｏｂｌｅｍｓｉｎｖａｒｉｏｕｓｆｉｅｌｄｓｒａｎｇｉｎｇｆｒｏｍｓｃｉｅｎｔｉｆｉｃｒｅｓｅａｒｃｈｔｏｉｎｄｕｓｔｒｙａｎｄｃｏｍｍｅｒｃｅ．Ｔｏｔａｃｋｌｅｃｏｍｐｌｅｘｒｅａｌｗｏｒｌｄｐｒｏｂｌｅｍｓ，ｅｘｐｅｒｔｓｈａｖｅｂｅｅｎｌｏｏｋｉｎｇｉｎｔｏｎａｔｕｒａｌｐｒｏｃｅｓｓｅｓａｎｄｃｒｅａｔｕｒｅｓｆｏｒｙｅａｒｓ．Ｏｖｅｒｔｈｅｌａｓｔｙｅａｒｓ，ｎａｔｕｒｅ⁃ｉｎｓｐｉｒｅｄｓｅａｒｃｈｔｅｃｈｎｉｑｕｅｓａｎｄｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍｓｈａｖｅｂｅｅｎｂｅｃａｍｅｔｈｅｓｕｂｊｅｃｔｏｆｍａｎｙｒｅｓｅａｒｃｈｅｓａｎｄｃｕｒｒｅｎｔｌｙａｒｅｕｓｅｄｉｎｖａｒｉｏｕｓｆｉｅｌｄｏｆｓｃｉｅｎｃｅ，ｒａｎｇｉｎｇｆｒｏｍｓｃｉｅｎｔｉｆｉｃｒｅｓｅａｒｃｈｔｏｉｎｄｕｓｔｒｙａｎｄｃｏｍ⁃ ｍｅｒｃｅ．Ｔｈｅｔｗｏｍａｉｎｆａｍｉｌｉｅｓｏｆａｌｇｏｒｉｔｈｍｓｔｈａｔｐｒｉｍａｒｉｌｙｃｏｎｓｔｉｔｕｔｅｔｈｉｓｆｉｅｌｄｔｏｄａｙａｒｅｔｈｅｅｖｏｌｕｔｉｏｎａｒｙｃｏｍｐｕｔｉｎｇｍｅｔｈｏｄｓａｎｄｔｈｅｓｗａｒｍｉｎｔｅｌｌｉｇｅｎｃｅａｌｇｏｒｉｔｈｍｓ．Ｍａｎｙｈｅｕｒｉｓｔｉｃａｌｇｏｒｉｔｈｍｓｉｎｅａｃｈｇｒｏｕｐａｒｅｉｎｖｅｎｔｅｄｗｈｅｒｅｅａｃｈｏｎｅｈａｓｉｔｓｏｗｎｄｉｓｔｉｎｇｕｉｓｈｉｎｇｆｅａｔｕｒｅｓ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｅｎｃｏｕｎｔｅｒｉｎｇｖａｒｉｏｕｓｐｒｏｂｌｅｍｓ，ａｌｇｏｒｉｔｈｍｓａｒｅｅｎｈａｎｃｅｄｂｙｏｆｆｅｒｉｎｇｄｉｆｆｅｒｅｎｔｓｔｒａｔｅ⁃ ｇｉｅｓｉｎｃｌｕｄｉｎｇｉｎｖｅｎｔｉｎｇｄｉｆｆｅｒｅｎｔｖａｒｉａｎｔｓ，ｐｒｏｄｕｃｉｎｇｓｐｅｃｉａｌｉｚｅｄｏｐｅｒａｔｏｒｓ，ｃｏ⁃ｅｖｏｌｕｔｉｏｎ，ｈｙｂｒｉｄｉｚａｔｉｏｎ，ｄｙｎａｍｉｃｃｏｎｔｒｏｌ⁃ ｌｉｎｇ，ａｎｄｓｏｏｎ．２ｎｄＣｏｎｆｅｒｅｎｃｅｏｎＳｗａｒｍＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＥｖｏｌｕｔｉｏｎａｒｙＣｏｍｐｕｔａｔｉｏｎ（ＣＳＩＥＣ２０１７）ｉｓａｎｏｐｐｏｒｔｕｎｉｔｙｆｏｒｒｅｓｅａｒｃｈｅｒｓｔｏｓｈａｒｅｔｈｅｉｒｃｏｎｔｅｍｐｏｒａｒｙｋｎｏｗｌｅｄｇｅｉｎｔｈｅｆｉｅｌｄｏｆｎａｔｕｒｅ⁃ｉｎｓｐｉｒｅｄｉｎｔｅｌｌｉｇｅｎｔｃｏｍｐｕｔａｔｉｏｎｂａｓｅｄｏｎｔｈｅｐｒｉｎ⁃ ｃｉｐｌｅｓｏｆｓｗａｒｍａｎｄｅｖｏｌｕｔｉｏｎａｒｙａｌｇｏｒｉｔｈｍｓ．ＴｈｅｃｏｎｆｅｒｅｎｃｅｗｅｌｃｏｍｅｓｓｉｇｎｉｆｉｃａｎｔｃｏｎｔｒｉｂｕｔｉｏｎｓｉｎｂｏｔｈＥｎｇｌｉｓｈａｎｄＦａｒｓｉｌａｎｇｕａｇｅｓ．Ｔｏｐｉｃｓｏｆｉｎｔｅｒｅｓｔｉｎｃｌｕｄｅｂｕｔａｒｅｎｏｔｌｉｍｉｔｅｄｔｏ：ＳｅａｒｃｈＤｏｍａｉｎｓＰｒｏｂｌｅｍＤｏｍａｉｎｓＡｐｐｌｉｃａｔｉｏｎＤｏｍａｉｎｓＷｅｂｓｉｔｅ：ｈｔｔｐ：／／ｃｓｉｅｃ２０１７ｅｎ．ｕｋ．ａｃ．ｉｒ／Ａｐｐ＿Ｗｅｂ／％２８Ｇｕｅｓｔ％２９／Ｄｅｆａｕｌｔ．ａｓｐｘ ·２３６· 智能系统学报第１２卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录