第１０卷第５期智能系统学报Ｖｏｌ．１０ №．５２０

正在加载图片...

第10卷第5期智能系统学报 Vol.10 No.5 2015年10月 CAAI Transactions on Intelligent Systems 0ct.2015 D0I:10.11992/is.201410028 网s络出版地址：htp://ww.cmki.net/kcms/detail/23.1538.tp.20150930.1556.016.html 基于密度的统计合并聚类算法刘贝贝，马儒宁1，丁军娣2 (1.南京航空航天大学理学院，江苏南京211100：2.南京理工大学计算机科学与技术学院，江苏南京210094) 摘要：针对现有聚类算法处理噪声能力差和速度较慢的问题，提出了一种基于密度的统计合并聚类算法(DSMC)。该算法将数据点的每一个特征看作一组独立随机变量，根据独立有限差分不等式得出统计合并判定准则：同时，结合数据点的密度信息，把密度从大到小的排序作为凝聚过程中的合并顺序，实现了各类数据点的统计合并。人工数据集和真实数据集的实验结果表明，DSMC算法不仅可以处理凸状数据集，对于非凸、重叠、加入噪声的数据集也有良好的聚类效果，充分表明了该算法的适用性和有效性。关键词：数据点：密度：随机变量：合并：聚类：噪声中图分类号：0235：TP311文献标志码：A文章编号：1673-4785(2015)05-0712-10 中文引用格式：刘贝贝，马儒宁，丁军娣.基于密度的统计合并聚类算法[J].智能系统学报，2015,10(5)：712-721. 英文写引用格式：LIU Beibei,MA Runing,DINGJundi.Density-based statistical merging clustering algorithm[J].CAAI Transac- tions on Intelligent Systems,2015,10(5):712-721. Density-based statistical merging clustering algorithm LIU Beibei',MA Runing',DING Jundi2 (1.College of Science,Nanjing University of Aeronautics and Astronautics,Nanjing 211100,China:2.School of Computer Science and Technology,Nanjing University of Science and Technology,Nanjing 210094,China) Abstract:The ability of existing clustering algorithms to deal with noise is poor,and the speed is slow,instead this paper proposes a density-based statistical merging clustering algorithm (DSMC).The new algorithm takes each group of data points as a set of independent random variables,and gathers statistical criteria from the independent bounded difference inequality.Meanwhile,combined with the density information of the data points,the DSMC al- gorithm takes the descending order of the density as the merging order in the process of condensation,and thereby achieves statistical merging of different types of data points.The experimental results with both artificial datasets and real datasets show that the DSMC algorithm can not only deal with convex data set,and also has good clustering effects on nonconvex shaped,overlapped and noisy,data sets.This proves that the algorithm has good applicability and validity. Keywords:data points;density;random variable;merging;clustering algorithm;noise 聚类2]是数据挖掘领域中十分重要的数据分算法，它的主要特点是在对数据集进行分类之前，需析技术。具体来说，聚类就是将给定的数据集划分要事先确定聚类个数，然后将数据集划分到确定好成互不相交的非空子集的过程。由于初始条件和聚的各类别中。根据划分过程中数据点类别归属的明类准则的不唯一性，使得各种各样的聚类算法应运确性，又可将分割聚类分为硬聚类和模糊聚类4]。而生。根据算法形成方式的不同，可以将其分为2 硬聚类中数据点的类别归属是明确的。每个数大类：基于划分的聚类算法和基于层次的聚类算据点对各类别的隶属度取0或1，即一个数据点必法[)。基于划分的聚类算法也可以称为分割聚类须属于某一类别且只能属于该类别。硬聚类的数学定义描述如下：设给定的数据集为X={x1,x2,…, 收稿日期：201410-21.网络出版日期：2015-09-30. xn}∈Rx,x,(i=1,2,…,n)表示第i个数据点。预基金项目：国家自然科学基金资助项目(61103058). 通信作者：丁军娣.E-mail:dingjundi2010@njust..cdu.cn. 先确定将X划分为k个子集C={C,C2,…,C}第１０卷第５期智能系统学报Ｖｏｌ．１０ №．５２０１５年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１５ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１４１００２８网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１５０９３０．１５５６．０１６．ｈｔｍｌ基于密度的统计合并聚类算法刘贝贝１，马儒宁１，丁军娣２（１．南京航空航天大学理学院，江苏南京２１１１００；２．南京理工大学计算机科学与技术学院，江苏南京２１００９４）摘要：针对现有聚类算法处理噪声能力差和速度较慢的问题，提出了一种基于密度的统计合并聚类算法（ＤＳＭＣ）。该算法将数据点的每一个特征看作一组独立随机变量，根据独立有限差分不等式得出统计合并判定准则；同时，结合数据点的密度信息，把密度从大到小的排序作为凝聚过程中的合并顺序，实现了各类数据点的统计合并。人工数据集和真实数据集的实验结果表明，ＤＳＭＣ算法不仅可以处理凸状数据集，对于非凸、重叠、加入噪声的数据集也有良好的聚类效果，充分表明了该算法的适用性和有效性。关键词：数据点；密度；随机变量；合并；聚类；噪声中图分类号：Ｏ２３５；ＴＰ３１１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０５⁃０７１２⁃１０中文引用格式：刘贝贝，马儒宁，丁军娣．基于密度的统计合并聚类算法［Ｊ］．智能系统学报，２０１５，１０（５）：７１２⁃７２１．英文引用格式：ＬＩＵＢｅｉｂｅｉ，ＭＡＲｕｎｉｎｇ，ＤＩＮＧＪｕｎｄｉ．Ｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃ⁃ ｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（５）：７１２⁃７２１．Ｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍＬＩＵＢｅｉｂｅｉ１，ＭＡＲｕｎｉｎｇ１，ＤＩＮＧＪｕｎｄｉ２（１．ＣｏｌｌｅｇｅｏｆＳｃｉｅｎｃｅ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＡｅｒｏｎａｕｔｉｃｓａｎｄＡｓｔｒｏｎａｕｔｉｃｓ，Ｎａｎｊｉｎｇ２１１１００，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｎａｎｊｉｎｇ２１００９４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅａｂｉｌｉｔｙｏｆｅｘｉｓｔｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓｔｏｄｅａｌｗｉｔｈｎｏｉｓｅｉｓｐｏｏｒ，ａｎｄｔｈｅｓｐｅｅｄｉｓｓｌｏｗ，ｉｎｓｔｅａｄｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｄｅｎｓｉｔｙ⁃ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ（ＤＳＭＣ）．Ｔｈｅｎｅｗａｌｇｏｒｉｔｈｍｔａｋｅｓｅａｃｈｇｒｏｕｐｏｆｄａｔａｐｏｉｎｔｓａｓａｓｅｔｏｆｉｎｄｅｐｅｎｄｅｎｔｒａｎｄｏｍｖａｒｉａｂｌｅｓ，ａｎｄｇａｔｈｅｒｓｓｔａｔｉｓｔｉｃａｌｃｒｉｔｅｒｉａｆｒｏｍｔｈｅｉｎｄｅｐｅｎｄｅｎｔｂｏｕｎｄｅｄｄｉｆｆｅｒｅｎｃｅｉｎｅｑｕａｌｉｔｙ．Ｍｅａｎｗｈｉｌｅ，ｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅｄｅｎｓｉｔｙｉｎｆｏｒｍａｔｉｏｎｏｆｔｈｅｄａｔａｐｏｉｎｔｓ，ｔｈｅＤＳＭＣａｌ⁃ ｇｏｒｉｔｈｍｔａｋｅｓｔｈｅｄｅｓｃｅｎｄｉｎｇｏｒｄｅｒｏｆｔｈｅｄｅｎｓｉｔｙａｓｔｈｅｍｅｒｇｉｎｇｏｒｄｅｒｉｎｔｈｅｐｒｏｃｅｓｓｏｆｃｏｎｄｅｎｓａｔｉｏｎ，ａｎｄｔｈｅｒｅｂｙａｃｈｉｅｖｅｓｓｔａｔｉｓｔｉｃａｌｍｅｒｇｉｎｇｏｆｄｉｆｆｅｒｅｎｔｔｙｐｅｓｏｆｄａｔａｐｏｉｎｔｓ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｗｉｔｈｂｏｔｈａｒｔｉｆｉｃｉａｌｄａｔａｓｅｔｓａｎｄｒｅａｌｄａｔａｓｅｔｓｓｈｏｗｔｈａｔｔｈｅＤＳＭＣａｌｇｏｒｉｔｈｍｃａｎｎｏｔｏｎｌｙｄｅａｌｗｉｔｈｃｏｎｖｅｘｄａｔａｓｅｔ，ａｎｄａｌｓｏｈａｓｇｏｏｄｃｌｕｓｔｅｒｉｎｇｅｆｆｅｃｔｓｏｎｎｏｎｃｏｎｖｅｘｓｈａｐｅｄ，ｏｖｅｒｌａｐｐｅｄａｎｄｎｏｉｓｙ，ｄａｔａｓｅｔｓ．Ｔｈｉｓｐｒｏｖｅｓｔｈａｔｔｈｅａｌｇｏｒｉｔｈｍｈａｓｇｏｏｄａｐｐｌｉｃａｂｉｌｉｔｙａｎｄｖａｌｉｄｉｔｙ．Ｋｅｙｗｏｒｄｓ：ｄａｔａｐｏｉｎｔｓ；ｄｅｎｓｉｔｙ；ｒａｎｄｏｍｖａｒｉａｂｌｅ；ｍｅｒｇｉｎｇ；ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ；ｎｏｉｓｅ收稿日期：２０１４⁃１０⁃２１．网络出版日期：２０１５⁃０９⁃３０．基金项目：国家自然科学基金资助项目（６１１０３０５８）．通信作者：丁军娣．Ｅ⁃ｍａｉｌ：ｄｉｎｇｊｕｎｄｉ２０１０＠ｎｊｕｓｔ．ｅｄｕ．ｃｎ．聚类［１⁃２］是数据挖掘领域中十分重要的数据分析技术。具体来说，聚类就是将给定的数据集划分成互不相交的非空子集的过程。由于初始条件和聚类准则的不唯一性，使得各种各样的聚类算法应运而生。根据算法形成方式的不同，可以将其分为２大类：基于划分的聚类算法和基于层次的聚类算法［３］。基于划分的聚类算法也可以称为分割聚类算法，它的主要特点是在对数据集进行分类之前，需要事先确定聚类个数，然后将数据集划分到确定好的各类别中。根据划分过程中数据点类别归属的明确性，又可将分割聚类分为硬聚类和模糊聚类［４］。硬聚类中数据点的类别归属是明确的。每个数据点对各类别的隶属度取０或１，即一个数据点必须属于某一类别且只能属于该类别。硬聚类的数学定义描述如下：设给定的数据集为Ｘ＝｛ｘ１，ｘ２，…，ｘｎ｝∈Ｒｎ×ｄ，ｘｉ（ｉ＝１，２，…，ｎ）表示第ｉ个数据点。预先确定将Ｘ划分为ｋ个子集Ｃ＝｛Ｃ１，Ｃ２，…，Ｃｋ｝

向下翻页>>

点击下载：机器学习：基于密度的统计合并聚类算法编辑部