正在加载图片...
第10卷第5期 智能系统学报 Vol.10 No.5 2015年10月 CAAI Transactions on Intelligent Systems 0ct.2015 D0I:10.11992/is.201410028 网s络出版地址:htp://ww.cmki.net/kcms/detail/23.1538.tp.20150930.1556.016.html 基于密度的统计合并聚类算法 刘贝贝,马儒宁1,丁军娣2 (1.南京航空航天大学理学院,江苏南京211100:2.南京理工大学计算机科学与技术学院,江苏南京210094) 摘要:针对现有聚类算法处理噪声能力差和速度较慢的问题,提出了一种基于密度的统计合并聚类算法(DSMC)。 该算法将数据点的每一个特征看作一组独立随机变量,根据独立有限差分不等式得出统计合并判定准则:同时,结 合数据点的密度信息,把密度从大到小的排序作为凝聚过程中的合并顺序,实现了各类数据点的统计合并。人工数 据集和真实数据集的实验结果表明,DSMC算法不仅可以处理凸状数据集,对于非凸、重叠、加入噪声的数据集也有 良好的聚类效果,充分表明了该算法的适用性和有效性。 关键词:数据点:密度:随机变量:合并:聚类:噪声 中图分类号:0235:TP311文献标志码:A文章编号:1673-4785(2015)05-0712-10 中文引用格式:刘贝贝,马儒宁,丁军娣.基于密度的统计合并聚类算法[J].智能系统学报,2015,10(5):712-721. 英文写引用格式:LIU Beibei,MA Runing,DINGJundi.Density-based statistical merging clustering algorithm[J].CAAI Transac- tions on Intelligent Systems,2015,10(5):712-721. Density-based statistical merging clustering algorithm LIU Beibei',MA Runing',DING Jundi2 (1.College of Science,Nanjing University of Aeronautics and Astronautics,Nanjing 211100,China:2.School of Computer Science and Technology,Nanjing University of Science and Technology,Nanjing 210094,China) Abstract:The ability of existing clustering algorithms to deal with noise is poor,and the speed is slow,instead this paper proposes a density-based statistical merging clustering algorithm (DSMC).The new algorithm takes each group of data points as a set of independent random variables,and gathers statistical criteria from the independent bounded difference inequality.Meanwhile,combined with the density information of the data points,the DSMC al- gorithm takes the descending order of the density as the merging order in the process of condensation,and thereby achieves statistical merging of different types of data points.The experimental results with both artificial datasets and real datasets show that the DSMC algorithm can not only deal with convex data set,and also has good clustering effects on nonconvex shaped,overlapped and noisy,data sets.This proves that the algorithm has good applicability and validity. Keywords:data points;density;random variable;merging;clustering algorithm;noise 聚类2]是数据挖掘领域中十分重要的数据分算法,它的主要特点是在对数据集进行分类之前,需 析技术。具体来说,聚类就是将给定的数据集划分 要事先确定聚类个数,然后将数据集划分到确定好 成互不相交的非空子集的过程。由于初始条件和聚的各类别中。根据划分过程中数据点类别归属的明 类准则的不唯一性,使得各种各样的聚类算法应运确性,又可将分割聚类分为硬聚类和模糊聚类4]。 而生。根据算法形成方式的不同,可以将其分为2 硬聚类中数据点的类别归属是明确的。每个数 大类:基于划分的聚类算法和基于层次的聚类算 据点对各类别的隶属度取0或1,即一个数据点必 法[)。基于划分的聚类算法也可以称为分割聚类 须属于某一类别且只能属于该类别。硬聚类的数学 定义描述如下:设给定的数据集为X={x1,x2,…, 收稿日期:201410-21.网络出版日期:2015-09-30. xn}∈Rx,x,(i=1,2,…,n)表示第i个数据点。预 基金项目:国家自然科学基金资助项目(61103058). 通信作者:丁军娣.E-mail:dingjundi2010@njust..cdu.cn. 先确定将X划分为k个子集C={C,C2,…,C}第 10 卷第 5 期 智 能 系 统 学 报 Vol.10 №.5 2015 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2015 DOI:10.11992 / tis.201410028 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.tp.20150930.1556.016.html 基于密度的统计合并聚类算法 刘贝贝1 ,马儒宁1 ,丁军娣2 (1. 南京航空航天大学 理学院,江苏 南京 211100; 2. 南京理工大学 计算机科学与技术学院,江苏 南京 210094) 摘 要:针对现有聚类算法处理噪声能力差和速度较慢的问题,提出了一种基于密度的统计合并聚类算法(DSMC)。 该算法将数据点的每一个特征看作一组独立随机变量,根据独立有限差分不等式得出统计合并判定准则;同时,结 合数据点的密度信息,把密度从大到小的排序作为凝聚过程中的合并顺序,实现了各类数据点的统计合并。 人工数 据集和真实数据集的实验结果表明,DSMC 算法不仅可以处理凸状数据集,对于非凸、重叠、加入噪声的数据集也有 良好的聚类效果,充分表明了该算法的适用性和有效性。 关键词:数据点;密度;随机变量;合并;聚类;噪声 中图分类号:O235;TP311 文献标志码:A 文章编号:1673⁃4785(2015)05⁃0712⁃10 中文引用格式:刘贝贝,马儒宁,丁军娣. 基于密度的统计合并聚类算法[J]. 智能系统学报, 2015, 10(5): 712⁃721. 英文引用格式:LIU Beibei, MA Runing, DING Jundi. Density⁃based statistical merging clustering algorithm[ J]. CAAI Transac⁃ tions on Intelligent Systems, 2015, 10(5): 712⁃721. Density⁃based statistical merging clustering algorithm LIU Beibei 1 , MA Runing 1 , DING Jundi 2 (1. College of Science, Nanjing University of Aeronautics and Astronautics, Nanjing 211100, China; 2. School of Computer Science and Technology, Nanjing University of Science and Technology, Nanjing 210094, China) Abstract:The ability of existing clustering algorithms to deal with noise is poor, and the speed is slow, instead this paper proposes a density⁃based statistical merging clustering algorithm (DSMC). The new algorithm takes each group of data points as a set of independent random variables, and gathers statistical criteria from the independent bounded difference inequality. Meanwhile, combined with the density information of the data points, the DSMC al⁃ gorithm takes the descending order of the density as the merging order in the process of condensation, and thereby achieves statistical merging of different types of data points. The experimental results with both artificial datasets and real datasets show that the DSMC algorithm can not only deal with convex data set, and also has good clustering effects on nonconvex shaped, overlapped and noisy, data sets. This proves that the algorithm has good applicability and validity. Keywords:data points; density; random variable; merging; clustering algorithm; noise 收稿日期:2014⁃10⁃21. 网络出版日期:2015⁃09⁃30. 基金项目:国家自然科学基金资助项目(61103058). 通信作者:丁军娣. E⁃mail: dingjundi2010@ njust.edu.cn. 聚类[1⁃2]是数据挖掘领域中十分重要的数据分 析技术。 具体来说,聚类就是将给定的数据集划分 成互不相交的非空子集的过程。 由于初始条件和聚 类准则的不唯一性,使得各种各样的聚类算法应运 而生。 根据算法形成方式的不同,可以将其分为 2 大类:基于划分的聚类算法和基于层次的聚类算 法[3] 。 基于划分的聚类算法也可以称为分割聚类 算法,它的主要特点是在对数据集进行分类之前,需 要事先确定聚类个数,然后将数据集划分到确定好 的各类别中。 根据划分过程中数据点类别归属的明 确性,又可将分割聚类分为硬聚类和模糊聚类[ 4 ] 。 硬聚类中数据点的类别归属是明确的。 每个数 据点对各类别的隶属度取 0 或 1,即一个数据点必 须属于某一类别且只能属于该类别。 硬聚类的数学 定义描述如下:设给定的数据集为 X = { x1 ,x2 ,…, xn }∈R n×d ,xi(i = 1,2,…,n)表示第 i 个数据点。 预 先确定将 X 划分为 k 个子集 C = {C1 ,C2 ,…,Ck }
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有