第１１卷第１期智能系统学报Ｖｏｌ．１１ №．１２０

正在加载图片...

第11卷第1期智能系统学报 Vol.11 No.1 2016年2月 CAAI Transactions on Intelligent Systems Feh.2016 D01:10.11992.tis.201410021 网络出版地址：http:/www.cnki.net/kcms/detail/23.1538.tp.20150930.1557.028.html 一种改进的自适应快速AF-DBSCAN聚类算法周治平，王杰锋，朱书伟，孙子文 (江南大学物联网工程学院，江苏无锡214122)》摘要：基于密度的DBSCAN聚类算法可以识别任意形状簇，但存在全局参数Eps与MiPs的选择需人工干预，采用的区域查询方式过程复杂且易丢失对象等问题，提出了一种改进的参数自适应以及区域快速查询的密度聚类算法。根据KNN分布与数学统计分析自适应计算出最优全局参数Es与MinPts,避免聚类过程中的人工干预，实现了聚类过程的全自动化。通过改进种子代表对象选取方式进行区域查询，无需漏检操作，有效提高了聚类的效率。对 4种典型数据集的密度聚类实验结果表明，本文算法使得聚类精度提高了8.825%，聚类的平均时间减少了0.92s。关键词：密度聚类：DBSCAN:区域查询：全局参数：KNN分布：数学统计分析中图分类号：TP181文献标志码：A文章编号：1673-4785(2016)01-0093-06 中文引用格式：周治平，王杰锋，朱书伟，等.一种改进的自适应快速AF-DBSCAN聚类算法[J].智能系统学报，2016,11(1)：93-98. 英文引用格式：ZHOU Zhiping,WANG Jiefeng,ZHU Shuwei,etal.An improved adaptive and fast AF-.DBSCAN clustering algo- rithm[J].CAAI Transactions on Intelligent Systems,2016,11(1):93-98. An improved adaptive and fast AF-DBSCAN clustering algorithm ZHOU Zhiping,WANG Jiefeng,ZHU Shuwei,SUN Ziwen School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,China) Abstract:The density-based DBSCAN clustering algorithm can identify clusters with arbitrary shape,however,the choice of the global parameters Eps and MinPts requires manual intervention,the process of regional query is com- plex and loses objects easily.Therefore,an improved density clustering algorithm with adaptive parameter for fast regional queries is proposed.Using KNN distribution and mathematical statistical analysis,the optimal global pa- rameters Eps and MinPts are adaptively calculated,so as to avoid manual intervention and enable full automation of the clustering process.The regional query is conducted by improving the selection manner of the object,which is represented by a seed and thus avoiding manual intervention,and so the clustering efficiency is effectively in- creased.The experiment results looking at density clustering of four typical data sets show that the proposed method effectively improves clustering accuracy by 8.825%and reduces the average time of clustering by 0.92 s. Keywords:density clustering;DBSCAN;region query;global parameters;KNN distribution;mathematical statis- tics and analysis 数据挖掘是一种从大量数据中发现感兴趣信息 /0消耗也很大：当空间聚类的密度不均匀，聚类间的技术，聚类算法在数据挖掘应用中日益广泛。其距离相差很大时，聚类质量较差。针对DBSCAN 中，基于密度的聚类算法可以发现任意形状的簇且算法在大型数据库与多密度数据集聚类精度低，计能够较好地处理噪声数据，越来越受到广泛的关注。算复杂度高，全局参数人工选取等问题，已有很多学 DBSCAN算法能够发现任意形状的簇，并有效识别者进行了相关研究：S.Mimaroglu等)提出对位向离群点，但聚类之前需要人工选择Eps和minPts2 量使用裁剪技术，H.Jiang等)提出一种基于划分个参数。当数据量增大时，要求较大的内存支持，的DBSCAN算法，B.Borah等I6提出一种改进的基收稿日期：2014-10-13.网络出版日期：2015-09-30. 于抽样的DBSCAN算法，D.Kellner提出基于格点基金项目：国家自然科学基金资助项目(61373126)：江苏省产学研联合创新资金-前瞻性联合研究基金资助项目(BY2013015-33). 的DBSCAN算法，旨在解决DBSCAN算法在内存占通信作者：王杰锋.E-mail:18352513420@163.com. 用，处理高维数据和密度分布不均数据聚类效果不第１１卷第１期智能系统学报Ｖｏｌ．１１ №．１２０１６年２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＦｅｂ．２０１６ＤＯＩ：１０．１１９９２．ｔｉｓ．２０１４１００２１网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１５０９３０．１５５７．０２８．ｈｔｍｌ一种改进的自适应快速ＡＦ⁃ＤＢＳＣＡＮ聚类算法周治平，王杰锋，朱书伟，孙子文（江南大学物联网工程学院，江苏无锡２１４１２２）摘要：基于密度的ＤＢＳＣＡＮ聚类算法可以识别任意形状簇，但存在全局参数Ｅｐｓ与ＭｉｎＰｔｓ的选择需人工干预，采用的区域查询方式过程复杂且易丢失对象等问题，提出了一种改进的参数自适应以及区域快速查询的密度聚类算法。根据ＫＮＮ分布与数学统计分析自适应计算出最优全局参数Ｅｐｓ与ＭｉｎＰｔｓ，避免聚类过程中的人工干预，实现了聚类过程的全自动化。通过改进种子代表对象选取方式进行区域查询，无需漏检操作，有效提高了聚类的效率。对４种典型数据集的密度聚类实验结果表明，本文算法使得聚类精度提高了８．８２５％，聚类的平均时间减少了０．９２ｓ。关键词：密度聚类；ＤＢＳＣＡＮ；区域查询；全局参数；ＫＮＮ分布；数学统计分析中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０１⁃００９３⁃０６中文引用格式：周治平，王杰锋，朱书伟，等．一种改进的自适应快速ＡＦ⁃ＤＢＳＣＡＮ聚类算法［Ｊ］．智能系统学报，２０１６，１１（１）：９３⁃９８．英文引用格式：ＺＨＯＵＺｈｉｐｉｎｇ，ＷＡＮＧＪｉｅｆｅｎｇ，ＺＨＵＳｈｕｗｅｉ，ｅｔａｌ．ＡｎｉｍｐｒｏｖｅｄａｄａｐｔｉｖｅａｎｄｆａｓｔＡＦ⁃ＤＢＳＣＡＮｃｌｕｓｔｅｒｉｎｇａｌｇｏ⁃ ｒｉｔｈｍ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（１）：９３⁃９８．ＡｎｉｍｐｒｏｖｅｄａｄａｐｔｉｖｅａｎｄｆａｓｔＡＦ⁃ＤＢＳＣＡＮｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍＺＨＯＵＺｈｉｐｉｎｇ，ＷＡＮＧＪｉｅｆｅｎｇ，ＺＨＵＳｈｕｗｅｉ，ＳＵＮＺｉｗｅｎ（ＳｃｈｏｏｌｏｆＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓＥｎｇｉｎｅｅｒｉｎｇ，ＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｘｉ２１４１２２，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｄｅｎｓｉｔｙ⁃ｂａｓｅｄＤＢＳＣＡＮｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｃａｎｉｄｅｎｔｉｆｙｃｌｕｓｔｅｒｓｗｉｔｈａｒｂｉｔｒａｒｙｓｈａｐｅ，ｈｏｗｅｖｅｒ，ｔｈｅｃｈｏｉｃｅｏｆｔｈｅｇｌｏｂａｌｐａｒａｍｅｔｅｒｓＥｐｓａｎｄＭｉｎＰｔｓｒｅｑｕｉｒｅｓｍａｎｕａｌｉｎｔｅｒｖｅｎｔｉｏｎ，ｔｈｅｐｒｏｃｅｓｓｏｆｒｅｇｉｏｎａｌｑｕｅｒｙｉｓｃｏｍ⁃ ｐｌｅｘａｎｄｌｏｓｅｓｏｂｊｅｃｔｓｅａｓｉｌｙ．Ｔｈｅｒｅｆｏｒｅ，ａｎｉｍｐｒｏｖｅｄｄｅｎｓｉｔｙｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｗｉｔｈａｄａｐｔｉｖｅｐａｒａｍｅｔｅｒｆｏｒｆａｓｔｒｅｇｉｏｎａｌｑｕｅｒｉｅｓｉｓｐｒｏｐｏｓｅｄ．ＵｓｉｎｇＫＮＮｄｉｓｔｒｉｂｕｔｉｏｎａｎｄｍａｔｈｅｍａｔｉｃａｌｓｔａｔｉｓｔｉｃａｌａｎａｌｙｓｉｓ，ｔｈｅｏｐｔｉｍａｌｇｌｏｂａｌｐａ⁃ ｒａｍｅｔｅｒｓＥｐｓａｎｄＭｉｎＰｔｓａｒｅａｄａｐｔｉｖｅｌｙｃａｌｃｕｌａｔｅｄ，ｓｏａｓｔｏａｖｏｉｄｍａｎｕａｌｉｎｔｅｒｖｅｎｔｉｏｎａｎｄｅｎａｂｌｅｆｕｌｌａｕｔｏｍａｔｉｏｎｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇｐｒｏｃｅｓｓ．Ｔｈｅｒｅｇｉｏｎａｌｑｕｅｒｙｉｓｃｏｎｄｕｃｔｅｄｂｙｉｍｐｒｏｖｉｎｇｔｈｅｓｅｌｅｃｔｉｏｎｍａｎｎｅｒｏｆｔｈｅｏｂｊｅｃｔ，ｗｈｉｃｈｉｓｒｅｐｒｅｓｅｎｔｅｄｂｙａｓｅｅｄａｎｄｔｈｕｓａｖｏｉｄｉｎｇｍａｎｕａｌｉｎｔｅｒｖｅｎｔｉｏｎ，ａｎｄｓｏｔｈｅｃｌｕｓｔｅｒｉｎｇｅｆｆｉｃｉｅｎｃｙｉｓｅｆｆｅｃｔｉｖｅｌｙｉｎ⁃ ｃｒｅａｓｅｄ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓｌｏｏｋｉｎｇａｔｄｅｎｓｉｔｙｃｌｕｓｔｅｒｉｎｇｏｆｆｏｕｒｔｙｐｉｃａｌｄａｔａｓｅｔｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｅｆｆｅｃｔｉｖｅｌｙｉｍｐｒｏｖｅｓｃｌｕｓｔｅｒｉｎｇａｃｃｕｒａｃｙｂｙ８．８２５％ａｎｄｒｅｄｕｃｅｓｔｈｅａｖｅｒａｇｅｔｉｍｅｏｆｃｌｕｓｔｅｒｉｎｇｂｙ０．９２ｓ．Ｋｅｙｗｏｒｄｓ：ｄｅｎｓｉｔｙｃｌｕｓｔｅｒｉｎｇ；ＤＢＳＣＡＮ；ｒｅｇｉｏｎｑｕｅｒｙ；ｇｌｏｂａｌｐａｒａｍｅｔｅｒｓ；ＫＮＮｄｉｓｔｒｉｂｕｔｉｏｎ；ｍａｔｈｅｍａｔｉｃａｌｓｔａｔｉｓ⁃ ｔｉｃｓａｎｄａｎａｌｙｓｉｓ收稿日期：２０１４⁃１０⁃１３．网络出版日期：２０１５⁃０９⁃３０．基金项目：国家自然科学基金资助项目（６１３７３１２６）；江苏省产学研联合创新资金－前瞻性联合研究基金资助项目（ＢＹ２０１３０１５⁃３３）．通信作者：王杰锋．Ｅ⁃ｍａｉｌ：１８３５２５１３４２０＠１６３．ｃｏｍ．数据挖掘是一种从大量数据中发现感兴趣信息的技术，聚类算法在数据挖掘应用中日益广泛。其中，基于密度的聚类算法可以发现任意形状的簇且能够较好地处理噪声数据，越来越受到广泛的关注。ＤＢＳＣＡＮ算法能够发现任意形状的簇，并有效识别离群点，但聚类之前需要人工选择Ｅｐｓ和ｍｉｎＰｔｓ２个参数。当数据量增大时，要求较大的内存支持，Ｉ／Ｏ消耗也很大；当空间聚类的密度不均匀，聚类间距离相差很大时，聚类质量较差［１⁃３］。针对ＤＢＳＣＡＮ算法在大型数据库与多密度数据集聚类精度低，计算复杂度高，全局参数人工选取等问题，已有很多学者进行了相关研究：Ｓ．Ｍｉｍａｒｏｇｌｕ等［４］提出对位向量使用裁剪技术，Ｈ．Ｊｉａｎｇ等［５］提出一种基于划分的ＤＢＳＣＡＮ算法，Ｂ．Ｂｏｒａｈ等［６］提出一种改进的基于抽样的ＤＢＳＣＡＮ算法，Ｄ．Ｋｅｌｌｎｅｒ［７］提出基于格点的ＤＢＳＣＡＮ算法，旨在解决ＤＢＳＣＡＮ算法在内存占用，处理高维数据和密度分布不均数据聚类效果不

向下翻页>>

点击下载：【机器学习】一种改进的自适应快速AF-DBSCAN聚类算法编辑部