第１１卷第２期智能系统学报Ｖｏｌ．１１ №．２２０

正在加载图片...

第11卷第2期智能系统学报 Vol.11 No.2 2016年4月 CAAI Transactions on Intelligent Systems Apr.2016 D0I:10.11992/is.201507013 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160315.1239.014.html 适合大规模数据集的增量式模糊聚类算法李滔，王士同 (江南大学数字媒体学院，江苏无锡214122) 摘要：FCPM算法已被成功地应用到模糊系统建模上，但其在某一类的聚类中心已知的大规模数据上的聚类性能较差。为了避免这个缺点，参照单程模糊c均值(SPFCM)聚类算法、在线模糊c均值(OFCM)聚类算法，提出了适合大规模数据集的增量式模糊聚类算法(Incremental fuzz四y(c+p)-means clustering,IFCM(c+p))。通过在每个数据块中使用FCPM算法进行聚类，把每个数据块的聚类中心及其附近的一些样本点加入到下一个数据块参与聚类，同时添加平衡因子以提高算法聚类性能。同SPFCM、OFCM以及rseFCM算法相比，IFCM(c+p)对初始聚类中心不敏感。实验表明在没有花费很多运行时间的情况下，IFCM(c+p)算法的聚类性能比SPFCM算法和rseFCM算法更具优势，因此该算法更适合处理某一类聚类中心已知的大规模数据集。关键词：增量式模糊聚类；FCPM;IFCM(c+p);平衡因子；大规模数据集中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2016)02-0188-12 中文引用格式：李滔，王士同.适合大规模数据集的增量式模糊聚类算法[J].智能系统学报，2016,11(2)：188-199. 英文引用格式：LITao,WANG Shitong.Incremental fuzzy(c+tp-means clustering for large data[J】.CAAI transactions on intelli- gent systems,2016,11(2):188-199. Incremental fuzzy (c+p)-means clustering for large data LI Tao,WANG Shitong (School of Digital Media,Jiangnan University,Wuxi 214122,China) Abstract:FCPM has been demonstrated to be successful in fuzzy system modeling,however,it will be ineffective for large data clustering tasks where the cluster centers of one class are known.In order to circumvent this draw- back,referring to single-pass fuzzy c-means (SPFCM)clustering algorithm and online fuzzy c-means (OFCM) clustering algorithm,the incremental fuzzy clustering algorithm for large data called IFCM(c+p)is proposed in this paper.FCPM algorithm is used to cluster for each data block at first,and then the clustering centers of data block and some of the sample points being near them are joined into the next block to be clustered,meanwhile the bal- ance factor is given to enhance the clustering performance.In contrast to SPFCM,OFCM and rseFCM,IFCM(c+ p)is not sensitive to the initial cluster centers.The experiments indicate the proposed clustering algorithm IFCM(c +p)is competitive to the clustering algorithms SPFCM and rseFCM in the clustering performance without the loss of running time a lot,hence it is especially suitable for large data clustering tasks where the cluster centers of one class are known. Keywords:incremental fuzzy clustering;FCPM;IFCM(c+p);balance factor;large data 聚类就是将物理或抽象的对象按照自己的某些属性聚集成类的过程，并尽可能使得类（或者簇）之间对象的差异程度最大，而类内（或者簇内）的相似收稿日期：2015-07-06.网络出版日期：2016-03-15 基金项目：国家自然科学基金项目(61272210). 程度达到最大。聚类过程没有先验知识指导，仅凭通信作者：李滔.E-mail:chasingdreaml19@163.com. 对象间的相似程度作为类属划分的准则，是无监督第１１卷第２期智能系统学报Ｖｏｌ．１１ №．２２０１６年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０７０１３网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０３１５．１２３９．０１４．ｈｔｍｌ适合大规模数据集的增量式模糊聚类算法李滔，王士同（江南大学数字媒体学院，江苏无锡２１４１２２）摘要：ＦＣＰＭ算法已被成功地应用到模糊系统建模上，但其在某一类的聚类中心已知的大规模数据上的聚类性能较差。为了避免这个缺点，参照单程模糊ｃ均值（ＳＰＦＣＭ）聚类算法、在线模糊ｃ均值（ＯＦＣＭ）聚类算法，提出了适合大规模数据集的增量式模糊聚类算法（Ｉｎｃｒｅｍｅｎｔａｌｆｕｚｚｙ（ｃ＋ｐ）⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇ，ＩＦＣＭ（ｃ＋ｐ））。通过在每个数据块中使用ＦＣＰＭ算法进行聚类，把每个数据块的聚类中心及其附近的一些样本点加入到下一个数据块参与聚类，同时添加平衡因子以提高算法聚类性能。同ＳＰＦＣＭ、ＯＦＣＭ以及ｒｓｅＦＣＭ算法相比，ＩＦＣＭ（ｃ＋ｐ）对初始聚类中心不敏感。实验表明在没有花费很多运行时间的情况下，ＩＦＣＭ（ｃ＋ｐ）算法的聚类性能比ＳＰＦＣＭ算法和ｒｓｅＦＣＭ算法更具优势，因此该算法更适合处理某一类聚类中心已知的大规模数据集。关键词：增量式模糊聚类；ＦＣＰＭ；ＩＦＣＭ（ｃ＋ｐ）；平衡因子；大规模数据集中图分类号：ＴＰ３９１．４文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０２⁃０１８８⁃１２中文引用格式：李滔，王士同．适合大规模数据集的增量式模糊聚类算法［Ｊ］．智能系统学报，２０１６，１１（２）：１８８⁃１９９．英文引用格式：ＬＩＴａｏ，ＷＡＮＧＳｈｉｔｏｎｇ．Ｉｎｃｒｅｍｅｎｔａｌｆｕｚｚｙ（ｃ＋ｐ）⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇｆｏｒｌａｒｇｅｄａｔａ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉ⁃ ｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（２）：１８８⁃１９９．Ｉｎｃｒｅｍｅｎｔａｌｆｕｚｚｙ（ｃ＋ｐ） ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇｆｏｒｌａｒｇｅｄａｔａＬＩＴａｏ，ＷＡＮＧＳｈｉｔｏｎｇ（ＳｃｈｏｏｌｏｆＤｉｇｉｔａｌＭｅｄｉａ，ＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｘｉ２１４１２２，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＦＣＰＭｈａｓｂｅｅｎｄｅｍｏｎｓｔｒａｔｅｄｔｏｂｅｓｕｃｃｅｓｓｆｕｌｉｎｆｕｚｚｙｓｙｓｔｅｍｍｏｄｅｌｉｎｇ，ｈｏｗｅｖｅｒ，ｉｔｗｉｌｌｂｅｉｎｅｆｆｅｃｔｉｖｅｆｏｒｌａｒｇｅｄａｔａｃｌｕｓｔｅｒｉｎｇｔａｓｋｓｗｈｅｒｅｔｈｅｃｌｕｓｔｅｒｃｅｎｔｅｒｓｏｆｏｎｅｃｌａｓｓａｒｅｋｎｏｗｎ．Ｉｎｏｒｄｅｒｔｏｃｉｒｃｕｍｖｅｎｔｔｈｉｓｄｒａｗ⁃ ｂａｃｋ，ｒｅｆｅｒｒｉｎｇｔｏｓｉｎｇｌｅ⁃ｐａｓｓｆｕｚｚｙｃ⁃ｍｅａｎｓ（ＳＰＦＣＭ）ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍａｎｄｏｎｌｉｎｅｆｕｚｚｙｃ⁃ｍｅａｎｓ（ＯＦＣＭ）ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ，ｔｈｅｉｎｃｒｅｍｅｎｔａｌｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｌａｒｇｅｄａｔａｃａｌｌｅｄＩＦＣＭ（ｃ＋ｐ）ｉｓｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒ．ＦＣＰＭａｌｇｏｒｉｔｈｍｉｓｕｓｅｄｔｏｃｌｕｓｔｅｒｆｏｒｅａｃｈｄａｔａｂｌｏｃｋａｔｆｉｒｓｔ，ａｎｄｔｈｅｎｔｈｅｃｌｕｓｔｅｒｉｎｇｃｅｎｔｅｒｓｏｆｄａｔａｂｌｏｃｋａｎｄｓｏｍｅｏｆｔｈｅｓａｍｐｌｅｐｏｉｎｔｓｂｅｉｎｇｎｅａｒｔｈｅｍａｒｅｊｏｉｎｅｄｉｎｔｏｔｈｅｎｅｘｔｂｌｏｃｋｔｏｂｅｃｌｕｓｔｅｒｅｄ，ｍｅａｎｗｈｉｌｅｔｈｅｂａｌ⁃ ａｎｃｅｆａｃｔｏｒｉｓｇｉｖｅｎｔｏｅｎｈａｎｃｅｔｈｅｃｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅ．ＩｎｃｏｎｔｒａｓｔｔｏＳＰＦＣＭ，ＯＦＣＭａｎｄｒｓｅＦＣＭ，ＩＦＣＭ（ｃ＋ｐ）ｉｓｎｏｔｓｅｎｓｉｔｉｖｅｔｏｔｈｅｉｎｉｔｉａｌｃｌｕｓｔｅｒｃｅｎｔｅｒｓ．ＴｈｅｅｘｐｅｒｉｍｅｎｔｓｉｎｄｉｃａｔｅｔｈｅｐｒｏｐｏｓｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍＩＦＣＭ（ｃ＋ｐ）ｉｓｃｏｍｐｅｔｉｔｉｖｅｔｏｔｈｅｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓＳＰＦＣＭａｎｄｒｓｅＦＣＭｉｎｔｈｅｃｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｗｉｔｈｏｕｔｔｈｅｌｏｓｓｏｆｒｕｎｎｉｎｇｔｉｍｅａｌｏｔ，ｈｅｎｃｅｉｔｉｓｅｓｐｅｃｉａｌｌｙｓｕｉｔａｂｌｅｆｏｒｌａｒｇｅｄａｔａｃｌｕｓｔｅｒｉｎｇｔａｓｋｓｗｈｅｒｅｔｈｅｃｌｕｓｔｅｒｃｅｎｔｅｒｓｏｆｏｎｅｃｌａｓｓａｒｅｋｎｏｗｎ．Ｋｅｙｗｏｒｄｓ：ｉｎｃｒｅｍｅｎｔａｌｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇ；ＦＣＰＭ；ＩＦＣＭ（ｃ＋ｐ）；ｂａｌａｎｃｅｆａｃｔｏｒ；ｌａｒｇｅｄａｔａ收稿日期：２０１５⁃０７⁃０６．网络出版日期：２０１６⁃０３⁃１５．基金项目：国家自然科学基金项目（６１２７２２１０）．通信作者：李滔．Ｅ⁃ｍａｉｌ：ｃｈａｓｉｎｇｄｒｅａｍ１１９＠１６３．ｃｏｍ．聚类就是将物理或抽象的对象按照自己的某些属性聚集成类的过程，并尽可能使得类（或者簇）之间对象的差异程度最大，而类内（或者簇内）的相似程度达到最大。聚类过程没有先验知识指导，仅凭对象间的相似程度作为类属划分的准则，是无监督

向下翻页>>

点击下载：【机器学习】适合大规模数据集的增量式模糊聚类算法编辑部