【机器学习】一种基于模板缩减的新型粒子群遗传聚类算法

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：760.53KB

第11卷第4期智能系统学报 Vol.11 No.4 2016年8月 CAAI Transactions on Intelligent Systems Aug.2016 D0I:10.11992.tis.201507026 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.tp.20160315.1051.006.html 一种基于模板缩减的新型粒子群遗传聚类算法贾旋，周治平 (江南大学物联网工程学院，江苏无锡214122) 摘要：针对群聚类算法的速度问题，提出一种基于模板缩减法加速的新型粒子群广义遗传(PS0-GG)聚类算法。为了充分地同模板缩减法相结合，该算法采用一种广义遗传算法与粒子群算法串行使用，既能增加种群多样性，又能对模板缩减操作中需要保护的模板进行储存。同时，对每个周期替换粒子数量采用一种递增策略来充分吸取粒子群快速寻优和遗传算法搜索空间大的特性。实验表明：对8个数据集进行测试，该算法能够在基本不降低聚类品质的基础上，显著地缩短聚类时间。关键词：模板缩减：粒子群：广义遗传算法：聚类中图分类号：TP18文献标志码：A文章编号：1673-4785(2016)04-0561-06 中文引用格式：贾旋，周治平.一种基于模板缩减的新型粒子群遗传聚类算法[J].智能系统学报，2016,11(4)：561566 英文引用格式：JIA Xuan,ZHOU Zhiping.A novel PSO-GGA for clustering based on pattern reduction[J小.CAAI Transactions on Intelligent Systems,2016,11(4):561-566. A novel PSO-GGA for clustering based on pattern reduction JIA Xuan,ZHOU Zhiping (School of Internet of Things Engineering.Jiangnan University,Wuxi 214122,China) Abstract:To address the flaws in clustering speed,this paper proposes a novel PSO-GGA clustering algorithm based on pattern reduction.To fully combine the pattern reduction method,the algorithm uses a generalized genetic algorithm in serial to improve the particle swarm optimization algorithm.This can increase the diversity of samples and protect patterns that need to be saved for compression.At the same time,to determine the number of particles needed to replace the poor particles an incremental strategy is employed.This fully embodies the PSO's ability for rapid search optimization and the genetic algorithm's advantage of a large search space.The experimental results show that the clustering time only required 20 percent compared to the original algorithm without showing any obvi- ous decline in accuracy. Keywords:pattern reduction;PSO;generalized genetic algorithm;clustering 聚类是将一批现实或抽象的数据对象分组成为形状的簇、处理高维数据等能力。而对于这些问题与多个类或簇的过程。随着计算机技术、网络技术和信要求，传统的聚类分析方法已然显得无力。息技术的迅速发展，庞大、海量、复杂、高维的数据信为解决这些问题，研究者们尝试引入各种群智息充斥在当前世界的各个领域。如何处理这些数据能算法，其中粒子群优化算法(PS0)逐渐引起人们并从中快速、准确地提取有益的信息，越来越引起人的注意，并在聚类分析中取得了比传统方法更好的们的普遍关注。面对这些大规模复杂数据，聚类算法效果。从粒子群算法被提出用来解决聚类问题开需要具有可伸缩性、处理不同类型的数据、发现任意始，大批学者开展了对它的研究，如文献[1]提出了收稿日期：2015-07-29.网络出版日期：2016-03-15. 一种结合自适应惯性权重参数和无线折叠迭代混沌基金项目：江苏省自然科学基金项目(BK20131107);江苏省产学研联映射的混沌粒子群的模糊聚类方法；文献[2]中结合创新资金-前瞻性联合研究项目(BY2013015-33). 通信作者：贾旋.E-mail:6141905027@vip-jiangnan.cd山.cn. 合Newton移动规则提出了重心加速粒子群算法；文

第１１卷第４期智能系统学报Ｖｏｌ．１１ №．４２０１６年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１６ＤＯＩ：１０．１１９９２．ｔｉｓ．２０１５０７０２６网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１６０３１５．１０５１．００６．ｈｔｍｌ一种基于模板缩减的新型粒子群遗传聚类算法贾旋，周治平（江南大学物联网工程学院，江苏无锡２１４１２２）摘要：针对群聚类算法的速度问题，提出一种基于模板缩减法加速的新型粒子群广义遗传（ＰＳＯ⁃ＧＧＡ）聚类算法。为了充分地同模板缩减法相结合，该算法采用一种广义遗传算法与粒子群算法串行使用，既能增加种群多样性，又能对模板缩减操作中需要保护的模板进行储存。同时，对每个周期替换粒子数量采用一种递增策略来充分吸取粒子群快速寻优和遗传算法搜索空间大的特性。实验表明：对８个数据集进行测试，该算法能够在基本不降低聚类品质的基础上，显著地缩短聚类时间。关键词：模板缩减；粒子群；广义遗传算法；聚类中图分类号：ＴＰ１８文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０４⁃０５６１⁃０６中文引用格式：贾旋，周治平．一种基于模板缩减的新型粒子群遗传聚类算法［Ｊ］．智能系统学报，２０１６，１１（４）：５６１⁃５６６．英文引用格式：ＪＩＡＸｕａｎ，ＺＨＯＵＺｈｉｐｉｎｇ．ＡｎｏｖｅｌＰＳＯ⁃ＧＧＡｆｏｒｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎｐａｔｔｅｒｎｒｅｄｕｃｔｉｏｎ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（４）：５６１⁃５６６．ＡｎｏｖｅｌＰＳＯ⁃ＧＧＡｆｏｒｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎｐａｔｔｅｒｎｒｅｄｕｃｔｉｏｎＪＩＡＸｕａｎ，ＺＨＯＵＺｈｉｐｉｎｇ（ＳｃｈｏｏｌｏｆＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓＥｎｇｉｎｅｅｒｉｎｇ，ＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｘｉ２１４１２２，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｏａｄｄｒｅｓｓｔｈｅｆｌａｗｓｉｎｃｌｕｓｔｅｒｉｎｇｓｐｅｅｄ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｎｏｖｅｌＰＳＯ⁃ＧＧＡｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｐａｔｔｅｒｎｒｅｄｕｃｔｉｏｎ．Ｔｏｆｕｌｌｙｃｏｍｂｉｎｅｔｈｅｐａｔｔｅｒｎｒｅｄｕｃｔｉｏｎｍｅｔｈｏｄ，ｔｈｅａｌｇｏｒｉｔｈｍｕｓｅｓａｇｅｎｅｒａｌｉｚｅｄｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍｉｎｓｅｒｉａｌｔｏｉｍｐｒｏｖｅｔｈｅｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍ．Ｔｈｉｓｃａｎｉｎｃｒｅａｓｅｔｈｅｄｉｖｅｒｓｉｔｙｏｆｓａｍｐｌｅｓａｎｄｐｒｏｔｅｃｔｐａｔｔｅｒｎｓｔｈａｔｎｅｅｄｔｏｂｅｓａｖｅｄｆｏｒｃｏｍｐｒｅｓｓｉｏｎ．Ａｔｔｈｅｓａｍｅｔｉｍｅ，ｔｏｄｅｔｅｒｍｉｎｅｔｈｅｎｕｍｂｅｒｏｆｐａｒｔｉｃｌｅｓｎｅｅｄｅｄｔｏｒｅｐｌａｃｅｔｈｅｐｏｏｒｐａｒｔｉｃｌｅｓａｎｉｎｃｒｅｍｅｎｔａｌｓｔｒａｔｅｇｙｉｓｅｍｐｌｏｙｅｄ．ＴｈｉｓｆｕｌｌｙｅｍｂｏｄｉｅｓｔｈｅＰＳＯ’ｓａｂｉｌｉｔｙｆｏｒｒａｐｉｄｓｅａｒｃｈｏｐｔｉｍｉｚａｔｉｏｎａｎｄｔｈｅｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ’ ｓａｄｖａｎｔａｇｅｏｆａｌａｒｇｅｓｅａｒｃｈｓｐａｃｅ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｃｌｕｓｔｅｒｉｎｇｔｉｍｅｏｎｌｙｒｅｑｕｉｒｅｄ２０ｐｅｒｃｅｎｔｃｏｍｐａｒｅｄｔｏｔｈｅｏｒｉｇｉｎａｌａｌｇｏｒｉｔｈｍｗｉｔｈｏｕｔｓｈｏｗｉｎｇａｎｙｏｂｖｉ⁃ ｏｕｓｄｅｃｌｉｎｅｉｎａｃｃｕｒａｃｙ．Ｋｅｙｗｏｒｄｓ：ｐａｔｔｅｒｎｒｅｄｕｃｔｉｏｎ；ＰＳＯ；ｇｅｎｅｒａｌｉｚｅｄｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ；ｃｌｕｓｔｅｒｉｎｇ收稿日期：２０１５－０７－２９．网络出版日期：２０１６－０３－１５．基金项目：江苏省自然科学基金项目（ＢＫ２０１３１１０７）；江苏省产学研联合创新资金－前瞻性联合研究项目（ＢＹ２０１３０１５⁃３３）．通信作者：贾旋．Ｅ⁃ｍａｉｌ：６１４１９０５０２７＠ｖｉｐ．ｊｉａｎｇｎａｎ．ｅｄｕ．ｃｎ．聚类是将一批现实或抽象的数据对象分组成为多个类或簇的过程。随着计算机技术、网络技术和信息技术的迅速发展，庞大、海量、复杂、高维的数据信息充斥在当前世界的各个领域。如何处理这些数据并从中快速、准确地提取有益的信息，越来越引起人们的普遍关注。面对这些大规模复杂数据，聚类算法需要具有可伸缩性、处理不同类型的数据、发现任意形状的簇、处理高维数据等能力。而对于这些问题与要求，传统的聚类分析方法已然显得无力。为解决这些问题，研究者们尝试引入各种群智能算法，其中粒子群优化算法（ＰＳＯ）逐渐引起人们的注意，并在聚类分析中取得了比传统方法更好的效果。从粒子群算法被提出用来解决聚类问题开始，大批学者开展了对它的研究，如文献［１］提出了一种结合自适应惯性权重参数和无线折叠迭代混沌映射的混沌粒子群的模糊聚类方法；文献［２］中结合Ｎｅｗｔｏｎ移动规则提出了重心加速粒子群算法；文

.562 智能系统学报第11卷献[3]提出一种多优量子粒子群算法，以解决基因 v1=wvk+ci(Pid -xg)+c2r2(Pd-x)(3) 表达数据的聚类问题：文献[4]利用一种交互学习 Xk+1=Xk+V+1 (4) 策略在两个种群中确定学习种群与被学习种群来增粒子通过不断地学习更新，最终飞至解空间中加粒子群算法的全局搜索能力：文献[5]将基于K 最优解所在的位置，搜索过程结束，最后输出的P 均值的粒子群聚类算法应用于无线传感网能源节约就是全局最优解。的管理策略中；文献[6]将粒子群聚类算法应用于在粒子群聚类的每个周期中，粒子调整完速度多级阈值转化法中，以解决传统计算复杂度指数性和位置后，还需要通过最近邻聚类对模板进行分类，增长问题。从而得到目标函数中的参数为”，。对于最近邻聚随着研究的不断深入，基于粒子群的聚类算法类而言，首先需要计算样本到每个簇心的距离，再取越来越成熟、可伸缩性越来越强、可处理的数据类型最小值以判断出模板所属簇，这一步需要耗费大量也越来也多、使用场合越来越广。同时，聚类精度也时间。但是，在不断的搜索过程中，必然会存在一些得到了极大的提高，已基本达到临界值，很难再有较 “静态模板”在搜索前期就处于“最优”状态，即在之大的提升。但是，这些研究也大都着眼于此，少有文后搜索过程中不改变其所属簇的模板。如果找到这献以提升聚类效率、降低聚类时间为目标，以期在处些“静态模板”，并将其移除以避免再次的最近邻聚理大规模数据时也能将聚类时间控制在一个可接受类就可以节省大量的聚类时间。的范围内。以上述文献为例，都是结合了新型策略 1.2模板缩减的粒子群聚类算法，以提高聚类精度、扩大适应场景模板缩减就是发现并压缩静态模板刀的过程，为目标，都未考虑聚类时间。针对这一问题，本文采而所谓的静态模板就是那些在之后的聚类过程中基用一种基于粒子群的模板缩减4法，用来发现并移本不会改变其所在簇的模板。这种模板缩减的方除那些在之后的聚类周期中不会或者小概率会改变法，可分为两步：静态模板检测和静态模板压缩。簇的模板，以此来提升聚类效率，减小聚类算法周期 1.2.1静态模板检测的执行时间。但是在此过程中不可避免地会使聚类文献[8]采用两种方法结合的形式来检测模板精度有所下降，对此本文采用一种能够充分结合该是否有着大概率在下一周期聚类时不改变其所在簇：模板缩减法的广义遗传算法来提升降低的精度。以 1)模板到其簇心的距离在一个很小的范围内：2)在几期在基本不降低聚类品质的前提下，缩短大量的聚个连续的迭代周期内不改变簇的模板。类时间。 1)通过判断模板到簇心的距离来确定静态模 1基于模板缩减的粒子遗传聚类算法板。准确地说，该方法只认定每个簇中到簇心的距离小于y的模板是静态的。 1.1 粒子群聚类算法 Y=u±bo (5) 在粒子群聚类算法中，每一个聚类解可以看做搜式中：μ和σ分别表示簇C中所有模板到簇心的平索空间中的一个粒子。首先，生成初始群体，即在可均距离和标准偏差。行解空间中随机初始化m个粒子，每个粒子代表通常来说，y不仅可以用来作为一个阈值来筛种可行解，并由目标函数式(1)确定一个适应度值。选静态模板，而且还是一个用来平衡准确度和算法 F(X,C)=22w2 收敛速度的参数。 (1) 2)通过判断模板连续保持在相同簇的次数S,来 (1,xC 0= (2) 确定静态模板。直观上来讲，一个静态模板连续保持 0,x:C 在同一个簇的迭代周期数S越大，则该模板是静态式中：n为数据个数，k为聚簇的个数，d为数据的维模板的可能性就越高。而设定多大的S作为阀值数，x:为第i个数据点，：为第i个簇C:的中心，0 就取决于聚类算法的收敛速度或者是最终解的质量。为数据x:对簇C的隶属度值。不难发现，对于方法2，需要对周期的每个粒子每个粒子都将在解空间中运动，并由运动速度参数样本分类数据进行储存，才可以计算连续次数决定其飞行方向和距离。粒子通过式(3)、(4)不断 S。假设S=3,就至少需要参考之前两个迭代周调整自己的速度V:和位置X,来搜索新解。同时每期中的样本分类数据，才可以判断出哪些模板可视为个粒子自己搜索到的最优解Pa,以及整个粒子群 “静态模板”。对于文献[8]的方法来说，S的储存不经历过的最优位置P。止麻烦而且对于算法而言没有任何帮助，只会增加算

献［３］提出一种多优量子粒子群算法，以解决基因表达数据的聚类问题；文献［４］利用一种交互学习策略在两个种群中确定学习种群与被学习种群来增加粒子群算法的全局搜索能力；文献［５］将基于Ｋ均值的粒子群聚类算法应用于无线传感网能源节约的管理策略中；文献［６］将粒子群聚类算法应用于多级阈值转化法中，以解决传统计算复杂度指数性增长问题。随着研究的不断深入，基于粒子群的聚类算法越来越成熟、可伸缩性越来越强、可处理的数据类型也越来也多、使用场合越来越广。同时，聚类精度也得到了极大的提高，已基本达到临界值，很难再有较大的提升。但是，这些研究也大都着眼于此，少有文献以提升聚类效率、降低聚类时间为目标，以期在处理大规模数据时也能将聚类时间控制在一个可接受的范围内。以上述文献为例，都是结合了新型策略的粒子群聚类算法，以提高聚类精度、扩大适应场景为目标，都未考虑聚类时间。针对这一问题，本文采用一种基于粒子群的模板缩减［４］法，用来发现并移除那些在之后的聚类周期中不会或者小概率会改变簇的模板，以此来提升聚类效率，减小聚类算法周期的执行时间。但是在此过程中不可避免地会使聚类精度有所下降，对此本文采用一种能够充分结合该模板缩减法的广义遗传算法来提升降低的精度。以期在基本不降低聚类品质的前提下，缩短大量的聚类时间。１基于模板缩减的粒子遗传聚类算法１．１粒子群聚类算法在粒子群聚类算法中，每一个聚类解可以看做搜索空间中的一个粒子。首先，生成初始群体，即在可行解空间中随机初始化ｍ个粒子，每个粒子代表一种可行解，并由目标函数式（１）确定一个适应度值。Ｆ（Ｘ，Ｃ）＝ ∑ ｎｉ＝１ ∑ ｋｊ＝１ｗｉｊ ∑ Ｄｖ＝１（ｘｉｖ－ｚｉｖ）２（１）ｗｉｊ＝１，ｘｉ ∈ Ｃｊ０，ｘｉ ∉ Ｃｊ { （２）式中：ｎ为数据个数，ｋ为聚簇的个数，ｄ为数据的维数，ｘｉ为第ｉ个数据点，ｚｉ为第ｉ个簇Ｃｉ的中心，ｗｉｊ为数据ｘｉ对簇Ｃｊ的隶属度值。每个粒子都将在解空间中运动，并由运动速度决定其飞行方向和距离。粒子通过式（３）、（４）不断调整自己的速度Ｖｉ和位置Ｘｉ来搜索新解。同时每个粒子自己搜索到的最优解Ｐｉｄ，以及整个粒子群经历过的最优位置Ｐｇｄ。ｖｋ＋１＝ｗｖｋ＋ｃ１ｒ１（Ｐｉｄ－ｘｋ）＋ｃ２ｒ２（Ｐｇｄ－ｘｋ）（３）ｘｋ＋１＝ｘｋ＋ｖｋ＋１（４）粒子通过不断地学习更新，最终飞至解空间中最优解所在的位置，搜索过程结束，最后输出的Ｐｇｄ就是全局最优解。在粒子群聚类的每个周期中，粒子调整完速度和位置后，还需要通过最近邻聚类对模板进行分类，从而得到目标函数中的参数为ｗｉｊ。对于最近邻聚类而言，首先需要计算样本到每个簇心的距离，再取最小值以判断出模板所属簇，这一步需要耗费大量时间。但是，在不断的搜索过程中，必然会存在一些 “静态模板”在搜索前期就处于“最优”状态，即在之后搜索过程中不改变其所属簇的模板。如果找到这些“静态模板”，并将其移除以避免再次的最近邻聚类就可以节省大量的聚类时间。１．２模板缩减模板缩减就是发现并压缩静态模板［７］的过程，而所谓的静态模板就是那些在之后的聚类过程中基本不会改变其所在簇的模板。这种模板缩减的方法，可分为两步：静态模板检测和静态模板压缩。１．２．１静态模板检测文献［８］采用两种方法结合的形式来检测模板是否有着大概率在下一周期聚类时不改变其所在簇：１）模板到其簇心的距离在一个很小的范围内；２）在几个连续的迭代周期内不改变簇的模板。１）通过判断模板到簇心的距离来确定静态模板。准确地说，该方法只认定每个簇中到簇心的距离小于 γ 的模板是静态的。 γ ＝ μ ± ｂσ （５）式中： μ 和 σ 分别表示簇Ｃｉ中所有模板到簇心的平均距离和标准偏差。通常来说， γ 不仅可以用来作为一个阈值来筛选静态模板，而且还是一个用来平衡准确度和算法收敛速度的参数。２）通过判断模板连续保持在相同簇的次数Ｓｉｊ来确定静态模板。直观上来讲，一个静态模板连续保持在同一个簇的迭代周期数Ｓｍａｘ越大，则该模板是静态模板的可能性就越高。而设定多大的Ｓｍａｘ作为阀值就取决于聚类算法的收敛速度或者是最终解的质量。不难发现，对于方法２，需要对周期的每个粒子参数样本分类数据进行储存，才可以计算连续次数Ｓｉｊ。假设Ｓｍａｘ＝３，就至少需要参考之前两个迭代周期中的样本分类数据，才可以判断出哪些模板可视为 “静态模板”。对于文献［８］的方法来说，Ｓｉｊ的储存不止麻烦而且对于算法而言没有任何帮助，只会增加算 ·５６２· 智能系统学报第１１卷

第4期贾旋，等：一种基于模板缩减的新型粒子群遗传聚类算法 ·563· 法的复杂度。但是本文基于广义遗传算法的粒子群自然演化中，近亲繁殖往往不利于种群的繁荣，而远聚类算法就可以很好地解决这一问题。对于广义遗亲杂交往往会培育出更优良的品种：变异作为一种传算法而言，本身就有保护分类数据的特点，而且还重要的进化方式，是保持物种多样性的必要手段。可以通过遗传算法来增加其样本多样性。因此，本文因此，我们首先对每个迭代周期产生的分类数据进算法不仅可以对分类的数据用一种新型的方式进行行储存，以扩大遗传种群的数量，因为只有非常大的储存，还可以很好地利用这些数据产生新的遗传粒子种群量才能更好地进行远亲杂交。再从中选取一组以替换适应值低的PSO粒子。种群粒子与当前的“优质”粒子进行交叉、变异，生 1.2.2静态模板压缩成新的粒子。此处，通过系数！来避免“近亲”繁殖，静态模板压缩操作是为了记录、传送静态模板即不选择近代生成的种群粒子。该算法通过不断地的信息给后期的其他操作，以确保没有多余的计算补充、记录、生成新的种群粒子，在不断寻优的过程被执行。该操作的数学表达形式如式(6)所示。中，也增加了粒子群聚类的样本多样性。 x=(X UT))/R (6) 1.4基于模板缩减的新型粒子群遗传聚类算法式中：X表示所有输入模板集合，Q表示所有静态该算法创新性地将一种修改后的新型广义遗传模板集合，g表示静态模板的压缩模板集合，x表示算法同基于模板缩减的粒子群聚类算法相结合，在充输入模板的压缩模板集合。分同模板缩减相结合的同时，也提高了样本多样性。基于模板缩减法的粒子群聚类，每个迭代周期基于模板缩减的粒子群聚类算法，其对于初始只需要对属于x的模板执行聚类操作。这种方式，中心的敏感性不仅没有降低反而会更加敏感，将严可以确保Q中的静态模板不被重复计算。重导致聚类精度的不稳定。本文通过选取10%的样本进行简单的k-means聚类，来初始簇心。同时，对于静态压缩模板9，本文提出一种新型的编为了更好地提高由模板缩减而降低的聚类精度，本码方式，该方法可以很好地保存输入模板的信息，同文在聚类迭代中并行k-means,即在重新分配完粒时也可以完美地同复合了k-means的粒子群聚类相子后，使用式(8)来重新计算簇心。结合。其中，每个静态压缩模板g中包含两种信息，分 6=立0/20g,i=1,2…,k (8) =1 j=1 别为属于簇C,的静态模板的平均特征值aw:,如式考虑到迭代前期粒子群聚类不需要太多的遗传 (7)所示，和属于簇C的静态模板的个数s:。粒子，而后期特别是当粒子群聚类陷入局部最优时 am,=∑，/l,l,,ec:and,∈R (7) 往往需要较大量的遗传粒子来增加其调出陷阱的能 1.3广义遗传算法力。因此，对替换粒子量C采用一种递增策略来解采用模板压缩方法减少计算时间的过程中，不决这一矛盾。可避免地会导致聚类精度的下降，也就是说会比传 C=+(1-prN/PN)x (9) 统PS0聚类更容易陷入“早熟”收敛。文献[8]采式中：pW代表压缩后模板的数量，PN表示模板的用一种“多星”操作来解决这一问题，即通过随机选总数量。中。表示没有模板缩减时，最小替换个数；取种群中粒子相互交叉产生新的粒子，类似于一种少表示最大可以增加的替换个数；简易的“遗传”算法。但是，在粒子群寻优的过程该聚类算法的实现过程如下：中，所有粒子都不断地向着个体最优解和全局最优 Begin 解靠近。也就是说，在迭代了许多代后，整个种群可 Initialize 能已经大部分收敛，但是还没有得到稳定的全局最输入样本数据集X,聚类数据k: 优解。此时整个种群的平均适应度值较高，而且最设置粒子群数m,替换粒子数C; 优个体的适应度值与全体适应度均值间的差别不选取10%的X,初始化种群P(0): 大，即使在种群中随机选取粒子进行交叉产生新的 while不满足停止准则粒子，也没有足够的力量推动种群的寻优找到最优根据式(1)计算每个粒子适应度解，从而陷入到“局部”最优。更新Pa和P: 为了解决这一问题，本文更好地吸取了遗传算 fori=1:M-C 法的优点，修改了一种广义遗传算法来增加样本多根据式(3)、(4)更新粒子i的速度和位置：样性，提高算法跳出“局部”最优的能力。考虑到在 for每个属于粒子i数据集x的样本

法的复杂度。但是本文基于广义遗传算法的粒子群聚类算法就可以很好地解决这一问题。对于广义遗传算法而言，本身就有保护分类数据的特点，而且还可以通过遗传算法来增加其样本多样性。因此，本文算法不仅可以对分类的数据用一种新型的方式进行储存，还可以很好地利用这些数据产生新的遗传粒子以替换适应值低的ＰＳＯ粒子。１．２．２静态模板压缩静态模板压缩操作是为了记录、传送静态模板的信息给后期的其他操作，以确保没有多余的计算被执行。该操作的数学表达形式如式（６）所示。ｘ＝（Ｘ ∪ {ｒ} ）／Ｒ（６）式中：Ｘ表示所有输入模板集合，Ｑ表示所有静态模板集合，ｑ－表示静态模板的压缩模板集合，ｘ－表示输入模板的压缩模板集合。基于模板缩减法的粒子群聚类，每个迭代周期只需要对属于ｘ－的模板执行聚类操作。这种方式，可以确保Ｑ中的静态模板不被重复计算。对于静态压缩模板ｑ－，本文提出一种新型的编码方式，该方法可以很好地保存输入模板的信息，同时也可以完美地同复合了ｋ⁃ｍｅａｎｓ的粒子群聚类相结合。其中，每个静态压缩模板ｑ－中包含两种信息，分别为属于簇Ｃｉ的静态模板的平均特征值ａｖｉ，如式（７）所示，和属于簇Ｃｉ的静态模板的个数ｓｉ。ａｖｉ＝ ∑ｚｐ／ｚｐ，ｚｐ ∈ ｃｉａｎｄｚｐ ∈ Ｒ（７）１．３广义遗传算法采用模板压缩方法减少计算时间的过程中，不可避免地会导致聚类精度的下降，也就是说会比传统ＰＳＯ聚类更容易陷入“早熟” 收敛。文献［８］采用一种“多星”操作来解决这一问题，即通过随机选取种群中粒子相互交叉产生新的粒子，类似于一种简易的“遗传” 算法。但是，在粒子群寻优的过程中，所有粒子都不断地向着个体最优解和全局最优解靠近。也就是说，在迭代了许多代后，整个种群可能已经大部分收敛，但是还没有得到稳定的全局最优解。此时整个种群的平均适应度值较高，而且最优个体的适应度值与全体适应度均值间的差别不大，即使在种群中随机选取粒子进行交叉产生新的粒子，也没有足够的力量推动种群的寻优找到最优解，从而陷入到“局部”最优。为了解决这一问题，本文更好地吸取了遗传算法的优点，修改了一种广义遗传算法来增加样本多样性，提高算法跳出“局部”最优的能力。考虑到在自然演化中，近亲繁殖往往不利于种群的繁荣，而远亲杂交往往会培育出更优良的品种；变异作为一种重要的进化方式，是保持物种多样性的必要手段。因此，我们首先对每个迭代周期产生的分类数据进行储存，以扩大遗传种群的数量，因为只有非常大的种群量才能更好地进行远亲杂交。再从中选取一组种群粒子与当前的“优质”粒子进行交叉、变异，生成新的粒子。此处，通过系数ｌ来避免“近亲”繁殖，即不选择近代生成的种群粒子。该算法通过不断地补充、记录、生成新的种群粒子，在不断寻优的过程中，也增加了粒子群聚类的样本多样性。１．４基于模板缩减的新型粒子群遗传聚类算法该算法创新性地将一种修改后的新型广义遗传算法同基于模板缩减的粒子群聚类算法相结合，在充分同模板缩减相结合的同时，也提高了样本多样性。基于模板缩减的粒子群聚类算法，其对于初始中心的敏感性不仅没有降低反而会更加敏感，将严重导致聚类精度的不稳定。本文通过选取１０％的样本进行简单的ｋ⁃ｍｅａｎｓ聚类，来初始簇心。同时，为了更好地提高由模板缩减而降低的聚类精度，本文在聚类迭代中并行ｋ⁃ｍｅａｎｓ，即在重新分配完粒子后，使用式（８）来重新计算簇心。ｃｉ＝ ∑ ｎｊ＝１ｗｉｊｘｊ／ ∑ ｎｊ＝１ｗｉｊ，ｉ＝１，２，…，ｋ（８）考虑到迭代前期粒子群聚类不需要太多的遗传粒子，而后期特别是当粒子群聚类陷入局部最优时往往需要较大量的遗传粒子来增加其调出陷阱的能力。因此，对替换粒子量Ｃ采用一种递增策略来解决这一矛盾。Ｃ＝ φｍｉｎ＋（１－ｐｒＮ／ＰＮ） × φｍａｘ（９）式中：ｐｒＮ代表压缩后模板的数量，ＰＮ表示模板的总数量。 Φｍｉｎ表示没有模板缩减时，最小替换个数； Φｍａｘ表示最大可以增加的替换个数；该聚类算法的实现过程如下：ＢｅｇｉｎＩｎｉｔｉａｌｉｚｅ输入样本数据集Ｘ，聚类数据ｋ；设置粒子群数ｍ，替换粒子数Ｃ；选取１０％的Ｘ，初始化种群Ｐ（０）；ｗｈｉｌｅ不满足停止准则根据式（１）计算每个粒子适应度更新Ｐｉｄ和Ｐｇｄ；ｆｏｒｉ＝１：Ｍ－Ｃ根据式（３）、（４）更新粒子ｉ的速度和位置；ｆｏｒ每个属于粒子ｉ数据集ｘ－的样本第４期贾旋，等：一种基于模板缩减的新型粒子群遗传聚类算法 ·５６３·

,564 智能系统学报第11卷根据最近邻法则划分：问题：更典型的，像文献[11]这些针对粒子群聚类算保存到广义遗传算法的种群中；法需要预先设定聚类中心个数的问题进行算法改进根据式(8)重新计算聚类中心：的策略，对粒子群算法本身没有什么变动，和本文算检测生成静态压缩模板9；法就更谈不上什么冲突了；所以，本次试验只采用基根据式(6)生成新的x; 本的粒子群聚类(PSO)和典型的混合k-means的 end for kmPS0[]混合聚类算法（记为KP)进行实验分析，并同文献[7]的MPREPSO算法(MP)比较来测试本文 end for for i=1:C 算法的性能。在区间[1，n-l]中生成一个随机整数l: 仿真实验基于MATLAB201Ob平台，计算机的选择第！代种群与当种群进行交叉、变异操硬件配置为：Intel Core i5-4200MCPU2.5GHz、4 作生成第n+1代种群； GB RAM。选取UCI数据库中的8个典型数据集在 end for 该环境下对本文和比较算法进行测试。其中，数据 end while 集的特性如表1所示。输出最优P对应的广义遗传算法种群中的表1实验数据集的特性最优分类： Table 1 The feature of experimental data set End 数据集数据集个数类维数 1.5计算复杂度分析 Iris 150 3 4 从1.4中的算法流程中可以看出，每个周期需 Glass 214 7 9 要进行以下5步计算：适应度计算、粒子更新、最近 Ionosphere 351 2 34 邻划分、静态模板检测和缩减、遗传粒子计算。其 Balance Scale 625 3 中，适应度计算和最近邻划分，由于需要对数据到各 CMC 1472 3 g 个簇心的距离，其计算复杂度最高，为O(mm'n2): Yeast 1484 10 8 减部分，只需要对划分后的数据进行求平均值、比较 Wall following 2 5456 4 2 和删除操作，所以其计算复杂度为O(mm'n);其余 Wall following 4 5456 4 操作，可忽略不计。综上，本文算法的计算复杂度为 O(rmmn'n2),其中r表示迭代周期数，n'表示非静态根据聚类准确度、运行时间对本文的基于模板模板数。可以看出，随着静态模板数的增加其计算缩减的粒子群广义遗传聚类算法(PR-PSO-GGA)聚复杂度逐渐减小，从而达到了降低聚类时间的目的。类性能进行分析比较，考虑到实验要求，4种基于粒子群的聚类算法参数一致，设置同文献[7]相同： 2实验结果分析 w=0.72,c1=c2=2。每种算法独立运行20次，计算 2.1实验环境各自的适应度值、accuracyts)、Rand Index)指标和目前，大部分对于粒子群聚类算法的改进基本都运行时间，聚类结果如表2所示。其中，适应度值函是从适应值函数、编码方式、参数调整等方面着手。数由式(1)定义。而本文算法，只是从模板方面着手进行缩减，每个周 2.2实验分析期需要对多少个样本分类对目前的粒子群改进没有对于评价聚类算法的聚类品质而言，低适应度丝毫的影响，只需要调整不同编码方式就可以同这些值一定代表着高品质，但较高accuracy值和Rand 改进措施完美衔接。同时，虽然很多改进措施是通过 ndex值却不一定意味着较高的品质。因为，基于粒混合不同的策略来优化粒子群的聚类算法，但大多都子群的聚类算法都是围绕着适应度值在不断地寻是将采用的策略同粒子群并行使用，对每个周期需要优，以期找到最低的适应度值，这就意味着适应度值对多少个样本进行操作没有要求。例如，文献[9]提越低该聚类算法的寻优能力越强，聚类算法的聚类出的基于模糊c均值和粒子群的模糊聚类方法；文献品质也就越高。accuracy和Rand Index指标作为外 [10]提出了使用边界约束策略的自适应粒子群聚类；部评价指标和目标函数有着密切联系，只能大致评这类文献，只是引入一些改进策略混合并行使用来改价聚类结果，不能完美地表现粒子群聚类算法寻优善粒子群算法的一些缺陷，同样对每个周期对多少个能力的优劣。因此，本文实验分析将根据适应度值样本进行操作也没有影响，同本文算法衔接没有任何来评价聚类结果，聚类accuracy和Rand Index值仅

根据最近邻法则划分；保存到广义遗传算法的种群中；根据式（８）重新计算聚类中心；检测生成静态压缩模板ｑ－；根据式（６）生成新的ｘ－；ｅｎｄｆｏｒｅｎｄｆｏｒｆｏｒｉ＝１：Ｃ在区间［１，ｎ－ｌ］中生成一个随机整数ｌ；选择第ｌ代种群与当种群进行交叉、变异操作生成第ｎ＋１代种群；ｅｎｄｆｏｒｅｎｄｗｈｉｌｅ输出最优Ｐｇｄ对应的广义遗传算法种群中的最优分类；Ｅｎｄ１．５计算复杂度分析从１．４中的算法流程中可以看出，每个周期需要进行以下５步计算：适应度计算、粒子更新、最近邻划分、静态模板检测和缩减、遗传粒子计算。其中，适应度计算和最近邻划分，由于需要对数据到各个簇心的距离，其计算复杂度最高，为Ｏ（ｍｎ′ｎ２）；减部分，只需要对划分后的数据进行求平均值、比较和删除操作，所以其计算复杂度为Ｏ（ｍｎ′ｎ）；其余操作，可忽略不计。综上，本文算法的计算复杂度为Ｏ（ｒｍｎ′ｎ２），其中ｒ表示迭代周期数，ｎ′表示非静态模板数。可以看出，随着静态模板数的增加其计算复杂度逐渐减小，从而达到了降低聚类时间的目的。２实验结果分析２．１实验环境目前，大部分对于粒子群聚类算法的改进基本都是从适应值函数、编码方式、参数调整等方面着手。而本文算法，只是从模板方面着手进行缩减，每个周期需要对多少个样本分类对目前的粒子群改进没有丝毫的影响，只需要调整不同编码方式就可以同这些改进措施完美衔接。同时，虽然很多改进措施是通过混合不同的策略来优化粒子群的聚类算法，但大多都是将采用的策略同粒子群并行使用，对每个周期需要对多少个样本进行操作没有要求。例如，文献［９］提出的基于模糊ｃ均值和粒子群的模糊聚类方法；文献［１０］提出了使用边界约束策略的自适应粒子群聚类；这类文献，只是引入一些改进策略混合并行使用来改善粒子群算法的一些缺陷，同样对每个周期对多少个样本进行操作也没有影响，同本文算法衔接没有任何问题；更典型的，像文献［１１］这些针对粒子群聚类算法需要预先设定聚类中心个数的问题进行算法改进的策略，对粒子群算法本身没有什么变动，和本文算法就更谈不上什么冲突了；所以，本次试验只采用基本的粒子群聚类（ＰＳＯ）和典型的混合ｋ⁃ｍｅａｎｓ的ｋｍＰＳＯ［１２］混合聚类算法（记为ＫＰ）进行实验分析，并同文献［７］的ＭＰＲＥＰＳＯ算法（ＭＰ）比较来测试本文算法的性能。仿真实验基于ＭＡＴＬＡＢ２０１０ｂ平台，计算机的硬件配置为：ＩｎｔｅｌＣｏｒｅｉ５－４２００ＭＣＰＵ２．５ＧＨｚ、４ＧＢＲＡＭ。选取ＵＣＩ数据库中的８个典型数据集在该环境下对本文和比较算法进行测试。其中，数据集的特性如表１所示。表１实验数据集的特性Ｔａｂｌｅ１Ｔｈｅｆｅａｔｕｒｅｏｆｅｘｐｅｒｉｍｅｎｔａｌｄａｔａｓｅｔ数据集数据集个数类维数Ｉｒｉｓ１５０３４Ｇｌａｓｓ２１４７９Ｉｏｎｏｓｐｈｅｒｅ３５１２３４ＢａｌａｎｃｅＳｃａｌｅ６２５３４ＣＭＣ１４７２３１９Ｙｅａｓｔ１４８４１０８Ｗａｌｌｆｏｌｌｏｗｉｎｇ２５４５６４２Ｗａｌｌｆｏｌｌｏｗｉｎｇ４５４５６４４根据聚类准确度、运行时间对本文的基于模板缩减的粒子群广义遗传聚类算法（ＰＲ⁃ＰＳＯ⁃ＧＧＡ）聚类性能进行分析比较，考虑到实验要求，４种基于粒子群的聚类算法参数一致，设置同文献［７］相同：ｗ＝０．７２，ｃ１＝ｃ２＝２。每种算法独立运行２０次，计算各自的适应度值、ａｃｃｕｒａｃｙ［８］、ＲａｎｄＩｎｄｅｘ［３］指标和运行时间，聚类结果如表２所示。其中，适应度值函数由式（１）定义。２．２实验分析对于评价聚类算法的聚类品质而言，低适应度值一定代表着高品质，但较高ａｃｃｕｒａｃｙ值和ＲａｎｄＩｎｄｅｘ值却不一定意味着较高的品质。因为，基于粒子群的聚类算法都是围绕着适应度值在不断地寻优，以期找到最低的适应度值，这就意味着适应度值越低该聚类算法的寻优能力越强，聚类算法的聚类品质也就越高。ａｃｃｕｒａｃｙ和ＲａｎｄＩｎｄｅｘ指标作为外部评价指标和目标函数有着密切联系，只能大致评价聚类结果，不能完美地表现粒子群聚类算法寻优能力的优劣。因此，本文实验分析将根据适应度值来评价聚类结果，聚类ａｃｃｕｒａｃｙ和ＲａｎｄＩｎｄｅｘ值仅 ·５６４· 智能系统学报第１１卷

第4期贾旋，等：一种基于模板缩减的新型粒子群遗传聚类算法 ·565 作为参考数据。同时收敛周期也较长。因此，虽然模板缩减法会降各数据集实验结果如表2所示。低聚类精度，但是本文算法通过广义遗传算法等一从表2中可以看出，针对不同的数据集，基于模系列的措施却可以在缩短聚类时间的基础上提高其板缩减的粒子群广义遗传算法的聚类时间只需要原聚类精度。算法20%左右的时间，对有些数据集甚至只需要表2各数据集实验结果 10%的聚类时间。这些缩短的聚类时间一部分是由 Table 2 The result of experimental data set 于模板缩减法移除模板降低的周期执行时间所造成 Rand 数据集算法目标函数精度时间的，另一部分是由于串行了广义遗传算法减小了收 Index 敛周期所造成的，具体可参考图1和图2。 PSO 105.44 0.90 0.89 5.21 Glass KP 97.22 0.90 0.89 1.96 0.50 -+…pSO Iris MP 100.15 0.45 0.90 0.89 0.58 ---KP 0.40 --MP 本文 97.28 0.89 0.88 0.44 0.35 本文 PSO 276.54 0.49 0.62 7.55 0.30 KP 205.98 0.50 0.64 8.92 0.25 Glass MP 231.00 0.47 0.63 0.93 0.20 0.15 本文 216.00 0.48 0.63 0.84 0.10 PSO 858.74 0.69 0.57 4.07 0.05 796.17 0.71 0.58 2.96 0 lonosphere 4 681012141618 MP 815.67 0.70 0.58 1.14 迭代周期本文 796.25 0.71 0.58 0.92 图1周期执行时间图 PSO 1431.73 0.53 0.60 15.81 Fig.1 The graph of cycle time Balance KP 1423.92 0.52 0.59 8.59 Glass Scale MP 1436.78 0.53 0.60 2.35 550 -+…PS0 本文 1427.180.53 0.60 2.07 500 ---KP -MP PSO 5618.57 0.40 0.56 41.99 450 ·…本文 KP 5541.63 0.40 0.56 28.96 4 CMC MP 5559.27 0.40 0.56 6.38 350 本文 5542.120.40 0.56 5.49 300 4+++十+++++ PSO 273.74 0.31 0.74 62.95 250 KP 235.73 0.36 0.75 214.55 Yeast 200 MP 249.21 0.34 0.74 8.58 101520 2530 本文 241.67 0.35 0.75 8.11 迭代周期 PSO 1299.33 0.62 0.72 355.72 图2目标函数收敛图 Wall KP 1292.42 0.66 0.72 186.52 Fig.2 The convergence graph of objective function following2 MP 1284.02 0.65 0.72 36.64 从图1可以看出，P和本文算法开始的周期本文 1293.390.66 0.72 29.93 执行时间高于PS0和KP算法，并随着迭代次数的 PS03555.690.43 0.59 241.44 增加周期执行时间迅速减小。这说明基于模板压缩 Wall KP 3381.330.41 0.58 211.98 法粒子群算法虽说会增加算法复杂度，但随着算法 following4 MP 3371.740.41 0.58 32.67 本文3381.890.41 0.58 29.05 的运行其周期执行时间越来越短，将大大节约总体聚类时间。从图2可以看出，算法迅速下降到一个 2)对于并行k-means的粒子群聚类算法而言，本文算法的聚类结果对于Iis等数据集的目标函数较低值并在短期内完成聚类。这表明较其他算法，值只下低了千分之几，却只需要其25%~30%的聚本文算法有着较快收敛速度和较低收敛周期。类时间。其中，对精度降低最高的Glass数据集而对表2的数据具体分析，可以看出：言，目标函数下降了4.8%，但是其聚类时间却缩短 1)比起典型的粒子群聚类而言，本文算法不仅了90%以上。本文算法通过增加广义遗传算法来缩短了大量的时间，而且聚类精度也有所提高。典加快收敛速度，在减少了每个周期的聚类时间的前型的粒子群聚类算法只通过粒子间的个体协作与竞提下也缩短了其聚类周期数。但是本文算法却不能争来搜索最优解，不可避免会陷入“局部最优”中

作为参考数据。各数据集实验结果如表２所示。从表２中可以看出，针对不同的数据集，基于模板缩减的粒子群广义遗传算法的聚类时间只需要原算法２０％左右的时间，对有些数据集甚至只需要１０％的聚类时间。这些缩短的聚类时间一部分是由于模板缩减法移除模板降低的周期执行时间所造成的，另一部分是由于串行了广义遗传算法减小了收敛周期所造成的，具体可参考图１和图２。图１周期执行时间图Ｆｉｇ．１Ｔｈｅｇｒａｐｈｏｆｃｙｃｌｅｔｉｍｅ图２目标函数收敛图Ｆｉｇ．２Ｔｈｅｃｏｎｖｅｒｇｅｎｃｅｇｒａｐｈｏｆｏｂｊｅｃｔｉｖｅｆｕｎｃｔｉｏｎ从图１可以看出，ＭＰ和本文算法开始的周期执行时间高于ＰＳＯ和ＫＰ算法，并随着迭代次数的增加周期执行时间迅速减小。这说明基于模板压缩法粒子群算法虽说会增加算法复杂度，但随着算法的运行其周期执行时间越来越短，将大大节约总体聚类时间。从图２可以看出，算法迅速下降到一个较低值并在短期内完成聚类。这表明较其他算法，本文算法有着较快收敛速度和较低收敛周期。对表２的数据具体分析，可以看出：１）比起典型的粒子群聚类而言，本文算法不仅缩短了大量的时间，而且聚类精度也有所提高。典型的粒子群聚类算法只通过粒子间的个体协作与竞争来搜索最优解，不可避免会陷入“局部最优” 中，同时收敛周期也较长。因此，虽然模板缩减法会降低聚类精度，但是本文算法通过广义遗传算法等一系列的措施却可以在缩短聚类时间的基础上提高其聚类精度。表２各数据集实验结果Ｔａｂｌｅ２Ｔｈｅｒｅｓｕｌｔｏｆｅｘｐｅｒｉｍｅｎｔａｌｄａｔａｓｅｔ数据集算法目标函数精度ＲａｎｄＩｎｄｅｘ时间ＩｒｉｓＰＳＯ１０５．４４０．９００．８９５．２１ＫＰ９７．２２０．９００．８９１．９６ＭＰ１００．１５０．９００．８９０．５８本文９７．２８０．８９０．８８０．４４ＧｌａｓｓＰＳＯ２７６．５４０．４９０．６２７．５５ＫＰ２０５．９８０．５００．６４８．９２ＭＰ２３１．０００．４７０．６３０．９３本文２１６．０００．４８０．６３０．８４ＩｏｎｏｓｐｈｅｒｅＰＳＯ８５８．７４０．６９０．５７４．０７ＫＰ７９６．１７０．７１０．５８２．９６ＭＰ８１５．６７０．７００．５８１．１４本文７９６．２５０．７１０．５８０．９２ＢａｌａｎｃｅＳｃａｌｅＰＳＯ１４３１．７３０．５３０．６０１５．８１ＫＰ１４２３．９２０．５２０．５９８．５９ＭＰ１４３６．７８０．５３０．６０２．３５本文１４２７．１８０．５３０．６０２．０７ＣＭＣＰＳＯ５６１８．５７０．４００．５６４１．９９ＫＰ５５４１．６３０．４００．５６２８．９６ＭＰ５５５９．２７０．４００．５６６．３８本文５５４２．１２０．４００．５６５．４９ＹｅａｓｔＰＳＯ２７３．７４０．３１０．７４６２．９５ＫＰ２３５．７３０．３６０．７５２１４．５５ＭＰ２４９．２１０．３４０．７４８．５８本文２４１．６７０．３５０．７５８．１１Ｗａｌｌｆｏｌｌｏｗｉｎｇ２ＰＳＯ１２９９．３３０．６２０．７２３５５．７２ＫＰ１２９２．４２０．６６０．７２１８６．５２ＭＰ１２８４．０２０．６５０．７２３６．６４本文１２９３．３９０．６６０．７２２９．９３Ｗａｌｌｆｏｌｌｏｗｉｎｇ４ＰＳＯ３５５５．６９０．４３０．５９２４１．４４ＫＰ３３８１．３３０．４１０．５８２１１．９８ＭＰ３３７１．７４０．４１０．５８３２．６７本文３３８１．８９０．４１０．５８２９．０５２）对于并行ｋ⁃ｍｅａｎｓ的粒子群聚类算法而言，本文算法的聚类结果对于Ｉｒｉｓ等数据集的目标函数值只下低了千分之几，却只需要其２５％～３０％的聚类时间。其中，对精度降低最高的Ｇｌａｓｓ数据集而言，目标函数下降了４．８％，但是其聚类时间却缩短了９０％以上。本文算法通过增加广义遗传算法来加快收敛速度，在减少了每个周期的聚类时间的前提下也缩短了其聚类周期数。但是本文算法却不能第４期贾旋，等：一种基于模板缩减的新型粒子群遗传聚类算法 ·５６５·

.566 智能系统学报第11卷无限缩减每个聚类周期的时间，即使聚类后期“较 [4]秦全德，李丽，程适，等.交互学习的粒子群优化算法优”的粒子模板已经大聚类后期“较优”的粒子模板 [J].智能系统学报，2012,7(6)：547-553 已经大部分被压缩并移除只剩下静态模板的静态压 QIN Quande,LILi,CHENG Shi,et al.Interactive learning particle swarm optimization algorithm[J].CAAI transactions 缩模板的集合g,但是每个周期还会产生C个新的 on intelligent systems,2012,7(6):547-553. 包含所有输入模板的粒子。如图1所示，本文算法 [5]SOLAIMAN B F,SHETA A F.Energy optimization in wire- 在后期的迭代周期中，周期执行时间逐渐收敛于一 less sensor networks using a hybrid K-means PSO clustering 个固定值： algorithm[J].Turkish Journal of electrical engineering and 3)比起MP聚类算法，本文算法对于Iis等 computer sciences,2015. 数据集既能缩短聚类时间，也能提高聚类精度。 [6]DASH P,NAYAK M.Multilevel thresholding using PSO 而对于数据Wall following而言虽说本文算法降 clustering[].International journal of computer applica- 低了千分之几的精度，但是却缩短了1/10的聚 tions,2014,97(18):27-32. 类时间。同MP算法相比，本文算法虽然增加了 [7]CHIANG M C,TSAI C W,YANG C S.A time-efficient pattern reduction algorithm for k-means clustering[J].Infor- 广义遗产算法等一系列操作，但是这些操作大多 mation sciences,2011,181(4):716-731. 能与模板缩减法相结合且不会增加太多计算复 [8]TSAI C W,HUANG K W,YANG C S,et al.A fast parti- 杂性，如图1所示，本文算法同MP算法在开始的 cle swarm optimization for clustering[J].Soft computing, 周期执行时间基本相等。所以本文算法能够在 2015,19(2):321-338. 增强聚类精度的基础上提高部分聚类速度。 [9]FILHO T M S,PIMENTEL B A,SOUZA R M C R,et al. 总体来看，本文算法能够在基本不降低聚类算 Hybrid methods for fuzzy clustering based on fuzzy c-means 法精度的前提下，缩短大量的聚类时间。 and improved particle swarm optimization[J].Expert sys- tems with applications,2015,42(17/18):6315-6328. 3结束语 [10]RANA S,JASOLA S,KUMAR R.A boundary restricted 随着规模庞大、结构复杂数据的不断出现，对其 adaptive particle swarm optimization for data clustering[J]. International journal of machine learning and cybernetics, 聚类往往需要耗费大量的时间。但是当今大量文献 2013,4(4):391-400. 研究往往都着眼于提高其准确度，很少针对聚类速 [11]张亮，杨国正.一种变维搜索的量子粒子群优化聚类算度。本文基于模板缩减的粒子群聚类算法，将其与一法[J].小型微型计算机系统，2012,33(4)：804-808. 种改进的广义遗传算法充分结合，不仅能够提高种群 ZHANG Liang,YANG Guozheng.A quantum particle 的多样性而且能够对模板缩减过程中必要的信息进 swarm optimization clustering algorithm using variable di- 行存储保护。实验表明，本文算法能够在基本不降低 mensions searching J.Journal of Chinese computer sys- 聚类精度的前提下，显著地缩短聚类时间。但是本文 tems,2012,33(4):804-808. 基本模板缩减的粒子群聚类算法，精度不可避免带有 [12]AHMADYFARD A,MODARES H.Combining PSO and k- 些许的损失，特别是当类数增加时误差会较大。对于 means to enhance data clustering[C]//Proceedings of In- 这一问题，应该是还没有将遗传算法的全部优，点挖掘 ternational Symposium on Telecommunications.Tehran,I- ran,2008:688-691 出来，下一步还有待改进。作者简介：参考文献：贾旋，男，1992年生，硕士研究生，主要研究方向为人工智能与模式识别。 [1]LI Chaoshun,ZHOU Jianzhong,KOU Pangao,et al.A no- vel chaotic particle swarm optimization based fuzzy cluste- ring algorithm[J].Neurocomputing.2012,83:98-109. [2]BEHESHTI Z,SHAMSUDDIN S M H.CAPSO:Centripetal accelerated particle swarm optimization[J].Information sci- 周治平，男，1962年生，教授，博 ences,2014,258:54-79. 士，主要研究方向为智能检测、自动化 [3]SUN Jun,CHEN Wei,FANG Wei,et al.Gene expression 装置、网络安全等。 data analysis with the clustering method based on an im- proved quantum-behaved particle swarm optimization[J]. Engineering applications of artificial intelligence,2012,25 (2):376-391

无限缩减每个聚类周期的时间，即使聚类后期“较优”的粒子模板已经大聚类后期“较优”的粒子模板已经大部分被压缩并移除只剩下静态模板的静态压缩模板的集合ｑ－，但是每个周期还会产生Ｃ个新的包含所有输入模板的粒子。如图１所示，本文算法在后期的迭代周期中，周期执行时间逐渐收敛于一个固定值；３）比起ＭＰ聚类算法，本文算法对于Ｉｒｉｓ等数据集既能缩短聚类时间，也能提高聚类精度。而对于数据Ｗａｌｌｆｏｌｌｏｗｉｎｇ而言虽说本文算法降低了千分之几的精度，但是却缩短了１／１０的聚类时间。同ＭＰ算法相比，本文算法虽然增加了广义遗产算法等一系列操作，但是这些操作大多能与模板缩减法相结合且不会增加太多计算复杂性，如图１所示，本文算法同ＭＰ算法在开始的周期执行时间基本相等。所以本文算法能够在增强聚类精度的基础上提高部分聚类速度。总体来看，本文算法能够在基本不降低聚类算法精度的前提下，缩短大量的聚类时间。３结束语随着规模庞大、结构复杂数据的不断出现，对其聚类往往需要耗费大量的时间。但是当今大量文献研究往往都着眼于提高其准确度，很少针对聚类速度。本文基于模板缩减的粒子群聚类算法，将其与一种改进的广义遗传算法充分结合，不仅能够提高种群的多样性而且能够对模板缩减过程中必要的信息进行存储保护。实验表明，本文算法能够在基本不降低聚类精度的前提下，显著地缩短聚类时间。但是本文基本模板缩减的粒子群聚类算法，精度不可避免带有些许的损失，特别是当类数增加时误差会较大。对于这一问题，应该是还没有将遗传算法的全部优点挖掘出来，下一步还有待改进。参考文献：［１］ＬＩＣｈａｏｓｈｕｎ，ＺＨＯＵＪｉａｎｚｈｏｎｇ，ＫＯＵＰａｎｇａｏ，ｅｔａｌ．Ａｎｏ⁃ ｖｅｌｃｈａｏｔｉｃｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎｂａｓｅｄｆｕｚｚｙｃｌｕｓｔｅ⁃ ｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，２０１２，８３：９８⁃１０９．［２］ＢＥＨＥＳＨＴＩＺ，ＳＨＡＭＳＵＤＤＩＮＳＭＨ．ＣＡＰＳＯ：Ｃｅｎｔｒｉｐｅｔａｌａｃｃｅｌｅｒａｔｅｄｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎｓｃｉ⁃ ｅｎｃｅｓ，２０１４，２５８：５４⁃７９．［３］ＳＵＮＪｕｎ，ＣＨＥＮＷｅｉ，ＦＡＮＧＷｅｉ，ｅｔａｌ．Ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａａｎａｌｙｓｉｓｗｉｔｈｔｈｅｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎａｎｉｍ⁃ ｐｒｏｖｅｄｑｕａｎｔｕｍ⁃ｂｅｈａｖｅｄｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎ［Ｊ］．Ｅｎｇｉｎｅｅｒｉｎｇａｐｐｌｉｃａｔｉｏｎｓｏｆａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ，２０１２，２５（２）：３７６⁃３９１．［４］秦全德，李丽，程适，等．交互学习的粒子群优化算法［Ｊ］．智能系统学报，２０１２，７（６）：５４７⁃５５３．ＱＩＮＱｕａｎｄｅ，ＬＩＬｉ，ＣＨＥＮＧＳｈｉ，ｅｔａｌ．Ｉｎｔｅｒａｃｔｉｖｅｌｅａｒｎｉｎｇｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１２，７（６）：５４７⁃５５３．［５］ＳＯＬＡＩＭＡＮＢＦ，ＳＨＥＴＡＡＦ．Ｅｎｅｒｇｙｏｐｔｉｍｉｚａｔｉｏｎｉｎｗｉｒｅ⁃ ｌｅｓｓｓｅｎｓｏｒｎｅｔｗｏｒｋｓｕｓｉｎｇａｈｙｂｒｉｄＫ⁃ｍｅａｎｓＰＳＯｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．ＴｕｒｋｉｓｈＪｏｕｒｎａｌｏｆｅｌｅｃｔｒｉｃａｌｅｎｇｉｎｅｅｒｉｎｇａｎｄｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅｓ，２０１５．［６］ＤＡＳＨＰ，ＮＡＹＡＫＭ．ＭｕｌｔｉｌｅｖｅｌｔｈｒｅｓｈｏｌｄｉｎｇｕｓｉｎｇＰＳＯｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｌｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒａｐｐｌｉｃａ⁃ ｔｉｏｎｓ，２０１４，９７（１８）：２７⁃３２．［７］ＣＨＩＡＮＧＭＣ，ＴＳＡＩＣＷ，ＹＡＮＧＣＳ．Ａｔｉｍｅ⁃ｅｆｆｉｃｉｅｎｔｐａｔｔｅｒｎｒｅｄｕｃｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒｋ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｉｎｆｏｒ⁃ ｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２０１１，１８１（４）：７１６⁃７３１．［８］ＴＳＡＩＣＷ，ＨＵＡＮＧＫＷ，ＹＡＮＧＣＳ，ｅｔａｌ．Ａｆａｓｔｐａｒｔｉ⁃ ｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎｆｏｒｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｓｏｆｔｃｏｍｐｕｔｉｎｇ，２０１５，１９（２）：３２１⁃３３８．［９］ＦＩＬＨＯＴＭＳ，ＰＩＭＥＮＴＥＬＢＡ，ＳＯＵＺＡＲＭＣＲ，ｅｔａｌ．Ｈｙｂｒｉｄｍｅｔｈｏｄｓｆｏｒｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎｆｕｚｚｙｃ⁃ｍｅａｎｓａｎｄｉｍｐｒｏｖｅｄｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎ［Ｊ］．Ｅｘｐｅｒｔｓｙｓ⁃ ｔｅｍｓｗｉｔｈａｐｐｌｉｃａｔｉｏｎｓ，２０１５，４２（１７／１８）：６３１５⁃６３２８．［１０］ＲＡＮＡＳ，ＪＡＳＯＬＡＳ，ＫＵＭＡＲＲ．Ａｂｏｕｎｄａｒｙｒｅｓｔｒｉｃｔｅｄａｄａｐｔｉｖｅｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎｆｏｒｄａｔａｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｌｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｎｄｃｙｂｅｒｎｅｔｉｃｓ，２０１３，４（４）：３９１⁃４００．［１１］张亮，杨国正．一种变维搜索的量子粒子群优化聚类算法［Ｊ］．小型微型计算机系统，２０１２，３３（４）：８０４⁃８０８．ＺＨＡＮＧＬｉａｎｇ，ＹＡＮＧＧｕｏｚｈｅｎｇ．Ａｑｕａｎｔｕｍｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｕｓｉｎｇｖａｒｉａｂｌｅｄｉ⁃ ｍｅｎｓｉｏｎｓｓｅａｒｃｈｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅｃｏｍｐｕｔｅｒｓｙｓ⁃ ｔｅｍｓ，２０１２，３３（４）：８０４⁃８０８．［１２］ＡＨＭＡＤＹＦＡＲＤＡ，ＭＯＤＡＲＥＳＨ．ＣｏｍｂｉｎｉｎｇＰＳＯａｎｄｋ⁃ ｍｅａｎｓｔｏｅｎｈａｎｃｅｄａｔａｃｌｕｓｔｅｒｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩｎ⁃ ｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ．Ｔｅｈｒａｎ，Ｉ⁃ ｒａｎ，２００８：６８８⁃６９１．作者简介：贾旋，男，１９９２年生，硕士研究生，主要研究方向为人工智能与模式识别。周治平，男，１９６２年生，教授，博士，主要研究方向为智能检测、自动化装置、网络安全等。 ·５６６· 智能系统学报第１１卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录