优化算法进行改进，以充分利用其全局搜索能力，如融合粒子群［３］、变邻域

正在加载图片...

第6期朱书伟，等：融合并行混沌莹火虫算法的K-调和均值聚类 ·873. 优化算法进行改进，以充分利用其全局搜索能力，如这里采用欧式距离计算样本到聚类中心的融合粒子群)、变邻域搜索)、改进候选组搜索) 距离，参数p对算法的性能具有重要的影响，且等混合聚类算法。此外，将模糊概念引入KHM中当p≥2时聚类的效果比较好2]。算法通过不断也得到了一定的关注6)。目前，各种群智能优化地迭代使目标函数值不断减小并保持稳定，每次算法已被广泛地应用于各个领域中[81)，并且依据迭代过程中，各个簇的中心点c()=1,2,…,k)的没有免费的午餐定律，本文提出新的混合聚类算法。更新如下[3) 萤火虫算法(firefly algorithm,FA)是由剑桥学者 Yang等[2.1)在2008年提出的一种新颖的群智能算 ∑，mw(c/x)XU(x)Xx i=1 (2) 法，具有结构简单、可调参数少、宜于并行处理等特点，可以有效解决各种优化问题，并能够成功应用到 ∑mum(cy/x,)X0uw() 聚类问题中提高算法的准确性和鲁棒性[。很多式中：成员函数m和权重函数wKv的定义分别为学者已经对它开展了不少研究工作，引入混沌原理式(3)和式(4)。改进的FA具有一定的优势，Fister等[s]对现有的混 Ix:-c‖p-2 mkH(C/x:）= (3) 沌萤火虫算法(chaos-based firefly algorithm,CFA) lx-l-p-2 进行了总结，它们的主要思想都是基于算法参数的改进，其中Gandomi等[u6]采用各种混沌映射模型进 x-6 WKHM(x:）= (4) 行了比较全面的对比分析。然而，仅对参数的调整 (,g-6) 无法更全面有效地利用混沌优化的优点，混沌局部 1.2 萤火虫算法的相关定义搜索(chaotic local search,CLS)[91o]是一种能够有在FA中萤火虫彼此吸引主要取决于2个因效提高算法优化性能的策略。素：亮度和吸引度。亮度决定了个体所处位置的好本文从进一步提高FA的优化性能出发，提出坏及其移动方向，吸引度决定了移动的距离，通过亮一种新颖的CFA,并将其融入到KHM以获得一种度和吸引度的不断更新，实现目标优化。通常直接更有效的混合聚类方法。在FA中引入一种并行混利用目标函数值的大小表示萤火虫i的亮度I,即沌局部搜索策略，将CLS与并行混沌优化(parallel L=f:),x:=[xax2…xa]。FA的相关定 chaotic optimization,PC0)[7-l8]相结合，提高FA的义如下12.13 局部搜索能力，具有更高的搜索效率，并能够有效避定义1萤火虫i与j之间的吸引度为免局部最优。将这种改进的CFA融入到KHM中优 B=Boe-r (5) 化其目标函数，通过对实际数据集的实验可以看出式中：B。为在r=0处的吸引度，一般可取值为1；y 本文所提的聚类算法能够获得更好的性能指标，有为光强吸收系数，对算法的性能具有重要的影响，通效抑制了陷入局部最优的问题。常情况下可以取y=1;r,为萤火虫i与j之间的空 1算法概念与定义间距离，一般采用欧氏距离计算。定义2萤火虫i被更亮的萤火虫j吸引而移 1.1K-调和均值算法动的位置为 K-调和均值算法的原理基本上与K-means是相 xi=x;+B(Xi-xi)+aEi (6) 似的，不同的是其使用调和均值(harmonic means, 式中：x:、x为萤火虫i和j的位置：a为步长因子， HM)代替算术均值来计算目标函数，能够有效解决可设为常数：e:为服从均匀分布的随机数向量。对初始类中心点选取的敏感性问题。假定数据集 X=[x1x2…x.]包含n个数据，它们被划分 2基于改进FA的K-调和均值聚类到k个聚类簇，每个簇的中心用c,(G=1,2,…,k)表 2.1并行混沌局部搜索策略改进的FA 示，KHM的目标函数为[) 基本的FA缺乏变异机制，当处于局部极值时 KHM(X,C)= -,i=1,2,…,n 难以摆脱，且当前最优解xg周围是搜索到更优解的 1 最有利的区域，而FA在优化过程中采用对其随机 2x:-G1 扰动的方式，搜索效率不高。混沌优化方法能够有 (1) 效地跳出局部最优并搜索到全局最优解，现有文献优化算法进行改进，以充分利用其全局搜索能力，如融合粒子群［３］、变邻域搜索［４］、改进候选组搜索［５］等混合聚类算法。此外，将模糊概念引入ＫＨＭ中也得到了一定的关注［６⁃７］。目前，各种群智能优化算法已被广泛地应用于各个领域中［８⁃１１］，并且依据没有免费的午餐定律，本文提出新的混合聚类算法。萤火虫算法（ｆｉｒｅｆｌｙａｌｇｏｒｉｔｈｍ，ＦＡ）是由剑桥学者Ｙａｎｇ等［１２⁃１３］在２００８年提出的一种新颖的群智能算法，具有结构简单、可调参数少、宜于并行处理等特点，可以有效解决各种优化问题，并能够成功应用到聚类问题中提高算法的准确性和鲁棒性［１４］。很多学者已经对它开展了不少研究工作，引入混沌原理改进的ＦＡ具有一定的优势，Ｆｉｓｔｅｒ等［１５］对现有的混沌萤火虫算法（ｃｈａｏｓ⁃ｂａｓｅｄｆｉｒｅｆｌｙａｌｇｏｒｉｔｈｍ，ＣＦＡ）进行了总结，它们的主要思想都是基于算法参数的改进，其中Ｇａｎｄｏｍｉ等［１６］采用各种混沌映射模型进行了比较全面的对比分析。然而，仅对参数的调整无法更全面有效地利用混沌优化的优点，混沌局部搜索（ｃｈａｏｔｉｃｌｏｃａｌｓｅａｒｃｈ，ＣＬＳ）［９⁃１０］是一种能够有效提高算法优化性能的策略。本文从进一步提高ＦＡ的优化性能出发，提出一种新颖的ＣＦＡ，并将其融入到ＫＨＭ以获得一种更有效的混合聚类方法。在ＦＡ中引入一种并行混沌局部搜索策略，将ＣＬＳ与并行混沌优化（ｐａｒａｌｌｅｌｃｈａｏｔｉｃｏｐｔｉｍｉｚａｔｉｏｎ，ＰＣＯ）［１７⁃１８］相结合，提高ＦＡ的局部搜索能力，具有更高的搜索效率，并能够有效避免局部最优。将这种改进的ＣＦＡ融入到ＫＨＭ中优化其目标函数，通过对实际数据集的实验可以看出本文所提的聚类算法能够获得更好的性能指标，有效抑制了陷入局部最优的问题。１算法概念与定义１．１Ｋ⁃调和均值算法Ｋ⁃调和均值算法的原理基本上与Ｋ⁃ｍｅａｎｓ是相似的，不同的是其使用调和均值（ｈａｒｍｏｎｉｃｍｅａｎｓ，ＨＭ）代替算术均值来计算目标函数，能够有效解决对初始类中心点选取的敏感性问题。假定数据集Ｘ＝［ｘ１ｘ２ … ｘｎ］包含ｎ个数据，它们被划分到ｋ个聚类簇，每个簇的中心用ｃｊ（ｊ＝１，２，…，ｋ）表示，ＫＨＭ的目标函数为［３］ＫＨＭ（Ｘ，Ｃ）＝ ∑ ｎｉ＝１ｋ ∑ ｋｊ＝１１ ‖ｘｉ－ｃｊ‖ｐ，∀ｉ＝１，２，…，ｎ（１）这里采用欧式距离计算样本到聚类中心的距离，参数ｐ对算法的性能具有重要的影响，且当ｐ≥２时聚类的效果比较好［２］。算法通过不断地迭代使目标函数值不断减小并保持稳定，每次迭代过程中，各个簇的中心点ｃｊ（ｊ＝１，２，…，ｋ）的更新如下［３］。ｃｊｎｅｗ＝ ∑ ｎｉ＝１ｍＫＨＭ（ｃｊ／ｘｉ） × ｗＫＨＭ（ｘｉ） × ｘｉ ∑ ｎｉ＝１ｍＫＨＭ（ｃｊ／ｘｉ） × ｗＫＨＭ（ｘｉ）（２）式中：成员函数ｍＫＨＭ和权重函数ｗＫＨＭ的定义分别为式（３）和式（４）。ｍＫＨＭ（ｃｊ／ｘｉ）＝ ‖ｘｉ－ｃｊ‖－ｐ－２ ∑ Ｋｊ＝１ ‖ｘｉ－ｃｊ‖ －ｐ－２（３）ｗＫＨＭ（ｘｉ）＝ ∑ ｋｊ＝１ ‖ｘｉ－ｃｊ‖－ｐ－２（∑ ｋｊ＝１ ‖ｘｉ－ｃｊ‖－ｐ）２（４）１．２萤火虫算法的相关定义在ＦＡ中萤火虫彼此吸引主要取决于２个因素：亮度和吸引度。亮度决定了个体所处位置的好坏及其移动方向，吸引度决定了移动的距离，通过亮度和吸引度的不断更新，实现目标优化。通常直接利用目标函数值的大小表示萤火虫ｉ的亮度Ｉｉ，即Ｉｉ＝ｆ（ｘｉ），ｘｉ＝［ｘｉ１ｘｉ２ … ｘｉｄ］。ＦＡ的相关定义如下［１２⁃１３］：定义１萤火虫ｉ与ｊ之间的吸引度为 β ＝ β０ｅ－γｒ２ｉｊ（５）式中： β０为在ｒ＝０处的吸引度，一般可取值为１； γ 为光强吸收系数，对算法的性能具有重要的影响，通常情况下可以取 γ ＝１；ｒｉｊ为萤火虫ｉ与ｊ之间的空间距离，一般采用欧氏距离计算。定义２萤火虫ｉ被更亮的萤火虫ｊ吸引而移动的位置为ｘｉｎｅｗ＝ｘｉ＋ β（ｘｊ－ｘｉ）＋ α εｉ（６）式中：ｘｉ、ｘｊ为萤火虫ｉ和ｊ的位置；α 为步长因子，可设为常数； εｉ为服从均匀分布的随机数向量。２基于改进ＦＡ的Ｋ⁃调和均值聚类２．１并行混沌局部搜索策略改进的ＦＡ基本的ＦＡ缺乏变异机制，当处于局部极值时难以摆脱，且当前最优解ｘｐｇ周围是搜索到更优解的最有利的区域，而ＦＡ在优化过程中采用对其随机扰动的方式，搜索效率不高。混沌优化方法能够有效地跳出局部最优并搜索到全局最优解，现有文献第６期朱书伟，等：融合并行混沌萤火虫算法的Ｋ⁃调和均值聚类 ·８７３·

<<向上翻页向下翻页>>

点击下载：【机器学习】融合并行混沌萤火虫算法的K-调和均值聚类编辑部