正在加载图片...
第2期 李滔,等:适合大规模数据集的增量式模糊聚类算法 ·189· 分类学习的一部分。最为经典的模糊聚类算法之一 Jacek M.Leski对FCM算法进行了改进,提出了模 就是J.C.Bezdek教授在20世纪80年代提出的模糊 糊c+p均值聚类算法FCPM,并采用了新的方法初 c均值聚类算法[),该算法被成功地应用到了在诸 始化聚类中心[。对于某一类的聚类中心,它能吸 多问题的解决上。 引属于该类的样本并排斥属于其他类的样本,这样 随着科学技术的发展,数据库中的数据更新速 更清楚地确定了样本的“归属”问题。对于小样本 度日益加快、数据容量不断增大,若仍然采用原来的 数据,FCPM算法可以保持不错的聚类性能,但其在 聚类算法对这样的大规模数据进行聚类将产生以下 大规模数据集上的聚类性能明显降低而且有较大的 几个问题:1)数据更新前得到的聚类结果可能与数 时间花费,甚至可能由于无法加载进内存而导致算 据更新后的聚类结果不匹配:2)对更新后的数据进 法失效。对于以往的增量式模糊聚类算法,比如 行重新聚类会导致较高的时间复杂度和计算资源的 SPFCM算法和OFCM算法都是通过对样本加权以 浪费:3)还可能由于系统内存不足的原因而导致该 影响每个数据块产生的聚类中心,但数据块间聚类 算法失效。鉴于这些问题,Fazli Can教授在1990年 中心的相互影响程度不明显甚至可能会由于上一次 提出的增量式聚类算法]使得这些问题得以解决。 聚类结果的加入而干扰新的数据进行聚类。为了解 所谓增量式聚类是指利用前期数据已取得的聚类结 决以上问题,通过FCPM算法计算每个数据块的聚 果,对新增数据进行分批或者逐批次地进行聚类的 类中心,把离聚类中心最近的一些样本点连同聚类 过程。研究增量式模糊聚类算法对于避免重复聚类 中心一起加入到下一个数据块中参与聚类,同时添 造成的计算资源浪费,提高聚类性能等都具有十分 加平衡项以提高聚类性能,文中提出了适合大规模 重要的意义。 数据集的增量式聚类算法FCM(c+p)。 近几年,研究者们提出了很多关于增量式聚类 1 相关算法 的算法。这些算法大致可以被分为3类:1)对大数 据进行随机抽样获取小样本进行计算,例如,L 设N元样本集合X={x1,x2,…,xw},x(k= Kaufman等提出的CLARA),S.Guha等)提出的 1,2,…,N)表示其中的某一个样本,其中每一个样 CURE:2)按序将小样本加载进内存的单程算法 本都有D={d,d2,…,dn}CR"一共n个特征,d (single--pass),具有代表性的有F.Can在文献[5]和 (j=1,2,…,n)表示其中的某一个特征。FCM算法 [6]中提出的增量式算法:3)采取类图表结构的数 将N个样本按照它所固有的特征划分成c簇,用4 据转换算法,如T.Zhang等提出的BIRCH刀和R. 表示第k个样本隶属于第i簇的程度,那么划分成c Ng等[)提出的CLARANS,对于增量式模糊聚类算 簇后得到的隶属度矩阵是U=u:}CRxw,i∈[1, 法;B.U.Shankar等提出了快速模糊c均值算法 c],k∈[1,N]。对于模糊划分而言,所有的样本都 FFCM,T.Chengt]提出了多阶段的随机模糊c均值 需要满足下面的条件: 算法MRFCM,J.E.Kolen等[)提出了随机抽样模 MeN={U∈RexN I Lik∈[0,1], 糊c均值算法rsFCM,Dhanesh Kothari等I]提出了 i∈[1,c],k∈[1,N]}; 将随机抽样的结果扩展到整个数据集上的扩展随机 抽样模糊c均值算法rseFCM。除此之外,还有基于 FCM的单程模糊c均值算法SPFCM)、在线模糊c N 均值算法OFCM1),以及在这基础上发展的基于核 Vk∈[1,N]; 4e(0,W,ie[1,c] k=1 的模糊c均值算法spkFCM和okFCMU1],Yangtao 由此可见,模糊划分矩阵U的每一列的和都必 Wang等i提出的基于多重中心的增量式模糊聚类 须等于1,这样才能确保每一个样本都能够被完整 算法在相关性大数据上的应用。最近Bhm等[) 地划分到它所属的簇中。 受到动力学中同步现象的启发提出了一种新颖的同 通过使用欧式距离寻求最小均方误差,可以得 步聚类算法Symc,但是这种算法在大规模数据集上 到FCM模型的目标函数(其中m为模糊指数): 的聚类受到了相当大的限制,基于此应文豪等]在 此基础上提出了快速自适应同步聚类算法FAKCS。 J(U,V)= ZZx-v. (1)》 i=1k= 传统的F℃M算法对初始聚类中心敏感且容易 在式(1)的条件下通过拉格朗日乘子法可以得 陷入局部最优,同时也忽略了类间的相互影响。 出隶属度矩阵U和聚类中心V的更新公式。由于分类学习的一部分。 最为经典的模糊聚类算法之一 就是 J.C.Bezdek 教授在 20 世纪 80 年代提出的模糊 c 均值聚类算法[1] ,该算法被成功地应用到了在诸 多问题的解决上。 随着科学技术的发展,数据库中的数据更新速 度日益加快、数据容量不断增大,若仍然采用原来的 聚类算法对这样的大规模数据进行聚类将产生以下 几个问题:1)数据更新前得到的聚类结果可能与数 据更新后的聚类结果不匹配;2)对更新后的数据进 行重新聚类会导致较高的时间复杂度和计算资源的 浪费;3)还可能由于系统内存不足的原因而导致该 算法失效。 鉴于这些问题,Fazli Can 教授在 1990 年 提出的增量式聚类算法[2] 使得这些问题得以解决。 所谓增量式聚类是指利用前期数据已取得的聚类结 果,对新增数据进行分批或者逐批次地进行聚类的 过程。 研究增量式模糊聚类算法对于避免重复聚类 造成的计算资源浪费,提高聚类性能等都具有十分 重要的意义。 近几年,研究者们提出了很多关于增量式聚类 的算法。 这些算法大致可以被分为 3 类:1)对大数 据进行随机抽样获取小样本进行计算, 例如, L. Kaufman 等提出的 CLARA [3] , S. Guha 等[4] 提出的 CURE;2) 按序将小样本加载进内存的单程算法 (single⁃pass),具有代表性的有 F. Can 在文献[5]和 [6]中提出的增量式算法;3)采取类图表结构的数 据转换算法,如 T. Zhang 等提出的 BIRCH [7] 和 R. Ng 等[8] 提出的 CLARANS,对于增量式模糊聚类算 法;B. U. Shankar 等[9] 提出了快速模糊 c 均值算法 FFCM,T. Cheng [10]提出了多阶段的随机模糊 c 均值 算法 MRFCM,J. F. Kolen 等[11] 提出了随机抽样模 糊 c 均值算法 rsFCM,Dhanesh Kothari 等[12] 提出了 将随机抽样的结果扩展到整个数据集上的扩展随机 抽样模糊 c 均值算法 rseFCM。 除此之外,还有基于 FCM 的单程模糊 c 均值算法 SPFCM [13] 、在线模糊 c 均值算法 OFCM [14] ,以及在这基础上发展的基于核 的模糊 c 均值算法 spkFCM 和 okFCM [15] ,Yangtao Wang 等[16]提出的基于多重中心的增量式模糊聚类 算法在相关性大数据上的应用。 最近 Böhm 等[17] 受到动力学中同步现象的启发提出了一种新颖的同 步聚类算法 Sync,但是这种算法在大规模数据集上 的聚类受到了相当大的限制,基于此应文豪等[18] 在 此基础上提出了快速自适应同步聚类算法 FAKCS。 传统的 FCM 算法对初始聚类中心敏感且容易 陷入局部最优, 同时也忽略了类间的相互影响。 Jacek M. Leski 对 FCM 算法进行了改进,提出了模 糊 c+p 均值聚类算法 FCPM,并采用了新的方法初 始化聚类中心[19] 。 对于某一类的聚类中心,它能吸 引属于该类的样本并排斥属于其他类的样本,这样 更清楚地确定了样本的“归属” 问题。 对于小样本 数据,FCPM 算法可以保持不错的聚类性能,但其在 大规模数据集上的聚类性能明显降低而且有较大的 时间花费,甚至可能由于无法加载进内存而导致算 法失效。 对于以往的增量式模糊聚类算法,比如 SPFCM 算法和 OFCM 算法都是通过对样本加权以 影响每个数据块产生的聚类中心,但数据块间聚类 中心的相互影响程度不明显甚至可能会由于上一次 聚类结果的加入而干扰新的数据进行聚类。 为了解 决以上问题,通过 FCPM 算法计算每个数据块的聚 类中心,把离聚类中心最近的一些样本点连同聚类 中心一起加入到下一个数据块中参与聚类,同时添 加平衡项以提高聚类性能,文中提出了适合大规模 数据集的增量式聚类算法 IFCM(c+p)。 1 相关算法 设 N 元样本集合 X = { x1 ,x2 ,…,xN} , xk(k = 1,2,…,N) 表示其中的某一个样本,其中每一个样 本都有 D = {d1 ,d2 ,…,dn } ⊂ R n 一共 n 个特征, dj (j =1,2,…,n) 表示其中的某一个特征。 FCM 算法 将 N 个样本按照它所固有的特征划分成 c 簇,用 μik 表示第 k 个样本隶属于第 i 簇的程度,那么划分成 c 簇后得到的隶属度矩阵是 U = {μik} ⊂ R c×N ,i ∈ [1, c],k ∈ [1,N] 。 对于模糊划分而言,所有的样本都 需要满足下面的条件: MfcN = {U ∈ R c×N | μik ∈ [0,1], ∀i ∈ [1,c],k ∈ [1,N]}; ∑ c i = 1 μik = 1, ∀k ∈ [1,N];∑ N k = 1 μik ∈ (0,N),∀i ∈ [1,c] ì î í ï ï ï ï ï ï ï ï 由此可见,模糊划分矩阵 U 的每一列的和都必 须等于 1,这样才能确保每一个样本都能够被完整 地划分到它所属的簇中。 通过使用欧式距离寻求最小均方误差,可以得 到 FCM 模型的目标函数(其中 m 为模糊指数): J(U,V) = ∑ c i = 1 ∑ N k = 1 μ m ik‖ xk - vi‖ 2 (1) 在式(1)的条件下通过拉格朗日乘子法可以得 出隶属度矩阵 U 和聚类中心 V 的更新公式。 由于 第 2 期 李滔,等: 适合大规模数据集的增量式模糊聚类算法 ·189·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有