正在加载图片...
·190 智能系统学报 第11卷 篇幅有限,FCM算法的具体更新公式以及计算步骤 献[19]详细介绍了新的聚类中心初始化方法及 在此不做赘述。 FCPM算法,此处不再赘述。 传统的F℃M算法让聚类中心尽可能地靠近样 如文献[19]所示,FCPM算法在模糊系统建模 本点,概率约束也只考虑了聚类中心之间的排斥力, 上得到了很好的应用。该算法采用新的初始化聚类 所有的样本重要性相同,同时对初始聚类中心敏感、 中心的方法有效地避免了CM算法对初始聚类中 容易陷入局部最优,得到的聚类结果往往不理想。 心敏感的问题,通过先确定已知类聚类中心来求未 Jacek M.Leski考虑了类别间的相互影响,利用了新 知类聚类中心的方法以提高算法的聚类性能。通过 的方法初始化聚类中心,采用固定一类求其他类的 实验可以发现,FCPM算法对一类已知的小样本数 方法,在FCM算法的基础上提出了模糊c+p均值聚 据集有着不错的聚类性能,但对现实中的大规模数 类算法FCPM。 据集而言,该算法的聚类性能会下降、算法效率会大 FCPM算法中来自其他类的样本对本类的聚类 大降低甚至会由于样本过大而导致算法失效。基于 会产生影响,在某一类中,聚类中心应该吸引属于该 这些问题,本文提出了适合大规模数据集的增量式 类的样本,而排斥其他类的样本。设有c个聚类中 模糊聚类算法IFCM(c+p)。 心来自一类,而p个聚类中心来自另一类,该算法把 N个样本划分成为c簇,可得目标函数为 2 适合大规模数据集的增量式模糊聚 J(U,T,V)= 名AI+ 类算法IFCM(c+p) 含区1 (2) 2.1FCM(c+p)算法 在增量式模糊聚类算法中,对每一个数据块进 式中:V表示第i簇的聚类中心,表示已知的聚类 行聚类的算法起着举足轻重的作用。针对以往基于 中心。对所有的样本而言,都应该满足如下关系: FCM的增量式模糊聚类算法对初始聚类中心敏感 之4a+2a=14e[0,1]. 的问题,文中采用了FCPM算法中提到的特别的方 i=1 j=1 法初始化聚类中心。另外在传统的增量式模糊聚类 54∈[0,1],Vk∈[1,N] (3) 算法中,不管是静态的还是动态的、单程的还是在线 式中:“表示第k个样本属于第i簇的程度,t表 的、一个中心或者是多个中心(多个中心形成了一 示第k个样本属于第j簇的程度, 利用拉格朗 个约束对)等等的方法,都没有考虑数据块之间聚 日乘子法,可以得到划分矩阵U、T以及聚类中心V 类中心的相互影响,提及的FCM(c+p)算法很好地 的更新公式: 解决了这些问题。 ‖x-:川 为了增加数据块间聚类中心的相互影响程度, 儿= 点1岳+名 1x4-2,Ⅱ房 本文添加了一个平衡项“名I-旷,其中a Vk∈[1,N],ie[1,c] (4) 被称为平衡因子,往往它的取值与J(U,T,V)有 川-子1品 关。由此,可以得到提及算法的目标函数: 三1出高+名1-21品 r=1 J0,I.V=U,70+21V-I3 Vk∈[1,N],je[1,P] (5) 立 含宫11+名含G1 k=1 V= -,ie[1,c] (6) 名I%-rI (7) 式中:":表示第i簇的聚类中心,以表示第k个样 针对FCM算法对初始聚类中心敏感的问题, 本属于第i簇的程度,(.表示第k个样本属于第j FCPM算法采用了新的方法初始化聚类中心。通过 簇的程度,乙表示已知的第j簇的聚类中心,:表 该方法初始化未知类的聚类中心V,使用FCM算法 示经过FCPM算法得到的上一个数据块的聚类中 初始化已知类的聚类中心Z,再依次通过式(4)、 心。对所有的样本而言,都应该满足式(3)所示的 (5)和(6)获取模糊划分矩阵U和聚类中心V。文 关系。篇幅有限,FCM 算法的具体更新公式以及计算步骤 在此不做赘述。 传统的 FCM 算法让聚类中心尽可能地靠近样 本点,概率约束也只考虑了聚类中心之间的排斥力, 所有的样本重要性相同,同时对初始聚类中心敏感、 容易陷入局部最优,得到的聚类结果往往不理想。 Jacek M. Leski 考虑了类别间的相互影响,利用了新 的方法初始化聚类中心,采用固定一类求其他类的 方法,在 FCM 算法的基础上提出了模糊 c+p 均值聚 类算法 FCPM。 FCPM 算法中来自其他类的样本对本类的聚类 会产生影响,在某一类中,聚类中心应该吸引属于该 类的样本,而排斥其他类的样本。 设有 c 个聚类中 心来自一类,而 p 个聚类中心来自另一类,该算法把 N 个样本划分成为 c 簇,可得目标函数为 J(U,T,V) = ∑ c i = 1 ∑ N k = 1 μ m ik ‖ xk - vi‖2 + ∑ p j = 1 ∑ N k = 1 ζ m jk ‖ xk - zj‖2 (2) 式中: Vi 表示第 i 簇的聚类中心, zj 表示已知的聚类 中心。 对所有的样本而言,都应该满足如下关系: ∑ c i = 1 μik + ∑ p j = 1 ζjk = 1,μik ∈ [0,1], ζjk ∈ [0,1],∀k ∈ [1,N] (3) 式中: μik 表示第 k 个样本属于第 i 簇的程度, ζjk 表 示第 k 个样本属于第 j 簇的程度, 利用拉格朗 日乘子法,可以得到划分矩阵 U、T 以及聚类中心 V 的更新公式: μik = ‖ xk - vi‖ 2 1-m ∑ c l = 1 ‖ xk - vl‖ 2 1-m + ∑ p r = 1 ‖ xk - zr‖ 2 1-m ∀k ∈ [1,N],i ∈ [1,c] (4) ζjk = ‖xk - zj‖ 2 1-m ∑ c l = 1 ‖ xk - vl‖ 2 1-m + ∑ p r = 1 ‖ xk - zr‖ 2 1-m ∀k ∈ [1,N],j ∈ [1,p] (5) vi = ∑ N k = 1 μ m ik xk ∑ N k = 1 μ m ik ,∀i ∈ [1,c] (6) 针对 FCM 算法对初始聚类中心敏感的问题, FCPM 算法采用了新的方法初始化聚类中心。 通过 该方法初始化未知类的聚类中心 V,使用 FCM 算法 初始化已知类的聚类中心 Z,再依次通过式( 4)、 (5)和(6)获取模糊划分矩阵 U 和聚类中心 V。 文 献[19] 详细介绍了新的聚类中心初始化方法及 FCPM 算法,此处不再赘述。 如文献[19]所示,FCPM 算法在模糊系统建模 上得到了很好的应用。 该算法采用新的初始化聚类 中心的方法有效地避免了 FCM 算法对初始聚类中 心敏感的问题,通过先确定已知类聚类中心来求未 知类聚类中心的方法以提高算法的聚类性能。 通过 实验可以发现,FCPM 算法对一类已知的小样本数 据集有着不错的聚类性能,但对现实中的大规模数 据集而言,该算法的聚类性能会下降、算法效率会大 大降低甚至会由于样本过大而导致算法失效。 基于 这些问题,本文提出了适合大规模数据集的增量式 模糊聚类算法 IFCM(c+p)。 2 适合大规模数据集的增量式模糊聚 类算法 IFCM(c+p) 2.1 IFCM(c+p)算法 在增量式模糊聚类算法中,对每一个数据块进 行聚类的算法起着举足轻重的作用。 针对以往基于 FCM 的增量式模糊聚类算法对初始聚类中心敏感 的问题,文中采用了 FCPM 算法中提到的特别的方 法初始化聚类中心。 另外在传统的增量式模糊聚类 算法中,不管是静态的还是动态的、单程的还是在线 的、一个中心或者是多个中心(多个中心形成了一 个约束对)等等的方法,都没有考虑数据块之间聚 类中心的相互影响,提及的 IFCM(c+p)算法很好地 解决了这些问题。 为了增加数据块间聚类中心的相互影响程度, 本文添加了一个平衡项 α∑ c i = 1 ‖ vi - v o i ‖2 ,其中 α 被称为平衡因子,往往它的取值与 J(U,T,V) 有 关。 由此,可以得到提及算法的目标函数: J(U,T,V,α) = J(U,T,V) + α∑ c i = 1 ‖ Vi - V o i ‖2 = ∑ c i = 1 ∑ N k = 1 μ m ik ‖ xk - vi‖2 + ∑ p j = 1 ∑ N k = 1 ζ m jk ‖ xk - zj‖2 + α∑ c i = 1 ‖ vi - v o i ‖2 (7) 式中: vi 表示第 i 簇的聚类中心, μik 表示第 k 个样 本属于第 i 簇的程度, ζjk 表示第 k 个样本属于第 j 簇的程度, zj 表示已知的第 j 簇的聚类中心, V o i 表 示经过 FCPM 算法得到的上一个数据块的聚类中 心。 对所有的样本而言,都应该满足式(3) 所示的 关系。 ·190· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有