篇幅有限，ＦＣＭ算法的具体更新公式以及计算步骤在此不做赘述。传统的

正在加载图片...

·190 智能系统学报第11卷篇幅有限，FCM算法的具体更新公式以及计算步骤献[19]详细介绍了新的聚类中心初始化方法及在此不做赘述。 FCPM算法，此处不再赘述。传统的F℃M算法让聚类中心尽可能地靠近样如文献[19]所示，FCPM算法在模糊系统建模本点，概率约束也只考虑了聚类中心之间的排斥力，上得到了很好的应用。该算法采用新的初始化聚类所有的样本重要性相同，同时对初始聚类中心敏感、中心的方法有效地避免了CM算法对初始聚类中容易陷入局部最优，得到的聚类结果往往不理想。心敏感的问题，通过先确定已知类聚类中心来求未 Jacek M.Leski考虑了类别间的相互影响，利用了新知类聚类中心的方法以提高算法的聚类性能。通过的方法初始化聚类中心，采用固定一类求其他类的实验可以发现，FCPM算法对一类已知的小样本数方法，在FCM算法的基础上提出了模糊c+p均值聚据集有着不错的聚类性能，但对现实中的大规模数类算法FCPM。据集而言，该算法的聚类性能会下降、算法效率会大 FCPM算法中来自其他类的样本对本类的聚类大降低甚至会由于样本过大而导致算法失效。基于会产生影响，在某一类中，聚类中心应该吸引属于该这些问题，本文提出了适合大规模数据集的增量式类的样本，而排斥其他类的样本。设有c个聚类中模糊聚类算法IFCM(c+p)。心来自一类，而p个聚类中心来自另一类，该算法把 N个样本划分成为c簇，可得目标函数为 2 适合大规模数据集的增量式模糊聚 J(U,T,V)= 名AI+ 类算法IFCM(c+p) 含区1 (2) 2.1FCM(c+p)算法在增量式模糊聚类算法中，对每一个数据块进式中：V表示第i簇的聚类中心，表示已知的聚类行聚类的算法起着举足轻重的作用。针对以往基于中心。对所有的样本而言，都应该满足如下关系： FCM的增量式模糊聚类算法对初始聚类中心敏感之4a+2a=14e[0,1]. 的问题，文中采用了FCPM算法中提到的特别的方 i=1 j=1 法初始化聚类中心。另外在传统的增量式模糊聚类 54∈[0,1]，Vk∈[1，N] (3) 算法中，不管是静态的还是动态的、单程的还是在线式中：“表示第k个样本属于第i簇的程度，t表的、一个中心或者是多个中心（多个中心形成了一示第k个样本属于第j簇的程度，利用拉格朗个约束对)等等的方法，都没有考虑数据块之间聚日乘子法，可以得到划分矩阵U、T以及聚类中心V 类中心的相互影响，提及的FCM(c+p)算法很好地的更新公式：解决了这些问题。 ‖x-:川为了增加数据块间聚类中心的相互影响程度，儿= 点1岳+名 1x4-2,Ⅱ房本文添加了一个平衡项“名I-旷，其中a Vk∈[1，N],ie[1,c] (4) 被称为平衡因子，往往它的取值与J(U,T,V)有川-子1品关。由此，可以得到提及算法的目标函数：三1出高+名1-21品 r=1 J0,I.V=U,70+21V-I3 Vk∈[1，N],je[1,P] (5) 立含宫11+名含G1 k=1 V= -,ie[1,c] (6) 名I%-rI (7) 式中："：表示第i簇的聚类中心，以表示第k个样针对FCM算法对初始聚类中心敏感的问题，本属于第i簇的程度，(.表示第k个样本属于第j FCPM算法采用了新的方法初始化聚类中心。通过簇的程度，乙表示已知的第j簇的聚类中心，：表该方法初始化未知类的聚类中心V,使用FCM算法示经过FCPM算法得到的上一个数据块的聚类中初始化已知类的聚类中心Z,再依次通过式(4)、心。对所有的样本而言，都应该满足式(3)所示的 (5)和(6)获取模糊划分矩阵U和聚类中心V。文关系。篇幅有限，ＦＣＭ算法的具体更新公式以及计算步骤在此不做赘述。传统的ＦＣＭ算法让聚类中心尽可能地靠近样本点，概率约束也只考虑了聚类中心之间的排斥力，所有的样本重要性相同，同时对初始聚类中心敏感、容易陷入局部最优，得到的聚类结果往往不理想。ＪａｃｅｋＭ．Ｌｅｓｋｉ考虑了类别间的相互影响，利用了新的方法初始化聚类中心，采用固定一类求其他类的方法，在ＦＣＭ算法的基础上提出了模糊ｃ＋ｐ均值聚类算法ＦＣＰＭ。ＦＣＰＭ算法中来自其他类的样本对本类的聚类会产生影响，在某一类中，聚类中心应该吸引属于该类的样本，而排斥其他类的样本。设有ｃ个聚类中心来自一类，而ｐ个聚类中心来自另一类，该算法把Ｎ个样本划分成为ｃ簇，可得目标函数为Ｊ（Ｕ，Ｔ，Ｖ）＝ ∑ ｃｉ＝１ ∑ Ｎｋ＝１ μ ｍｉｋ ‖ ｘｋ－ｖｉ‖２＋ ∑ ｐｊ＝１ ∑ Ｎｋ＝１ ζ ｍｊｋ ‖ ｘｋ－ｚｊ‖２（２）式中：Ｖｉ表示第ｉ簇的聚类中心，ｚｊ表示已知的聚类中心。对所有的样本而言，都应该满足如下关系： ∑ ｃｉ＝１ μｉｋ＋ ∑ ｐｊ＝１ ζｊｋ＝１，μｉｋ ∈ ［０，１］， ζｊｋ ∈ ［０，１］，∀ｋ ∈ ［１，Ｎ］（３）式中： μｉｋ表示第ｋ个样本属于第ｉ簇的程度， ζｊｋ表示第ｋ个样本属于第ｊ簇的程度，利用拉格朗日乘子法，可以得到划分矩阵Ｕ、Ｔ以及聚类中心Ｖ的更新公式： μｉｋ＝ ‖ ｘｋ－ｖｉ‖ ２１－ｍ ∑ ｃｌ＝１ ‖ ｘｋ－ｖｌ‖ ２１－ｍ＋ ∑ ｐｒ＝１ ‖ ｘｋ－ｚｒ‖ ２１－ｍ ∀ｋ ∈ ［１，Ｎ］，ｉ ∈ ［１，ｃ］（４） ζｊｋ＝ ‖ｘｋ－ｚｊ‖ ２１－ｍ ∑ ｃｌ＝１ ‖ ｘｋ－ｖｌ‖ ２１－ｍ＋ ∑ ｐｒ＝１ ‖ ｘｋ－ｚｒ‖ ２１－ｍ ∀ｋ ∈ ［１，Ｎ］，ｊ ∈ ［１，ｐ］（５）ｖｉ＝ ∑ Ｎｋ＝１ μ ｍｉｋｘｋ ∑ Ｎｋ＝１ μ ｍｉｋ，∀ｉ ∈ ［１，ｃ］（６）针对ＦＣＭ算法对初始聚类中心敏感的问题，ＦＣＰＭ算法采用了新的方法初始化聚类中心。通过该方法初始化未知类的聚类中心Ｖ，使用ＦＣＭ算法初始化已知类的聚类中心Ｚ，再依次通过式（４）、（５）和（６）获取模糊划分矩阵Ｕ和聚类中心Ｖ。文献［１９］详细介绍了新的聚类中心初始化方法及ＦＣＰＭ算法，此处不再赘述。如文献［１９］所示，ＦＣＰＭ算法在模糊系统建模上得到了很好的应用。该算法采用新的初始化聚类中心的方法有效地避免了ＦＣＭ算法对初始聚类中心敏感的问题，通过先确定已知类聚类中心来求未知类聚类中心的方法以提高算法的聚类性能。通过实验可以发现，ＦＣＰＭ算法对一类已知的小样本数据集有着不错的聚类性能，但对现实中的大规模数据集而言，该算法的聚类性能会下降、算法效率会大大降低甚至会由于样本过大而导致算法失效。基于这些问题，本文提出了适合大规模数据集的增量式模糊聚类算法ＩＦＣＭ（ｃ＋ｐ）。２适合大规模数据集的增量式模糊聚类算法ＩＦＣＭ（ｃ＋ｐ）２．１ＩＦＣＭ（ｃ＋ｐ）算法在增量式模糊聚类算法中，对每一个数据块进行聚类的算法起着举足轻重的作用。针对以往基于ＦＣＭ的增量式模糊聚类算法对初始聚类中心敏感的问题，文中采用了ＦＣＰＭ算法中提到的特别的方法初始化聚类中心。另外在传统的增量式模糊聚类算法中，不管是静态的还是动态的、单程的还是在线的、一个中心或者是多个中心（多个中心形成了一个约束对）等等的方法，都没有考虑数据块之间聚类中心的相互影响，提及的ＩＦＣＭ（ｃ＋ｐ）算法很好地解决了这些问题。为了增加数据块间聚类中心的相互影响程度，本文添加了一个平衡项 α∑ ｃｉ＝１ ‖ ｖｉ－ｖｏｉ ‖２，其中 α 被称为平衡因子，往往它的取值与Ｊ（Ｕ，Ｔ，Ｖ）有关。由此，可以得到提及算法的目标函数：Ｊ（Ｕ，Ｔ，Ｖ，α）＝Ｊ（Ｕ，Ｔ，Ｖ）＋ α∑ ｃｉ＝１ ‖ Ｖｉ－Ｖｏｉ ‖２＝ ∑ ｃｉ＝１ ∑ Ｎｋ＝１ μ ｍｉｋ ‖ ｘｋ－ｖｉ‖２＋ ∑ ｐｊ＝１ ∑ Ｎｋ＝１ ζ ｍｊｋ ‖ ｘｋ－ｚｊ‖２＋ α∑ ｃｉ＝１ ‖ ｖｉ－ｖｏｉ ‖２（７）式中：ｖｉ表示第ｉ簇的聚类中心， μｉｋ表示第ｋ个样本属于第ｉ簇的程度， ζｊｋ表示第ｋ个样本属于第ｊ簇的程度，ｚｊ表示已知的第ｊ簇的聚类中心，Ｖｏｉ表示经过ＦＣＰＭ算法得到的上一个数据块的聚类中心。对所有的样本而言，都应该满足式（３）所示的关系。 ·１９０· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】适合大规模数据集的增量式模糊聚类算法编辑部