下面采用拉格朗日极值法求模糊划分矩阵Ｕ、Ｔ以及聚类中心Ｖ的更新公

正在加载图片...

第2期李滔，等：适合大规模数据集的增量式模糊聚类算法 ·191· 下面采用拉格朗日极值法求模糊划分矩阵U、整个数据集的聚类中心。 T以及聚类中心V的更新公式。 α=0时的情况仅仅考虑了某一数据块的聚类 G(U.T.V,A)= 中心及其周围的o个样本点对下一个数据块的聚 J〔U,T,a)-a(h4+-= 类性能的影响，这样得出的聚类效果并不理想。为 j=I 了提高聚类性能，应该考虑数据块间聚类中心的相 J(U,T,V)+a 互影响即α≠0时的情况，此时平衡项的加入很好地提高了聚类性能。 A(∑u 如下所述为IFCM(c+p)算法的具体计算步骤。 j=1 输入：X,c,P,m,no,E; 输出：聚类中心V。 i= 1)把样本集x随机划分成大小相等的s个子集即x={X,X2,…,X} i=1 Hk∈[1，N] (8) 2)定义一个空的集合Xnn和Xm; 对G(U,T,V,入)中的各个变量分别求偏导并 3)遍历所有的数据块获取聚类中心：令其等于零得： forl=1,2,…,s ①初始化未知类和已知类的聚类中心V、Z: u山=m2g1x-:2-A=0 ②把从上一数据块获得的样本X添加到当 i=1 前数据块，即X,={X,UXae}; pu=m立1-名2-A=0 ③使用式(4)、(5)和(10)计算当前数据块的聚类中心V,; -1=0 ④取出距当前数据块的聚类中心最近的n。个 i=1 i=1 样本点存入Xm中；》=-2∑44x4-:‖+ ⑤把聚类中心V,及其附近的n。个样本点存人 8. i=1 Xn中，即Xm={V,UX}; 2a∑Iy:-I=0 end for i=1 上述算法步骤2)的X用以存放每一个数据 (9) 块产生的聚类中心及其附近的n。个样本点Xm, 通过(9)可以很容易地求出模糊划分矩阵的更 3)对这s个数据块进行遍历，求其聚类中心。3)中新公式u和，如式(4)、(5)所示。可以发现，模的主要迭代过程在每个数据块中使用FCPM算法计糊划分矩阵U和T与平衡因子α无关。算聚类中心，使用欧氏距离求距聚类中心最近的o 由式(9)第4个等式可得个样本点，并把它们一同加入到下一个数据块中去参与聚类。注意在初始化聚类中心时，采用前面提 ∑x4+a 到的FCPM算法的初始化方法对已知类和未知类的 k= V:= -,ie[1,c] (10) 聚类中心Z、V进行初始化，聚类中心V和模糊隶属 ∑a+a k=1 度矩阵U的更新公式分别为(10)、(4)，‖·‖表从式(10)可以看出，根据平衡因子α是否等于示求欧氏距离。FCPM算法的迭代终止于聚类中心 0,又可以分为两种情况。的连续变化值的Frobenius范数小于ε。整个IFCM 当α=0即不考虑数据块间聚类中心的相互影 (c+p)算法终止于所有的数据块遍历结束并获得最响时，在每一个数据块的聚类过程中，将某个数据块终的聚类中心。产生的聚类中心加入下一个数据块中参与聚类，为 2.2算法的可行性分析了增大对数据块间聚类效果的影响程度，把距聚类正如传统的增量式聚类算法一样，IFCM(c+p)算中心最近的n。个样本点也一同加入下一个数据块法对每个数据块进行聚类。在IFCM(c+p)算法中，参与聚类，以此类推，直至计算出最后一个数据块的没有添加平衡项时，将每个数据块的c个聚类中心及聚类中心，这个最终的聚类中心就是我们所要求的距其最近的。个样本点作为一次聚类结果的历史信下面采用拉格朗日极值法求模糊划分矩阵Ｕ、Ｔ以及聚类中心Ｖ的更新公式。Ｇ（Ｕ，Ｔ，Ｖ，λ）＝Ｊ（Ｕ，Ｔ，Ｖ，α）－ λ（∑ ｃｉ＝１ μｉｋ＋ ∑ ｐｊ＝１ ζｊｋ－１）＝Ｊ（Ｕ，Ｔ，Ｖ）＋ α∑ ｃｉ＝１ ‖ ｖｉ－ｖｏｉ ‖２－ λ（∑ ｃｉ＝１ μｉｋ＋ ∑ ｐｊ＝１ ζｊｋ－１）＝ ∑ ｃｉ＝１ μ ｍｉｋ ‖ ｘｋ－ｖｉ‖２＋ ∑ ｐｊ＝１ ζ ｍｊｋ ‖ ｘｋ－ｚｊ‖２＋ α∑ ｃｉ＝１ ‖ ｖｉ－ｖｏｉ ‖２－ λ（∑ ｃｉ＝１ μｉｋ＋ ∑ ｐｊ＝１ ζｊｋ－１） ∀ｋ ∈ ［１，Ｎ］（８）对Ｇ（Ｕ，Ｔ，Ｖ，λ）中的各个变量分别求偏导并令其等于零得： ∂Ｊ（Ｕ，Ｔ，Ｖ，λ） ∂μｉｋ＝ｍ∑ ｃｉ＝１ μ ｍ－１ｉｋ ‖ ｘｋ－ｖｉ‖２－ λ ＝０ ∂Ｊ（Ｕ，Ｔ，Ｖ，λ） ∂ζｉｋ＝ｍ∑ ｃｉ＝１ ζ ｍ－１ｊｋ ‖ ｘｋ－ｚｊ‖２－ λ ＝０ ∂Ｊ（Ｕ，Ｔ，Ｖ，λ） ∂λ ＝ ∑ ｃｉ＝１ μｉｋ＋ ∑ ｐｊ＝１ ζｊｋ－１＝０ ∂Ｊ（Ｕ，Ｔ，Ｖ，λ） ∂ｖｉ＝－２∑ ｃｉ＝１ μ ｍｉｋ‖ ｘｋ－ｖｉ‖ ＋２α∑ ｃｉ＝１ ‖ ｖｉ－ｖｏｉ ‖ ＝０ ì î í ï ï ï ï ï ï ï ï ï ï ï ï ï ï ïï （９）通过（９）可以很容易地求出模糊划分矩阵的更新公式 μｉｋ和 ζｊｋ，如式（４）、（５）所示。可以发现，模糊划分矩阵Ｕ和Ｔ与平衡因子 α 无关。由式（９）第４个等式可得ｖｉ＝ ∑ Ｎｋ＝１ μ ｍｉｋｘｋ＋ α ｖｏｉ ∑ Ｎｋ＝１ μ ｍｉｋ＋ α ，∀ｉ ∈ ［１，ｃ］（１０）从式（１０）可以看出，根据平衡因子 α 是否等于０，又可以分为两种情况。当 α ＝０即不考虑数据块间聚类中心的相互影响时，在每一个数据块的聚类过程中，将某个数据块产生的聚类中心加入下一个数据块中参与聚类，为了增大对数据块间聚类效果的影响程度，把距聚类中心最近的ｎ０个样本点也一同加入下一个数据块参与聚类，以此类推，直至计算出最后一个数据块的聚类中心，这个最终的聚类中心就是我们所要求的整个数据集的聚类中心。 α ＝０时的情况仅仅考虑了某一数据块的聚类中心及其周围的ｎ０个样本点对下一个数据块的聚类性能的影响，这样得出的聚类效果并不理想。为了提高聚类性能，应该考虑数据块间聚类中心的相互影响即 α ≠ ０时的情况，此时平衡项的加入很好地提高了聚类性能。如下所述为ＩＦＣＭ（ｃ＋ｐ）算法的具体计算步骤。输入：Ｘ，ｃ，ｐ，ｍ，ｎ０，ε ；输出：聚类中心Ｖ。１）把样本集ｘ随机划分成大小相等的ｓ个子集即ｘ＝｛Ｘ１，Ｘ２，…，Ｘｓ｝；２）定义一个空的集合Ｘｉｎｃｒｅ和Ｘｎｅａｒ；３）遍历所有的数据块获取聚类中心：ｆｏｒｌ＝１，２，…，ｓ ①初始化未知类和已知类的聚类中心Ｖ、Ｚ； ②把从上一数据块获得的样本Ｘｉｎｃｒｅ添加到当前数据块，即Ｘｌ＝｛Ｘｌ ∪ Ｘｉｎｃｒｅ｝； ③使用式（４）、（５）和（１０）计算当前数据块的聚类中心Ｖｌ； ④取出距当前数据块的聚类中心最近的ｎ０个样本点存入Ｘｎｅａｒ中； ⑤把聚类中心Ｖｌ及其附近的ｎ０个样本点存入Ｘｉｎｃｒｅ中，即Ｘｉｎｃｒｅ＝｛Ｖｌ ∪ Ｘｎｅａｒ｝；ｅｎｄｆｏｒ上述算法步骤２）的Ｘｉｎｃｒｅ用以存放每一个数据块产生的聚类中心及其附近的ｎ０个样本点Ｘｎｅａｒ，３）对这ｓ个数据块进行遍历，求其聚类中心。３）中的主要迭代过程在每个数据块中使用ＦＣＰＭ算法计算聚类中心，使用欧氏距离求距聚类中心最近的ｎ０个样本点，并把它们一同加入到下一个数据块中去参与聚类。注意在初始化聚类中心时，采用前面提到的ＦＣＰＭ算法的初始化方法对已知类和未知类的聚类中心Ｚ、Ｖ进行初始化，聚类中心Ｖ和模糊隶属度矩阵Ｕ的更新公式分别为（１０）、（４）， ‖·‖ 表示求欧氏距离。ＦＣＰＭ算法的迭代终止于聚类中心的连续变化值的Ｆｒｏｂｅｎｉｕｓ范数小于 ε。整个ＩＦＣＭ（ｃ＋ｐ）算法终止于所有的数据块遍历结束并获得最终的聚类中心。２．２算法的可行性分析正如传统的增量式聚类算法一样，ＩＦＣＭ（ｃ＋ｐ）算法对每个数据块进行聚类。在ＩＦＣＭ（ｃ＋ｐ）算法中，没有添加平衡项时，将每个数据块的ｃ个聚类中心及距其最近的ｎ０个样本点作为一次聚类结果的历史信第２期李滔，等：适合大规模数据集的增量式模糊聚类算法 ·１９１·

<<向上翻页向下翻页>>

点击下载：【机器学习】适合大规模数据集的增量式模糊聚类算法编辑部