谱聚类初始化敏感的实质原因 ,通过引入模糊 K2 Harmonic mea

正在加载图片...

·96 智能系统学报第4卷谱聚类初始化敏感的实质原因，通过引入模糊K~ 知识易知，矩阵A1经过若干次初等行或者列变换 Hamonic means(FKM)算法来解决对初值敏感的则可以得到矩阵A2,故矩阵A,和A2相似.同理，当问题，从而得到更稳定的聚类性能.在人工数据和真以任意顺序输入得到的相似矩阵A,均与A,相似. 实数据上进行实验模拟，结果表明，FKHM-SC算法由于矩阵D,为对角矩阵，其主对角元素为相似矩相对于原有谱聚类算法(SC)和传统的Kmeans 阵A的相应各行元素之和，故矩阵D,和D2相似 (KM)算法和fuzzy Cmeans(FQM)算法在聚类性能因为L1=Di12A,D12,L2=D21PA2D;1n,且和稳定性上有了显著的提高 D,、D,为对角矩阵，由上面的相似关系可知矩阵L1 1谱聚类算法的初始化敏感分析和L,相似，其对应的特征向量x经过若干次初等变换可以得到特征向量，则生成矩阵Y和Y2亦谱聚类算法将数据聚类看成是一个无向图的多相似.故结论成立路划分问题，由于图划分问题的组合本质，求图划分判据的最优解是一个NP难题[6).一个有效的求解 2 改进的谱聚类算法方法是考虑问题的连续放松形式，将原有问题转换通过定理1可知，不同输入顺序得到的相似矩为求解矩阵的特征值和特征向量问题，利用这些特阵A和最终的生成矩阵Y是相似的，故谱聚类算法征向量构造一个简化了的数据空间，在该空间中的对初始值敏感的实质在于NW算法从特征向量获数据的分布结构更加明显，代表性算法有Ng等人得最终的聚类方法是否对初始化敏感.传统的K- 提出的NW算法I四 means和FOM算法对初始中心敏感I1,对于不同的 NW算法本质上是利用相似矩阵的特征向量初始值，可能得到不同的聚类结果.在此基础上，通进行聚类，选取构造矩阵的前K个最大特征值所对过引入对初值不敏感的模糊K-hamonic means算法应的特征向量，从而在K维空间中构成与原数据一来克服这一缺点一对应的表述，进而在K维空间中利用Kmeansi或 21模糊K-hamonic means算法其他简单算法进行聚类，模糊K-hamonic means(FKHM)算法I1是一种现有的各种谱聚类算法的差异之处在于：1)构基于中心的聚类算法，将模糊概念应用到M算造的相似矩阵不同；2)使用的特征向量不同；3)从法中，应用数据点对不同聚类的隶属度对目标函特征向量获得最终的聚类方法不同；4)从连续变量数中的距离测度进行模糊加权.设X=x,|i=1, 放松到离散变量的方法不同.NW算法是基于上述 :n}为n个数据点的集合，C=C|广=1，…k好的第3种多类实现方法给出的一种简单有效方法，为k个聚类中心的集合，d,=‖X,-C‖表示为数由于传统的Kmeans?算法对初始值敏感，故NW算据对象到聚类中心的距离表示，采用欧式距离表示法对初值敏感是否归结于最终的聚类方法.下面给其目标函数为出谱聚类算法对初值敏感的证明定理1设数据集S={,},以2种不 (1 同顺序输入得到的相似矩阵为A、A2,对角矩阵为六wd, D1、D2,构造矩阵为L1、L2,生成矩阵为Y、Y,则A 式中：w,∈[0,1]表示数据对象X,对聚类中心C 和A2相似，D1和D2相似，L,和L2相似，Y和Y2 k 相似的隶属度，且 ∑"g=l,a≥0为模糊算子.隶属度证明设以，，顺序输入得到的相函数和聚类中心更新公式为 0A12…A1 (1/d) (2) 似矩阵A1 A21 0 A3 ,以，虽，…马逆 … … .ve Anl An2 0 X 序输入得到的相似矩阵 54 0 An(n-1) Anl C,= 3) W可 A(n.Un 0 2 由矩阵 wrdsi)2 A2n 算法描述为：初始化聚类中心，通过式(2)和式 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net谱聚类初始化敏感的实质原因 ,通过引入模糊 K2 Harmonic means(FKHM)算法来解决对初值敏感的问题 ,从而得到更稳定的聚类性能. 在人工数据和真实数据上进行实验模拟 ,结果表明 , FKHM2SC算法相对于原有谱聚类算法 ( SC) 和传统的 K2means (KM)算法和 fuzzy C2means(FCM )算法在聚类性能和稳定性上有了显著的提高. 1 谱聚类算法的初始化敏感分析谱聚类算法将数据聚类看成是一个无向图的多路划分问题 ,由于图划分问题的组合本质 ,求图划分判据的最优解是一个 NP难题 [ 6 ] . 一个有效的求解方法是考虑问题的连续放松形式 ,将原有问题转换为求解矩阵的特征值和特征向量问题 ,利用这些特征向量构造一个简化了的数据空间 ,在该空间中的数据的分布结构更加明显 ,代表性算法有 Ng等人提出的 NJW 算法 [ 7 ] . NJW 算法本质上是利用相似矩阵的特征向量进行聚类 ,选取构造矩阵的前 K个最大特征值所对应的特征向量 ,从而在 K维空间中构成与原数据一一对应的表述 ,进而在 K维空间中利用 K2means或其他简单算法进行聚类. 现有的各种谱聚类算法的差异之处在于 : 1)构造的相似矩阵不同 ; 2)使用的特征向量不同 ; 3)从特征向量获得最终的聚类方法不同 ; 4)从连续变量放松到离散变量的方法不同. NJW 算法是基于上述的第 3种多类实现方法给出的一种简单有效方法 , 由于传统的 K2means算法对初始值敏感 ,故 NJW 算法对初值敏感是否归结于最终的聚类方法. 下面给出谱聚类算法对初值敏感的证明. 定理 1 设数据集 S = { s1 , …, sn } ,以 2种不同顺序输入得到的相似矩阵为 A1、A2 ,对角矩阵为 D1、D2 ,构造矩阵为 L1、L2 ,生成矩阵为 Y1、Y2 ,则 A1 和 A2 相似 , D1 和 D2 相似 , L1 和 L2 相似 , Y1 和 Y2 相似. 证明设以 s1 , s2 , …, sn 顺序输入得到的相似矩阵 A1 = 0 A12 … A1n A21 0 … A2n … … … … An1 An2 … 0 ,以 s1 , s2 , …, sn逆序输入得到的相似矩阵 A2 = 0 An ( n - 1) … An1 A ( n - 1) n 0 … A ( n - 1) 1 … … … … A1n A2n … 0 , 由矩阵知识易知 ,矩阵 A1 经过若干次初等行或者列变换则可以得到矩阵 A2 ,故矩阵 A1 和 A2 相似. 同理 ,当以任意顺序输入得到的相似矩阵 A2 均与 A1 相似. 由于矩阵 D1 为对角矩阵 ,其主对角元素为相似矩阵 A1 的相应各行元素之和 ,故矩阵 D1 和 D2 相似. 因为 L1 =D - 1 /2 1 /A1D - 1 /2 1 , L2 =D - 1 /2 2 A2D - 1 /2 2 ,且 D1、D2 为对角矩阵 ,由上面的相似关系可知矩阵 L1 和 L2 相似 ,其对应的特征向量 x1 经过若干次初等变换可以得到特征向量 x2 ,则生成矩阵 Y1 和 Y2 亦相似. 故结论成立. 2 改进的谱聚类算法通过定理 1可知 ,不同输入顺序得到的相似矩阵 A和最终的生成矩阵 Y是相似的 ,故谱聚类算法对初始值敏感的实质在于 NJW 算法从特征向量获得最终的聚类方法是否对初始化敏感. 传统的 K2 means和 FCM算法对初始中心敏感 [ 5 ] ,对于不同的初始值 ,可能得到不同的聚类结果. 在此基础上 ,通过引入对初值不敏感的模糊 K2harmonic means算法来克服这一缺点. 2. 1 模糊 K2harmonic means算法模糊 K2harmonic means(FKHM )算法 [ 8 ]是一种基于中心的聚类算法 ,将模糊概念应用到 KHM 算法 [ 9 ]中 ,应用数据点对不同聚类的隶属度对目标函数中的距离测度进行模糊加权. 设 X = { xi | i = 1, …, n} 为 n个数据点的集合 , C = { Cj | j = 1, …, k} 为 k个聚类中心的集合 , di, j = ‖Xi - Cj‖表示为数据对象到聚类中心的距离表示 ,采用欧式距离表示. 其目标函数为 EFHKM = ∑ n i =1 k ∑ k j=1 1 w α ij d 2 i, j . (1) 式中 : wij ∈ [ 0, 1 ]表示数据对象 Xi 对聚类中心 Cj 的隶属度 ,且 ∑ k j=1 wij = 1,α≥0为模糊算子. 隶属度函数和聚类中心更新公式为 wij = (1 / d 2 i, j ) 1 / (α+1) ∑ k z =1 (1 / d 2 i, z ) 1 / (α+1) , (2) Cj = ∑ n i =1 w α ij ∑ k z =1 ( w α ij d 2 i, j w α iz d 2 i, z ) 2 Xi ∑ n i =1 w α ij ∑ k z =1 ( w α ij d 2 i, j w α iz d 2 i, z ) 2 . (3) 算法描述为 :初始化聚类中心 ,通过式 (2)和式 ·96· 智能系统学报第 4卷

<<向上翻页向下翻页>>

点击下载：机器学习：基于模糊K-harmonic means的谱聚类算法