聚类分析 1聚类分析的基本思想 相似度的度量 五种系统聚类法 4系统聚类方法的SPS9现 5K-均值聚类法的SPS实现
聚类分析 1 聚类分析的基本思想 2 相似度的度量 3 五种系统聚类法 4 系统聚类方法的SPSS实现 5 K-均值聚类法的SPSS实现
聚类分析原理 o聚类分析的对象 1对样本进行分类 2.对指标或变量进行分类 聚类分析方法 1.糸统聚类法(分层聚类) 2.动态聚类法(K-均值聚类)
聚类分析原理 聚类分析的对象 1.对样本进行分类 2.对指标或变量进行分类 聚类分析方法 1.系统聚类法(分层聚类) 2.动态聚类法(K-均值聚类)
系统聚类法与聚类步骤流程图 初始分类:G1={x1}G2={x2)…Gn={xn ken 若G与G距离最小合并为一类 k<n-1 类与类之间距离定 义的不同导致不同 k=K no 的系统聚类方法 yes 输出分类结果
系统聚类法与聚类步骤流程图 初始分类: , , ; 1 1 2 2 n n G = x G = x G = x k n 若 Gi 与 Gj 距离最小,合并为一类 k n−1 k = K no 输出分类结果 yes 类与类之间距离定 义的不同导致不同 的系统聚类方法
动态聚类法K-均值聚类)与聚类步骤流程图 寻找K个凝聚点:x1,2,…,XK 若小(x,x)mm(x1x)则x∈G:得G,G2…,G 计算各类的重心:x12x2,…2xk 若减(x,x)=m(x,x)则x∈G:得G,G2,…Gk 计算各类的重心:x1 “K 重心改变yes I no 输出分类结果
yes 动态聚类法(K-均值聚类)与聚类步骤流程图 寻找K个凝聚点: i i iK x , x , , x 1 2 若 d(xl , xik ) = 1 min jK d(xl , xij) 则 xl Gk 0 ;得 0 0 2 0 1 , , , G G GK 计算各类的重心: x x xK , , , 1 2 若 d(xl , xk ) = 1 min jK d(xl , xj ) 则 xl Gk ;得 G G GK , , , 1 2 计算各类的重心: K x , x , , x 1 2 重心改变 输出分类结果 no
相似度的度量(样本间的距离) O欧式距离(Xx,X)=(Xx-X)(X-X 样本离差阵 o马氏距离d2(X,X)=(X-X)S(x1-X1) d(X,G=(X-XS (X-X 点到总体的马氏距离 O明氏距离 d,(q)=
相似度的度量(样本间的距离) 欧式距离 马氏距离 明氏距离 ( , ) ( ) ( ) 2 Xi X j Xi X j Xi X j d = − − ( , ) ( ) ( ) 2 1 i j i j Xi X j d X X = X − X S − − q q p k ij ki kj d q x x 1 1 ( ) ( ) = = − ( , ) ( ) ( ) 2 1 d X G = X − X S X − X − 一点到总体的马氏距离 样本离差阵
相似度的度量(指标间的相似系数) O夹角余孩 O相关糸数
相似度的度量(指标间的相似系数) 夹角余弦 相关系数 O a b
指标1与指标2间的夹角余弦 X1→(x1 n X,→x21 22 x2n X→x P 2 pn Ikk k: 12 2k k=1
指标1与指标2间的夹角余弦 = = = = n k n k k k n k k k x x x x C 1 1 2 1 2 2 2 1 1 1 2 1 2 [( )( )] p n n n p p x x x x x x x x x 2 1 2 2 2 1 2 1 2 1 1 1 , , , X1 X2 X p
指标1与指标2间的相关系数 ∑(xk-x)x2k R k=1 12 ∑(x1k-x)∑(x2k-x2)22 k=1
指标1与指标2间的相关系数 1 2 1 1 2 2 2 2 1 1 1 1 1 2 2 1 2 [ ( ) ( ) ] ( )( ) = = = − − − − = n k n k k k n k k k x x x x x x x x R
五种系统聚类方法 最短距离法( nearest neighbor) d(G, G q min d(xi, x X;∈Gn,X;∈G ②最长距离法( furthest neighbor) d(Gn, Ga)= max d(X,x P X;∈Gn,X;∈G ●重心法( centroid clustering) d(,, Go=d(xn,ka
五种系统聚类方法 最短距离法(nearest neighbor) 最长距离法(furthest neighbor) 重心法( centroid clustering ) ( , ) min ( , ) , i j X G X G d Gp Gq d X X i p j q = ( , ) max ( , ) , i j X G X G d Gp Gq d X X i p j q = ( , ) ( , ) d Gp Gq = d Xp Xq
9类平均法( Average linkage) ∑∑叭(X,X) p'q XEGp Xi p>q ∑∑d(X1,X pg Xi∈CpX/∈Gq
类平均法(Average linkage) = Xi Gp X j Gq i j p q p q d X X n n d G G ( , ) 1 ( , ) = Xi Gp X j Gq i j p q p q d X X n n d G G ( , ) 1 ( , ) 2 2