第十九章 聚类分析 Clustering Analysis
Clustering Analysis 第十九章 聚 类 分 析
判别分析:已知分为若干类的前提下,判 定观察对象的归属。 聚类分析:不知道应分多少类的情况下, 进行探索性分析,对观察对象 依据某些数量特征适当分类。 1指标聚类(R型聚类) 2样品聚类(Q型聚类)
判别分析:已知分为若干类的前提下,判 定观察对象的归属。 聚类分析:不知道应分多少类的情况下, 进行探索性分析,对观察对象 依据某些数量特征适当分类。 1.指标聚类(R型聚类) 2.样品聚类(Q型聚类)
第一节相似条数 聚类分析的关键是如何定义类间的 相似性,如何把相似性数量化
第一节 相似系数 聚类分析的关键是如何定义类间的 相似性,如何把相似性数量化
相似糸数 1.指标聚类: 简单相关系数(定量) EX XiX:-X ∑ XiX.-X 列联系数(定性): C R×C表 Pearson2 X tn 0<C<1
相似系数 1.指标聚类: 简单相关系数(定量): 2 j j 2 i i j j i i ij X X X X X X X X r n C 2 2 列联系数(定性): R×C表Pearson2 0<C<1
相似糸数 2样品聚类: 将n例样品看成是m维空间的n个点,用两 点间距离定义相似系数。 (1)欧氏距离( Euclidean distance) d=E(x-x
2.样品聚类: 将n例样品看成是m维空间的n个点,用两 点间距离定义相似系数。 (1)欧氏距离(Euclidean distance) 2 dij Xi Xj 相似系数
相似糸数 (2)绝对距离( Manhattan distance) 行=y2X:-X (3)明考斯基距离( Minkowski distance)
(2)绝对距离(Manhattan distance) dij Xi Xj q i j q dij X X 相似系数 (3)明考斯基距离(Minkowski distance)
(4)马氏距离( Mahalanobis distance) 相似 数 d;; = XS-1X Xi1-xil 11 12 lm X12-X12 22 2m X《= S= Xim -xir S_,S,…S m2 mm
(4)马氏距离(Mahalanobis distance) dij=X’ S-1 X 相似系数 im jm i2 j2 i1 j1 X X X X X X X= m1 m2 mm 21 22 2m 11 12 1m S S S S S S S S S S=
第二节糸统聚类 1.开始各个样品或指标独为一类; 2.计算各类间相似系数,形成矩阵; 3.将相似系数最大的两类合并成新类; 4.计算新类与其余类间相似系数,形成矩阵; 5.重复第3、4步,直至全部样品或指标并为 类
第二节 系统聚类 1.开始各个样品或指标独为一类; 2.计算各类间相似系数,形成矩阵; 3.将相似系数最大的两类合并成新类; 4.计算新类与其余类间相似系数,形成矩阵; 5.重复第3、4步,直至全部样品或指标并为 一类
糸统聚类 类间相似系数计算 当两类各含一个样品或指标时,两类间相似 系数即两样品或指标间相似系数d1;或r;j 当两类含有两个或以上样品或指标时,两类 间相似系数有多种定义。 Gn、G表示两类,各含n、nn个样品或指标, 共有n×n个相似系数
一 、类间相似系数计算 当两类各含一个样品或指标时,两类间相似 系数即两样品或指标间相似系数dij或rij。 当两类含有两个或以上样品或指标时,两类 间相似系数有多种定义。 Gp、Gq表示两类,各含np、nq个样品或指标, 共有np×nq个相似系数。 系统聚类
糸统聚类 1.最大相似系数法 Dm=Min(a)样品聚类 i∈Gp,j∈Gq rm=Max(rn)指标聚类 G P 2.最小相似系数法 Dm=Max(dn)样品聚类 Gn,j∈G in(rn)指标聚类 i∈G,i∈G
1.最大相似系数法 指标聚类 样品聚类 r r D d ij i G , j G pq ij i G , j G pq Max Min p q p q 2.最小相似系数法 指标聚类 样品聚类 r r D d ij i G , j G pq ij i G , j G pq Min Max p q p q 系统聚类