中国科学技术大学：《多元统计分析》课程教学资源（课件讲义）第十讲聚类分析

团购合买资源类别：文库，文档格式：PDF，文档页数：42，文件大小：1.29MB

简介 1.1 简介 1 1.2 距离与相异性度量 6 1.3 聚类方法 11 1.3.1系统聚类法 12 1.3.2 K-means.. 19 1.3.3谱聚类. 24 1.4确定类的数目 30 1.5聚类质量的评价... 38 Previous Next First Last Back Forward 1

简介 1.1 简介 . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 距离与相异性度量 . . . . . . . . . . . . . . . 6 1.3 聚类方法 . . . . . . . . . . . . . . . . . . . . 11 1.3.1 系统聚类法 . . . . . . . . . . . . . . . 12 1.3.2 K-means . . . . . . . . . . . . . . . . . 19 1.3.3 谱聚类 . . . . . . . . . . . . . . . . . . 24 1.4 确定类的数目 . . . . . . . . . . . . . . . . . . 30 1.5 聚类质量的评价 . . . . . . . . . . . . . . . . . 38 Previous Next First Last Back Forward 1

1.1 简介 ·将一组数据依照内在相似性划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。 ·聚类分析假设数据的特征允许我们可以识别不同的类别，但事先并不知道数据由几个组构成，因而是一种无监督的学习。 ·同义词：data segmentation(数据挖掘领域)、class discovery (机器学习领域)。 ·应用领域包括经济领域，生物领域，数据挖掘等等 ·例如商店希望刻画顾客群的特征，区分不同的客户类，挖掘有价值的客户，以制定不同的关系管理方式，提高客户对商业活动的响应率 Previous Next First Last Back Forward 1

1.1 简介 • 将一组数据依照内在相似性划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。 • 聚类分析假设数据的特征允许我们可以识别不同的类别，但事先并不知道数据由几个组构成，因而是一种无监督的学习。 • 同义词：data segmentation（数据挖掘领域）、class discovery （机器学习领域）。 • 应用领域包括经济领域，生物领域，数据挖掘等等 • 例如商店希望刻画顾客群的特征，区分不同的客户类，挖掘有价值的客户，以制定不同的关系管理方式，提高客户对商业活动的响应率 Previous Next First Last Back Forward 1

相关的研究领域一数据挖掘：各种各种复杂形状类的识别，高维聚类等一统计学：主要集中在基于距离的聚类分析，发现球状类一机器学习：无指导学习（聚类不依赖预先定义的类）一其他领域：空间数据技术，生物学，市场营销学什么是类？ -至今还没有普遍接受的定义：哪些特征决定了一个类。因此，不同的聚类方法多得到不同的聚类结果。一直观上：一个类是一组个体（对象、点等），这些个体离这个类的中心个体比较“近”（在合适的度量下）；不同类的成员之间的距离“比较远”。 Previous Next First Last Back Forward 2

相关的研究领域 – 数据挖掘: 各种各种复杂形状类的识别，高维聚类等 – 统计学: 主要集中在基于距离的聚类分析，发现球状类 – 机器学习: 无指导学习（聚类不依赖预先定义的类） – 其他领域: 空间数据技术, 生物学, 市场营销学什么是类? – 至今还没有普遍接受的定义：哪些特征决定了一个类。因此，不同的聚类方法多得到不同的聚类结果。 – 直观上：一个类是一组个体（对象、点等），这些个体离这个类的中心个体比较“近”（在合适的度量下）；不同类的成员之间的距离“比较远”。 Previous Next First Last Back Forward 2

·在2D或3D散点图中，我 00 们很容易的发现数据中的 00d000 o 类。 80 89 ,对发现的类我们经常赋予我们认为“应该”会存在的结构或者意义。。必须注意：“类”可能仅仅是一个聚类方法的结果 ·一个“类”依赖于如何定义它以及应用背景 Previous Next First Last Back Forward 3

• 在 2D 或 3D 散点图中，我们很容易的发现数据中的类。 • 对发现的类我们经常赋予我们认为“应该”会存在的结构或者意义。 • 必须注意：“类”可能仅仅是一个聚类方法的结果 • 一个“类”依赖于如何定义它以及应用背景 Previous Next First Last Back Forward 3

聚类与分类(clustering and classification) ·分类：一有类别标记信息.因此是一种监督学习一根据训练样本获得分类器，然后把每个数据归结到某个已知的类，进而也可以预测未来数据的归类。一分类具有广泛的应用，例如医疗诊断、信用卡的信用分级、图像模式识别。 ·聚类：一无类别标记，因此是一种无监督学习一无训练样本，根据信息相似度原则进行聚类，通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的关系 Previous Next First Last Back Forward 4

聚类与分类(clustering and classification) • 分类： – 有类别标记信息, 因此是一种监督学习 – 根据训练样本获得分类器，然后把每个数据归结到某个已知的类，进而也可以预测未来数据的归类。 – 分类具有广泛的应用，例如医疗诊断、信用卡的信用分级、图像模式识别。 • 聚类： – 无类别标记, 因此是一种无监督学习 – 无训练样本，根据信息相似度原则进行聚类，通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的关系 Previous Next First Last Back Forward 4

·使用可视化工具探测类一多峰性是不同类存在的标志 -多种可视化技术可以使用：PCA,FA,MDS,Manifest learning,SOM等等. Previous Next First Last Back Forward

• 使用可视化工具探测类 – 多峰性是不同类存在的标志 – 多种可视化技术可以使用: PCA, FA, MDS, Manifest learning, SOM 等等. Previous Next First Last Back Forward 5

1.2 距离与相异性度量 ·聚类就是发现数据中具有“相似性”(similarity)的个体 ·选择合适的“相似性”度量是进行聚类的关键，相似性度量函数s(,)一般满足 1.0≤s(x,y）≤1 2.s(x,x)=1 3.s(x,y)=s(y,x) ·也可以使用相异性(dissimilarity)来度量数据之间的接近程度. 下面我们以相异性为例.相异性度量和相似性度量之间一般可以相互转换 ·相异性度量多为某种”距离”度量 ·样本点之间的相异性（距离）函数d(,)一般满足 Previous Next First Last Back Forward 6

1.2 距离与相异性度量 • 聚类就是发现数据中具有“相似性”(similarity) 的个体 • 选择合适的“相似性”度量是进行聚类的关键, 相似性度量函数 s(·, ·) 一般满足 1. 0 ≤ s(x, y) ≤ 1 2. s(x, x) = 1 3. s(x, y) = s(y, x) • 也可以使用相异性 (dissimilarity) 来度量数据之间的接近程度. 下面我们以相异性为例. 相异性度量和相似性度量之间一般可以相互转换. • 相异性度量多为某种” 距离” 度量 • 样本点之间的相异性 (距离) 函数 d(·, ·) 一般满足 Previous Next First Last Back Forward 6

1.d(x,y)≥0，等号成立当且仅当x=y 2.d(x,x)=0 metric dissimilarity 3.d(x,y)=d(y,x) 4.d(x,y）≤d(x,z)+d(z,y) 5.d(x,y）≤max{d(x,z),d(z,y)} 如果还满足第5条，则称d为ultrametric dissimilarity 。样本点之间的相异性记x,y∈P为两个样本点，则距离的选择非常重要，最好的距离谁则往往要基于经验，知识和运气等得到 ·一般要根据数据的类型选择合适的相异性（距离）度量准则一比例尺度（区间尺度）下的样本数据点常用距离准则 Previous Next First Last Back Forward

1. .d(x, y) ≥ 0, 等号成立当且仅当 x = y 2. d(x, x) = 0 3. d(x, y) = d(y, x) 4. d(x, y) ≤ d(x, z) + d(z, y) .. metric dissimilarity 5. d(x, y) ≤ max{d(x, z), d(z, y)} . 如果还满足第 5 条, 则称 d 为ultrametric dissimilarity • 样本点之间的相异性记 x, y ∈ R p 为两个样本点, 则距离的选择非常重要, 最好的距离准则往往要基于经验, 知识和运气等得到. • 一般要根据数据的类型选择合适的相异性 (距离) 度量准则. – 比例尺度 (区间尺度) 下的样本数据点常用距离准则 Previous Next First Last Back Forward 7

Minkowski: dn(x,y） [wm--ylm Manhattan:city-block distance,box-car distance) P dk-空-则=k- Euclidean: d(x,y)=llx-yll2 maximum:(Chebyshev distance) d(x,y)=maxi-yl=llx-ylloo Canberra:(非负量) d(x,y)=】工k十 k=1 Previous Next First Last Back Forward f

-0-1型变量：若x,y的元素均非零即1，则 0 行和 y 的 b a+b 0 d c+d 列和 a+c b+d n=a+b+c+d binary(Jaccard): d(x,y)= b+c←-no0-0 match a+b+c Czekanowski:d(x,y）= b+c 2a+b+c ←-no0-0 natch double 1-1 match 其他见课本表12.1. -属性变量：若x,y为属性变量，各有p和q个不同的类别，则度量两者之间的相似性常常基于列联表度量性检验 Previous Next First Last Back Forward

– 0-1 型变量: 若 x, y 的元素均非零即 1, 则 ❅ ❅y ❅ x 1 0 行和 1 a b a+b 0 c d c+d 列和 a+c b+d n=a+b+c+d binary(Jaccard) : d(x, y) = b + c a + b + c Czekanowski : d(x, y) = b + c 2a + b + c . ←no 0-0 match ←no 0-0 match double 1-1 match 其他见课本表 12.1. – 属性变量: 若 x, y 为属性变量, 各有 p 和 q 个不同的类别, 则度量两者之间的相似性常常基于列联表度量性检验 Previous Next First Last Back Forward 9

点击进入文档下载页（PDF格式）

共42页，可试读14页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录