14聚类分析(提纲) 14.1聚类分析概述 142相似性计算方法 143常用聚类方法 a143.1划分方法 ■k- means算法(k-均值算法) k- medoids算法(k-中心算法) a143.2层次方法 AGNES算法(合并聚类法) DIANA算法(分裂聚类法) 144孤立点分析
2 14 聚类分析(提纲) ◼ 14.1 聚类分析概述 ◼ 14.2 相似性计算方法 ◼ 14.3 常用聚类方法 ❑ 14.3.1 划分方法 ◼ k-means算法(k-均值算法) ◼ k-medoids算法(k-中心算法) ❑ 14.3.2 层次方法 ◼ AGNES算法(合并聚类法) ◼ DIANA算法(分裂聚类法) ◼ 14.4 孤立点分析
141聚类分析概述 聚类分析的定义 口聚类分析( Cluster Analysis)是一个将数据集中的 所有数据,按照相似性划分为多个类别( Cluster,簇)的过程; 簇是相似数据的集合 口聚类分析是一种无监督( Unsupervised learning) 分类方法:数据集中的数据没有预定义的类别 标号(无训练集和训练的过程) a要求:聚类分析之后,应尽可能保证类别相同 的数据之间具有较高的相似性,而类别不同的 数据之间具有较低的相似性
4 14.1 聚类分析概述 ◼ 聚类分析的定义 ❑ 聚类分析(Cluster Analysis)是一个将数据集中的 所有数据 ,按照相似性 划分为多个类 别 ( Cluster, 簇)的过程; ◼ 簇是相似数据的集合。 ❑ 聚类分析是一种无监督(Unsupervised Learning) 分类方法:数据集中的数据没有预定义的类别 标号(无训练集和训练的过程)。 ❑ 要求:聚类分析之后,应尽可能保证类别相同 的数据之间具有较高的相似性,而类别不同的 数据之间具有较低的相似性
141聚类分析概述 聚类分析在数据挖掘中的作用: 口作为一个独立的工具来获得数据集中数据的分 布情况 口作为其他数据挖掘算法的预处理步骤
5 14.1 聚类分析概述 ◼ 聚类分析在数据挖掘中的作用: ❑ 作为一个独立的工具来获得数据集中数据的分 布情况; ❑ 作为其他数据挖掘算法的预处理步骤
141聚类分析概述 聚类分析在数据挖掘中的作用: 口作为一个独立的工具来获得数据集中数据的分 布情况 首先,对数据集执行聚类,获得所有簇: 然后,根据每个簇中样本的数目获得数据集中每类数 据的大体分布情况 ¤作为其他数据挖掘算法的预处理步骤
6 14.1 聚类分析概述 ◼ 聚类分析在数据挖掘中的作用: ❑ 作为一个独立的工具来获得数据集中数据的分 布情况; ◼ 首先,对数据集执行聚类,获得所有簇; ◼ 然后,根据每个簇中样本的数目获得数据集中每类数 据的大体分布情况。 ❑ 作为其他数据挖掘算法的预处理步骤
141聚类分析概述 聚类分析在数据挖掘中的作用: 口作为一个独立的工具来获得数据集中数据的分 布情况 口作为其他数据挖掘算法的预处理步骤 首先,对数据进行聚类——一粗分类; 然后,分别对每个簇进行特征提取和细分类,可以有 效提高分类精度
7 14.1 聚类分析概述 ◼ 聚类分析在数据挖掘中的作用: ❑ 作为一个独立的工具来获得数据集中数据的分 布情况; ❑ 作为其他数据挖掘算法的预处理步骤。 ◼ 首先,对数据进行聚类——粗分类; ◼ 然后,分别对每个簇进行特征提取和细分类,可以有 效提高分类精度
14.1聚类分析概述 聚类分析的典型应用: a空间数据分析 ■图像处理——灰度图像的二值化(对灰度像素进行 聚类) a万维网 对WEB日志数据进行聚类,以发现类似的用户访问 模式。 口金融领域 用户交易数据的聚类分析,以获得奇异点(异常交 易)
8 14.1 聚类分析概述 ◼ 聚类分析的典型应用: ❑ 空间数据分析 ◼ 图像处理——灰度图像的二值化(对灰度像素进行 聚类)。 ❑ 万维网 ◼ 对WEB日志数据进行聚类,以发现类似的用户访问 模式。 ❑ 金融领域 ◼ 用户交易数据的聚类分析,以获得奇异点(异常交 易)。 ❑ ……
14.1聚类分析概述 常用的聚类分析方法: 口划分法( Partitioning Methods):以距离作为数 据集中不同数据间的相似性度量,将数据集划 分成多个簇。 属于这样的聚类方法有:k- means、k- medoids等。 口层次法( Hierarchical methods):对给定的数据 集进行层次分解,形成一个树形的聚类结果 ■属于这样的聚类方法有:自顶向下法、自底向上法
9 14.1 聚类分析概述 ◼ 常用的聚类分析方法: ❑ 划分法(Partitioning Methods):以距离作为数 据集中不同数据间的相似性度量,将数据集划 分成多个簇。 ◼ 属于这样的聚类方法有:k-means、k-medoids等。 ❑ 层次法(Hierarchical Methods):对给定的数据 集进行层次分解,形成一个树形的聚类结果。 ◼ 属于这样的聚类方法有:自顶向下法、自底向上法
141聚类分析概述—划分法示例 年龄 80 类别1 类别3 类别2 114000 30000 60000 收入 10
10 年龄 80 类别1 类别2 类别3 0 114000 30000 60000 收入 14.1 聚类分析概述——划分法示例
14.1聚类分析概述—层次法示例 Stepo Step I Step 2 Step 3 Step 4 agglomerative (AGNES a b bcde a bcde 人cde divisive Step 4 Step 3 Step 2 Step 1 Step 0 DIANA
11 14.1 聚类分析概述——层次法示例 Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e Step 4 Step 3 Step 2 Step 1 Step 0 agglomerative (AGNES) divisive (DIANA)
142相似性计算方法 在聚类分析中,样本之间的相似性通常采 用样本之间的距离来表示 a两个样本之间的距离越大,表示两个样本越不 相似性,差异性越大; 口两个样本之间的距离越小,表示两个样本越相 似性,差异性越小 a特例:当两个样本之间的距离为零时,表示两 个样本完全一样,无差异
13 14.2 相似性计算方法 ◼ 在聚类分析中,样本之间的相似性通常采 用样本之间的距离来表示。 ❑ 两个样本之间的距离越大,表示两个样本越不 相似性,差异性越大; ❑ 两个样本之间的距离越小,表示两个样本越相 似性,差异性越小。 ❑ 特例:当两个样本之间的距离为零时,表示两 个样本完全一样,无差异