当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

《应用多元统计分析》课程教学资源(PPT课件讲稿)聚类分析

资源类别:文库,文档格式:PPT,文档页数:95,文件大小:1.89MB,团购合买
14.1 聚类分析概述 14.2 相似性计算方法 14.3 常用聚类方法 14.3.1 划分方法 k-means算法(k-均值算法) k-medoids算法(k-中心算法) 14.3.2 层次方法 AGNES算法(合并聚类法) DIANA算法(分裂聚类法) 14.4 孤立点分析
点击下载完整版文档(PPT)

14聚类分析(提纲) 14.1聚类分析概述 142相似性计算方法 143常用聚类方法 a143.1划分方法 ■k- means算法(k-均值算法) k- medoids算法(k-中心算法) a143.2层次方法 AGNES算法(合并聚类法) DIANA算法(分裂聚类法) 144孤立点分析

2 14 聚类分析(提纲) ◼ 14.1 聚类分析概述 ◼ 14.2 相似性计算方法 ◼ 14.3 常用聚类方法 ❑ 14.3.1 划分方法 ◼ k-means算法(k-均值算法) ◼ k-medoids算法(k-中心算法) ❑ 14.3.2 层次方法 ◼ AGNES算法(合并聚类法) ◼ DIANA算法(分裂聚类法) ◼ 14.4 孤立点分析

141聚类分析概述 聚类分析的定义 口聚类分析( Cluster Analysis)是一个将数据集中的 所有数据,按照相似性划分为多个类别( Cluster,簇)的过程; 簇是相似数据的集合 口聚类分析是一种无监督( Unsupervised learning) 分类方法:数据集中的数据没有预定义的类别 标号(无训练集和训练的过程) a要求:聚类分析之后,应尽可能保证类别相同 的数据之间具有较高的相似性,而类别不同的 数据之间具有较低的相似性

4 14.1 聚类分析概述 ◼ 聚类分析的定义 ❑ 聚类分析(Cluster Analysis)是一个将数据集中的 所有数据 ,按照相似性 划分为多个类 别 ( Cluster, 簇)的过程; ◼ 簇是相似数据的集合。 ❑ 聚类分析是一种无监督(Unsupervised Learning) 分类方法:数据集中的数据没有预定义的类别 标号(无训练集和训练的过程)。 ❑ 要求:聚类分析之后,应尽可能保证类别相同 的数据之间具有较高的相似性,而类别不同的 数据之间具有较低的相似性

141聚类分析概述 聚类分析在数据挖掘中的作用: 口作为一个独立的工具来获得数据集中数据的分 布情况 口作为其他数据挖掘算法的预处理步骤

5 14.1 聚类分析概述 ◼ 聚类分析在数据挖掘中的作用: ❑ 作为一个独立的工具来获得数据集中数据的分 布情况; ❑ 作为其他数据挖掘算法的预处理步骤

141聚类分析概述 聚类分析在数据挖掘中的作用: 口作为一个独立的工具来获得数据集中数据的分 布情况 首先,对数据集执行聚类,获得所有簇: 然后,根据每个簇中样本的数目获得数据集中每类数 据的大体分布情况 ¤作为其他数据挖掘算法的预处理步骤

6 14.1 聚类分析概述 ◼ 聚类分析在数据挖掘中的作用: ❑ 作为一个独立的工具来获得数据集中数据的分 布情况; ◼ 首先,对数据集执行聚类,获得所有簇; ◼ 然后,根据每个簇中样本的数目获得数据集中每类数 据的大体分布情况。 ❑ 作为其他数据挖掘算法的预处理步骤

141聚类分析概述 聚类分析在数据挖掘中的作用: 口作为一个独立的工具来获得数据集中数据的分 布情况 口作为其他数据挖掘算法的预处理步骤 首先,对数据进行聚类——一粗分类; 然后,分别对每个簇进行特征提取和细分类,可以有 效提高分类精度

7 14.1 聚类分析概述 ◼ 聚类分析在数据挖掘中的作用: ❑ 作为一个独立的工具来获得数据集中数据的分 布情况; ❑ 作为其他数据挖掘算法的预处理步骤。 ◼ 首先,对数据进行聚类——粗分类; ◼ 然后,分别对每个簇进行特征提取和细分类,可以有 效提高分类精度

14.1聚类分析概述 聚类分析的典型应用: a空间数据分析 ■图像处理——灰度图像的二值化(对灰度像素进行 聚类) a万维网 对WEB日志数据进行聚类,以发现类似的用户访问 模式。 口金融领域 用户交易数据的聚类分析,以获得奇异点(异常交 易)

8 14.1 聚类分析概述 ◼ 聚类分析的典型应用: ❑ 空间数据分析 ◼ 图像处理——灰度图像的二值化(对灰度像素进行 聚类)。 ❑ 万维网 ◼ 对WEB日志数据进行聚类,以发现类似的用户访问 模式。 ❑ 金融领域 ◼ 用户交易数据的聚类分析,以获得奇异点(异常交 易)。 ❑ ……

14.1聚类分析概述 常用的聚类分析方法: 口划分法( Partitioning Methods):以距离作为数 据集中不同数据间的相似性度量,将数据集划 分成多个簇。 属于这样的聚类方法有:k- means、k- medoids等。 口层次法( Hierarchical methods):对给定的数据 集进行层次分解,形成一个树形的聚类结果 ■属于这样的聚类方法有:自顶向下法、自底向上法

9 14.1 聚类分析概述 ◼ 常用的聚类分析方法: ❑ 划分法(Partitioning Methods):以距离作为数 据集中不同数据间的相似性度量,将数据集划 分成多个簇。 ◼ 属于这样的聚类方法有:k-means、k-medoids等。 ❑ 层次法(Hierarchical Methods):对给定的数据 集进行层次分解,形成一个树形的聚类结果。 ◼ 属于这样的聚类方法有:自顶向下法、自底向上法

141聚类分析概述—划分法示例 年龄 80 类别1 类别3 类别2 114000 30000 60000 收入 10

10 年龄 80 类别1 类别2 类别3 0 114000 30000 60000 收入 14.1 聚类分析概述——划分法示例

14.1聚类分析概述—层次法示例 Stepo Step I Step 2 Step 3 Step 4 agglomerative (AGNES a b bcde a bcde 人cde divisive Step 4 Step 3 Step 2 Step 1 Step 0 DIANA

11 14.1 聚类分析概述——层次法示例 Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e Step 4 Step 3 Step 2 Step 1 Step 0 agglomerative (AGNES) divisive (DIANA)

142相似性计算方法 在聚类分析中,样本之间的相似性通常采 用样本之间的距离来表示 a两个样本之间的距离越大,表示两个样本越不 相似性,差异性越大; 口两个样本之间的距离越小,表示两个样本越相 似性,差异性越小 a特例:当两个样本之间的距离为零时,表示两 个样本完全一样,无差异

13 14.2 相似性计算方法 ◼ 在聚类分析中,样本之间的相似性通常采 用样本之间的距离来表示。 ❑ 两个样本之间的距离越大,表示两个样本越不 相似性,差异性越大; ❑ 两个样本之间的距离越小,表示两个样本越相 似性,差异性越小。 ❑ 特例:当两个样本之间的距离为零时,表示两 个样本完全一样,无差异

点击下载完整版文档(PPT)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共95页,可试读20页,点击继续阅读 ↓↓
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有