第十一章非监督学习方法 ■11.1引言 ■112单峰子集的分离方法 113类别分离的间接方法 ■114分级聚类方法 115其他聚类方法简介 ■11.6聚类中的问题
第十一章 非监督学习方法 11.1 引言 11.2 单峰子集的分离方法 11.3 类别分离的间接方法 11.4 分级聚类方法 11.5 其他聚类方法简介 11.6 聚类中的问题
11.1引言
11.1 引言
11.1引言 ■有监督:样本数据类别已知,训练分类 器以求对新数据进行分类 ■非监督:样本数据类别未知,首先要求 对样本集进行分类(聚类) ■非监督学习方法大致分为两大类: 基于概率密度函数估计的方法 基于样本间相似性度量的方法
11.1 引言 有监督:样本数据类别已知,训练分类 器以求对新数据进行分类 非监督:样本数据类别未知,首先要求 对样本集进行分类(聚类) 非监督学习方法大致分为两大类: 基于概率密度函数估计的方法 基于样本间相似性度量的方法
11.1引 Hierarchical Top-down Division Clustering 分层聚类 Bottom-up Agglomerative Pdf based methods K-Series Partitional Clustering Graph Theory based methods 分块聚类 PCA/SVD based methods Other methods
11.1 引言 Hierarchical Clustering 分层聚类 Hierarchical Clustering 分层聚类 Partitional Clustering 分块聚类 Partitional Clustering 分块聚类 K-Series K-Series PCA/SVD based methods PCA/SVD based methods PDF based methods PDF based methods Graph Theory based methods Graph Theory based methods Top-down Division Top-down Division Bottom-up Agglomerative Bottom-up Agglomerative Other methods Other methods
11.2单峰子集的分离方法
11.2 单峰子集的分离方法
11.2单峰子集的分离方法 ■思想:把特征空间分为若干个区域,在 每个区域上混合概率密度函数是单峰的, 每个单峰区域对应一个类 如下图简单示例,X=0和y=0这两个超平 面可以把(Xy)平面分成四个单峰区域
11.2 单峰子集的分离方法 思想:把特征空间分为若干个区域,在 每个区域上混合概率密度函数是单峰的, 每个单峰区域对应一个类 如下图简单示例,x=0和y=0这两个超平 面可以把(x,y)平面分成四个单峰区域
Mixture PDF 04 0.3 0.2 0.1 2
11.2 单峰子集的分离方法
11.2单峰子集的分离方法 ■投影方法 多维空间中直接划分成单峰区域比较困难, 而一维空间中则比较简单。 寻找一个坐标系统,在该系统下,数据的混 合概率密度函数可以用边缘概率密度表示。 如果某边缘概率密度函数呈现多峰形式,则 在此坐标轴上(一维)作分割
11.2 单峰子集的分离方法 投影方法 多维空间中直接划分成单峰区域比较困难, 而一维空间中则比较简单。 寻找一个坐标系统,在该系统下,数据的混 合概率密度函数可以用边缘概率密度表示。 如果某边缘概率密度函数呈现多峰形式,则 在此坐标轴上(一维)作分割
11.2单峰子集的分离方法 ■投影方法(续) n维空间中的单峰分离 样本集S在u,轴上的投影为 S1={l1y|y∈S} 对S应用直方图方法估计概率密度函数 找到概率密度函数的峰,以及峰之间的谷底 在谷底处做垂直于u的超平面对数据分割
11.2 单峰子集的分离方法 投影方法(续) 一维空间中的单峰分离 S {u y | y S } S u T i i i = ∈ 样本集 在 轴上的投影为 对Si 应用直方图方法估计概率密度函数 找到概率密度函数的峰,以及峰之间的谷底 在谷底处做垂直于ui 的超平面对数据分割
一维空间中的单峰分离 0.7 0.6 0.5 0.4 谷底 0.3 02 0.1 第一类 第二类
11.2 单峰子集的分离方法