正在加载图片...
8.0引言 口有监督学习(supervised learning:用已知类别的 第八章非监督学习方法 样本训练分类器,以求对训练集数据达到某种最 优,并能推广到对新数据的分类。 2009-12-8 口非监督学习(unsupervised learning}:样本数据类 别未知,需要根据样本间的相似性对样本集进行 分类(聚类,clustering). ■在一堆数据中寻找一种“自然分组”(C组)。要 求同组(类别)的样本较为相似,而不同组的样 本间有明显不同。 8.0引言 8.0引言 口监督与非监督学习方法比较 口监督与非监督学习方法比较 ■监督学习方法必须要有训练集与测试样本。在训 练集中找规律,而对测试样本使用这种规律:而 非监督学习只有一组数据,在该组数据集内寻找 规律。 ■监督学习方法的目的是识别事物,给待识别数据 加上标号,因此训练样本集必须由带标号的样本 组成。而非监督学习方法只有要分析的数据集本 身,没有标号。如果发现数据集呈现某种聚集 性,则可按自然的聚集性分类,但不以与某种预 先的分类标号对上号为目的。 8.0引言 8.0引言 口主要的非监督学习方法 口聚类是一个难以被严格定义的问题,因为“自然 分组”本身就很抽象,且可能因人而异。 ■基于概率密度函数估计的直接方法:设法找到各 类别在特征空间的分布参数再进行分类。比如直 方图方法。 口需要解决两个问题: ■如何度量样本之间的相似性? 。基于样本间相似性度量的间接聚类方法:设法定 出不同类别的核心或初始类核,然后依据样本与 ■如何衡量某一种分组的好坏?(即目标函数) 各核心之间的相似性度量将样本聚集成不同类别。 口寻找“最优分组”的计算复杂度太高,故一般的聚 类算法都是近似算法。第八章 非监督学习方法 2009-12-8 2 8.0 引言  有监督学习 (supervised learning):用已知类别的 样本训练分类器,以求对训练集数据达到某种最 优,并能推广到对新数据的分类。  非监督学习 (unsupervised learning):样本数据类 别未知,需要根据样本间的相似性对样本集进行 分类 (聚类,clustering)。  在一堆数据中寻找一种“自然分组”(C 组)。要 求同组(类别)的样本较为相似,而不同组的样 本间有明显不同。 3 8.0 引言  监督与非监督学习方法比较 4 8.0 引言  监督与非监督学习方法比较  监督学习方法必须要有训练集与测试样本。在训 练集中找规律,而对测试样本使用这种规律;而 非监督学习只有一组数据,在该组数据集内寻找 规律。  监督学习方法的目的是识别事物,给待识别数据 加上标号,因此训练样本集必须由带标号的样本 组成。而非监督学习方法只有要分析的数据集本 身,没有标号。如果发现数据集呈现某种聚集 性,则可按自然的聚集性分类,但不以与某种预 先的分类标号对上号为目的。 5 8.0 引言  主要的非监督学习方法  基于概率密度函数估计的直接方法:设法找到各 类别在特征空间的分布参数再进行分类。比如直 方图方法。  基于样本间相似性度量的间接聚类方法:设法定 出不同类别的核心或初始类核,然后依据样本与 各核心之间的相似性度量将样本聚集成不同类别。 6 8.0 引言  聚类是一个难以被严格定义的问题,因为“自然 分组”本身就很抽象,且可能因人而异。  需要解决两个问题:  如何度量样本之间的相似性?  如何衡量某一种分组的好坏?(即目标函数)  寻找“最优分组”的计算复杂度太高,故一般的聚 类算法都是近似算法
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有