第八章非监督学习方法 2009-12-8 2 8.0 引言  有监督学

正在加载图片...

8.0引言口有监督学习(supervised learning:用已知类别的第八章非监督学习方法样本训练分类器，以求对训练集数据达到某种最优，并能推广到对新数据的分类。 2009-12-8 口非监督学习(unsupervised learning}:样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering). ■在一堆数据中寻找一种“自然分组”(C组)。要求同组（类别）的样本较为相似，而不同组的样本间有明显不同。 8.0引言 8.0引言口监督与非监督学习方法比较口监督与非监督学习方法比较 ■监督学习方法必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律：而非监督学习只有一组数据，在该组数据集内寻找规律。 ■监督学习方法的目的是识别事物，给待识别数据加上标号，因此训练样本集必须由带标号的样本组成。而非监督学习方法只有要分析的数据集本身，没有标号。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，但不以与某种预先的分类标号对上号为目的。 8.0引言 8.0引言口主要的非监督学习方法口聚类是一个难以被严格定义的问题，因为“自然分组”本身就很抽象，且可能因人而异。 ■基于概率密度函数估计的直接方法：设法找到各类别在特征空间的分布参数再进行分类。比如直方图方法。口需要解决两个问题： ■如何度量样本之间的相似性？。基于样本间相似性度量的间接聚类方法：设法定出不同类别的核心或初始类核，然后依据样本与 ■如何衡量某一种分组的好坏？（即目标函数）各核心之间的相似性度量将样本聚集成不同类别。口寻找“最优分组”的计算复杂度太高，故一般的聚类算法都是近似算法。第八章非监督学习方法 2009-12-8 2 8.0 引言  有监督学习 (supervised learning)：用已知类别的样本训练分类器，以求对训练集数据达到某种最优，并能推广到对新数据的分类。  非监督学习 (unsupervised learning)：样本数据类别未知，需要根据样本间的相似性对样本集进行分类 (聚类，clustering)。  在一堆数据中寻找一种“自然分组”（C 组）。要求同组（类别）的样本较为相似，而不同组的样本间有明显不同。 3 8.0 引言  监督与非监督学习方法比较 4 8.0 引言  监督与非监督学习方法比较  监督学习方法必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律；而非监督学习只有一组数据，在该组数据集内寻找规律。  监督学习方法的目的是识别事物，给待识别数据加上标号，因此训练样本集必须由带标号的样本组成。而非监督学习方法只有要分析的数据集本身，没有标号。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，但不以与某种预先的分类标号对上号为目的。 5 8.0 引言  主要的非监督学习方法  基于概率密度函数估计的直接方法：设法找到各类别在特征空间的分布参数再进行分类。比如直方图方法。  基于样本间相似性度量的间接聚类方法：设法定出不同类别的核心或初始类核，然后依据样本与各核心之间的相似性度量将样本聚集成不同类别。 6 8.0 引言  聚类是一个难以被严格定义的问题，因为“自然分组”本身就很抽象，且可能因人而异。  需要解决两个问题：  如何度量样本之间的相似性？  如何衡量某一种分组的好坏？（即目标函数）  寻找“最优分组”的计算复杂度太高，故一般的聚类算法都是近似算法

向下翻页>>

点击下载：北京大学：《模式识别》课程教学资源（课件讲稿）非监督学习方法