哈尔滨工业大学：《模式识别》课程教学资源（讲义）第二章距离分类器和聚类分析.doc_大学文库

集各个类别的样本,样本量的增加能够跟好的反映出类别的中体分布情况,这样带来的问题就是如何利用多个样本来设计距离分类器?下面介绍几种常用的方法 1.平均样本法此方法中,我们还希望以一个标准样本来代表每个类别,这样就可以采用单个标准样本距离分类器的准则来进行分类。下面的问题就是如何来确定这个标准样本,这实际上就是如何利用训练样本集来进行学习的问题在模式识别方法中,我们将经常遇到最优化问题,下面我们就以这个简单问题来介绍一下最优化方法的一些概念设有M个类别,92.2…,第m类有训练样本集{X,x回,…x吧},我们希望求得一个标准样本T叫,训练样本X=(x,x…,x)我们要寻找的标准样本 T实际上应该是一个距离训练样本集中所有样本的平均距离最小的一点,则一点最能够代表这个训练样本集。例如,如果类别样本的分布为一个球形的话,这一点应该是球的中心。这一条件可以用下面的函数表示:()=∑4(x-T),此函数称为目标函数。我们的目标就是要寻找到一个T叫,使得(T)最小以欧氏距离为例,f(T)1 ∑(S("-),下面r的各推元素取偏导数 afIT at 2K 11-x+)-0 则:(1"=1∑x2,以矢量形式表示:T叫=1∑x 平均样本法的特点是:1、算法简单;2、每个类别只需存储一个平均样本,存储量小 3、识别时只需计算M次距离函数,计算量小:4、对类别样本的分布描述能力不强,效果不一定很好。在单个样本的距离分类器中,实际上我们是定义了一个未知类别模式到某一类别的距离,这个距离就是待识模式与类别标准样本之间的距离:d(Xg)=d(X,T),然后以模式与类别的距离作为分类的判据。实际上在多个标准样本的问题中,我们还可以定义其它形式的模式与类别的距离 2.平均距离法己知类别92的训练样本集为:Tγ,T20…,I},定义待识模式X与类别的距离: d(x Q2 11

11 集各个类别的样本，样本量的增加能够跟好的反映出类别的中体分布情况，这样带来的问题就是如何利用多个样本来设计距离分类器？下面介绍几种常用的方法。 1. 平均样本法此方法中，我们还希望以一个标准样本来代表每个类别，这样就可以采用单个标准样本距离分类器的准则来进行分类。下面的问题就是如何来确定这个标准样本，这实际上就是如何利用训练样本集来进行学习的问题。在模式识别方法中，我们将经常遇到最优化问题，下面我们就以这个简单问题来介绍一下最优化方法的一些概念。设有 M 个类别， 1 2 , , ,   M ，第 m 类有训练样本集 ( ) ( ) ( )  1 2 , , , m  m m m X X XK ，我们希望求得一个标准样本 (m) T ，训练样本 ( ) ( ) ( ) ( ) ( 1 2 , , , ) m m m m i i i iN X = x x x 。我们要寻找的标准样本 (m) T 实际上应该是一个距离训练样本集中所有样本的平均距离最小的一点，则一点最能够代表这个训练样本集。例如，如果类别样本的分布为一个球形的话，这一点应该是球的中心。这一条件可以用下面的函数表示： ( ) ( ) ( ) ( ) ( ) 1 1 Km m m m i m i f d K = T X T = −  ，此函数称为目标函数。我们的目标就是要寻找到一个 (m) T ，使得 ( ) ( ) m f T 最小。以欧氏距离为例， ( ) ( ) ( ) ( ) ( ) 1 2 2 1 1 1 Km N m m m ij j m i j f x t K = =   = −     T   ，下面对 (m) T 的各维元素取偏导数： ( ) ( ) ( ) ( ) ( ) ( ( ) ( )) ( ) ( ) 1 1 1 1 1 2 1 0 2 m m m m K K K m m m m m ij j j ij m m i i i k f x t t x t K K = = =    = −  − = − =         T 则： ( ) ( ) 1 1 Km m m j ij m i t x K = =  。以矢量形式表示： ( ) ( ) 1 1 Km m m i K m i= T X =  。平均样本法的特点是：1、算法简单；2、每个类别只需存储一个平均样本，存储量小； 3、识别时只需计算 M 次距离函数，计算量小；4、对类别样本的分布描述能力不强，效果不一定很好。在单个样本的距离分类器中，实际上我们是定义了一个未知类别模式到某一类别的距离，这个距离就是待识模式与类别标准样本之间的距离： d d (X X T , ,  = i i ) ( ) ，然后以模式与类别的距离作为分类的判据。实际上在多个标准样本的问题中，我们还可以定义其它形式的模式与类别的距离。 2. 平均距离法已知类别 i 的训练样本集为： ( ) ( ) ( )  1 2 , , , i  i i i T T TK ，定义待识模式 X 与类别 i 的距离： ( ) ( ) ( ) 1 1 , , Ki i i j j i d d K = X X T  = 

然后还是以与待识模式最近的类别作为识别结果。在平均距离法中,需要存储所有的训练样本,而且在识别时还要计算待识模式与每个训练样本的距离,所以计算量比较大 3.最近邻法最近邻法以与待识样本距离最近的标准样本点的类别作为分类类别。实际上相当于定义待识模式与类别g的距离 d(x, Q2, )=min d(x,T') 最近邻法也要存储和计算所有的训练样本,同时与平均距离法相比容易受到噪声的干扰,当与X最近点为噪声时,就会导致误识。最近邻法的改进平均样本法用一点代表一个类别,过分集中;最近邻法以类内的每一点代表类别,过于分散,在通常情况下可以采用折衷的办法,首先将每个类别的训练样本划分为几个子集,在各个子集中计算平均样本,每一个类别以几个子集的平均样本代表,采用最近邻法分类。(举例红莩果,绿莩),这样做的好处是,一方面可以减少存储量和计算量,同时还可以减小噪声的干扰,这是在实际系统使用比较多的方法 4.K近邻法 K-近邻法是另外一种减小噪声干扰的改进方法,它不是根据与未知样本X最近的一个样本的类别来分类,而是根据X最近邻的K各样本点中多数点的类别来分类。方法如下: a)计算X与所有训练样本的距离 b)对所有的d(xT)从小到大排序 e)统计前K个中各类训练样本的个数N,i=1.2,…,M,必有∑N=K d)取= arg max M作为X的类别 K-近邻法中,K值得选择非常重要,太大则就会变成那一类的训练样本说多就分类到哪一类,太少则容易受到噪声的影响,当K=1时,就变为了最近邻法 22聚类分析在某些问题中,我们已知的只是一个训练样本集,而不知道样本集中每个样本的类别标号,这就需要我们首先将这些样本分成若干类,然后再用分好类的样本训练出相应的分类器将未知类别的一组样本分成若干类的过程称为是聚类分析,也称为是无监督学习或无教师学聚类分析的思路非常直观,也是根据各个带分类模式特征的相似程度来进行分类,将在特征空间中聚集在一起的样本点划分为一类。聚类分析的方法可以分为三类:简单聚类法、系统聚类法和动态聚类法。简单聚类法(试探法) 1、最近邻规则的简单试探法设N个待分类的模式{X1,X2…X},已知一个阈值7(每个样本到其聚类中心的

12 然后还是以与待识模式最近的类别作为识别结果。在平均距离法中，需要存储所有的训练样本，而且在识别时还要计算待识模式与每个训练样本的距离，所以计算量比较大。 3. 最近邻法最近邻法以与待识样本距离最近的标准样本点的类别作为分类类别。实际上相当于定义待识模式与类别 i 的距离： ( ) ( ) ( ) 1 , min , i i i j j K d d   X X T  = 最近邻法也要存储和计算所有的训练样本，同时与平均距离法相比容易受到噪声的干扰，当与 X 最近点为噪声时，就会导致误识。最近邻法的改进：平均样本法用一点代表一个类别，过分集中；最近邻法以类内的每一点代表类别，过于分散，在通常情况下可以采用折衷的办法，首先将每个类别的训练样本划分为几个子集，在各个子集中计算平均样本，每一个类别以几个子集的平均样本代表，采用最近邻法分类。（举例：红苹果，绿苹果），这样做的好处是，一方面可以减少存储量和计算量，同时还可以减小噪声的干扰，这是在实际系统使用比较多的方法。 4. K -近邻法 K -近邻法是另外一种减小噪声干扰的改进方法，它不是根据与未知样本 X 最近的一个样本的类别来分类，而是根据 X 最近邻的 K 各样本点中多数点的类别来分类。方法如下： a) 计算 X 与所有训练样本的距离； b) 对所有的 ( ) ( , ) i j d X T 从小到大排序； c) 统计前 K 个中各类训练样本的个数 Ni ，i M =1, 2, , ，必有 1 M i i N K =  = ； d) 取 0 1 arg max i i M i N   = 作为 X 的类别。 K -近邻法中， K 值得选择非常重要，太大则就会变成那一类的训练样本说多就分类到哪一类，太少则容易受到噪声的影响，当 K = 1 时，就变为了最近邻法。 2.2 聚类分析在某些问题中，我们已知的只是一个训练样本集，而不知道样本集中每个样本的类别标号，这就需要我们首先将这些样本分成若干类，然后再用分好类的样本训练出相应的分类器。将未知类别的一组样本分成若干类的过程称为是聚类分析，也称为是无监督学习或无教师学习。聚类分析的思路非常直观，也是根据各个带分类模式特征的相似程度来进行分类，将在特征空间中聚集在一起的样本点划分为一类。聚类分析的方法可以分为三类：简单聚类法、系统聚类法和动态聚类法。一、简单聚类法（试探法） 1、最近邻规则的简单试探法设 N 个待分类的模式 X X X 1 2 , , , N ，已知一个阈值 T （每个样本到其聚类中心的

14 3) 计算未被作为聚类中心的各样本与 1 2 Z Z, 之间的距离，以其中的最小值作为该样本的距离： , 1,2 ij i j d j = − = X Z ，取 d d d i N i i i = = min , , 1, ,  1 2  ； 4) 若： 1 max l i i N d d T   =  ，则相应的样本 Xl 作为第三个聚类中心， Z X 3 = l ，然后转 5）；否则，转 6）； 5) 设存在 k 个聚类中心，计算未被作为聚类中心的各样本到各聚类中心的最小距离： d d d i i ik = min , ,  1  ，然后寻找其中的最大值： 1 max l i i N d d   = ，如果 l d T  ，则 Z X k l +1 = ，转 5）；否则，转 6）； 6) 按照最小距离原则，将所有样本分到个类别中。例 2.2-2 二、合并法（系统聚类法，Hierarchical Clustering Method）系统聚类法的思路是首先以每一个样本自成一类,然后按照距离准则逐步合并,类别数由多到少，直到达到合适的类别数为止。这里，我们在合并两个类别时，需要依据类与类之间的距离度量，首先我们来定义类与类之间的相似性度量。 1. 最短距离法：设 i 和  j 是两个聚类，两类之间的距离定义为： ( ) ( ) min , ( ( )) i j D d ij l k = X X ， (i) Xl 为 i 类的第 l 个样本， ( j) Xk 为  j 类的第 k 个样本。 Dij 为第 i 类中所有样本与第  j 类中所有样本之间的最小值。 2. 最长距离法：与最短距离法相似，两类之间的距离定义为： ( ) ( ) max , ( ( )) i j D d ij l k = X X ， (i) Xl 为 i 类的第 l 个样本， ( j) Xk 为  j 类的第 k 个样本。 Dij 为第 i 类中所有样本与第  j 类中所有样本之间的最小值。 3. 类平均距离法：两类之间的距离定义为： ( ) ( ) ( ) 1 2 , i j ij l k i j D d N N =  X X ， i n 和 j n 分别为 i 、 j 聚类中的样本数。系统聚类算法：设有 1 2 , , , X X XN N 个样本待分类，第一步：建立 N 个初始类别， (0 0 0 ) ( ) ( ) 1 2 , , ,   N ，其中 ( )   0  = i i X 。计算距离矩阵： ( ) ( ) 0 D = Dij ，其中 Dij 为 (0) i 与 (0) j 之间的距离；

第二步:寻找D“中的最小元素,合并相应的两个类别,建立新的分类:Q2,92,…,9), 重新计算距离矩阵D) 第三步:重复第二步,直到满足类别数要求,或者D的最小元素大于给定的阈值。例合并法避免了聚类结果受初始聚类中心的影响,但是需要预先知道聚类的类别数,或者需要设定一个类间最小距离阈值。同时当样本数比较多时,计算量比较大三、动态聚类法(修改法) 动态聚类的思想是首先选择若干个样本点作为聚类中心,然后按照某种聚类准则使各样本点向各个中心聚集,从而得到初始分类:然后判断初始分类是否合理,如果不合理,则修改聚类中心,反复进行修改,直到分类合理为止。动态聚类有多种算法,其中比较著名的是K-均值算法和 ISODATA算法。下面介绍其中的K-均值算法(或称为C-均值算法)。设有N个待分类样本X1,X2…X,聚类为K类,N≥K 第一步:任选K个初始聚类中心Z1,Z2…Zx,例如选前K个样本(称为旧聚类中心); 第二步:将每一个待分类样本按照最近邻准则分类,分别以旧聚点为标准样本的各类中去。第三步:计算分类后各类的重心,称为新聚类中心:Y= X,i=1,2…,K,其中 N为92,类中的样本数第四步:检验Z1,Z2…Zκ是否分别等于Y1,Y2…Yk’如果相等,则算法收敛,结束; 否则用Y代替Z,返回第二步例24 K-均值算法的结果也要受到所选的聚类中心的数目、初始聚类位置以及样本的几何性质的影响 23聚类结果评价前面我们所介绍的几种聚类方法都存在着一定的缺陷,一般都要受到各种初始状态和各种预设的阈值影响,需要我们进行多次尝试之后才能得到满意的结果。这就需要有一个对聚类结果评价的方法,来帮助我们在多次尝试的结果种选择出一个满意的结果。同时如果这个评价准则建立好之后,也可以由程序来完成这个选择的任务。常用的评价准则有: 1.类内距离方差:J=∑∑-Z,,可以用来衡量各个类别中的样本的平均离散

15 第二步：寻找 (k−1) D 中的最小元素，合并相应的两个类别，建立新的分类： ( ) ( ) ( ) 1 2 , , , k k k   M ，重新计算距离矩阵 (k ) D 。第三步：重复第二步，直到满足类别数要求，或者 (k ) D 的最小元素大于给定的阈值。例 2.3 合并法避免了聚类结果受初始聚类中心的影响，但是需要预先知道聚类的类别数，或者需要设定一个类间最小距离阈值。同时当样本数比较多时，计算量比较大。三、动态聚类法（修改法）动态聚类的思想是首先选择若干个样本点作为聚类中心，然后按照某种聚类准则使各样本点向各个中心聚集，从而得到初始分类；然后判断初始分类是否合理，如果不合理，则修改聚类中心，反复进行修改，直到分类合理为止。动态聚类有多种算法，其中比较著名的是 K -均值算法和 ISODATA 算法。下面介绍其中的 K -均值算法（或称为 C -均值算法）。设有 N 个待分类样本 1 2 , , , X X XN ，聚类为 K 类， N K 。第一步：任选 K 个初始聚类中心 1 2 , , , Z Z ZK ，例如选前 K 个样本（称为旧聚类中心）；第二步：将每一个待分类样本按照最近邻准则分类，分别以旧聚点为标准样本的各类中去。第三步：计算分类后各类的重心，称为新聚类中心： 1 i i Ni  =  X Y X ，i K =1,2, , ，其中 Ni 为 i 类中的样本数；第四步：检验 1 2 , , , Z Z ZK 是否分别等于 1 2 , , , Y Y YK ，如果相等，则算法收敛，结束；否则用 Yi 代替 Zi ，返回第二步。例 2.4 K -均值算法的结果也要受到所选的聚类中心的数目、初始聚类位置以及样本的几何性质的影响。 2.3 聚类结果评价前面我们所介绍的几种聚类方法都存在着一定的缺陷，一般都要受到各种初始状态和各种预设的阈值影响，需要我们进行多次尝试之后才能得到满意的结果。这就需要有一个对聚类结果评价的方法，来帮助我们在多次尝试的结果种选择出一个满意的结果。同时如果这个评价准则建立好之后，也可以由程序来完成这个选择的任务。常用的评价准则有： 1. 类内距离方差： 2 1 i M W i i J =  = −   X X Z ，可以用来衡量各个类别中的样本的平均离散

哈尔滨工业大学：《模式识别》课程教学资源（讲义）第二章 距离分类器和聚类分析

哈尔滨工业大学：《模式识别》课程教学资源（讲义）第二章距离分类器和聚类分析