哈尔滨工业大学：《模式识别》课程教学资源（讲义）第三章判别函数分类器

适当时，可以使同一类模式的特征点在特征空间中某个子区域内分布，另一类模式的特征点在另一子区域分布（例如苹果和橙子的问题）。这样，我们就可以用空间中的一些超曲面将特征空间划分为一些互不重叠的子区域，使不同模式的类别在不同的子区域中。这些超曲面称为判别界面，可以用一个方程来表示：

团购合买资源类别：文库，文档格式：DOC，文档页数：15，文件大小：962.5KB

23 以看作是一个线性函数。判别界面也是一个超平面： ( ) ( ) ( ) ( ) ( ) 1 2 2 0 2 T ij i j i j i j d d d X X X T T X T T = − = − − − = 其中 2 T T T T i i i = 表示 Ti 的模长的平方。分类界面的超平面刚好是垂直于 Ti 和 Tj 的连线，并且平分两点之间的连线。（首先垂直于矢量 T T i j − ，其次经过点 ( ) 1 2 T T i j + ）。经过上述分析我们可以看出，线性分类器可以用于处理线性可分的两类问题或多类问题，而类别之间的线性可分的条件是：各个类别的区域为互不相交的凸集（如不是凸集，则包含此集合的最小凸集因满足互不相交）。在线性可分的条件下，都可以用一系列的线性函数实现分类器。这样的线性函数并不是唯一的，可能存在无穷多个。下面的问题就是如何得到这样一个或一组线性函数，这就是下面要讨论的线性分类器的训练问题。 3.2 两类别问题线性判别函数的学习我们先来介绍一种最简单的情况，用线性函数来判别两类问题。一、问题的表达现有 M 个训练样本，分为两个集合， 1 类的训练样本集 X X X 1 2 , , , L 和 2 类的训练样本集 X X X L L M + + 1 2 , , ,  。要求一个向量 W ，使 ( ) T d X W X = 能够区分 1 和 2 ，即对于 X1 ，有 0 T W X  ；对于 X2 ，有 0 T W X  ，所以有： 1 2 0, 0, , 0 T T T X W X W X W    L 1 2 0, 0, , 0 T T T −  −  −  X W X W X W L L M + + 即： 1 11 12 1 1 1 2 1 ( 1)1 ( 1)2 ( 1) 1 1 2 1 0 1 0 1 0 1 0 T N T L L L LN L T L L L L N L T M M M MN M x x x w x x x w x x x w x x x w + + + + +                               =       − − − − −                          −     − − − −         X X W X X 写成矩阵形式： XW 0  ，其中 X 称为增广矩阵， 0 为零矢量。由此可见，求取权向量的问题已经转化为了求解线性不等式组的问题。这个解只有在线性可分的条件下才存在，并且也不唯一。下面我们介绍几种求解上述线性不等式组的算法。二、感知器算法求解线性不等式方程组，不可能用一个公式来求得，必须要有一个迭代搜索的过程。下

24 面先以一种比较直观的方式来介绍一下感知器算法。首先我们先来看一下分类界面 0 T W X = ，分类界面与权矢量 W 垂直，现在我们要求 W ，实际上关心的是它的方向，而不是关心它的长度。其次这个分类界面是一个经过坐标原点的超平面。如下图所示。 W(k) Y W(k+1) + - + - 开始的时候，我们不知道 W 的值是多少，可以先随便设一个不全为零的初始值 W(0) ，这样可以得到一个初始的分类界面 (0 0 ) T W X = ；然后从训练样本集中拿出一个样本 Y 进行训练，将 Y 带入到辨别函数，计算 (0) T W Y ，如果大于等于 0，说明现在的分类界面已经能够正确分类 Y ，不需要任何调整，可以从训练样本集中取出下一个样本进行训练，如果小于 0，说明现在的分类界面不能够正确分类 Y ，需要对分类界面 (0 0 ) T W X = 进行调整。所谓对分类界面进行调整，就是要调整权向量 W(0) ，我们可以按照下面的方式进行调整： W W Y (1 0 ) = + ( ) ，从图中可以看出来新的分类界面 (1 0 ) T W X = 已经能够正确分类样本 Y 了。这就是感知器算法的主要思想，如果分类界面能够正确分类当前的训练样本时，不需要对其进行调整；如果分类错误时，需要进行调整，调整后的权向量是将原来的权向量与当前的训练样本相加得到的。图中所表示的情况是经过一次调整，新的分类界面就可以正确分类训练样本，在某些情况下，只经过一次调整并不一定就能够达到目的，需要多次进行调整，但是如果按照上面的方法进行调整，总是向着好的方向发展。因为我们可以看到： ( ) ( ( ) ) ( ) ( ) ( ) 2 1 T T T T T T W Y W Y Y W Y Y Y W Y Y W Y k k k k k + = + = + = +  前面的讨论都是以一种形式化的方式给出了感知器算法的思想，下面我们从一个规范的数学方法来推导出感知器算法。首先我们把求解线性不等式组的问题等价为一个最优化的问题，定义一个准则函数：

25 ( ) ( ) 1 , 2 T T J W X W X W X = − 其中 X 是我们已知的，由训练样本集构成的增广矩阵， W 是我们所有求的权值向量。当 W 满足不等式组时， J (W X, ) 达到最小值 0。计算 J (W X, ) 对 W 的偏导数： ( ( ) ) 1 sgn 2 J T = −  X W X X W 其中： ( ) 1, 0 sgn 1, 0 T T T   =  −  W X W X W X 0 J = W 不可能直接进行求解（解不唯一），但是我们可以采用最优化方法中的梯度下降法来迭代求取 W 的值。迭代算法可以表示为： ( ) ( ) ( ) ( ) 0 1 1 k J k k C =  =      + = −        W W W W W W W ，其中 W0 为一个随机的初始值， C 为一个常数。梯度下降法的思路也比较简单，俗称为瞎子下山法，在 W(k ) 这一点上沿着这一点梯度的正方向前进，可以使 J 上升的最快，因此，沿着梯度的负方向前进，可以使 J 下降的最快。常数 C 用来控制下降的速度，应该选择一个比较合适的值，太小则收敛速度太慢，太大则容易不收敛。由于 ( ( ) ) 1 0, 0 sgn 2 , 0 T T T J   = − =   −  W X X W X X W X W X ，所以完整的感知器算法如下： 1. 初始化，置 W(1) 为一个小的随机数，不能为 0 矢量； 2. 在第 k 步输入训练样本 Xk ，按照如下公式修正权值 W： ( ) ( ) ( ) ( ) ( ) , 0 1 , 0 T k T k k k k k k C k   + =   +   W W X W W X W X 3. 重复第 2 步，直到所有训练样本被正确识别。例 3.2 可以证明，当训练样本集满足线性可分条件时，感知器算法经过有限步迭代收敛。二、最小均方误差算法(LMSE) 感知器算法只有当模式类别线性可分的条件下才能在有限步收敛，在线性不可分的情况下，算法会来回摆动，始终不收敛。同时在线性可分的情况下，也不可能预先知道达到收敛所需要的步数。因此，当迭代多次还不收敛时，我们无法判断类别是否线性可分。下面介绍一种称为最小均方误差法，可以避免上述问题。此方法也称为 Ho-Kashyap 算法（H-K 算法）。首先我们把求解线性不等式组 XW 0 的问题等价转换为求解线性方程组 XW B= 的

点击进入文档下载页（DOC格式）

共15页，试读已结束，阅读完整版请下载

点击下载（DOC格式）

浏览记录

哈尔滨工业大学：《模式识别》课程教学资源（讲义）第三章判别函数分类器

哈尔滨工业大学：《模式识别》课程教学资源（讲义）第三章 判别函数分类器

哈尔滨工业大学：《模式识别》课程教学资源（讲义）第三章判别函数分类器