北京大学：《模式识别》课程教学资源（课件讲稿）线性判别函数（第一部分）.pdf_大学文库

第四章线性判别函数 2009-10-27 2 1.0 引言基于样本的Bayes分类器：通过估计类条件概率密度函数，设计相应的判别函数。 MAX g1 . . . g2 gc . . . x1 x2 xn a(x)  最一般情况下适用的“最优”分类器：错误率/风险最小，对分类器设计在理论上有指导意义。  获取统计分布及其参数很困难，实际问题中并不一定具备获取准确统计分布的条件。训练样本集样本分布的统计特征：概率密度函数决策规则：判别函数决策面方程分类器功能结构 3 1.0 引言 基于样本的直接确定判别函数方法：  针对各种不同的情况，使用不同的准则函数，设计出满足这些不同准则要求的分类器。  这些准则的“最优”并不一定与错误率最小相一致：次优分类器。  实例：正态分布最小错误率贝叶斯分类器在特殊情况下，是线性判别函数 g(x)=wTx（决策面是超平面），能否基于样本直接确定w? 训练样本集决策规则：判别函数决策面方程选择最佳准则 4 1.1 线性判别函数的基本概念  特点  形式最简单；  容易实现；  所需计算量和存储量小；  线性判别函数是统计模式识别的基本方法。 5 1.1 线性判别函数的基本概念  d 维空间中的线性判别函数的一般形式：其中，x是样本向量，即样本在 d 维特征空间中的描述；w 是权向量，ω0是一个常数（阈值权）。 0 () ; T g x x   w   12 1 2 , ,... , , ,... ;    T T d d x w   xx x ww w 6 1.1 线性判别函数的基本概念  两类问题的分类决策规则  g(x) = 0 是分类面（决策面）方程，将特征空间分成决策区域。  w 是分类面的法向量；  ω0 是分类面相对于原点的偏移；  设计线性分类器的关键是给出估计w和ω0的准则。 1 2 ( ) 0, ( ) 0, ( ) 0, g g g             x x x x x 则决策如果则决策可将其任意分类或拒绝 1 2 gg g () () () xxx  

7 1.1 线性判别函数的基本概念  线性判别函数的几何意义  g(x) 是点 x 到决策面 H 的距离的一种代数度量。 0 0 , () ; p p r gr r H H r        w xx x w w x x x w 是到的垂直距离; 是在上的投影向量; 是原点到决策面的距离。方向 8 1.2 广义线性判别函数  线性判别函数是形式最为简单的判别函数；但是它局限性较大，不能用于复杂情况。  例：设计一个一维分类器，使其功能为： — 判决函数： — 判决规则： 1 2 b a xb xa x x x          或则决策如果则决策 g( ) ( )( ) x x axb   ； 1 2 ( ) 0, ( ) 0, gx x gx x          则决策如果则决策 9 1.2 广义线性判别函数  对非线性判别函数 g(x)，可通过适当的变换转化为线性判别函数 g’(y)。  二次判别函数的一般形式 3 1 '( ) ( ). T i i i g a y g x   y ay    2 01 2 g( ) x c cx cx   ； 1 10 2 21 2 3 32 y 1 a c y x ac y x ac                     y a ，； 10 1.2 广义线性判别函数  例：如 x=[x1, x2]T，二次判别函数为  定义则可找到a，a0，使 ( ) T g x xx x   cB A ； 2 2 1 2 1 2 12 [ , , , , ], T y  x x x x xx 0 '( ) ( ). T g ag y   a y x 11 1.2 广义线性判别函数  任何非线性函数 g(x) 都可通过级数展开转化成高次多项式（逼近），故任何非线性判别函数都可转化成广义线性判别函数来处理。  问题：  实现这种转化的非线性变换可能非常复杂；  变换空间的维数可能非常高。（维数灾难） 12 1.2 广义线性判别函数  一种特殊映射方法：增广样本向量 y 与增广权向量 a  线性判别函数的齐次简化：  增广样本向量使特征空间增加了一维，但保持了样本间的欧氏距离不变，对于分类效果也与原决策面相同，只是在Y空间中决策面是通过坐标原点的。   1,..., ,1 ; 1 T d x x         x y   1 0 0 ,..., , ; T w wd           w a 0 () ; T T g x wx ay    类似于直线方程 y = kx

1.2广义线性判别函数 1.3线性分类器设计步骤口举例：设在三维空间中一个类别分类问题拟采用口线性分类器设计任务：给定样本集K,确定线性二次曲面。如采用广义线性方程求解，试求其广判别函数gx)=wx的各项系数w. 义样本向量与广义权向量的表达式，及其维数。口步骤： ■收集一组样本K={,,Xw axi +bxi+cx+drp;+xx;+++h++m= ■按需要确定一个准则函数K,W,其值反映分类器的性能，其极值解对应于“最好”决策， a=(a.b.c,d.e.f.g,h.l,m)' ■用最优化技术求准则函数J的极值解w*,从而智 y=(2,2,x,x2,X3x2,,2,1) 确定判别函数，完成分类器设计。了广义线性 w*=argmaxJ(K,w)方维数为10 :=g(x)=g'y)=y 判别函数 →对于未知样本x,计算gx),判断其类别。 2.Fisher线性判别(FDA) 2.Fisher线性判别（FDA) 口线性判别函数y=gx)=w: 口图例 ■样本向量x各分量的线性加权； ■样本向量x与权向量w的向量点积； ■如果Iw作1，则视作向量x在向量w上的投影. 口Fisher准则的基本原理：找到一个最合适的投影轴，使得 ■两类样本在该轴上投影之间的距离尽可能远； ■每一类样本的投影尽可能紧凑； Fisher准则的描述：用投影后数据的统计性质 ◆从而使分类效果为最佳。均值和离散度的函数作为判别优劣的标准。 2.Fisher?线性判别(FDA) 2.Fisher线性判别(FDA) 口符号含义口d雏空间样本分布的描述量 ■m,m分别表示两类（原始）数据的均值向量； ■各类样本均值向量m ■S,S2分别表示两类（原始）数据的离散度矩阵； ■样本类内离散度矩阵S与总类内离散度矩阵S S=S+S2 ■m,m,分别表示两类（投影后，一维）数据的均 5=(x-mXx-m),i=1.2 5,=P(o)S,+P(@:)S: 值； ■样本类问离散度矩阵了，，=(m-m,m-m ■5，S,分别表示两类（投影后，一维）数据的离 S=P@)P(am-mm-m广散度高散度矩阵在形式上与协方差矩阵很相似，但协方差矩阵是一种期望值，而高散矩阵只是表示有限个样本在空间分布的高散程度

13 1.2 广义线性判别函数  举例：设在三维空间中一个类别分类问题拟采用二次曲面。如采用广义线性方程求解，试求其广义样本向量与广义权向量的表达式，及其维数。 14 1.3 线性分类器设计步骤  线性分类器设计任务：给定样本集 K，确定线性判别函数 g(x) = wTx 的各项系数 w。  步骤：  收集一组样本 K={x1, x2,…, xN}；  按需要确定一个准则函数 J(K, w)，其值反映分类器的性能，其极值解对应于“最好”决策。  用最优化技术求准则函数 J 的极值解 w*，从而确定判别函数，完成分类器设计。对于未知样本 x，计算 g(x)，判断其类别。 * arg max ( , );  J w w w K 15 2. Fisher线性判别（FDA）  线性判别函数 y = g(x) = wTx ：  样本向量 x 各分量的线性加权；  样本向量 x 与权向量 w 的向量点积；  如果 || w ||=1，则视作向量 x 在向量 w 上的投影。  Fisher准则的基本原理：找到一个最合适的投影轴，使得  两类样本在该轴上投影之间的距离尽可能远；  每一类样本的投影尽可能紧凑；从而使分类效果为最佳。 16 2. Fisher线性判别（FDA）  图例 Fisher准则的描述：用投影后数据的统计性质— 均值和离散度的函数作为判别优劣的标准。 17 2. Fisher线性判别（FDA）  符号含义  m1, m2 分别表示两类（原始）数据的均值向量；  S1, S2 分别表示两类（原始）数据的离散度矩阵;  分别表示两类（投影后，一维）数据的均值；  分别表示两类（投影后，一维）数据的离散度. 1 2 ~, ~ m m 1 2 S S,   18 2. Fisher线性判别（FDA）  d 维空间样本分布的描述量  各类样本均值向量 mi :  样本类内离散度矩阵 Si 与总类内离散度矩阵Sw:  样本类间离散度矩阵 Sb: 1 1, 2; i i i x i N     x K m ( )( ) , 1, 2; i T i ii i    x x x K S mm 1 2 11 2 2 ; () (); w w P P       S SS S SS 1 21 21 2 1 21 2 ( ) ( )( )( ) ( )( ) ; . T b T b   P P     S m mm m S mmmm 离散度矩阵在形式上与协方差矩阵很相似，但协方差矩阵是一种期望值，而离散矩阵只是表示有限个样本在空间分布的离散程度

19 2. Fisher线性判别（FDA）  一维投影空间(Y空间)样本分布的描述量  各类样本均值：  样本类内离散渡和总类内离散度：  样本类间离散度： 1 , 1, 2; i i i y m yi N      2 ( ) , 1, 2; i i i y S ym i       1 2 ; w S SS     2 1 2 ( ). b S mm      以上定义描述 d 维空间样本点到一个向量投影的分散情况，因此也就是对某向量 w 的投影在 w 上的分布。样本离散度的定义与随机变量方差相类似。 20 2. Fisher线性判别（FDA）  样本 x 与其投影 y 的统计量之间的关系： 1 1 , 1, 2; i i T i i T i i y m y i N N        x w x w K  m 2 2 12 1 2 1 21 2 ( )( ) ( )( ) ; b T T T b T T S m m S      w w w w w w m m mmmm    21 2. Fisher线性判别（FDA）  样本 x 与其投影 y 的统计量之间的关系： 2 2 ( ) ( ) ( )( ) ; i i i i y T T i T T i i T i i S S y m                    x x wx wm w x x w w w K K m m   12 12 () . T T w w S S      SS SS   w w w w 22 2. Fisher线性判别（FDA）  评价投影方向 w 的原则：使原样本向量在该方向上的投影能兼顾类间分布尽可能分开，类内样本投影尽可能密集的要求。  Fisher 准则函数的定义：  Fisher 最佳投影方向的求解： * arg max ( ). F  J w w w 1 2 () ; T b b F T w S S J S S S    w w w w w    类间离散度总类内离散度 23 2. Fisher线性判别（FDA）  Fisher 准则的合理性  JF(w) 只与投影方向有关，与 w 大小无关 — 如果 w 是一个最优解，则 kw 也是最优解（ k 是任意不为零的常数。）  Fisher 最佳投影方向的求解要求  否则，存在投影方向 w ，使得即，所有数据被投影到一点上！JF(w) 没有极大值。 1 2 S SS w   正定； 0 T w w w S  ； 24 2. Fisher线性判别（FDA）  Fisher 最佳投影方向的求解  求出最佳投影方向上任何一个 w 即可。  JF(w) 有上界，最佳投影方向一定存在！分别是矩阵的最大、最小特征根。 max min ) () ; ) b F w S J S   w  （（ max min ), ) b w （（ S S  b w S S

25 2. Fisher线性判别（FDA）  Fisher 最佳投影方向的求解  因为正定，一定存在一个最优化的 w，满足  无约束最优化：等价于带约束的最优化 1 T w w w S  ； w S max T b T w S S w w w w max , . . 1. T T b w ww ww S st S  26 2. Fisher线性判别（FDA）  Fisher 最佳投影方向的求解  采用拉格朗日乘子算法解决带约束的最优化： Lagrange : ( , ) ( 1); T T L SS w ww ww     b w 定义函数 (,) : 0; b w L S S       w w w w 令 * * 0; b w 最优解满足：S S w w    27 2. Fisher线性判别（FDA）  Fisher 最佳投影方向的求解 1 1 1 21 2 * * (m m )(m m ) *; b T wb w S  SS S   ww w    根据类间离散度的定义： 1 2 (m m ) * T 注意：是一个数，记作；  w R 1 1 12 12 ( ) ( ). w w R S S    w mm mm     被忽略，因为只关心投影方向 28 2. Fisher线性判别（FDA）  Fisher 最佳投影方向的求解 1 1 1 2 12 1 2 ( ) ( ) ( ). w S SS   w mm mm      m1-m2 是一个向量，对与 (m1-m2) 平行的向量投影可使两均值点的距离最远。但是如从使类间分得较开，同时又使类内密集程度较高这样一个综合指标来看，则需根据两类样本的分布离散程度对投影方向作相应的调整，这就体现在对 m1-m2 向量按 Sw -1 作一线性变换，从而使Fisher准则函数达到极值点。 29 2. Fisher线性判别（FDA）  一维分类问题  当 d 和 N 很大时，y 近似正态分布，可在 Y 空间内用Bayes 分类器。  利用先验知识确定一维分类阈值 y0：  决策规则: 对任意 x 1 2 0 2 m m y     ； 11 2 2 0 1 2 Nm Nm y m N N       ； 0 1 0 2 . T y y y y y          x w x x 30 由于两类样本分布形状是相同的（只是方向不同），因此 y0 应为（投影后）两类均值的中点： 12 1 2 0 ( ) 1; 2 2 T m m y        w mm 1 1 2 0.5 0 0 0 () ; 0 0.5 2 1 w S                       w mm 2. Fisher线性判别（FDA） 1 2 2 0 ; 0 2 w S SS         Fisher准则最佳投影 0 2 1 2 ; (0, 1) 1. T x y y x x               w x 即 Fisher准则最佳分界面

31 2. Fisher线性判别（FDA） 32 3. 感知准则函数  美国学者 F.Rosenblatt 在1957年提出的一种自学习判别函数生成方法。  感知器（perceptron）是一个具有单层计算单元的人工神经网络，是人工神经元网络中应用最广泛，影响最大的一种网络雏形。  类似于人认知错误、纠正错误、通过自学习改善自己认识事物本领的过程，使用这种方法的分类器称为感知器。  特点：随意确定的判别函数初始值，在对样本分类训练过程中逐步修正直至最终确定。 33 3. 感知准则函数  考虑两类问题的齐次线性判别函数  基本概念  线性可分性：训练样本集中的两类样本在特征空间可以用一个线性分界面正确无误地分开。 在线性可分条件下，对合适的（广义）权向量 a 应有：  样本的规范化：将第二类样本取其反向向量 1 2 , 0; , 0; T T       y ay y ay 如果则如果则 1 2         y y y y y 如果 = 如果 0 1,..., . T i a y  i N () . T g y ay  34 3. 感知准则函数  基本概念  解向量：满足 aT y‘> 0 的权向量a；  解区：权值空间中所有解向量组成的区域； 35 3. 感知准则函数  基本概念  余量（对解区的限制）：解区中所有权向量都是解，但越靠近解区中间的解向量，所得的分类面离各类样本越远（最近距离越远），对将来的样本错分的可能性越小。 引入余量 b > 0 ，要求解向量满足 aTy≥b，防止求解增广权向量的算法收敛到解区的边界。 36 3. 感知准则函数  对于任何一个增广权向量 a  对样本 y 正确分类，则有：aTy>0；  对样本 y 错误分类，则有：aTy<0；（错分条件）  定义准则函数 JP(a) （感知准则函数）：  恒有 JP(a)≥0；  仅当 a 为解向量，Yk为空集（不存在错分样本）时， JP(a)=0，即达到极小值。确定向量 a 的问题变为对 JP(a) 求极小值的问题。 () ( ) k T P Y J    y a ay 被错分类的规范化增广样本集 

37 3. 感知准则函数  梯度下降算法求解：对（迭代）向量沿某函数的负梯度方向修正，可较快到达该函数极小值。 ( ) ( ) ( ); k p p Y J J       y a a y a ( 1) ( ) ( ) () . k k p k Y k k rJ k r       y aa a a y 被权向量a(k)错分类的样本集 38 3. 感知准则函数  算法 (step by step) 1. 初值: 任意给定一向量初始值 a(1)； 2. 迭代: 第 k+1 次迭代时的权向量 a(k+1) 等于第 k 次的权向量 a(k) 加上被错分类的所有样本之和与rk的乘积； 3. 终止: 对所有样本正确分类。任意给定一向量初始值a(1) a(k+1)= a(k)+ rk×Sum (被错分类的所有样本) 所有样本正确分类得到合理的a 完成分类器设计 N Y 39 3. 感知准则函数  固定增量法与可变增量法  批量样本修正法与单样本修正法  单样本修正法：样本集视为不断重复出现的序列，逐个样本检查，修正权向量；  批量样本修正法：样本成批或全部检查后，修正权向量； T ( if ( ) 0 then ( 1) ( ) 1). i i k k y y r k   k  a a  a 40 3. 感知准则函数  单样本修正法的收敛性讨论  感知准则函数方法的思路是：先随意找一个初始向量 a(1)，然后用训练样本集中的每个样本来计算。若发现一个 y 出现 aTy0。当然，修改后的 a(k+1) 还可以使某些 y 出现 a(k+1)Ty <0 的情况。理论证明，只要训练样本集线性可分，无论 a(1) 的初值是什么，经过有限次叠代，都可收敛。 41 3. 感知准则函数  总结  感知准则函数方法只是对线性可分样本集有效，而对线性不可分的样本集，该算法不能收敛。  对感知准则函数的讨论是很初步的，而且只讨论了线性可分的情况。但这种利用错误提供的信息，进行自修正的思想是非常重要的。  只解决线性分类的感知器称为单层感知器，由它基础上发展起来的多层感知器在原理上能解决非线性分类、多类划分，以及非线性拟和非线性映射等多种功能