北京大学：《模式识别》课程教学资源（课件讲稿）线性判别函数（第二部分）.pdf_大学文库

7 4. 最小平方误差准则（MSE）  例： 8 4. 最小平方误差准则（MSE）  与 Fisher 线性判别的关系  两类样本数分别为N1, N2 (N=N1+N2)。  如令即同类样本对应相同的余量值；  MSE 的解 a* 等价于 Fisher 判别器所得结果，其中相当于 Fisher 判别中   ** * 0 11 2 2 1 , T T     mw m m w NN N . ~ y0  m   ,,,,, T b bb b b       第一类第二类 9 4. 最小平方误差准则（MSE）  与 Fisher 线性判别的关系 1 2 2 222 1 ( ) ( ) ( ); i i N TT T ii i i i Y bb b               x x a b ay ay ay     1 1 2 2 2 0 10 1 1 0 20 2 1 1 1 ; 1 1 ; i i i i T TT i i T TT i i Y b N N b N N                             x x x x a b ay wx wm ay wx wm 最小化   1 2 . T b b  wm m     给定类间距 10 4. 最小平方误差准则（MSE）  与 Fisher 线性判别的关系    1 2 1 2 1 2 2 2 2 2 2 0 0 2 2 1 2 1 2 ( )( ) ( )( ) ; i i i i i i T T i i T T i i TT TT i i T w T T Y bb b b                                       x x x x x x a b ay ay wx wx wx wm wx wm w Sw w S w wSw 解释：最小平方误差相当于给定类间距的条件下，使类内矩最小。 11 4. 最小平方误差准则（MSE）  与 Bayes 判别函数的关系  当时，MSE的解以最小均方误差逼近 Bayes 判别函数： 定义均方逼近误差则 , 1, ,1, 1, , 1  T N     b   1 2 01 2 ( ,) ( ,) () ( | ) ( | ) ; ( ) p p gp p p       x x xxx x   ( ) ( ) ; 2 0 2 e a y g x p x dx T    * 2 Y e arg min .  a b   12 4. 最小平方误差准则（MSE）  与 Bayes 判别函数的关系 1 2 1 2 2 2 1 2 2 2 1 2 ( ) ( 1) ( 1) 1 1 ( 1) ( 1) ; i i i i T T si i T T i i J N N N NN NN                         x x x x a ay ay ay ay ( ); 2 ( ), 1 1 P 2 N N P N N N       根据大数定理，当时：

13 4. 最小平方误差准则（MSE）  与 Bayes 判别函数的关系           2 1 2 1 2 1 2 2 2 1 12 2 2 2 1 2 2 0 0 (, ) (, ) (, ) (, ) 2 () (, ) (, ) ( ) ( ) ( 1) ( | ) ( ) ( 1) ( | ) ( 1) ( , ) ( 1) ( , ) () 2 () () 1 ( ( ) T T T T T T T T T s p p p p pp p d p P p dP p d pd pd pd g pd g J N                               x x ay x x ay x x x x x ay x x ay x x ay x x ay x x ay x x ay x x x a y a  2 0 2 0 2 2 ) () 1 () () 1 () () ; pd g p e gp d d                    x xx x xx x xx 与a无关 14 4. 最小平方误差准则（MSE）  求解 MSE 解  计算其中：可能是奇异矩阵；计算量大，计算误差较大。  实际中常用梯度下降法求解： * Y ,  a b  1 ( ) T T Y YY Y    T Y Y 1 ( ) 2( ) 2 ( ) N T T s i ii i J b YY     a a  y y a b (1), ( 1) ( ) ( ) ( ) until ( ) ( 1) ( ) ; ( ) (1) ( (1) 0). T s k k kY Y J kk k k                  a a a ab a aa 任意初始化或者可选批量样本修正法 15 4. 最小平方误差准则（MSE）  求解 MSE 解  单样本修正法(Widrow-Hoff 算法，最小均方算法) (1), ( 1) ( ) ( )( ( ) ) ( ) Tk k k k Tk k k k kb k k b         a a a a yy y ay 任意初始化其中是使得的样本。 16 5. 最小错分样本数准则（简介）  线性可分性：  判断线性可分 —— 若存在增广权向量对规范化的增广样本向量满足： T 0, 1,2, , . i a y  i N  17 5. 最小错分样本数准则（简介）  基本思想：对于规范化的增广样本向量，要找增广权向量使得不等式组中尽可能多的不等式成立。  增加解的可靠性，引入余量 b。  准则函数：只考虑被错分样本，即只有被错分的样本有贡献  求解：无约束最优化的各种算法，如共轭梯度法；带约束的二次规划。 T 0, 1, 2, , , i a y  i N  J () ( ) . a Ya b Ya b    T i i a y  b 18 6. 线性支持向量机 (线性SVM)  SVM 的理论基础  传统的统计模式识别方法只有在样本趋向无穷大时，其性能才有理论的保证。统计学习理论 (STL) 研究有限样本情况下的机器学习问题。 SVM 的理论基础就是统计学习理论。  传统的统计模式识别方法在进行机器学习时，强调经验风险最小化。而单纯的经验风险最小化会产生“过学习问题”，其推广能力较差

6.线性支持向量机（线性SVM① 6.线性支持向量机（线性SV① 口SVM的理论基础口支持向量机(SVM) ■“推广能力”是指：将学习机器（即预测函数，或称 ■根据统计学习理论，学习机器的实际风险由经验学习函数、学习模型)对未来输出进行正确预测风险值和置信范围值两部分组成。而基于经验风的能力。险最小化准则的学习方法只强调了训练样本的经验风险最小误差，没有最小化置信范围值，因此 ■“过学习问题”：某些情况下，当训练误差过小反其推广能力较差。而会导致推广能力的下降。 ■Vapnik提出的支持向量机以训练误差作为优化问 ■例如：对一组训练样本(K,y),x分布在实数范围题的约束条件，以置信范围值最小化作为优化目内，y取值在[0,1]之间。无论这些样本是由标，即SVM是一种基于结构风险最小化准则的什么模型产生的，我们总可以用y=sin(w*x)去拟学习方法，其推广能力明显优于一些传统的学习合，使得训练误差为0。方法。 6.线性支持向量机（线性SVM①） 6.线性支持向量机（线性SVM) 口支持向量机(SVMD 口线性可分情形下的最优分类面(optimal ■形成时期在1992一1995年； hyperplane) ■最优化准则是类间边界距离，故也被称为最大边界距离分类器： ·denotes+1 。denotes-l ■由于SVM的求解最后转化成线性约束的二次规划问题的求解，因此SVM的解是全局唯一的最优解：问题：哪个分类面最好？ ■SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。 24 6.线性支持向量机（线性SV0 6.线性支持向量机（线性SVM0 口线性可分情形下的最优分类面口线性可分情形下的最优分类面 ·denotes+1 ·denotes+1 。denotes-1 。denotes-l 线性分类器/分类面的边界距离(margin,分类间隔)：通过各类中距离分最优分类面：边界距离/ 类面最近的样本且平行分类间隔最大的线性分类面。于分类面的两个超平面一最简单的SVM,LSVM 之间的距离

19 6. 线性支持向量机 (线性SVM)  SVM 的理论基础  “推广能力”是指: 将学习机器（即预测函数,或称学习函数、学习模型）对未来输出进行正确预测的能力。  “过学习问题”：某些情况下，当训练误差过小反而会导致推广能力的下降。  例如：对一组训练样本 (x,y), x 分布在实数范围内, y 取值在 [0，1] 之间。无论这些样本是由什么模型产生的，我们总可以用 y=sin(w*x)去拟合，使得训练误差为0。 20 6. 线性支持向量机 (线性SVM)  支持向量机 (SVM)  根据统计学习理论，学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差，没有最小化置信范围值，因此其推广能力较差。  Vapnik 提出的支持向量机以训练误差作为优化问题的约束条件，以置信范围值最小化作为优化目标，即 SVM 是一种基于结构风险最小化准则的学习方法，其推广能力明显优于一些传统的学习方法。 21 6. 线性支持向量机 (线性SVM)  支持向量机 (SVM)  形成时期在1992—1995年；  最优化准则是类间边界距离，故也被称为最大边界距离分类器；  由于 SVM 的求解最后转化成线性约束的二次规划问题的求解，因此 SVM 的解是全局唯一的最优解；  SVM 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。 22 6. 线性支持向量机 (线性SVM)  线性可分情形下的最优分类面(optimal hyperplane) denotes +1 denotes -1 问题：哪个分类面最好？ 23 6. 线性支持向量机 (线性SVM)  线性可分情形下的最优分类面 denotes +1 denotes -1 线性分类器/分类面的边界距离 (margin，分类间隔)：通过各类中距离分类面最近的样本且平行于分类面的两个超平面之间的距离。 24 6. 线性支持向量机 (线性SVM)  线性可分情形下的最优分类面 denotes +1 denotes -1 最优分类面：边界距离/ 分类间隔最大的线性分类面。 —最简单的SVM, LSVM

31 6. 线性支持向量机 (线性SVM)  线性可分情形，求解最优分类面  利用 Lagrange 乘子法 2 0 0 1 0 1 ( , , ) || || [ ( ) 1], 0; 2 we seek to minimize () w.r.t and ; maximize () w.r.t. ; N T ii i i i i L y L L              w w wx  w 32 6. 线性支持向量机 (线性SVM)  线性可分情形，求解最优分类面  根据 Karush-Kuhn-Tucker (KKT) 条件，函数 L() 存在最优解的充分必要条件：   0 1 1 0 0 1 0 0 (, ,) 1. 0 ; (, ,) 2. 0; 3. ( ) 1 0, 1, , ; 4. 0, ; 5. ( ) 1 0, . N N iii iii i i N i i i T i i i T ii i L y y L y y iN i y i                                     w w xw x w w w x w x  法向量是样本的线性组合！只有(很少) 一部分的αi 不为零，它们对应的样本就是支持向量(SV)。 33 6. 线性支持向量机 (线性SVM)  线性可分情形，求解最优分类面  几何意义：超平面法向量是支持向量的线性组合。 Decision boundary is determined only by those support vectors ! k αkkk y   x w x SV    i y : 10   ii i  w x 0   i = 0 for non-support vectors i  0 for support vectors Support Vectors w 0 w x   1 0 w x    1 34 6. 线性支持向量机 (线性SVM)  线性可分情形，求解最优分类面  将带入函数 L() ，则有 1 1 , 0 N N iii ii i i   y y   w x     1 11 1 : 1 max ( ) , 2 0, . . 0, 1 Dual for ; m , , N NN T D i i ji ji j i ij N i i i i L yy y s t i N                  x x  二次规划问题 35 6. 线性支持向量机 (线性SVM)  线性可分情形，求解最优分类面  假设是上述二次规划问题的解，则有 i ,i 1, , N 0   *0 0 1 ; i N i ii i ii i   y y      x wx x SV   * 0 0 * 0 * 0 can be obtained from ( ) 1 0, ; or . i i T ii i i T i i y N y               x x wx x w x sv SV SV SV SV 是所有支持向量的集合 36 6. 线性支持向量机 (线性SVM)  线性可分情形，求解最优分类面  判别函数 只包含待分类样本与训练样本中的支持向量的内积运算，可见要解决一个特征空间中的最优线性分类问题，只需要知道这个空间中的内积运算即可。     * * 0 0 * 0 1 ( ) sgn sgn . T N i i i i T f y                x x x x w