第三章分类器的设计 ■线性分类器的设计 分段线性分类器的设计 ■非线性分类器的设计
第三章 分类器的设计 ◼ 线性分类器的设计 ◼ 分段线性分类器的设计 ◼ 非线性分类器的设计
§3-1线性分类器的设计 上一章我们讨论了线性判别函数形式为g(x)=WX 其中X=(X,X2…!)n维特征向量 W=W1,V2…,Wn,Wn)n维权向量 分类准则 ∈O12g(x)>0 lx∈O2,8(x)<0 通常通过特征抽取可以获得n维特征向量,因此n维 权向量是要求解的 求解权向量的过程就是分类器的训练过程,使用已 知类别的有限的学习样本来获得分类器的权向量被称为 有监督的分类
§3-1 线性分类器的设计 上一章我们讨论了线性判别函数形式为:g(x)=WTX 其中 X= (X1 , X2…Xn ) n维特征向量 W= (W1 , W2… Wn , Wn+1 ) n维权向量 通常通过特征抽取可以获得n维特征向量,因此n维 权向量是要求解的。 求解权向量的过程就是分类器的训练过程,使用已 知类别的有限的学习样本来获得分类器的权向量被称为 有监督的分类。 , ( ) 0 , ( ) 0 2 1 x g x x g x 分类准则
利用已知类别学习样本来获得权向量的训练过程如下 WX X wx 2 >0X∈01 <0X∈02 Xn 检测 n+1 (已知类别) W1=W±△ 已知X∈ω1,通过检测调整权向量,最终使X1∈u 已知x∈ω2,通过检测调整权向量,最终使x2∈ω2 这样就可以通过有限的样本去决定权向量
利用已知类别学习样本来获得权向量的训练过程如下 已知x1 ∈ω1 , 通过检测调整权向量,最终使x1 ∈ω1 已知x2 ∈ω2 , 通过检测调整权向量,最终使x2 ∈ω2 这样就可以通过有限的样本去决定权向量 x1 x2 ……. xn 1 w1 w2 wn wn+1 ∑ >0 x∈ω1 检测 (已知类别) W1 X1 W2 X2 Wn Xn Wn+1 <0 x∈ω2 g(x)=wTx W1 = W
利用方程组来求解权向量 对二类判别函数g(x)=W1X1+W2X2+W2 已知训练集:XXX。X且 当(XX)∈W时g(x)>0 当(X。X)∈W2时g(x)0 X1W1+X21W2+W2>0 X1。W1+X2W2+W2<0 ①②③ X1AW1+Ⅹ2W2+W2<0 求出W1,W2W2
利用方程组来求解权向量 对二类判别函数g(x) = W1 X1 + W2 X2 +W3 已知训练集:Xa, Xb, Xc, Xd且 当 (Xa, Xb ) ∈W1时 g(x)>0 当 (Xc, Xd ) ∈W2时 g(x)<0 设 Xa = (X1a, X2a ) T Xb = (X1b, X2b ) T Xc = (X1c, X2c ) T Xd = (X1d, X2d ) T 判别函数可联立成: X1aW1+ X2aW2+ W3>0 ① X1bW1+ X2bW2+ W3>0 ② X1cW1+ X2cW2+ W3<0 ③ X1dW1+ X2dW2+ W3<0 ④ 求出W1 , W2 , W3
将③④式正规化,得 XIWi x2cW2- w3 >0 XidW- x2dw2 W3 >0 所以g(x)=WX>0其中W=(W1,W2,W3)T 26 为各模式增1矩阵 X X 2d 为N*(n+1)矩阵 N为样本数,n为特征数
将③ ④式正规化,得 -X1cW1- X2cW2- W3 >0 -X1dW1- X2dW2- W3 >0 所以 g(x) =WTX >0 其中W = (W1 , W2 , W3 ) T 为各模式增1矩阵 为N*(n+1)矩阵 N为样本数,n为特征数 − − − − − − = 1 1 1 1 1 2 1 2 1 2 1 2 d d c c b b a a X X X X X X X X X
训练过程就是对已知类别的样本集求解权向量w, 这是一个线性联立不等式方程组求解的过程 求解时: ①只有对线性可分的问题,g(x)=WX才有解 ②联立方程的解是非单值,在不同条件下,有不 同的解,所以就产生了求最优解的问题 ③求解W的过程就是训练的过程。训练方法的共 同点是,先给出准则函数,再寻找使准则函数 趋于极值的优化算法,不同的算法有不同的准 则函数。算法可以分为迭代法和非迭代法
训练过程就是对已知类别的样本集求解权向量w, 这是一个线性联立不等式方程组求解的过程。 求解时: ① 只有对线性可分的问题,g(x) =WTX才有解 ② 联立方程的解是非单值,在不同条件下,有不 同的解,所以就产生了求最优解的问题 ③ 求解W的过程就是训练的过程。训练方法的共 同点是,先给出准则函数,再寻找使准则函数 趋于极值的优化算法,不同的算法有不同的准 则函数。算法可以分为迭代法和非迭代法
梯度下降法一迭代法 欲对不等式方程组WX>0求解,首先定义准则函数(目 标函数J(,再求J(W的极值使W优化。因此求解权 向量的问题就转化为对一标量函数求极值的问题。解决 此类问题的方法是梯度下降法。 方法就是从起始值W1开始,算出W处目标函数的梯度 矢量VJ(W1),则下一步的W值为 2W1P,VJ(W) W为起始权向量 p1为迭代步长 J(W1为目标函数 VJ(W1)为W1处的目标函数的梯度矢量
一 梯度下降法—迭代法 欲对不等式方程组WTX>0求解,首先定义准则函数(目 标函数)J(W),再求J(W)的极值使W优化。因此求解权 向量的问题就转化为对一标量函数求极值的问题。解决 此类问题的方法是梯度下降法。 方法就是从起始值W1开始,算出W1处目标函数的梯度 矢量▽J(W1 ),则下一步的w值为: W2 = W1 -ρ1▽J(W1 ) W1为起始权向量 ρ1为迭代步长 J(W1 ) 为目标函数 ▽J(W1 )为W1处的目标函数的梯度矢量
在第K步的时候 KVJ( pk为正比例因子 这就是梯度下降法的迭代公式。这样一步步迭代 就可以收敛于解矢量,ρ取值很重要 ρk太大,迭代太快,引起振荡,甚至发散。 pk太小,迭代太慢。 应该选最佳pk
在第K步的时候 Wk+1 = Wk -ρk▽J(Wk ) ρk为正比例因子 这就是梯度下降法的迭代公式。这样一步步迭代 就可以收敛于解矢量,ρk取值很重要 ρk太大,迭代太快,引起振荡,甚至发散。 ρk太小,迭代太慢。 应该选最佳ρk
选最佳pk 日标函数J(W)二阶台劳级数展开式为 J(W)≈J(W)VJ(WWA+ W-Wk)D(W-W2① 其中D为当W=W时J(W)的二阶偏导数矩阵 将W=Wx1=Wkp列J代入①式得: J( Wk+)=J(WK)-PKllVJ112+ 9K2VJ DVJ 其中VJ=VJ(W 对p求导数,并令导数为零有 最佳步长为pk=YV‖/JDVJ 这就是最佳p的计算公式,但因二阶偏导数矩阵D的计算 量太大,因此此公式很少用
选最佳ρk 目标函数J(W)二阶台劳级数展开式为 J(W)≈J(Wk )+ ▽J T (W- Wk )+(W- Wk ) TD(W- Wk ) T /2 ① 其中D为当W = Wk时 J(W)的二阶偏导数矩阵 将W=Wk+1 = Wk -ρk▽J(Wk )代入①式得: J(Wk+1 ) ≈J(Wk )- ρk ||▽J||2+ ρk 2▽J T D▽J 其中▽J=▽J(Wk ) 对ρk求导数 ,并令导数为零有 最佳步长为ρk=||▽J||2 /▽J TD▽J 这就是最佳ρk的计算公式,但因二阶偏导数矩阵D的计算 量太大,因此此公式很少用。 2 1
若令W=W1上式为 (Wk+1)=J(N)+J(Wk+W)+(Nk+1WDk+1W2 对W1求导,并令导数为零可得: 最佳迭代公式:W+=WD1VJ一牛顿法的迭代公式 D1是D的逆阵 寸论:牛顿法比梯度法收敛的更快,但是D的计算量大并 且要计算D1。当D为奇异时,无法用牛顿法
若令W=Wk+1上式为 J(Wk+1 )=J(Wk )+▽J T (Wk+1 -Wk )+(Wk+1 -Wk ) TD(Wk+1 -Wk ) T /2 对Wk+1求导,并令导数为零可得: 最佳迭代公式:Wk+1 = Wk - D-1▽J —牛顿法的迭代公式 D-1是D的逆阵 讨论:牛顿法比梯度法收敛的更快,但是D的计算量大并 且要计算D-1 。当D为奇异时,无法用牛顿法