第六章统计学习理论 60引言 61一致性与一致收敛 62 Vapnik- Chervonenkis(VC)理论 63结构风险最小化( Structural risk Minimization)
第六章 统计学习理论 6.0 引言 6.1 一致性与一致收敛 6.2 Vapnik-Chervonenkis (VC)理论 6.3 结构风险最小化(Structural Risk Minimization)
6.0引言
6.0 引言
6.0引言 ■模式识别中的学习问题: 训练数据集(X,Y) (x,n)(x2y2)…,(xn2yn)2 x∈羽,y∈{12…,K} 随机变量X的独 x的类别标识, 立同分布样本。 随机变量Y的独 立同分布样本
6.0 引言 模式识别中的学习问题: 训练数据集 ( X, Y ) ( , ),( , ), ,( , ), 1 1 2 2 n n x y x y L x y y {1,2, ,K} i ∈ L i x 随机变量 的独 立同分布样本。 Y , d i x ∈ℜ 随机变量 的独 立同分布样本。 X 的类别标识
6.0引言 学习函数集: 参数参数空间 {f(x,):6∈ 损失函数: L(y’,f(x,)
6.0 引言 学习函数集: 损失函数: { f (x,θ ):θ ∈Θ} 参数 参数空间 L( y, f (x,θ ))
6.0引言 ■平方误差损失函数: L(y,f(x()=(y-f(x,0)2 ■E不敏感损失函数: LO,(,0)=y-f(x, 0) 0|y-f(x,) ly-f(x,0)其他
6.0 引言 平方误差损失函数: 不敏感损失函数: 2 L(y, f (x,θ)) = (y − f (x,θ)) { | ( , )| 其他 0 | ( , )| ( , ( , )) | ( , )| θ θ ε θ θ ε y f x y f x L y f x y f x − − ≤ = = − ε
6.0引言 Soft margin损失函数 L(y, f(x,0)=y-f(x, 0) y-f(x,b)y-f(x,6)>0 else Hard margin损失函数: L(y, f(x, 0)=h(y-f(x, 0) y-f(x,b)>0 o else ■误分类数损失函数: L(y,f(x,6)=h(-yf(x,)
6.0 引言 Soft Margin损失函数: Hard Margin损失函数: 误分类数损失函数: { else y f x y f x L y f x y f x 0 ( , ) ( , ) 0 ( , ( , )) | ( , ) | − − > = = − + θ θ θ θ { else y f x L y f x h y f x 0 1 ( , ) 0 ( , ( , )) ( ( , )) − > = = − θ θ θ L ( y , f ( x , θ )) = h ( − yf ( x , θ ))
6.0引言 ■例:最小平方误差准则线性分类器。 训练数据:x∈9,y∈{-1,+1} 学习函数集:f(x)=x+b 0={w,b},w∈,b∈咒,=“×只 损失涵数: L(y,f(x,⊙)=(y-f(x,6)=(y-x-b)
6.0 引言 例:最小平方误差准则线性分类器。 训练数据: 学习函数集: 损失函数: = { , }, ∈ℜ , ∈ℜ, Θ = ℜ ×ℜ. d d θ w b w b ∈{−1,+1}. i y f (x, ) w x b. T θ = + ( , ( , )) ( ( , )) ( ) . 2 2 L y f x y f x y w x b T θ = − θ = − − , d i x ∈ℜ
6.0引言 ■学习:从学习函数集中挑一个“最优”的 什么是“最优”? 统计推断:期望风险最小化(RM) 期望风险 R(O)=R((.6)=1(y(x)F(xy) X,Y的分布函数
6.0 引言 学习:从学习函数集中挑一个“最优”的。 什么是“最优”? 统计推断:期望风险最小化( RM ) 期望风险 ∫ = • = ∆ R(θ ) R( f ( ,θ )) L( y, f (x,θ ))dF(x, y) X ,Y的分布函数
6.0引言 基于最小错误率的 Bayes决策:条件错误率的 数学期望 P(e)=p(e,x)dx ∫P(elx)x)dx=」Peld(x) E(P(elx))
6.0 引言 基于最小错误率的Bayes决策:条件错误率的 数学期望 ( ( | )). ( | ) ( ) ( | ) ( ) ( ) ( , ) E P e x P e x p x dx P e x dP x P e P e x dx = = = = ∫ ∫ ∫
6.0引言 ■经验风险 Rm/(O)=Rmn((,0)=∑l(,f(x,) 经验风险最小化(ERM)原则:用经验风 险来逼近期望风险
6.0 引言 经验风险 经验风险最小化( ERM )原则:用经验风 险来逼近期望风险。 ( , ( , )). 1 ( ) ( ( , )) 1 ∑ = ∆ = • = n i emp emp i i L y f x n R θ R f θ θ