第7章岭回归 71岭回归估计的定义 72岭回归估计的性质 73岭迹分析 74岭参数的选择 7.5用岭回归选择变量 76本章小结与评注
第7章 岭回归 7.1 岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析 7.4 岭参数k的选择 7.5 用岭回归选择变量 7.6 本章小结与评注
§7.1岭回归估计的定义 、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就 很大,估计值就很不稳定,下面进一步用一个模拟的例 子来说明这一点。 例7.1假设已知x1,x2与y的关系服从线性回归模型 10+2x1+3x2+E
§7.1 岭回归估计的定义 一、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就 很大, 估计值就很不稳定,下面进一步用一个模拟的例 例7.1 假设已知x1,x2与y y=10+2x1+3x2+ε
§7.1岭回归估计的定义 给定x,x的10个值,如下表7.1的第(2)、(3)两行: 表71 序号12345678910 (1) 1.11.41.71.71.81.81.92.02.32.4 (2) 1.11.51.81.71.91.81.82.12.42.5 (3)10.8-0.5040.50.21.91.90.6-1.51.5 (4)y116.316.819.218.019.52092120.90.3.0
§7.1 岭回归估计的定义 给定x1,x2的10个值,如下表7.1的第(2)、(3)两行: 表7.1 序号 1 2 3 4 5 6 7 8 9 10 (1) x1 1.1 1.4 1.7 1.7 1.8 1.8 1.9 2.0 2.3 2.4 (2) x2 1.1 1.5 1.8 1.7 1.9 1.8 1.8 2.1 2.4 2.5 (3) εi 0.8 -0.5 0.4 -0.5 0.2 1.9 1.9 0.6 -1.5 -1.5 (4) yi 16.3 16.8 19.2 18.0 19.5 20.9 21.1 20.9 20.3 22.0
§7.1岭回归估计的定义 现在我们假设回归系数与误差项是未知的,用普通最小二乘法 求回归系数的估计值得: β=1l292,β1=1.307,β2=6.591 而原模型的参数 βa=10,B1-2,B2=3 看来相差太大。计算x,ⅹ的样本相关系数得rz=0.986,表明 x1与x之间高度相关
§7.1 岭回归估计的定义 现在我们假设回归系数与误差项是未知的,用普通最小二乘法 求回归系数的估计值得: 0 ˆ =11.292, 1 ˆ =11.307, 2 ˆ =-6.591 β0=10,β1=2,β2=3 看来相差太大。计算x1,x2的样本相关系数得r12=0.986,表明 x1与x2之间高度相关
§7.1岭回归估计的定义 岭回归的定义 岭回归( Ridge Regression.,简记为RR提出的想法是很 自然的。 当自变量间存在复共线性时,|XX|≈0, 我们设想给XX加上一个正常数矩阵kI,(k>0), 那么XX+k接近奇异的程度就会比XX接近奇异的程度 小得多。 考虑到变量的量纲问题,我们先对数据做标准化 为了记号方便,标准化后的设计阵仍然用X表示
§7.1 岭回归估计的定义 二、岭回归的定义 岭回归(Ridge Regression,简记为RR)提出的想法是很 自然的。 当自变量间存在复共线性时,|X′X|≈0, 我们设想给X′X加上一个正常数矩阵kI,(k>0), 那么X′X+kI接近奇异的程度就会比X′X接近奇异的程度 小得多。 考虑到变量的量纲问题,我们先对数据做标准化, 为了记号方便,标准化后的设计阵仍然用X表示
§7.1岭回归估计的定义 我们称Bx)=(XX+kI)xy(72) 为β的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以XX就是自变量样本相 关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以 未经标准化 显然,岭回归做为β的估计应比最小二乘估计稳定, 当k=0时的岭回归估计就是普通的最小二乘估计
§7.1 岭回归估计的定义 我们称 β = XX + I Xy -1 (k) ( k ) ˆ 为β的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以X′X就是自变量样本相 关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以 未经标准化。 显然,岭回归做为β的估计应比最小二乘估计稳定, 当k=0时的岭回归估计就是普通的最小二乘估计。 (7.2)
§7.1岭回归估计的定义 因为岭参数k不是唯一确定的,所以我们得到的岭回归估计β(k) 实际是回归参数β的一个估计族。 例如对例71可以算得不同k值时的β1Q),B2(k),见表72 表72 0 0.10.150.20.30.40.51.01.52 B()1.313.482.92.712.392.202.061.661.431.271.03 62()6.590.631.02.211.391.461.491.411.281.17|0.98
§7.1 岭回归估计的定义 因为岭参数k不是唯一确定的,所以我们得到的岭回归估计 β(k) ˆ 实际是回归参数β的一个估计族。 例如对例7.1可以算得不同k值时的β1 (k) ˆ ,β(k) 2 ˆ ,见表7.2 k 0 0.1 0.15 0.2 0.3 0.4 0.5 1.0 1.5 2 3 β1 (k) ˆ 11.31 3.48 2.99 2.71 2.39 2.20 2.06 1.66 1.43 1.27 1.03 β2 (k) ˆ -6.59 0.63 1.02 1.21 1.39 1.46 1.49 1.41 1.28 1.17 0.98 表7.2
§7.1岭回归估计的定义 1(k) 2(k) 2345 图7.1
§7.1 岭回归估计的定义
§7,2岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定(7.2) 式中因变量观测向量y未经标准化。 性质1Bk)是回归参数β的有偏估计 证明:E[B(k)]E[X′X+kI)x′y (XX+kI)X′E(y) (X′X+kI)X′X 显然只有当k=0时,互(O)}B;当k≠0时,B(k)是β的有偏估计 要特别强调的是β(k)不再是β的无偏估计了, 有偏性是岭回归估计的一个重要特性
§7.2 岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定(7.2) 式中因变量观测向量y未经标准化。 性质1 β(k) ˆ 是回归参数β 证明: E[β(k) ˆ ]=E[(X′X+kI) -1 X′y] =(X′X+kI) -1 X′E(y) =(X′X+kI) -1 X′X 显然只有当k=0时,E[ β(0) ˆ ]=β;当k≠0时, β(k) ˆ 是β的有偏估计。 要特别强调的是β(k) ˆ 不再是β的无偏估计了, 有偏性是岭回归估计的一个重要特性
§7,2岭回归估计的性质 性质2在认为岭参数k是与y无关的常数时,β(k)=(XX+kI)xy 是最小二乘估计β的一个线性变换,也是y的线性函数。 因为B(k)=(XX+kI)xy=(xX+kI)xX(xX)xy -(X'X+kI)X'XB 因此,岭估计β(k)是最小二乘估计β的一个线性变换, 根据定义式(k)=(X"x+kI)Xy知B(k)也是y的线性函数 这里需要注意的是,在实际应用中,由于岭参数k总是要通过数据来 确定,因而k也依赖于y,因此从本质上说β(k)并非β的线性变换,也不是 y的线性函数
§7.2 岭回归估计的性质 性质2 在认为岭参数k是与y 无关的常数时,β = XX + I Xy -1 (k) ( k ) ˆ 是最小二乘估计β ˆ 的一个线性变换,也是y 因为 β = XX + I Xy -1 (k) ( k ) ˆ = XX + I XX XX Xy -1 -1 ( k ) ( ) = X X I X Xβ ˆ + -1 ( k ) 因此,岭估计β(k) ˆ 是最小二乘估计β ˆ 的一个线性变换, 根据定义式β = XX + I Xy -1 (k) ( k ) ˆ 知β(k) ˆ 也是y 这里需要注意的是,在实际应用中,由于岭参数k总是要通过数据来 确定,因而k也依赖于y,因此从本质上说β(k) ˆ 并非β ˆ 的线性变换,也不是 y 的线性函数