第五章自变量的选择与逐步回归 5.1自变量选择对估计和预测的影响 5.2所有子集回归 5.3逐步回归 5.4本章小结与评注
第五章 自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注
§第5章自变量选择与逐步回归 从20世纪60年代开始,关于回归自变量的选择成为统 计学中研究的热点问题。统计学家们提出了许多回归选 元的准则,并提出了许多行之有效的选元方法。 本章从回归选元对回归参数估计和预测的影响开始, 介绍自变量选择常用的几个准则;扼要介绍所有子集回 归选元的几个方法;详细讨论逐步回归方法及其应用
§第5章 自变量选择与逐步回归 从20世纪60年代开始,关于回归自变量的选择成为统 计学中研究的热点问题。统计学家们提出了许多回归选 元的准则,并提出了许多行之有效的选元方法。 本章从回归选元对回归参数估计和预测的影响开始, 介绍自变量选择常用的几个准则;扼要介绍所有子集回 归选元的几个方法;详细讨论逐步回归方法及其应用
§5.1自变量选择对估计和预测的影响 一、全模型和选模型 设研究某一实际问题涉及到对因变量有影响的因素共 有m个,回归模型为: y=Bo+Bx+B2x2+..+Bnxm+e (5.1) 称为全回归模型。 如果我们从所有可供选择的m个变量中挑选出p个,记 为x1,x2,…,xp,构成的回归模型为: y=B op+B Ipx]+B 2px2.+B ppxp+e p (5.2) 称模型(5.2)式为选模型
§5.1 自变量选择对估计和预测的影响 一、全模型和选模型 设研究某一实际问题涉及到对因变量有影响的因素共 有m y=β0+β1x1+β2x2+…+βmxm+ε (5.1) 如果我们从所有可供选择的m个变量中挑选出p个,记 为x1,x2,…,xp, y=β0p+β1px1+β2px2+…+βppxp +ε p (5.2 称模型(5.2)式为选模型
§5.1自变量选择对估计和预测的影响 一、全模型和选模型 模型选择不当会给参数估计和预测带来什么影响?下 面我们将分别给予讨论。 为了方便,我们把模型(5.1)式的参数估计向量8 和02的估计记为: Bn=(XX)Xy SSE 把模型(5.2)式的参数估计向量记为 B。=(X,X)Xy
§5.1 自变量选择对估计和预测的影响 一、全模型和选模型 模型选择不当会给参数估计和预测带来什么影响?下 为了方便,我们把模型(5.1)式的参数估计向量 和σ2的估计记为: β ˆ β X X Xm y -1 m ( m m ) ˆ m m SSE n m 1 1 ˆ 2 把模型(5.2)式的参数估计向量记为 β X X Xp y -1 p ( p p ) ˆ p SSEp n p 1 1 ˆ 2
§5.1自变量选择对估计和预测的影响 二、自变量选择对预测的影响 关于自变量选择对预测的影响可以分成两种情况: 第一种情况是全模型正确而误用了选模型; 第二种情况是选模型正确而误用了全模型式
§5.1 自变量选择对估计和预测的影响 二、自变量选择对预测的影响 关于自变量选择对预测的影响可以分成两种情况: 第一种情况是全模型正确而误用了选模型; 第二种情况是选模型正确而误用了全模型式
§5.1自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况 性质1.在X与X1,Xm的相关系数不全为0时,选模型回归系数的 最小二乘估计是全模型相应参数的有偏估计,即 EBm)=B。≠B,(1,2,…p)
§5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况 性质1. 在xj与xp+1, …,xm的相关系数不全为0 时,选模型回归系数的 最小二乘估计是全模型相应参数的有偏估计,即 jp jp j ) ˆ E( (j=1,2, …,p)
§5.1自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况 性质2.选模型的的预测是有偏的。 给定新自变量值xp=(X1,X2,…,Xm,因变量新值为 yo=Bo+B iX01+B 2X02++B mxXom+o 用选模型的预测值为 yop Bop +Bipxor +Bzpxo2+Bpoxop 作为yo的预测值是有偏的,即E(矿op-yo)≠0
§5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况 性质2. 选模型的的预测是有偏的。 给定新自变量值 (x ,x , ,x ) 0p 01 02 0m x ,因变量新值为 y0 =β0 +β1 x01+β2 x02+…+βmx0m+ε0 用选模型的预测值为 0p 0p 1p 01 2p 02 pp x0p ˆ x ˆ x ˆ ˆ y ˆ 作为y0的预测值是有偏的,即 E(y ˆ y ) 0 0p 0
§5.1自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况 性质3.选模型的参数估计有较小的方差 选模型的最小二乘参数估计为B。=(Bop,Bp,…,Bp)》 全模型的最小二乘参数估计为Bm=(Bom,B1m,…,m)' 这条性质说明D(Bm)≤DBm),j=0,l…,p
§5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况 性质3. 选模型的参数估计有较小的方差 选模型的最小二乘参数估计为 ) ˆ , , ˆ , ˆ ( ˆ p 0p 1p pp β 全模型的最小二乘参数估计为 ) ˆ , , ˆ , ˆ ( ˆ m 0m 1m mm β 这条性质说明 ), j 0,1, ,p ˆ ) D( ˆ D(jp jm
§5.1自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况 性质4.选模型的预测残差有较小的方差。 选模型的预测残差为eop=yop一yo 全模型的预测残差为eom=夕om一yo 其中y0=Bo+BXo1+B2Xo2++Bm0m+e 则有D(eop)≤D(eom)
§5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况 性质4. 选模型的预测残差有较小的方差。 选模型的预测残差为 0p y0p y0 e ˆ 全模型的预测残差为 0m y0m y0 e ˆ 其中y0 =β0 +β1 x01+β2 x02+…+βmx0m+ε 则有D(e0p)≤D(e0m)
§5.1自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况 性质5.记Bm-p=(Bp+1,…,Bm)1 用全模型对Bnmn的最小二乘估计为Bm-p=(Bl,…,Bm)》 则在D(Bm-p)≥Bm-nBm-p的条件下 E (eop)=D(eop)+(E (eop)<D(eom) 即选模型预测的均方误差比全模型预测的方差更小
§5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况 性质5. 记 ( , , ) m p p 1 m β 用全模型对βmp 的最小二乘估计为 ) ˆ , , ˆ ( ˆ m p p 1 m β 则在 m p m p m p ) ˆ D( β β β 的条件下 E(e0p)2 = D(e0p)+(E(e0p)) 2 ≤D(e0m) 即选模型预测的均方误差比全模型预测的方差更小