§24一元线性回归分析的应用:预 测问题 、Y是条件均值EYX=X或个值Y的一 个无偏估计 、总体条件均值与个值预测值的置信区 间
§2.4 一元线性回归分析的应用:预 测问题 一、Ŷ0是条件均值E(Y|X=X0 )或个值Y0的一 个无偏估计 二、总体条件均值与个值预测值的置信区 间
对于一元线性回归模型 Y=Bo+BX 给定样本以外的解释变量的观测值X。,可以得到 被解释变量的预测值Y。,可以此作为其条件均 值E(YX=X0)或个别值Y的一个近似估计。 注意: 严格地说,这只是被解释变量的预测值的 估计值,而不是预测值。 原因:(1)参数估计量不确定 (2)随机项的影响
对于一元线性回归模型 Yi 0 1 Xi ˆ ˆ ˆ = + 给定样本以外的解释变量的观测值X0,可以得到 被解释变量的预测值Ŷ0 ,可以此作为其条件均 值E(Y|X=X0 )或个别值Y0的一个近似估计。 注意: 严格地说,这只是被解释变量的预测值的 估计值,而不是预测值。 原因:(1)参数估计量不确定; (2)随机项的影响
Y是条件均值E(YX=X0或个值Y 的一个无偏估计 对总体回归函数E(YX=X0=B0+B1X,X=X0时 E(Y|X=X0=β0+B1x0 通过样本回归函数=A0+Ax,求得的拟合值为 Yo=Bo+BXo 于是E()=E(B+月1X0)=E(B)+XE(B)=B6+B1X 可见,Y是条件均值E(YX=X0的无偏估计
一、Ŷ0是条件均值E(Y|X=X0 )或个值Y0 的一个无偏估计 对总体回归函数E(Y|X=X0 )=0+1X,X=X0时 E(Y|X=X0 )=0+1X0 0 0 1 0 Y ˆ = ˆ + ˆ X 于是 0 0 1 0 0 0 1 0 1 0 ) ˆ ) ( ˆ ) ( ˆ ˆ ) ( ˆ E(Y = E + X = E + X E = + X 可见,Ŷ0是条件均值E(Y|X=X0 )的无偏估计
对总体回归模型Y=β0+βX+μ,当Ⅹ=x时 Y=B0+B1X0+ 于是 E(Y)=E(+B1X+)=B+B1X0+E()=B0+B1X0 而通过样本回归函数=A+Ax,求得拟合值 +BX 的期望为 E(YO=E(Bo+B,)=E(Bo)+XE(B)=Bo+BXo Y0是个值Y的无偏估计
对总体回归模型Y=0+1X+,当X=X0时 Y0 = 0 + 1 X 0 + 于是 0 0 1 0 0 1 0 0 1 0 E(Y ) = E( + X + ) = + X + E() = + X 0 0 1 0 0 0 1 0 1 0 ) ˆ ) ( ˆ ) ( ˆ ˆ ) ( ˆ E(Y = E + X = E + X E = + X
总体条件均值与个值预测值的置信 区间 1、总体均值预测值的置信区间 由于 Bo+BI B1~N(B1, Bo-N(Bo, 于是E()=E(B)+XE(B)=B+BX0 r()=Wam(B)+2X0Co(B6。,月)+XVmr(B 可以证明 Cow(B,B1)=-a2X/∑x2
二、总体条件均值与个值预测值的置信 区间 1、总体均值预测值的置信区间 由于 0 0 1 0 Y ˆ = ˆ + ˆ X ~ ( , ) ˆ 2 2 1 1 i x N ~ ( , ) ˆ 2 2 2 0 0 i i n x X N 于是 0 0 0 1 0 1 0 ) ˆ ) ( ˆ ) ( ˆ E(Y = E + X E = + X ) ˆ ) ( ˆ , ˆ ) 2 ( ˆ ) ( ˆ ( 1 2 Var Y0 =Var 0 + X0 Cov 0 1 + X0 Var 可以证明 = − 2 2 0 1 ) / ˆ , ˆ ( i Cov X x
因此 Var(ro) a2∑X2XXo2,X2o2 ∑X2-nx2 +X2-2X0X+X x (2+(X0-X)2 ×(Y-X 故 Y0~N(B0+BX0,02(-+ (x0-X) 将未知的σ代以它的无偏估计量σ2,可构造t统计量 110-(B、、Y 1,(X。-X) t(n-2) 其中 于是,在1-a的置信度下,总体均值E(YX)肭置信区间为 。-1×S:<E(Y|X0)<n+tn×S
因此 = − + 2 2 2 0 2 2 0 2 2 2 0 2 ) ˆ ( i i i i x X x X X n x X Var Y + − + − = 2 0 0 2 2 2 2 2 X 2X X X n X nX x i i ( ( ) ) 2 0 2 2 2 X X n x x i i = + − ) 1 ( ) ( 2 2 2 0 − = + i x X X n 故 )) 1 ( ) ~ ( , ( ˆ 2 2 2 0 0 0 1 0 − + + i x X X n Y N X ~ ( 2) ( ) ˆ 0 ˆ 0 0 1 0 − − + = t n S Y X t Y ) 1 ( ) ˆ ( 2 2 2 0 ˆ 0 − = + i Y x X X n 其中 S 于是,在1-的置信度下,总体均值E(Y|X0 )的置信区间为 0 2 0 2 0 ˆ 0 0 ˆ ˆ ( | ) ˆ Y Y Y − t S E Y X Y + t S
2、总体个值预测值的预测区间 由Y=β+BX+μ知 0~N(月+月1X0,a2 于是 Y0~N(0,a2(1+ (X0-X) 将未知的σ2代以它的无偏估计量σ2,可构造t统计量 (n-2) 式中: 1,(X0-X) G2(1+-+ ∑x2 从而在1-α的置信度下,Y的置信区间为 S:,<Y<Y+t。× 0-1
2、总体个值预测值的预测区间 由 Y0 =0+1X0+ 知: ~ ( , ) 2 Y0 N 0 + 1 X0 于是 )) 1 ( ) ~ (0, (1 ˆ 2 2 2 0 0 0 − − + + i x X X n Y Y N ~ ( 2) ˆ 0 0 ˆ 0 0 − − = − t n S Y Y t Y Y 式中 : ) 1 ( ) ˆ (1 2 2 2 0 ˆ 0 0 − = + + − i Y Y x X X n S 从而在1-的置信度下, Y0的置信区间为 0 0 2 0 2 0 0 ˆ 0 0 ˆ ˆ ˆ Y Y Y Y Y t S Y Y t S − − − +
在上述收入-消费支出例中,得到的样本回归函数为 y=-103.172+0.77X 则在X。=1000处 0 103.172+0.777×1000=673.84 而 ar(X0)=13402 (1000-2150) 3727.29 7425000 S(Y0)=61.05 因此,总体均值E(YX=1000的95%的置信区间为: 673842306×6105<E(YX=1000673.84+2.306×61.05 或 (533.05.81462)
在上述收入-消费支出例中,得到的样本回归函数为 Yi Xi 103.172 0.777 ˆ = − + 则在 X0=1000处, Ŷ0 = –103.172+0.777×1000=673.84 3727 .29 7425000 (1000 2150 ) 10 1 ) 13402 ˆ ( 2 0 = − 而 Var Y = + ) 61.05 ˆ ( S Y0 = 因此,总体均值E(Y|X=1000)的95%的置信区间为: 673.84-2.30661.05< E(Y|X=1000) <673.84+2.30661.05 或 (533.05, 814.62)
同样地,对于Y在X=1000的个体值,其95%的置信区间为: 673.84-2306×6105Y×-10067384+2.306×6105 或 (372.03,97565 总体回归函数的置信带(域)( confidence band) 个体的置信带(域) Y =1037+0777 Y均值的置信区间 …-……………… Y个值的置信区间 X
同样地,对于Y在X=1000的个体值,其95%的置信区间为: 673.84 - 2.30661.05<Yx=1000 <673.84 + 2.30661.05 或 (372.03, 975.65) • 总体回归函数的置信带(域)(confidence band) • 个体的置信带(域)
对于Y的总体均值E(YX)与个体值的预测区 间(置信区间) (1)样本容量n越大,预测精度越高,反之 预测精度越低; (2)样本容量一定时,置信带的宽度当在Ⅹ 均值处最小,其附近进行预测(插值预测) 精度越大;X越远离其均值,置信带越宽, 预测可信度下降
对于Y的总体均值E(Y|X)与个体值的预测区 间(置信区间): (1)样本容量n越大,预测精度越高,反之 预测精度越低; (2)样本容量一定时,置信带的宽度当在X 均值处最小,其附近进行预测(插值预测) 精度越大;X越远离其均值,置信带越宽, 预测可信度下降