§24一元线性回归分析的应用:预 测问题 、Y0是条件均值E(YX=X0或个值Y的一 个无偏估计 二、总体条件均值与个值预测值的置信区
§2.4 一元线性回归分析的应用:预 测问题 一、Ŷ0是条件均值E(Y|X=X0 )或个值Y0的一 个无偏估计 二、总体条件均值与个值预测值的置信区 间
对于一元线性回归模型 Bo+BX 给定样本以外的解释变量的观测值X。,可以得到 被解释变量的预测值Y。,可以此作为其条件均 值E(YX=X0)或个别值Y的一个近似估计 注意: 严格地说,这只是被解释变量的预测值的 估计值,而不是预测值。 原因:(1)参数估计量不确定; (2)随机项的影响
对于一元线性回归模型 Yi 0 1 Xi ˆ ˆ ˆ = + 给定样本以外的解释变量的观测值X0,可以得到 被解释变量的预测值Ŷ0 ,可以此作为其条件均 值E(Y|X=X0 )或个别值Y0的一个近似估计。 注意: 严格地说,这只是被解释变量的预测值的 估计值,而不是预测值。 原因:(1)参数估计量不确定; (2)随机项的影响
Y是条件均值E(YX=X成个值Y 的一个无偏估计 对总体回归函数E(YX=X0)=B0+β1X,X=X0时 E(YX=0)=β0+β1x0 通过样本回归函数=+Ax,求得的拟合值为 Bo+B 于是E(Y0)=E(Bb+B10)=E(B)+XE(B1)=B+B1X0 可见,Y0是条件均值E(YX=X0)的无偏估计
一、Ŷ0是条件均值E(Y|X=X0 )或个值Y0 的一个无偏估计 对总体回归函数E(Y|X=X0 )=0+1X,X=X0时 E(Y|X=X0 )=0+1X0 0 0 1 0 Y ˆ = ˆ + ˆ X 于是 0 0 1 0 0 0 1 0 1 0 ) ˆ ) ( ˆ ) ( ˆ ˆ ) ( ˆ E(Y = E + X = E + X E = + X 可见,Ŷ0是条件均值E(Y|X=X0 )的无偏估计
对总体回归模型Y=β0+BX+μ,当X=X时 Yo=B+BXo+u 于是 E(X)=E(B+B1X0+1)=B+B1X0+E()=B0+B1X0 而通过样本回归函数=+x,求得拟合值 Yo=Bo+B,xo 的期望为 E(YO)=E(B+B,Xo=E(Bo)+Xoe(Bi)=Bo+BXo Y是个值Y的无偏估计
对总体回归模型Y=0+1X+,当X=X0时 Y0 = 0 + 1 X 0 + 于是 0 0 1 0 0 1 0 0 1 0 E(Y ) = E( + X + ) = + X + E() = + X 0 0 1 0 0 0 1 0 1 0 ) ˆ ) ( ˆ ) ( ˆ ˆ ) ( ˆ E(Y = E + X = E + X E = + X
、总体条件均值与个值预测值的置信 区间 1、总体均值预测值的置信区间 由于 Yo= Bo+Bx N(B Bo-NBo 于是E(0)=E(B)+XE(B)=B1+B1X0 Var(Yo=var(Bo)+2X Cov(Bo, B)+Xovar(Bu) 可以证明 Cov(0,B)=-a2X/∑x2
二、总体条件均值与个值预测值的置信 区间 1、总体均值预测值的置信区间 由于 0 0 1 0 Y ˆ = ˆ + ˆ X ~ ( , ) ˆ 2 2 1 1 i x N ~ ( , ) ˆ 2 2 2 0 0 i i n x X N 于是 0 0 0 1 0 1 0 ) ˆ ) ( ˆ ) ( ˆ E(Y = E + X E = + X ) ˆ ) ( ˆ , ˆ ) 2 ( ˆ ) ( ˆ ( 1 2 Var Y0 =Var 0 + X0 Cov 0 1 + X0 Var 可以证明 = − 2 2 0 1 ) / ˆ , ˆ ( i Cov X x
因此 σ2∑X22X0Xσ2X Var(ro) ∑x2"∑ ∑ X-nX x2-2X0X+X0 X-X +(X0-X)2) ∑ 故 1~N(B+B1X0,02(-+ ∑x2 将未知的G代以它的无偏估计量σ2,可构造t统计量 =-(B+Bx)-(-2)宝8c+(=矿 于是,在1-α的置信度下,总体均值F(YX。)的置信区间为 y0-t=×S<E(Y|X0)<Y+t2×S
因此 = − + 2 2 2 0 2 2 0 2 2 2 0 2 ) ˆ ( i i i i x X x X X n x X Var Y + − + − = 2 0 0 2 2 2 2 2 X 2X X X n X nX x i i ( ( ) ) 2 0 2 2 2 X X n x x i i = + − ) 1 ( ) ( 2 2 2 0 − = + i x X X n 故 )) 1 ( ) ~ ( , ( ˆ 2 2 2 0 0 0 1 0 − + + i x X X n Y N X ~ ( 2) ( ) ˆ 0 ˆ 0 0 1 0 − − + = t n S Y X t Y ) 1 ( ) ˆ ( 2 2 2 0 ˆ 0 − = + i Y x X X n 其中 S 于是,在1-的置信度下,总体均值E(Y|X0 )的置信区间为 0 2 0 2 0 ˆ 0 0 ˆ ˆ ( | ) ˆ Y Y Y − t S E Y X Y + t S
2、总体个值预测值的预测区间 由Yo=β0+B1X0+u知: 0~N(6o+BX0,a2) 于是 Y~N(0,a2(1+-+ X0-X) ∑ 将未知的σ代以它的无偏佔计量σ2,可构造t统计量 式中 1,(X0-X) G2(1+-+ 从而在1-a的置信度下,Y0的置信区间为 <Yn<Y+to×S
2、总体个值预测值的预测区间 由 Y0 =0+1X0+ 知: ~ ( , ) 2 Y0 N 0 + 1 X0 于是 )) 1 ( ) ~ (0, (1 ˆ 2 2 2 0 0 0 − − + + i x X X n Y Y N ~ ( 2) ˆ 0 0 ˆ 0 0 − − = − t n S Y Y t Y Y 式中 : ) 1 ( ) ˆ (1 2 2 2 0 ˆ 0 0 − = + + − i Y Y x X X n S 从而在1-的置信度下, Y0的置信区间为 0 0 2 0 2 0 0 ˆ 0 0 ˆ ˆ ˆ Y Y Y Y Y t S Y Y t S − − − +
在上述收入消费支出例中,得到的样本回归函数为 =-103.172+0.77X7 则在X=1000处,Y0=-103.172+0777×1000=673.84 ar(x)=13421+(025 3727.29 7425000 S(Y)=61.05 因此,总体均值E(YX=1000)的95%的置信区间为: 673.842.306×61.05<E(YX=100067384+2.306×6105 或 (533.05.814.62)
在上述收入-消费支出例中,得到的样本回归函数为 Yi Xi 103.172 0.777 ˆ = − + 则在 X0=1000处, Ŷ0 = –103.172+0.777×1000=673.84 3727 .29 7425000 (1000 2150 ) 10 1 ) 13402 ˆ ( 2 0 = − 而 Var Y = + ) 61.05 ˆ ( S Y0 = 因此,总体均值E(Y|X=1000)的95%的置信区间为: 673.84-2.30661.05< E(Y|X=1000) <673.84+2.30661.05 或 (533.05, 814.62)
同样地,对于Y在Ⅹ=1000的个体值,其95%的置信区间为: 67384-2.306×61.05<Yx=1000×673.84+2.306×61.05 或 (372.03,97565 总体回归函数的置信带(域)( confidence band) 个体的置信带(域) YA 10317+0.777X2 Y均值的置信区间 Y个值的置信区间 X
同样地,对于Y在X=1000的个体值,其95%的置信区间为: 673.84 - 2.30661.05<Yx=1000 <673.84 + 2.30661.05 或 (372.03, 975.65) • 总体回归函数的置信带(域)(confidence band) • 个体的置信带(域)
对于Y的总体均值F(YX)与个体值的预测区 间(置信区间) (1)样本容量n越大,预测精度越高,反之 预测精度越低; (2)样本容量一定时,置信带的宽度当在X 均值处最小,其附近进行预测(插值预测) 精度越大;ⅹ越远离其均值,置信带越宽, 预测可信度下降
对于Y的总体均值E(Y|X)与个体值的预测区 间(置信区间): (1)样本容量n越大,预测精度越高,反之 预测精度越低; (2)样本容量一定时,置信带的宽度当在X 均值处最小,其附近进行预测(插值预测) 精度越大;X越远离其均值,置信带越宽, 预测可信度下降