§3.4多元线性回归模型的预测 E(Y0)的置信区间 二、Y0的置信区间
§3.4 多元线性回归模型的预测 一、E(Y0 )的置信区间 二、Y0的置信区间
对于模型 Y=XB 给定样本以外的解释变量的观测值 X。=(1,X10X20-XKo),可以得到被解释变量的预 测值: 它可以是总体均值E(Y0或个值Y0的预测 但严格地说,这只是被解释变量的预测值的估 计值,而不是预测值。 为了进行科学预测,还需求出预测值的置信 区间,包括E(Y和Y的置信区间
对于模型 Y ˆ = Xβ ˆ 给 定 样 本 以 外 的 解 释 变 量 的 观 测 值 X0=(1,X10,X20,…,Xk0 ),可以得到被解释变量的预 测值: ˆ X β ˆ Y0 = 0 它可以是总体均值E(Y0 )或个值Y0的预测。 但严格地说,这只是被解释变量的预测值的估 计值,而不是预测值。 为了进行科学预测,还需求出预测值的置信 区间,包括E(Y0 )和Y0的置信区间
一、E(Y0的置信区间 易知 E(YO=E(XOB)=XE(B)=XoB=E(YO Var(Y)=E(X B-X, B)2=E(X(B-B)X(B-B) 由于X0(B-B为标量,因此 Var(Yo=e(xo(B-B(B-B)Xo =XE(B-B)(B-B)Xo O Xo(XX)XO
一、E(Y0 )的置信区间 易知 ) ( ) ˆ ) ( ˆ ) ( ˆ ( E Y0 = E X0β = X0 E β = X0β= E Y0 )) ˆ ˆ ) ( ˆ ) ( ˆ ( 2 Var Y0 = E X0β− X0β = E X0 (β−β)X0 (β−β 0 1 0 2 0 0 0 ( ) ˆ ˆ ) ˆ ˆ ) ( ˆ ( X X X X X (β β)(β β) X X (β β)(β β) X 0 0 = = − − = − − − E Var Y E
容易证明 Yo- N(XoB o X(XX)X) 取随机扰动项的样本佔计量σ2,构造如下t统计量 ECr (n-k-1) oX(X'X) 于是,得到(1-∞)的置信水平下E(Y0)的置信区间: 0-12×√X0(XX)X<E(Y)<Y+t2×√X0(XX)X 其中,t2为(1-a)的置信水平下的临界值
容易证明 ~ ( , ) ˆ 0 2 0 X β X (X X) X 1 0 0 − Y N ~ ( 1) ˆ ˆ − − − − t n k Y E(Y ) 0 0 0 1 X0 (X X) X 于是,得到(1-)的置信水平下E(Y0 )的置信区间: 0 1 0 0 0 0 1 0 0 ˆ ( ) ˆ ˆ ( ) ( ) ˆ 2 2 − X XX X + X XX X − − Y t E Y Y t 其中,t/2为(1-)的置信水平下的临界值
Y0的置信区间 如果已经知道实际的预测值Y,那么预测误差为 容易证明 E(e)=E(X0B+0-X06) E(0-X0(B-B) E(40-X0(XX)X’u) 0 Var(eo=e(eo) E(uo-X(Xx)Xu) (1+X0(XX)X0)
二、Y0的置信区间 如果已经知道实际的预测值Y0,那么预测误差为: 0 0 0 Y Y ˆ e = − 容易证明 0 ( ( ) ) )) ˆ ( ( ) ˆ ( ) ( 1 0 0 0 0 0 0 0 0 = = − = − − = + − X X X − X μ X β β X β X β E E E e E (1 ( ) ) ( ( ) ) ( ) ( ) 0 1 0 2 1 2 0 0 2 0 0 X X X X X X X X μ = + = − = − − E Var e E e
eo服从正态分布,即 eo~N(02a2(1+X0(XX)X0 取随机扰动项的样本佔计量a2,可得的方差 的估计量 G2=a2(1+X(XX)X0) 构造t统计量 00~(n-k-1) 可得给定(1-∞)的置信水平下Y的置信区间: 0-t2×G1+x0(XX)X<Y0<Y+t2×G√1+X0(XX)X
e0服从正态分布,即 ~ (0, (1 ( ) )) 0 1 0 2 0 + X XX X − e N ˆ ˆ (1 ( ) )) 0 1 0 2 2 0 = + X XX X − e 构造t统计量 ~ ( 1) ˆ ˆ 0 0 0 − − − = t n k Y Y t e 可得给定(1-)的置信水平下Y0的置信区间: 0 1 0 0 0 0 1 0 0 ˆ 1 ( ) ˆ ˆ 1 ( ) ˆ 2 2 − + X XX X + + X XX X − − Y t Y Y t
中国居民人均收入-消费支出二元模型例中: 2001年人均GDP:4033.1元, 于是人均居民消费的预测值为 Y2001=1207+0.2213×40331+0.4515×1690.8=17768(元) 实测值(90年价)=17822元,相对误差:-0.31% 预测的置信区间: 在95的置信度下,临界值t2(19)2.093,a2=705.5, 0.002850.00828 (XX)=0.00850.0001-0.000 0.008280.000010.00004
中国居民人均收入-消费支出二元模型例中: 2001年人均GDP:4033.1元, 于是人均居民消费的预测值为 Ŷ2001=120.7+0.2213×4033.1+0.4515×1690.8=1776.8(元) 实测值(90年价)=1782.2元,相对误差:-0.31% 预测的置信区间 : − − − − = − 0.00828 0.00001 0.00004 0.00285 0.00001 0.00001 1.88952 0.00285 0.00828 ( ) 1 X X
X0(XX)X。=0.3938 于是E(Y2001)的95%的置信区间为: 1776.8±2.093×√705.5×√0.3938 或 (17418,1811.7) 同样,易得Y20n的95%的置信区间为 7768±2.093×√705.5×√1.3938 或 (17111,18424)
= 0.3938 − 0 1 X0 (X X) X 于是E(Ŷ2001)的95%的置信区间为: 1776 .8 2.093 705 .5 0.3938 或 (1741.8,1811.7) 1776 .8 2.093 705 .5 1.3938 或 (1711.1, 1842.4) 同样,易得Ŷ2001的95%的置信区间为