§34多元线性回归模型的预测 E(Y0)的置信区间 二、Y0的置信区间
§3.4 多元线性回归模型的预测 一、E(Y0 )的置信区间 二、Y0的置信区间
对于模型 Y=XB 给定样本以外的解释变量的观测值 X0=(1,X10X20.x0),可以得到被解释变量的预 测值: 它可以是总体均值E(Y0)或个值Y0的预测 但严格地说,这只是被解释变量的预测值的估 计值,而不是预测值。 为了进行科学预测,还需求出预测值的置信 区间,包括EY0和Y的置信区间
对于模型 Y ˆ = Xβ ˆ 给 定 样 本 以 外 的 解 释 变 量 的 观 测 值 X0=(1,X10,X20,…,Xk0 ),可以得到被解释变量的预 测值: ˆ X β ˆ Y0 = 0 它可以是总体均值E(Y0 )或个值Y0的预测。 但严格地说,这只是被解释变量的预测值的估 计值,而不是预测值。 为了进行科学预测,还需求出预测值的置信 区间,包括E(Y0 )和Y0的置信区间
、E(Y0的置信区间 易知 E(O=E(XOB=XE(B)=XoB=ECO Var(Yo=E(XoB-XoB)=E(XO(B-B)Xo(B-B) 由于X0(B-B)为标量,因此 r()=E(X(B-B)(B-6)X6) XE(B-B(B-B)X -O (XX)"XO
一、E(Y0 )的置信区间 易知 ) ( ) ˆ ) ( ˆ ) ( ˆ ( E Y0 = E X0β = X0 E β = X0β= E Y0 )) ˆ ˆ ) ( ˆ ) ( ˆ ( 2 Var Y0 = E X0β− X0β = E X0 (β−β)X0 (β−β 0 1 0 2 0 0 0 ( ) ˆ ˆ ) ˆ ˆ ) ( ˆ ( X X X X X (β β)(β β) X X (β β)(β β) X 0 0 = = − − = − − − E Var Y E
容易证明 。~N(XBa2XCXX)X 取随机扰动项的样本估计量σ2,构造如下t统计量 Y-E(0) t(n-k-1) Xo(XX)X 于是,得到(1-a)的置信水平下E(Y)的置信区间: 0-12×GX0(XX)2X6<E()<+t×a√X0(XX)X0 其中,t2为(1-a)的置信水平下的临界值
容易证明 ~ ( , ) ˆ 0 2 0 X β X (X X) X 1 0 0 − Y N ~ ( 1) ˆ ˆ − − − − t n k Y E(Y ) 0 0 0 1 X0 (X X) X 于是,得到(1-)的置信水平下E(Y0 )的置信区间: 0 1 0 0 0 0 1 0 0 ˆ ( ) ˆ ˆ ( ) ( ) ˆ 2 2 − X XX X + X XX X − − Y t E Y Y t 其中,t/2为(1-)的置信水平下的临界值
二、Y的置信区间 如果已经知道实际的预测值Y,那么预测误差为: 容易证明 E(e0)=E(X。B+40-XB) E(40-X0(B-B) E(uo-Xo(Xx)Xu 0 Var(eo=e(eo) E(4-X0(XX)x)2 a2(1+X0(XX)X0)
二、Y0的置信区间 如果已经知道实际的预测值Y0,那么预测误差为: 0 0 0 Y Y ˆ e = − 容易证明 0 ( ( ) ) )) ˆ ( ( ) ˆ ( ) ( 1 0 0 0 0 0 0 0 0 = = − = − − = + − X X X − X μ X β β X β X β E E E e E (1 ( ) ) ( ( ) ) ( ) ( ) 0 1 0 2 1 2 0 0 2 0 0 X X X X X X X X μ = + = − = − − E Var e E e
e服从正态分布,即 e0~N0a2(1+X0(XX)X0) 取随机扰动项的样本估计量a,可得e的方差 的估计量 2=a2(1+X0(XX)X) 构造t统计量 (n-k-1) 可得给定(1-∞)的置信水平下Y的置信区间 0-t×G√1+X(XX)X。<1<0+1×G√1+X(XX)Xb
e0服从正态分布,即 ~ (0, (1 ( ) )) 0 1 0 2 0 + X XX X − e N ˆ ˆ (1 ( ) )) 0 1 0 2 2 0 = + X XX X − e 构造t统计量 ~ ( 1) ˆ ˆ 0 0 0 − − − = t n k Y Y t e 可得给定(1-)的置信水平下Y0的置信区间: 0 1 0 0 0 0 1 0 0 ˆ 1 ( ) ˆ ˆ 1 ( ) ˆ 2 2 − + X XX X + + X XX X − − Y t Y Y t
中国居民人均收入-消费支出二元模型例中: 2001年人均GDP:4033.1元, 于是人均居民消费的预测值为 Y20=1207+0.2213×40331+0.4515×16908=17768(元) 实测值(90年价)=17822元,相对误差:-0.31% 预测的置信区间: 在95°的置信度下,临界值t(19)-2093,G2=7055, 1.889520.002850.00828 (XX)1=0050000 -0.008280.000010.00004
中国居民人均收入-消费支出二元模型例中: 2001年人均GDP:4033.1元, 于是人均居民消费的预测值为 Ŷ2001=120.7+0.2213×4033.1+0.4515×1690.8=1776.8(元) 实测值(90年价)=1782.2元,相对误差:-0.31% 预测的置信区间 : − − − − = − 0.00828 0.00001 0.00004 0.00285 0.00001 0.00001 1.88952 0.00285 0.00828 ( ) 1 X X
X0xXX)X0=0.3938 于是E(Y201)的95%的置信区间为: 17768±2093×√7055×√0.3938 或 (17418,18117) 同样,易得Y2mn的95%的置信区间为 17768±2.093×√705.5×√13938 或 (1711.1,18424)
= 0.3938 − 0 1 X0 (X X) X 于是E(Ŷ2001)的95%的置信区间为: 1776 .8 2.093 705 .5 0.3938 或 (1741.8,1811.7) 1776 .8 2.093 705 .5 1.3938 或 (1711.1, 1842.4) 同样,易得Ŷ2001的95%的置信区间为