应用统计复习题 线性回归的基本假设和高斯马尔可夫条件 1.解释变量x,x2,…,是非随机变基,观测值x,2,…,z是 常数 2.等方差及不相关的假定条件为 [E(e)=0,i=1,2,…,n l6=g2,=1,2, 0,≠j 这个条件称为高斯-马尔柯夫(Gauss-Markov)条件,简称GM条件。在此条 件下,便可以得到关于回归系数的最小二乘估计及误差项方差。估计的一些重 要性质,如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。 3.正态分布的假定条件为 J-N0,a2),i=1,2,…,n 12,…,,相互独立 在此条件下便可得到关于问归系数的最小二乘估计及。2估计的进一步的结果, 如它们分别是回归系数及。2的最小方差无偏估计等,并且可以作回归的显著性 检验及区间估计。 4.通常为了便于数学上的处理,还要求n>p,即样本容量的个数要多于解 释变量的个数。在整个回归分析中,线性回归的统计模型最为重要。一方面是因 推导一元回归的系数最小二乘估计
应⽤统计复习题 线性回归的基本假设和⾼斯⻢尔可夫条件 推导⼀元回归的系数最⼩⼆乘估计
从(2.14)式中求出和31是一个求极值问题。由于Q是关于0,31的非 负二次函数,因而它的最小值总是存在的。根据微积分中求极值的原理,月,序 应满足下列方程组 器4-2%-A-)=0 「aQ (2.18) 器-2-A-Ax话=0 经整理后,得正规方程组 +(空a=立 (2.19) (2x,o+(空a1=2w 求解以上正规方程组得风,房的最小二柔估计(OLSE)为 =y-商 2(x-(%-) (2.20) 之(-P 简单一元线性回归计算 【例2,1】假定一保险公司希望确定居民住宅区火灾造成的损失数额与该 住户到最近的消防站的距离之间的相关关系,以便准确地定出保险金额。表2.1 列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。图2.1给出 了15个样本点的分布状况 表2.1 火灾损失表 距消防站距离x(m) 3.41.84.62.33.15.50.73.0 火灾损失y(千元)① 26.217.831.323.127.536.014.122.3 距消防站距离x(m) 2.64.32.11.16.14.83.8 火灾损失(千元) 19.631.324.017.343.236.426.1
简单⼀元线性回归计算
利用上述公式就可以具体计算回归方程的参数。下面以例2.1数据为例,建 立火灾损失与住户到最近的消防站的距离之间的回归方程。很据表2.1数据计算 得 %=3.28,9=2=2640 ba=空-(z =196.16-15×(3.28)2=34.784 Ln=空ow-酒 =1470.65-1299.536=171.114 代入(2.23)式得 =-31x=26.413-4.919×3.28=10.279 31=La/L=171.11434.784=4.919 于是回归方程为 y=10.279+4.919x 证明最小二乘估计所得的系数是无偏的 E(A)= x4-元 E(y) j=1 会名归 =王—(角+月)= (2.39) 证得月是月的无偏估计,其中用到∑(x-)=0,∑(x4-x)x= ∑(-)。同理可证A是风的无偏估计,证明过程请读者自己完成。 最小二乘估计系数的方差推导
证明最⼩⼆乘估计所得的系数是⽆偏的 最⼩⼆乘估计系数的⽅差推导
由1,2,…,为相互独立,ar()=2及(2.37)式,得 var(ai)=】 var(片) =1 ()2 var(Bo) = 一元回归的方程显著性检验与区间估计 也就是说自变量x的变化对因变量y并没有影响。由(2.44)式知,A一N (,号)因而当原假设Ho:A=0成立时有 a-No,】 (2.51) 此时,在零附近波动,构造t统计量 t1 A红 (2.52) 其中 =中2"2-加 (2.53) 是。2的无偏估计,称G为回归标准差。 当原假设H,:A=0成立时,(2.52)式构造的:统计量服从自由度为n一2 的t分布。给定显著性水平a,双侧检验的临界值为t,2。当t≥t,2时拒绝原 假设H0R=0,认为A显著不为零,因变量y对自变量x的一元线性回归成 立;当|:<t。2时接受原假设Ho:A=0,认为A为零,因变量y对自变量x的 一元线性回归不成立
⼀元回归的⽅程显著性检验与区间估计
在实际应用中,我们主要关心回归系数房的精度,因而这里只推导,的置 信区间。根银(2.4)式-NA)可得 8山 (2.66) 服从自由度为n-2的t分布。因而 p组-8F值) -2 SE/八m-2) SSE/(n-2) =P值 总和 n-1 sST 证明方差分解式 含·护=多-驴+空(%- (2.55) 其中,之(-?称为总平方和,简记为SST或SB或L·ST表示Sum of Squares for Total。 空位一小称为画自平方和,简记为部或Sa,R表标Rga 之0以~9护称为残差早方和,筒记为签或$a,E表示Em 因而平方和分解式可以简写为 SST=SSR+SSE
画出⽅差分析表(ANOVA) 证明⽅差分解式
残差的方差与杠杆值 二、有关残差的性质 性质1E(e)=0 证明:E(e:)=E(y)-E() =(+月A1x,)-(+月1x)=0 性质2 w(o)1- =(1-ha)d2 (2.63) 其中,-,三称为杠杆值。0<,<1,当第近时,,的值接近 0,相应的残差方差就大。当:远离元时,h,的值接近1,相应的残差方差就 小。也就是说靠近x附近的,点相应的残差方差较大,远离元附近的点相应的残 差方差较小,这条性质可能令读者感到意外。实际上,远离x的点数目必然较 少,回归线容易“照顾”到这样的少数点,使得回归线接近这些点,因而远离 附近的云相应的残差方差较小。 性质3残差满足约束条件:之:=0,之xg=0,此关系式已在(2.27)式 中给出。这表明残差e1,e2,…,en是相关的,不是独立的 一元回归预测值的区间估计 由此我们可以求得o的置信概率为1一a的置信区间为 %土ta2(n-2)W1+h0G (2.80〉 hw=1+0-x)2 元回归综合题
残差的⽅差与杠杆值 ⼀元回归预测值的区间估计 ⼀元回归综合题
12.为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y (万元)和广告费用x(万元),数据见表2.6,要求用手T计算: 表2.6 月份 2 3 4 5 10 10 40 (1)画散点图; (2)x与y之间是否大致成线性关系? (3)用最小二乘估计求出可片方程: (4)求回归标准误差G: (5)给出与房,的置信度为95%的区间估计: (6)计算x与y的决定系数: (7)对回归方程作方差分析: (8)做回归系数A1显著性的检验: (9)做相关系数的显著性检验; (10)对回归方程作残差图并作相应的分析: (11)求当广告费用为4,2万元时,销售收人将达到多少,并给出置信度 95%的置信区间。 多元回归的最小二乘估计 即得回归参数的最小二乘估计为 B=(XXXy 多元回归的残差阵
多元回归的最⼩⼆乘估计 多元回归的残差阵
D(e)=cov(e,e) =cov((I-H)y,(IH)y) =(I-H)cov(y,y)(I-H) =02(I-H)I (I-H) =o2(I-H) D(e,)=(1-h:)a2,i=1,2,…,n 多元回归的F检验(方程显著性) SST=SSR+SSE 此分解式的证明只需利用(3.25)式即可。构造F检验统计量如下 SSR/p F=SSE/(n-p-1) (3.36) 在正态假设下,当原假设Ha:月===月。=0成立时,F服从自由度为(p, ”一力一1)的F分布。于是,可以利用F统计量对回归方程的总体显著性进行检 验。对于给定的数据,i=1,2,…,n,计算出SSR和SSE,进而得到F的值, 表34 方差分析表 方老来源自由度平方和一 均方 F值 P值 SSR SSR/p SSR/ P(F>F值)=P值 残差 n--l SSE SSEn-p-1) 38E/八n-p-1) 总和 n-1 SST 多元回归的t检验(系数显著性)
多元回归的F检验(⽅程显著性) 多元回归的t检验(系数显著性)
月-N(B,c2),5=0,1,2,…,p (3.39) 据此可以构造t统计量 (3.40) 其中 -√-p-2i=√。--2-护 (3.41) 是回归标准差。 当原假设H0,:B=0成立时,(3.40)式构造的5;统计量服从自由度为m 力-1的t分布。给定显著性水平a,查出双侧检验的临界值ta2。当1,≥。2 时拒绝原值设H:?=0,认为月显著不为零,自变量x,对因变量y的线性效 果显著;当|5<t妇2时接受原假设Ho:8=0,认为B为零,自变量x:对因变 量y的线性效果不显著。 (房-ta2VC,房+ta2Wc) 偏相关系数 ri= (r12-Y13232 (1-ri)(1-2) 多元回归综合题
偏相关系数 多元回归综合题
10.研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、 居民非商品支出x3(亿元)的关系。数据见表3.9。 (1)计算出y,x1,x:x3的相关系数矩阵; (2)求y关于x1,x2,:的三元线性回归方程: (3)对所求得的方程作拟合优度检验; (4)对同归方程作显著性检验; (5)对每一个回归系数作显著性检验: (6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程, 再作回归方程的显著性检验和回归系数的显著性检验; (7)求出每一个回归系数的置信水平为95%的置信区间: (8)求标准化回归方程; (9)求当am=75,xm=42,x03=3.1时的0,给定置信水平为99%,用 SPSS软件计算精确置信区间,用手工计算近似预测区间; 表3.9 编号 货运总 y(万吨〉 1 160 70 35 1.0 2 260 75 2.4 3 210 65 40 2.0 货运总量 工业总产值 农业总产值 编号 居民非品出 y(万吨) x,(亿元) 2(亿元) (亿元) 265 3.0 5 240 72 1.2 68 15 7 4 4 1 66 36 2.0 9 2的 2 3.2 0 250 3.0 异方差问题
异⽅差问题