第五次上机参考答案 2007年11月8日 实验目的:一元线性回归模型的假设检验和预测 实验要求:根据题目要求完成操作 题一 根据表1提供食品消费,和收入x,的周度数据,完成以下内容(如无特殊说明,取0=0.05)。 (1)对下列一元线性回归函数进行估计,y,=B,+B2x,+4,将该对象命名为 food income。.计算回归系数B,和B,的置信区间,给出EViews命令和计算结果。 这里需要分别计算置信区间的上界和下界 B的上界为 Scalar blupper=food_income.@coefs(1)+@qtdist(0.975,food_income.@regobs-2)*food_income.@stderrs(1) B,的下界为 Scalar bllower=food_income.@coefs(1)-@qtdist(0.975,food_income.@regobs-2)*food_income.@stderrs(1) 计算结果为B1的95%置信区间:【-4.049806,85.58492] B2的上界为 Scalar b2upper=food_income.@coefs(2)+@qtdist(0.975,food_income.@regobs-2)*food_income.@stderrs(2) B2的下界为 Scalar b2lower=food_income.@coefs(2)-@qtdist(0.975,food income.@regobs-2)*food_income.@stderrs(2) 计算结果为B,的95%置信区间:[0.066465,0.190112] (2) 检验H。:o2=300,给出EViews命令和计算结果。 利用(n-2) 一3~X(n-2),计算卡方统计量 Scalar chi2stat=(food income.@regobs-2)*(food income.@se)2/300 计算结果为181.0378 然后计算卡方分布95%临界值 Scalar chi2thres=@qchisq(0.95,food_income.@regobs-2)
第五次上机参考答案 2007 年 11 月 8 日 实验目的:一元线性回归模型的假设检验和预测 实验要求:根据题目要求完成操作 题一 根据表 1 提供食品消费 yt 和收入 xt 的周度数据,完成以下内容(如无特殊说明,取α= . 0 05)。 (1) 对下列一元线性回归函数进行估计, t B B xt ut y = 1 + 2 + ,将该对象命名为 food_income。计算回归系数 B1和 B2 的置信区间,给出 EViews 命令和计算结果。 这里需要分别计算置信区间的上界和下界 B1的上界为 Scalar b1upper= food_income.@coefs(1)+@qtdist(0.975,food_income.@regobs-2)*food_income.@stderrs(1) B1的下界为 Scalar b1lower= food_income.@coefs(1)-@qtdist(0.975,food_income.@regobs-2)*food_income.@stderrs(1) 计算结果为 B1的 95%置信区间:[-4.049806,85.58492] B2 的上界为 Scalar b2upper= food_income.@coefs(2)+@qtdist(0.975,food_income.@regobs-2)*food_income.@stderrs(2) B2 的下界为 Scalar b2lower= food_income.@coefs(2)-@qtdist(0.975,food_income.@regobs-2)*food_income.@stderrs(2) 计算结果为 B2 的 95%置信区间:[0.066465,0.190112] (2) 检验 : 300 2 H0 σ = ,给出 EViews 命令和计算结果。 利用 ~ ( 2) ˆ ( 2) 2 2 2 n − χ n − σ σ ,计算卡方统计量 Scalar chi2stat=(food_income.@regobs-2)*(food_income.@se)^2/300 计算结果为 181.0378 然后计算卡方分布 95%临界值 Scalar chi2thres=@qchisq(0.95,food_income.@regobs-2)
计算结果为53.38354 统计量超出临界值,因此拒绝原假设。 (3)假设收入每增加100美元,食品消费增加10美元,请写出原假设,并给出EViews 命令和计算结果。 根据题意,即是进行如下假设检验 H。B2=0.1,H1:B2≠0.1 计算t统计量,EViews命令为 Scalar tstat=(food income.@coefs(2)-0.1)/food_income.@stderrs(2) 计算结果为0.9263 计算t分布的95%双边临界值,EViews命令为 Scalar tthres=@qtdist(0.975,food_income.@regobs-2) 计算结果为2.0243 故接受原假设,即认为B,与01没有差异。 (4)计算X,和Y,的样本相关系数的平方值,比较这个数值与food income中的拟合优度 的大小,你有什么发现?请尝试解释一下你的发现。 X,和Y,的样本相关系数的平方的计算 Scalar xycorr2=(@cor(x,y))2 计算结果为0.317118 方程拟合优度的计算: Scalar rsq=Food_income.@r2 计算结果为0.317118 我们可以发现样本的相关系数的平方等于拟合优度。这是因为拟合优度是衡量关于解释变量 的线性组合对被解释变量的解释能力的高低,如果被解释变量与解释变量存在高度线性相 关,那么拟合优度也会越接近1。而与此同时,这种相关关系也可以利用两个变量之间的相 关系数来度量,相关程度越高,则系数平方越接近1。这表明,因此相关系数和拟合优度之 间存在必然联系,它们都测量被解释变量与解释变量之间的线性相关程度。(实际上在相关 分析和回归分析这一章中,我们将严格证明一元(多元)回归方程中的拟合优度等于解释变 量与被解释变量简单(复)相关系数的平方)。 (5) 求预测值的置信区间。计算X。=8O0时E(Y。)的置信区间。 首先计算ar(Po),EViews命令为 Scalar varyhat=food income.@stderrs(1)2+(8002)*(food income.@stderrs(2)2)+2*800*food incom e.@cov(1,2) 计算结果为45.43439
计算结果为 53.38354 统计量超出临界值,因此拒绝原假设。 (3) 假设收入每增加 100 美元,食品消费增加 10 美元,请写出原假设,并给出 EViews 命令和计算结果。 根据题意,即是进行如下假设检验 H0 : B2 = 0.1, : 0.1 H1 B2 ≠ 计算 t 统计量,EViews 命令为 Scalar tstat=(food_income.@coefs(2)-0.1)/food_income.@stderrs(2) 计算结果为 0.9263 计算 t 分布的 95%双边临界值,EViews 命令为 Scalar tthres=@qtdist(0.975,food_income.@regobs-2) 计算结果为 2.0243 故接受原假设,即认为 B2 与 0.1 没有差异。 (4) 计算 Xt 和Yt 的样本相关系数的平方值,比较这个数值与 food_income 中的拟合优度 的大小,你有什么发现?请尝试解释一下你的发现。 Xt 和Yt 的样本相关系数的平方的计算 Scalar xycorr2=(@cor(x,y))^2 计算结果为 0.317118 方程拟合优度的计算: Scalar rsq=Food_income.@r2 计算结果为 0.317118 我们可以发现样本的相关系数的平方等于拟合优度。这是因为拟合优度是衡量关于解释变量 的线性组合对被解释变量的解释能力的高低,如果被解释变量与解释变量存在高度线性相 关,那么拟合优度也会越接近 1。而与此同时,这种相关关系也可以利用两个变量之间的相 关系数来度量,相关程度越高,则系数平方越接近 1。这表明,因此相关系数和拟合优度之 间存在必然联系,它们都测量被解释变量与解释变量之间的线性相关程度。(实际上在相关 分析和回归分析这一章中,我们将严格证明一元(多元)回归方程中的拟合优度等于解释变 量与被解释变量简单(复)相关系数的平方)。 (5) 求预测值的置信区间。计算 X0 =800 时 ( ) E Y0 的置信区间。 首先计算 m l Var Y( ) 0 ,EViews 命令为 Scalar varyhat=food_income.@stderrs(1)^2+(800^2)*(food_income.@stderrs(2)^2)+2*800*food_incom e.@cov(1,2) 计算结果为 45.43439
其次,根据公式计算置信区间 i-生-2a阿+u-2a阿 上界为 Scalar upper=food_income.@coefs(1)+food_income.@coefs(2)*800+@qtdist(0.975,food_income.@reg obs-2)*sqr(varyhat) 计算结果为157.0439 下界为 Scalar lower=food income.@coefs(1)+food income.@coefs(2)*800-@qtdist(0.975,food_income.@rego bs-2)*sqr(varyhat) 计算结果为129.7530 题二 1.表2提供了rev(财政收入)和gdp(国内生产总值)的数据,把rev(财政收入)作为 被解释变量,把gp(国内生产总值)作为解释变量进行一元线性回归,给出估计结果。 REV=-5826.157862+0.08478103497*GDP 2.线性回归模型的预测(有条件预测,即用解释变量的预测值预测被解释变量) (1)预测解释变量的值 用趋势外推的方法预测解释变量的值,即用解释变量GDP作因变量,趋势项T(时间项, 在1978年,时间项取为1,1979年时取为2,…依次类推)作为自变量作回归(样本数 据采用1978一1995)。回归方程如下:GDP=a+b.T。在工作文件中输入T在1996-2000 年的值。选择Forecast在区间1996~2000年间应用回归模型GDP=a+b·T对GDP进行预 测(选择相应回归模型窗口中的Forecast,.注意选择区间为1996-2000,而不是1978~1995), 预测得到的GDP值存为GDPF,将预测值GDPF填入下表中相应的部分,并与下表中列出 的GDP实际值进行比较。分析你所看到的结果,并尝试解释一下其中的原因。 年度 GDPF GDP 1996 1412503 2451106 1997 1505982 2947037 1998 1599461. 3555199 1999 1692940. 4128370 2000 1786418 4927132 从上表可以看出:GDPF明显小于GDP的真实值,这是因为GDPF是通过GDP=a+b·T 这个方程预测出来的,预测值偏离真实值很多说明这个模型拟合效果不是很好。事实上,通 过绘制GDP与时间T的散点图,会发现GDP随时间非线性增长,因此GDP的预测模型考 虑采用非线性模型,例如关于T的二次型函数GDP=a+bT+c·T2,拟合效果会大大改
其次,根据公式计算置信区间 l ( ) m l( ) l ( ) m l 0 00 0 ( ) 2 2 Y t n Var Y Y t n Var Y 2, 2 α α ⎡ ⎤ − −⋅ + −⋅ ⎢ ⎥ ⎣ ⎦ 上界为 Scalar upper=food_income.@coefs(1)+food_income.@coefs(2)*800+@qtdist(0.975,food_income.@reg obs-2)*sqr(varyhat) 计算结果为 157.0439 下界为 Scalar lower=food_income.@coefs(1)+food_income.@coefs(2)*800-@qtdist(0.975,food_income.@rego bs-2)*sqr(varyhat) 计算结果为 129.7530 题二 1.表 2 提供了 rev(财政收入)和 gdp(国内生产总值)的数据,把 rev(财政收入)作为 被解释变量,把 gdp(国内生产总值)作为解释变量进行一元线性回归,给出估计结果。 REV = -5826.157862 + 0.08478103497*GDP 2.线性回归模型的预测(有条件预测,即用解释变量的预测值预测被解释变量) (1)预测解释变量的值 用趋势外推的方法预测解释变量的值,即用解释变量 GDP 作因变量,趋势项 T(时间项, 在 1978 年,时间项取为 1,1979 年时取为 2,……依次类推)作为自变量作回归(样本数 据采用 1978-1995)。回归方程如下:GDP = a + b ⋅T 。在工作文件中输入 T 在 1996~2000 年的值。选择 Forecast 在区间 1996~2000 年间应用回归模型GDP = a + b ⋅T 对 GDP 进行预 测(选择相应回归模型窗口中的 Forecast,注意选择区间为 1996~2000,而不是 1978~1995), 预测得到的 GDP 值存为 GDPF,将预测值 GDPF 填入下表中相应的部分,并与下表中列出 的 GDP 实际值进行比较。分析你所看到的结果,并尝试解释一下其中的原因。 年度 GDPF GDP 1996 1412503. 2451106 1997 1505982. 2947037 1998 1599461. 3555199 1999 1692940. 4128370 2000 1786418. 4927132 从上表可以看出:GDPF 明显小于 GDP 的真实值,这是因为 GDPF 是通过GDP = a + b ⋅T 这个方程预测出来的,预测值偏离真实值很多说明这个模型拟合效果不是很好。事实上,通 过绘制 GDP 与时间 T 的散点图,会发现 GDP 随时间非线性增长,因此 GDP 的预测模型考 虑采用非线性模型,例如关于 T 的二次型函数 2 GDP = a + b ⋅T + c ⋅T ,拟合效果会大大改
进。 (2)预测因变量的值 用(1)中预测的自变量GDP的结果(1996-2000),对因变量REV进行预测,将回归结果 和REV的预测值结果写在下面。再用实际的GDP对因变量REV进行预测,即无条件预测 (1996-2000)。将有条件预测的结果与无条件预测的结果进行比较,哪一种方法预测的效果 更好?为什么 a)用GDPF预测Rev 用Rev和GDPF的值进行回归,回归区间为1978-1995,得到回归方程REV= -5826.157862+0.08478103497*GDPF,然后在回归方程窗口点击 forecast,选择区间1996-2000,可得Rev的预测值为: 1996 113927.3 1997 121852.6 1998 129777.8 1999 137703.0 2000 145628.2 b)用GDP的真实值预测Rev 用Rv和GDP的真实值进行回归,回归区间为1978-1995,得到回归方程REV= -5826.157862+0.08478103497*GDP,然后在回归方程窗口点击forecast,. 选择区间1996-2000,可得Rev的预测值为: 1996 201981.1 1997 244026.7 1998 295587.3 1999 344181.3 2000 411901.2 经比较可知,有条件预测和无条件预测时Rv的值相差很大。无条件预测的结果更佳, 因为有条件预测时,GDPF的值会偏离真实值,再用GDPF预测的Rev偏离真实值的程 度会更大。 题三:某人希望在东川路沧源路附近建一餐馆,但是不太清楚建成后生意会不会好,这个直 接影响他是否愿意投资。假设目前他能获得以下数据(数据文件为woody3.xs,见附件): N:直径2英里范围内的直接市场竞争者数目:P:直径3英里范围内的居住人口:I:直径 3英里范围内居民平均家庭收入。 (1)请利用回归分析的方法,建立一个模型,可用于帮助他预测未来在餐馆用餐的顾客人 数。写出模型表达式,并给出估计结果。 根据相关经济学理论,出外就餐的可能性与人们的收入水平有关,收入水平高,出外就餐的 可能性也就越大:同时,餐馆周边的居住密度也应该是一个重要因素:同时,同行竞争的激 烈程度也会影响客流量,直接市场竞争者数目是一个比较好的度量。因此在建模的时候,这 三个因素都可作为主要因素加以考虑,建立以下三元线性回归模型,得到估计结果如下。 Dependent Variable:Y Method:Least Squares Date:05/13/06 Time:16:47 Sample:1 33
进。 (2)预测因变量的值 用(1)中预测的自变量 GDP 的结果(1996-2000),对因变量 REV 进行预测,将回归结果 和 REV 的预测值结果写在下面。再用实际的 GDP 对因变量 REV 进行预测,即无条件预测 (1996-2000)。将有条件预测的结果与无条件预测的结果进行比较,哪一种方法预测的效果 更好?为什么 a) 用 GDPF 预测 Rev 用 Rev 和 GDPF 的值进行回归,回归区间为 1978-1995,得到回归方程 REV = -5826.157862 + 0.08478103497*GDPF ,然后在回归方程窗口点击 forecast,选择区间 1996-2000,可得 Rev 的预测值为: 1996 113927.3 1997 121852.6 1998 129777.8 1999 137703.0 2000 145628.2 b) 用 GDP 的真实值预测 Rev 用 Rev 和 GDP 的真实值进行回归,回归区间为 1978-1995,得到回归方程 REV = -5826.157862 + 0.08478103497*GDP,然后在回归方程窗口点击 forecast, 选择区间 1996-2000,可得 Rev 的预测值为: 1996 201981.1 1997 244026.7 1998 295587.3 1999 344181.3 2000 411901.2 经比较可知,有条件预测和无条件预测时 Rev 的值相差很大。无条件预测的结果更佳, 因为有条件预测时,GDPF 的值会偏离真实值,再用 GDPF 预测的 Rev 偏离真实值的程 度会更大。 题三:某人希望在东川路沧源路附近建一餐馆,但是不太清楚建成后生意会不会好,这个直 接影响他是否愿意投资。假设目前他能获得以下数据(数据文件为 woody3.xls,见附件): N:直径 2 英里范围内的直接市场竞争者数目;P:直径 3 英里范围内的居住人口;I:直径 3 英里范围内居民平均家庭收入。 (1)请利用回归分析的方法,建立一个模型,可用于帮助他预测未来在餐馆用餐的顾客人 数。写出模型表达式,并给出估计结果。 根据相关经济学理论,出外就餐的可能性与人们的收入水平有关,收入水平高,出外就餐的 可能性也就越大;同时,餐馆周边的居住密度也应该是一个重要因素;同时,同行竞争的激 烈程度也会影响客流量,直接市场竞争者数目是一个比较好的度量。因此在建模的时候,这 三个因素都可作为主要因素加以考虑,建立以下三元线性回归模型,得到估计结果如下。 Dependent Variable: Y Method: Least Squares Date: 05/13/06 Time: 16:47 Sample: 1 33
Included observations:33 Y=C(1)+C(2)*N+C(3)*P+C(4)*1 Coefficient Std.Error t-Statistic Prob. C(1) 102192.4 12799.83 7.983891 0.0000 C(2) -9074.674 2052.674 -4.420904 0.0001 C(3) 0.354668 0.072681 4.879810 0.0000 C(4) 1.287923 0.543294 2.370584 0.0246 R-squared 0.618154 Mean dependent var 125634.6 Adjusted R-squared 0.578653 S.D.dependent var 22404.09 S.E.of regression 14542.78 Akaike info criterion 22.12079 Sum squared resid 6.13E+09 Schwarz criterion 22.30218 Log likelihood -360.9930 F-statistic 15.64894 Durbin-Watson stat 1.758193 Prob(F-statistic) 0.000003 (2)改变不同的回归元个数,得到的回归模型中的参数估计值是否一样?为什么? 尝试在上述回归模型中去掉一个竞争者个数,其他两个变量的斜率项系数估计结果发生 变化。这是因为模型控制的条件不同
Included observations: 33 Y=C(1)+C(2)*N+C(3)*P+C(4)*I Coefficient Std. Error t-Statistic Prob. C(1) 102192.4 12799.83 7.983891 0.0000 C(2) -9074.674 2052.674 -4.420904 0.0001 C(3) 0.354668 0.072681 4.879810 0.0000 C(4) 1.287923 0.543294 2.370584 0.0246 R-squared 0.618154 Mean dependent var 125634.6 Adjusted R-squared 0.578653 S.D. dependent var 22404.09 S.E. of regression 14542.78 Akaike info criterion 22.12079 Sum squared resid 6.13E+09 Schwarz criterion 22.30218 Log likelihood -360.9930 F-statistic 15.64894 Durbin-Watson stat 1.758193 Prob(F-statistic) 0.000003 (2)改变不同的回归元个数,得到的回归模型中的参数估计值是否一样?为什么? 尝试在上述回归模型中去掉一个竞争者个数,其他两个变量的斜率项系数估计结果发生 变化。这是因为模型控制的条件不同