第四章练习题参考解答 练习题 41假设在模型Y=B1+B2X2x+B3X+l中,2与X3之间的相关系数为零,于 是有人建议你进行如下回归 Y=a,+a2X2+uI 1=y1+y3X3+l2 (1)是否存在a2=B2且3=B3?为什么? (2)会等于a1或或两者的某个线性组合吗? (3)是否有war )=a(a)wa(B,)=a(6)2 4.2在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。不我待在 逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归),也可以先把所有可能的 解释变量都放在一个多元回归中,然后逐一地将它们剔除(逐步向后回归)。加进或剔除一个 变量,通常是根据F检验看其对ESS的贡献而作出决定的。根据你现在对多重共线性的认识 你赞成任何一种逐步回归的程序吗?为什么? 4.3下表给出了中国商品进口额Y、国内生产总值GDP、消费者价格指数CPI 商品进口 国内生产总值居民消费价格指数 年份 (亿元) (亿元) (1985=100) 1985 1257.8 89644 1986 1498.3 10202.2 106.5 1987 1614.2 11962.5 114.3 198 2055.1 14928.3 135.8 1989 21999 169092 160.2 1990 2574.3 18547.9 1652 1991 3398.7 216178 170.8
1 第四章练习题参考解答 练习题 4.1 假设在模型 Yi = 1 + 2X2i + 3X3i + ui 中, X2与X3 之间的相关系数为零,于 是有人建议你进行如下回归: i i i i i i Y X u Y X u 1 3 3 2 1 2 2 1 = + + = + + (1)是否存在 2 2 3 3 ˆ ˆ ˆ ˆ = 且 = ?为什么? (2) ˆ 1会等于 ˆ 1或 ˆ 1或两者的某个线性组合吗? (3)是否有 ( ) ( ) ( ) ( ) 2 2 3 3 var ˆ ˆ var ˆ var ˆ var = 且 = ? 4.2在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。不我待在 逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归),也可以先把所有可能的 解释变量都放在一个多元回归中,然后逐一地将它们剔除(逐步向后回归)。加进或剔除一个 变量,通常是根据F检验看其对ESS的贡献而作出决定的。根据你现在对多重共线性的认识, 你赞成任何一种逐步回归的程序吗?为什么? 4.3 下表给出了中国商品进口额Y、国内生产总值GDP、消费者价格指数CPI。 年份 商品进口额 (亿元) 国内生产总值 (亿元) 居民消费价格指数 (1985=100) 1985 1257.8 8964.4 100 1986 1498.3 10202.2 106.5 1987 1614.2 11962.5 114.3 1988 2055.1 14928.3 135.8 1989 2199.9 16909.2 160.2 1990 2574.3 18547.9 165.2 1991 3398.7 21617.8 170.8
1992 4443.3 26638.1 181.7 5986.2 346344 2084 1994 9960.1 467594 2586 1995 110481 58478.1 302.8 1996 115574 678846 327.9 1997 11806.5 744626 337.1 1998 11626.1 783452 3344 1999137364 82067.5 3297 2000 18638.8 89468 2001 201592 973148 333.3 2002 24430.3 105172.3 330.6 2003 341956 117251.9 334.6 资料来源:《中国统计年鉴》,中国统计出版社2000年、2004年 请考虑下列模型:lnx=B+B2hGDP+B3hCP1+l1 (1)利用表中数据估计此模型的参数 (2)你认为数据中有多重共线性吗? (3)进行以下回归 In Y=AtA, In GDP +v1 In Y =B+B,In CPl,+v2 In GDP =C+C, In CPI +v3i 根据这些回归你能对数据中多重共线性的性质说些什么? (4)假设数据有多重共线性,但B2和B3在5%水平上个别地显著,并且总的F检验也是显著 的。对这样的情形,我们是否应考虑共线性的问题? 4.4自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造解释变量数据 矩阵X才可能避免多重共线性的出现? 4.5克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y和 工资收入X1、非工资一非农业收入X2、农业收入X3的时间序列资料,利用OLSE估计得出
2 1992 4443.3 26638.1 181.7 1993 5986.2 34634.4 208.4 1994 9960.1 46759.4 258.6 1995 11048.1 58478.1 302.8 1996 11557.4 67884.6 327.9 1997 11806.5 74462.6 337.1 1998 11626.1 78345.2 334.4 1999 13736.4 82067.5 329.7 2000 18638.8 89468.1 331.0 2001 20159.2 97314.8 333.3 2002 24430.3 105172.3 330.6 2003 34195.6 117251.9 334.6 资料来源:《中国统计年鉴》,中国统计出版社 2000 年、2004 年。 请考虑下列模型: Yt = GDPt + CPIt + ui ln 1+2 ln 3 ln (1)利用表中数据估计此模型的参数。 (2)你认为数据中有多重共线性吗? (3)进行以下回归: t t i t t i t t i GDP C C CPI v Y B B CPI v Y A A GDP v 1 2 3 1 2 2 1 2 1 ln ln ln ln ln ln = + + = + = + + + 根据这些回归你能对数据中多重共线性的性质说些什么? (4)假设数据有多重共线性,但 2 3 ˆ 和 ˆ 在5%水平上个别地显著,并且总的F检验也是显著 的。对这样的情形,我们是否应考虑共线性的问题? 4.4 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造解释变量数据 矩阵X才可能避免多重共线性的出现? 4.5 克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y和 工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE估计得出
了下列回归方程: y=8.133+1.059X1+0452X2+0.121X3 (892)(0.17)(0.66)(1.09 R2=0.95F=10737 (括号中的数据为相应参数估计量的标准误) 试对上述模型进行评析,指出其中存在的问题 4.6理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发 展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量Y(万吨标 准煤)、国内生产总值(亿元)X1(代表经济发展水平)、国民总收入(亿元)X2(代表收入水平) 工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发 展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工 转换效率(%)X7(代表能源转换技术)等在1985-2002年期间的统计数据,具体如下: 年份/能源消费总收入GDP|工业建筑业交通运人均生活能源加工 输邮电电力消费转换效率 19857668289891|89644344874179406921.3 68.29 19868085010201410202239670525.7475623.2 68.3 19878663211954511962545858665.854492646748 1988929971492231492835772810.0661031.2 19899693416917.8169092648407940786035.3 19909870318598418547968580859411475424 67.2 199110378321662.521617.8808711015114097469 65.9 199210917026651.926638.1102845141501681.8546 199311599334560.534634414143.8228472123261.2 67.32 199412273746670467594193596301262685972.7652 199513117657494.9584781|24718.33819.63054783.571.05 199613894866850.56788462908264530.53494093.1 71.5 199713779873142.7744626B32412481063797210186923
3 了下列回归方程: 0.95 107.37 (8.92) (0.17) (0.66) (1.09) 8.133 1.059 1 0.452 2 0.121 3 ˆ 2 = = = + + + R F Y X X X (括号中的数据为相应参数估计量的标准误)。 试对上述模型进行评析,指出其中存在的问题。 4.6 理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发 展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量Y (万吨标 准煤)、国内生产总值(亿元)X1(代表经济发展水平)、国民总收入(亿元)X2(代表收入水平)、 工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发 展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工 转换效率(%)X7(代表能源转换技术)等在1985-2002年期间的统计数据,具体如下: 年份 能源消费 国民 总收入 GDP 工业 建筑业 交通运 输邮电 人均生活 电力消费 能源加工 转换效率 y X1 X2 X3 X4 X5 X6 X7 1985 76682 8989.1 8964.4 3448.7 417.9 406.9 21.3 68.29 1986 80850 10201.4 10202.2 3967.0 525.7 475.6 23.2 68.32 1987 86632 11954.5 11962.5 4585.8 665.8 544.9 26.4 67.48 1988 92997 14922.3 14928.3 5777.2 810.0 661.0 31.2 66.54 1989 96934 16917.8 16909.2 6484.0 794.0 786.0 35.3 66.51 1990 98703 18598.4 18547.9 6858.0 859.4 1147.5 42.4 67.2 1991 103783 21662.5 21617.8 8087.1 1015.1 1409.7 46.9 65.9 1992 109170 26651.9 26638.1 10284.5 1415.0 1681.8 54.6 66 1993 115993 34560.5 34634.4 14143.8 2284.7 2123.2 61.2 67.32 1994 122737 46670.0 46759.4 19359.6 3012.6 2685.9 72.7 65.2 1995 131176 57494.9 58478.1 24718.3 3819.6 3054.7 83.5 71.05 1996 138948 66850.5 67884.6 29082.6 4530.5 3494.0 93.1 71.5 1997 137798 73142.7 74462.6 32412.1 4810.6 3797.2 101.8 69.23
1998132214769672783452333879523144121.310666944 199913011980579482067.53508725470.64460.3118.1 70.45 200013029788254089468139047.3588805408613247096 20011349149572799731484237466375459683144670.41 20021482221039353105172.3145975.2700506420.315636978 资料来源:《中国统计年鉴》2004、2000年版,中国统计出版社。 要求: (1)建立对数线性多元回归模型 (2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什 么 (3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算 4.7在本章开始的“引子”提出的“农业和建筑业的发展会减少财政收入吗?”的例 子中,如果所采用的数据如下表所示 1978-2003年财政收入及其影响因素数据 亿元)CS亿元)(亿元27值|总人口(万最终消费/受灾面积 年份|财政收入|农业增加值工业增加/贫业增加 (万公 人)TPP(亿元)CUM 元)JZZ 顷)SZM 1978 1132.3 1018.4 1607.0 138.2 96259 2239.1 50760 1979 1146.4 1258.9 1769.7 143.8 97542 26194 39370 1980 13594 98705 1981 l175.8 1545.6 2048.4 207.1 100072 3309.1 39790 1982 1212.31761621623 220.7 10165436379 33130 1983 1367.0 1960.8 2375.6 270.6 103008 4020.5 34710 1984 164292295.5 2789.0 316.7 10435746945 31890 1985 2004.8 2541.6 3448.7 4179 105851 5773.0 44370 1986 2763.93967.0 107507 6542.0 47140 1987 21994 3204.3 4585.8 665.8 109300 7451.2 42090 235723831.05772 810.0 l11026 9360.1 50870 198926649042280648407940127041056546991 19902937.1050170685808594143311365238474 1991 31494852886 8087.1 1015111582313145955472
4 1998 132214 76967.2 78345.2 33387.9 5231.4 4121.3 106.6 69.44 1999 130119 80579.4 82067.5 35087.2 5470.6 4460.3 118.1 70.45 2000 130297 88254.0 89468.1 39047.3 5888.0 5408.6 132.4 70.96 2001 134914 95727.9 97314.8 42374.6 6375.4 5968.3 144.6 70.41 2002 148222 103935.3 105172.3 45975.2 7005.0 6420.3 156.3 69.78 资料来源:《中国统计年鉴》2004、2000年版,中国统计出版社。 要求: (1)建立对数线性多元回归模型 (2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什 么? (3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。 4.7 在本章开始的“引子”提出的“农业和建筑业的发展会减少财政收入吗?”的例 子中,如果所采用的数据如下表所示 1978-2003年财政收入及其影响因素数据 年份 财政收入 (亿元)CS 农业增加值 (亿元)NZ 工业增加值 (亿元)GZ 建筑业增加 值(亿 元)JZZ 总人口(万 人)TPOP 最终消费 (亿元)CUM 受灾面积 (万公 顷)SZM 1978 1132.3 1018.4 1607.0 138.2 96259 2239.1 50760 1979 1146.4 1258.9 1769.7 143.8 97542 2619.4 39370 1980 1159.9 1359.4 1996.5 195.5 98705 2976.1 44530 1981 1175.8 1545.6 2048.4 207.1 100072 3309.1 39790 1982 1212.3 1761.6 2162.3 220.7 101654 3637.9 33130 1983 1367.0 1960.8 2375.6 270.6 103008 4020.5 34710 1984 1642.9 2295.5 2789.0 316.7 104357 4694.5 31890 1985 2004.8 2541.6 3448.7 417.9 105851 5773.0 44370 1986 2122.0 2763.9 3967.0 525.7 107507 6542.0 47140 1987 2199.4 3204.3 4585.8 665.8 109300 7451.2 42090 1988 2357.2 3831.0 5777.2 810.0 111026 9360.1 50870 1989 2664.90 4228.0 6484.0 794.0 112704 10556.5 46991 1990 2937.10 5017.0 6858.0 859.4 114333 11365.2 38474 1991 3149.48 5288.6 8087.1 1015.1 115823 13145.9 55472
19923483.37580001028451415011717115952151333 19934348956882.114143.82284711851720182.148829 1994 5218.109457.2 935963012.6119850267960 5043 19956242201199302471833819.6 2112133635045821 1996 74079913844.229082.64530.5 12238940003.946989 19978651.1414211232412.14810.612362643579453429 1998 9875951455243338795231.412476146405950145 199911444081447203508725470.612578649722.749981 1339523146282390473588801267435460095468 16386041541184237466375412762758927452215 200218903641611734597527005012845362798547119 200321715251709215309298181.312922767442.554506 (资料来源:《中国统计年鉴2004》,中国统计出版社2004年版) 试分析:为什么会出现本章开始时所得到的异常结果?怎样解决所出现的问题? 练习题参考解答 练习题4.1参考解答: (1)存在a2=B2且作3=B3 因为=∑MA Cx心∑x nir 当x2与X2之间的相关系数为零时,离差形式的∑x1x=0 有B=x 同理有:y3=B3 (2)会的 (3)存在a()=ar(a且a()=ar6) 因为var/3)
5 1992 3483.37 5800.0 10284.5 1415.0 117171 15952.1 51333 1993 4348.95 6882.1 14143.8 2284.7 118517 20182.1 48829 1994 5218.10 9457.2 19359.6 3012.6 119850 26796.0 55043 1995 6242.20 11993.0 24718.3 3819.6 121121 33635.0 45821 1996 7407.99 13844.2 29082.6 4530.5 122389 40003.9 46989 1997 8651.14 14211.2 32412.1 4810.6 123626 43579.4 53429 1998 9875.95 14552.4 33387.9 5231.4 124761 46405.9 50145 1999 11444.08 14472.0 35087.2 5470.6 125786 49722.7 49981 2000 13395.23 14628.2 39047.3 5888.0 126743 54600.9 54688 2001 16386.04 15411.8 42374.6 6375.4 127627 58927.4 52215 2002 18903.64 16117.3 45975.2 7005.0 128453 62798.5 47119 2003 21715.25 17092.1 53092.9 8181.3 129227 67442.5 54506 (资料来源:《中国统计年鉴2004》,中国统计出版社2004年版) 试分析:为什么会出现本章开始时所得到的异常结果?怎样解决所出现的问题? 练习题参考解答 练习题4.1参考解答: (1) 存在 2 2 3 3 ˆ ˆ ˆ ˆ = 且 = 。 因为 ( )( ) ( )( ) ( )( ) ( ) 2 2 3 2 3 2 2 3 2 3 2 2 3 2 ˆ − − = i i i i i i i i i i i x x x x y x x y x x x 当 X2与X3 之间的相关系数为零时,离差形式的 x2i x3i = 0 有 ( )( ) ( )( ) 2 2 2 2 2 3 2 2 2 2 3 2 ˆ ˆ = = = i i i i i i i i x y x x x y x x 同理有: 3 3 ˆ ˆ = (2)会的。 (3) 存在 ( ) ( ) ( ) ( ) 2 2 3 3 var ˆ ˆ var ˆ var ˆ var = 且 = 。 因为 ( ) ( − ) = 2 23 2 2 2 2 1 ˆ var x r i
当6=0时,w1-∑=m 同理,有r()=a() 练习题43参考解答: (1)参数估计结果如下: l(进口=-3649+1.796l(GDP)-1.208mCPD (0.322)(0.181) (0.354 R2=0.990R2=0.988F=770.602 (2)数据中有多重共线性,居民消费价格指数的回归系数的符号不能进行合理的经济意 义解释,且其简单相关系数呈现正向变动。 (3)分别拟合的回归模型如下: hnY=-3.745+1.187h(GDP) (0.410)(0.039) R2=0.982R2=0.981F=939999 hnY=-3.39+2254ln(CPI) (0.834)(0.154) R2=0.926R2=0922F=213934 n(GDP)=0.144+1.927hn(CPD) (0.431)(0.080) R2=0.972R2=0.970F=586337 单方程拟合效果都很好,回归系数显著,判定系数较高,GDP和CPI对进口的显著的单 影响,在这两个变量同时引入模型时影响方向发生了改变,这只有通过相关系数的分析才 能发现 (4)如果仅仅是作预测,可以不在意这种多重共线性,但如果是进行结构分析,还是应 该引起注意的 练习题45参考解答
6 当 r23 = 0 时, ( ) ( ) ( ) 2 2 2 2 2 23 2 2 2 2 var ˆ 1 ˆ var = = − = i i x r x 同理,有 ( ) ( ) 3 3 var ˆ ˆ var = 练习题4.3参考解答: (1)参数估计结果如下: 0.990 0.988 F 770.602 (0.322) (0.181) (0.354) ln( ) 3.649 1.796ln( ) 1.208ln( ) 2 2 = = = = − + − R R 进口 GDP CPI (2)数据中有多重共线性,居民消费价格指数的回归系数的符号不能进行合理的经济意 义解释,且其简单相关系数呈现正向变动。 (3)分别拟合的回归模型如下: 0.982 0.981 939.999 (0.410) (0.039) ln Y 3.745 1.187ln( ) 2 2 = = = = − + R R F GDP 0.926 0.922 213.934 (0.834) (0.154) ln Y 3.39 2.254ln( PI) 2 2 = = = = − + R R F C 0.972 0.970 586.337 (0.431) (0.080) ln( ) 0.144 1.927ln( PI) 2 2 = = = = + R R F GDP C 单方程拟合效果都很好,回归系数显著,判定系数较高,GDP和CPI对进口的显著的单 一影响,在这两个变量同时引入模型时影响方向发生了改变,这只有通过相关系数的分析才 能发现。 (4)如果仅仅是作预测,可以不在意这种多重共线性,但如果是进行结构分析,还是应 该引起注意的。 练习题4.5参考解答:
从模型拟合结果可知,样本观测个数为27,消费模型的判定系数R2=095,F统计量为 107.37,在0.05置信水平下查分子自由度为3,分母自由度为23的F临界值为3.028,计算的F 值远大于临界值,表明回归方程是显著的。模型整体拟合程度较高。 依据参数估计量及其标准误,可计算出各回归系数估计量的t统计量值: 8.92=0.9,=1059 8.133 0.452 0.121 0.17 =6.10,t,= 0.69,13 除L外,其余的t,值都很小。工资收入Ⅺ1的系数的t检验值虽然显著,但该系数的估计值 过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元, 消费支出的增长平均将超过一美元,这与经济理论和常识不符 另外,理论上非工资一非农业收入与农业收入也是消费行为的重要解释变量,但两者 的t检验都没有通过。这些迹象表明,模型中存在严重的多重共线性,不同收入部分之间的 相互关系,掩盖了各个部分对解释消费行为的单独影响。 练习题47参考解谷 根据样本数据得到各解释变量的样本相关系数矩阵如下(见表43) 表43 样本相关系数矩阵 JZZ TPOP CUM 0.910 0.970 0.967 0.965 0.515 0.910 1.000 0.981 0.982 0.946 0.985 0.590 GZ 0.970 0.981 1.000 0.999 0.904 0.999 0.570 0.967 0.982 1.000 0.904 0.998 0.567 0.839 0.946 0.904 0.904 1.000 0.917 0.639 0.985 0.990.9890.9171.000.575 0.515 0.590 0.570 0.5670.6390.575 1.000 解释变量之间相关系数较高,特别是农业増加值、工业增加值、建筑业増加值、最终 消费之间,相关系数都在0.9以上。这显然与第三章对模型的无多重共线性假定不符合
7 从模型拟合结果可知,样本观测个数为27,消费模型的判定系数 0.95 2 R = ,F统计量为 107.37,在0.05置信水平下查分子自由度为3,分母自由度为23的F临界值为3.028,计算的F 值远大于临界值,表明回归方程是显著的。模型整体拟合程度较高。 依据参数估计量及其标准误,可计算出各回归系数估计量的t统计量值: 0.11 1.09 0.121 0.69, 0.66 0.452 6.10, 0.17 1.059 0.91, 8.92 8.133 t 0 = = t 1 = = t 2 = = t 3 = = 除 1 t 外,其余的 j t 值都很小。工资收入X1的系数的t检验值虽然显著,但该系数的估计值 过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元, 消费支出的增长平均将超过一美元,这与经济理论和常识不符。 另外,理论上非工资—非农业收入与农业收入也是消费行为的重要解释变量,但两者 的t检验都没有通过。这些迹象表明,模型中存在严重的多重共线性,不同收入部分之间的 相互关系,掩盖了各个部分对解释消费行为的单独影响。 练习题4.7参考解答 根据样本数据得到各解释变量的样本相关系数矩阵如下(见表4.3): 表4.3 样本相关系数矩阵 CS NZ GZ JZZ TPOP CUM SZM CS 1 0.910 0.970 0.967 0.839 0.965 0.515 NZ 0.910 1.000 0.981 0.982 0.946 0.985 0.590 GZ 0.970 0.981 1.000 0.999 0.904 0.999 0.570 JZZ 0.967 0.982 0.999 1.000 0.904 0.998 0.567 TPOP 0.839 0.946 0.904 0.904 1.000 0.917 0.639 CUM 0.965 0.985 0.999 0.998 0.917 1.000 0.575 SZM 0.515 0.590 0.570 0.567 0.639 0.575 1.000 解释变量之间相关系数较高,特别是农业增加值、工业增加值、建筑业增加值、最终 消费之间,相关系数都在0.9以上。这显然与第三章对模型的无多重共线性假定不符合