
实验四多重共线性(实验目的掌握多重共线性的检验及处理方法【实验内容】建立并检验我国钢材产量预测模型【实验步骤】【例1]下表是1978-1997年我国钢材产量Y(万吨)、生铁产量X1(万吨))发电量X2(亿千瓦时)、固定资产投资X3(亿元))国内生产总值X4(亿元)、铁路运输量X5(万吨)的统计资料。表1我国钢材产量及其它相关经济变量统计资料发电量固定资产国内生产铁路运输年份钢材产量Y生铁产量X1X2投资X3总值X4量X51978220834792566668.72326411011919792497367328204038699.361118931980271638023006746.945181112793417198126703093638.2148621076731982292035513277805.952951134951983307237383514885.265935118784198433724001377071711052.4312407419853693438441071523.51896413070944951986405850641795.321020213563543865503497319872101.691196314065319884689570454522554.861492814494819894859582058482340.5216909151489199051536238621225341854815068119915638676567753139.032161815289319926697758975394473.76266381576271993771689568395346346811.3516266384289281199497419355.354675916309319958980105291007010702.975847816585519969338107231081312185.79678851688031997997911511113567446316973413838.96一、检验多重共线性
实验四 多重共线性 【实验目的】掌握多重共线性的检验及处理方法. 【实验内容】建立并检验我国钢材产量预测模型 【实验步骤】 [例 1] 下表是 1978-1997 年我国钢材产量 Y(万吨)、生铁产量 X1 (万吨)、发电量 X2(亿千瓦时)、固定资产投资 X3(亿元)、国 内生产总值 X4(亿元)、铁路运输量 X5(万吨)的统计资料。 表 1 我国钢材产量及其它相关经济变量统计资料 年份 钢材产量 Y 生铁产量 X1 发电量 X2 固定资产 投资 X3 国内生产 总值 X4 铁路运输 量 X5 1978 2208 3479 2566 668.72 3264 110119 1979 2497 3673 2820 699.36 4038 111893 1980 2716 3802 3006 746.9 4518 111279 1981 2670 3417 3093 638.21 4862 107673 1982 2920 3551 3277 805.9 5295 113495 1983 3072 3738 3514 885.26 5935 118784 1984 3372 4001 3770 1052.43 7171 124074 1985 3693 4384 4107 1523.51 8964 130709 1986 4058 5064 4495 1795.32 10202 135635 1987 4386 5503 4973 2101.69 11963 140653 1988 4689 5704 5452 2554.86 14928 144948 1989 4859 5820 5848 2340.52 16909 151489 1990 5153 6238 6212 2534 18548 150681 1991 5638 6765 6775 3139.03 21618 152893 1992 6697 7589 7539 4473.76 26638 157627 1993 7716 8956 8395 6811.35 34634 162663 1994 8428 9741 9281 9355.35 46759 163093 1995 8980 10529 10070 10702.97 58478 165855 1996 9338 10723 10813 12185.79 67885 168803 1997 9979 11511 11356 13838.96 74463 169734 一、检验多重共线性

日Equation:UNTITLED Workfile:UNTITLEDUntitledy一回XView Proc ObjectPrint Name FreezeEstimate Forecast Stats ResidsDependent Variable:YMethod:LeastSquaresDate:10/31/21 Time:17:06Sample:19781997Included observations:20VariableCoefficientStd.ErrorProb.t-Statisticc0.4294354.5884435.69680.813842X10.0260410.1200640.2168920.8314X20.9945360.1364747.2873800.0000X30.3926760.0864684.5412710.0005X4-0.0854360.016472-5.1866490.0001X5-0.0059980.006034-0.9940190.3371R-squared0.9990985153.450Mean dependent varAdjusted R-squared0.998776S.D. dependent var2512.131S.E.ofregression87.8796912.03314Akaike infocriterion108119.8Schwarzcriterion12.33186Sum squaredresid-114.331412.09145Log likelihoodHannan-Quinn criter.F-statistic3102.411Durbin-Watson stat1.9197460.000000Prob(F-statistic)图 4-1回归结果1.相关系数检验利用相关系数可以分析解释变量之间的两两相关情况。在Eviews软件中可以直接计算相关系数矩阵。在本例中,在Eviews软件命令窗口中键入:cor x1x2x3 x4x5其结果如图所示,由相关系数矩阵可以看出,解释变量之间的相关系数均为0.8以上,即解释变量之间是高度相关的。回GGroup:UNTITLED Workfile:UNTITLED:Untitled)View Proc Object Print Name FreezeSample Sheet Stats SpecCorrelationX3X1X2X4X5X11.0000000.9951830.9696450.9731040.930383X20.9951831.0000000.9596160.9696370.945442X30.9696450.9596161.0000000.9961010.827643X40.9731040.9696370.9961011.0000000.847048X50.9303830.9454420.8276430.8470481.000000图 4-2解释变量相关系数矩阵
图 4-1 回归结果 1. 相关系数检验 利用相关系数可以分析解释变量之间的两两相关情况。在 Eviews 软 件中可以直接计算相关系数矩阵。 在本例中,在 Eviews 软件命令窗口中键入: cor x1 x2 x3 x4 x5 其结果如图所示,由相关系数矩阵可以看出,解释变量之间的相关系 数均为 0.8 以上,即解释变量之间是高度相关的。 图 4-2 解释变量相关系数矩阵

2.辅助回归方程检验当解释变量多于两个,且变量之间呈现比较复杂的相关关系时,可以通过建立辅助回归模型来检验多重共线性。在本例中,在Eviews软件命令窗口中键入:(有几个解释变量就可以做几个辅助回归检验)1s xl c x2 x3 x4 x51sx2 cx1 x3 x4x51s x3 c x1 x2 x4 x51s x4 c x1 x2 x3 x51s x5 c xl x2 x3 x4对应的回归结果如图4-3所示:日Equation:UNTITLED Workfle:UNTITLED:Untitled回XView Proc ObjectPrint Name FreezeEstimate Forecast Stats ResidsDependent Variable:X1Method:Least SquaresDate:10/31/21Time:20:07Sample:19781997Includedobservations:20VariableCoefficientStd.ErrorProb.t-Statisticc309.6478933.55410.3316870.7447X20.00220.7837950.2125553.687487X30.5337170.1248514.2748430.0007X4-0.0851990.027765-3.0685650.0078X50.0078840.0128150.6152050.5476R-squared0.9961866209.400Meandependent var0.995168Adjusted R-squaredS.D.dependent var2718.85113.53354S.E.ofregression188.9864Akaike infocriterionSum squared resid535737.7Schwarzcriterion13.78248-130.335413.58214Log likelihoodHannan-Quinn criter.979.3627F-statisticDurbin-Watson stat1.322006Prob(F-statistic)0.000000上述辅助回归模型的F检验非常显著,方程回归系数的T检验值表明:x1与x5的T检验值较小,这些变量之间可能不相关或相关程度较小
2. 辅助回归方程检验 当解释变量多于两个,且变量之间呈现比较复杂的相关关系时, 可以通过建立辅助回归模型来检验多重共线性。在本例中,在 Eviews 软件命令窗口中键入:(有几个解释变量就可以做几个辅助回归检验) ls x1 c x2 x3 x4 x5 ls x2 c x1 x3 x4 x5 ls x3 c x1 x2 x4 x5 ls x4 c x1 x2 x3 x5 ls x5 c x1 x2 x3 x4 对应的回归结果如图 4-3 所示: 上述辅助回归模型的 F 检验非常显著,方程回归系数的 T 检验值 表明:x1 与 x5 的 T 检验值较小,这些变量之间可能不相关或相关程 度较小

Equation:UNTITLED Workfile:UNTITLED:Untitledy一回XView Proc Object Print Name Freeze Estimate Forecast Stats ResidsDependent Variable:X2Method:Least SquaresDate:10/31/21Time:20:12Sample:19781997Includedobservations:20VariableCoefficientStd.Errort-StatisticProb.c-2178.487602.5757-3.6152910.0025X10.6066380.1645133.6874870.0022X3-0.2811230.146607-1.9175210.0744X40.0829760.00230.0226323.666301X50.0253090.0093602.7041020.01630.9972855868.100R-squaredMean dependent varAdjusted R-squared0.996560S.D.dependent var2834.910S.E.of regression166.262313.27733Akaike info criterion13.52626Sum squared resid414647.5SchwarzcriterionLog likelihood-127.7733Hannan-Quinn criter.13.32592F-statistic1377.221Durbin-Watson stat0.995444Prob(F-statistic)0.000000上述辅助回归模型的F检验非常显著,方程回归系数的T检验值表明:x2与x3的T检验值较小,这些变量之间可能不相关或相关程度较小。Equation:UNTITLED Workfile:UNTITLED:Untitled)口xView Proc ObjectPrint Name FreezeEstimate Forecast Stats ResidsDependentVariable:X3Method: Least SquaresDate:10/31/21 Time:20:14Sample:1978 1997Includedobservations:20VariableCoefficientProb.Std.Errort-Statisticc550.30350.67651293.2300.425526X10.2407140.00071.0290134.274843X2-0.7002930.3652070.0744-1.917521X40.0228510.00000.1686937.382237X5-0.0190440.017333-1.0987560.2892R-squared0.9969653942.695Mean dependent var0.9961554231.973Adjusted R-squaredS.D.dependent var14.19004S.E.of regression262.4132Akaike info criterionSum squared resid1032910.Schwarzcriterion14.43897Log likelihood-136.900414.23863Hannan-Quinn criter.F-statistic1231.651Durbin-Watson stat1.359304Prob(F-statistic)0.000000图4-3
上述辅助回归模型的 F 检验非常显著,方程回归系数的 T 检验值 表明:x2 与 x3 的 T 检验值较小,这些变量之间可能不相关或相关程 度较小。 图 4-3

上述辅助回归模型的F检验非常显著,方程回归系数的T检验值表明:x3与x5的T检验值较小,这些变量之间可能不相关或相关程度较小。3.方差扩大因子检验从以上辅助回归模型可知,利用公式VIF,可以得到:1- R,VIF=262.1919,VIF,=368.3241,VIF,=329.4893VIF=334.0013,VIF=43.5483都远远大于10,解释变量x1.x2.x3.x4.x5之间存在严重的多重共线性。下面利用Eviews软件直接计算解释变量的方差扩大因子,在最初的Equation回归结果中单击View/Coefficient/VarianceInflationFactors即可,其中CenteredVIF即为方差扩大因子(VIF),如下图所示:日Equation:EQO1Workfile:UNTITLEDUntitled回XView Proc ObjectPrint Name FreezeEstimate Forecast Stats ResidsVariance Inflation FactorsDate:10/31/21Time:20:40Sample:19781997Includedobservations:20CoefficientUncenteredCenteredVariableVIFVIFVariancecNA189831.7491.6111X10.0144151701.549262.1634X20.0186252029.168368.2588X30.007477630.4316329.4404X40.000271685.1697334.0529X51880.9633.64E-0543.54824图4-4方差扩大因子
上述辅助回归模型的 F 检验非常显著,方程回归系数的 T 检验值 表明:x3 与 x5 的 T 检验值较小,这些变量之间可能不相关或相关程 度较小。 3. 方差扩大因子检验 从以上辅助回归模型可知,利用公式 2 1 1 j j R VIF 可以得到: VIF1=262.1919,VIF2=368.3241,VIF3=329.4893,VIF4=334.0013, VIF5=43.5483 都远远大于 10,解释变量 x1, x2, x3, x4, x5 之间存在严 重的多重共线性。 下面利用 Eviews 软件直接计算解释变量的方差扩大因子,在最 初 的 Equation 回 归 结 果 中 单 击 View/ Coefficient/Variance Inflation Factors 即可,其中 Centered VIF 即为方差扩大因子 (VIF),如下图所示: 图 4-4 方差扩大因子

二、利用逐步回归方法处理多重共线性(消除多重共线性的方法)1.下面利用Eviews软件直接采用逐步回归法解决我国钢材产量预测模型存在的多重共线性问题。(1)在主窗口,选择Quick/EstimateEquation,弹出方程设定对话框,通过估计方法的下拉选项选择:逐步最小二乘(Stepis-StepwiseLeastSquares),Eviews中将显示逐步最小二乘法的设定(Specification)标签页,如图所示:Equation EstimationSpedificationOptionsEquationspecificatiorDependentvariablefollowedbylistofalways includedregressorsList of searchregressorsEstimation settingsMethodSTEPLSStepwise LeastSquaresSample:19781997确定取消图 4-5接下来,输入下列变量:
二、利用逐步回归方法处理多重共线性(消除多重共线性的方法) 1. 下面利用 Eviews 软件直接采用逐步回归法解决我国钢材产量预 测模型存在的多重共线性问题。 (1)在主窗口,选择 Quick/ Estimate Equation,弹出方程设定对 话 框 , 通 过 估 计 方 法 的 下 拉 选 项 选 择 : 逐 步 最 小 二 乘 (Stepis-Stepwise Least Squares),Eviews 中将显示逐步最小二 乘法的设定(Specification)标签页,如图所示: 图 4-5 接下来,输入下列变量:

Equation EstimationSpecificationOptionsEquationspecificationDependent variablefollowed by list of always included regressorsListofsearchregressorsx1x2x3x4x5EstimationsettingsMethod:STEPLS-Stepwise Least SquaresSample:19781997确定取消图 4-6逐步回归采用列表式进行变量的基本设定,在第一个编辑区域,先设定被解释变量,在第二个编辑区域,输入设定解释变量。在本例中,在第一个设定框输入“y”“C”,在第二个框内输入“X1X2X3X4X5”(2)打开选项(Options),见图4-7。其中选择模型(SelectionMethod)部分用来设定逐步回归的方法,包括:单向逐步回归法(Uni-directional)、有进有出逐步回归法(Stepwise)、交换逐步回归法(Swapwise)和组合逐步回归法(Combinatorial)。Eviews软件中默认使用:向前一有进有出(Stepwise-forwards)法。若想改变这个基本方法,在下拉选项中更换其他方法
图 4-6 逐步回归采用列表式进行变量的基本设定,在第一个编辑区域, 先设定被解释变量,在第二个编辑区域,输入设定解释变量。 在本例中,在第一个设定框输入“Y”“C”,在第二个框内输入 “X1 X2 X3 X4 X5”. (2)打开选项(Options),见图 4-7。其中选择模型(Selection Method)部分用来设定逐步回归的方法,包括:单向逐步回归法 (Uni-directional)、有进有出逐步回归法(Stepwise)、交换逐 步回归法(Swapwise)和组合逐步回归法(Combinatorial)。 Eviews 软件中默认使用:向前—有进有出(Stepwise-forwards) 法。若想改变这个基本方法,在下拉选项中更换其他方法

Equation EstimationXSpecificationOptionsSelection MethodOForwardsStepwiseOBackwardsStopping CriteriaWeightsNoneType:Op-valueOt-statWeight0.05p-value forwards:series:0.05p-valuebackwards:EViews defaultScaling:Maximum stepsUsenumberof regressors1000Forwards:Numberof regressors51000Backwards:to select:Total:2000确定取消图4-7对于本案例,在SelectionMethod部分,采用默认的向前一有进有出法(Stepwise-Forwards),在StoppingCriteria(程序终止准则区),选择显著性水平p-value(或t-start),右边的方框填写0.05(或2),选择“利用回归变量的个数”(Usenumberofregressors)选项,将默认值1改为5,其余采用默认设置,得到估计结果如下表:
图 4-7 对于本案例,在 Selection Method 部分,采用默认的向前—有 进有出法(Stepwise-Forwards),在 Stopping Criteria(程序终止 准则区),选择显著性水平 p-value(或 t-start),右边的方框填写 0.05(或 2),选择“利用回归变量的个数”(Use number of regressors) 选项,将默认值 1 改为 5,其余采用默认设置,得到估计结果如下表:

表2有进有出逐步回归结果(Stepwise-Forwards)日Equation:UNTITLEDWorkifile:第四章_Untitledy-oXView Proc Object Print Name Freeze Estimate Forecast Stats ResidsDepenuen yanabie.Method:StepwiseRegressionDate:11/01/21 Time:14:31Sample:19781997Includedobservations:20Numberofalwaysincludedregressors:1Numberofsearchregressors:5Selectionmethod:StepwiseforwardsStopping criterion:p-valueforwards/backwards=0.05/0.05Stopping criterion:Numberof searchregressors=5VariableCoefficientStd.Errort-StatisticProb.*c-287.6867101.2341-2.8417970.0113X20.4871850.1126874.3233520.0005X10.00250.4158670.1174973.5393765153.450R-squared0.997358Mean dependent var0.9970472512.131Adjusted R-squaredS.D.dependent varS.E.of regression136.509612.80815Akaike info criterion12.95751Sum squared resid316792.9Schwarz criterion-125.081512.83731Log likelihoodHannan-Quinncriter.F-statistic3208.7270.692473Durbin-WatsonstatProb(F-statistic)0.000000Selection SummaryAddedX2Added X1*Note:p-values and subsequent tests do notaccountforstepwiseselection.所以,建立的我国钢材产量预测模型为:Y=-287.6867+0.4159*X1+0.4872*X2(4.3234)t =(-2.8418)(3.5394)R2=0.9974R=0.9970DW=0.6925F=3208.727
表 2 有进有出逐步回归结果(Stepwise-Forwards) 所以,建立的我国钢材产量预测模型为: Y = -287.6867+0.4159*X1+0.4872*X2 t = (-2.8418) (3.5394) (4.3234) R2=0.9974 0.9970 2 R DW=0.6925 F=3208.727