
第7章 多重共线性7.1非多重共线性假定7.2多重共线性的经济解释7.3多重共线性的后果7.4多重共线性的检验7.5多重共线性的克服方法7.6案例分析(3例)file:li-7-1file:b1e4file:nonli14
第7章 多重共线性 file: li-7-1 file:b1e4 file: nonli14 7.1 非多重共线性假定 7.2 多重共线性的经济解释 7.3 多重共线性的后果 7.4 多重共线性的检验 7.5 多重共线性的克服方法 7.6 案例分析(3 例)

7.1非多重共线性假定(第4版第161页)rk (X'X) = rk (X) = k+1Y(Tx1) = XμTx(k+DI β(k+1)x1) + u(Tx1)解释变量不是完全线性相关的或接近完全线性相关的。IPxix,|1,IPxix不近似等于1。就模型中解释变量的关系而言,有三种可能。(1) Pxtixy解释变量间相关系数等于0。(少见)=0,角(2)[Pxx「-1,解释变量间完全相关。(少见)(3)0<IPxix,l<1,解释变量间存在一定程度的线性相关。(常见)因此我们关心的不是有无多重共线性,而是多重共线性的程度随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响
7.1 非多重共线性假定 (第4版第161页) rk (X 'X ) = rk (X ) = k+1 解释变量不是完全线性相关的或接近完全线性相关的。 ti tj x x 1, ti tj x x 不近似等于 1。 就模型中解释变量的关系而言,有三种可能。 (1) ti tj x x = 0,解释变量间相关系数等于 0。(少见) (2) ti tj x x = 1,解释变量间完全相关。(少见) (3)0 < ti tj x x < 1,解释变量间存在一定程度的线性相关。(常见) 因此我们关心的不是有无多重共线性,而是多重共线性的程度。 随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。 Y(T1) = X[T (k+1)] [(k+1)1] + u(T1)

7.2多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。4.E+114.E+11GDP...CONSGDP of HongKong3.E+113.E+112.E+112.E+111.E+111.E+11CONS0.E+000.E+008082848688909294969800020.0E+005.0E+101.0E+111.5E+112.0E+112.5E+1解释变量与其滞后变量同作解释变量(221(第4版第162页)4.E+114.E+11GDPGDP3.E+113.E+112.E+112.E+111.E+111.E+11GDP(-1)0.E+000.E+008082848688909294969800021.E+112.E+113.E+114.E+1*0.E+00
(第4版第162页) 7.2 多重共线性的经济解释 (1)经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率 等都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型 后就会带来多重共线性问题。 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 80 82 84 86 88 90 92 94 96 98 00 02 GDP CONS 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 0.0E+005.0E+101.0E+111.5E+112.0E+112.5E+11 CONS GDP of HongKong (2)解释变量与其滞后变量同作解释变量。 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 80 82 84 86 88 90 92 94 96 98 00 02 GDP 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 GDP(-1) GDP

7.3 多重共线性的后果(第4版第163页)(1)当|rxixi=l,X为降秩矩阵,则(X'X)-不存在,β=(X'X)"X'Y不可计算(2)若「rxix|¥l,即使「rxix|→l,β仍具有无偏性。E(β)=E[(X'X)"x'Y}=E[(X'X)"x(Xβ+u)I=β + (X'X)"x'E(u) =β(3)当|rxixi/→>1时,X'X接近降秩矩阵,即|X'X|→>0,Var()Var(β)=α2(X'X)变得很大。所以β丧失有效性。以二元线性回归模型,Y,=β+βiXn+βXn+ut,为例,4q?1Var(β)=20E(Xi1-X)2 1-(Pxx,)20.20.40.60.8当 rxix=0.8时,Var(β)为 rxix=0 时的 Var(β)的 2.78倍当 rxixj=0.95时,Var(β)为 rxix=0时的Var(β)的10.26倍
7.3 多重共线性的后果 (第4版第163页) 0.2 0.4 0.6 0.8 1 20 40 60 80 Var( ˆ ) r (1)当 rxi xj =1,X 为降秩矩阵,则(X 'X) -1 不存在, ˆ = (X 'X) -1 X'Y 不可计算。 (2)若 rxi xj 1,即使 rxi xj →1, ˆ 仍具有无偏性。 E( ˆ )=E[(X 'X) -1 X ' Y]=E[(X 'X) -1 X ' (X+u)]= + (X 'X) -1 X ' E(u) =. (3)当 rxi xj →1 时,X 'X 接近降秩矩阵,即 X 'X →0, Var( ˆ )= 2 (X 'X) -1 变得很大。所以 ˆ 丧失有效性。 以二元线性回归模型, Yt = 0 +1Xt1 + 2Xt2 + ut ,为例, Var ( 1 ˆ ) = 2 2 1 1 2 1-( ) 1 ( ) 1 2 Xt X x x − 当 rxi xj= 0.8 时,Var( 1 ˆ )为 rxi xj = 0 时的 Var( 1 ˆ )的 2.78 倍。 当 rxi xj = 0.95 时,Var( 1 ˆ )为 rxi xj = 0 时的 Var( 1 ˆ )的 10.26 倍

关于多重共线性回归系数分布的模拟比较(file:multicollinearity)模拟模型:Y=0.4+1.2x1+0.8x2+u,r(x1,x2)>0.96。红色曲线为模拟1万次结果。模拟模型:Y=0.4+1.2x1+0.8x3+u,rx1,x3)=0。蓝色曲线为模拟1万次结果。5B1F1B1F24-3.Correlation2.X1X2X3X11.0000000.992565-0.1385221.X20.9925651.000000-0.040168X3-0.138522-0.0401681.0000000.201-1-2真值=1.2一次模拟结果,x1与x2高度相关,x1与x3不相关因为r(x1,x2)>0.96,β,分布的方差变大(红线)。因为r(x1,x3)=0,β,分布的方差很小(蓝线)
关于多重共线性回归系数分布的模拟比较(file: multicollinearity) 模拟模型:Y = 0.4+1.2 x1+ 0.8 x2 + u,r(x1, x2) > 0.96。红色曲线为模拟1万次结果。 模拟模型:Y = 0.4+1.2 x1+ 0.8 x3 + u,r(x1, x3) = 0。蓝色曲线为模拟1万次结果。 真值1 = 1.2 一次模拟结果,x1 与 x2 高度相关,x1 与 x3 不相关 因为 r(x1, x2) > 0.96, 1 ˆ 分布的方差变大(红线)。因为 r(x1, x3) = 0, 1 ˆ 分布的方差很小(蓝线)。 0 1 2 3 4 5 -2 -1 0 1 2 3 4 B1F1 B1F2

7.4多重共线性的检验(1)初步观察。当模型的拟合优度(R2)很高,F值很高,而每个回归参数估计值的方差Var(B)又非常大(即t值很低)时,说明解释变量间可能存在多重共线性。Klein判别法。计算多重可决系数R及解释变量间的简单相关系(2)数rxixi。若有某个|rxixi|>R,则xi,x;间的多重共线性是有害的。(3)回归参数估计值的符号不符合经济理论(4)增加或减少解释变量个数时,回归参数估计值变化很大。(第4版第164页)
(第4版第164页) 7.4 多重共线性的检验 (1)初步观察。当模型的拟合优度(R 2 )很高,F 值很高,而每个回 归参数估计值的方差 Var(j ) 又非常大(即 t 值很低)时,说明 解释变量间可能存在多重共线性。 (2)Klein 判别法。计算多重可决系数 R 2 及解释变量间的简单相关系 数 rxi xj。若有某个 rxi xj > R 2 ,则 xi,xj间的多重共线性是有害的。 (3)回归参数估计值的符号不符合经济理论。 (4)增加或减少解释变量个数时,回归参数估计值变化很大

7.5 多重共线性的克服方法5.1直接合并解释变量当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,甚至还可以与农业总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。5.2利用已知信息合并解释变量通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型yt=βo+βixX1+β2X2+ux,与x2间存在多重共线性。如果能给出β,与β的某种关系,β=2β,其中为常数。yt=βo+β,x+aβ,x+u,=βo+B,(x+ax2)+u令x,=X+ax得yt=β+Bix,+u(第4版第166页)模型是一元线性回归模型,所以不再有多重共线性问题
7.5 多重共线性的克服方法 5.1 直接合并解释变量 当模型中存在多重共线性时,在不失去实际意义的前提下,可以把有关的解释变量 直接合并,从而降低或消除多重共线性。 如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并 为工业总产值,甚至还可以与农业总产值合并,变为工农业总产值。解释变量变成 了一个,自然消除了多重共线性。 5.2 利用已知信息合并解释变量 通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条 件从而减弱或消除多重共线性。 比如有二元回归模型 yt = 0+ 1 xt1 + 2 xt2 + ut x1与x2间存在多重共线性。如果能给出1与2的某种关系,2 = 1其中 为常数。 yt = 0+ 1 xt1 + 1 xt2 + ut = 0 + 1 (xt1 + xt2 ) + ut 令 xt = xt1 + xt2 得yt = 0+ 1 xt + ut 模型是一元线性回归模型,所以不再有多重共线性问题。 (第4版第166页)

7.5多重共线性的克服方法下面以道格拉斯(Douglass)生产函数为例,做进一步说明。Y,= K L°CPe"t其中Y表示产出量,L表示劳动力投入量,C表示资本投入量。两侧取自然对数后,LnY,=LnK,+aLnL,+βLnC,+ut因为劳动力(Lt)与资本(C)常常是高度相关的,所以LnL与LnC,也高度相关。假如已知研究的对象是规模报酬不变型即已知α+β=1。模型变为LnY,=LnK,+αLnL,+(1-α)LnC,+u整理后,Ln()=LnK,+αLn()+ut(第4版第166页)变成了一元线性回归模型,自然消除了多重共线性
7.5 多重共线性的克服方法 下面以道格拉斯(Douglass)生产函数为例,做进一步说明。 Yt = K Lt Ct e ut 其中 Yt表示产出量,Lt表示劳动力投入量,Ct表示资本投入量。 两侧取自然对数后, LnYt = LnKt + LnLt + LnCt + ut 因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以 LnLt 与 LnCt也高度相关。假如已知研究的对象是规模报酬不变型, 即已知 + = 1。模型变为 LnYt = LnKt + LnLt + (1- ) LnCt + ut 整理后,Ln ( t t C Y ) = Ln Kt + Ln ( t t C L ) + ut 变成了一元线性回归模型,自然消除了多重共线性。 (第4版第166页)

7.5 多重共线性的克服方法5.3增加样本容量或重新抽取样本这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时,克服了测量误差,自然也消除了多重共线性。有时,增加样本容量也可以减弱多重共线性的程度。5.4利用解释变量之间的关系如果解释变量之间存在多重共线性,那么可以利用它们之间的关系,引入附加方程从而将单方程模型转化为联立方程模型,克服多重共线性。5.5变换模型形式通过变换模型形式克服多重共线性。例如某产品销量Y取决于其出厂价格X1,市场价格X2,和市场供应量X3。模型为LnY=β+β,X1+β,X2+β,X3+u通常,X1与X2是高度相关的,如果研究的自的是预测销售量Y,则可以用相对价格X1/X2代替X1与X2对销售量Y的影响LnY=βo+βi(X1/X2)+β,X3+u(第4版第166页)从而克服了X1与X2的多重共线性
5.3 增加样本容量或重新抽取样本 这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时,克 服了测量误差,自然也消除了多重共线性。有时,增加样本容量也可以减弱多重共 线性的程度。 5.4 利用解释变量之间的关系 如果解释变量之间存在多重共线性,那么可以利用它们之间的关系,引入附加方程, 从而将单方程模型转化为联立方程模型,克服多重共线性。 5.5 变换模型形式 通过变换模型形式克服多重共线性。例如某产品销量Y取决于其出厂价格X1,市场 价格X2,和市场供应量X3。模型为 LnY = 0 + 1X1+ 2X2+ 3X3+ut 通常,X1与X2是高度相关的,如果研究的目的是预测销售量Y,则可以用相对价格 X1/ X2代替X1与X2对销售量Y的影响, LnY = 0 + 1 (X1/X2) + 3X3+ut 从而克服了X1与X2的多重共线性。 7.5 多重共线性的克服方法 (第4版第166页)

7.5多重共线性的克服方法5.6把数据中心化把数据中心化有时也是克服多重共线性的有效方法。例如多项式回归模型t= βo+βix,+ β2x?+ βx? + ut中,变量之间常存在多重共线性。可以把解释变量先中心化(各自减自已的均值),然后建立多元回归模型yr= βo + β1 (xr1- x))+ β (x- x2) + βs (x3- x3 ) + ut(第4版第166页)
7.5 多重共线性的克服方法 (第4版第166页) 5.6 把数据中心化 把数据中心化有时也是克服多重共线性的有效方法。 例如多项式回归模型 yt = 0 +1 xt + 2 xt 2 + 3 xt 3 + ut 中,变量之间常存在多重共线性。 可以把解释变量先中心化(各自减自己的均值), 然后建立多元回归模型 yt = 0 + 1 (xt 1 - 1 x )+ 2 (xt 2 - 2 x ) + 3 (xt 3 - 3 x ) + ut