第6章多重共线性的情形及其处理 6.1多重共线性产生的背景和原因 6.2多重共线性对回归模型的影响 6.3多重共线性的诊断 64消除多重共线性的方法 6.5主成分回归 6.6本章小结与评注
第6章 多重共线性的情形及其处理 6 .1 多重共线性产生的背景和原因 6 .2 多重共线性对回归模型的影响 6 .3 多重共线性的诊断 6 .4 消除多重共线性的方法 6 .5 主成分回归 6 .6 本章小结与评注
第六章多重共线性的情形及其处理 如果存在不全为0的p+1个数12,…使得 Co++,x,+.+Cx =0. i=1. 2 (6.1) 则称自变量x1x2,,xn之间存在着完全多重共线性。 在实际经济问题中完全的多重共线性并不多见,常见的是 (61)式近似成立的情况,即存在不全为0的p+1个数 Co Cl C2 P 使得 C+cx,+C2x2+…+pp 0.i=1 (6.2) 称自变量x-x2…xn之间存在着多重共线性 ( Multi-collinearity),也称为复共线性
第六章 多重共线性的情形及其处理 如果存在不全为0的p+1个数c0 ,c1 ,c2 ,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip=0 , i=1,2,…,n (6.1) 则称自变量x1 ,x2 ,…,xp之间存在着完全多重共线性。 在实际经济问题中完全的多重共线性并不多见,常见的是 (6.1)式近似成立的情况,即存在不全为0的p+1个数 c0 ,c1 ,c2 ,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n (6.2) 称自变量x1 ,x2 ,…,xp之间存在着多重共线性 (Multi-collinearity),也称为复共线性
§6.1多重共线性产生的经济背景和原因 当我们所研究的经济问题涉及到时间序列资料时,由于 经济变量随时间往往存在共同的变化趋势,使得它们之间就 容易出现共线性 例如,我们要研究我国居民消费状况,影响居民消费的 因素很多,一般有职工平均工资、农民平均收入、银行利率 全国零售物价指数、国债利率、货币发行量、储蓄额、前 期消费额等这些因素显然既对居民消费产生重要影响,它 们之间又有着很强的相关性
§6.1多重共线性产生的经济背景和原因 当我们所研究的经济问题涉及到时间序列资料时,由于 经济变量随时间往往存在共同的变化趋势,使得它们之间就 容易出现共线性。 例如, 我们要研究我国居民消费状况,影响居民消费的 因素很多,一般有职工平均工资、农民平均收入、银行利率、 全国零售物价指数、国债利率、货币发行量、储蓄额、前 期消费额等,这些因素显然既对居民消费产生重要影响,它 们之间又有着很强的相关性
§6.1多重共线性产生的经济背景和原因 许多利用截面数据建立回归方程的问题常常也存在自 变量高度相关的情形。 例如我们以企业的截面数据为样本估计生产函数,由于 投入要素资本K劳动力投入L科技投入S,能源供应E等都与 企业的生产规模有关,所以它们之间存在较强的相关性
§6.1多重共线性产生的经济背景和原因 许多利用截面数据建立回归方程的问题常常也存在自 变量高度相关的情形。 例如,我们以企业的截面数据为样本估计生产函数,由于 投入要素资本K,劳动力投入L,科技投入S,能源供应E等都与 企业的生产规模有关,所以它们之间存在较强的相关性
§6.2多重共线性对回归模型的影响 设回归模型 B+1x1+12x2+….+Bxn+8 存在完全的多重共线性,即对设计矩阵X的列向量存在不全 为零的一组数co;C2,…cp,使得 cc+C1xn+c2x2++y≈0,÷1,2,,n 设计矩阵X的秩rank(X)<p+1,此时xx0,正规方程 组的解不唯一,(xx)1不存在,回归参数的最小二乘估计 表达式B=(XX成立
§6.2 多重共线性对回归模型的影响 y=β0+β1x1+β2x2+…+βpxp+ε 存在完全的多重共线性,即对设计矩阵X的列向量存在不全 为零的一组数c0 ,c1 ,c2 ,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip=0 , i=1,2,…,n 设计矩阵X的秩rank(X)< p+1,此时|x′x|=0,正规方程 组的解不唯一,(x′x)-1不存在,回归参数的最小二乘估计 表达式 β= XX 不成立。 Xy -1 ( ) ˆ
§6.2多重共线性对回归模型的影响 对非完全共线性,存在不全为零的一组数co1C2,…C使得 Co+Cx 1+Cx,,+. tCpip 此时设计矩阵X的秩mk(X)p+1虽然成立,但是此x'x≈0, (x'x)的对角线元素很大,B的方差阵D(B=02(X′X}的 对角线元素很大,而D(B)的对角线元素即为wa(P),var,)…;vap,) 因而βbβ…,β的估计精度很低。这样,虽然用OUSE还能得到β的无偏 估计但估计量β的变差很大不能正确判断解释变量对被解释变量的景响程 度甚至出现估计量的经济意义无法解释
§6.2 多重共线性对回归模型的影响 对非完全共线性,即存在不全为零的一组数c0,c1,c2,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n 此时设计矩阵X的秩rank(X)=p+1虽然成立,但是此时|x′x|≈0, (x′x)-1 的对角线元素很大, β ˆ 的方差阵D(β ˆ ) =σ2 (X′X) -1 的 对角线元素很大,而D(β ˆ )的对角线元素即为 ) ˆ ), , var( ˆ ), var( ˆ var(0 1 p 因而β0,β1,…,βp的估计精度很低。这样,虽然用OLSE还能得到β的无偏 估计,但估计量β ˆ 的变差很大,不能正确判断解释变量对被解释变量的影响程 度,甚至出现估计量的经济意义无法解释。 对非完全共线性, 存在不全为零的一组数c0 ,c1 ,c2 ,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n
§6.2多重共线性对回归模型的影响 我们做y对两个自变量x1x2的线性回归,假定y与x1x2都 已经中心化,此时回归常数项为零,回归方程为 y=Bx,+B2x2 记L1=∑x,L12=∑xx2,L2=∑x 则x与x之间的相关系数为 L 122
§6.2 多重共线性对回归模型的影响 我们做y对两个自变量x1 ,x2的线性回归,假定y与x1 ,x2都 已经中心化,此时回归常数项为零,回归方程为 1 1 2 2 ˆ ˆ y ˆ = x + x 记 = = = = = = n i i n i i i n i i L x x x x 1 2 2 2 2 1 1 2 1 2 1 2 1 1 1 , L , L , 则x1与x2之间的相关系数为 11 22 12 12 L L L r =
§62多重共线性对回归模型的影响 β=(B1,B2)的协方差阵为 COV(B)=O(XX) XX= 12 22 (X'X) xx(-L12L1)L1Z2-2 22 12 11122 12 11
§6.2 多重共线性对回归模型的影响 ) ˆ , ˆ ( ˆ 1 2 = 的协方差阵为 cov(β ˆ )=σ 2 (X′X) -1 = 12 22 11 12 L L L L X X = − 12 11 1 22 12 - 1 - ( ) L L L L X X X X − = 12 11 22 12 2 11 22 12 - 1 - L L L L L L L − = 12 11 22 12 2 11 22 12 - - (1 ) 1 L L L L L L r
§6.2多重共线性对回归模型的影响 由此可得 var(Bu) (6.3) var(B,) (6.4) 222 可知随着自变量x1与x的相关性增强β1和β2的方差将逐渐增大。 当x与x完全相关时严=1,方差将变为无穷大
§6.2 多重共线性对回归模型的影响 由此可得 11 2 12 2 1 (1 ) ) ˆ var( − r L = (6.3) 22 2 12 2 2 (1 ) ) ˆ var( − r L = (6.4) 可知,随着自变量x1与x2的相关性增强, 1 ˆ 和 2 ˆ 的方差将逐渐增大。 当x1与x2完全相关时,r=1,方差将变为无穷大
§62多重共线性对回归模型的影响 当给不同的r12值时,由表61可看出方差增大的速度。 为了方便,我们假设G2/L1=1,相关系数从0.5变为0.9时, 回归系数的方差增加了295%相关系数从0.5变为0.95时,回归 系数的方差增加了670% 表6.1 r 0.00.20.500.700.800.900.950.991.00 var(B,) 1.01.041.331.962.785.2610.2650.25∞
§6.2 多重共线性对回归模型的影响 当给不同的r12值时,由表6.1可看出方差增大的速度。 为了方便,我们假设σ 2 /L11=1,相关系数从0.5变为0.9时, 回归系数的方差增加了295%,相关系数从0.5变为0.95时,回归 系数的方差增加了670%。 表6.1 r12 0.0 0.2 0.50 0.70 0.80 0.90 0.95 0.99 1.00 ) ˆ var(1 1.0 1.04 1.33 1.96 2.78 5.26 10.26 50.25 ∞