Chapter8多重共线性 Multicollinearity
Chapter 8 多重共线性 Multicollinearity
1.何谓 Multicollinearity Y=Ⅹb+ Y=:,X 12 k2 n One of the conditions for ols: rank(X=k +l<n
1. 何谓 Multicollinearity One of the conditions for OLS: 11 1 0 1 1 12 2 1 2 1 1 1 , , , 1 k k n n kn k n X X b Y X X b Y X X b = + = = = = Y Xb ε Y X b ε rank( )= 1 X k n +
oLSE for the CMlrM: b=(XXXY 若干个自变量存在较高程度的近似线性关系。即有 XX≈0 或者,有 X≈a0+a1X1+…+a1X1+a11+…+ a,x a不全为零
OLSE for the CMLRM: 若干个自变量存在较高程度的近似线性关系。即有 或者,有 X X 0 1 ˆ ( − b X X) X Y = 0 1 1 1 1 1 1 1 , , i i i i i k k k X a a X a X a X a X a a − − + + + + + + + + 不全为零
2. Causes for multicollinearity 有关经济变量(因素)是线性或近似线性相关的 样本原因(碰巧是线性或近似线性相关的) 模型误设 3. Aftermath var(b)=El(b-b(b-b)=0(XX) Ⅴar(b,)变得很大,工检验失灵
2. Causes for multicollinearity 有关经济变量(因素)是线性或近似线性相关的. 样本原因(碰巧是线性或近似线性相关的) 模型误设 3. Aftermath 变得很大。T-检验失灵。 2 1 ˆ ˆ ˆ var( ) E[( )( ) ] ( ) − b b b b b X X = − − = ˆ var( )j b
4. Testing for multicollinearity 1)Correlation Matrix 2)R-sq, F-statistic and t-statistics 3)Regress X1=a+a1A1+…+a1X1+a1X1+…+ a, x R-sq R X Variance inflation factor (IF) VIF()=-1
4. Testing for multicollinearity 1) Correlation Matrix 2) R-sq, F-statistic and t-statistics 3) Regress R-sq: Variance inflation factor (VIF): X a a X a X a X a X i i i i i k k 0 1 1 1 1 1 1 − − + + = + + + + + + 2 Xi R 2 1 VIF( ) ˆ 1 i i X b R = −
5. A case study and adjustment for multicollinearity 6.多重共线性必定不好吗?
5. A case study and adjustment for multicollinearity 6. 多重共线性必定不好吗?
中国电信业务总量的计量模型 经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量 (X1)、中国人口数()、市镇人口占总人口的比重()、人均GDP()、 全国居民人均消费水平() 199199年中匡电信业务总量数据 年电信业务总量邮政业务总量中国人口数市铕人口比重人均GDP人均消费水平 〔百亿元)x(百亿元)x2(亿人〕 x〔千元)x〔千元 1991 15163 05275 11.5823 02637 1879 0896 1992 22657 06367 1171?1 02763 2287 1070 1993 38245 08026 118517 02814 2939 1.331 199459230 9589 119850 02862 3923 1.746 199587551 1.1334 12121 02904 4854 2236 1996120875 13329 122389 02937 5576 1997126895 14434 123626 02992 6053 2834 1998 22.6494 16628 124810 03040 6307 2972 1999 313238 19844 125909 03089 6534 3143 资料来源:《中国统计年鉴》200
中国电信业务总量的计量模型 经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量 (x1)、中国人口数(x2)、市镇人口占总人口的比重(x3)、人均GDP(x4)、 全国居民人均消费水平(x5)
用199-199年数据建立中国电信业务总量计量经济模型如下, Lny=24.94+216x1-3.03x2+33.7x3+1.29x4-2.03 06)1.6)(08)1.0)(1.5)(1.2) R2=09F=1063,DW=34,7=91999903=318
Dependent Variable: LOGY) Method: Least Squares Date:03/1202Time:14:17 Sample:19911999 Included observations: 9 V: ariable Coefficient Std Error t-Statistic Prob C 249356038452070.5485110.5629 2.163631135232215999380.2079 84 3.034551398671207611660.5019 33.7133332939431.0234950.3814 1.2888600.8340691.5452670.2200 -20271911.6643411.2180140.3103 R-squared 0.994385 Mean dependent var 2.013502 Adjusted R-squared 0.985027 S.D. dependent var 1018022 S.E. of regression 0. 124570 Akaike info criterion -3.931056 Sum squared resid 0. 046553 Schwarz criterion 3.799573 Log likelihood 10.91930 F-statistic 106.2583 Durbin-Watson stat 3.408677 Prob(F-statistic) 0001421
注意 R=0.99,但每个回归参数的t检验在统计上都不显著 (估计量的方差变大所致),这说明模型中存在严重的多重共线性。 下面用 Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。 因为其中有一个简单相关系数大于R2=0.9944, 所以根据 Klein判别法,模型中存在严重的多重共线性 Lnly X4 Ln(y)1000 09833 10000 22 09938 0989510000 2309875097009882100 +098200962809872096781000 098150970309888096540.98610000