第一节多重共线形及其影响 多重共线形及其分类 严格多重共线形及其危害 三、近似多重共线形的原因及其影响
3 第一节 多重共线形及其影响 一、多重共线形及其分类 二、严格多重共线形及其危害 三、近似多重共线形的原因及其影响
多重共线性及其分类 ■多元线性回归模型要求解释变量之间不 存在线性关系,包括严格的线性关系和 高度的近似线性关系 ■但事实上由于模型设定和数据等各方面 的问题,模型的解释变量之间很可能存 在某种程度的线性关系。这时候称多元 线性回归模型存在多重共线性问题
4 一、多重共线性及其分类 ◼ 多元线性回归模型要求解释变量之间不 存在线性关系,包括严格的线性关系和 高度的近似线性关系。 ◼ 但事实上由于模型设定和数据等各方面 的问题,模型的解释变量之间很可能存 在某种程度的线性关系。这时候称多元 线性回归模型存在多重共线性问题
■多重共线性可以分为两类 ■如果多元线性回归模型中,存在两个或 多个解释变量之间存在严格的线性关系, 则称为“完全多重共线性”,也称为 “严格的多重共线性” ■而解释变量之间存在近似的而不是严格 的线性关系,这种情况被称为“近似多 重共线性
5 ◼ 多重共线性可以分为两类。 ◼ 如果多元线性回归模型中,存在两个或 多个解释变量之间存在严格的线性关系, 则称为“完全多重共线性”,也称为 “严格的多重共线性” 。 ◼ 而解释变量之间存在近似的而不是严格 的线性关系,这种情况被称为“近似多 重共线性”
二、严格多重共线形及其危害 ■完全多重共线性不可能由于数据问题引 起,通常是由于模型设定问题,把有严 格联系的变量引进同一个模型,或者虚 拟变量设置不当引起的 ■设两个解释变量的线性回归模型为: Y=Bo+BXI+B2x2+e 回归方程为:Y=b+bX1+b2xX2
6 二、严格多重共线形及其危害 ◼ 完全多重共线性不可能由于数据问题引 起,通常是由于模型设定问题,把有严 格联系的变量引进同一个模型,或者虚 拟变量设置不当引起的。 ◼ 设两个解释变量的线性回归模型为: 回归方程为: = + + + Y 0 1 X1 2 X2 0 1 1 2 2 Y ˆ = b + b X + b X
求参数最小二乘估计量的正规方程组为: b∑x2+b∑xx2=∑ ∑x2+b2∑x2=∑x2 其中x、x2和y分别是Xx2和Y的离差 ■设X和X2两个变量之间有严格的线性关 系X2=2X1,这个模型当然就存在完全的 多重共线性
7 ◼ 求参数最小二乘估计量的正规方程组为: 其中 、 和 分别是 、 和 的离差。 ◼ 设 和 两个变量之间有严格的线性关 系 ,这个模型当然就存在完全的 多重共线性。 + = + = i i i i i i b x x b x yx b x b x x yx 2 2 1 1 2 2 2 2 1 2 1 2 1 1 1 x 2 x y X1 X2 Y X1 X2 X2 = 2X1
■此时x2=2x也成立。把该关系式代入上 述正规方程组中的第二式可得 b∑x(2x)+b∑x(2x)=∑y(2x) ■得到: ∑x2+b2∑x2x=∑ ■很显然,这个方程与上述正规方程组的 第一个方程是完全相同的
8 ◼ 此时 也成立。把该关系式代入上 述正规方程组中的第二式可得: ◼ 得到: ◼ 很显然,这个方程与上述正规方程组的 第一个方程是完全相同的。 2 2 1 x = x + = i i i b x (2x ) b x (2x ) y(2x ) 1 1 1 2 2 1 1 + = i i i b x b x x yx 2 2 1 1 2 1 1
这意味着我们得到了包含两个未知参数估计量 的两个相同的方程,这时该方程组有无穷组解 而不是有唯一一组解。 ■这实际上意味着被解释变量究竟受哪些变量的 影响变得很不清楚,变量关系是无法识别的。 有完全多重共线性的多元线性回归模型都无法 顺利进行参数估计,会使多元线性回归模型参 数估计失败,回归分析无法进行
9 ◼ 这意味着我们得到了包含两个未知参数估计量 的两个相同的方程,这时该方程组有无穷组解 而不是有唯一一组解。 ◼ 这实际上意味着被解释变量究竟受哪些变量的 影响变得很不清楚,变量关系是无法识别的。 ◼ 有完全多重共线性的多元线性回归模型都无法 顺利进行参数估计,会使多元线性回归模型参 数估计失败,回归分析无法进行
完全多重共线性虽然破坏性很大,却不是最需 要担心的问题。 ■因为完全多重共线性是由于模型设定问题,把 有严格联系的变量引进同一个模型,或者虚拟 变量设置不当引起的,因此只要在建模时适当 注意就可以避免。 ■即使由于模型设定的疏忽使得模型存在完全多 重共线性问题,也比较容易发现。因为参数估 计失效马上会提示我们这方面的问题
10 ◼ 完全多重共线性虽然破坏性很大,却不是最需 要担心的问题。 ◼ 因为完全多重共线性是由于模型设定问题,把 有严格联系的变量引进同一个模型,或者虚拟 变量设置不当引起的,因此只要在建模时适当 注意就可以避免。 ◼ 即使由于模型设定的疏忽使得模型存在完全多 重共线性问题,也比较容易发现。因为参数估 计失效马上会提示我们这方面的问题