第9章含定性变量的回归模型 9.1自变量中含有定性变量的回归模型 9.2自变量定性变量回归模型的应用 93因变量是定性变量的回归模型 94 Logistic(谡逻辑斯蒂)回归 9.5多类别 Logistic回归 9.6因变量是顺序变量的回归 97本章小结与评注
第9章 含定性变量的回归模型 9.1 自变量中含有定性变量的回归模型 9.2 自变量定性变量回归模型的应用 9.3 因变量是定性变量的回归模型 9.4 Logistic(逻辑斯蒂)回归 9.5 多类别Logistic回归 9.6 因变量是顺序变量的回归 9.7 本章小结与评注
§9.1自变量中含有定性变量的回归模型 简单情况 首先讨论定性变量只取两类可能值的情况,例如研究 粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气 候问题,分为正常年份和干旱年份两种情况,对这个问题 的数量化方法是引入一个0-1型变量D,令: 表示正常年份 D.=0 表示干旱年份
§9.1 自变量中含有定性变量的回归模型 一、简单情况 首先讨论定性变量只取两类可能值的情况,例如研究 粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气 候问题,分为正常年份和干旱年份两种情况,对这个问题 的数量化方法是引入一个0-1型变量D,令: Di=1 表示正常年份 Di=0 表示干旱年份
§9.1自变量中含有定性变量的回归模型 粮食产量的回归模型为: y;=β0+β1x;+B2D;+e 其中干旱年份的粮食平均产量为: E(y;|D1=0)=B0+B1x 正常年份的粮食平均产量为: E(yD=1)=(β0+B2)+1x1
§9.1 自变量中含有定性变量的回归模型 yi=β0+β1xi+β2Di+εi E(yi|Di=0)=β0+β1xi E(yi |Di=1)=(β0+β2 )+β1xi
§9.1自变量中含有定性变量的回归模型 例9.1某经济学家想调查文化程度对家庭储蓄的 影响,在一个中等收入的样本框中,随机调查了13户 高学历家庭与14户中低学历的家庭, 因变量y为上一年家庭储蓄增加额, 自变量x1为上一年家庭总收入, 自变量x2表示家庭学历, 高学历家庭x2=1,低学历家庭x2=0, 调查数据见表91:
§9.1 自变量中含有定性变量的回归模型 例9.1 某经济学家想调查文化程度对家庭储蓄的 影响,在一个中等收入的样本框中,随机调查了13户 高学历家庭与14户中低学历的家庭, 因变量y为上一年家庭储蓄增加额, 自变量x1为上一年家庭总收入, 自变量x2表示家庭学历, 高学历家庭x2=1,低学历家庭x2=0, 调查数据见表9.1:
§9.1自变量中含有定性变量的回归模型 表91 序号y(元) x1(万元) 235 2.3 2 346 3.2 365 2.8 4 468 3.5 658 867 3.2 X0101010 6 1085 2.6 23 8950 24 9865 4.8 25 9866 4.6 26 10235 4.8 00000 27 10140 4.2
§9.1 自变量中含有定性变量的回归模型 序号 y(元) x1(万元) x2 1 235 2.3 0 2 346 3.2 1 3 365 2.8 0 4 468 3.5 1 5 658 2.6 0 6 867 3.2 1 7 1085 2.6 0 23 8950 3.9 0 24 9865 4.8 0 25 9866 4.6 0 26 10235 4.8 0 27 10140 4.2 0 表9.1
§9.1自变量中含有定性变量的回归模型 建立y对x1、x2的线性回归 Model Summary Std. Error Adjusted R of the Model RR Square square Estimate 938 879 869 1288.68 a. Predictors: (Constant), X2, X1 ANOVA Mode Sum of Squares df Mean square F Sig Regression 290372875.924 2|145186437.96287.425.000 39856639705241660693321 Total 330229515630
ANOVA 290372875.924 2 145186437.962 87.425 .000 39856639.705 2 4 1660693.321 330229515.630 2 6 Regression Residual Total Model 1 Sum of Squares d f Mean Square F Sig. §9.1 自变量中含有定性变量的回归模型 建立y对x1、x2的线性回归 Model Summary .938a .879 .869 1288.68 Model 1 R R Square Adjusted R Square Std. Error of the Estimate a. Predictors: (Constant), X2, X1
§9.1自变量中含有定性变量的回归模型 Coefficients Unstandardized Stand ardized Coefficients Coefficients B Std. error Beta sig ( Constant)-7976.8091093445 7295.000 X1 3826129304591 92112562.000 X2 3700330513445 -529-7207000 两个自变量x1与x2的系数都是显著的,判定系数 R2=0.879,回归方程为: 1=79761+3826x1-3700x2
§9.1 自变量中含有定性变量的回归模型 Coefficients -7976.809 1093.445 -7.295 .000 3826.129 304.591 .921 12.562 .000 -3700.330 513.445 -.529 -7.207 .000 (Constant) X 1 X 2 B Std. Error Unstandardized Coefficients Beta Standardized Coefficients t Sig. 两个自变量x1与x2的系数都是显著的,判定系数 R 2=0.879,回归方程为: y ˆ =-7976+3826x1-3700x2
§9.1自变量中含有定性变量的回归模型 这个结果表明,中等收入的家庭每增加1万元收入,平 均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少 于低学历的家庭,平均少3700元。 如果不引入家庭学历定性变量x2,仅用y对家庭年收入 x1做一元线性回归,得判定系数R2=0618,拟合效果不好
§9.1 自变量中含有定性变量的回归模型 这个结果表明,中等收入的家庭每增加1万元收入,平 均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少 于低学历的家庭,平均少3700元。 如果不引入家庭学历定性变量x2,仅用y对家庭年收入 x1做一元线性回归,得判定系数R2=0.618,拟合效果不好
§9.1自变量中含有定性变量的回归模型 家庭年收入x1,是连续型变量,它对回归的贡献也是 不可缺少的。如果不考虑家庭年收入这个自变量,13户 高学历家庭的平均年储蓄增加额为3009.31元,14户低 学历家庭的平均年储蓄增加额为5059.36元,这样会认 为高学历家庭每年的储蓄额比低学历的家庭平均少 5059.36-3009.31-=2050.05元,而用回归法算出的数值 是3824元,两者并不相等
§9.1 自变量中含有定性变量的回归模型 家庭年收入x1是连续型变量,它对回归的贡献也是 不可缺少的。如果不考虑家庭年收入这个自变量,13户 高学历家庭的平均年储蓄增加额为3009.31元,14户低 学历家庭的平均年储蓄增加额为5059.36元,这样会认 为高学历家庭每年的储蓄额比低学历的家庭平均少 5059.36-3009.31=2050.05元,而用回归法算出的数值 是3824元,两者并不相等
§9.1自变量中含有定性变量的回归模型 用回归法算出的高学历家庭每年的平均储蓄额比低学 历的家庭平均少3824元,这是在假设两者的家庭年收入相 等的基础上的储蓄差值,或者说是消除了家庭年收入的影 响后的差值,因而反映了两者储蓄额的真实差异。而直接 由样本计算的差值2050.05元是包含有家庭年收入影响在 内的差值,是虚假的差值。所调查的13户高学历家庭的平 均年收入额为3.8385万元,14户低学历家庭的平均年收入 额为3.4071万元,两者并不相等
§9.1 自变量中含有定性变量的回归模型 用回归法算出的高学历家庭每年的平均储蓄额比低学 历的家庭平均少3824元,这是在假设两者的家庭年收入相 等的基础上的储蓄差值,或者说是消除了家庭年收入的影 响后的差值,因而反映了两者储蓄额的真实差异。而直接 由样本计算的差值2050.05元是包含有家庭年收入影响在 内的差值,是虚假的差值。所调查的13户高学历家庭的平 均年收入额为3.8385万元,14户低学历家庭的平均年收入 额为3.4071万元,两者并不相等