第二章经典单方程计量经济学模型:一元线性回归模型 一、 内容提要 本章介绍了回归分析的基本思想与基本方法。首先,本章从总体回归模型与总体回归 函数、样本回归模型与样本回归函数这两组概念开始,建立了回归分析的基本思想。总体回 归函数是对总体变量间关系的定量表述,由总体回归模型在若干基本假设下得到,但它只是 建立在理论之上,在现实中只能先从总体中抽取一个样本,获得样本回归函数,并用它对总 体回归函数做出统计推断。 本章学习的一个重点是如何获取线性的样本回归函数,主要涉及到普通最小二乘法 (OLS)的学习与掌握。同时,也介绍了极大似然估计法(ML)以及矩估计法(MM)。 本章的另一个学习的重点是对样本回归函数能否代表总体回归函数进行统计推断,即 进行所谓的统计检验。统计检验包括两个方面,一是先检验样本回归函数与样本点的“拟合 优度”,第二是检验样本回归函数与总体回归函数的“接近”程度。后者又包括两个层次: 第一,检验解释变量对被解释变量是否存在着显著的线性影响关系,通过变量的t检验完成: 第二,检验回归函数与总体回归函数的“接近”程度,通过参数估计值的“区间检验”完成。 本章还有三方面的内容不容忽视。其一,若干基本假设。样本回归函数参数的估计、 对参数估计量的统计性质的分析以及所进行的统计推断都是建立在这些基本假设之上的。其 二,参数估计量统计性质的分析,包括小样本性质与大样本性质,尤其是无偏性、有效性与 一致性构成了对样本估计量优劣的最主要的衡量准则.Goss-markov定理表明OLS估计量是 最佳线性无偏估计量。其三,运用样本回归函数进行预测,包括被解释变量条件均值与个值 的预测、预测置信区间的计算及其变化特征等。 二、典型例题分析 例1、令Y表示一名妇女生育孩子的数目,X表示该妇女接受过教育的年数。生育率 对教育年数的简单回归模型为 Y=B。+BX+4
1 第二章 经典单方程计量经济学模型:一元线性回归模型 一、内容提要 本章介绍了回归分析的基本思想与基本方法。首先,本章从总体回归模型与总体回归 函数、样本回归模型与样本回归函数这两组概念开始,建立了回归分析的基本思想。总体回 归函数是对总体变量间关系的定量表述,由总体回归模型在若干基本假设下得到,但它只是 建立在理论之上,在现实中只能先从总体中抽取一个样本,获得样本回归函数,并用它对总 体回归函数做出统计推断。 本章学习的一个重点是如何获取线性的样本回归函数,主要涉及到普通最小二乘法 (OLS)的学习与掌握。同时,也介绍了极大似然估计法(ML)以及矩估计法(MM)。 本章的另一个学习的重点是对样本回归函数能否代表总体回归函数进行统计推断,即 进行所谓的统计检验。统计检验包括两个方面,一是先检验样本回归函数与样本点的“拟合 优度”,第二是检验样本回归函数与总体回归函数的“接近”程度。后者又包括两个层次: 第一,检验解释变量对被解释变量是否存在着显著的线性影响关系,通过变量的 t 检验完成; 第二,检验回归函数与总体回归函数的“接近”程度,通过参数估计值的“区间检验”完成。 本章还有三方面的内容不容忽视。其一,若干基本假设。样本回归函数参数的估计、 对参数估计量的统计性质的分析以及所进行的统计推断都是建立在这些基本假设之上的。其 二,参数估计量统计性质的分析,包括小样本性质与大样本性质,尤其是无偏性、有效性与 一致性构成了对样本估计量优劣的最主要的衡量准则。Goss-markov 定理表明 OLS 估计量是 最佳线性无偏估计量。其三,运用样本回归函数进行预测,包括被解释变量条件均值与个值 的预测、预测置信区间的计算及其变化特征等。 二、典型例题分析 例 1、令Y 表示一名妇女生育孩子的数目, X 表示该妇女接受过教育的年数。生育率 对教育年数的简单回归模型为 Y = β 0 + β1X + µ
(1)随机扰动项山包含什么样的因素?它们可能与教育水平相关吗? (2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。 解答: (1)收入、年龄、家庭状况、政府的相关政策等也是影响生育率的重要的因素,在上 述简单回归模型中,它们被包含在了随机扰动项之中。有些因素可能与增长率水平相关,如 收入水平与教育水平往往呈正相关、年龄大小与教育水平呈负相关等。 (2)当归结在随机扰动项中的重要影响因素与模型中的教育水平X相关时,上述回归 模型不能够揭示教育对生育率在其他条件不变下的影响,因为这时出现解释变量与随机扰动 项相关的情形,违背了基本假设。 例2.已知回归模型E=+N+4,式中E为某类公司一名新员工的起始薪金(元), N为所受教育水平(年)。随机扰动项4的分布未知,其他所有假设都满足。 (1)从直观及经济角度解释α和B。 (2)OLS估计量(和B满足线性性、无偏性及有效性吗?简单陈述理由。 (3)对参数的假设检验还能进行吗?简单陈述理由。 解答: (1)+BN为接受过N年教育的员工的总体平均起始薪金。当N为零时,平均薪金 为α,因此a表示没有接受过教育员工的平均起始薪金。B是每单位N变化所引起的E的 变化,即表示每多接受一年学校教育所对应的薪金增加值。 (2)OLS估计量α和仍B满足线性性、无偏性及有效性,因为这些性质的成立无需随 机扰动项山的正态分布假设。 (3)如果的分布未知,则所有的假设检验都是无效的。因为t检验与F检验是建立在 4的正态分布假设之上的。 例3、在例2中,如果被解释变量新员工起始薪金的计量单位由元改为100元,估计的 截距项与斜率项有无变化?如果解释变量所受教育水平的度量单位由年改为月,估计的截距 项与斜率项有无变化? 解答: 首先考察被解释变量度量单位变化的情形。以E*表示以百元为度量单位的薪金,则 E=E*×100=a+βN+4 由此有如下新模型 E*=(a/100)+(B/100)N+(4/100) 2
2 (1)随机扰动项 µ 包含什么样的因素?它们可能与教育水平相关吗? (2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。 解答: (1)收入、年龄、家庭状况、政府的相关政策等也是影响生育率的重要的因素,在上 述简单回归模型中,它们被包含在了随机扰动项之中。有些因素可能与增长率水平相关,如 收入水平与教育水平往往呈正相关、年龄大小与教育水平呈负相关等。 (2)当归结在随机扰动项中的重要影响因素与模型中的教育水平 X 相关时,上述回归 模型不能够揭示教育对生育率在其他条件不变下的影响,因为这时出现解释变量与随机扰动 项相关的情形,违背了基本假设。 例 2.已知回归模型 E = α + βN + µ ,式中 E 为某类公司一名新员工的起始薪金(元), N 为所受教育水平(年)。随机扰动项 µ 的分布未知,其他所有假设都满足。 (1)从直观及经济角度解释α 和 β 。 (2)OLS 估计量αˆ 和 β ˆ 满足线性性、无偏性及有效性吗?简单陈述理由。 (3)对参数的假设检验还能进行吗?简单陈述理由。 解答: (1)α + βN 为接受过 N 年教育的员工的总体平均起始薪金。当 N 为零时,平均薪金 为α ,因此α 表示没有接受过教育员工的平均起始薪金。β 是每单位 N 变化所引起的 E 的 变化,即表示每多接受一年学校教育所对应的薪金增加值。 (2)OLS 估计量αˆ 和仍 β ˆ 满足线性性、无偏性及有效性,因为这些性质的成立无需随 机扰动项 µ 的正态分布假设。 (3)如果 µ 的分布未知,则所有的假设检验都是无效的。因为 t 检验与 F 检验是建立在 µ 的正态分布假设之上的。 例 3、在例 2 中,如果被解释变量新员工起始薪金的计量单位由元改为 100 元,估计的 截距项与斜率项有无变化?如果解释变量所受教育水平的度量单位由年改为月,估计的截距 项与斜率项有无变化? 解答: 首先考察被解释变量度量单位变化的情形。以 E *表示以百元为度量单位的薪金,则 E = E *×100 = α + βN + µ 由此有如下新模型 E* = (α /100) + (β /100)N + (µ /100)
或 E*=*+B*N+山* 这里a*=α/100,B*=B/100。所以新的回归系数将为原始模型回归系数的1/100。 再考虑解释变量度量单位变化的情形。设N*为用月份表示的新员工受教育的时间长 度,则N*=12N,于是 E=a+N+4=a+BN*/12)+u 或 E=+(B/12)N*+4 可见,估计的截距项不变,而斜率项将为原回归系数的1/12。 例4、对没有截距项的一元回归模型 Y=B X+u 称之为过原点回归(regrission through the origin)。试证明 (1)如果通过相应的样本回归模型可得到通常的正规方程组 ∑e,=0 ∑e,X,=0 则可以得到B的两个不同的估计值:月=/仅,月=(∑X,X)/∑X)。 (2)在基本假设E(4)=0下,P,与B,均为无偏估计量。 (3)拟合线Y=B,X通常不会经过均值点(灭,了),但拟合线Y=B,X则相反。 (4)只有B,是B的OLS估计量。 解答: (1)由第一个正规方程∑,=0得 ∑化,-BX,)=0 或 ∑y,=B,∑X, 求解得 B=71x 由第2个正规方程∑X,(化,-B,X,)=0得 ∑X,Y,=B∑X好 求解得 B=(∑X,)∑X) 3
3 或 E* = α * +β * N + µ * 这里α* = α /100, β* = β /100 。所以新的回归系数将为原始模型回归系数的 1/100。 再考虑解释变量度量单位变化的情形。设 N *为用月份表示的新员工受教育的时间长 度,则 N *=12 N ,于是 E = α + βN + µ = α + β (N * /12) + µ 或 E = α + (β /12)N * +µ 可见,估计的截距项不变,而斜率项将为原回归系数的 1/12。 例 4、对没有截距项的一元回归模型 Yi = β1Xi + µi 称之为过原点回归(regrission through the origin)。试证明 (1)如果通过相应的样本回归模型可得到通常的正规方程组 ∑ ∑ = = 0 0 i i i e X e 则可以得到 β1的两个不同的估计值: 1 = Y X ~ β , = (∑ ) (∑ ) 2 1 ˆ β Xi Yi Xi 。 (2)在基本假设 ( ) 0 E µi = 下, 1 ~ β 与 1 ˆ β 均为无偏估计量。 (3)拟合线Yˆ = β ˆ 1X 通常不会经过均值点(X ,Y ) ,但拟合线Y 1X ~ ~ = β 则相反。 (4)只有 1 ˆ β 是 β1的 OLS 估计量。 解答: (1)由第一个正规方程 ∑ = 0 t e 得 ) 0 ~ ( ∑ Yt − β1Xt = 或 ∑Yt = 1∑Xt ~ β 求解得 Y / X ~ β1 = 由第 2 个正规方程 ) 0 ˆ ( ∑Xt Yt − β1Xt = 得 ∑ = ∑ 2 1 ˆ t t Xt Y β X 求解得 ( )/( ) ˆ 2 β1 = ∑Xt Yt ∑Xt
(2)对于B=了/x,求期望 Ba)=B/=7AX,+4】 =B)+4】 =京B=A 这里用到了X,的非随机性。 对于月,=(∑XY)(∑X),求期望 E(B)=E(∑X,YI∑X?) =(∑∑x)=(∑X,aX,+41 =(2xa2)+(xF∑X,E)=A (3)要想拟合值°=Ax通过点(,刃,AT必级等于7.但店x.X'x。 ∑X 通常不等于了。这就意味着点(,)不太可能位于直线Y=BX上。 相反地,由于x-7,所以直线=序X经过点(X,T)。 (4)OLS方法要求残差平方和最小 Min RSS=∑e=∑(g,-B,x,)2 关于B,求偏导得 ORSS-2E(Y,-Ax,X-x,)-0 a8, 即 ∑X,(化,-BX,)=0 月=(∑X,/∑x) 可见B,是OLS估计量。 例5.假设模型为Y,=a+X,+4,。给定n个观察值(X,Y),(X2,Y2),…, (Xm,Y),按如下步骤建立B的一个估计量:在散点图上把第1个点和第2个点连接起来 4
4 (2)对于 Y / X ~ β1 = ,求期望 1 1 1 1 1 [ { ) ( )] 1 ( )] 1 [ 1 ) ( ) ~ ( β β µ β β β µ = = = + = = + X X E n X E X X n E X E E Y X t t t t 这里用到了 Xt 的非随机性。 对于 ( )/( ) ˆ 2 β1 = ∑Xt Yt ∑Xt ,求期望 ) ( / ) ˆ ( 2 E β1 = E ∑Xt Yt ∑Xt 2 1 2 2 1 2 2 1 ) ( ) 1 ) ( ) ( 1 ( ) [ ( )] 1 ) ( ) ( 1 ( β µ β β µ = + = = = + ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ t t t t t t t t t t t t X E X X X E X X X E X Y X (3)要想拟合值Yˆ = β ˆ 1X 通过点(X ,Y ) , β ˆ 1X 必须等于Y 。但 X X X Y X t t t ∑ ∑= 1 2 β ˆ , 通常不等于Y 。这就意味着点(X ,Y ) 不太可能位于直线Yˆ = β ˆ 1X 上。 相反地,由于 1X = Y ~ β ,所以直线Y 1X ~ ˆ = β 经过点(X ,Y ) 。 (4)OLS 方法要求残差平方和最小 Min = ∑ = ∑ − 2 1 2 ) ˆ ( t Yt Xt RSS e β 关于 1 ˆ β 求偏导得 )( ) 0 ˆ 2 ( ˆ 1 1 = − − = ∂ ∂ ∑ Yt Xt Xt RSS β β 即 ) 0 ˆ ( ∑Xt Yt − β1Xt = = (∑ ) (∑ ) 2 1 ˆ β Xi Yi Xi 可见 1 ˆ β 是 OLS 估计量。 例 5.假设模型为Yt = α + βXt + µt 。给定 n 个观察值 ( , ) X1 Y1 , ( , ) X 2 Y2 ,…, ( , ) X n Yn ,按如下步骤建立 β 的一个估计量:在散点图上把第 1 个点和第 2 个点连接起来
并计算该直线的斜率:同理继续,最终将第1个点和最后一个点连接起来并计算该条线的斜 率:最后对这些斜率取平均值,称之为B,即B的估计值。 (1)画出散点图,给出B的几何表示并推出代数表达式。 (2)计算B的期望值并对所做假设进行陈述。这个估计值是有偏的还是无偏的?解 释理由。 (3)证明为什么该估计值不如我们以前用OLS方法所获得的估计值,并做具体解释。 解答: (1)散点图如图2-1所示。 (X2,Y2) (Xn,Yn) (X,Y) 图2-1 首先计算每条直线的斜率并求平均斜率。连接(X,Y)和(X,Y,)的直线斜率为 (Y,-Y)(X,-X)。由于共有n-1条这样的直线,因此 =是2-与] n-1台X,-X (2)因为X非随机且E(4,)=0,因此 -长]=a+x,+,)-g+x+=B+长-A与]=B X,-X X,-X1 X,-X 这意味着求和中的每一项都有期望值B,所以平均值也会有同样的期望值,则表明是无偏 的。 (3)根据高斯一马尔可夫定理,只有B的OLS估计量是最佳线性无偏估计量,因此, 这里得到的B的有效性不如B的OLS估计量,所以较差。 例6.对于人均存款与人均收入之间的关系式S,=+Y,+4,使用美国36年的年度数 据得如下估计模型,括号内为标准差: S,=384.105+0.067Y, (151.105)(0.011) 5
5 并计算该直线的斜率;同理继续,最终将第 1 个点和最后一个点连接起来并计算该条线的斜 率;最后对这些斜率取平均值,称之为 β ˆ ,即 β 的估计值。 (1)画出散点图,给出 β ˆ 的几何表示并推出代数表达式。 (2)计算 β ˆ 的期望值并对所做假设进行陈述。这个估计值是有偏的还是无偏的?解 释理由。 (3)证明为什么该估计值不如我们以前用 OLS 方法所获得的估计值,并做具体解释。 解答: (1)散点图如图 2-1 所示。 (X2,Y2) (Xn,Yn) (X1,Y1) 图 2-1 首先计算每条直线的斜率并求平均斜率。连接 ( , ) X1 Y1 和 ( , ) Xt Yt 的直线斜率为 ( )/( ) Yt −Y1 Xt − X1 。由于共有n -1 条这样的直线,因此 [ ] 1 1 ˆ 2 1 1 ∑= − − − = n t t t X X Y Y n β (2)因为 X 非随机且 E(µt ) = 0 ,因此 β µ µ β α β µ α β µ = − − = + − + + − + + = − − ] [ ] ( ) ( ) [ ] [ 1 1 1 1 1 1 1 X X E X X X X E X X Y Y E t t t t t t t 这意味着求和中的每一项都有期望值 β ,所以平均值也会有同样的期望值,则表明是无偏 的。 (3)根据高斯-马尔可夫定理,只有 β 的 OLS 估计量是最佳线性无偏估计量,因此, 这里得到的 β ˆ 的有效性不如 β 的 OLS 估计量,所以较差。 例 6.对于人均存款与人均收入之间的关系式 St = α + βYt + µt 使用美国 36 年的年度数 据得如下估计模型,括号内为标准差: (151.105) (0.011) 384.105 0.067 ˆ St = + Yt
R2=0.538 (1)B的经济解释是什么? (2)α和B的符号是什么?为什么?实际的符号与你的直觉一致吗?如果有冲突的话, 你可以给出可能的原因吗? (3)对于拟合优度你有什么看法吗? (4)检验是否每一个回归系数都与零显著不同(在1%水平下)。同时对零假设和备择假 设、检验统计值、其分布和自由度以及拒绝零假设的标准进行陈述。你的结论是什么? 解答: (1)阝为收入的边际储蓄倾向,表示人均收入每增加1美元时人均储蓄的预期平均变 化量。 (2)由于收入为零时,家庭仍会有支出,可预期零收入时的平均储蓄为负,因此符 号应为负。储蓄是收入的一部分,且会随着收入的增加而增加,因此预期阝的符号为正。 实际的回归式中,B的符号为正,与预期的一致。但截距项为正,与预期不符。这可能是 由于模型的错误设定造成的。如家庭的人口数可能影响家庭的储蓄形为,省略该变量将对截 距项的估计产生影响:另一种可能就是线性设定可能不正确。 (3)拟合优度刻画解释变量对被解释变量变化的解释能力。模型中53.8%的拟合优度, 表明收入的变化可以解释储蓄中53.8%的变动。 (4)检验单个参数采用t检验,零假设为参数为零,备择假设为参数不为零。双变量 情形下,在零假设下t分布的自由度为n-2=36-2=34。由t分布表知,双侧1%下的临界值位 于2.750与2.704之间。斜率项计算的t值为0.067/0.011=6.09:截距项计算的t值为 384.105/151.105=2.54。可见斜率项计算的t值大于临界值,截距项小于临界值,因此拒绝 斜率项为零的假设,但不拒绝截距项为零的假设。 附录:一些理论结果的证明 1、令B,x和B,分别为Y对X回归和X对Y回归中的斜率,证明 BxBx =r2 其中r为X与Y之相的线性相关系数。 证明:容易知道,在上述两回归中斜率项分别为 6
6 2 R =0.538 (1) β 的经济解释是什么? (2)α 和 β 的符号是什么?为什么?实际的符号与你的直觉一致吗?如果有冲突的话, 你可以给出可能的原因吗? (3)对于拟合优度你有什么看法吗? (4)检验是否每一个回归系数都与零显著不同(在 1%水平下)。同时对零假设和备择假 设、检验统计值、其分布和自由度以及拒绝零假设的标准进行陈述。你的结论是什么? 解答: (1) β 为收入的边际储蓄倾向,表示人均收入每增加 1 美元时人均储蓄的预期平均变 化量。 (2)由于收入为零时,家庭仍会有支出,可预期零收入时的平均储蓄为负,因此α 符 号应为负。储蓄是收入的一部分,且会随着收入的增加而增加,因此预期 β 的符号为正。 实际的回归式中, β 的符号为正,与预期的一致。但截距项为正,与预期不符。这可能是 由于模型的错误设定造成的。如家庭的人口数可能影响家庭的储蓄形为,省略该变量将对截 距项的估计产生影响;另一种可能就是线性设定可能不正确。 (3)拟合优度刻画解释变量对被解释变量变化的解释能力。模型中 53.8%的拟合优度, 表明收入的变化可以解释储蓄中 53.8 %的变动。 (4)检验单个参数采用 t 检验,零假设为参数为零,备择假设为参数不为零。双变量 情形下,在零假设下 t 分布的自由度为 n-2=36-2=34。由 t 分布表知,双侧 1%下的临界值位 于 2.750 与 2.704 之间。斜率项计算的 t 值为 0.067/0.011=6.09;截距项计算的 t 值为 384.105/151.105=2.54。可见斜率项计算的 t 值大于临界值,截距项小于临界值,因此拒绝 斜率项为零的假设,但不拒绝截距项为零的假设。 附录:一些理论结果的证明 1、令 β YX ˆ 和 β XY ˆ 分别为Y 对 X 回归和 X 对Y 回归中的斜率,证明 ˆ ˆ 2 r β YX β XY = 其中r 为 X 与Y 之相的线性相关系数。 证明:容易知道,在上述两回归中斜率项分别为
于是 .·爱器是以 2、记样本回归模型为Y,=B。+月,X,+e,试证明: 1)估计的Y的均值等于实测的Y的均值:F=了 2)残差和为零,从而残差的均值为零:∑e,=0,e=0 3)残差项与X不相关:∑e,X,=0 4)残差项与估计的Y不相关: ∑e,i=0: 证明:1)由于 ,=B。+B,X,=(-B)+BX,=7+B,(X,-) 故 F=7+月∑(X,-X)=T 这里用到了∑x,=∑(X,-)=0 2)由一元回归中正规方程组中的第一个方程 ∑化,-B。-月X)=0 知: ∑e,=0, e=∑e,-0 3)由一元回归中正规方程组中的第二个方程 ∑g,-B。-B,X,)X,=0 知: ∑e,X,=0 4)由2)及3)易知 ∑e,-∑e,(。+月X)=B∑e,+B∑e,X=0 3、对一元线性回归模型Y,=阝。+阝,X,+4,试证明普通最小二乘估计量B在所有 线性无偏估计量中具有最小方差性。 1
7 ∑ ∑= 2 ˆ i i i YX x x y β , ∑ ∑= 2 ˆ i i i XY y x y β 于是 ( ) 2 2 2 2 2 2 ˆ ˆ r x y x y y x y x x y i i i i i i i i i i YX XY = = = ∑ ∑ ∑ ∑ ∑ ∑ ∑ β β 2、记样本回归模型为 i i i Y = + X + e 0 1 ˆ ˆ β β ,试证明: 1)估计的Y 的均值等于实测的Y 的均值:Yˆ = Y 2)残差和为零,从而残差的均值为零:∑ = 0 i e ,e = 0 3)残差项与 X 不相关:∑ei Xi = 0 4)残差项与估计的Y 不相关: ∑ei Yˆ i = 0; 证明:1)由于 ( ) ˆ ˆ ) ˆ ( ˆ ˆ ˆ Yi = β 0 + β1Xi = Y − β1X + β1Xi = Y + β1 Xi − X 故 Y Y Xi X Y n = + ∑( − ) = ˆ ˆ 1 β1 这里用到了∑x = ∑(X − X ) = 0 i i 2)由一元回归中正规方程组中的第一个方程 ∑ − − ) = 0 ˆ ˆ (Yi β 0 β1Xi 知: ∑ = 0 i e , 0 1 = ∑ i = n e e 3)由一元回归中正规方程组中的第二个方程 ∑ − − ) = 0 ˆ ˆ (Yi β 0 β1Xi Xi 知: ∑ei Xi = 0 4)由 2)及 3)易知 0 ˆ ˆ ) ˆ ˆ ( ˆ ∑ei Yi = ∑ei β 0 + β1Xi = β 0∑ei + β1∑ei Xi = 3、对一元线性回归模型Yi = β 0 + β1Xi + µi ,试证明普通最小二乘估计量 1 β ˆ 在所有 线性无偏估计量中具有最小方差性
证:设B是其他方法得到的关于B,的线性无偏估计量: B=∑cY, 其中,c,=k,+d,d,为不全为零的常数,于是 E(B)=E(∑cY)=∑c,E(Y)=∑c,(B。+BX,)=B∑c,+B∑cX, 由B的无偏性,即E(月)=B,可知: B∑c,+B∑cX,=B 已知∑c,=0,从而∑c,X,=1 月的方差var()=var(∑c,Y)=∑var(Y,)=∑cvar(4,)=∑co =∑k+d,)产o2=∑o2+∑do2+2o2∑kd 由于∑k,d=∑k,(c,-k)=∑kc,-∑k 京-8:2-女0 故 aa)=∑5o+∑4o20+oΣ4=vaa)+g∑4 因为 ∑d≥0 所以 var(B)≥var(B) 当d,=0,(i=1,2…,n)等号成立,此时,C,=k,B就是OLS估计量B。 人、试证明一元线性回归模型随机扰动项“的方差。2的无偏估计量为后_∑g n-2 证:给定一组样本{X,Y,},容易写出模型Y,=阝。+PX,+4,的离差形式为: y:=Bx,+(4-回) 根据样本回归函数的离差形式: =Bx 易知 8
8 证:设 * 1 β ˆ 是其他方法得到的关于 β1的线性无偏估计量: = ∑ i Yi c * 1 β ˆ 其中, i i di c = k + , i d 为不全为零的常数,于是 = ∑ i i = ∑ i i = ∑ i + i = ∑ i + ∑ i Xi E E c Y c E Y c X c c 0 1 0 1 * 1 ) ( ) ( ) ( ) ˆ (β β β β β 由 * 1 β ˆ 的无偏性,即 1 * 1 ) ˆ E(β = β 可知: β 0∑ i + β1∑ i Xi = β1 c c 已知 ∑ = 0 i c , 从而 ∑ = 1 i Xi c * 1 β ˆ 的方差 = ∑ = ∑ = ∑ = ∑ * 2 2 2 2 1 ) var( ) var( ) var( ) ˆ var(β ci Yi ci Yi ci µ i ci σ =∑ i + i = ∑ i +∑ i + ∑ i i k d k d k d 2 2 2 2 2 2 2 ( ) σ σ σ 2σ 由于 ∑ = ∑ − = ∑ −∑ 2 ( ) i i i i i i i i k d k c k k c k = ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − = − = − − = 0 1 1 2 2 2 2 2 2 i i i i i i i i i i i x x k x X c X c c k x x 故 ∑ ∑ ∑ ∑ ∑ = + = + = + 2 2 1 2 2 2 2 * 2 2 2 2 1 ) ˆ var( 1 ) ˆ var( i i i i i d d x β k σ d σ σ σ β σ 因为 ∑ ≥ 0 2 i d 所以 ) ˆ ) var( ˆ var( 1 * β1 ≥ β 当 di = 0 ,(i = 1,2, n )等号成立,此时, i i c = k , * 1 β ˆ 就是 OLS 估计量 1 β ˆ 。 4、 试证明一元线性回归模型随机扰动项µ 的方差 2 σ 的无偏估计量为 2 ˆ 2 2 − = ∑ n ei σ 。 证:给定一组样本{ Xi Yi , },容易写出模型Yi = β 0 + β1Xi + µi 的离差形式为: ( ) yi = β1 xi + µ i − µ 根据样本回归函数的离差形式: i i y x1 ˆ ˆ = β 易知
e3-2y,-,)2 =2(B,-B)x,+(4,-) =2(B-B)2x+2(B-B)x,(4,-)+(4,-四)2) =B-月,)2x+(4-m)2-22(2k4,)x,(4-m) -2(B,-B)2x+2(4,-可)2-22x,4,k4,+2x,k,4 =XR-Ax+24,-m2-22x4,2 x4 因为 ∑A-)x=∑am)=g E∑(4,-m2=E(∑4-2π∑4,+m=E(∑4-m2)=n-l1)o2 器… ∑了 所以 E(∑e)=o2+(n-10o2-2o2=(n-2)o2 从而 E2)=2 n-2 对一元线性回归模型Y=A+AX+4,试证明CoA,)=一分。一 证: Cov(B。,B)=E(B。-B(B,-B)=E(B。-EB)(B-E(B) =E(辽-B,x-(了-XE(B)(B-E(B,) =-E(B,-E(B)B,-E(B) =-E(B,-E(B,)》2=-xvar(B) 9
9 2 2 2 2 1 1 2 2 2 1 1 2 2 2 1 1 2 1 1 2 2 1 1 2 1 1 2 2 ) ( ) 2 ˆ ( ) ( ) 2 2 ˆ ( ) ( ) 2 ( ) ( ) ˆ ) ( ) ( ) ) ˆ ) 2( ˆ (( ) ( )) ˆ (( ( ˆ ) i x x x x x x k x k x k x x x x e y y i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i Σ Σ = Σ − + Σ − − Σ = Σ − + Σ − − Σ Σ + Σ Σ = Σ − + Σ − − Σ Σ − = Σ − + − − + − = Σ − + − Σ = Σ − µ β β µ µ µ β β µ µ µ µ µ µ β β µ µ µ µ µ β β β β µ µ µ µ β β µ µ 因为 2 2 2 2 1 2 2 2 1 1 ) ˆ ) var( ˆ ( σ σ β − β = β = = ∑ ∑ ∑ ∑ i i i i x x E x x ∑ − = ∑ − ∑ + = ∑ − = − 2 2 2 2 2 E (µ i µ) E( µ i 2µ µ i nµ) E( µ i nµ ) (n 1)σ ( ) 2 2 2 2 2 2 2 ( )( ) σ µ µµ µ = + = ∑ ∑ ∑ ∑ ∑ ≠ i i j i i i i j j i i i x x x x E x x E 所以 2 2 2 2 2 E(∑ei ) = σ + (n −1)σ − 2σ = (n − 2)σ 从而 2 2 ) 2 ( = σ − Σ n e E i 5、 对一元线性回归模型Yi = β 0 + β1Xi + µi ,试证明 ∑ = − 2 2 0 1 ) ˆ , ˆ ( i x X Cov σ β β 。 证: ∑ = − = − − = − = − − − = − − − − = − − = − − 2 2 1 2 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 1 1 ) ˆ )) var( ˆ ( ˆ ( )) ˆ ))( ( ˆ ( ˆ ( )) ˆ )))( ( ˆ ( ( ˆ ( )) ˆ ))( ( ˆ ( ˆ ) ( ˆ )( ˆ ) ( ˆ , ˆ ( i x X XE E X XE E E E Y X Y XE E Cov E E E E σ β β β β β β β β β β β β β β β β β β β β β
四、补充练习题 2-1.解释下列概念: 1)总体回归函数 2)样本回归函数 3)随机的总体回归函数 4)线性回归模型 5)随机误差项4 6)残差项e 7)条件期望 8)回归系数或回归参数 9)回归系数的估计量 10)最小二乘(平方)法 11)最大似然法 12)估计量的标准差 13)总离差平方和 14)回归平方和 15)残差平方和 16)协方差 17)拟合优度检验 18)t检验 2-2.判断正误并说明理由: 1)随机误差项4,和残差项e,是一回事 2)总体回归函数给出了对应于每一个自变量的因变量的值 3)线性回归模型意味着变量是线性的 4)在线性回归模型中,解释变量是原因,被解释变量是结果 5)随机变量的条件均值与非条件均值是一回事 2-3.回答下列问题: 1)总体方差与参数估计方差的区别与联系。 2)随机误差项4,和残差项e,的区别与联系。 3)根据最小二乘原理,所估计的模型已经使得拟合误差达到最小,为什么还要讨论模 型的拟合优度问题? 4)为什么用决定系数评价拟合优度,而不用残差平方和作为评价标准? 5)回归分析与相关分析的区别与联系。 6)最小二乘法和最大似然法的基本原理各是什么?说明它们有何区别? 7)为什么要进行解释变量的显著性检验? 8)是否任何两个变量之间的关系,都可以用两变量线性回归模型进行分析? 0
10 四、补充练习题 2-1.解释下列概念: 1)总体回归函数 2)样本回归函数 3)随机的总体回归函数 4)线性回归模型 5)随机误差项 µi 6)残差项 i e 7)条件期望 8)回归系数或回归参数 9)回归系数的估计量 10)最小二乘(平方)法 11)最大似然法 12)估计量的标准差 13)总离差平方和 14)回归平方和 15)残差平方和 16)协方差 17)拟合优度检验 18)t 检验 2-2.判断正误并说明理由: 1) 随机误差项 µi 和残差项 i e 是一回事 2) 总体回归函数给出了对应于每一个自变量的因变量的值 3) 线性回归模型意味着变量是线性的 4) 在线性回归模型中,解释变量是原因,被解释变量是结果 5) 随机变量的条件均值与非条件均值是一回事 2-3.回答下列问题: 1) 总体方差与参数估计方差的区别与联系。 2) 随机误差项 µi 和残差项 i e 的区别与联系。 3) 根据最小二乘原理,所估计的模型已经使得拟合误差达到最小,为什么还要讨论模 型的拟合优度问题? 4) 为什么用决定系数 2 R 评价拟合优度,而不用残差平方和作为评价标准? 5) 回归分析与相关分析的区别与联系。 6) 最小二乘法和最大似然法的基本原理各是什么?说明它们有何区别? 7) 为什么要进行解释变量的显著性检验? 8) 是否任何两个变量之间的关系,都可以用两变量线性回归模型进行分析?