§23一元线性回归模型的统 计检验 一、拟合优度检验 、变量的显著性检验 三、参数的置信区间
§2.3 一元线性回归模型的统 计检验 一、拟合优度检验 二、变量的显著性检验 三、参数的置信区间
回归分析是要通过样本所估计的参数来代替总 体的真实参数,或者说是用样本回归线代替总 体回归线。 尽管从统计性质上已知,如果有足够多的重 复抽样,参数的估计值的期望(均值)就等 于其总体的参数真值,但在一次抽样中,估计 值不一定就等于该真值 那么,在一次抽样中,参数的估计值与真值 的差异有多大,是否显著,这就需要进一步进 行统计检验。 主要包括拟合优度检验、变量的显著性检验 及参数的区间估计
• 回归分析是要通过样本所估计的参数来代替总 体的真实参数,或者说是用样本回归线代替总 体回归线。 • 尽管从统计性质上已知,如果有足够多的重 复 抽样,参数的估计值的期望(均值)就等 于其总体的参数真值,但在一次抽样中,估计 值不一定就等于该真值。 • 那么,在一次抽样中,参数的估计值与真值 的差异有多大,是否显著,这就需要进一步进 行统计检验。 • 主要包括拟合优度检验、变量的显著性检验 及参数的区间估计
拟合优度检验 拟合优度检验:对样本回归直线与样本 观测值之间拟合程度的检验 度量拟合优度的指标:判定系数(可决 系数)R2 问题:采用普通最小二乘估计方法,已 经保证了模型最好地拟合了样本观测值, 为什么还要检验拟合程度?
一、拟合优度检验 拟合优度检验:对样本回归直线与样本 观测值之间拟合程度的检验。 度量拟合优度的指标:判定系数(可决 系数)R2 问题:采用普通最小二乘估计方法,已 经保证了模型最好地拟合了样本观测值, 为什么还要检验拟合程度?
1、总离差平方和的分解 已知由一组样本观测值(X;Y1),i=1,2.n 得到如下样本回归直线 Y=B0+ B 而Y的第个观测值与样本均值的离差y=(2-) 可分解为两部分之和 =y1-Y=(-)+(Y1-Y)=en+y
1、总离差平方和的分解 已知由一组样本观测值(Xi ,Yi),i=1,2…,n 得到如下样本回归直线 Yi 0 1 Xi ˆ ˆ ˆ = + i i i i i i i y Y Y Y Y Y Y ) e y ˆ ˆ ) ( ˆ = − = ( − + − = +
et=来自残差 SRE =来自回归 X 1=(-1)是样本回归拟合值与观测值的平均值之差,可 认为是由回归直线解释的部分; e1=(1-)是实际观测值与回归拟合值之差,是回归直线 不能解释的部分。 如果YY;即实际观测值落在样本回归“线”上,则拟合最好 认为,“离差”全部来自回归线,而与“残差”无关
如果Yi=Ŷi 即实际观测值落在样本回归“线”上,则拟合最好。 可认为,“离差”全部来自回归线,而与“残差”无关
对于所有样本点,则需考虑这些点与样本均值离 差的平方和,可以证明: ∑y2=∑的+∑:+2∑ ∑计+∑ 记TSS=∑y2=∑(-)2总体平方和( Total sum of Squares) ESS= ∑=∑(-1)回归平方和( Explained Sum of Squares RS=∑e2=∑(x-)残差平方和( Residual Sum of Squares
对于所有样本点,则需考虑这些点与样本均值离 差的平方和,可以证明: 记 = = − 2 2 TSS y (Y Y ) i i 总体平方和(Total Sum of Squares) = = − 2 2 ) ˆ ESS y ˆ i (Yi Y 回归平方和(Explained Sum of Squares) = = − 2 2 ) ˆ ( i Yi Yi RSS e 残差平方和(Residual Sum of Squares )
TSS=ESS+RSS Y的观测值围绕其均值的总离差( total variation) 可分解为两部分:一部分来自回归线(ESS),另一部 分则来自随机势力(RSS) 在给定样本中,TSS不变, 如果实际观测点离样本回归线越近,则ESS在 TSS中占的比重越大,因此 拟合优度:回归平方和ESS/Y的总离差TSs
TSS=ESS+RSS Y的观测值围绕其均值的总离差(total variation) 可分解为两部分:一部分来自回归线(ESS),另一部 分则来自随机势力(RSS)。 在给定样本中,TSS不变, 如果实际观测点离样本回归线越近,则ESS在 TSS中占的比重越大,因此 拟合优度:回归平方和ESS/Y的总离差TSS
2、可决系数R2统计量 ESs 1- S TSS TSS 称R2为(样本)可决系数判定系数( coefficient of determination) 可决系数的取值范围:[0,1 R2越接近1,说明实际观测点离样本线越近,拟 合优度越高
TSS RSS TSS ESS 记 R = =1− 2 2、可决系数R2统计量 称 R2 为(样本)可决系数/判定系数(coefficient of determination)。 可决系数的取值范围:[0,1] R2越接近1,说明实际观测点离样本线越近,拟 合优度越高
在实际计算可决系数时,在β1已经估计出后: R=Bi ∑x2 在例21.1的收入消费支出例中, R2=B台 ∑x2(0.7732×7425000 =0.9766 4590020 注:可决系数是一个非负的统计量。它也是 随着抽样的不同而不同。为此,对可决系数的统 计可靠性也应进行检验,这将在第3章中进行
在实际计算可决系数时,在 1 ˆ 已经估计出后: = 2 2 2 1 2 ˆ i i y x R 在例2.1.1的收入-消费支出例中, 0.9766 4590020 (0.777) 7425000 ˆ 2 2 2 2 1 2 = = = i i y x R 注:可决系数是一个非负的统计量。它也是 随着抽样的不同而不同。为此,对可决系数的统 计可靠性也应进行检验,这将在第3章中进行
、变量的显著性检验 回归分析是要判断解释变量X是否是被解释变 量Y的一个显著性的影响因素 在一元线性模型中,就是要判断X是否对Y具有 显著的线性性影响。这就需要进行变量的显著性 检验。 变量的显著性检验所应用的方法是数理统计学 中的假设检验。 计量经计学中,主要是针对变量的参数真值是 否为零来进行显著性检验的
二、变量的显著性检验 回归分析是要判断解释变量X是否是被解释变 量Y的一个显著性的影响因素。 在一元线性模型中,就是要判断X是否对Y具有 显著的线性性影响。这就需要进行变量的显著性 检验。 变量的显著性检验所应用的方法是数理统计学 中的假设检验。 计量经计学中,主要是针对变量的参数真值是 否为零来进行显著性检验的