第八章直线回归与相关 前面各章我们讨论的问题,都只涉及到一个变量,如体重、日增重或发病率。但是,由 于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究 两个或两个以上变量间的关系。变量间的关系有两类,一类是变量间存在着完全确定性的关 系,可以用精确的数学表达式来表示,如长方形的面积(S)与长(a)和宽(b)的关系可 以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确 地计算出另一个变量的值,这类变量间的关系称为函数关系。另一类是变量间关系不存在完 全的确定性关系,不能用精确的数学公式来表示,如人的身高与体重的关系;仔猪初生重与 断奶重的关系:猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在 着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类 关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关 系的变量称为相关变量 相关变量间的关系一般分为两种,一种是因果关系,即一个变量的变化受另一个或几个 变量的影响,如仔猪的生长速度受遗传、营养、饲养管理等因素的影响,子女的身高受父母 身高的影响:另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身 高和体重之间的关系,兄弟身高之间的关系等都属于平行关系。变量间的关系及分析方法归 纳如下 函数关系—有精确的数学表达式 (确定性的关系) 直线回归分析 元回归分析 变量间的关系 因果关系 曲线回归分析 (回归分析 多元线性回归分析 多元回归分析 相关关系 元‖线性回归分析 (非确定性的关系 简单相关分析——直线相关分析 平行关系 复相关分析 (相关分析)多元相关分析 偏相关分析 统计学上采用回归分析( regression analysis研究呈因果关系的相关变量间的关系。表 示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量 与一个依变量的回归分析称为一元回归分析:研究“多因一果”,即多个自变量与一个依变 量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种 多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。回归分析的任务是揭示 出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程, 由自变量(原因)来预测、控制依变量(结果)。 统计学上采用相关分析( correlation analysis研究呈平行关系的相关变量之间的关系。对 两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析):对多个变量 进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析:研究其余变量保
141 第八章 直线回归与相关 前面各章我们讨论的问题,都只涉及到一个变量,如体重、日增重或发病率。但是,由 于客观事物在发展过程中相互联系、相互影响,因而在畜牧、水产等试验研究中常常要研究 两个或两个以上变量间的关系。变量间的关系有两类,一类是变量间存在着完全确定性的关 系,可以用精确的数学表达式来表示,如长方形的面积(S)与长(a)和宽(b)的关系可 以表达为:S=ab。它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确 地计算出另一个变量的值,这类变量间的关系称为函数关系。另一类是变量间关系不存在完 全的确定性关系,不能用精确的数学公式来表示,如人的身高与体重的关系;仔猪初生重与 断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等,这些变量间都存在 着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类 关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关 系的变量称为相关变量。 相关变量间的关系一般分为两种,一种是因果关系,即一个变量的变化受另一个或几个 变量的影响,如仔猪的生长速度受遗传、营养、饲养管理等因素的影响,子女的身高受父母 身高的影响;另一种是平行关系,即两个以上变量之间共同受到另外因素的影响,如人的身 高和体重之间的关系,兄弟身高之间的关系等都属于平行关系。变量间的关系及分析方法归 纳如下: 函数关系 有精确的数学表达式 (确定性的关系) 直线回归分析 一元回归分析 变量间的关系 因果关系 曲线回归分析 (回归分析) 多元线性回归分析 多元回归分析 相关关系 多元非线性回归分析 (非确定性的关系) 简单相关分析—— 直线相关分析 平行关系 复相关分析 (相关分析) 多元相关分析 偏相关分析 统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关系。表 示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量 与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变 量的回归分析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种; 多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。回归分析的任务是揭示 出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程, 由自变量(原因)来预测、控制依变量(结果)。 统计学上采用相关分析(correlation analysis)研究呈平行关系的相关变量之间的关系。对 两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析);对多个变量 进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保
持不变的情况下两个变量间的线性相关称为偏相关分析。在相关分析中,变量无自变量和依 变量之分。相关分析只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相 关的程度,不能用一个或多个变量去预测、控制另一个变量的变化,这是回归分析与相关分 析区别的关键所在。但是二者也不能截然分开,因为由回归分析可以获得相关的一些重要信 息,由相关分析也能获得回归的一些重要信息。 本章先介绍直线回归与相关分析 第一节直线回归 、直线回归方程的建立 对于两个相关变量,一个变量用符号x表示,另一个变量用y表示,如果通过试 验或调查获得两个变量的成对观测值,可表示为(x,y),(x,y2),……,(xn,m)。为 了直观地看出x和y间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图 (见图8-1)。 (b) 图8-1(x,y)的散点图 从散点图(图8-1)可以看出:①两个变量间关系的性质(是正相关还是负相关)和程 度(是相关密切还是不密切);②两个变量间关系的类型,是直线型还是曲线型:③是否有 异常观测值的干扰。散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间 的规律性,还必须根据观测值将其内在关系定量地表达出来 如果两个相关变量间的关系是直线关系,根据n对观测值所描出的散点图,如图8-1(c) 和图8-1(d)。如果把变量y与x内在联系的总体直线回归方程记为y=a+βx,由于依变 量的实际观测值总是带有随机误差,因而实际观测值y可表示为 y=x1+所x1+E1( 其中E;为相互独立,且都服从N(0,σ2)的随机变量。这就是直线回归的数学模型。我们 142
142 持不变的情况下两个变量间的线性相关称为偏相关分析。在相关分析中,变量无自变量和依 变量之分。相关分析只能研究两个变量之间相关的程度和性质或一个变量与多个变量之间相 关的程度,不能用一个或多个变量去预测、控制另一个变量的变化,这是回归分析与相关分 析区别的关键所在。但是二者也不能截然分开,因为由回归分析可以获得相关的一些重要信 息,由相关分析也能获得回归的一些重要信息。 本章先介绍直线回归与相关分析。 第一节 直线回归 一、直线回归方程的建立 对于两个相关变量,一个变量用符号 x 表示,另一个变量用 y 表示,如果通过试 验或调查获得两个变量的成对观测值,可表示为(x1,y1),(x2,y2),……,(xn,yn)。为 了直观地看出 x 和 y 间的变化趋势,可将每一对观测值在平面直角坐标系描点,作出散点图 (见图 8-1)。 从散点图(图 8-1)可以看出:①两个变量间关系的性质(是正相关还是负相关)和程 度(是相关密切还是不密切);②两个变量间关系的类型,是直线型还是曲线型;③是否有 异常观测值的干扰。散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间 的规律性,还必须根据观测值将其内在关系定量地表达出来。 如果两个相关变量间的关系是直线关系,根据 n 对观测值所描出的散点图,如图 8—1(c) 和图 8—1(d)。如果把变量 y 与 x 内在联系的总体直线回归方程记为 y=α+βx,由于依变 量的实际观测值总是带有随机误差,因而实际观测值 yi 可表示为: i i i i y = x + x + (i=1,2, …, n) (8—1) 其中 i 为相互独立,且都服从 N(0,σ2)的随机变量。这就是直线回归的数学模型。我们 图 8-1 (x,y)的散点图
可以根据实际观测值对a,B以及方差σ2做出估计。 在xy的直角坐标平面上可以作出无数条直线,而回归直线是指所有直线中最接近散点 图中全部散点的直线。设样本直线回归方程为 y=a+b3 其中,a是a的估计值,b是B的估计值 回归直线在平面坐标系中的位置取决于a、b的取值,为了使j=a+bx能最好地反应 ν和x两变量间的数量关系,根据最小二乘法,a、b应使回归估计值与观测值的偏差平方和 最小,即: ∑ x)2=最小 根据微积分学中的极值原理,令Q对a、b的一阶偏导数等于0,即: b 整理得关于a、b的正规方程组: y 解正规方程组,得 ∑邓-C∑x∑y)/n∑(x-xXy- (8-3) (8-4) (8-3)式中的分子是自变量x的离均差与依变量y的离均差的乘积和∑(x-xXy- 简称乘积和,记作SP,分母是自变量x的离均差平方和∑(x-x)2,记作S a叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,j=a;b叫做样本 回归系数,表示x改变一个单位,y平均改变的数量;b的符号反映了x影响y的性质,b 的绝对值大小反映了x影响y的程度。 图8-2直线回归方程j=a+bx的图象 a和b均可取正值,也可取负值,因具体资料而异,由图8-2可以看出,a>0,表示回
143 可以根据实际观测值对α,β以及方差σ2 做出估计。 在 x,y 的直角坐标平面上可以作出无数条直线,而回归直线是指所有直线中最接近散点 图中全部散点的直线。设样本直线回归方程为: y ˆ = a + bx (8-2) 其中,a 是α的估计值,b 是β的估计值。 回归直线在平面坐标系中的位置取决于 a、b 的取值,为了使 y ˆ = a + bx 能最好地反应 y 和 x 两变量间的数量关系,根据最小二乘法,a、b 应使回归估计值与观测值的偏差平方和 最小,即: = − = − − = 2 2 Q ( y y ˆ) ( y a bx) 最小。 根据微积分学中的极值原理,令 Q 对 a、b 的一阶偏导数等于 0,即: = −2 ( − − ) = 0 y a bx a Q = − − − = 2 (y a bx)x 0 b Q 整理得关于 a、b 的正规方程组: an + bx = y ax + bx =xy 2 解正规方程组,得: x xy SS SP x x x x y y x x n xy x y n b = − − − = − − = 2 2 2 ( ) ( )( ) ( ) / ( )( )/ (8-3) a = y − bx (8-4) (8-3)式中的分子是自变量 x 的离均差与依变量 y 的离均差的乘积和 (x − x)( y − y) , 简称乘积和,记作 SPxy ,分母是自变量 x 的离均差平方和 − 2 (x x) ,记作 SSx 。 a 叫做样本回归截距,是回归直线与 y 轴交点的纵坐标,当 x=0 时, y ˆ =a;b 叫做样本 回归系数,表示 x 改变一个单位,y 平均改变的数量;b 的符号反映了 x 影响 y 的性质,b 的绝对值大小反映了 x 影响 y 的程度。 a 和 b 均可取正值,也可取负值,因具体资料而异,由图 8-2 可以看出,a>0,表示回 图 8-2 直线回归方程 y ˆ = a + bx 的图象
归直线在第一象限与y轴相交:a0,表示y随x 的增加而增加;b<0;表示y随x的减少而减少;b=0或与0差异不显著时,表示y的变化 与x的取值无关,两变量间不存在直线回归关系。这只是对a和b的统计学解释,对于具体 资料,a和b往往还有专业上的实际意义 j叫做回归估计值,是当x在在其研究范围内取某一个值时,y值平均数a+魚x估计值 研究y和j间的关系,可发现回归方程的三个基本性质 性质1g=∑(y-j)2=最小 性质2∑(y-j)=0 性质3回归直线必须通过中心点(x,y) 如果将(8-3)式代入(8-2)式,得到回归方程的另一种形式: j=y-bx+bx=y+b(x-x) (8-5) 【例8.1】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与70日龄重 (g)的数据,试建立70日龄重y)与雏鹅重(x)的直线回归方程。 上山白重日测果,位2,一一 雏鹅重(x) 201029583113105110100 70日龄重(y)2302400272025003150260263024003080292029602860 1、作散点图以雏鹅重(x)为横坐标,70日龄重(y)为纵坐标作散点图,见图8-3。由 图形可见四川白鹅的70日龄重与雏鹅重间存在直线关系,70日龄重随雏鹅重的增大而增大。 3200 3000 2800 2600 2400 2200 708090100110120130x 图8-3四川白鹅的雏鹅重与70日龄重散点图和回归直线图 2、计算回归截距a,回归系数b,建立直线回归方程 首先根据实际观测值计算出下列数据: F=∑x/n=118212=985
144 归直线在第一象限与 y 轴相交;a0,表示 y 随 x 的增加而增加;b<0;表示 y 随 x 的减少而减少;b=0 或与 0 差异不显著时,表示 y 的变化 与 x 的取值无关,两变量间不存在直线回归关系。这只是对 a 和 b 的统计学解释,对于具体 资料,a 和 b 往往还有专业上的实际意义。 y ˆ 叫做回归估计值,是当 x 在在其研究范围内取某一个值时,y 值平均数 + x 估计值。 研究 y 和 y ˆ 间的关系,可发现回归方程的三个基本性质: 性质 1 = − = 2 Q (y y ˆ) 最小; 性质 2 ( y − y ˆ) = 0 ; 性质 3 回归直线必须通过中心点 (x, y) 。 如果将(8-3)式代入(8-2)式,得到回归方程的另一种形式: y ˆ = y − bx + bx = y + b(x − x) (8-5) 【例 8.1】在四川白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与 70 日龄重 (g)的数据,试建立 70 日龄重(y)与雏鹅重(x)的直线回归方程。 表 8-1 四川白鹅重与 70 日龄重测定结果 (单位:g) 编号 1 2 3 4 5 6 7 8 9 10 11 12 雏鹅重(x) 80 86 98 90 120 102 95 83 113 105 110 100 70 日龄重(y) 2350 2400 2720 2500 3150 2680 2630 2400 3080 2920 2960 2860 1、作散点图 以雏鹅重(x)为横坐标,70 日龄重(y)为纵坐标作散点图,见图8-3。由 图形可见四川白鹅的70 日龄重与雏鹅重间存在直线关系,70 日龄重随雏鹅重的增大而增大。 2、计算回归截距 a,回归系数 b,建立直线回归方程 首先根据实际观测值计算出下列数据: x =x / n =1182 /12 = 98.5 图 8-3 四川白鹅的雏鹅重与 70 日龄重散点图和回归直线图
=∑y/n=32650/12=2720.833 S=∑x2-(2x)2/n=11812-(182)12=168500 ∑ Cx∑y) 1182×32650 =3252610 Ss=∑y2-y)/n=8906700-(3260)2/12=83149167 进而计算出b、a: 36585 21.7122 a=j-b=2720.833321.7122×985=582.1816 得到四川白鹅的70日龄重y对雏鹅重x的直线回归方程为 j=5821816+21.7122x 从回归系数可知,雏鹅重每增加1g,70日龄平均重增加21.7122g 根据直线回归方程可作出回归直线,见图8-3。从图8-3可看出,尽管 j=5821816+21.7122x是该资料最恰当的回归方程,但是并不是所有的散点都恰好落在回 归直线上,这说明用j去估计y是有偏差的。 3、直线回归的偏离度估计以上根据使偏差平方和∑(y-2最小建立了直线回 归方程。偏差平方和∑(①y-)2的大小表示了实测点与回归直线偏离的程度,因而偏差平方 和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为n2。 于是可求得离回归均方为:∑(-j2m-2)。离回归均方是模型(8-1)中2的估计值 离回归均方的平方根叫离回归标准误,记为Sx,即 (y-)21-2) (8-6) 离回归标准误Sx的大小表示了回归直线与实测点偏差的程度,即回归估测值与实际 观测值y偏差的程度,于是我们把离回归标准误Sx用来表示回归方程的偏离度。离回归标 准误Sx大表示回归方程偏离度大,Sx小表示回归方程偏离度小。 在用(8-6)式计算离回归标准误时,需要把每一个x值的回归估计值j计算出来,因 而计算麻烦,且累计舍入误差大。以后我们将证明 (-y)-=SS,-SP /S (8-7) 利用(8-7)式先计算出∑(y-j)2,然后再代入(86)式求Sx,这样就简便多了 对于【例8.1】有 ∑(y-j)2=SS,-SP2/S5=83149167-365852/1685=3715207 所以 S=∑(-2n-2)=√37120m(12-2)=60925(g 即当利用直线回归y=582.1816+21.712x,由四川白鹅的雏鹅重估计70日龄重时,离回归 标准误为60.9525g
145 y = y / n = 32650 /12 = 2720.8333 ( ) / 118112 (1182) /12 1685.00 2 2 2 S Sx = x − x n = − = 36585 .00 12 1182 32650 3252610 ( )( ) = = − = − n x y SP xy xy ( ) / 89666700 (32650 ) /12 831491 .67 2 2 2 SSy = y − y n = − = 进而计算出 b、a: 21.7122 1685 .00 36585 = = = x xy SS SP b a = y − bx = 2720.8333 − 21.7122 98.5 = 582.1816 得到四川白鹅的 70 日龄重 y 对雏鹅重 x 的直线回归方程为: y ˆ = 582.1816 + 21.7122x 从回归系数可知,雏鹅重每增加 1g,70 日龄平均重增加 21.7122g。 根据直线回归方程可作出回归直线,见图 8-3 。从图 8-3 可看出,尽管 y ˆ = 582.1816 + 21.7122x 是该资料最恰当的回归方程,但是并不是所有的散点都恰好落在回 归直线上,这说明用 y ˆ 去估计 y 是有偏差的。 3、直线回归的偏离度估计 以上根据使偏差平方和 2 ( y − y ˆ) 最小建立了直线回 归方程。偏差平方和 2 ( y − y ˆ) 的大小表示了实测点与回归直线偏离的程度,因而偏差平方 和又称为离回归平方和。统计学已经证明:在直线回归分析中离回归平方和的自由度为 n-2。 于是可求得离回归均方为: ( ˆ) /( 2) 2 y − y n − 。离回归均方是模型(8-1)中σ2 的估计值。 离回归均方的平方根叫离回归标准误,记为 yx S ,即 = ( − ˆ) /( − 2) 2 Syx y y n (8-6) 离回归标准误 yx S 的大小表示了回归直线与实测点偏差的程度,即回归估测值 y ˆ 与实际 观测值 y 偏差的程度,于是我们把离回归标准误 yx S 用来表示回归方程的偏离度。离回归标 准误 yx S 大表示回归方程偏离度大, yx S 小表示回归方程偏离度小。 在用(8-6)式计算离回归标准误时,需要把每一个 x 值的回归估计值 y ˆ 计算出来,因 而计算麻烦,且累计舍入误差大。以后我们将证明: SS y SPxy SSx ( y y ˆ) / 2 2 − = − (8-7) 利用(8-7)式先计算出 2 (y − y ˆ) ,然后再代入(8-6)式求 yx S ,这样就简便多了。 对于【例 8.1】有 ( ˆ) / 83149167 36585 /1685 37152 .07 2 2 2 y − y = SS y − SPxy SSx = − = 所以 ( ˆ) /( 2) 37152 .07 /(12 2) 60.9525 2 Syx = y − y n − = − = (g) 即当利用直线回归 y ˆ = 582.1816 + 21.7122 x ,由四川白鹅的雏鹅重估计 70 日龄重时,离回归 标准误为 60.9525g
二、直线回归的显著性检验 若x和y变量间并不存在直线关系,但由n对观测值(x,y)也可以根据上面介绍的 方法求得一个回归方程j=a+bx。显然,这样的回归方程所反应的两个变量间的直线关系是 不真实的。这取决于如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这 取决于变量x与y间是否存在直线关系。我们先探讨依变量y的变异,然后再作出统计推断 1、直线回归的变异来源 (x,y) 图8-4(y-j)的分解图 从图8-4看到:依变量y的总变异(y-y)由y与x间存在直线关系所引起的变异(y-y 与偏差(y-j)两部分构成,即 上式两端平方,然后对所有的n点求和,则有 ∑(y-)2=∑(-+(y-订 ∑(-)2+∑(y-j)2+2∑(-y-j 由于y=a+bx=j+b(x-x),所以y-j=b(x-x) 于是∑-y-j)=∑b(x-)y-j ∑b(x-x)(y--bx-对 =∑b(x-x(y-y)-∑b(x-x)·b(x-x) b.SP-b2·SS SS 所以有∑(y-y)2=∑(-2+∑(y-2 (8-8) ∑(y-)2反映了y的总变异程度,称为y的总平方和,记为S;∑(-)反映了
146 二、 直线回归的显著性检验 若 x 和 y 变量间并不存在直线关系,但由 n 对观测值(xi,yi)也可以根据上面介绍的 方法求得一个回归方程 y ˆ =a+bx。显然,这样的回归方程所反应的两个变量间的直线关系是 不真实的。这取决于如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这 取决于变量 x 与 y 间是否存在直线关系。我们先探讨依变量 y 的变异,然后再作出统计推断。 1、直线回归的变异来源 从图8-4看到:依变量y的总变异 ( y − y) 由y与x间存在直线关系所引起的变异 ( y ˆ − y) 与偏差 ( y − y ˆ) 两部分构成,即 (y − y) = (y ˆ − y) + (y − y ˆ) 上式两端平方,然后对所有的 n 点求和,则有 − = 2 ( y y) 2 [( y ˆ − y) + ( y − y ˆ)] ( ˆ ) ( ˆ) 2 ( ˆ )( ˆ) 2 2 = y − y + y − y + y − y y − y 由于 y ˆ = a + bx = y + b(x − x) ,所以 y ˆ − y = b(x − x) 于是 ( y ˆ − y)( y − y ˆ) =b(x − x)( y − y ˆ) =b(x − x)[( y − y) − b(x − x)] =b(x − x)( y − y) −b(x − x) b(x − x) b SPxy b SSx = − 2 0 2 = = − x x xy xy x xy SS SS SP SP SS SP 所以有 − = 2 ( y y) − + − 2 2 ( y ˆ y) ( y y ˆ) (8-8) 2 ( y − y) 反映了 y 的总变异程度,称为 y 的总平方和,记为 SSy ; − 2 ( y ˆ y) 反映了 图 8-4 ( y − y) 的分解图
由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为Ss:∑y-j)2 反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回 归平方和或剩余平方和,记为SS。(8-8)式又可表示为: (8-9) 这表明y的总平方和划分为回归平方和与离回归平方和两部分。与此相对应,y的总自 由度d,也划分为回归自由度dR与离回归自由度df两部分,即 d,=d+dr (8-10) 在直线回归分析中,回归自由度等于自变量的个数,即dR=1:y的总自由度dJ,=n-1 离回归自由度d=n-2。于是: 离回归均方M,=SS5d,回归均方MS= SSR/df 2、回归关系显著性检验一F检验 x与y两个变量间是否存在直线关系,可用F检验法进行检验。由(8-1)式可推知, 若x与y间不存在直线关系,则总体回归系数β=0,若x与y间存在直线关系,则总体回归 系数β≠0。所以,对x与y间是否存在直线关系的假设检验其无效假设Ho:β=0,备择假 设H4:β≠0。在无效假设成立的条件下,回归均方与离回归均方的比值服从d1=1和 d2=n-2的F分布,所以可以用 MSR MSR/dfr (8-11) S, SSr/dr SS, /(n-2) 来检验回归关系即回归方程的显著性。 回归平方和还可用下面的公式计算得到: b2∑(x-x)2=b2SS=bSP (8-12) (8-13) 利用(8-13)式计算Ss的舍入误差最小:而(8-12)式便于推广到多元线性回归分析的情 况。根据(8-9)式。可得到离回归平方和计算公式为: 对于【例8.1】资料,有 SS,=83149167 SP,.=36585.00,SS,=1685.00 =79433960 S=SS,-SSR=83149167-7%433960=37152.07 而dfy=n-1=12-1=11dR=Ldr=12-2=10。于是可以列出方差分析表进行回归关系 显著性检验
147 由于 y 与 x 间存在直线关系所引起的 y 的变异程度,称为回归平方和,记为 SS R ; − 2 ( y y ˆ) 反映了除 y 与 x 存在直线关系以外的原因,包括随机误差所引起的 y 的变异程度,称为离回 归平方和或剩余平方和,记为 SSr。(8-8)式又可表示为: SSy = SSR + SSr (8-9) 这表明 y 的总平方和划分为回归平方和与离回归平方和两部分。与此相对应,y 的总自 由度 df y 也划分为回归自由度 R df 与离回归自由度 r df 两部分,即 df y = dfR + dfr (8-10) 在直线回归分析中,回归自由度等于自变量的个数,即 df R =1 ;y的总自由度 df y = n −1 ; 离回归自由度 dfr = n − 2 。于是: 离回归均方 MSr SSr dfr = / ,回归均方 MSR SSR dfR = / 2、 回归关系显著性检验—F 检验 x 与 y 两个变量间是否存在直线关系,可用 F 检验法进行检验。由(8-1)式可推知, 若 x 与 y 间不存在直线关系,则总体回归系数=0,若 x 与 y 间存在直线关系,则总体回归 系数≠0。所以,对 x 与 y 间是否存在直线关系的假设检验其无效假设 H 0 :=0,备择假 设 H A:≠0。在无效假设成立的条件下,回归均方与离回归均方的比值服从 df1 = 1 和 df2 = n − 2 的 F 分布,所以可以用 / /( 2) / − = = = SS n SS SS df MS df MS MS F r R r r R R r R ,df1=1,df2=n-2 (8-11) 来检验回归关系即回归方程的显著性。 回归平方和还可用下面的公式计算得到: 2 2 SS =( y ˆ − y) =[b(x − x)] R b SSx bSPxy = b x − x = = 2 2 2 ( ) (8-12) x xy xy x xy SS SP SP SS SP 2 = = (8-13) 利用(8-13)式计算 SS R 的舍入误差最小;而(8-12)式便于推广到多元线性回归分析的情 况。根据(8-9)式。可得到离回归平方和计算公式为: x xy r y R y SS SP SS SS SS SS 2 = − = − 对于【例 8.1】资料,有 SSy = 831491.67 , SPxy = 36585.00 , SSx = 1685.00 794339.60 1685.00 36585.002 2 = = = x xy R SS SP SSSSr = SSy − SSR = 831491.67 − 794339.60 = 37152.07 而 df y = n −1=12 −1=11,dfR =1,dfr =12 − 2 =10 。于是可以列出方差分析表进行回归关系 显著性检验
表8-2四川白鹅70日龄重与雏鹅重回归关系方差分析 变异来源 F值 回归 79433960 79433960 213.81 4.96 10.04 离回归 10 37152.07 3715.21 总变异 831491.67 因为F=21381>F01o=1004Plo0o P<001,否定H0:B=0,接受H4:B≠0,即四川白鹅70日龄重(y)与雏鹅重(x) 的直线回归系数b=21.7122是极显著的,表明四川白鹅70日龄重与雏鹅重间存在极显著的 直线关系,可用所建立的直线回归方程来进行预测和控制 F检验的结果与t检验的结果一致。事实上,统计学已证明,在直线回归分析中,这二 种检验方法是等价的,可任选一种进行检验 由于四川白鹅70日龄重与雏鹅重间的直线回归关系极显著,因此,在实际生产中,可以 通过四川白鹅的雏鹅重对70日龄重作出预测或控制。特别要指出的是:利用直线回归方程 进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范 围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测 和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控 制,一般只能内插,不要轻易外延。 、直线回归的区间估计 前面已求出了总体回归截距a、回归系数B和x所对应的y值总体平均数a+x的估计 值a,b和y。这仅是一种点估计。下面在一定置信度下对a、B以及a+x作出区间估计
148 表 8-2 四川白鹅 70 日龄重与雏鹅重回归关系方差分析 变异来源 df SS MS F 值 F0.05 F0.01 回归 1 794339.60 794339.60 213.81** 4.96 10.04 离回归 10 37152.07 3715.21 总变异 11 831491.67 因为 F = 213.81 F0.01(1,10) =10.04, P 0.01 ,表明四川白鹅 70 日龄重与雏鹅重间存在显著 的直线关系。 3、回归系数的显著性检验—t 检验 采用回归系数的显著性检验—t 检验也可检验 x 与 y 间是否存在直线关系。回归系数显 著性检验的无效假设和备择假设分别为 H 0 :β=0, H A :β≠0。 t 检验的计算公式为: , b S b t = df = n − 2 (8-14) x yx b SS S S = (8-15) 其中, b S 为回归系数标准误。 对于【例 8.1】资料,已计算得 SSx =1685.00, Syx = 60.9525 ,故有 Sb = Syx / SSx = 60.9525/ 1685 =1.4849 14.62 1.4849 21.7122 = = = Sb b t 当 df = n − 2 =12− 2 =10,查 t 值表,得 t0.05(10) = 2.228, 3.169 t0.01(10) = 。因 62 0.01(10) t =14. t , P 0.01 ,否定 H 0 :β=0,接受 H A :β≠0,即四川白鹅 70 日龄重(y)与雏鹅重(x) 的直线回归系数 b=21.7122 是极显著的,表明四川白鹅 70 日龄重与雏鹅重间存在极显著的 直线关系,可用所建立的直线回归方程来进行预测和控制。 F 检验的结果与 t 检验的结果一致。事实上,统计学已证明,在直线回归分析中,这二 种检验方法是等价的,可任选一种进行检验。 由于四川白鹅 70 日龄重与雏鹅重间的直线回归关系极显著,因此,在实际生产中,可以 通过四川白鹅的雏鹅重对 70 日龄重作出预测或控制。特别要指出的是:利用直线回归方程 进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范 围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测 和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控 制,一般只能内插,不要轻易外延。 *三、直线回归的区间估计 前面已求出了总体回归截距 a、回归系数 β 和 x 所对应的 y 值总体平均数 a+βx 的估计 值 a,b 和 y ˆ 。这仅是一种点估计。下面在一定置信度下对 α、β 以及 α+βx 作出区间估计
1、总体回归截距a的置信区间统计学已证明φ∝服从自由度为n2的t分布。 其中,Sa叫做样本回归截距标准误,计算公式为 容易导出a的95%、99%置信区间为: 0.05(7-2) S,I la-tooumn-2)Sa, a+tool(m-2)SaI 【例8.2】试计算【例8.1】资料回归截距a的95%和99%置信区间。 对于【例8.1】资料,因为 a=5821816,S1x=609525,n=12,x=98.5,S5=1685.00 所以 98.50 60.9525 =147.3153 l2168500 1o.0s(n-2)=l0.05(1 于是总体回归截距a的95%和99%置信区间分别为 582.1816-2.228×147.3153,582.1816+2.228×147.315 582.1816-3.169×147.3153,582.1816+3.169×1473153] 即2539631,910.401和1153394,10490238]。 这说明在研究雏鹅重与70日龄重的关系时,总体回归截距a在[253.9631,910.40]区间 内,其可靠度为95%;在[11.3394,1049.0238]区间内,其可靠度为99% 2、总体回归系数B的置信区间统计学已证明b一B服从自由度为n2的t公布, 其中,S叫做样本回归系数标准误,由(8-15)式计算。可以导出β的95%、99%置信区间 [b-to sm-2)Sb,b+to.05(m-2] s,b+t 【例8.3】求出【例8.1】资料总体回归系数β的95%和99%置信区间 对于【例8.1】资料,因为 b=217122 Sb=Sx/√Ss3=609525/1685=14849 o0n-2)=100=2.228,to0(m-2)=lo0o0=3.169 所以总体回归系数B的95%和9%置信区间分别为: 21.7122-2.228×1.4849,21.7122+2.228×14849 21.7122-3.169×1.4849,21.7122+3.169×14849 即[18.4038,25.0206]和[17.0066264178] 这说明雏鹅重和70日龄重的总体回归系数β在[18.4038,25.0206区间内,其可靠度
149 1、总体回归截距 a 的置信区间 统计学已证明 a S a − 服从自由度为 n-2 的 t 分布。 其中, a S 叫做样本回归截距标准误,计算公式为: x a yx SS x n S S 2 1 = + 容易导出 α 的 95%、99%置信区间为: [ , ] 0.05(n 2) a 0.05(n 2)Sa a t S a t − − + − [ , ] 0.01(n 2) a 0.01(n 2)Sa a t S a t − − + − 【例 8.2】 试计算【例 8.1】资料回归截距 α 的 95%和 99%置信区间。 对于【例 8.1】资料,因为 a = 582.1816 , Syx = 60.9525 , n =12, x = 98.5, SSx = 1685 .00 所以, 147.3153 1685 .00 98.50 12 1 60.9525 1 2 2 = + = + = x a yx SS x n S S t0.05(n−2) = t0.05(10) = 2.228,t0.01(n−2) = t0.01(10) = 3.169 于是总体回归截距α的 95%和 99%置信区间分别为: [582.1816-2.228×147.3153, 582.1816+2.228×147.3153] [582.1816-3.169×147.3153, 582.1816+3.169×147.3153] 即[253.9631, 910.40]和[115.3394, 1049.0238]。 这说明在研究雏鹅重与 70 日龄重的关系时,总体回归截距α在[253.9631,910.40]区间 内,其可靠度为 95%;在[115.3394, 1049.0238]区间内,其可靠度为 99%。 2、总体回归系数β的置信区间 统计学已证明 b S b − 服从自由度为 n-2 的 t 公布, 其中, b S 叫做样本回归系数标准误,由(8-15)式计算。可以导出β的 95%、99%置信区间 为: [ , ] 0.05(n 2) b 0.05(n 2)Sb b t S b t − − + − (8-16) [ , ] 0.01(n 2) b 0.01(n 2)Sb b t S b t − − + − (8-17) 【例 8.3】 求出【例 8.1】资料总体回归系数β的 95%和 99%置信区间。 对于【例 8.1】资料,因为 b = 21.7122 , Syx = 60.9525, SSx =1685.00 Sb = Syx / SSx = 60.9525/ 1685 =1.4849 t 0.05(n−2) = t 0.05(10) = 2.228, t 0.01(n−2) = t 0.01(10) = 3.169 所以总体回归系数β的 95%和 99%置信区间分别为: [21.7122-2.228×1.4849, 21.7122+2.228×1.4849] [21.7122-3.169×1.4849, 21.7122+3.169×1.4849] 即[18.4038, 25.0206]和[17.0066, 26.4178]。 这说明雏鹅重和 70 日龄重的总体回归系数β在[18.4038, 25.0206]区间内,其可靠度
为95%;在[17.0066,26.4178]区间内,其可靠度为99% 3、总体平均数a+Bx的置信区间统计学已证明-(+的服从自由度为n2 的t分布。其中S:叫回归估计标准误,计算公式为: (8-18) 于是可以导出a+Bx的95%、99%置信区间为 Ly-to0s(n-2;y+to0s(n-2 S,] (8-19) S 【例8.4】求出【例8.1】资料当x=98时y总体平均数α+Bx的95%和99%置信区间。 对于【例8.1】资料,当x98时,j=582.1816+21.7122×98=2709.9772,而 =60.9525×,14(98-98 V12 17.6111 0-)=0o0=2.228,b0m-2)=l00=3.169。所以当x=98时,y总体平均数 的95%和99%置信区间分别为: 27099702-2.228×176lll2709.9702+2228×176lll 27099702-3.169×176l1127099772+3.169×17.61l 即2670.7397,2749.2147和[2654,27657868 这说明雏鹅重为98克时,70日龄总体平均重在[2670.7397,2749.2147]区间内,其可 靠度为95%;在[2654,2765.7868]区间内,其可靠度为99%。 4、单个y值的置信区间有时需要估计当x取某一数值时,相应y总体的一个y 值的置信区间。因为(j-y)/S,服从自由度为m2的t分布,其中,S,为单个y值的估计 标准误,计算公式为: 当x取某一数值时,单个y值的95%、99%置信区间为: [y-t0m-2)S (8-22) )S,y+to.on(n-2 S,I (8-23) 【例8.5】求出【例8.1】资料当x=98时单个y值的95%和99%置信区间。 对于【例8.1】资料,当x98时,j=2709.9772,且 (x-x)=60.9525 1088352=6347 12 1685 t00m-2)=10010=28,to0n-2)=lo00=3169。所以当x=98时,某一y值的95% 和99%置信区间分别为 27099702-2228×634457,2709.9772+2.228×63.4457]
150 为 95%;在[17.0066, 26.4178]区间内,其可靠度为 99%。 3、总体平均数α+βx 的置信区间 统计学已证明 y S y x ˆ ˆ − ( + ) 服从自由度为 n-2 的 t 分布。其中 y S ˆ 叫回归估计标准误,计算公式为: x y yx SS x x n S S 2 ˆ 1 ( − ) = + (8-18) 于是可以导出α+βx 的 95%、99%置信区间为: [ ˆ , ˆ ] 0.05(n 2) y ˆ 0.05(n 2)Sy ˆ y t S y t − − + − (8-19) [ ˆ , ˆ ] 0.01(n 2) y ˆ 0.01(n 2)Sy ˆ y t S y t − − + − (8-20) 【例 8.4】 求出【例8.1】资料当x=98 时y 总体平均数 α+βx 的 95%和 99%置信区间。 对于【例 8.1】资料,当 x=98 时, y ˆ =582.1816+21.7122×98=2709.9772, 而 17.6111 1685 (98 98.5) 12 1 60.9525 1 ( ) 2 2 ˆ = − = + − = + x y yx SS x x n S S t 0.05(n−2) = t 0.05(10) = 2.228,t 0.01(n−2) = t 0.01(10) = 3.169 。所以当 x=98 时,y 总体平均数 的 95%和 99%置信区间分别为: [2709.9772-2.228×17.6111, 2709.9772+2.228×17.6111] [2709.9772-3.169×17.6111, 2709.9772+3.169×17.6111] 即[2670.7397,2749.2147]和[2654, 2765.7868]。 这说明雏鹅重为 98 克时,70 日龄总体平均重在[2670.7397,2749.2147]区间内,其可 靠度为 95%;在[2654, 2765.7868]区间内,其可靠度为 99%。 4、单个 y 值的置信区间 有时需要估计当 x 取某一数值时,相应 y 总体的一个 y 值的置信区间。因为 Sy (y ˆ − y)/ 服从自由度为 n-2 的 t 分布,其中, y S 为单个 y 值的估计 标准误,计算公式为: x y yx SS x x n S S 2 1 ( ) 1 − = + + (8-21) 当 x 取某一数值时,单个 y 值的 95%、99%置信区间为: [ ˆ , ˆ ] 0.05(n 2) y 0.05(n 2)Sy y t S y t − − + − (8-22) [ ˆ , ˆ ] 0.01(n 2) y 0.01(n 2)Sy y t S y t − − + − (8-23) 【例 8.5】 求出【例 8.1】资料当 x=98 时单个 y 值的 95%和 99%置信区间。 对于【例 8.1】资料,当 x=98 时, y ˆ =2709.9772,且 63.4457 1685 (98 98.5) 12 1 60.9525 1 1 ( ) 1 2 2 = − = + + − = + + x y yx S S x x n S S t 0.05(n−2) = t 0.05(10) = 2.228,t 0.01(n−2) = t 0.01(10) = 3.169 。所以当 x=98 时,某一 y 值的 95% 和 99%置信区间分别为: [2709.9772-2.228×63.4457, 2709.9772+2.228×63.4457]