第十章直线回归和相关分析 以前各章所述的统计方法都只涉及X一种变数,其统计分析的主要目的可概括为试验结 果的比较,即对一种变数间的差异是否显著进行测验,从而确定对不同处理试验结果的取舍。 本章则是介绍研究Ⅹ、Y两种数间关系的统计分析方法。 第一节回归和相关意义 基本概念 在自然界和生产实践中有许多现象、事物之间存在相互关系或相互影响,例如:人的体 重和力气,施肥量与作物产量,降水量、温度和某作物病害发生程度等,显然通过对各种现 象间变数关系的统计分析,从而对现象间相互关系进行研究有重要意义。 为了研究这些相互关系需要新的统计方法,若是两个变数的关系,可分别用变数符号X 和Y表示。一般变数之间的关系可以分为两类:一类是函数关系,另一类是统计关系。 函数关系是一种确定性的关系,一个变数的取值和变化完全取决于另一个或几个变数的 取值和变化。例如:圆面积与半径的关系为S=mR2,对于任意一个半径值R,必能求得一个 唯一的面积值S,两者之间的关系是完全确定的。函数关系不包含误差的干扰,常见于物理 学、化学等理论科学 统计关系是一种非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既 有关系,但又不存在完全确定的函数关系。例如:作物的产量与施肥量的关系,适宜的施肥 量下产量较高,施肥量不足则产量较低。但这种关系并不是完全确定的,即使施肥量完全相 同,两块同样面积土地上的产量也不会相等。在实验科学中两类因受误差的干扰而表现为统 计关系,这在农学和生物学中常见 对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将这两个变数 的n对观察值(x,y)、(x,n)…、(x,y)分别以坐标点的形式标记于同一直角坐标 平面上,获得散点图( scatter diagram)。根据散点图可初步判定双变数X和Y间的关系,包 括:①X和y相关的性质(正或负)和密切程度:②X和Y的关系是直线型的还是非直线型 的;③是否有一些特殊的点表示着其他因素的干扰等。例如图1是水稻方面的3幅散点图
1 第十章 直线回归和相关分析 以前各章所述的统计方法都只涉及 X 一种变数,其统计分析的主要目的可概括为试验结 果的比较,即对一种变数间的差异是否显著进行测验,从而确定对不同处理试验结果的取舍。 本章则是介绍研究X、Y两种数间关系的统计分析方法。 第一节 回归和相关意义 一、基本概念 在自然界和生产实践中有许多现象、事物之间存在相互关系或相互影响,例如:人的体 重和力气,施肥量与作物产量,降水量、温度和某作物病害发生程度等,显然通过对各种现 象间变数关系的统计分析,从而对现象间相互关系进行研究有重要意义。 为了研究这些相互关系需要新的统计方法,若是两个变数的关系,可分别用变数符号 X 和 Y 表示。一般变数之间的关系可以分为两类:一类是函数关系,另一类是统计关系。 函数关系是一种确定性的关系,一个变数的取值和变化完全取决于另一个或几个变数的 取值和变化。例如:圆面积与半径的关系为 2 S = R ,对于任意一个半径值 R,必能求得一个 唯一的面积值 S,两者之间的关系是完全确定的。函数关系不包含误差的干扰,常见于物理 学、化学等理论科学。 统计关系是一种非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既 有关系,但又不存在完全确定的函数关系。例如:作物的产量与施肥量的关系,适宜的施肥 量下产量较高,施肥量不足则产量较低。但这种关系并不是完全确定的,即使施肥量完全相 同,两块同样面积土地上的产量也不会相等。在实验科学中两类因受误差的干扰而表现为统 计关系,这在农学和生物学中常见。 对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将这两个变数 的 n 对观察值(x1,y1)、(x2,y2)、…、(xn,yn)分别以坐标点的形式标记于同一直角坐标 平面上,获得散点图(scatter diagram)。根据散点图可初步判定双变数 X 和 Y 间的关系,包 括:①X 和 Y 相关的性质(正或负)和密切程度;②X 和 Y 的关系是直线型的还是非直线型 的;③是否有一些特殊的点表示着其他因素的干扰等。例如图 1 是水稻方面的 3 幅散点图
图10.1A是单株的生物产量(X和稻谷产量(Y),图10.1B是每平方米土地上的总颖花数 (X)和结实率(Y),图10.1C是最高叶面积指数(X)和每亩稻谷产量(Y)。从中可 以看出:①图101A和101B都是直线 型的,但方向相反;前者Y随X的增大 而增大,表示两个变数的关系是正的 后者Y随X的增大而减小,表示关系是 负的。②图10.1A的各个点几乎都落在 直线上,图101B则较为分散;因此 图10.A中X和Y相关的密切程度必高 于图101B。③图10.1C中X和y的关 系是非直线型的:大约 在ⅹ≤(6~7)时,Y随X的增大而增 图10.A水稻单株生物产量与 大,而当x>(67)时,Y随X的增大 稻谷产量的散点图 而减小 图101B水稻每平方米颖花数和结实率的散点图图101C水稻最高叶面积指数和667m2产量的散点图 、回归分析和相关分析 根据研究目的和依据的数学模型不同,统计关系的分析方法有两种。 1.回归分析 对两个变数进行回归分析是定量地研究X和Y的数值变化规律,根据这种规律可由一个 变数的变化来估计另一个变数的变化。在回归模型中,两个变数有因果关系,原因变数称自 变数( (independent variable,一般用X表示;结果变数称依变数 dependent variable),以Y表示。 X是已知的或是可控制的,没有误差或误差很小,而Y则不仅随X的变化而变化,还要受到 随机误差的影响。例如在施肥量和产量的关系中,施肥量是产量变化的原因,是自变数(X) 产量是对施肥量的反应,是依变数(Y)。施肥量X是事先确定的,但产量Y是依X的变化和 误差影响而变化 X和}间数值变化关系用回归方程( .regerssion equation)来描述。回归分析就是用试验 或调査得到的样本数据,建立回归方程并对其进行测验显著后,应用该方程根据X的变化来 估计Y的变化,从而达到预测(报)的目的
2 图 10.1A 是单株的生物产量(X)和稻谷产量(Y),图 10.1B 是每平方米土地上的总颖花数 (X)和结实率(Y),图 10.1C 是最高叶面积指数(X)和每亩稻谷产量(Y)。从中可 以看出:①图 10.1A 和 10.1B 都是直线 型的,但方向相反;前者 Y 随X 的增大 而增大,表示两个变数的关系是正的, 后者 Y 随 X 的增大而减小,表示关系是 负的。②图 10.1A 的各个点几乎都落在 一直线上,图 10.1B 则较为分散;因此, 图 10.1A 中X 和 Y相关的密切程度必高 于图 10.1B。③图 10.1C 中 X 和 Y 的关 系 是 非 直 线 型 的 ; 大 约 在 x≤(6~7)时,Y 随 X 的增大而增 图 10.1A 水稻单株生物产量与 大,而当 x>(6~7)时,Y 随 X 的增大 稻谷产量的散点图 而减小。 图 10.1B 水稻每平方米颖花数和结实率的散点图 图 10.1C 水稻最高叶面积指数和 667m2产量的散点图 二、回归分析和相关分析 根据研究目的和依据的数学模型不同,统计关系的分析方法有两种。 1.回归分析 对两个变数进行回归分析是定量地研究 X 和 Y的数值变化规律,根据这种规律可由一个 变数的变化来估计另一个变数的变化。在回归模型中,两个变数有因果关系,原因变数称自 变数(independent variable),一般用 X 表示;结果变数称依变数(dependent variable),以 Y表示。 X 是已知的或是可控制的,没有误差或误差很小,而 Y 则不仅随 X 的变化而变化,还要受到 随机误差的影响。例如在施肥量和产量的关系中,施肥量是产量变化的原因,是自变数(X); 产量是对施肥量的反应,是依变数(Y)。施肥量X 是事先确定的,但产量 Y是依 X 的变化和 误差影响而变化。 X 和 Y 间数值变化关系用回归方程(regerssion equation)来描述。回归分析就是用试验 或调查得到的样本数据,建立回归方程并对其进行测验显著后,应用该方程根据 X 的变化来 估计 Y 的变化,从而达到预测(报)的目的
根据涉及变数的多少和变数间关系的形式,回归分析有一元直线回归分析、多元线性回 归分析和非线性回归分析等不同类型 2.相关分析 对两个变数进行相关分析,其目的是研究X和Y间有无相关以及相关程度、相关性质(方 向)。在相关模型中,两个变数是平行的,没有因果关系的自变数和依变数之分,且皆有随机 X和Y间的相关与否,用表示相关特征的统计数r来反映,r称相关系数( correlation coefficient)。相关分析就是用样本数据计算出r,并对其进行测验后,就可以回答X、Y间有 无相关和相关程度等问题。 除了本章介绍的,两个变数为直线的相关分析外,还有多元相关分析等其它类型 通常将计算回归方程为基础的统计方法称为回归分析,将计算相关系数为基础的统计方 法称相关分析。理论上两个变数是因果关系,X没有误差(或很小)而Y含有误差时,应进 回归分析。X和Y是平行关系,均含有误差时应进行相关分析。然而在回归分析中往往含 有相关分析的信息,在相关分析中也包含回归分析的信息。所以在实践中,一个资料究竟是 采用回归分析还是相关分析,并没有严格界限,多可取决于研究目的。许多资料还可以同时 进行这两种分析 第二节直线回归分析 、直线回归方程 1.直线回归方程式 对于在散点图上呈直线趋势的两个变数,如果要概括其在数量上的互变规律,即从X的 数量变化来预测或估计y的数量变化,则要采用直线回归方程( linear regression equation)来 描述。此方程的通式为: a+b 上式读作“y依x的直线回归方程”。其中x是自变数;j是和x的量相对应的依变数的 点估计值;a是x=0时的j值,即回归直线在y轴上的截距( regression intercept);b是x每 增加一个单位数时,j平均地将要增加(b>0时)或减少(b0时)的单位数,叫回归系数 (regression coefficient) 要使j=a+bx能够最好地代表y和x在数量上的互变关系,根据最小二乘法,必须使 Q=∑(-)2=∑(y-a-b)2为最小 因此,分别对a和b求偏导数并令其为0,即可获得正规方程组( normal equations)
3 根据涉及变数的多少和变数间关系的形式,回归分析有一元直线回归分析、多元线性回 归分析和非线性回归分析等不同类型。 2.相关分析 对两个变数进行相关分析,其目的是研究 X 和 Y间有无相关以及相关程度、相关性质(方 向)。在相关模型中,两个变数是平行的,没有因果关系的自变数和依变数之分,且皆有随机 误差。 X 和 Y 间的相关与否,用表示相关特征的统计数 r 来反映,r 称相关系数(correlation coefficient)。相关分析就是用样本数据计算出 r,并对其进行测验后,就可以回答 X、Y 间有 无相关和相关程度等问题。 除了本章介绍的,两个变数为直线的相关分析外,还有多元相关分析等其它类型。 通常将计算回归方程为基础的统计方法称为回归分析,将计算相关系数为基础的统计方 法称相关分析。理论上两个变数是因果关系,X 没有误差(或很小)而 Y 含有误差时,应进 行回归分析。X 和 Y 是平行关系,均含有误差时应进行相关分析。然而在回归分析中往往含 有相关分析的信息,在相关分析中也包含回归分析的信息。所以在实践中,一个资料究竟是 采用回归分析还是相关分析,并没有严格界限,多可取决于研究目的。许多资料还可以同时 进行这两种分析。 第二节 直线回归分析 一、直线回归方程 1.直线回归方程式 对于在散点图上呈直线趋势的两个变数,如果要概括其在数量上的互变规律,即从 X 的 数量变化来预测或估计 Y的数量变化,则要采用直线回归方程(linear regression equation)来 描述。此方程的通式为: y ˆ = a + bx 上式读作“y 依 x 的直线回归方程”。其中 x 是自变数; y ˆ 是和 x 的量相对应的依变数的 点估计值;a 是 x=0 时的 y ˆ 值,即回归直线在 y 轴上的截距(regression intercept);b 是 x 每 增加一个单位数时, y ˆ 平均地将要增加(b>0 时)或减少(b<0 时)的单位数,叫回归系数 (regression coefficient)。 要使 y ˆ = a + bx 能够最好地代表 y 和 x 在数量上的互变关系,根据最小二乘法,必须使 = − = − − n n Q y y y a bx 1 1 2 2 ( ˆ) ( ) 为最小 因此,分别对 a 和 b 求偏导数并令其为 0,即可获得正规方程组(normal equations):
a+b∑x=∑y a∑x+b∑x2=∑xy 解之得 (10.3) (10.3)的分子∑(x-xy-y)是x的离均差和y的离均差的乘积之和,简称乘积和(sum of products),记作SP;分母是x的离均差平方和,记作Sx。将(10.2)、(103)算得的a和b 值代入(10.1),即可保证Q=∑(y-y)2为最小,同时使∑(y-)=0 a和b值皆可正可负,随具体资料而异。当a>0时,表示回归直线在I、Ⅱ象限交于y轴 当a0时,表示y随x的增大而增大 当b∞0时,表示y随x的增大而减小;参见图102。若b=0或和0的差异不显著,则表明y 的变异和x的取值大小无关,直线回归关系不能成立 以上是a和b值的统计学解释。在具体问题中,a和b值将有专业上的实际意义 将(10.2)代入(10.1)可得: y=(-bx)+bx=y+b(x-x) (104) 由(104)可见:①当x=x时,必有y=y,所以回归直线一定通过(x,y)坐标点。(记 住这一特性,有助于绘制具体资料的回归直线)。②当x以离均差(x-)为单位时,回归 直线的位置仅决定于和b。③当将坐标轴平移到以x,j)为原点时,回归直线的走向仅决定 于b,所以一般又称b为回归斜率( regression slope 2.直线回归方程的计算 以一个实例说明回归统计数计算的过程。 [例101]一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月 下旬至4月中旬平均温度累积值(x,旬·度)和水稻一代三化螟盛发期(y,以5月10日为 0)的关系,得结果于表10.1。试计算其直线回归方程 首先由表10.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据) n=9 ∑x=35.5+34.1+…+44.2=333.7 ∑x2=35.52+34.12+…+442=1251749 ∑y=12+16+…+(-1)=70 *∑y2=122+162+…+(-1)2=794 ∑xy=(35.5×12)+(34.1×16)+…+[442×(-1)=24364
4 + = + = a x b x xy an b x y 2 解之得: a = y −bx (10.2) SS x SP x x x x y y x n x x y n xy b = − − − = − − = 2 2 2 ( ) ( )( ) ( ) 1 1 (10.3) (10.3)的分子 (x − x)( y − y) 是 x 的离均差和 y 的离均差的乘积之和,简称乘积和(sum of products),记作 SP;分母是 x 的离均差平方和,记作 SSx。将(10.2)、(10.3)算得的 a 和 b 值代入(10.1),即可保证 2 Q = (y − y) 为最小,同时使 (y − y) = 0 。 a 和 b 值皆可正可负,随具体资料而异。当 a>0 时,表示回归直线在 I、II 象限交于 y 轴; 当 a0 时,表示 y 随 x 的增大而增大; 当 b<0 时,表示 y 随 x 的增大而减小;参见图 10.2。若 b=0 或和 0 的差异不显著,则表明 y 的变异和 x 的取值大小无关,直线回归关系不能成立。 以上是 a 和 b 值的统计学解释。在具体问题中,a 和 b 值将有专业上的实际意义。 将(10.2)代入(10.1)可得: y ˆ = (y −bx) +bx = y +b(x − x) (10.4) 由(10.4)可见:①当 x = x 时,必有 y ˆ = y ,所以回归直线一定通过( x , y )坐标点。(记 住这一特性,有助于绘制具体资料的回归直线)。②当 x 以离均差( x − x )为单位时,回归 直线的位置仅决定于 y 和 b。③当将坐标轴平移到以( x , y )为原点时,回归直线的走向仅决定 于 b,所以一般又称 b 为回归斜率(regression slope)。 2.直线回归方程的计算 以一个实例说明回归统计数计算的过程。 [例 10.1] 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续 9 年测定 3 月 下旬至 4 月中旬平均温度累积值(x,旬·度)和水稻一代三化螟盛发期(y,以 5 月 10 日为 0)的关系,得结果于表 10.1。试计算其直线回归方程。 首先由表 10.1 算得回归分析所必须的 6 个一级数据(即由观察值直接算得的数据): (35.5 12) (34.1 16) [44.2 ( 1)] 2436.4 * 12 16 ( 1) 794 12 16 ( 1) 70 35.5 34.1 44.2 12517.49 35.5 34.1 44.2 333.7 9 2 2 2 2 2 2 2 2 = + + + − = = + + + − = = + + + − = = + + + = = + + + = = x y y y x x n
然后,由一级数据算得5个二级数据 表10.1累积温和一代三化螟盛发期的关系 x累积温 y盛发期 31.7 9 2 36.8 7 图102直线回归方程 j=a+bx的图像 44.2 SS=∑x2-(∑x)2/n=1251749-(3332/9=1446356 *Ssy=2y2-(2y)2/n=74-(70)2/9=24955 SP=∑xy-∑xy/n=24364-(3337×70)/9=-1590444 x=∑x/n=333.7/9=37078 j=∑y/n=70/9=7.778 因而有:b=SP/SSx=-15904414446356=-1096E天旬度 a=j-bx=7.778-(-1.0996×37.0778)=48.5485(天) 故得表101资料的回归方程为:j=485485-1096x 或化简成: j=485-1.1x 上述方程中回归系数和回归截距的意义为:当3月下旬至4月中旬的积温(x)每提高1 旬·度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将 在6月27-28日(x=0时,j=485;因y是以5月10日为0,故48.5为6月27-28日) 由于x变数的实测区间为[317,442],当x442时,y的变化是否还符合y=485-1,1x 的规律,观察数据中未曾得到任何信息。所以,在应用y=48.5-1.Ix于预测时,需限定x的 区间为[317,442];如要在x442的区间外延,则必须有新的依据。 3.直线回归方程的图示 直线回归图包括回归直线的图像和散点图,它可以醒目地表示x和y的数量关系。 制作直线回归图时,首先以x为横坐标,以y为纵坐标构建直角坐标系(纵、横坐标皆 需标明名称和单位);然后取x坐标上的一个小值x代入回归方程得1,取一个大值x2代入 回归方程得2,连接坐标点(x1,1)和(x2,y2)即成一条回归直线。如例10.1资料,以 x=317代入回归方程得1=1369;以x=442代入回归方程得2=-005。在图10.3上确定 (317,1369)和(442,005)这两个点,再连接之,即为y=485485-1090x的直线图 像。注意:此直线必通过点(元,y),它可以作为制图是否正确的核对。最后,将实测的各对
5 然后,由一级数据算得 5 个二级数据: 表 10.1 累积温和一代三化螟盛发期的关系 x 累积温 y 盛发期 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2 12 16 9 2 7 3 13 9 -1 / 70 / 9 7.7778 / 333.7 / 9 37.0778 / 2436 .4 (333.7 70) / 9 159.0444 * ( ) / 794 (70) / 9 249.5556 ( ) / 12517 .49 (333.7) / 9 144.6356 2 2 2 2 2 2 = = = = = = = − = − = − = − = − = = − = − = y y n x x n SP xy x y n SS y y n SS x x n y x 因而有: = / = −159.0444 /144.6356 = −1.0996[天/(旬度)] b SP SSx a = y −bx = 7.778 −(−1.0996 37.0778) = 48.5485(天) 故得表 10.1 资料的回归方程为: y ˆ = 48.5485 −1.0996 x 或化简成: y ˆ = 48.5−1.1x 上述方程中回归系数和回归截距的意义为:当 3 月下旬至 4 月中旬的积温(x)每提高 1 旬·度时,一代三化螟的盛发期平均将提早 1.1 天;若积温为 0,则一代三化螟的盛发期将 在 6 月 27-28 日(x=0 时, y ˆ = 48.5 ;因 y 是以 5 月 10 日为 0,故 48.5 为 6 月 27-28 日)。 由于 x 变数的实测区间为[31.7,44.2],当 x44.2 时,y 的变化是否还符合 y ˆ = 48.5−1.1x 的规律,观察数据中未曾得到任何信息。所以,在应用 y ˆ = 48.5−1.1x 于预测时,需限定 x 的 区间为[31.7,44.2];如要在 x44.2 的区间外延,则必须有新的依据。 3.直线回归方程的图示 直线回归图包括回归直线的图像和散点图,它可以醒目地表示 x 和 y 的数量关系。 制作直线回归图时,首先以 x 为横坐标,以 y 为纵坐标构建直角坐标系(纵、横坐标皆 需标明名称和单位);然后取 x 坐标上的一个小值 x1 代入回归方程得 1 y ˆ ,取一个大值 x2代入 回归方程得 2 y ˆ ,连接坐标点( 1 1 x , y ˆ )和( 2 2 x , y ˆ )即成一条回归直线。如例 10.1 资料,以 x1=31.7 代入回归方程得 y ˆ 1 =13.69 ;以 x2=44.2 代入回归方程得 y ˆ 2 = −0.05 。在图 10.3 上确定 (31.7,13.69)和(44.2,-0.05)这两个点,再连接之,即为 y ˆ = 48.5485 −1.0996 x 的直线图 像。注意:此直线必通过点( x, y ),它可以作为制图是否正确的核对。最后,将实测的各对 图 10.2 直线回归方程 y ˆ = a + bx 的图像
(x,y)数值也用坐标点标于图103上 图103的回归直线是9个观察坐标点 的代表,它不仅表示了例10.1资料的基本 趋势,也便于预测。如某年3月下旬至4 月中旬的积温为40旬·度,则在图103上 可查到一代三化螟盛发期的点估计值在5 月14-15日,这和将x=40代入原方程 得到y=485485-(1.096×40)=46是一致 的。因为回归直线是综合9年结果而得出 的一般趋势,所以其代表性比任何一个实 际的坐标点都好。当然,这种估计仍然有 x,3月下旬至4月中旬旬平均温度累积值 随机误差,下文再作讨论。 图10.3旬平均温度累积值和 4.直线回归的估计标准误 代三化螟盛发期的关系 由图10.3可见,满足Q=∑(y-y)2为最小的直线回归方程和实测的观察点并不重合, 表明该回归方程仍然存在随机误差。Q就是误差的一种度量,称之为离回归平方和( sum of squares due to deviation from regression)或剩余平方和。由于在建立回归方程时用了a和b两 个统计数,故Q的自由度v=n-2。因而,可定义回归方程的估计标准误s为 2-{= 若各个观察点愈靠近回归线,s将愈小(极端地说,当各观察点都落在回归线上时 =0);若各观察点在回归线上下分散得愈远,则愈大。故样本的s是回归精确度的度 量,s/愈小,由回归方程估计y的精确性愈高 计算s的主要手续在于求Q。直接计算不仅步骤多、工作量大,而且若数字保留位数 不够,会引入较大的计算误差。为简化手续,可从以下恒等式得出 Q=∑(y-y)2=SS (10.6) [例10.2]试计算由表101资料获得的回归方程的估计标准 据(10.6)由例10.1算好的有关数据可直接得到: Q=249556(-159044) 1446356=746670 将算得Q代入(10.5)式有 7466 =3.266(天) 上述计算表明,当用回归方程j=485485-10996x,由3月下旬至4月中旬的积温预测 代三化螟发期时,有一个3266天的估计标准误。它的统计意义是:在y±3266天范围内 约有6827%个观察点,在y±6532天范围内约有9545%个观察点等
6 (xi,yi)数值也用坐标点标于图 10.3 上。 图 10.3 的回归直线是 9 个观察坐标点 的代表,它不仅表示了例 10.1 资料的基本 趋势,也便于预测。如某年 3 月下旬至 4 月中旬的积温为 40旬·度,则在图 10.3 上 可查到一代三化螟盛发期的点估计值在 5 月 14-15 日,这和将 x=40 代入原方程 得到 y = 48.5485 −(1.0996 40) = 4.6 是一致 的。因为回归直线是综合 9 年结果而得出 的一般趋势,所以其代表性比任何一个实 际的坐标点都好。当然,这种估计仍然有 x,3 月下旬至 4月中旬旬平均温度累积值 随机误差,下文再作讨论。 图 10.3 旬平均温度累积值和一 4.直线回归的估计标准误 代三化螟盛发期的关系 由图 10.3 可见,满足 2 Q = (y − y ˆ) 为最小的直线回归方程和实测的观察点并不重合, 表明该回归方程仍然存在随机误差。Q 就是误差的一种度量,称之为离回归平方和(sum of squares due to deviation from regression)或剩余平方和。由于在建立回归方程时用了 a 和 b 两 个统计数,故 Q 的自由度 v=n-2。因而,可定义回归方程的估计标准误 sy/x为: 2 ( ˆ) 2 2 / − − = − = n y y n Q s y x (10.5) 若各个观察点愈靠近回归线,sy/x 将愈小(极端地说,当各观察点都落在回归线上时, sy/x=0);若各观察点在回归线上下分散得愈远,则 sy/x愈大。故样本的 sy/x是回归精确度的度 量,sy/x愈小,由回归方程估计 y 的精确性愈高。 计算 sy/x 的主要手续在于求 Q。直接计算不仅步骤多、工作量大,而且若数字保留位数 不够,会引入较大的计算误差。为简化手续,可从以下恒等式得出: x y SS SP Q y y SS 2 2 ( ) = ( − ˆ) = − (10.6) [例 10.2] 试计算由表 10.1 资料获得的回归方程的估计标准误。 据(10.6)由例 10.1 算好的有关数据可直接得到: 74.6670 144.6356 ( 159.0444) 249.5556 2 = − Q = − 将算得 Q 代入(10.5)式有: 3.266( ) 9 2 74.6670 / = 天 − S y x = 上述计算表明,当用回归方程 y ˆ = 48.5485 −10996 x ,由 3 月下旬至 4 月中旬的积温预测 一代三化螟发期时,有一个 3.266 天的估计标准误。它的统计意义是:在 y ˆ 3.266 天范围内 约有 68.27%个观察点,在 y ˆ 6.532 天范围内约有 95.45%个观察点等
5.直线回归的数学模型和基本假定 回归分析的依据是直线回归模型。在这一模型中,Y总体的每一个值由以下三部分组成 ①回归截距a,②回归系数β,③Y变数的随机误差ε。因此,总体直线回归的数学模型可 表示为: Y,=a+Bx,+E (10.7) 其中,E1~N(0a2)。相应的样本线性组成为: =a+bx:+ (10.8) 在按上述模型进行回归分析时,假定: (1)Y变数是随机变数,而X变数则是没有误差的固定变数,至少和Y变数比较起来X 的误差小到可以忽略。 (2)在任一X上都存在着一个Y总体(可称为条件总体),它是作正态分布的,其平均 数山yx是x的线性函数 unix=a+B (10.9) y/x的样本估计值j,j与X的关系就是线性回归方程(9.1) (3)所有的Y总体都具有共同的方差G2,这一方差不因X的不同而不同,而直线回 总体具有N(a+Bx,2)。试验所得的一组观察值(x,y)只是Ma+Bx,a2)中的一个随机 样本。 (4)随机误差E相互独立,并作正态分布,具有N(0,2) 因此,模型中的参数共有a,即直线的截距;B,即直线的斜率;σ2,误差的方差。其 样本的相应的估计值为a、b和s3/x 理解上述模型和假定,有助于正确地进行回归分析。 二、直线回归的假设测验 1.回归关系的假设测验 若X和y变数总体并不存在直线回归关系,则随机抽取的一个样本也能用上述方法算得 个直线方程y=a+bx。显然,这样的回归方程是靠不住的。所以对于样本的回归方程,必 须测定其来自无直线回归关系总体的概率大小。只有当这种概率小于005或0.01时,我们才 能冒较小的风险确认其所代表的总体存在着直线回归关系。这就是回归关系的假设测验,其 测验方法有以下三种。 (1)测验由(104)可推知,若总体不存在直线回归关系,则总体回归系数B=0 若总体存在直线回归关系,则B≠0。所以对直线回归的假设测验为H0:B=0对H4:B≠0。 由(10.3)可推得回归系数b的标准误sb为 ∑(x-x)
7 5.直线回归的数学模型和基本假定 回归分析的依据是直线回归模型。在这一模型中,Y总体的每一个值由以下三部分组成: ①回归截距 a,②回归系数 ,③Y 变数的随机误差 。因此,总体直线回归的数学模型可 表示为: Yj X j j = + + (10.7) 其中, ~ (0, ) 2 j N 。相应的样本线性组成为: j j j y = a +bx +e (10.8) 在按上述模型进行回归分析时,假定: (1)Y 变数是随机变数,而 X 变数则是没有误差的固定变数,至少和 Y 变数比较起来 X 的误差小到可以忽略。 (2)在任一 X 上都存在着一个 Y 总体(可称为条件总体),它是作正态分布的,其平均 数 Y / X 是 X 的线性函数: Y / X = a + X (10.9) Y / X 的样本估计值 y ˆ , y ˆ 与 X 的关系就是线性回归方程(9.1)。 (3)所有的 Y总体都具有共同的方差 2 ,这一方差不因 X 的不同而不同,而直线回归 总体具有 2 ( , N a + X )。试验所得的一组观察值(xi,yi)只是 ( , ) 2 N a + X 中的一个随机 样本。 (4)随机误差 相互独立,并作正态分布,具有 (0, ) 2 N 。 因此,模型中的参数共有 a,即直线的截距; ,即直线的斜率; 2 ,误差的方差。其 样本的相应的估计值为 a、b 和 2 y / x s 。 理解上述模型和假定,有助于正确地进行回归分析。 二、直线回归的假设测验 1.回归关系的假设测验 若 X 和 Y 变数总体并不存在直线回归关系,则随机抽取的一个样本也能用上述方法算得 一个直线方程 y ˆ = a + bx 。显然,这样的回归方程是靠不住的。所以对于样本的回归方程,必 须测定其来自无直线回归关系总体的概率大小。只有当这种概率小于0.05 或 0.01时,我们才 能冒较小的风险确认其所代表的总体存在着直线回归关系。这就是回归关系的假设测验,其 测验方法有以下三种。 (1)t 测验 由(10.4)可推知,若总体不存在直线回归关系,则总体回归系数 = 0 ; 若总体存在直线回归关系,则 0 。所以对直线回归的假设测验为 H0 : = 0对HA : 0。 由(10.3)可推得回归系数 b 的标准误 sb 为: x y x y x b SS s x x s s / 2 2 / ( ) = − = (10.10)
(10.11) 遵循v=n2的t分布,故由t值即可知道样本回归系数b来自β=0总体的概率大小 例10.3]试测验例10.1资料回归关系的显著性 在例10.1和10.2已算得b=-1.0995=14263565,/x=3266,故有 3.266 √1446356 1.0996-0 -4.05 0.2715 查附表4,b.057=2.36,b0,严=3.50。现实得t=405大于b0,表明在B=0的总体中因 抽样误差而获得现有样本的概率小于001。所以应否定Ho:B=0,接受H4:B≠0,即认为 积温和一代三化螟盛发期是有真实直线回归关系,或者说此b=-1.0996是极显著的。 (2)F测验当仅以j表示y资料时(不考虑x的影响),y变数具有平方和 S=∑(y-y)2和自由度=m-1。当以j=a+bx表示y资料时(考虑x的影响),则S将 分解成两个部分,即: j)2+∑(-元)2+2∑(y-jj-y) 因为 ∑(y-j)Xj-y)=0 故 上式的∑(y-)2即离回归平方和Q,它和x的大小无关,具有=n-2,已知前述:x(j-y2 则为回归平方和简记作U,它是由x的不同而引起的,具有v=(n-1)-(n-2)=1。在计算U 值时可应用公式 U=∑(y-y)2=SS1-Q= (10.12) 由于回归和离回归的方差比遵循v1=1,2=n-2的F分布,故由 U/1 (10.13) Q(n-2) 即可测定回归关系的显著性 例10.4]试用F测验法检测例10.1资料回归关系的显著性
8 而 b s b t − = (10.11) 遵循 v=n-2 的 t 分布,故由 t 值即可知道样本回归系数 b 来自 =0 总体的概率大小。 [例 10.3] 试测验例 10.1 资料回归关系的显著性。 在例 10.1 和 10.2 已算得 b = −1.0996, SSx =144.6356, s y / x = 3.266 ,故有: 4.05 0.2715 1.0996 0 0.2716 144.6356 3.266 = − − − = = = t sb 查附表 4,t0.05,7=2.36,t0.01,7=3.50。现实得| t | = 4.05 大于 t0.01,7,表明在 = 0 的总体中因 抽样误差而获得现有样本的概率小于 0.01。所以应否定 H0 : = 0 ,接受 H A : 0 ,即认为 积温和一代三化螟盛发期是有真实直线回归关系,或者说此 b = -1.0996 是极显著的。 (2)F 测验 当仅以 y 表示 y 资料时(不考虑 x 的影响),y 变数具有平方和 2 SS ( y y) y = − 和自由度 v = n-1。当以 y ˆ = a + bx 表示 y 资料时(考虑 x 的影响),则 SSy将 分解成两个部分,即: ( ˆ) ( ˆ ) 2 ( ˆ)( ˆ ) ( ) ( ˆ ˆ ) 2 2 2 2 y y y y y y y y y y y y y y = − + − + − − − = − + − 因为 (y − y ˆ)( y ˆ − y) = 0 故 2 2 2 (y − y) = (y − y ˆ) +(y ˆ − y) 上式的 2 (y − y ˆ) 即离回归平方和Q,它和x的大小无关,具有v= n-2,已知前述; 2 (y ˆ − y) 则为回归平方和,简记作 U,它是由 x 的不同而引起的,具有 v = (n −1) −(n − 2) =1 。在计算 U 值时可应用公式 x y SS SP U y y SS Q 2 2 ( ) = ( ˆ − ) = − = (10.12) 由于回归和离回归的方差比遵循 v1 =1, v2 = n − 2 的 F 分布,故由 /( 2) /1 − = Q n U F (10.13) 即可测定回归关系的显著性。 [例 10.4] 试用 F 测验法检测例 10.1 资料回归关系的显著性
在例10.1和10.2已算得S=2495569=74667,故U=249556-746670 1748886,并有方差分析列于表102 表102例10.1资料回归关系的方差分析 回归 174.8886 174.8886 1640 离回归 74.6670 10.6667 249.5556 在表103,得到F=1640>F0,所以同样表明积温和一代三化螟盛发期是有真实直线回 归关系的,即B≠0(准确地说,在B=0的总体中获得现有回归样本的概率小于001) (3)相关系数法 凡符合回归分析的资料都符合相关分析的要求,这样回归分析中也可计算相关系数。对 于直线回归而言,相关系数即标准化的回归系数。因此,同一资料的回归关系与相关关系的 显著与否是一致的,由于相关系数的计算和测验都比较容易,所以在实践中常采用计算相关 系数假设测验来完成对回归关系的假设测验。具体方法待学过直线相关分析即知 上述三种测验方法在任何回归样本上的测验结果都完全一致。因为相关系数的测验就用 的t测验,而在同一概率值下,η=1、n2-2的一尾F值,正好是vn2的两尾t值的平方 即F=。如本例,F=1640,=-405,(-405)2=1640。事实上,由(9.13)可作恒等变换。 F=(SP)"S-(P/SS)b 所以,对直线回归作假设测验,只需选择上述测验方法之一即可。 2.两个回归系数比较时的假设测验若两个直线回归样本,分别具有样本回归系数b1、 b和总体回归系数B1、B2,则在测验b1和b2的差异显著时,有H0:月1-B2=0对 HA:B1-B2≠0。 由抽样分布的理论可以推知(参见抽样分布的标准误公式),两个样本回归系数的差数 标准误S6-b为: S 上式的S5和S2分别为X变数两个样本的平方和,52mx为两个样本回归估计的合并离回归 差,其值为 g1+Q2 (10.15) (10.15)的Q1和Q2分别为两个样本的离回归平方和,m和n为相应的样本容量
9 在例 10.1 和 10.2 已算得 SSy = 249.5556, Q = 74.6670 ,故 U = 249.5556 − 74.6670 = 174.8886,并有方差分析列于表 10.2。 表 10.2 例 10.1 资料回归关系的方差分析 变异来源 DF SS MS F F0.01 回 归 离 回 归 1 7 174.8886 74.6670 174.8886 10.6667 16.40 12.25 总 变 异 8 249.5556 在表 10.3,得到F=16.40>F0.01,所以同样表明积温和一代三化螟盛发期是有真实直线回 归关系的,即 0 (准确地说,在 = 0 的总体中获得现有回归样本的概率小于 0.01)。 (3)相关系数法 凡符合回归分析的资料都符合相关分析的要求,这样回归分析中也可计算相关系数。对 于直线回归而言,相关系数即标准化的回归系数。因此,同一资料的回归关系与相关关系的 显著与否是一致的,由于相关系数的计算和测验都比较容易,所以在实践中常采用计算相关 系数假设测验来完成对回归关系的假设测验。具体方法待学过直线相关分析即知。 上述三种测验方法在任何回归样本上的测验结果都完全一致。因为相关系数的测验就用 的 t 测验,而在同一概率值下,v1=1、v2=n-2 的一尾 F 值,正好是 v=n-2 的两尾 t 值的平方 即 F=t 2。如本例,F=16.40,t=-4.05,(-4.05)2=16.40。事实上,由(9.13)可作恒等变换。 2 2 2 2 / 2 / 2 / ( ) / ( / ) t s b s SS SP SS s SP SS F y x x b x y x x = = = = 所以,对直线回归作假设测验,只需选择上述测验方法之一即可。 2.两个回归系数比较时的假设测验 若两个直线回归样本,分别具有样本回归系数 b1、 b2 和总体回归系数 1 、 2 ,则在测验 b1 和 b2 的差异显著时,有 H0 : 1 − 2 = 0 对 H A : 1 − 2 0 。 由抽样分布的理论可以推知(参见抽样分布的标准误公式),两个样本回归系数的差数 标准误 b1 b2 s − 为: 1 2 1 2 1 2 2 / 2 2 2 / x y x x y x b b b b SS s SS s s − = s + s = + (10.14) 上式的 1 SSx 和 2 SSx 分别为 X 变数两个样本的平方和, 2 y / x s 为两个样本回归估计的合并离回归 差,其值为: ( 2) ( 2) 1 2 2 1 2 / − + − + = n n Q Q s y x (10.15) (10.15)的 Q1 和 Q2 分别为两个样本的离回归平方和,n1 和 n2为相应的样本容量
由于(b1-b2)/Sb-2遵循y=(n1-2)+(n2-2)的t分布,故由 t=b=2 (10.16) 可测定在B1-B2=0的总体中获得现有b-b2≠0的样本的概率 例105]测定两玉米品种叶片长宽乘积(x)和实际叶面积(y)的关系,得表10.3结果, 试测验两回归系数间是否有显著差异。 表10.3玉米叶片长宽乘积和叶面积关系的计算结果 七叶白 65851 0.69718 1420 石榴子 1070822 516863 743652 0.6944 由表10.4可得 1420+420 51.115l.11 =0.0092 V13518241070822 069718-0.69447 0.0092 这一结果是完全不显著的,所以应接受H0:B1=B2,即认为叶片长宽乘积每增大lcm2, 叶面积平均要增大的单位数在七叶白和石榴子两品种上是一致的,其共同值为 b=s4+ 942483+743652 1351824+1070822 =069598(cm2cm2) 注意:上式的b是两个回归系数的加权平均数,它不等于(b+b2)2。 三、直线回归的区间预测 经假设测验表明显著的回归方程可用来进行预测,由于回归方程的建立是用样本数据 它与相应的回归总体有误差,如进行点的预测往往与实际有较大出入,因此,比较科学的办 法应是考虑到误差的大小和坐标点的离散程度,作出区间预测。 1.条件总体平均数山yx的区间预测根据回归模型的定义,每一个X上都有一个变数 的条件总体,该条件总体的平均数为山yx,而其样本估计值为j,其标准误为: 于是预测条件总体平均数山y/x的95%置信区间为
10 由于 1 2 ( )/ 1 2 b b b b s − − 遵循 ( 2) ( 2) v = n1 − + n2 − 的 t 分布,故由 1 2 1 2 b b s b b t − − = (10.16) 可测定在 1 − 2 = 0 的总体中获得现有 b1 −b2 0 的样本的概率。 [例 10.5] 测定两玉米品种叶片长宽乘积(x)和实际叶面积(y)的关系,得表 10.3 结果, 试测验两回归系数间是否有显著差异。 表 10.3 玉米叶片长宽乘积和叶面积关系的计算结果 品 种 N SSx SSy SP B Q 七叶白 石榴子 22 18 1 351 824 1 070 822 658 513 516 863 942 483 743 652 0.69718 0.69447 1 420 420 由表 10.4 可得: 0.3 0.0092 0.69718 0.69447 0.0092 1070822 51.11 1351824 51.11 51.11 (22 2) (18 2) 1420 420 1 2 2 / = − = = + = = − + − + = − t s s b b y x 这一结果是完全不显著的,所以应接受 0 1 2 H : = ,即认为叶片长宽乘积每增大 1cm2, 叶面积平均要增大的单位数在七叶白和石榴子两品种上是一致的,其共同值为: 0.69598 (cm /cm ) 1351824 1070822 1 2 942483 743652 2 2 1 2 = + + = + + = SSx SSx SP SP b 注意:上式的 b 是两个回归系数的加权平均数,它不等于(b1+b2)/2。 三、直线回归的区间预测 经假设测验表明显著的回归方程可用来进行预测,由于回归方程的建立是用样本数据, 它与相应的回归总体有误差,如进行点的预测往往与实际有较大出入,因此,比较科学的办 法应是考虑到误差的大小和坐标点的离散程度,作出区间预测。 1.条件总体平均数 Y / X 的区间预测 根据回归模型的定义,每一个 X 上都有一个变数 的条件总体,该条件总体的平均数为 Y / X ,而其样本估计值为 y ˆ ,其标准误为: SSx x x n S y S y x 2 ˆ / 1 ( − ) = + (10.17) 于是预测条件总体平均数 Y / X 的 95%置信区间为: