《田间试验统计》第十章直线回归和相关分析.doc_大学文库

第十章直线回归和相关分析以前各章所述的统计方法都只涉及X一种变数,其统计分析的主要目的可概括为试验结果的比较,即对一种变数间的差异是否显著进行测验,从而确定对不同处理试验结果的取舍。本章则是介绍研究Ⅹ、Y两种数间关系的统计分析方法。第一节回归和相关意义基本概念在自然界和生产实践中有许多现象、事物之间存在相互关系或相互影响,例如:人的体重和力气,施肥量与作物产量,降水量、温度和某作物病害发生程度等,显然通过对各种现象间变数关系的统计分析,从而对现象间相互关系进行研究有重要意义。为了研究这些相互关系需要新的统计方法,若是两个变数的关系,可分别用变数符号X 和Y表示。一般变数之间的关系可以分为两类:一类是函数关系,另一类是统计关系。函数关系是一种确定性的关系,一个变数的取值和变化完全取决于另一个或几个变数的取值和变化。例如:圆面积与半径的关系为S=mR2,对于任意一个半径值R,必能求得一个唯一的面积值S,两者之间的关系是完全确定的。函数关系不包含误差的干扰,常见于物理学、化学等理论科学统计关系是一种非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既有关系,但又不存在完全确定的函数关系。例如:作物的产量与施肥量的关系,适宜的施肥量下产量较高,施肥量不足则产量较低。但这种关系并不是完全确定的,即使施肥量完全相同,两块同样面积土地上的产量也不会相等。在实验科学中两类因受误差的干扰而表现为统计关系,这在农学和生物学中常见对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将这两个变数的n对观察值(x,y)、(x,n)…、(x,y)分别以坐标点的形式标记于同一直角坐标平面上,获得散点图( scatter diagram)。根据散点图可初步判定双变数X和Y间的关系,包括:①X和y相关的性质(正或负)和密切程度:②X和Y的关系是直线型的还是非直线型的;③是否有一些特殊的点表示着其他因素的干扰等。例如图1是水稻方面的3幅散点图

1 第十章直线回归和相关分析以前各章所述的统计方法都只涉及 X 一种变数，其统计分析的主要目的可概括为试验结果的比较，即对一种变数间的差异是否显著进行测验，从而确定对不同处理试验结果的取舍。本章则是介绍研究Ｘ、Ｙ两种数间关系的统计分析方法。第一节回归和相关意义一、基本概念在自然界和生产实践中有许多现象、事物之间存在相互关系或相互影响，例如：人的体重和力气，施肥量与作物产量，降水量、温度和某作物病害发生程度等，显然通过对各种现象间变数关系的统计分析，从而对现象间相互关系进行研究有重要意义。为了研究这些相互关系需要新的统计方法，若是两个变数的关系，可分别用变数符号 X 和 Y 表示。一般变数之间的关系可以分为两类：一类是函数关系，另一类是统计关系。函数关系是一种确定性的关系，一个变数的取值和变化完全取决于另一个或几个变数的取值和变化。例如：圆面积与半径的关系为 2 S = R ，对于任意一个半径值 R，必能求得一个唯一的面积值 S，两者之间的关系是完全确定的。函数关系不包含误差的干扰，常见于物理学、化学等理论科学。统计关系是一种非确定性的关系，即一个变数的取值受到另一变数的影响，两者之间既有关系，但又不存在完全确定的函数关系。例如：作物的产量与施肥量的关系，适宜的施肥量下产量较高，施肥量不足则产量较低。但这种关系并不是完全确定的，即使施肥量完全相同，两块同样面积土地上的产量也不会相等。在实验科学中两类因受误差的干扰而表现为统计关系，这在农学和生物学中常见。对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法，是将这两个变数的 n 对观察值（x1，y1）、（x2，y2）、…、（xn，yn）分别以坐标点的形式标记于同一直角坐标平面上，获得散点图（scatter diagram）。根据散点图可初步判定双变数 X 和 Y 间的关系，包括：①X 和 Y 相关的性质（正或负）和密切程度；②X 和 Y 的关系是直线型的还是非直线型的；③是否有一些特殊的点表示着其他因素的干扰等。例如图 1 是水稻方面的 3 幅散点图

2 图 10.1A 是单株的生物产量（X）和稻谷产量（Y），图 10.1B 是每平方米土地上的总颖花数（X）和结实率（Y），图 10.1C 是最高叶面积指数（X）和每亩稻谷产量（Y）。从中可以看出：①图 10.1A 和 10.1B 都是直线型的，但方向相反；前者 Y 随X 的增大而增大，表示两个变数的关系是正的，后者 Y 随 X 的增大而减小，表示关系是负的。②图 10.1A 的各个点几乎都落在一直线上，图 10.1B 则较为分散；因此，图 10.1A 中X 和 Y相关的密切程度必高于图 10.1B。③图 10.1C 中 X 和 Y 的关系是非直线型的；大约在 x≤（6~7）时，Y 随 X 的增大而增图 10.1A 水稻单株生物产量与大，而当 x>（6~7）时，Y 随 X 的增大稻谷产量的散点图而减小。图 10.1B 水稻每平方米颖花数和结实率的散点图图 10.1C 水稻最高叶面积指数和 667m2产量的散点图二、回归分析和相关分析根据研究目的和依据的数学模型不同，统计关系的分析方法有两种。 1．回归分析对两个变数进行回归分析是定量地研究 X 和 Y的数值变化规律，根据这种规律可由一个变数的变化来估计另一个变数的变化。在回归模型中，两个变数有因果关系，原因变数称自变数(independent variable)，一般用 X 表示；结果变数称依变数(dependent variable)，以 Y表示。 X 是已知的或是可控制的，没有误差或误差很小，而 Y 则不仅随 X 的变化而变化，还要受到随机误差的影响。例如在施肥量和产量的关系中，施肥量是产量变化的原因，是自变数（X）；产量是对施肥量的反应，是依变数（Y）。施肥量X 是事先确定的，但产量 Y是依 X 的变化和误差影响而变化。 X 和 Y 间数值变化关系用回归方程（regerssion equation）来描述。回归分析就是用试验或调查得到的样本数据，建立回归方程并对其进行测验显著后，应用该方程根据 X 的变化来估计 Y 的变化，从而达到预测（报）的目的

根据涉及变数的多少和变数间关系的形式,回归分析有一元直线回归分析、多元线性回归分析和非线性回归分析等不同类型 2.相关分析对两个变数进行相关分析,其目的是研究X和Y间有无相关以及相关程度、相关性质(方向)。在相关模型中,两个变数是平行的,没有因果关系的自变数和依变数之分,且皆有随机 X和Y间的相关与否,用表示相关特征的统计数r来反映,r称相关系数( correlation coefficient)。相关分析就是用样本数据计算出r,并对其进行测验后,就可以回答X、Y间有无相关和相关程度等问题。除了本章介绍的,两个变数为直线的相关分析外,还有多元相关分析等其它类型通常将计算回归方程为基础的统计方法称为回归分析,将计算相关系数为基础的统计方法称相关分析。理论上两个变数是因果关系,X没有误差(或很小)而Y含有误差时,应进回归分析。X和Y是平行关系,均含有误差时应进行相关分析。然而在回归分析中往往含有相关分析的信息,在相关分析中也包含回归分析的信息。所以在实践中,一个资料究竟是采用回归分析还是相关分析,并没有严格界限,多可取决于研究目的。许多资料还可以同时进行这两种分析第二节直线回归分析、直线回归方程 1.直线回归方程式对于在散点图上呈直线趋势的两个变数,如果要概括其在数量上的互变规律,即从X的数量变化来预测或估计y的数量变化,则要采用直线回归方程( linear regression equation)来描述。此方程的通式为: a+b 上式读作“y依x的直线回归方程”。其中x是自变数;j是和x的量相对应的依变数的点估计值;a是x=0时的j值,即回归直线在y轴上的截距( regression intercept);b是x每增加一个单位数时,j平均地将要增加(b>0时)或减少(b0时)的单位数,叫回归系数 (regression coefficient) 要使j=a+bx能够最好地代表y和x在数量上的互变关系,根据最小二乘法,必须使 Q=∑(-)2=∑(y-a-b)2为最小因此,分别对a和b求偏导数并令其为0,即可获得正规方程组( normal equations)

3 根据涉及变数的多少和变数间关系的形式，回归分析有一元直线回归分析、多元线性回归分析和非线性回归分析等不同类型。 2．相关分析对两个变数进行相关分析，其目的是研究 X 和 Y间有无相关以及相关程度、相关性质（方向）。在相关模型中，两个变数是平行的，没有因果关系的自变数和依变数之分，且皆有随机误差。 X 和 Y 间的相关与否，用表示相关特征的统计数 r 来反映，r 称相关系数(correlation coefficient)。相关分析就是用样本数据计算出 r，并对其进行测验后，就可以回答 X、Y 间有无相关和相关程度等问题。除了本章介绍的，两个变数为直线的相关分析外，还有多元相关分析等其它类型。通常将计算回归方程为基础的统计方法称为回归分析，将计算相关系数为基础的统计方法称相关分析。理论上两个变数是因果关系，X 没有误差（或很小）而 Y 含有误差时，应进行回归分析。X 和 Y 是平行关系，均含有误差时应进行相关分析。然而在回归分析中往往含有相关分析的信息，在相关分析中也包含回归分析的信息。所以在实践中，一个资料究竟是采用回归分析还是相关分析，并没有严格界限，多可取决于研究目的。许多资料还可以同时进行这两种分析。第二节直线回归分析一、直线回归方程 1．直线回归方程式对于在散点图上呈直线趋势的两个变数，如果要概括其在数量上的互变规律，即从 X 的数量变化来预测或估计 Y的数量变化，则要采用直线回归方程（linear regression equation）来描述。此方程的通式为： y ˆ = a + bx 上式读作“y 依 x 的直线回归方程”。其中 x 是自变数； y ˆ 是和 x 的量相对应的依变数的点估计值；a 是 x=0 时的 y ˆ 值，即回归直线在 y 轴上的截距（regression intercept）；b 是 x 每增加一个单位数时， y ˆ 平均地将要增加（b>0 时）或减少（b<0 时）的单位数，叫回归系数（regression coefficient）。要使 y ˆ = a + bx 能够最好地代表 y 和 x 在数量上的互变关系，根据最小二乘法，必须使 = − = − − n n Q y y y a bx 1 1 2 2 ( ˆ) ( ) 为最小因此，分别对 a 和 b 求偏导数并令其为 0，即可获得正规方程组（normal equations）：

4      +  =  +  =  a x b x xy an b x y 2 解之得： a = y −bx （10.2） SS x SP x x x x y y x n x x y n xy b =  −  − − =  −   −   = 2 2 2 ( ) ( )( ) ( ) 1 1 （10.3）（10.3）的分子 (x − x)( y − y) 是 x 的离均差和 y 的离均差的乘积之和，简称乘积和（sum of products），记作 SP；分母是 x 的离均差平方和，记作 SSx。将（10.2）、(10.3)算得的 a 和 b 值代入（10.1），即可保证 2 Q = (y − y) 为最小，同时使 (y − y) = 0 。 a 和 b 值皆可正可负，随具体资料而异。当 a>0 时，表示回归直线在 I、II 象限交于 y 轴；当 a0 时，表示 y 随 x 的增大而增大；当 b<0 时，表示 y 随 x 的增大而减小；参见图 10.2。若 b=0 或和 0 的差异不显著，则表明 y 的变异和 x 的取值大小无关，直线回归关系不能成立。以上是 a 和 b 值的统计学解释。在具体问题中，a 和 b 值将有专业上的实际意义。将(10.2)代入(10.1)可得： y ˆ = (y −bx) +bx = y +b(x − x) （10.4）由（10.4）可见：①当 x = x 时，必有 y ˆ = y ，所以回归直线一定通过( x , y )坐标点。（记住这一特性，有助于绘制具体资料的回归直线）。②当 x 以离均差（ x − x ）为单位时，回归直线的位置仅决定于 y 和 b。③当将坐标轴平移到以( x , y )为原点时，回归直线的走向仅决定于 b，所以一般又称 b 为回归斜率（regression slope）。 2．直线回归方程的计算以一个实例说明回归统计数计算的过程。 [例 10.1] 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续 9 年测定 3 月下旬至 4 月中旬平均温度累积值（x，旬·度）和水稻一代三化螟盛发期（y，以 5 月 10 日为 0）的关系，得结果于表 10.1。试计算其直线回归方程。首先由表 10.1 算得回归分析所必须的 6 个一级数据（即由观察值直接算得的数据）： (35.5 12) (34.1 16) [44.2 ( 1)] 2436.4 * 12 16 ( 1) 794 12 16 ( 1) 70 35.5 34.1 44.2 12517.49 35.5 34.1 44.2 333.7 9 2 2 2 2 2 2 2 2  =  +  + +  − =  = + + + − =  = + + + − =  = + + + =  = + + + = =      x y y y x x n

5 然后，由一级数据算得 5 个二级数据：表 10.1 累积温和一代三化螟盛发期的关系 x 累积温 y 盛发期 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2 12 16 9 2 7 3 13 9 -1 / 70 / 9 7.7778 / 333.7 / 9 37.0778 / 2436 .4 (333.7 70) / 9 159.0444 * ( ) / 794 (70) / 9 249.5556 ( ) / 12517 .49 (333.7) / 9 144.6356 2 2 2 2 2 2 =  = = =  = = =  −   = −  = − =  −  = − = =  −  = − = y y n x x n SP xy x y n SS y y n SS x x n y x 因而有： = / = −159.0444 /144.6356 = −1.0996[天/(旬度)] b SP SSx a = y −bx = 7.778 −(−1.0996 37.0778) = 48.5485(天) 故得表 10.1 资料的回归方程为： y ˆ = 48.5485 −1.0996 x 或化简成： y ˆ = 48.5−1.1x 上述方程中回归系数和回归截距的意义为：当 3 月下旬至 4 月中旬的积温(x)每提高 1 旬·度时，一代三化螟的盛发期平均将提早 1.1 天；若积温为 0，则一代三化螟的盛发期将在 6 月 27－28 日（x=0 时， y ˆ = 48.5 ；因 y 是以 5 月 10 日为 0，故 48.5 为 6 月 27－28 日）。由于 x 变数的实测区间为[31.7，44.2]，当 x44.2 时，y 的变化是否还符合 y ˆ = 48.5−1.1x 的规律，观察数据中未曾得到任何信息。所以，在应用 y ˆ = 48.5−1.1x 于预测时，需限定 x 的区间为[31.7，44.2]；如要在 x44.2 的区间外延，则必须有新的依据。 3．直线回归方程的图示直线回归图包括回归直线的图像和散点图，它可以醒目地表示 x 和 y 的数量关系。制作直线回归图时，首先以 x 为横坐标，以 y 为纵坐标构建直角坐标系（纵、横坐标皆需标明名称和单位）；然后取 x 坐标上的一个小值 x1 代入回归方程得 1 y ˆ ，取一个大值 x2代入回归方程得 2 y ˆ ，连接坐标点（ 1 1 x , y ˆ ）和（ 2 2 x , y ˆ ）即成一条回归直线。如例 10.1 资料，以 x1=31.7 代入回归方程得 y ˆ 1 =13.69 ；以 x2=44.2 代入回归方程得 y ˆ 2 = −0.05 。在图 10.3 上确定（31.7，13.69）和（44.2，-0.05）这两个点，再连接之，即为 y ˆ = 48.5485 −1.0996 x 的直线图像。注意：此直线必通过点( x, y )，它可以作为制图是否正确的核对。最后，将实测的各对图 10.2 直线回归方程 y ˆ = a + bx 的图像

(x,y)数值也用坐标点标于图103上图103的回归直线是9个观察坐标点的代表,它不仅表示了例10.1资料的基本趋势,也便于预测。如某年3月下旬至4 月中旬的积温为40旬·度,则在图103上可查到一代三化螟盛发期的点估计值在5 月14-15日,这和将x=40代入原方程得到y=485485-(1.096×40)=46是一致的。因为回归直线是综合9年结果而得出的一般趋势,所以其代表性比任何一个实际的坐标点都好。当然,这种估计仍然有 x,3月下旬至4月中旬旬平均温度累积值随机误差,下文再作讨论。图10.3旬平均温度累积值和 4.直线回归的估计标准误代三化螟盛发期的关系由图10.3可见,满足Q=∑(y-y)2为最小的直线回归方程和实测的观察点并不重合, 表明该回归方程仍然存在随机误差。Q就是误差的一种度量,称之为离回归平方和( sum of squares due to deviation from regression)或剩余平方和。由于在建立回归方程时用了a和b两个统计数,故Q的自由度v=n-2。因而,可定义回归方程的估计标准误s为 2-{= 若各个观察点愈靠近回归线,s将愈小(极端地说,当各观察点都落在回归线上时 =0);若各观察点在回归线上下分散得愈远,则愈大。故样本的s是回归精确度的度量,s/愈小,由回归方程估计y的精确性愈高计算s的主要手续在于求Q。直接计算不仅步骤多、工作量大,而且若数字保留位数不够,会引入较大的计算误差。为简化手续,可从以下恒等式得出 Q=∑(y-y)2=SS (10.6) [例10.2]试计算由表101资料获得的回归方程的估计标准据(10.6)由例10.1算好的有关数据可直接得到: Q=249556(-159044) 1446356=746670 将算得Q代入(10.5)式有 7466 =3.266(天) 上述计算表明,当用回归方程j=485485-10996x,由3月下旬至4月中旬的积温预测代三化螟发期时,有一个3266天的估计标准误。它的统计意义是:在y±3266天范围内约有6827%个观察点,在y±6532天范围内约有9545%个观察点等

6 （xi，yi）数值也用坐标点标于图 10.3 上。图 10.3 的回归直线是 9 个观察坐标点的代表，它不仅表示了例 10.1 资料的基本趋势，也便于预测。如某年 3 月下旬至 4 月中旬的积温为 40旬·度，则在图 10.3 上可查到一代三化螟盛发期的点估计值在 5 月 14－15 日，这和将 x=40 代入原方程得到 y = 48.5485 −(1.0996 40) = 4.6 是一致的。因为回归直线是综合 9 年结果而得出的一般趋势，所以其代表性比任何一个实际的坐标点都好。当然，这种估计仍然有 x,3 月下旬至 4月中旬旬平均温度累积值随机误差，下文再作讨论。图 10.3 旬平均温度累积值和一 4．直线回归的估计标准误代三化螟盛发期的关系由图 10.3 可见，满足 2 Q = (y − y ˆ) 为最小的直线回归方程和实测的观察点并不重合，表明该回归方程仍然存在随机误差。Q 就是误差的一种度量，称之为离回归平方和（sum of squares due to deviation from regression）或剩余平方和。由于在建立回归方程时用了 a 和 b 两个统计数，故 Q 的自由度 v=n-2。因而，可定义回归方程的估计标准误 sy/x为： 2 ( ˆ) 2 2 / −  − = − = n y y n Q s y x （10.5）若各个观察点愈靠近回归线，sy/x 将愈小（极端地说，当各观察点都落在回归线上时， sy/x=0）；若各观察点在回归线上下分散得愈远，则 sy/x愈大。故样本的 sy/x是回归精确度的度量，sy/x愈小，由回归方程估计 y 的精确性愈高。计算 sy/x 的主要手续在于求 Q。直接计算不仅步骤多、工作量大，而且若数字保留位数不够，会引入较大的计算误差。为简化手续，可从以下恒等式得出： x y SS SP Q y y SS 2 2 ( ) = ( − ˆ) = − （10.6） [例 10.2] 试计算由表 10.1 资料获得的回归方程的估计标准误。据（10.6）由例 10.1 算好的有关数据可直接得到： 74.6670 144.6356 ( 159.0444) 249.5556 2 = − Q = − 将算得 Q 代入（10.5）式有： 3.266( ) 9 2 74.6670 / = 天 − S y x = 上述计算表明，当用回归方程 y ˆ = 48.5485 −10996 x ，由 3 月下旬至 4 月中旬的积温预测一代三化螟发期时，有一个 3.266 天的估计标准误。它的统计意义是：在 y ˆ  3.266 天范围内约有 68.27%个观察点，在 y ˆ  6.532 天范围内约有 95.45%个观察点等

5.直线回归的数学模型和基本假定回归分析的依据是直线回归模型。在这一模型中,Y总体的每一个值由以下三部分组成 ①回归截距a,②回归系数β,③Y变数的随机误差ε。因此,总体直线回归的数学模型可表示为: Y,=a+Bx,+E (10.7) 其中,E1~N(0a2)。相应的样本线性组成为: =a+bx:+ (10.8) 在按上述模型进行回归分析时,假定: (1)Y变数是随机变数,而X变数则是没有误差的固定变数,至少和Y变数比较起来X 的误差小到可以忽略。 (2)在任一X上都存在着一个Y总体(可称为条件总体),它是作正态分布的,其平均数山yx是x的线性函数 unix=a+B (10.9) y/x的样本估计值j,j与X的关系就是线性回归方程(9.1) (3)所有的Y总体都具有共同的方差G2,这一方差不因X的不同而不同,而直线回总体具有N(a+Bx,2)。试验所得的一组观察值(x,y)只是Ma+Bx,a2)中的一个随机样本。 (4)随机误差E相互独立,并作正态分布,具有N(0,2) 因此,模型中的参数共有a,即直线的截距;B,即直线的斜率;σ2,误差的方差。其样本的相应的估计值为a、b和s3/x 理解上述模型和假定,有助于正确地进行回归分析。二、直线回归的假设测验 1.回归关系的假设测验若X和y变数总体并不存在直线回归关系,则随机抽取的一个样本也能用上述方法算得个直线方程y=a+bx。显然,这样的回归方程是靠不住的。所以对于样本的回归方程,必须测定其来自无直线回归关系总体的概率大小。只有当这种概率小于005或0.01时,我们才能冒较小的风险确认其所代表的总体存在着直线回归关系。这就是回归关系的假设测验,其测验方法有以下三种。 (1)测验由(104)可推知,若总体不存在直线回归关系,则总体回归系数B=0 若总体存在直线回归关系,则B≠0。所以对直线回归的假设测验为H0:B=0对H4:B≠0。由(10.3)可推得回归系数b的标准误sb为 ∑(x-x)

7 5．直线回归的数学模型和基本假定回归分析的依据是直线回归模型。在这一模型中，Y总体的每一个值由以下三部分组成： ①回归截距 a，②回归系数  ，③Y 变数的随机误差  。因此，总体直线回归的数学模型可表示为： Yj X j j = +  + （10.7）其中， ~ (0, ) 2    j N 。相应的样本线性组成为： j j j y = a +bx +e （10.8）在按上述模型进行回归分析时，假定：（1）Y 变数是随机变数，而 X 变数则是没有误差的固定变数，至少和 Y 变数比较起来 X 的误差小到可以忽略。（2）在任一 X 上都存在着一个 Y 总体（可称为条件总体），它是作正态分布的，其平均数 Y / X 是 X 的线性函数： Y / X = a + X （10.9） Y / X 的样本估计值 y ˆ ， y ˆ 与 X 的关系就是线性回归方程（9.1）。（3）所有的 Y总体都具有共同的方差 2   ，这一方差不因 X 的不同而不同，而直线回归总体具有 2 ( , N a + X   ）。试验所得的一组观察值（xi，yi）只是 ( , ) 2 N a + X   中的一个随机样本。（4）随机误差  相互独立，并作正态分布，具有 (0, ) 2 N   。因此，模型中的参数共有 a，即直线的截距；  ，即直线的斜率； 2   ，误差的方差。其样本的相应的估计值为 a、b 和 2 y / x s 。理解上述模型和假定，有助于正确地进行回归分析。二、直线回归的假设测验 1．回归关系的假设测验若 X 和 Y 变数总体并不存在直线回归关系，则随机抽取的一个样本也能用上述方法算得一个直线方程 y ˆ = a + bx 。显然，这样的回归方程是靠不住的。所以对于样本的回归方程，必须测定其来自无直线回归关系总体的概率大小。只有当这种概率小于0.05 或 0.01时，我们才能冒较小的风险确认其所代表的总体存在着直线回归关系。这就是回归关系的假设测验，其测验方法有以下三种。（1）t 测验由（10.4）可推知，若总体不存在直线回归关系，则总体回归系数  = 0 ；若总体存在直线回归关系，则   0 。所以对直线回归的假设测验为 H0 :  = 0对HA :   0。由（10.3）可推得回归系数 b 的标准误 sb 为： x y x y x b SS s x x s s / 2 2 / ( ) =  − = （10.10）

9 在例 10.1 和 10.2 已算得 SSy = 249.5556, Q = 74.6670 ,故 U = 249.5556 − 74.6670 = 174.8886，并有方差分析列于表 10.2。表 10.2 例 10.1 资料回归关系的方差分析变异来源 DF SS MS F F0.01 回归离回归 1 7 174.8886 74.6670 174.8886 10.6667 16.40 12.25 总变异 8 249.5556 在表 10.3，得到F=16.40>F0.01，所以同样表明积温和一代三化螟盛发期是有真实直线回归关系的，即   0 （准确地说，在  = 0 的总体中获得现有回归样本的概率小于 0.01）。（3）相关系数法凡符合回归分析的资料都符合相关分析的要求，这样回归分析中也可计算相关系数。对于直线回归而言，相关系数即标准化的回归系数。因此，同一资料的回归关系与相关关系的显著与否是一致的，由于相关系数的计算和测验都比较容易，所以在实践中常采用计算相关系数假设测验来完成对回归关系的假设测验。具体方法待学过直线相关分析即知。上述三种测验方法在任何回归样本上的测验结果都完全一致。因为相关系数的测验就用的 t 测验，而在同一概率值下，v1=1、v2=n-2 的一尾 F 值，正好是 v=n-2 的两尾 t 值的平方即 F=t 2。如本例，F=16.40，t=-4.05，（-4.05）2=16.40。事实上，由（9.13）可作恒等变换。 2 2 2 2 / 2 / 2 / ( ) / ( / ) t s b s SS SP SS s SP SS F y x x b x y x x = = = = 所以，对直线回归作假设测验，只需选择上述测验方法之一即可。 2．两个回归系数比较时的假设测验若两个直线回归样本，分别具有样本回归系数 b1、 b2 和总体回归系数 1 、  2 ，则在测验 b1 和 b2 的差异显著时，有 H0 : 1 −  2 = 0 对 H A : 1 −  2  0 。由抽样分布的理论可以推知（参见抽样分布的标准误公式），两个样本回归系数的差数标准误 b1 b2 s − 为： 1 2 1 2 1 2 2 / 2 2 2 / x y x x y x b b b b SS s SS s s − = s + s = + （10.14）上式的 1 SSx 和 2 SSx 分别为 X 变数两个样本的平方和， 2 y / x s 为两个样本回归估计的合并离回归差，其值为： ( 2) ( 2) 1 2 2 1 2 / − + − + = n n Q Q s y x （10.15）（10.15）的 Q1 和 Q2 分别为两个样本的离回归平方和，n1 和 n2为相应的样本容量

《田间试验统计》 第十章 直线回归和相关分析

《田间试验统计》第十章直线回归和相关分析