第六章协方差分析 协方差分析是把方差分析与回归分析结合起来的一种统计分析方法。它用于比较一个变 量Y在一个或几个因素不同水平上的差异,但Y在受这些因素影响的同时,还受到另一个变 量X的影响,而且X变量的取值难以人为控制,不能作为方差分析中的一个因素处理。此时 如果X与Y之间可以建立回归关系,则可用协方差分析的方法排除X对Y的影响,然后用方 差分析的方法对各因素水平的影响作出统计推断。在协方差分析中,我们称Y为因变量,X 为协变量 也许有人会问随机因素的影响也是不能人为控制的,为什么不能把X作为一种随机因素 处理呢?这里的差异主要在于作为随机因素处理时虽然每一水平的影响是不能人为控制的, 但我们至少可以得到几个属于同一水平的重复,因此可以把它们分别用另一因素的不同水平 处理。最后在进行方差分析时,我们才能排除这一随机因素的影响,对另一因素的各水平进 行比较。这一点可从以下的计算公式中看出来: Ss4=∑(x-X)2 SSB=∑(x-x)2 在上述公式中,如果第一个下标i变化时相同的j所代表的第二个因素的水平都不相 同,就没有理由认为下面的(*)式一定会成立,也就不能认为SSA仅是第一个因素的影响 对于系统分组的方差分析,虽然不同的i中同一个j的取值可以不同,但仍要求 ∑B()=0,i=12…a 这样就保证了在x中可以消去第二个因素的影响。如果我们对第二个因素的取值完全无法 控制,那就意味着对于不同的i,β的变化是完全没有规律的,当然也就不可能满足上述的 (*)式,此时就没有办法采用方差分析的方法,只能把第二个因素视为另一个变量X,试 试用协方差分析的方法排除它的影响了 例如当我们考虑动物窝别对增重的影响时,一般我们可把它当作随机因素处理,这一方 面是由于它不容易数量化,另一方面是同一窝一般有几只动物,可分别接受另一因素不同水 平的处理;如果我们考虑试验开始前动物初始体重的影响,这时一般方法是选初始重量相同 的动物作为一组,分别接受另一因素的不同水平处理,此时用方差分析也无问题。但若可供 试验的动物很少,初始体重又有明显差异,无法选到相同体重的动物,那就只好认为初始体 重X与最终体重Y有回归关系,采用协方差分析的方法排除初始体重的影响,再来比较其他 因素例如饲料种类,数量对增重的影响了 消除初始体重影响的另一种方法是对最终体重与初始体重的差值即yⅹ进行统计分析 这种方法与协方差分析的生物学意义是不同的。对差值进行分析是假设初始体重对以后的体 重增量没有任何影响,而协方差分析则是假设最终体重中包含初始体重的影响,这种影响的 大小与初始体重成正比。如果这一比值为1,协方差分析与对差值进行方差分析是相同的。 但如果比值不为1,它们的结果将是不同的。也就是说协方差分析是假设使初始体重不同的 因素在以后的生长过程中也会发挥作用,而对差值进行方差分析是假设这些因素以后不再发 挥作用:这两种生物学假设显然是不同。希望同学们在学习一种统计方法时不仅要注意它与
第六章 协方差分析 协方差分析是把方差分析与回归分析结合起来的一种统计分析方法。它用于比较一个变 量 Y 在一个或几个因素不同水平上的差异,但 Y 在受这些因素影响的同时,还受到另一个变 量 X 的影响,而且 X 变量的取值难以人为控制,不能作为方差分析中的一个因素处理。此时 如果 X 与 Y 之间可以建立回归关系,则可用协方差分析的方法排除 X 对 Y 的影响,然后用方 差分析的方法对各因素水平的影响作出统计推断。在协方差分析中,我们称 Y 为因变量,X 为协变量。 也许有人会问随机因素的影响也是不能人为控制的,为什么不能把 X 作为一种随机因素 处理呢?这里的差异主要在于作为随机因素处理时虽然每一水平的影响是不能人为控制的, 但我们至少可以得到几个属于同一水平的重复,因此可以把它们分别用另一因素的不同水平 处理。最后在进行方差分析时,我们才能排除这一随机因素的影响,对另一因素的各水平进 行比较。这一点可从以下的计算公式中看出来: 2 . .. = ( − ) i SS A Xi X = − j SSB X j X 2 .. ( ) 在上述公式中,如果第一个下标 i 变化时相同的 j 所代表的第二个因素的水平都不相 同,就没有理由认为下面的(*)式一定会成立,也就不能认为 SSA 仅是第一个因素的影响 了。对于系统分组的方差分析,虽然不同的 i 中同一个 j 的取值可以不同,但仍要求 = = = b j j i i a 1 ( ) 0, 1,2, (*) 这样就保证了在 X i. 中可以消去第二个因素的影响。如果我们对第二个因素的取值完全无法 控制,那就意味着对于不同的 i,βj 的变化是完全没有规律的,当然也就不可能满足上述的 (*)式,此时就没有办法采用方差分析的方法,只能把第二个因素视为另一个变量 X,试 试用协方差分析的方法排除它的影响了。 例如当我们考虑动物窝别对增重的影响时,一般我们可把它当作随机因素处理,这一方 面是由于它不容易数量化,另一方面是同一窝一般有几只动物,可分别接受另一因素不同水 平的处理;如果我们考虑试验开始前动物初始体重的影响,这时一般方法是选初始重量相同 的动物作为一组,分别接受另一因素的不同水平处理,此时用方差分析也无问题。但若可供 试验的动物很少,初始体重又有明显差异,无法选到相同体重的动物,那就只好认为初始体 重 X 与最终体重 Y 有回归关系,采用协方差分析的方法排除初始体重的影响,再来比较其他 因素例如饲料种类,数量对增重的影响了。 消除初始体重影响的另一种方法是对最终体重与初始体重的差值即 y-x 进行统计分析。 这种方法与协方差分析的生物学意义是不同的。对差值进行分析是假设初始体重对以后的体 重增量没有任何影响,而协方差分析则是假设最终体重中包含初始体重的影响,这种影响的 大小与初始体重成正比。如果这一比值为 1,协方差分析与对差值进行方差分析是相同的。 但如果比值不为 1,它们的结果将是不同的。也就是说协方差分析是假设使初始体重不同的 因素在以后的生长过程中也会发挥作用,而对差值进行方差分析是假设这些因素以后不再发 挥作用;这两种生物学假设显然是不同。希望同学们在学习一种统计方法时不仅要注意它与
其他方法算法上有什么不同,更要注意算法背后的生物学假设有什么不同,这种深层次的理 解有助于我们在今后的工作中选取正确的统计方法。 由于协方差分析的过程包含了对协变量影响是否存在及其大小等一系列统计检验与估 计,它显然比对差值进行分析等方法有更广泛的适用范围,因此除非有明显证据说明对差值 进行分析的生物学假设是正确的,一般情况下还是应采用协方差分析的方法。 协方差分析的计算是比较复杂的。在本章中我们重点介绍最简单的协方差分析的算法, 即一个协变量,单因素的协方差分析。 6.1协方差分析的基本原理 我们以最简单的情况:一个协变量,单因素的协方差分析为例对协方差分析的基本原理 加以说明。 统计模型: 在协方差分析中,我们认为每一个因变量的观察值可分解为以下各部分的和: y=u+a,+B(x-x)+a (6.1) 其中y:第ⅰ水平的第j次观察值 x;:i水平的j次观察的协变量取值。 x:x;的总平均数 :y的总平均数 an:第i水平的效应 β:Y对X的线性回归系数。 En:随机误差 需要满足的条件为: (1)E~ND(0,02) (2)B≠0,即Y与X存在线性关系,且各水平回归系数相等,即协变量的影响不随水平 的变化而改变 (3)处理效应之和为0,即:∑a1=0。 上述第三个条件说明该因素为固定因素。若为随机因素,则应该为处理效应的方差为0 模型(6.1)式也可写为: yu=u+a+Bx+ei (6.2) 这种写法看起来简单一点,它的缺点是μ不再是Y的总平均值,因为y.=4'+压.。我们 以后的讨论针对(61)式进行 协方差分析的统计量 进行协方差分析需计算以下统计量
其他方法算法上有什么不同,更要注意算法背后的生物学假设有什么不同,这种深层次的理 解有助于我们在今后的工作中选取正确的统计方法。 由于协方差分析的过程包含了对协变量影响是否存在及其大小等一系列统计检验与估 计,它显然比对差值进行分析等方法有更广泛的适用范围,因此除非有明显证据说明对差值 进行分析的生物学假设是正确的,一般情况下还是应采用协方差分析的方法。 协方差分析的计算是比较复杂的。在本章中我们重点介绍最简单的协方差分析的算法, 即一个协变量,单因素的协方差分析。 §6.1 协方差分析的基本原理 我们以最简单的情况:一个协变量,单因素的协方差分析为例对协方差分析的基本原理 加以说明。 一、 统计模型: 在协方差分析中,我们认为每一个因变量的观察值可分解为以下各部分的和: ij i ij ij y = + + (x − x..) + (6.1) i = 1, 2 … a, j = 1, 2 … n。 其中 yij:第 i 水平的第 j 次观察值。 xij:i 水平的 j 次观察的协变量取值。 .. x :xij 的总平均数。 :yij 的总平均数。 i :第 i 水平的效应。 β:Y 对 X 的线性回归系数。 ij :随机误差。 需要满足的条件为: (1) ij ~NID(0, σ2 ) (2)β≠0,即 Y 与 X 存在线性关系,且各水平回归系数相等,即协变量的影响不随水平 的变化而改变。 (3)处理效应之和为 0,即: = = a i i 1 0 。 上述第三个条件说明该因素为固定因素。若为随机因素,则应该为处理效应的方差为 0。 模型(6.1)式也可写为: ij i ij ij y = + + x + , (6.2) 这种写法看起来简单一点,它的缺点是不再是 Y 的总平均值,因为 y.. x.. = + 。我们 以后的讨论针对(6.1)式进行。 二、 协方差分析的统计量: 进行协方差分析需计算以下统计量:
y y2-y2 (x-x. x j)=∑∑ (x.)·(y.) T=∑∑(1-p)2=∑y2-y2/am ∑∑(x-x.)2=∑x2-x2 ∑∑x-x,-)=∑(xXx ∑(y2-元) i=l j= Ey=∑∑(x1-xy-元,)=S 其中S,T,E分别代表总的,处理的和误差的(包括协变量的影响)平方和及交叉乘积 和。它们的关系可表示为 S=T+E 这实际是平方和的分解。同学们可自行证明其交叉项为0。 三、协方差分析的原理 协方差分析的核心思想是通过对因变量Y进行调整,消去协变量X的影响,从而能对 另一因素不同水平的影响进行统计检验。在模型中,各参数的估计量为: b a1=J-.-b(x-x.) 其中b=E 误差平方和为 SS=E -bE =E-E/E 它的自由度为:df=a(n-1)-1。这是因为Sy的自由度为an-1,Ty的自由度为a-1,所 以Ey的自由度为an-1-a+1=a(n-1)而bExy为一个一元回归平方和,自由度为1,所 以SS的自由度为a(n-1)-1 MSe=SSe/a(n-1)-1l 注意上述计算中用的是E而不是S,即对每一个水平分别计算后再加起来的,因此是排 除了,影响的回归
= = = = = = = = = = = = = − − = − = − = − = − = − a i n j i j i j a i n j xy i j i j a i n j i j a i n j xx i j a i n j i j a i n j yy i j an x y S x x y y x y S x x x x an S y y y y an 1 1 1 1 1 1 2 .. 2 1 1 2 1 1 2 .. 2 1 1 2 ( ..) ( ..) ( ..)( ..) ( ..) / ( ..) / = = = = = = = = = = − − = − = − = − = − = − a i i i a i n j xy i i a i i a i n j xx i a i i a i n j yy i x y an x y n T x x y y x x an n T x x y y an n T y y 1 . . 1 1 . . 1 2 .. 2 . 1 1 2 . 1 2 .. 2 . 1 1 2 . ( ..) ( ..) 1 ( )( ) 1 ( ..)( ..) / 1 ( ..) / 1 ( ..) xy xy a i n j xy ij i ij i xx xx a i n j xx ij i yy yy a i n j yy ij i E x x y y S T E x x S T E y y S T = − − = − = − = − = − = − = = = = = = 1 1 . . 1 1 2 . 1 1 2 . ( )( ) ( ) ( ) 其中 S,T,E 分别代表总的,处理的和误差的(包括协变量的影响)平方和及交叉乘积 和。它们的关系可表示为: S = T + E 这实际是平方和的分解。同学们可自行证明其交叉项为 0。 三、协方差分析的原理: 协方差分析的核心思想是通过对因变量 Y 进行调整,消去协变量 X 的影响,从而能对 另一因素不同水平的影响进行统计检验。在模型中,各参数的估计量为: ˆ .. ( ..) ˆ ˆ .. . * . * y y b x x b y i = i − − i − = = 其中 xx xy E E b = * 。误差平方和为: SSe Eyy b Exy Eyy Exy Exx / * 2 = − = − 它的自由度为:dfe = a(n − 1) − 1。这是因为 Syy 的自由度为 an − 1, Tyy 的自由度为 a − 1, 所 以 Eyy 的自由度为 an − 1 − a + 1 = a(n − 1), 而 b *Exy 为一个一元回归平方和,自由度为 1,所 以 SSe的自由度为 a(n − 1) − 1。 MSe = SSe / [a(n − 1) − 1] 注意上述计算中用的是 E 而不是 S,即对每一个水平分别计算后再加起来的,因此是排 除了 i 影响的回归
我们希望检验:H0:a1=0,i=12,…a。在此假设下,统计模型变为: +B(x1-x.) 这是一个一元回归问题,此时μ和B的最小二乘估计为: u=y B=b 误差平方和为 其中S2/S,为Y对X的回归平方和。 若H不成立,则SS中会有a1的影响,因此会明显偏大。它们的差SS。一SS就是各a 对总变差的贡献,自由度为a-1。所以我们可用下述统计量对H作检验: 1,a(n-1)-1) (63) (n-1)-1 若F大于查表得到的上单尾分位数,则拒绝H0,即各水平效应明显不同 我们可以把协方差分析与方差分析作一比较 若不存在协变量影响,即β=0,模型变为 yi=1+ 这是单因素方差分析。总变差为Sy,误差平方和为Ey,处理平方和Ty=Sy-Ey,我们 用 M a /(a(n-1) 作统计检验 若β≠0,我们用它对Sy和Ey作调整:把Ey调整为SS作为误差估计,由于又用了 个估计量b,又减少了一个自由度,SSe的自由度变为an-1)-1;Sy调整为SSa,它与 SS的差作为处理平方和的估计,它的自由度仍为a-1。因此,调整后的统计量变为(63) 式 从上面的分析可见,处理平均数实际上包括了处理效应和协变量的回归效应,经过
我们希望检验: H0 :i = 0, i = 1,2, a 。在此假设下,统计模型变为: ij ij ij y = + (x − x..) + 这是一个一元回归问题,此时 和 的最小二乘估计为: ˆ = y.. xx xy S S = b = ˆ 误差平方和为: , 2 ' xx xy e yy S S SS = S − df = an − 2。 其中 Sxy Sxx / 2 为 Y 对 X 的回归平方和。 若 H0 不成立,则 ' e SS 中会有 i 的影响,因此会明显偏大。它们的差 SSe − SSe ' 就是各 i 对总变差的贡献,自由度为 a − 1。所以我们可用下述统计量对 H0 作检验: ~ ( 1, ( 1) 1) ( 1) 1 1 ' − − − − − − − = F a a n a n SS a SS SS F e e e (6.3) 若 F 大于查表得到的上单尾分位数,则拒绝 H0,即各水平效应明显不同。 我们可以把协方差分析与方差分析作一比较: 若不存在协变量影响,即 =0,模型变为: ij i ij y = + + 这是单因素方差分析。总变差为 Syy,误差平方和为 Eyy,处理平方和 Tyy = Syy − Eyy,我们 用 /( ( 1)) /( 1) − − = E a n T a ME MT yy yy yy yy 作统计检验。 若 0,我们用它对 Syy和 Eyy 作调整:把 Eyy 调整为 SSe作为误差估计,由于又用了一 个估计量 b *,又减少了一个自由度,SSe的自由度变为 a(n − 1) − 1; Syy 调整为 ' e SS ,它与 SSe的差作为处理平方和的估计,它的自由度仍为 a − 1。因此,调整后的统计量变为(6.3) 式。 从上面的分析可见,处理平均数 i. y 实际上包括了处理效应和协变量的回归效应,经过
调整后变为: =一b(x1一.),i=1,2,…a y已消去了协变量的影响,只有处理效应了。它是模型中4+a1的最小二乘估计。可以证 明它的标准误差为 MSel- 1(x,-x.) 这实际上一元回归中条件均值估计的标准误差。 进行协方差分析应满足的条件有: (1)玩1~NIDO0,G2) (2)β1=β2=…=βa=B (3)β≠0 在做协方差分析的过程中应对上述条件进行检验。 §62协方差分析的计算过程 本节中我们给出较详细的协方差分析计算过程,包括全部应进行的条件检验。 (1)对各处理水平,分别计算协变量与因变量的回归方程,并求出各处理内的剩余平方和 s9,49S9,.为组内剩余平方和,其自由度们=-2 (2)令MS= SSe /(n-2),t=1,2,…a,并利用它们检验方差齐性。可选取差异最大 的两个的比值作F统计检验,若无显著差异,则可认为具有方差齐性。 (3)把各处理水平的平方和及交叉乘积和合并得到Ey,Ex,Exy;并求得公共回归系数 E 及S=E-E2/Ex,称为误差平方和,它的自由度为df=a 1)-1 (4)检验各处理水平的回归线是否平行: 阝2 B3=B。由于组内剩余平方和SS完全是由随机误差引起,而用共同的b 计算出的SS则包含了随机误差及各水平回归系数b的差异的影响,而且可证明它是可以分 解的,所以有: 其自由度可6=d-d=a-1,令 MS,=SS,/df 然后用 F=MS/MS G 作检验。若差异不显著,则可认为各β相等
调整后变为: ' ( ..), 1,2, , . * y i. = yi. − b xi − x i = a . ' i y 已消去了协变量的影响,只有处理效应了。它是模型中 +i 的最小二乘估计。可以证 明它的标准误差为: ] 1 ( ..) [ 2 . xx i y i E x x n S MSe − = + 这实际上一元回归中条件均值估计的标准误差。 进行协方差分析应满足的条件有: (1)ij ~ NID(0, 2 ) (2)1 = 2 = … = a = (3) 0 在做协方差分析的过程中应对上述条件进行检验。 §6.2 协方差分析的计算过程 本节中我们给出较详细的协方差分析计算过程,包括全部应进行的条件检验。 (1)对各处理水平,分别计算协变量与因变量的回归方程,并求出各处理内的剩余平方和 Gi SSe ,令 = = a i Gi e G SSe SS 1 ,称为组内剩余平方和,其自由度 df = a(n − 2) G e 。 (2)令 MS SS n i a Gi e Gi e = /( − 2), = 1,2, ,并利用它们检验方差齐性。可选取差异最大 的两个的比值作 Fmax 统计检验,若无显著差异,则可认为具有方差齐性。 (3)把各处理水平的平方和及交叉乘积和合并得到 Eyy, Exx, Exy;并求得公共回归系数 xx xy E E b = * ,及 SSe Eyy Exy Exx / 2 = − ,称为误差平方和,它的自由度为 dfe = a(n − 1) − 1。 (4)检验各处理水平的回归线是否平行: H0: 1 = 2 = … = a = 。由于组内剩余平方和 G SSe 完全是由随机误差引起,而用共同的 b * 计算出的 SSe则包含了随机误差及各水平回归系数 bi 的差异的影响,而且可证明它是可以分 解的,所以有: G SSb = SSe − SSe 其自由度 df = df − df = a −1 G b e e ,令 MSb SSb dfb = / 然后用 G F MSb MSe = / 作检验。若差异不显著,则可认为各 i 相等
(5)检验回归是否显著 H:B=0。利用(2)的结果,SSs=E2/Ex,dR=1。S:=Ey-Ss,d:=a(n-1)- 令MS=SSe/(a(n-1)-1),可用 F=SS2/MS。~F((n-1)-1) 对上述Ho作检验。若差异显著则作协方差分析,若差异不显著则直接作单因素方差分析。 (6)协方差分析 计算: ∑∑ S=∑∑xy-(x)() 令 /S F (a-1,a(n-1)-1) MS 利用上述统计量F对Ho:a1=0,i=1,2,…a作上单尾检验。若差异显著,则认为各处理 水平间效果有显著差异。 (7)计算调整平均数y,即+a1的估计值 y.-b(x2-.),i=1, 其标准差为:S2=A(+(-x) E 必要时可用它对上述估计值间差异是否显著作检验 总结:协方差分析的原理及步骤(设a=3) (1)检验条件:先作三条回归线,求出各组的误差估计SS。并检验是否相等(方差齐性), 通过检验后合并各SS求出MS为误差估计 再假设三线平行(有共同的b),在此假设下求出SSc,用SS。-SS对SS°检验上述 假设。通过检验后用MS。代替MS
(5)检验回归是否显著: H0: = 0。利用(2)的结果, / , 1 2 SSR = Exy Exx dfR = 。SSe = Eyy − SSR,dfe = a(n − 1) − 1。 令 MSe = SSe / (a(n − 1) − 1),可用 F = SS / MS ~ F(1,a(n −1) −1) R e 对上述 H0 作检验。若差异显著则作协方差分析,若差异不显著则直接作单因素方差分析。 (6)协方差分析: 计算: = = = − a i n j yy ij y an S y 1 1 2 2 .. 1 = = = − a i n j xx ij x an S x 1 1 2 2 .. 1 = = = − a i n j xy ij ij x y an S x y 1 1 ( ..) ( ..) 1 令 / , ' 2 SSe = Syy − Sxy Sxx , ~ ( 1, ( 1) 1) 1 ' − − − − − = F a a n MS a SS SS F e e e 利用上述统计量 F 对 H0 :i = 0, i = 1,2, a 作上单尾检验。若差异显著,则认为各处理 水平间效果有显著差异。 (7)计算调整平均数 . ' i y ,即 +i 的估计值。 y' i yi b (xi. x..),i 1,2, a * . = . − − = 其标准差为: ] 1 ( ..) [ 2 . xx i y i e E x x n S MS − = + 必要时可用它对上述估计值间差异是否显著作检验。 总结:协方差分析的原理及步骤(设 a=3) (1)检验条件:先作三条回归线,求出各组的误差估计 Gi SSe 并检验是否相等(方差齐性), 通过检验后合并各 Gi SSe 求出 G MSe 为误差估计。 再假设三线平行(有共同的 b *),在此假设下求出 SSe,用 G SSe − SSe 对 G SSe 检验上述 假设。通过检验后用 MSe代替 G MSe
再检验b是否为0。令SS=E2/Ex,F=SS2/MS2;通过检验则直接作方差分析, 否则做协方差分析 (2)协方差分析:检验各水平效应是否均为0:H0:a1=0。在此假设下,可把三组数据 合并,作一个回归方程,它的剩余平方和SS包含了a1的影响。令F=—-1一,检验a MS 影响是否明显比随机误差大 (3)对平均数进行调整,即对∝1作出估计,必要时进行多重比较。 例6.1比较三种猪饲料A1,A2,A3的效果。Ⅹ为初始重量,Y为增重量,数据见下表。 X|1513111212161417 x1=13.750 Y|8583657680918490 巧1=81.750 x2=18625 Y|9790100951031069994 y2=98000 X222420232527303 x2=25375 Y|89918395100102105110 y3=96.875 解:首先进行条件的检验。 (1)对每一种饲料分别作回归分析,得: y1=4875,Sxyt=110.5,Sx=31.5 a1=33516,b1=3.506,SS=99.873 Sy2=184,Sxy2=65,Sxx2=27.875 a2=54.570,b2=2.332,SS。=32431 Sy3=566.875,Sxy3=245.375,Sx3=115.875, a3=43.131,b3=2.118,SS83=47273 组内剩余平方和:SS=>SSo"=179.577 (2)检验方差齐性:由于各水平重复数均为8,误差自由度均为6。可选差异最大的SSc和 SS2作检验:
再检验 b *是否为 0。令 SSR Exy Exx F SSR MSe / , / 2 = = ;通过检验则直接作方差分析, 否则做协方差分析。 (2)协方差分析:检验各水平效应是否均为 0:H0 :i = 0 。在此假设下,可把三组数据 合并,作一个回归方程,它的剩余平方和 ' e SS 包含了 i 的影响。令 e e e MS a SS SS F 1 ' − − = ,检验 i 影响是否明显比随机误差大。 (3)对平均数进行调整,即对 i 作出估计,必要时进行多重比较。 例 6.1 比较三种猪饲料 A1,A2,A3 的效果。X 为初始重量,Y 为增重量,数据见下表。 A1 X 15 13 11 12 12 16 14 17 x1 =13.750 Y 85 83 65 76 80 91 84 90 y1 = 81.750 A2 X 17 16 18 18 21 22 19 18 x2 =18.625 Y 97 90 100 95 103 106 99 94 y2 = 98.000 A3 X 22 24 20 23 25 27 30 32 x3 = 25.375 Y 89 91 83 95 100 102 105 110 y3 = 96.875 解:首先进行条件的检验。 (1)对每一种饲料分别作回归分析,得: Syy1 = 487.5, Sxy1 = 110.5, Sxx1 = 31.5, a1 = 33.516, b1 = 3.506, 99.873 1 = G SSe Syy2 = 184, Sxy2 = 65, Sxx2 = 27.875, a2 = 54.570, b2 = 2.332, 32.431 2 = G SSe Syy3 = 566.875, Sxy3 = 245.375, Sxx3 = 115.875, a3 = 43.131, b3 = 2.118, 47.273 3 = G SSe 组内剩余平方和: = = = 3 1 179.577 i Gi e G SSe SS (2)检验方差齐性:由于各水平重复数均为 8,误差自由度均为 6。可选差异最大的 G1 SSe 和 G2 SSe 作检验:
Fmax=99873/32.431=3.080 由于共有3组,因此a=3:各组自由度均为6,因此v=6。查Fm临界值表。得 Fmax,005(3,6)=8.38>Fn 可认为具有方差齐性。 (3)合并各水平的平方和及交叉乘积和: Ey=1238375,Exy=420.875,Ex=17525 b=Ex/Ex=2.402,Ss:=Ey-E2/E=227615 (4检验回归线是否平行:H:b=b2=b3=b SSh=SS.-SS=48.038 F= M/S SSb/248038/2 2.408 /18179577/18 查表,F09(2,18)=3.55>F,∴接受H0,可认为三回归线平行,即有公共回归系数b (5)检验回归是否显著:Ho:B=0 SS。=E,-SS.=1010.76 F=SS/MS 1010.76 =8881 227.615/3×(8-1)-1) 查表,F09(1,20)=8096<F,∴差异极显著,X与Y有极显著线性关系,应作协方差分析。 (6)把所有数据放在一起,算得: y=2555958,Sx=1080.75,Sx=720.5 (7)协方差分析:H0:a1=a2=a3=0 SS=S,-S2/S,=934.833 (934833-227615)/2 =31.071 227615/20 查表,Fo9(2,20)=5.849<F,∴拒绝H,各不同饲料增重效果差异极显著 (8)为比较各饲料好坏,计算调整平均数y1: 元-b'(x1-x),i=1,2,3 代入数据,得: 1=81.750-2402×(13.750-1925)=94961 y2=98000-2402×(18625-1925)=99.501 y3.=96875-2402×(25375-1925)=82163 从调整后的数据看来,第二种饲料效果最好,第一种稍差,而第三种差得较多。但从调 整前的数据看是第二种最好,第三种几乎与第二种相同,而第一种差得多。这种调整前的差 异是不正确的,因为它包含了初始体重的影响。第三组初始体重明显偏大,而第一组偏小, 这影响了对两种饲料的正确评价
Fmax = 99.873 / 32.431 = 3.080 由于共有 3 组,因此 a=3;各组自由度均为 6,因此 v=6。查 Fmax,临界值表。得: Fmax, 0.05(3, 6)= 8.38 > Fmax, 可认为具有方差齐性。 (3)合并各水平的平方和及交叉乘积和: Eyy = 1238.375, Exy = 420.875, Exx = 175.25 b * = Exy / Exx = 2.402, SSe = Eyy − Exy Exx / 2 = 227.615 (4)检验回归线是否平行: H0 : b1 = b2 = b3 = b* SSb = SSe − G SSe = 48.038 2.408 179.577 /18 48.038 / 2 /18 / 2 = = = = G e b G e b SS SS MS MS F 查表,F0.95(2, 18) = 3.55 > F, ∴接受 H0,可认为三回归线平行,即有公共回归系数 b *。 (5)检验回归是否显著:H0 : β= 0 88.81 227.615/(3 (8 1) 1) 1010.76 / 1010.76 = − − = = = − = R e R yy e F SS MS SS E SS 查表,F0.99(1, 20) = 8.096 < F,∴差异极显著,X 与 Y 有极显著线性关系,应作协方差分析。 (6)把所有数据放在一起,算得: Syy = 2555.958, Sxy = 1080.75, Sxx = 720.5 (7)协方差分析: H0 :1 = 2 =3 = 0 31.071 227.615/ 20 1 (934.833 227.615)/ 2 / 934.833, ' ' 2 = − = − − = = − = e e e e yy xy xx MS a SS SS F SS S S S 查表,F0.99(2, 20) = 5.849 < F,∴拒绝 H0,各不同饲料增重效果差异极显著。 (8)为比较各饲料好坏,计算调整平均数 . ' i y : ' ( . ..), 1,2,3 * y i. = yi. − b xi − x i = 。 代入数据,得: ' 96.875 2.402 (25.375 19.25) 82.163 ' 98.000 2.402 (18.625 19.25) 99.501 ' 81.750 2.402 (13.750 19.25) 94.961 3. 2. 1. = − − = = − − = = − − = y y y 从调整后的数据看来,第二种饲料效果最好,第一种稍差,而第三种差得较多。但从调 整前的数据看是第二种最好,第三种几乎与第二种相同,而第一种差得多。这种调整前的差 异是不正确的,因为它包含了初始体重的影响。第三组初始体重明显偏大,而第一组偏小, 这影响了对两种饲料的正确评价
如果希望对各调整后的平均数据作统计比较,可用公式S2=A+(-x)计 E 算它们的样本方差:(分别记为S2,S2,S32)。 S2=1138075×[/8+(13.750-1925)2/175.25]=33870 S2=1138075×[/8+(18.625-1925)2/17525]=14480 S2=1138075×[/8+(25375-1925)2/17525]=38589 自由度均为20 先比较和y2 =99501-94961=2065 3.3870+14480 查表,得:t097(20)=2.086,t99(20)=2845 差异已接近显著水平,但仍未达到。故应认为第二种饲料近似地与第一种相同。 再比较和 94.961-82.163 4.754>109s(20) 3.3870+38589 ,差异极显著。第三种饲料极明显地差于第一种。由于第二种平均值大于第一种,方差小于 第一种,故第二种与第三种的差异更大。即第三种极明显地差于其他两种。 注意由于M是用全部数据算出的公共的误差估计,其自由度为20,因此1-y2的子 样方差为 MS x1-x)21(x2-x)2 E 自由度仍应为20,而不是40。 作业 61为使小麦变矮,增强抗倒伏力,喷洒了三种药物。Ⅹ为喷药前株髙,Y为喷后株高。 药物1 3 33 37 l15 药物2 43 l12 106 110 117 121 114 药物3 33 437 37 41 107112117109120116 先作单因素方差分析,再作协方差分析,并对结果加以比较。 62为比较三头公牛后代产奶量,收集以下数据:y为头胎产奶量,x为产奶期间的平均体 重。请进行统计检验
如果希望对各调整后的平均数据作统计比较,可用公式 ] 1 ( ) [ 2 2 . .. xx i y i e E x x n S MS − = + 计 算它们的样本方差:(分别记为 2 3 2 2 2 1 S , S , S )。 11.38075 [1/ 8 (25.375 19.25) /175.25] 3.8589 11.38075 [1/ 8 (18.625 19.25) /175.25] 1.4480 11.38075 [1/ 8 (13.750 19.25) /175.25] 3.3870 2 2 3 2 2 2 2 2 1 = + − = = + − = = + − = S S S 自由度均为 20。 先比较 1. y' 和 2. y' : 2.065 3.3870 1.4480 99.501 94.961 = + − t = 查表,得:t0.979(20) = 2.086,t0.995(20) = 2.845 ∴差异已接近显著水平,但仍未达到。故应认为第二种饲料近似地与第一种相同。 再比较 1. y' 和 3. y' : 4.754 (20) 3.3870 3.8589 94.961 82.163 0.995 t = t + − = ∴差异极显著。第三种饲料极明显地差于第一种。由于第二种平均值大于第一种,方差小于 第一种,故第二种与第三种的差异更大。即第三种极明显地差于其他两种。 注意由于 MSe 是用全部数据算出的公共的误差估计,其自由度为 20,因此 1. 2. y' −y' 的子 样方差为 ] 1 ( ) 1 ( ) [ 2 2. .. 2 1. .. xx xx e E x x E n x x n MS − + + − + , 自由度仍应为 20,而不是 40。 作业 6.1 为使小麦变矮,增强抗倒伏力,喷洒了三种药物。X 为喷药前株高,Y 为喷后株高。 药物 1 X 29 31 33 33 37 40 Y 112 106 115 117 120 117 药物 2 X 40 41 43 46 48 49 Y 112 106 110 117 121 114 药物 3 X 33 34 37 37 41 42 Y 107 112 117 109 120 116 先作单因素方差分析,再作协方差分析,并对结果加以比较。 6.2 为比较三头公牛后代产奶量,收集以下数据:y 为头胎产奶量,x 为产奶期间的平均体 重。请进行统计检验
公牛 女儿1女儿2女儿3女儿4女儿5女儿6女儿 364 397 317 4370 4720 5310 3340 4360 5560 3360 330 336 352 2990 3820 42004490 3740 3920 377 324 347 324 47005010 4160 3870 5510
公牛 女儿 1 女儿 2 女儿 3 女儿 4 女儿 5 女儿 6 女儿 7 A x 364 368 397 317 348 407 319 y 4370 4720 5310 3340 4360 5560 3360 B x 344 330 336 352 267 315 y 2990 3820 4200 4490 3740 3920 C x 377 325 324 347 324 y 4700 5010 4160 3870 5510