第七章方差分析 第一节方差分析的意义 在第五章里介绍了一个或两个样本平均数的假设测验方法,即t测验或u测验的方法, 但在农业科学试验中,更多见的是研究多个样本(处理)之间的差异。当对多个平均数作差 异显著性测验时,如果采用t测验或u测验的方法分别作出测验存在着以下三个缺陷。首先, 对于一个多样本资料采用两两平均数间分别作差异显著性测验非常麻烦,会使统计工作量加 大。因为对k个样本平均数进行两两平均数间分别作差异显著性测验,所有可能的平均数差 值为k(k-1)/2个,当k较大时,统计工作量将骤然加大,甚至无法承受。其次,从统计上夸 大了样本间的差异,增加了犯第一类错误(否定正确的假设)的概率。这是因为,当假设 两个样本随机抽自同一正态总体时,其样本平均数的差数(x-x2)落到抽样分布总体N -2,a2-)否定区间的概率(事先规定的显著水平a)被扩大了。若对每两个样 本测验的显著水平都取α=0.05,实际上的显著水平己不是a=0.05,而是a>0.05。例如 对于一个均数差值(x1一x2)犯第一类错误的概率为005,两个均数差值时则为 0.95=00975:而10个均数差值时犯第一类错误的概率则将达到1-0.950=04013了。再次, 对于一个多样本的试验资料,样本间是属于内在关联(尤其是试验误差)的信息整体,这时 若对两两平均数间单独进行假设测验,就等于将这一整体割裂开来。从统计的大数定律可知 这将带来误差自由度的损失,并影响对误差估计的精度。因此,对多样本平均数的假设测验, 需采用一种更为合适的统计方法一差分析 方差分析的统计方法是由英国著名统计学家 R.A. Fisher于1923年提出来的。方差分析的 基本原理是将总变异分裂为各个因素的相应变异,作出其数量估计,从而发现各个因素在变 异中所占的重要程度;除了可控因素所引起的变异外,用其他剩余变异来准确而无偏的估计 试验误差,作为统计假设测验的依据:再通过显著性检验F测验,发现各个因素在变异 中所占的重要程度,进而对无效假设H0:4=2=…=(各样本的总体平均数相等作出 统计推断。 方差分析在农业试验资料的统计分析中占有十分重要的地位,是最常用的一种统计分析 方法。特别是在多因素试验和各种田间设计的试验中,方差分析可以帮助我们发现起主要作 用的因素,从而抓住主要矛盾或关键措施
1 第七章 方差分析 第一节 方差分析的意义 在第五章里介绍了一个或两个样本平均数的假设测验方法,即 t 测验或 u 测验的方法, 但在农业科学试验中,更多见的是研究多个样本(处理)之间的差异。当对多个平均数作差 异显著性测验时,如果采用 t测验或 u 测验的方法分别作出测验存在着以下三个缺陷。首先, 对于一个多样本资料采用两两平均数间分别作差异显著性测验非常麻烦,会使统计工作量加 大。因为对 k 个样本平均数进行两两平均数间分别作差异显著性测验,所有可能的平均数差 值为 k(k-1)∕2 个,当 k 较大时,统计工作量将骤然加大,甚至无法承受。其次,从统计上夸 大了样本间的差异,增加了犯第一类错误(否定正确的假设 H0)的概率。这是因为,当假设 两个样本随机抽自同一正态总体时,其样本平均数的差数( 1 2 x − x )落到抽样分布总体 N ( 1 − 2, 2 1 2 − )否定区间的概率(事先规定的显著水平 )被扩大了。若对每两个样 本测验的显著水平都取 = 0.05 ,实际上的显著水平已不是 = 0.05 ,而是 >0.05。例如, 对于一个均数差值( 1 2 x − x )犯第一类错误的概率为 0.05,两个均数差值时则为 1- 0.952=0.0975;而 10个均数差值时犯第一类错误的概率则将达到 1-0.9510=0.4013了。再次, 对于一个多样本的试验资料,样本间是属于内在关联(尤其是试验误差)的信息整体,这时 若对两两平均数间单独进行假设测验,就等于将这一整体割裂开来。从统计的大数定律可知, 这将带来误差自由度的损失,并影响对误差估计的精度。因此,对多样本平均数的假设测验, 需采用一种更为合适的统计方法―差分析。 方差分析的统计方法是由英国著名统计学家 R.A.Fisher 于 1923 年提出来的。方差分析的 基本原理是将总变异分裂为各个因素的相应变异,作出其数量估计,从而发现各个因素在变 异中所占的重要程度;除了可控因素所引起的变异外,用其他剩余变异来准确而无偏的估计 试验误差,作为统计假设测验的依据;再通过显著性检验 F 测验,发现各个因素在变异 中所占的重要程度,进而对无效假设 H0 1 = 2 == k : (各样本的总体平均数相等)作出 统计推断。 方差分析在农业试验资料的统计分析中占有十分重要的地位,是最常用的一种统计分析 方法。特别是在多因素试验和各种田间设计的试验中,方差分析可以帮助我们发现起主要作 用的因素,从而抓住主要矛盾或关键措施
第二节方差分析的步骤 、自由度与平方和的分解 在第三章中已介绍过,样本方差也称为均方,即样本标准差的平方,它是一个表示变异 的量,是平方和除以自由度的商。因此,要将一个试验资料的总变异分裂成各个变异来源的 相应变异,首先必须将总的自由度与平方和分解为各个变异来源的相应部分,即自由度与平 方和的分解是方差分析的第一个步骤 现以具有k个处理,每个处理含有n个重复观察值,共有m个观察值的试验资料为例, 来说明自由度与平方和分解的过程。这种类型的资料常来自于盆栽试验等完全随机试验设计, 资料的整理方法见表71。 表7.1各处理重复观察值数目相等的完全随机试验数据符号表 处理 重复观察值 T1 1.平方和的分解 在方差分析中,经常用线性模型来表示观察值的变异来源构成,表7.1资料的线性模型 表达为 式中:μ为在假设全部数据都随机抽自同一正态分布总体时的总体平均数:τ;为第i处理对 x的效应;E为x的随机误差,以上各参数的样本估计值分别为 =(x-x,)En=(x-x) 因此,上述线性模型由样本估计时的表达式为 x=x.+(x1…x…)+(x-x2) 如将上述表达式(72)中的x项移至等式左边,可得到离均差形式
2 第二节 方差分析的步骤 一、自由度与平方和的分解 在第三章中已介绍过,样本方差也称为均方,即样本标准差的平方,它是一个表示变异 的量,是平方和除以自由度的商。因此,要将一个试验资料的总变异分裂成各个变异来源的 相应变异,首先必须将总的自由度与平方和分解为各个变异来源的相应部分,即自由度与平 方和的分解是方差分析的第一个步骤。 现以具有 k 个处理,每个处理含有 n个重复观察值,共有 nk个观察值的试验资料为例, 来说明自由度与平方和分解的过程。这种类型的资料常来自于盆栽试验等完全随机试验设计, 资料的整理方法见表 7.1。 表 7.1 各处理重复观察值数目相等的完全随机试验数据符号表 处 理 重 复 观 察 值 Ti. i x . 1 11 x … j x1 … n x1 T1. 1 x . ┇ ┇ ┇ ┇ ┇ ┇ i i1 x … ij x … in x Ti. i x . ┇ ┇ ┇ ┇ ┇ ┇ k k1 x … kj x … kn x Tk. k x . 总 和 T.. x .. 1.平方和的分解 在方差分析中,经常用线性模型来表示观察值的变异来源构成,表 7.1 资料的线性模型 可表达为 xij = μ+ τi +εij (7.1) 式中:µ为在假设全部数据都随机抽自同一正态分布总体时的总体平均数;τi 为第 i 处理对 xij 的效应;εij 为xij的随机误差,以上各参数的样本估计值分别为 ˆ = x .. i ˆ =( i x .- x ..) ij ˆ =( ij x - i x .) 因此,上述线性模型由样本估计时的表达式为 ij x = x ..+( i x .- x ..)+( ij x - i x .) (7.2) 如将上述表达式(7.2)中的 x ..项移至等式左边,可得到离均差形式 ( ij x - x ..)=( i x .- x ..)+( ij x - i x .) (7.3)
(73)式表明任一观察值x,与总平均数x之差都可分解为处理效应和误差效应两部分 如果我们用离均差平方总和(即平方和)这一表示数据变异程度大小的统计量来表示这些变 异,则得到关系式 k k ∑Σ(x1-x…)2=nΣ(x,·x.)+∑∑(x;-x.)2 (74) i=l j=l i=l j=l 式中∑∑(xx)2为总变异平方和,用SSr表示n2(x…x)2为处理平方和,用SS i=l j= 表示;三兰(x)2为误差平方和,用S表示。即 Ss =SS+ss (7.5) 在实际应用计算中各公式分别为 SSr=∑x (7.6) k 其中称为矫正数,记为C,即 (7.7) (78) (7.9) 2自由度的分解 总变异自由度也可分解为两部分,即总变异自由度=处理间自由度+误差自由度。总变 异自由度用vr表示:处理间自由度用v,表示;误差自由度用v表示。 由于计算总平方和时,资料中的各数据要受到 (xn菜)=0条件的约束,所 以,总自由度为 nk (7.10) 由于用x,计算处理间平方利时,x,要受到∑(xx)=0条件的约束,所以,处理
3 (7.3)式表明任一观察值 ij x 与总平均数 x ..之差都可分解为处理效应和误差效应两部分。 如果我们用离均差平方总和(即平方和)这一表示数据变异程度大小的统计量来表示这些变 异,则得到关系式 n j k i=1 =1 ( ij x - x ..)2 = k i n =1 ( i x .- x ..) 2+ n j k i=1 =1 ( ij x - x .)2 (7.4) 式中 n j k i=1 =1 ( ij x - x ..)2 为总变异平方和,用 SST 表示;n k i=1 ( i x .- x ..) 2 为处理平方和,用 SSt 表示; n j k i=1 =1 ( ij x - x .)2为误差平方和,用 e SS 表示。即 SST = SSt + SSe (7.5) 在实际应用计算中各公式分别为 nk T SS x T .. 2 2 = − (7.6) 其中 nk T .. 2 称为矫正数,记为 C ,即 nk T C .. 2 = (7.7) C n T SS i k i t − = = 2 . 1 (7.8) SSe = SST − SSt (7.9) 2.自由度的分解 总变异自由度也可分解为两部分,即总变异自由度=处理间自由度+误差自由度。总变 异自由度用 T v 表示;处理间自由度用 t v 表示;误差自由度用 e v 表示。 由于计算总平方和时,资料中的各数据要受到 = = k i n 1 j 1 ( ij x - x.. ) =0 条件的约束,所 以,总自由度为 vT = nk −1 (7.10) 由于用 . i x 计算处理间平方和时, . i x 要受到 = k i 1 ( . i x - x.. )=0 条件的约束,所以,处理
间自由度为 (7.11) 由于计算处理内(误差)平方和时,要受到∑(x-x)=0=1.2…A)k个条件的约束 所以,误差自由度为 实际应用公式可用 3.方差 将各变异来源的平方和除以相应的自由度,即得各变异来源的方差,有 总变异 ∑(x1-x.)2 S (713) 处理间 2_SS,n2(x-x.)2 14) (x-x)2 误差 (7.15) k(n-1) 通过计算各部分方差值的大小,可了解各变异原因所引起的变异程度的大小。 4.实例分析 例71以A、B、C、D4种药剂处理水稻种子,其中A为对照,每处理得4个苗高观察 值(cm),其结果如表72 表7.2不同药剂处理水稻的苗高(cm) 药剂 A 21 22 D 15 总和T 76 T=336 平均x 19 x=21 已知k=4,n=4,T=336,则 (1).总变异平方和与总自由度 nk4×4
4 间自由度为 vt = k −1 (7.11) 由于计算处理内(误差)平方和时,要受到 x x ij n j − = ( 1 .)=0(i=1,2,…,k) k 个条件的约束, 所以,误差自由度为 v = nk − k = k(n −1) e (7.12-1) 实际应用公式可用 e T t v = v − v (7.12-2) 3.方差 将各变异来源的平方和除以相应的自由度,即得各变异来源的方差,有 总变异 ( 1) ( ..)2 2 1 1 − − = = = = nk x x v SS S ij n j k i T T T (7.13) 处理间 ( 1) ( ..) 2 . 2 1 − − = = = nk n x x v SS S i k i t t t (7.14) 误差 ( 1) ( ) 2 . 2 1 1 − − = = = = k n x x v SS S ij i n j k i e e e (7.15) 通过计算各部分方差值的大小,可了解各变异原因所引起的变异程度的大小。 4.实例分析 [例 7.1]以 A、B、C、D 4种药剂处理水稻种子,其中 A 为对照,每处理得 4个苗高观察 值(cm),其结果如表 7.2。 表 7.2 不同药剂处理水稻的苗高(cm) 药 剂 A( 1 x .) B( 2 x .) C( 3 x .) D( 4 x .) A 19 21 20 22 B 23 24 18 25 C 21 27 19 27 D 13 20 15 22 总和 Ti 76 92 72 96 T=336 平均 i x 19 23 18 24 x =21 已知 k = 4, n = 4,T = 336 ,则 (1).总变异平方和与总自由度 7056 4 4 336 2 2 = = = nk T C
(1).总变异平方和与总自由度 SSr=∑x2-C=192+232+…+222-C 7278-7056=222 (2).处理间平方和与自由度 +72 =7160-7056=104 v.=k-1=4-1=3 (3).误差平方和与自由度 SS。=SSr-SS1=222-104=118 =k(n-1)=4×(4-1)=12 (4).各变异来源的方差 总变异Sr2= 15 处理间S 104 SS.118 983 以上药剂内方差S。2=9.83系4种药剂内变异的合并方差,它是表72资料的试验误差的估 计;而药剂间方差S12=3467则是试验误差加上不同药剂对苗高的效应 、方差分析的假设测验一F测验 F测验是方差分析的第个二步骤。在第五章里对两个样本方差相比较的差异显著性测验 (F测验)曾作过介绍。为测验假设H:012≤0x2:对HA:o12>02,我们以被测验项 的方差s12作分子,以误差的方差s2作分母,计算F=s12s2,若实得F>F0或F0,则推 断否定H,接受HA:若实得F<F00s,则推断接受H。例如,对表71类型的资料有处理间 方差s2=SS/v,误差方差s2=Sv,若要测验处理间是否有本质的差异,即测验处理间 的方差是否显著大于误差方差时,有F=s2/s2,当实得F≥F0s,但F<Fo时,我们可以推
5 (1).总变异平方和与总自由度 7278 7056 222 19 23 22 2 2 2 2 = − = SST = x − C = + ++ − C vT = nk −1= 44 −1=15 (2).处理间平方和与自由度 7160 7056 104 4 76 92 72 96 2 2 2 2 2 = − = − + + + − = = C C n T SS i t vt = k −1 = 4 −1 = 3 (3).误差平方和与自由度 SSe = SST − SSt = 222 −104 =118 ve = k(n −1) = 4 (4 −1) =12 (4).各变异来源的方差 总变异 14.80 15 2 222 = = = T T T v SS S 处理间 34.67 3 2 104 = = = t t t v SS S 误差 9.83 12 2 118 = = = e e e v SS S 以上药剂内方差 9.83 2 Se = 系 4 种药剂内变异的合并方差,它是表 7.2 资料的试验误差的估 计;而药剂间方差 34.67 2 St = 则是试验误差加上不同药剂对苗高的效应。 二、方差分析的假设测验 — F 测验 F 测验是方差分析的第个二步骤。在第五章里对两个样本方差相比较的差异显著性测验 (F 测验)曾作过介绍。为测验假设 H0:σ1 2≤σ2 2;对 HA :σ1 2>σ2 2,我们以被测验项 的方差 s1 2 作分子,以误差的方差 s2 2作分母,计算 F=s1 2 /s2 2,若实得 F>F0.05 或 F0.01,则推 断否定H0,接受 HA;若实得 F<F0.05,则推断接受 H0。例如,对表 7.1 类型的资料有处理间 方差 st 2=SSt/ t ,误差方差 se 2=SSe/ e ,若要测验处理间是否有本质的差异,即测验处理间 的方差是否显著大于误差方差时,有F=st 2 /se 2,当实得F≥F0.05,但F<F0.01 时,我们可以推
断处理间差异显著:当实得F≥Fo1时,则推断处理间差异极显著;当实得FF00s=349,故推断否定 02=0c2;接受H:02>0。2;即4种药剂间变异显著大于药剂内变异,不同药剂处理水 稻后苗高是不同的。将结果列于表7.3,即方差分析表 表7.34种药剂处理水稻苗高的方差分析 变异来源 DE MS F F 药剂间 104 34.67 3.53* 误差 12 18 9.38 总变异 14.80 *为在5%水平上显著,若*为在1%水平上极显著。 三、多重比较 F测验是一个整体概念,F测验结果显著或极显著仅表明各处理间存在显著的差异,但 无法具体说明哪些处理间差异达到显著或极显著,哪些处理间差异不显著。如例η.1,F测验 结果达到显著,仅说明4种药剂处理后水稻苗高差异显著,但在这4种药剂之间,宄竟哪两 个比较差异显著,哪两个比较差异不显著,F测验没有提供任何信息。要进一步明确这个问 题,还需要对处理平均数间作两两相比较的假设测验—一多重比较。因此,多重比较是方差 分析的第三个步骤。多重比较的方法有多种,在此仅介绍其中应用较广的3种 1. Fisher氏保护最小显著差数(PLSD)法 这种测验的实质是t测验。在第五章,我们对两个样本平均数作差异显著性测验时,是 用计算得到的t值与从t值表中查到的ta临界值相比较,从而推断其差异显著性的,即 t==12 而PLSD法是将x-x与ta·Sx-,相比较,而作出x与x之间差异显著性的推断。这里 ta·Sx-称之为最小显著差数,记为PLSD,即
6 断处理间差异显著;当实得 F≥F0.01 时,则推断处理间差异极显著;当实得 F<F0.05 时,则 推断处理间差异未达显著水平。 如对例 7.1 中的药剂处理间作 F 测验 药剂间方差 34.67 3 2 104 = = = t t t v SS S 误差方差 9.83 12 2 118 = = = e e e v SS S 则 3.53 9.83 34.67 2 2 = = = e t S S F 查附表6,υ1=3,υ2=12, F0.05=3.49,F0.01=5.95。由于F=3.53>F0.05=3.49,故推断否定 H0: σt 2=σe 2;接受 HA :σt 2>σe 2;即 4 种药剂间变异显著大于药剂内变异,不同药剂处理水 稻后苗高是不同的。将结果列于表 7.3,即方差分析表。 表 7.3 4 种药剂处理水稻苗高的方差分析 变异来源 DF SS MS F F0.05 F0.01 药剂间 3 104 34.67 3.53* 3.49 5.95 误 差 12 118 9.38 总变异 15 222 14.80 * 为在 5%水平上显著,若**为在 1%水平上极显著。 三、多重比较 F 测验是一个整体概念,F 测验结果显著或极显著仅表明各处理间存在显著的差异,但 无法具体说明哪些处理间差异达到显著或极显著,哪些处理间差异不显著。如例 7.1,F 测验 结果达到显著,仅说明 4 种药剂处理后水稻苗高差异显著,但在这 4 种药剂之间,究竟哪两 个比较差异显著,哪两个比较差异不显著,F 测验没有提供任何信息。要进一步明确这个问 题,还需要对处理平均数间作两两相比较的假设测验—多重比较。因此,多重比较是方差 分析的第三个步骤。多重比较的方法有多种,在此仅介绍其中应用较广的 3 种。 1.Fisher 氏保护最小显著差数(PLSD)法 这种测验的实质是 t 测验。在第五章,我们对两个样本平均数作差异显著性测验时,是 用计算得到的 t 值与从t 值表中查到的tα临界值相比较,从而推断其差异显著性的,即 1 2 1 2 x x s x x t − − = 而 PLSD 法是将| i j x − x |与 i j a x x t s − 相比较,而作出 i x 与 j x 之间差异显著性的推断。这里 i j a x x t s − 称之为最小显著差数,记为PLSDα,即
PLSD=ta Si-i (7.16) S=-.与S=二者之间的区别仅在于前者的 Sax 1+1)式中的合并均方S2是 由两个样本计算而来的,即s2s5+82;而后者的sx 式中的合并均方s2 是由k个样本计算而来的,即s2=s1+2+…+s,)。 V1+V2+…+vk 在例71中误差自由度v=12,查t临界值表(附表5)b01=2179和0,2=3012, 2×9.83 4=222(cm) 进而得 PLSDoos=tos·sxx.=2.179×222=48cm) PLSD0=t·sx.=3.012×2.22=68cm) 用任两个平均数的差数绝对值|x1-x,|与PLSD0s和 PLSDoon进行比较,如果 1x-x1|≥ PLSDoos而小于PLSD,说明两个样本平均数之间差异显著,则在差数的右 上角打一个“*”号;如果丨x,-x;丨≥ PLSDoO1,说明两个样本平均数之间差异极显著 则在差数的右上角打两个“*”号:如果|x-x|< CPLSDo06,说明两个样本平均数差异 不显著,则不标记。例7.1的4种药剂处理水稻苗高试验的多重比较结果列于表74。 表7.44种药剂处理水稻苗高的多重比较(列梯形表法) 水稻苗高(cm) 处理 18 x2-19 x.-23 D 5 A 19 从表74可得出结论:使用4种药剂后,水稻苗高由高至低依次为D、B、A、C,其中, D显著高于C,其他药剂间水稻苗高差异未达显著水平。 7
7 PLSDα i j a x x t s − = (7.16) 1 2 x x s − 与 i j x x s − 二者之间的区别仅在于前者的 ) 1 1 ( 1 2 2 1 2 n n s s x −x = e + 式中的合并均方 2 e s 是 由两个样本计算而来的,即 1 2 2 1 2 v v ss ss se + + = ;而后者的 n s s e x x i j 2 2 − = 式中的合并均方 se 2 是由 k 个样本计算而来的,即 k k e v v v ss ss ss s + + + + + + = 1 2 2 1 2 ( ) 。 在例 7.1 中误差自由度 ve = 12 ,查 tα临界值表(附表5)t0.05,12=2.179 和 t0.01,12=3.012, 则 2.22 4 2 2 2 9.83 = − = = n s s e x x i j (cm) 进而得 PLSD0.05= t0.05• − = 2.1792.22 = 4.8 i j x x s (cm) PLSD0.01= t0.01• − = 3.0122.22 = 6.8 i j x x s (cm) 用任两个平均数的差数绝对值∣ i j x − x ∣与 PLSD0.05 和PLSD0.01 进行比较 ,如果 ∣ i j x − x ∣≥PLSD0.05而小于 PLSD0.01,说明两个样本平均数之间差异显著,则在差数的右 上角打一个“*”号;如果∣ i j x − x ∣≥PLSD0.01,说明两个样本平均数之间差异极显著, 则在差数的右上角打两个“*”号;如果∣ i j x − x ∣<PLSD0.05,说明两个样本平均数差异 不显著,则不标记。例 7.1 的4 种药剂处理水稻苗高试验的多重比较结果列于表 7.4。 表 7.4 4 种药剂处理水稻苗高的多重比较(列梯形表法) 处理 水稻苗高(cm) (xi) 差 异 i x –18 i x -19 i x -23 D 24 6* 5 1 B 23 5 4 A 19 1 C 18 从表 7.4可得出结论:使用 4种药剂后,水稻苗高由高至低依次为 D、B、A、C,其中, D 显著高于 C,其他药剂间水稻苗高差异未达显著水平
PLSD法计算方法简单,在过去一个时期曾得到比较广泛的应用。但由于其本质仍然是t 测验,所以,犯第一类错误的缺陷依然存在。为了减少这种错误的发生, Fisher提出,仅当F 测验确认各处理间差异显著后,方可用它来作多重比较,也就是必须在使用前加以F测验的 保护。因此,统计界称此法为保护最小显著差数法。 2.新复极差(LSR)法 新复极差法又称为最小显著极差法。这一方法是 D.B. Duncan于1955年提出的,是当前 应用最广泛的一种多重比较方法。最小显著极差临界值为 LSRa=SE·SSR (7.17) 其中:SE=⑤s称之为平均数标准误:s2为误差项方差:SR,.为在自由度v,下对于不同 值的SSR值(见附表8),这里的p为被比较的两个平均数间在顺序排列的平均数序列中 所涵盖的平均数个数 在例71资料中,平均数标准误SE 1.57(cm,在误差自由度v=12 下,查p=2,3,4的SSR0和 SSRool值,并进一步计算LSRo0s和LSRo0值(见表75) 计算出LSR。后,用字母标记法将各处理平均数间的差异显著性表示出来(表76)。 表764种药剂处理水稻苗高的 表754种药剂处理水稻苗高的LSR值 多重比较(标记字母法) SSR0053.083.23 水稻苗高差异显著性 药剂 SSR0014.324.55468 (x1) 5% LSR005.124.845075.23 abb AAA LSRn2678714735 DBAC 标记字母法的作法为先将全部平均数按从大到小依次排序,在a=0.05显著水平比较 时,先在最大的平均数后面标英文小写字母a,并将该平均数与以下各平均数相比,凡差数 小于LSR值的(与相应p值下的LSRs值相比)为差异不显著,均标字母a,直到某一个 差数大于LSRa值时则标以字母b;再以标有字母b的这个平均数与其上各平均数依次相比, 凡差数不显著的标以字母b显著的则不标记:然后以标有字母b的最大平均数为标准,与 以下未标记的平均数相比,凡不显著的也标以字母b,直至与某一个平均数相差显著时标以 字母c,…,如此往复进行下去,按英文字母表顺序标记字母,直到所有的平均数都标上字 母为止。显著水平α=0.01的标记方法同于a=0.05的标记方法,只是均用英文大写字母 标记。这样各平均数后面凡有一个以上相同字母的为差异不显著:凡是一个相同字母都没有 的为差异显著或极显著。 从表76可得到例71多重比较的结论为:水稻苗高以药剂D处理为最高,显著高于C
8 PLSD 法计算方法简单,在过去一个时期曾得到比较广泛的应用。但由于其本质仍然是 t 测验,所以,犯第一类错误的缺陷依然存在。为了减少这种错误的发生,Fisher 提出,仅当F 测验确认各处理间差异显著后,方可用它来作多重比较,也就是必须在使用前加以 F 测验的 保护。因此,统计界称此法为保护最小显著差数法。 2.新复极差(LSR)法 新复极差法又称为最小显著极差法。这一方法是 D.B.Duncan 于1955 年提出的,是当前 应用最广泛的一种多重比较方法。最小显著极差临界值为 LSRα=SE• SSRα (7.17) 其中:SE= n se 2 称之为平均数标准误;se 2为误差项方差;SSRα为在自由度 e v 下对于不同 p 值的 SSRα值(见附表 8),这里的 p 为被比较的两个平均数间在顺序排列的平均数序列中 所涵盖的平均数个数。 在例7.1 资料中,平均数标准误SE= 1.57 4 9.83 2 = = n se (cm),在误差自由度 e v =12 下,查 p=2,3,4 的 SSR0.05和 SSR0.01 值,并进一步计算LSR0.05 和LSR0.01 值(见表 7.5)。 计算出 LSRα后,用字母标记法将各处理平均数间的差异显著性表示出来(表7.6)。 标记字母法的作法为先将全部平均数按从大到小依次排序,在 =0.05 显著水平比较 时,先在最大的平均数后面标英文小写字母 ,并将该平均数与以下各平均数相比,凡差数 小于 LSR0.05 值的(与相应 p 值下的 LSR0.05值相比)为差异不显著,均标字母 ,直到某一个 差数大于 LSR0.05 值时则标以字母b;再以标有字母 b的这个平均数与其上各平均数依次相比, 凡差数不显著的标以字母 b;显著的则不标记;然后以标有字母 b 的最大平均数为标准,与 以下未标记的平均数相比,凡不显著的也标以字母 b,直至与某一个平均数相差显著时标以 字母 c,… ,如此往复进行下去,按英文字母表顺序标记字母,直到所有的平均数都标上字 母为止。显著水平 =0.01 的标记方法同于 =0.05 的标记方法,只是均用英文大写字母 标记。这样各平均数后面凡有一个以上相同字母的为差异不显著;凡是一个相同字母都没有 的为差异显著或极显著。 从表 7.6 可得到例 7.1 多重比较的结论为:水稻苗高以药剂 D 处理为最高,显著高于 C 表 7.5 4 种药剂处理水稻苗高的 LSR 值 p 2 3 4 SSR0.05 3.08 3.23 3.33 SSR0.01 4.32 4.55 4.68 LSR0.05,12 4.84 5.07 5.23 LSR0.01,12 6.78 7.14 7.35 表 7.6 4 种药剂处理水稻苗高的 多重比较(标记字母法) 药剂 水稻苗高 ( i i) 差 异 显 著 性 5% 1% D 24 a A B 23 ab A A 19 ab A C 18 b A
药剂处理;其它药剂间的水稻苗高无显著差异。 3. Dunne氏最小显著差数(DLSD)法 在试验中若设有指定对照,则参试处理就有了一个共同的比较标准。 C W. Dunnett于1955 年对这类试验提出了用DLSD法进行多重比较。在这一方法中,任一处理平均数都与对照平 均数相比较,其临界值为 式中:Dt为Dune氏两尾显著临界值(附表7),查表时参照误差项自由度υε和处理 数k(不包括对照),当各处理观察值数目相等时 在例7.1中,设A药剂为对照,则有 在误差项自由度v=12,k3时,查附表7,D=276,Do=361,进而得 DLSD05=272×222=604(cm) DLSD01=361×222=7.35(cm 凡是与对照比较差数的绝对值大于604(cm),而小于735(cm)的为差异显著,在差数的 右上角打一个星号“*”;如大于7.35(cm)为差异极显著,在差数的右上角打两个“*”号 如小于604(cm)为差异不显著,不标记 表774种药剂间水稻苗高的多重比较 例71的DLSD法多重 水稻苗高与对照比较的差数及显 比较结果列于表77。从而得 D 出结论:D、B和C3种药剂 处理水稻苗高均与对照药剂 A(CK) A差异未达显著。 第三节方差分析的线性模型和期望均方 方差分析的线性模型 方差分析是建立在一定的线性可加模型的基础上的。所谓线性可加模型是指每一个观察 值可以划分成若干个线性组成部分,它是分解自由度与平方和的理论依据。下面我们以单个 随机样本为例说明这一问题
9 药剂处理;其它药剂间的水稻苗高无显著差异。 3.Dunnett 氏最小显著差数(DLSD)法 在试验中若设有指定对照,则参试处理就有了一个共同的比较标准。C.W.Dunnett 于 1955 年对这类试验提出了用DLSD 法进行多重比较。在这一方法中,任一处理平均数都与对照平 均数相比较,其临界值为 DLSDα=Dtα• i j x x s − (7.18) 式中:Dtα为 Dunnett 氏两尾显著临界值(附表 7),查表时参照误差项自由度υe和处理 数 k(不包括对照),当各处理观察值数目相等时 n s s e x x i j 2 2 − = (7.19) 在例 7.1 中,设 A 药剂为对照,则有 2.22 4 2 2 9.83 2 = − = = n s s e x x i j (cm) 在误差项自由度 e v =12,k=3 时,查附表 7,Dt0.05=2.76,Dt0.01=3.61,进而得到 DLSD0.05=2.72×2.22 =6.04(cm) DLSD0.01=3.61×2.22 =7.35(cm) 凡是与对照比较差数的绝对值大于 6.04(cm),而小于 7.35(cm)的为差异显著,在差数的 右上角打一个星号“*”;如大于7.35(cm)为差异极显著,在差数的右上角打两个“**”号; 如小于 6.04(cm)为差异不显著,不标记。 第三节 方差分析的线性模型和期望均方 一、方差分析的线性模型 方差分析是建立在一定的线性可加模型的基础上的。所谓线性可加模型是指每一个观察 值可以划分成若干个线性组成部分,它是分解自由度与平方和的理论依据。下面我们以单个 随机样本为例说明这一问题。 例 7.1 的 DLSD 法多重 比较结果列于表 7.7。从而得 出结论:D、B 和 C 3种药剂 处理水稻苗高均与对照药剂 A 差异未达显著。 表 7.7 4 种药剂间水稻苗高的多重比较 药 剂 水稻苗高 (xi) 与对照比较的差数及显 著性 D 24 5 B 23 4 A(CK) 19 - C 18 -1
设在一平均数为、方差为a2的正态总体中随机抽取容量为n的一组样本。由于随机 误差的存在,每一个x都和总体平均数有差别,这个差量就是随机误差E;。因而,每一个 观察值x都具有线性可加模型 x1=4+E 其中E是遵循N(0,2)的,故x为的无偏估计;而E1=(x1-)则由样本离 差e1=(x1-x)估计。由于xe2=X(x1-x)2,故样本均方s2=e亦为总体方差a2的 无偏估计。 如果对上述总体施加了某种处理,而处理效应为r,则总体平均数为(y+r),而方差 仍为σ2。因而从该总体中得到的任一观察值的线性可加模型便成为 x1=(+t)+E 这时样本平均数是总体平均数(4+τ)的无偏估计,而s2仍为02的无偏估计。 假如,将上述总体分成k个组,使每组成为该总体的一个亚总体,分别给予不同的处理, 处理效应为T,则各个亚总体的平均数为共1=(+r;)。当每个亚总体中皆随机抽取容量为 的n一组样本时,则共得k组样本,其资料模式如表71。而任一亚总体的任一观察值x (i=1,2,k表示组别:产12.n,表示所属组的观察值次序)所具有的线性模型为 xu=A+ti+Ey (720) 上式中,1=(1-1),并满足∑=0;而E=(x1-1)相互独立,并具有分布 N(0,σ2)。上式说明,象表71类型的资料,其每一观察值皆由共同的原总体平均数μ 处理效应和随机误差E三个部分相加而成。 在以样本符号表示时,令全试验平均数为x,各处理平均数为x1,各处理效应为t1,则 u由x估计,处理效应=(4-)由t=(x-x)估计,随机误差En=(x-H)由 en=(x-H)估计。所以,样本估计值的线性模型为
10 设在一平均数为 、方差为 2 的正态总体中随机抽取容量为n 的一组样本。由于随机 误差的存在,每一个 i x 都和总体平均数 有差别,这个差量就是随机误差 i 。因而,每一个 观察值 i x 都具有线性可加模型 i x = + i 其中 i 是遵循N(0,σ2)的,故 i x 为 的无偏估计;而 i =( i x - )则由样本离 差 e (x x) i = i − 估计。由于 2 2 e (x x) i = i − ,故样本均方 1 2 2 − = n e s i 亦为总体方差 2 的 无偏估计。 如果对上述总体施加了某种处理,而处理效应为 ,则总体平均数为( + ),而方差 仍为σ2。因而从该总体中得到的任一观察值的线性可加模型便成为 i i x = ( + ) + 这时样本平均数 x 是总体平均数( +τ)的无偏估计,而 s 2仍为σ2的无偏估计。 假如,将上述总体分成 k 个组,使每组成为该总体的一个亚总体,分别给予不同的处理, 处理效应为 i ,则各个亚总体的平均数为 ( ) i i = + 。当每个亚总体中皆随机抽取容量为 的 n 一组样本时,则共得 k 组样本,其资料模式如表 7.1。而任一亚总体的任一观察值 ij x (i=1,2,…,k,表示组别;j=1,2…,n,表示所属组的观察值次序)所具有的线性模型为 ij i ij x = + + (7.20) 上式中, = ( − ) i i ,并满足 i = 0 ;而 ( ) ij ij i = x − 相互独立,并具有分布 N(0,σ2)。上式说明,象表 7.1 类型的资料,其每一观察值皆由共同的原总体平均数μ、 处理效应 i 和随机误差 ij 三个部分相加而成。 在以样本符号表示时,令全试验平均数为 x ,各处理平均数为 i x ,各处理效应为 i t ,则 μ由 x 估计,处理效应 = ( − ) i i 由 t (x x) i = i − 估计,随机误差 ( ) ij ij i = x − 由 ( ) ij ij i e = x − 估计。所以,样本估计值的线性模型为