第四章方差分析 方差分析是一种特殊的假设检验,是判断多组数据之间平均数差异是否显著的。对多组 数据若仍用前一章中的t检验一对对比较,会大大增加犯第一类错误的概率。例如有5组数 据要比较,则共需比C5210次。若H正确,每次接受的概率为1-a=0.95,10次 都接受为0.95≈0.60,因此a′=1-0.60=0.40,即全部比较中至少犯一次第一类错误的概 率为0.40,这显然是不能接受的。方差分析则是把所有这些组数据放在一起,一次比较就 对所有各组间是否有差异作出判断。如果没有显著差异,则认为它们都是相同的;如发现有 差异,再进一步比较是哪组数据与其他数据不同。这样,就避免了使a大大增加的弊病。下 面我们先介绍一些方差分析中要用到的术语。 1.因素可能影响试验结果,且在试验中被考查的原因或原因组合。有时也可称为因子。例 如温度、湿度、药物种类等 2.水平因素在试验或观测中所处的状态。例如温度的不同值,药物的不同浓度等。 3.主效应反映一个因素各水平的平均响应之差异的一种度量。一个因子第i水平上所有数 据的平均与全部数据的平均之差,称为该因子第i水平的主效应 4.交互效应由两个或更多因素之间水平搭配而产生的差异的一种度量。 5.处理实验中实施的因子水平的一个组合。 6.固定因素该因素的水平可准确控制,且水平固定后,其效应也固定。例如温度,化学药 物的浓度,动植物的品系,等等。 7.随机因素该因素的水平不能严格控制,或虽水平能控制,但其效应仍为随机变量。例如 动物的窝别(遗传因素的组合),农家肥的效果,等等 8.误差除了实验中所考虑的因素之外,其他原因所引起的实验结果的变化。它可分为系统 误差和随机误差: 系统误差:误差的组成部分,在对同一被测量的多次测试中,它保持不变或按某种规律变 化。它的原因可为已知,也可为未知,但均应尽量消除。 随机误差:误差的组成部分,在对同一被测量的多次测试中,它受偶然因素的影响而以不 可预知的方式变化。它无法消除或修正。 §4.1单因素方差分析 单因素方差分析是指我们需要研究的因素只有一个,这一因素可以有几个不同的水平 我们的目标就是要看看这些水平的影响是否相同。为了在有随机误差的情况下进行比较,各 水平都应有一定数量的重复 为方便表述,我们对数据给出一种固定的表示法 因素的水平数 n:每一水平的重复数 x:第i水平的第j次观察值。1≤i≤a,1≤j≤n 第i水平所有观察值的和 x=-x.,第i水平均值
第四章 方差分析 方差分析是一种特殊的假设检验,是判断多组数据之间平均数差异是否显著的。对多组 数据若仍用前一章中的 t 检验一对对比较,会大大增加犯第一类错误的概率。例如有 5 组数 据要比较,则共需比 10 2 2 5 4 5 = C = 次。若 H0 正确,每次接受的概率为 1-α=0.95,10 次 都接受为 0.9510≈0.60,因此α′=1-0.60=0.40,即全部比较中至少犯一次第一类错误的概 率为 0.40,这显然是不能接受的。方差分析则是把所有这些组数据放在一起,一次比较就 对所有各组间是否有差异作出判断。如果没有显著差异,则认为它们都是相同的;如发现有 差异,再进一步比较是哪组数据与其他数据不同。这样,就避免了使α大大增加的弊病。下 面我们先介绍一些方差分析中要用到的术语。 1. 因素 可能影响试验结果,且在试验中被考查的原因或原因组合。有时也可称为因子。例 如温度、湿度、药物种类等。 2. 水平 因素在试验或观测中所处的状态。例如温度的不同值,药物的不同浓度等。 3. 主效应 反映一个因素各水平的平均响应之差异的一种度量。一个因子第 i 水平上所有数 据的平均与全部数据的平均之差,称为该因子第 i 水平的主效应 4. 交互效应 由两个或更多因素之间水平搭配而产生的差异的一种度量。 5. 处理 实验中实施的因子水平的一个组合。 6. 固定因素 该因素的水平可准确控制,且水平固定后,其效应也固定。例如温度,化学药 物的浓度,动植物的品系,等等。 7. 随机因素 该因素的水平不能严格控制,或虽水平能控制,但其效应仍为随机变量。例如 动物的窝别(遗传因素的组合),农家肥的效果,等等。 8. 误差 除了实验中所考虑的因素之外,其他原因所引起的实验结果的变化。它可分为系统 误差和随机误差: 系统误差:误差的组成部分,在对同一被测量的多次测试中,它保持不变或按某种规律变 化。它的原因可为已知,也可为未知,但均应尽量消除。 随机误差:误差的组成部分,在对同一被测量的多次测试中,它受偶然因素的影响而以不 可预知的方式变化。它无法消除或修正。 §4.1 单因素方差分析 单因素方差分析是指我们需要研究的因素只有一个,这一因素可以有几个不同的水平, 我们的目标就是要看看这些水平的影响是否相同。为了在有随机误差的情况下进行比较,各 水平都应有一定数量的重复。 为方便表述,我们对数据给出一种固定的表示法: a:因素的水平数 n:每一水平的重复数 xij:第 i 水平的第 j 次观察值。1≤i≤a, 1≤j≤n = = n i i i j x x 1 . , 第 i 水平所有观察值的和 . 1 . i i x n x = ,第 i 水平均值
∑∑x全部观察值的和 ,总平均值 x)2,第i水平上的子样方差 方差分析中,我们用以下的线性统计模型描述每一观察值: (4.1) 其中μ:总平均数:a:i水平主效应;E:随机误差。要求~N(0,02),且互相独立。注意 这里要求各水平有共同的方差02 单因素方差分析的目的就是检验各∝是否均相同。由于因素可分为固定因素和随机因 素,它们会对方差分析的过程产生不同的影响,我们分别加以讨论 、固定因素模型: 例4.1用4种不同的配合饲料饲养30日令的小鸡,10天后计算平均日增重,得以下数据 表4.1不同饲料日增重值 日增重值X 6158526870 4种饲料的效果是否相同? 例41是固定因素模型,因为在配合饲料中,每种饲料的营养成份是固定的,它的效果 也应是固定的。反映到线性模型中,就是α1是常数,且可要求 a1=0 (4.2) 这种对a1的限制并没有失去一般性,这是因为根据(41)式,如果各G之和H不为0,则 我们可把其和数移到总平均数u中去,即令∝1′=0-H,从而使新的a1′之和为0。同时, 也只有新的a1′才符合前述主效应的定义 固定模型的统计假设为:H:a1=0,i=1,2……a HA:a1≠0,至少对某一i 方差分析的基本思想,就是将总变差分解为各构成部分之和,然后对它们作统计检验。 ∑∑(x,-+-x
= = = a i n i ij x x 1 1 .. 全部观察值的和 .. 1 .. x an x = ,总平均值 = • − − = n i i ij i x x n S 1 2 2 ( .) 1 1 ,第 i 水平上的子样方差。 方差分析中,我们用以下的线性统计模型描述每一观察值: xij=+i+ij, i=1, 2 …… a, j=1, 2, …… n (4.1) 其中:总平均数;i:i 水平主效应;ij:随机误差。要求ij ~N(0,σ2 ),且互相独立。注意 这里要求各水平有共同的方差σ2。 单因素方差分析的目的就是检验各i 是否均相同。由于因素可分为固定因素和随机因 素,它们会对方差分析的过程产生不同的影响,我们分别加以讨论。 一、固定因素模型: 例 4.1 用 4 种不同的配合饲料饲养 30 日令的小鸡,10 天后计算平均日增重,得以下数据: 表 4.1 不同饲料日增重值 饲料 日增重值 Xij 1 55 49 62 45 51 2 61 58 52 68 70 3 71 65 56 73 59 4 85 90 76 78 69 4 种饲料的效果是否相同? 例 4.1 是固定因素模型,因为在配合饲料中,每种饲料的营养成份是固定的,它的效果 也应是固定的。反映到线性模型中,就是i 是常数,且可要求 = = a i ai 1 0 , (4.2) 这种对i 的限制并没有失去一般性,这是因为根据(4.1)式,如果各i 之和 H 不为 0,则 我们可把其和数移到总平均数中去,即令i ′= i –H,从而使新的i ′之和为 0。同时, 也只有新的i ′才符合前述主效应的定义。 固定模型的统计假设为:H0:αi = 0, i = 1, 2 …… a HA: αi ≠ 0, 至少对某一 i 方差分析的基本思想,就是将总变差分解为各构成部分之和,然后对它们作统计检验。 即: = = = = = − + − − a i n j i j i i a i n i i j x x x x x x 1 1 2 . 1 1 2 ( ..) ( ..)
∑ (x1-x)+2(x-x.一x)+(工-王 ∑∑(x-x)2 (x-.,)+2∑∑(x,-xx一x) 由于 (x-x)x-2) ∑ (x-x.)·【(x1-x1) 0 用符号表示,上式可写成: 44) 其中符号的意义为: SSr:总平方和; SSA处理间平方和; SSe:误差平方和,或处理内平方和 它们的自由度分别为an-1,a-1和an-1),即自由度也作了相应分解: 令MS:"以(n-1) ,称为误差均方:M 称为处理间均方;则它们的数学期 望分别为: E(MSe) E (x,-x)2] +a +e a. -8 E∑∑(En-1)] C∑∑(6-26nE1+82)
由于 0 ( ..) [( )] ( ..) ( ) ( )( ..) 1 . . . 1 1 . . . 1 1 . = = − − = − − − − = = = = = a i i i i a i n j i ij i i a i n j ij i x x x x x x x x x x x x ∴ = = = = − = − + − a i a i n j i ij i a i ij x x n x x x x 1 1 1 2 . 2 . 1 2 ( ..) ( ..) ( ) (4.3) 用符号表示,上式可写成: SST = SSA + SSe (4.4) 其中符号的意义为: SST:总平方和; SSA 处理间平方和; SSe:误差平方和,或处理内平方和。 它们的自由度分别为 an–1, a–1 和 a(n–1),即自由度也作了相应分解: an – 1 = a –1 + a(n – 1) 令 ( −1) = a n SS MS e e ,称为误差均方; −1 = a SS MS A A ,称为处理间均方;则它们的数学期 望分别为: [ ( 2 )] 1 [ ( ) ] 1 [ ( ) ] 1 [ ( ) ] 1 ( ) 1 ( ) 1 1 2 . . 2 1 1 2 . 1 1 2 . 1 1 2 . = = = = = = = = − + − = − − = + + − − − − = − − = − = a i n j i j i j i i a i n i i j i a i n i i i j i i a i n j i j i e e E an a E an a E an a E x x an a E SS na a E MS [( ) ( ..) 2 ( )( ..)] [( ) 2( )( ..) ( ..) ] 1 1 1 1 1 1 2 2 . 1 1 2 . 2 . = = = = = = = = = − + − + − − = − + − − + − a i n j a i n j i j i i a i n j i j i i a i n j i j i i j i i i x x x x x x x x x x x x x x x x
∑∑ ∑2 an-a E∑∑2-n∑E](:E(En)=0,…E(2)=a2) an-a (ana2-m.0) an-a E(MS) E(SS,) E∑∑(x-x.,)] i=1j=1 En2(4+ a-g)2] (E1-E.)+(a1-a) E∑(1-.)+2∑(-E.)(a1-a)+∑(an-a)2 E(s)=0a为常数,且∑a=0 ∴原式 E∑(2-2EE+E.2)+ E∑(E)2-aE(E2)+∑ a-I(q na a-1 从这两个数学期望来看,我们给MS。和MS3起的名字是有道理的。MS。的期望是o2,即随 机误差E的方差,说明它就是随机误差的一个估计量:而Ms的期望是a2+”,∑x2, 除了有代表随机误差的σ2外,还有一项是各水平主效应的平方和,即它代表了各处理间差 异的大小。 若H成立,则有:a:=0,i=1,2, a;此时E(MS)=σ2;若H不成立,则E(MS)>0 令
2 2 2 2 2 1 1 1 2 . 2 1 1 1 1 2 . . 1 2 ( ) 1 [ ] ( ( ) 0, ( ) ) 1 [ 2 ] 1 = − − = − = = − = − + − = = = = = = = = = n an na an a E n E E an a E n an a i j i j a i n j a i i j i a i n j n j a i i i j i a i i j [ ( ..) 2 ( ..) ( ) ( ) ] 1 [( ..) ( )] 1 [ ( ..) ] 1 1 [ ( ..) ] 1 1 ( ) 1 1 ( ) 1 1 1 2 . 2 . 1 2 1 2 . 1 1 2 . = = = = = = = − + − − + − − = − + − − = + + − − − − = − − = − = a i a i a i i i i i a i i i a i i i a i n j i A A E a n E a n E n a E x x a E SS a E MS ∵E(ij)=0, i 为常数,且 = = a i i 1 0 ∴ 原式 = = − = − + + − a i i a i i i a n E a n 1 2 1 2 . 2 . 1 [ ( 2 .. .. )] 1 = = = = − = + − − + − = − − + − = a i i a i i a i i a i i a n a n na a n a a n a n E a E a n 1 2 2 1 2 2 2 1 2 1 2 .. 2 . 1 1 ( ) 1 1 [ ( ) ( )] 1 从这两个数学期望来看,我们给 MSe和 MSA 起的名字是有道理的。MSe 的期望是σ2,即随 机误差ε的方差,说明它就是随机误差的一个估计量;而 MSA 的期望是 − = + a i i a n 1 2 2 1 , 除了有代表随机误差的σ2 外,还有一项是各水平主效应的平方和,即它代表了各处理间差 异的大小。 若 H0 成立,则有:αi=0,i=1,2,…… a;此时 E(MSA)=σ2;若 H0 不成立,则 E(MSA)>σ2 , 令
S F (4.5) 则当H成立时,F~F(a1,na-a);否则F值有偏大的趋势。因此可用F分布表对Ho是否成立 进行上单尾检验。 方差分析的计算是比较繁杂的,因此常使用计算机进行计算。公式为 现在的计算器常有统计功能,利用这样的计算器也可大大简化计算。步骤为: 1°把每一水平视为一个小样本,先求出它们的样本均值和样本方差,即x,S2。 2°把所有x视为一个样本,求出它的样本方差S2,则 MSA=n·S 3s=(n-n∑s,或AS=Ss2 现在我们来计算例4.1(使用带统计功能的计算器) 例4.1解:用计算器求出各处理的平均数和子样方差及平均数的子样方差: 饲料 4 ∑S2 52461.864.8796127.24 41.8 542663 216.5 代入(48)、(4.9)式,得:MSA=5×12724=636.2,MSe=216.5/4=54125 FA∥ A=11.754 查F分布表,得:F09(3,16)=324,Fo993,16)=529 ∵F>F09,∴拒绝H,差异极显著。即:这4种饲料的增重效果差异极显著。 这就是方差分析中最简单的单因素固定模型的分析方法。对固定模型来说,如果结果是 差异显著,一般还应进行多重比较,具体方法稍后介绍。从这一分析过程中可以很清楚地看 到方差分析的基本思想,那就是不再对数据进行一对对的比较,而是对总体的方差进行分解, 首先分离出随机误差所导致的变差,然后再将处理所引起的变差与它相比较,如果处理的变 差明显大于随机误差,则说明各水平间的差异不能用随机误差解释,应认为各水平间有明显 差异:否则则说明各水平间的不同可以认为是随机误差引起,即各水平间没有差异。这样就 对多组实验之间的差异一次完成了检验,从而避免了多次检验引起的犯错误可能大大升高的 问题。下面我们再来看看如果因素的效果是随机的,对方差分析的过程将产生什么影响
e A MS MS F = (4.5) 则当 H0 成立时,F ~ F(a-1, na-a);否则 F 值有偏大的趋势。因此可用 F 分布表对 H0 是否成立 进行上单尾检验。 方差分析的计算是比较繁杂的,因此常使用计算机进行计算。公式为: = = = − a i n j T ij na x SS x 1 1 2 2 .. (4.6) = = − a i A i na x x n SS 1 2 2 .. . 1 (4.7) SSe = SST − SSA 现在的计算器常有统计功能,利用这样的计算器也可大大简化计算。步骤为: 1°把每一水平视为一个小样本,先求出它们的样本均值和样本方差,即 2 . , i Si x 。 2°把所有 i. x 视为一个样本,求出它的样本方差 2 x S ,则 2 MS A n Sx = (4.8) 3° = = − a i SSe n Si 1 2 ( 1) ,或 = = a i e Si a MS 1 1 2 , (4.9) 现在我们来计算例 4.1(使用带统计功能的计算器): 例 4.1 解:用计算器求出各处理的平均数和子样方差及平均数的子样方差: 饲料 1 2 3 4 2 x S = a i i S 1 2 i. x 52.4 61.8 64.8 79.6 127.24 2 i S 41.8 54.2 54.2 66.3 216.5 代入(4.8)、(4.9)式,得:MSA = 5×127.24 = 636.2, MSe = 216.5/4 = 54.125, = = 11.754 e A MS MS F 查 F 分布表,得:F0.95(3, 16) = 3.24, F0.99(3, 16) = 5.29 ∵ F>F0.99,∴拒绝 H0,差异极显著。即:这 4 种饲料的增重效果差异极显著。 这就是方差分析中最简单的单因素固定模型的分析方法。对固定模型来说,如果结果是 差异显著,一般还应进行多重比较,具体方法稍后介绍。从这一分析过程中可以很清楚地看 到方差分析的基本思想,那就是不再对数据进行一对对的比较,而是对总体的方差进行分解, 首先分离出随机误差所导致的变差,然后再将处理所引起的变差与它相比较,如果处理的变 差明显大于随机误差,则说明各水平间的差异不能用随机误差解释,应认为各水平间有明显 差异;否则则说明各水平间的不同可以认为是随机误差引起,即各水平间没有差异。这样就 对多组实验之间的差异一次完成了检验,从而避免了多次检验引起的犯错误可能大大升高的 问题。下面我们再来看看如果因素的效果是随机的,对方差分析的过程将产生什么影响
二、随机因素模型 例42随机选取4窝动物,每窝均有4只幼仔,其出生重见表42。不同窝出生重差异是否 显 表42动物出生重(g) 窝别 出生重X 34733326231.6 33.226.028.632.3 27.123.3278267 32.931.425.728.0 例42是随机因素模型,因为动物的窝别是无法控制的,也无法重复,它的效果是无法 预料的。随机因素的影响首先体现在线性统计模型中,它的表达式仍为: xj=+a+Ei,i=1,2,……a,j=1,2,……n 但由于各水平的效应无法预料,现在α不再能视为常数,而是随机变量了。即 a~MDO,Ga),~ND(0,0)ND意为独立正态分布) 此时一般Σa:=0不再成立,统计假设相应变为 H4:G2>0 这样,当H成立时,自然有a1=0,i=1,2,…a:若不成立,则作为从N(0,a2)中抽取 的样本,各α1不可能都相同,当然也不可能均为0。此时它们的和一般也不会是0。 对于随机模型,总平方和与自由度的分解与固定模型是相同的,因为在证明平方和分解 的过程中没有用到线性统计模型,因此因素类型的变化不会影响总平方和的分解。MSe的期 望也没有变,因为这些推导过程中也没有使用a1的性质。但MSA的期望变了,因为a1不再是 常数,a也不再为0 E(11≈1 E(SS) e(x-x 2 a (E1-g.)+(a1-a) .-E)2+2∑-E)(a1-a)+∑a 由于各a1与各相互独立,上式的交叉项期望为零。因此有: 原式 ∑(-E)2 ED∑E2-aE2 n ED n σ-+n0
二、随机因素模型 例 4.2 随机选取 4 窝动物,每窝均有 4 只幼仔,其出生重见表 4.2。不同窝出生重差异是否 显著? 表 4.2 动物出生重(g) 窝别 出生重 Xij 1 34.7 33.3 26.2 31.6 2 33.2 26.0 28.6 32.3 3 27.1 23.3 27.8 26.7 4 32.9 31.4 25.7 28.0 例 4.2 是随机因素模型,因为动物的窝别是无法控制的,也无法重复,它的效果是无法 预料的。随机因素的影响首先体现在线性统计模型中,它的表达式仍为: xij = +i+ij, i=1, 2, ……a, j=1, 2, ……n 但由于各水平的效应无法预料,现在i 不再能视为常数,而是随机变量了。即: ~ (0, ), ~ (0, ) 2 2 i NID ij NID (NID 意为独立正态分布) 此时一般Σi=0 不再成立,统计假设相应变为: H0: 2 =0 HA: 2 >0 这样,当 H0 成立时,自然有i =0,i=1, 2, ……a;若不成立,则作为从 N( 2 0, )中抽取 的样本,各i 不可能都相同,当然也不可能均为 0。此时它们的和一般也不会是 0。 对于随机模型,总平方和与自由度的分解与固定模型是相同的,因为在证明平方和分解 的过程中没有用到线性统计模型,因此因素类型的变化不会影响总平方和的分解。MSe 的期 望也没有变,因为这些推导过程中也没有使用i 的性质。但 MSA 的期望变了,因为i 不再是 常数, 也不再为 0。 ( ) = = = = = − + − − + − − = − + − − = − − = − = a i a i a i i i i i a i i i a i A A i E a n E a n E x x a n E SS a E MS 1 1 1 2 . 2 . 1 2 2 1 . [ ( ..) 2 ( ..) ( ) ( ) 1 [( ..) ( )] 1 [ ( ..) ] 1 1 1 ( ) 由于各i 与各 εij 相互独立,上式的交叉项期望为零。因此有: 原式 [ ( ..) ( ) ] 1 1 1 2 2 . = = − + − − = a i a i E i E i a n 2 2 2 2 2 2 1 2 2 1 2 .. 2 . ( ) 1 ( ) 1 [ ] 1 [ ] 1 n a a a a n an a n a a n E a a n E a a n a i i a i i = + − − − + − = − − − + − = = =
从上述均方期望可看出,若H成立,仍有: F F(a-1,a(n-1)) 而当H成立时,F值仍有偏大的趋势。因此仍可用F分布表作上单尾检验。但这时对结果的 解释却不同了。在固定模型中,结论只适用于检查的那几个水平。而在随机模型中由于是 σ2=0,因此结论可推广到这一因素的一切水平。 现在来计算例42 例42解:计算各处理平均数和方差,以及平均数的方差,填入下表 窝别 2 31.45 30.02526225 29.50 4.88 13.86 11.16 4.01 10.62 39.65 代入(4.8),(4.9)式,得 MSA=n·S2=4×4.88=1952 MS=S 49913 MS A=1.969 查F分布表,得:F09(3,12)=3.490∵F<Fs,∴接受H,可认为出生重无显著差异。 从上述分析过程可知,当因素从固定变为随机后,其影响主要表现在改变了统计模型中 参数a1的性质,使它从常数变成了随机变量。这样一来,所有涉及a1的地方都有了明显改变 包括统计假设H和H,均方期望E(MS),以及最后的解释。对单因素方差分析来说,因素 类型的变化没有影响统计量的计算与检验过程,这是与两个及更多因素方差分析不同之处 另外,由于随机因素的水平不能重复,因此多重比较也就变成没有意义的了。 三、不等重复时的情况 方差分析的数据都是按照精心设计的实验方案收集来的,一般来说各水平应有相同的重 复数。但若实验过程中由于某种原因丢失了一个或几个数据,又无法重做实验弥补,此时就 变成各水平有不同的重复数了。在这种情况下上述方差分析的方法仍然可用,但计算公式及 自由度都要作相应变化。令N=∑n,则总自由度变为N1,S的自由度仍为a-1,s 的自由度变为N-a。(4.6),(4.7)式相应变为 (4.11) 用计算器的计算方法也应改为:
从上述均方期望可看出,若 H0 成立,仍有: = ~ F(a −1, a(n −1)) MS MS F e A 而当 HA 成立时,F 值仍有偏大的趋势。因此仍可用 F 分布表作上单尾检验。但这时对结果的 解释却不同了。在固定模型中,结论只适用于检查的那几个水平。而在随机模型中由于是 2 =0,因此结论可推广到这一因素的一切水平。 现在来计算例 4.2: 例 4.2 解:计算各处理平均数和方差,以及平均数的方差,填入下表: 窝别 1 2 3 4 2 Sx 2 Si i. x 31.45 30.025 26.225 29.50 4.88 2 i S 13.86 11.16 4.01 10.62 39.65 代入(4.8), (4.9)式,得 4 4.88 19.52 2 MS A = n Sx = = = = = = a i e Si a MS 1 2 9.913 4 1 39.65 = = 1.969 e A MS MS F 查 F 分布表,得:F0.95(3, 12)=3.490 ∵ F<F0.95,∴接受 H0,可认为出生重无显著差异。 从上述分析过程可知,当因素从固定变为随机后,其影响主要表现在改变了统计模型中 参数i 的性质,使它从常数变成了随机变量。这样一来,所有涉及i 的地方都有了明显改变, 包括统计假设 H0 和 HA,均方期望 E(MSA),以及最后的解释。对单因素方差分析来说,因素 类型的变化没有影响统计量的计算与检验过程,这是与两个及更多因素方差分析不同之处。 另外,由于随机因素的水平不能重复,因此多重比较也就变成没有意义的了。 三、不等重复时的情况。 方差分析的数据都是按照精心设计的实验方案收集来的,一般来说各水平应有相同的重 复数。但若实验过程中由于某种原因丢失了一个或几个数据,又无法重做实验弥补,此时就 变成各水平有不同的重复数了。在这种情况下上述方差分析的方法仍然可用,但计算公式及 自由度都要作相应变化。令 = = a i N ni 1 ,则总自由度变为 N-1,SSA 的自由度仍为 a-1, SSe 的自由度变为 N-a。(4.6),(4.7)式相应变为 = = = − a i n j T ij i N x SS x 1 1 2 2 .. (4.10) N x n x SS a i i i A .. 2 1 2 . = − = (4.11) 用计算器的计算方法也应改为:
1°计算每一处理的样本方差S2 2°全部样本放在一起,计算总样本方差S 3°SS-=(N-1)·S2 S=∑(n2-1)S2 5°SSA=SSr-SS (4.13) 四、多重比较 固定模型拒绝H时,并不意味着所有处理间均存在差异。为弄清哪些处理间有差异,需 对所有水平作一对一的比较,即多重比较。常用的多重比较方法有以下几种 1.最小显著差数(LSD)法:实际就是用t检验对所有平均数作一对一对的检验。一般情况下 各水平重复数n相等,用M作为a2的估计量,可得: =3)=1AS(+)≈2Asy 统计量为: cltan-a 2MS./n 因此当 x|>t√2MS/n (4.14) 时,差异显著。t分位数的自由度df=a(n-1) 1o3y2MS/n即为最小显著差数,记为LSD。所有比较仅需计算一个ISD,应 用很方便。但由于又回到了多次重复使用t检验的方法,会大大增加犯第一类错误的概 率。为了克服这一缺点,人们提出了多重范围检验的思想:即把平均数按大小排列后, 对离得远的平均数采用较大的临界值R。这一类的方法主要有 Dun can法和 Newman-Keul 。后者又称为q法。现介绍如下: 2. Duncan法: Duncan法步骤如下 把需比较的a个平均数从大到小排好 x1≥x22 2°求出各对差值,并列成表 表4.3a个均值间的差值表 x2-X。x2-X X-X 2xn2-x。x X-X
1°计算每一处理的样本方差 2 i S 2°全部样本放在一起,计算总样本方差 S 2 3°SST =(N-1)·S 2 4° 2 1 ( 1) = = − i a i SSe ni S (4.12) 5°SSA = SST - SSe (4.13) 四、多重比较 固定模型拒绝 H0 时,并不意味着所有处理间均存在差异。为弄清哪些处理间有差异,需 对所有水平作一对一的比较,即多重比较。常用的多重比较方法有以下几种: 1. 最小显著差数(LSD)法:实际就是用 t 检验对所有平均数作一对一对的检验。一般情况下 各水平重复数 n 相等,用 MSe 作为 2 的估计量,可得: n MS n n S MS e i j x x e i j 2 ) 1 1 ( ( − ) = + = 统计量为: ~ ( ) 2 / t an a MS n x x t e i j − − = 因此当 xi − x j t 0.975 2MSe / n (4.14) 时,差异显著。t 分位数的自由度 df = a(n-1)。 t 0.975 2MSe / n 即为最小显著差数,记为 LSD。所有比较仅需计算一个 LSD,应 用很方便。但由于又回到了多次重复使用 t 检验的方法,会大大增加犯第一类错误的概 率。为了克服这一缺点,人们提出了多重范围检验的思想:即把平均数按大小排列后, 对离得远的平均数采用较大的临界值R。这一类的方法主要有Duncan法和Newman-Keul 法。后者又称为 q 法。现介绍如下: 2. Duncan 法: Duncan 法步骤如下: 1°把需比较的 a 个平均数从大到小排好: a x x x 1 2 2°求出各对差值,并列成表: 表 4.3 a 个均值间的差值表 a a-1 ………… 3 2 1 2 … a-2 a-1 X1 − Xa X 2 − X a … X a−2 − X a X a−1 − X a X1 − X a−1 X 2 − X a−1 … X a−2 − X a−1 ………… ………… … X1 − X3 X 2 − X3 X1 − X2
求临界值Rka=ya(k,d0)·Sz,K=2,3……a (4.15) 其中a=0.05或0.01,k表示两平均数在位次上的差别,即若差为x1-x;,则k=j-i+1 因此相邻二平均数k值为2,隔一个为3,余类推。S=√MS。/n,df为Ms的自由度。 ya(k,d)的值需查专门表格。最后把求得的临界Ra列成下表: 表4.4多重检验临界值表 Y0.05(2,df) Y0.01(2,df) R Yo.os(a, df) Yo or(a, df) 4°对差值表采用适当的R进行比较。差值表中每条对角线上的k值是相同的,可使用 同一个临界值R。差值大于Ro5,标以“*”;大于Rm则标“*”。若比较的两个水平重 复数不等,设为n,n,则可用它们的调和平均值n代替n。即: 此时 Rn=y(k,d),(+) (4.16 3. Newman-Q法。又称多重范围q检验。它的检验方法与 Duncan法完全相同,只是要查不 的系数表。它的系数表称为q值表 三种方法的比较: 比较 Duncan的r值表与q值表,可知当k=2时,yn=qn=√2·t。,此时三种检验法 是相同的。当k≥3时,三种方法临界值不同,其中LSD最小, Duncan法次之, Newman-Q 法最大。因此LSD法犯第一类错误概率最大, Duncan法次之, Newman-Kεu法最小,可按 照犯两类错误危害性大小选择适当的方法。一般来说, Duncan法最常用:若各水平均值只 需与对照比较,由于比较次数较少,可考虑选用LSD法。另外,只有F检验确认各平均数 间有显著差异后才可进行LSD法检验,而另两种方法则不一定,有时它们的结果也可能与 F检验不一致 例43对例4.1进行多重比较 解:前已算出:x=524,x2=61.8,x3=64.8,x=796, MSe=54.125,df=4×(5-1)=16 (1)最小显著差数法 查表,得to97s(16)=2.119,t09916)=2.9208 SD0s=to9(16)·√2MS/n=2.119×√2×54.125/5
3°求临界值 k df Sx R = (k, ) , ,K=2,3……a。 (4.15) 其中α=0.05 或 0.01,k 表示两平均数在位次上的差别,即若差为 i j x − x ,则 k=j-i+1。 因此相邻二平均数 k 值为 2,隔一个为 3,余类推。 Sx = MSe / n ,df 为 MSe 的自由度。 (k,df ) 的值需查专门表格。最后把求得的临界 Rk , 列成下表: 表 4.4 多重检验临界值表 K γ0.05 R0.05 γ0.01 R0.01 2 3 … a γ0.05(2,df) γ0.05(3,df) … γ0.05(a,df) R2,0.05 R3,0.05 … Ra,0.05 γ0.01(2,df) γ0.01(3,df) … γ0.01(a,df) R2,0.01 R3,0.01 … Ra,0.01 4°对差值表采用适当的 R 进行比较。差值表中每条对角线上的 k 值是相同的,可使用 同一个临界值 R。差值大于 R0.05,标以“*”; 大于 R0.01 则标“**”。若比较的两个水平重 复数不等,设为 ni, nj,则可用它们的调和平均值 nij 代替 n。即: ) 1 1 ( 2 1 1 nij ni nj = + , 此时 ) 1 1 ( 2 ( , ) , i j e k n n MS R = k df + (4.16) 3.Newman-Q 法。又称多重范围 q 检验。它的检验方法与 Duncan 法完全相同,只是要查不 同的系数表。它的系数表称为 q 值表。 三种方法的比较: 比较 Duncan 的 r 值表与 q 值表,可知当 k=2 时, 2 1 2 − = q = t a a ,此时三种检验法 是相同的。当 k≥3 时,三种方法临界值不同,其中 LSD 最小,Duncan 法次之,Newman-Q 法最大。因此 LSD 法犯第一类错误概率最大,Duncan 法次之, Newman-Keul 法最小,可按 照犯两类错误危害性大小选择适当的方法。一般来说,Duncan 法最常用;若各水平均值只 需与对照比较,由于比较次数较少,可考虑选用 LSD 法。另外,只有 F 检验确认各平均数 间有显著差异后才可进行 LSD 法检验,而另两种方法则不一定,有时它们的结果也可能与 F 检验不一致。 例 4.3 对例 4.1 进行多重比较。 解:前已算出: x1. = 52.4, x2. = 61.8, x3. = 64.8, x4. = 79.6, MSe = 54.125, df = 4×(5-1)=16 (1) 最小显著差数法: 查表,得 t0.975(16)=2.1199, t0.995(16)=2.9208 ∴ LSD0.05 = t0.975(16) 2MSe / n =2.1199× 254.125/ 5
2.1199×4.6530=9.8639 LSD 2.9208×4.6530=13.5905 列出各水平均值的差值表:(均值已从小到大排列,不必再排) 124* 94 178** 3.0 将各差值分别与LSDs和LSDo比较,大于LSD00s的标“*”,大于LSDo01的标“**”。 得:x与其他三个均值均达差异极显著,x3与x1差异显著。 (2) Duncan法 S2=√MS/mn=√54.125/5=3290,df=16 利用公式Ra=(k,d)S求各临界值: 表45 Duncan多重检验临界值表 K ro. s(k, 16) R005 o01(k,16 4.13 13.59 10.36 4.34 0.63 列出差值表,并与临界值表中的数值进行比较: 27.2* 124 9.4 3.0 14.8 最长的对角线上应使用k=2的临界值,因此首先与α=0.05的临界值9.87比较,大于 9.87的则标一个“*”号:再与a=0.01的临界值13.59比较,大于13.59则再加一个“ 号。次长对角线应使用k=3的临界值,因此应先后与10.36,1428比较,大于前者加 个“*”,大于后者再加一个“*”。第三条对角线上只有一个数272,它应与k=4的 临界值,即10.63和1464比较,显然它比这两个临界值都大,因此也应标上两个“ 号。这样就完成了多重比较。把这一差值表与前边最小显著差数法的差值表进行比较, 可以看到它们的结果是相同的。但若比较一下两种方法的临界值,就可以发现 Duncan 法k=2的临界值就是最小显著差数法的临界值,而κ>2的 Duncan法临界值变大,但 对本题来说,这种变大尚不足以改变最终的结果。 (3) Newman-Q法: 仍有:S=√MS.n=54125/5=32090,d16。 利用公式Qka=q2(k,4)S求各临界值: 表46 Newman-Q法临界值表 go.os(k, 16) Qo 3.00 987 4.13 13.59 13.32 5.19 1708
= 2.1199×4.6530 = 9.8639 LSD0.01 = 2.9208×4.6530 = 13.5905 列出各水平均值的差值表:(均值已从小到大排列,不必再排) 4 3 2 1 2 3 27.2** 17.8** 14.8** 12.4* 3.0 9.4 将各差值分别与 LSD0.05 和 LSD0.01 比较,大于 LSD0.05 的标“*”,大于 LSD0.01 的标“**”。 得: 4. x 与其他三个均值均达差异极显著, 3. x 与 1. x 差异显著。 (2)Duncan 法: S = MS / n = 54.125/ 5 = 3.290, x e df=16 利用公式 k df Sx R = r (k, ) , 求各临界值: 表 4.5 Duncan 多重检验临界值表 K r0.05(k, 16) R0.05 r0.01(k, 16) R0.01 2 3 4 3.00 3.15 3.23 9.87 10.36 10.63 4.13 4.34 4.45 13.59 14.28 14.64 列出差值表,并与临界值表中的数值进行比较: 4 3 2 1 2 3 27.2** 17.8** 14.8** 12.4* 3.0 9.4 最长的对角线上应使用 k=2 的临界值, 因此首先与α=0.05 的临界值 9.87 比较, 大于 9.87 的则标一个“*”号;再与α=0.01 的临界值 13.59 比较,大于 13.59 则再加一个“*” 号。次长对角线应使用 k=3 的临界值,因此应先后与 10.36,14.28 比较,大于前者加 一个“*”,大于后者再加一个“*”。第三条对角线上只有一个数 27.2,它应与 k=4 的 临界值,即 10.63 和 14.64 比较,显然它比这两个临界值都大,因此也应标上两个“*” 号。这样就完成了多重比较。把这一差值表与前边最小显著差数法的差值表进行比较, 可以看到它们的结果是相同的。但若比较一下两种方法的临界值,就可以发现 Duncan 法 k=2 的临界值就是最小显著差数法的临界值,而 k>2 的 Duncan 法临界值变大,但 对本题来说,这种变大尚不足以改变最终的结果。 (3)Newman-Q 法: 仍有: S = MS / n = 54.125/ 5 = 3.290, x e df=16 。 利用公式 k df Sx Q = q (k, ) , 求各临界值: 表 4.6 Newman-Q 法临界值表 K q0.05(k, 16) Q0.05 q0.01(k, 16) Q0.01 2 3 4 3.00 3.65 4.05 9.87 12.01 13.32 4.13 4.79 5.19 13.59 15.76 17.08