第十一章统计控制的有关技术 出于减小试验误差的目的,试验者可以通过局部控制技术控制试验地土壤肥力的梯度影 响,以及通过小区技术控制无规律的斑块状土壤肥力变化影响。但在试验完成以后,仍然会 有对试验结果预料之中或预料之外的影响,此时,对这些外界影响的消除或减小统计学上称 之为统计控制。本章就通称为统计控制技术的异常数据的检测和协方差分析予以介绍。 第一节试验资料中异常数据的检测 异常数据( Outlier):误差超出误差分布允许概率限的变数资料,称之为异常数据。 试验资料中误差的提取 除有些试验资料其误差服从非正态分布的某些特定分布外,一般来说试验误差应满足 正态性,在各试验因素间的同质性,以及独立于各处理效应的特性即可加性。这经常是对田 间试验资料作统计分析合理性的基础 对农业田间试验资料中异常数据的检测,首先应将独立于各处理效应的误差项(或称 误差效应项)提取出来。常见的农业田间试验资料随机误差项的提取表达式列于表11.1。 表11.1常见农业田间试验资料随机误差效应表达式 设计类型 线性可加模型及随机误差估计值表达式 xi=att 完全随机 Xik=A+r, +Oi+Ejk 级分组 xy=u+t,+B 单因素随机完全区组5=x一x一可+ Xik=H+A; +B,+(AB)y+Bk+eyk 二因素随机完全区组 Eik =xik --.k +x k)=H+B1+5+2(k)+5k) 单因素拉丁方 E +2 xu)=H+B1+81+Ak+B1+(AB)+E) 二因素拉丁方 +2
第十一章 统计控制的有关技术 出于减小试验误差的目的,试验者可以通过局部控制技术控制试验地土壤肥力的梯度影 响,以及通过小区技术控制无规律的斑块状土壤肥力变化影响。但在试验完成以后,仍然会 有对试验结果预料之中或预料之外的影响,此时,对这些外界影响的消除或减小统计学上称 之为统计控制。本章就通称为统计控制技术的异常数据的检测和协方差分析予以介绍。 第一节 试验资料中异常数据的检测 异常数据(Outlier):误差超出误差分布允许概率限的变数资料,称之为异常数据。 一、试验资料中误差的提取 除有些试验资料其误差服从非正态分布的某些特定分布外,一般来说试验误差应满足 正态性,在各试验因素间的同质性,以及独立于各处理效应的特性即可加性。这经常是对田 间试验资料作统计分析合理性的基础。 对农业田间试验资料中异常数据的检测,首先应将独立于各处理效应的误差项(或称 误差效应项)提取出来。常见的农业田间试验资料随机误差项的提取表达式列于表 11.1。 表 11.1 常见农业田间试验资料随机误差效应表达式 设计类型 线性可加模型及随机误差估计值表达式 完全随机 ij i ij x = + + ij = ij − i ˆ x x 二级分组 ijk i ij ijk x = + + + ijk = ijk − ij ˆ x x 单因素随机完全区组 ij i j ij x = + + + = − − + x x x x ij ij i j ˆ 二因素随机完全区组 ijk Ai Bj AB ij k ijk x = + + +( ) + + = − − + x x x x ijk ijk ij k ˆ 单因素拉丁方 ij(k) i j (k) ij(k) x = + + + + = − − − + x x x x x ˆ ij(k ) ij(k ) i j (k ) 2 二因素拉丁方 ( ) ( ) ( ) ij kl i j Ak Bl AB kl ij kl x = + + + + + + = − − + x x x x ˆ ij(kl) ij(kl) ij (kl) 2
j()=A+A+B,+8+B,+(AB)+eik 裂式裂区 E k“j xik=H+A +B+dy+Bk +Sjk+(AB)jk+Ejk E k-x.ik +x-+.j +xk-x 书中[例11.]随机区组试验结果,介绍每一变数随机误差效应值的提取。 、试验资料中异常数据的检测 目前有多种异常数据的检测准则,下面将格拉布斯( Grubbs)准则和狄克逊( Dixon) 准则介绍给大家 1.格拉布斯( Grubbs)准则 设X,x,……x为一独立正态分布变量列格拉布斯于1969年导出了计算式G=- 的分布,表11.3给出了该分布0.05与0.01显著水平的临界值 格拉布斯给出了具有最大误差效应项的E,对应的G值计算公式 结合例题介绍格拉布斯准则临界值表的查阅和使用。 格拉布斯准则应用总结:从上面检测例题看出,应用格拉布斯准则,每次只能检测一个 数据,若判定为异常数据,则须作缺区估计和全部资料重新整理误差效应项进入第二轮检测, 若数据中有较多异常数据,本方法计算工作量较大,是其缺点 2.狄克逊准则 狄克逊1953年提出了一种极差比较法的判别准则。 检测步骤:(1)在判别前首先应对检测对象从小到大重新排序(当然我们此时的检测对 象是整理出的误差效应项),使成为 E(u)<E(2)<…E(n-<E变数列形式 (2)利用狄克逊给出的判别临界值和计算公式,计算并作出判断,见书中表 狄克逊准则应用评价:狄克逊准则属于非参数统计方法,其结果并未反映全部资料蕴含 的关于误差的信息,而是强烈地受极端值的影响,检测精确度相对较低,因此,只有当要求 精确度不是很高时,可用此法。它的优点是简便易行,当变数列较大超过表中给出的容量限 时,亦可将全部误差值按一定变因(如区组或处理)分成若干组,分别进行检测
二裂式裂区 ij k Ai j ij Bk AB ik ijk x = + + + + +( ) + ( ) ijk = ijk − ij − ik + i ˆ x x x x 条 区 ijk Ai j ij Bk jk AB jk ijk x = + + + + + +( ) + = − − − + + + − x x x x x x x x ijk ijk ij i k jk i j k ˆ 举书中[例 11.1]随机区组试验结果,介绍每一变数随机误差效应值的提取。 二、试验资料中异常数据的检测 目前有多种异常数据的检测准则,下面将格拉布斯(Grubbs)准则和狄克逊(Dixon) 准则介绍给大家。 1.格拉布斯(Grubbs)准则 设 X1,X2,……Xn 为一独立正态分布变量列,格拉布斯于 1969 年导出了计算式 s x x G i − = 的分布,表 11.3 给出了该分布 0.05 与 0.01 显著水平的临界值。 格拉布斯给出了具有最大误差效应项的 ij ˆ 对应的 G 值计算公式: − = ( 1) ˆ ˆ 2 n MAX G 。 结合例题介绍格拉布斯准则临界值表的查阅和使用。 格拉布斯准则应用总结:从上面检测例题看出,应用格拉布斯准则,每次只能检测一个 数据,若判定为异常数据,则须作缺区估计和全部资料重新整理误差效应项进入第二轮检测, 若数据中有较多异常数据,本方法计算工作量较大,是其缺点。 2.狄克逊准则 狄克逊 1953 年提出了一种极差比较法的判别准则。 检测步骤:⑴ 在判别前首先应对检测对象从小到大重新排序(当然我们此时的检测对 象是整理出的误差效应项),使成为 ˆ (1) ˆ (2) … ( 1) ( ) ˆ ˆ n n − 变数列形式 ⑵ 利用狄克逊给出的判别临界值和计算公式,计算并作出判断,见书中表 11.6。 狄克逊准则应用评价: 狄克逊准则属于非参数统计方法,其结果并未反映全部资料蕴含 的关于误差的信息,而是强烈地受极端值的影响,检测精确度相对较低,因此,只有当要求 精确度不是很高时,可用此法。它的优点是简便易行,当变数列较大超过表中给出的容量限 时,亦可将全部误差值按一定变因(如区组或处理)分成若干组,分别进行检测
第二节协方差分析 、协方差分析的意义和功用 协方差分析的定义:将总变异的乘积和与协方差按照其变异来源分解成各个组成部分 的统计技术。 2、协方差分析的功用:当试验资料存在试验的目标性状y和对其可能有景响或干扰的伴 随性状r时,将各个y矫正到x的同一水平下,以消除因x的不同对结果y的影响,进而实现 试验目标性状在平等基础上的比较 3、协方差分析的步骤: ①原始资料的整理将目标性状和伴随因素一一对应并列表,其格式和数据整理项目与 该设计类型方案分析原始资料整理表相同。 ②对目标性状y和伴随因素x两套数据作分别的该设计类型的方差分析。考察x变数在 我们关注的变异来源项间差异是否显著,如不显著,则说明其影响不管存在与否,其在各处 理间的差异均属抽样误差。因此,可不必作协方差分析。反之,则应作协方差分析。y变数 的方差分析结果是不经矫正的原始数据结果,可用于矫正后与协方差分析结果的比较,以得 到统计控制效率的估价 ③列规范的协方差分析表。其各变异来源与该设计类型方差分析表相同,但对各变异来 源的统计数据则应包括DF、SS、SS、SP及误差一项的b值。并在此表右侧给出离回归分 析结果 ④利用上表结果,作出x变数对目标性状回归显著性的分析推断。若结果为不显著,则 用简单的方差分析对y变数进行统计分析,反之则继续下面协方差分析。 ⑤同样利用上表结果,作出矫正后各欲分析的变异来源项间差异是否显著的推断,若结 果为不显著,可给出经矫正后处理变异来源项间差异为不显著的结论,并与未矫正前y变数 的方差分析结果进行统计控制效率比较,反之,则应继续向下分析 ⑥计算各y变数在同一ⅹ变数水平下的矫正平均值,并作矫正后平均值的多重比较,并 对整个试验给出专业分析。 完全随机试验资料的协方差分析 1、完全随机试验资料的协方差分析的线性模型:y=H+r1+,+E 2、以完全随机试验资料的[例112为例,讲解协方差分析的全部过程和各步的统计 学含义。 、其它田间试验资料的协方差分析 以随机区组试验资料的例11.3为例,讲解具有更多变异来源的试验设计类型的协方差 分析。(其线性模型为:=+1+p+n+6),进而推及分析的一般规律
第二节 协方差分析 一、协方差分析的意义和功用 1、协方差分析的定义:将总变异的乘积和与协方差按照其变异来源分解成各个组成部分 的统计技术。 2、协方差分析的功用:当试验资料存在试验的目标性状 y 和对其可能有影响或干扰的伴 随性状 x 时,将各个 y 矫正到 x 的同一水平下,以消除因 x 的不同对结果 y 的影响,进而实现 试验目标性状在平等基础上的比较。 3、协方差分析的步骤: ①原始资料的整理 将目标性状和伴随因素一一对应并列表,其格式和数据整理项目与 该设计类型方案分析原始资料整理表相同。 ②对目标性状 y 和伴随因素 x 两套数据作分别的该设计类型的方差分析。考察 x 变数在 我们关注的变异来源项间差异是否显著,如不显著,则说明其影响不管存在与否,其在各处 理间的差异均属抽样误差。因此,可不必作协方差分析。反之,则应作协方差分析。y 变数 的方差分析结果是不经矫正的原始数据结果,可用于矫正后与协方差分析结果的比较,以得 到统计控制效率的估价。 ③列规范的协方差分析表。其各变异来源与该设计类型方差分析表相同,但对各变异来 源的统计数据则应包括 DF、SSx、SSy、SP 及误差一项的 b 值。并在此表右侧给出离回归分 析结果。 ④利用上表结果,作出 x 变数对目标性状回归显著性的分析推断。若结果为不显著,则 用简单的方差分析对 y 变数进行统计分析,反之则继续下面协方差分析。 ⑤同样利用上表结果,作出矫正后各欲分析的变异来源项间差异是否显著的推断,若结 果为不显著,可给出经矫正后处理变异来源项间差异为不显著的结论,并与未矫正前 y 变数 的方差分析结果进行统计控制效率比较,反之,则应继续向下分析。 ⑥计算各 y 变数在同一 x 变数水平下的矫正平均值,并作矫正后平均值的多重比较,并 对整个试验给出专业分析。 二、完全随机试验资料的协方差分析 1、 完全随机试验资料的协方差分析的线性模型: ij i ij ij y = + + x + 2、以完全随机试验资料的[例 11.2]为例,讲解协方差分析的全部过程和各步的统计 学含义。 三、其它田间试验资料的协方差分析 以随机区组试验资料的[例 11.3]为例,讲解具有更多变异来源的试验设计类型的协方差 分析。(其线性模型为: ij i j ij ij y = + + + x + ),进而推及分析的一般规律
本章习题 l1怎样看待和处理田间试验资料中出现的异常数据,为什么对可疑数据作统计学检 测的同时,对其加以专业上的分析? 112什么叫协方差分析?为什么要进行协方差分析?简述协方差分析的方法步骤,以 及如何将各处理值矫正到x变数同一水平下的值。 1]、3四个小麦纯系穗长调査资料如下表,研究者对其中若干数值产生怀疑,试作检测。 91 复 查 值 114有如下表水稻品种试验资料,由于发生缺株现象,调査时将小区株数(x)和小区 产量(g/小区)一并调查,其协方差分析初步统计结果一起给出,试作协方差分析。 品种 75 47 1329 1254 B 51 1872 172 1721 1611 1555 1450 1430 变异来源 DF SS SSy SP b 和自由度 2 4894 222708.2 8312.1 995068244644 11.87 总变异 2550.3 2215032776.5 100970.9 115下表为玉米品种试验的每区株数(x)和产量(y)的资料:由该资料求得的二级 数据一并列出,试作协方差分析,直至得到各品种在小区株数相同时的矫正平均产量 品种
本章习题 11.1 怎样看待和处理田间试验资料中出现的异常数据,为什么对可疑数据作统计学检 测的同时,对其加以专业上的分析? 11.2 什么叫协方差分析?为什么要进行协方差分析?简述协方差分析的方法步骤,以 及如何将各处理 i y 值矫正到 x 变数同一水平下的值。 11.3 四个小麦纯系穗长调查资料如下表,研究者对其中若干数值产生怀疑,试作检测。 品 系 A B C D 重 复 调(mm) 查 值 64 72 68 77 56 95 78 91 97 82 85 77 75 93 78 71 63 76 55 66 49 64 70 68 11.4 有如下表水稻品种试验资料,由于发生缺株现象,调查时将小区株数(x)和小区 产量(g/小区)一并调查,其协方差分析初步统计结果一起给出,试作协方差分析。 品 种 观 测 值 A B C x y x y x y 75 1541 70 1616 87 1872 69 1474 67 1611 78 1721 66 1489 67 1611 78 1721 57 1329 52 1401 67 1611 51 1254 51 1423 62 1555 48 1247 52 1471 55 1450 47 1254 51 1422 53 1430 变异来源 DF SSx SSy SP b 离 回 归 平方和 自由度 品种间 误 差 总变异 2 18 20 489.4 2060.9 2550.3 222708.2 299506.8 522215.0 8312.1 24464.4 32776.5 11.87 9096.4 100970.9 17 19 11.5 下表为玉米品种试验的每区株数(x)和产量(y)的资料:由该资料求得的二级 数据一并列出,试作协方差分析,直至得到各品种在小区株数相同时的矫正平均产量。 品种 区 组 总和 平均 ⅰ ⅱ ⅲ ⅳ Txi Tyi i x i x x y x y x y x Y A 10 18 8 17 6 14 8 15 32 64 8 16
13351129561401435 38 42 6515760150 13961146240592 变异来源 区组 34.0 120.0 1748.8 156.0 误差 58.0 114.6 总变异 192.0 2050.8 290.0
B C D E 12 17 14 12 36 40 21 42 13 15 14 10 38 36 23 36 8 13 17 10 28 35 24 38 11 11 15 16 30 29 20 52 44 56 60 48 132 140 88 168 11 14 15 12 33 35 22 42 总和 Tx jTy j 65 157 60 150 54 139 61 146 240 592 12 29.6 变异来源 SSx SSy SP 区 组 品 种 误 差 总 变 异 12.4 120.0 59.6 192.0 34.0 1748.8 268.0 2050.8 19.4 156.0 114.6 290.0