《田间试验统计》第三章试验资料的整理.doc_大学文库

第三章试验资料的整理田间试验的观察、测量和记载而得到的试验数据一般称为试验资料用编制次数分布表、绘制次数分布图等形式,对资料进行科学的整理,从而初步揭示试验研究对象的本质及规律。然后,概括出反映试验资料特征的数量指标,为试验资料的统计分析提供基础第一节统计学的几个基本概念为学习从本章开始的生物统计内容,首先要了解统计学的几个基本名词术语 1、总体:具有共同性质的个体所组成的集团,称为总体。总体又分无限总体和有限总体。无限总体所含个体多得无所计数。有限总体包有限的。般构成总体的所有个体数目以N表示,称为总体容量 2、样本:从总体中随机抽出若干个体称为样本.样本一般均指随机样本, 样本内个体的数目以n表示,称为样本容量。试验所取得的数据也是样本在统计上,把样本容量30者,称为大样本;把样本容量n≤30者,称为小样本 3、参数:由总体的全部观察值而算得的描述总体特征的数值,称为参数(如总体平均数等) 4、统计数:由样本的全部观察值算得的描述样本特征的数值,称为统计数,(如样本平均数等)。样本统计数是总体相应参数的估计值 5、观察值:每一个体的某一性状测定值叫做观察值 6、变数:若干有变异的观察值叫随机变数或简称变数观察值是一个具体的数值,而变数则是一群具有变异性的观察值的总称第二节试验资料的分类田间试验中所得的试验资料,因性状不同一般可分为如下两大类: 、数量性状资料数量性状是指可用测量和计数方法表示的性状。这类性状资料又可分为两种: 1.连续性变数:指由度量、称量或测量方法所获得的数据,其观察值不一定是整数在任何两个相邻的观察值之间可以有微小差异的其它数值存在。例如称重水稻每穗粒重时在2g至3g之间,可以有255g或2.8g等数值存在。如株高、产量、穗长、粒重等均为连续性变数。 2.间断性变数:指由计数方法获得的数据,每个观察值必须以整数表示。如苗数分蘖数、荚数、果穗数、昆虫头数等,只能以整数表示,不可能在一株玉米上有1.6个果穗, 或在一株水稻上出现27个分蘖。由于两个相邻整数间是不连续的,故称为间断性变数

1 第三章试验资料的整理田间试验的观察、测量和记载而得到的试验数据一般称为试验资料。用编制次数分布表、绘制次数分布图等形式，对资料进行科学的整理，从而初步揭示试验研究对象的本质及规律。然后，概括出反映试验资料特征的数量指标，为试验资料的统计分析提供基础。第一节统计学的几个基本概念为学习从本章开始的生物统计内容，首先要了解统计学的几个基本名词术语。１、总体：具有共同性质的个体所组成的集团，称为总体。总体又分无限总体和有限总体。无限总体所含个体多得无所计数。有限总体包有限的。一般构成总体的所有个体数目以Ｎ表示，称为总体容量。２、样本：从总体中随机抽出若干个体称为样本．样本一般均指随机样本。样本内个体的数目以 n 表示，称为样本容量。试验所取得的数据也是样本。在统计上，把样本容量 n>30 者，称为大样本；把样本容量 n≤30 者，称为小样本。３、参数：由总体的全部观察值而算得的描述总体特征的数值，称为参数（如总体平均数等）。４、统计数：由样本的全部观察值算得的描述样本特征的数值，称为统计数，（如样本平均数等）。样本统计数是总体相应参数的估计值。５、观察值：每一个体的某一性状测定值叫做观察值。６、变数：若干有变异的观察值叫随机变数或简称变数。观察值是一个具体的数值，而变数则是一群具有变异性的观察值的总称。第二节试验资料的分类田间试验中所得的试验资料，因性状不同一般可分为如下两大类：一、数量性状资料数量性状是指可用测量和计数方法表示的性状。这类性状资料又可分为两种：１．连续性变数：指由度量、称量或测量方法所获得的数据，其观察值不一定是整数，在任何两个相邻的观察值之间可以有微小差异的其它数值存在。例如称重水稻每穗粒重时，在 2g 至 3g 之间，可以有 2.55g 或 2.8g 等数值存在。如株高、产量、穗长、粒重等均为连续性变数。２．间断性变数：指由计数方法获得的数据，每个观察值必须以整数表示。如苗数、分蘖数、荚数、果穗数、昆虫头数等，只能以整数表示，不可能在一株玉米上有1.6 个果穗，或在一株水稻上出现 2.7 个分蘖。由于两个相邻整数间是不连续的，故称为间断性变数

、质量性状资料质量性状是指能观察而不能测量的性状,即属性性状。如芒的有无、籽粒颜色、荚的开裂性、茸毛的有无等。要从这类性状获得数量资料,可采用下列两种方法: 统计次数法。在一定群体内,根据某种质量性状的表现对全部个体进行分组,分别统计归入每组的个体数。例如在320株水稻植株中其柱头颜色有紫、黄两种,经计数其中有 240株为紫色柱头,另80株为黄色柱头。这类资料也称次数资料。 2.给分法(给予每类质量性状以相当的数量方法)。例如小麦子粒颜色有红有白,可令是红色的数量为0,是白色的数量为1。则在这个小麦子粒群中只有“0”、“1”两种数量然后,统计“0”、“1”的出现次数,即可得到和数量性状相似的资料。第三节次数分布我们在田间试验所得到的试验资料,不论是连续性变数还是间断性变数,它们的出现都是有一定的数量范围的。如果我们将其可能出现的整个范围分成若干个互斥的区间,再统计出各个区间内的观察值个数(次数),则可发现,表面上杂乱无章的变数,是有一定的分布规律的。这种由不同区间内观察值出现的次数组成的分布,就叫做变数的次数分布,简称次数分布。通过次数分布,可以初步了解变数的分布特点,也便于进一步的计算和分析、次数分布表将次数分布做成表格形式,叫做次数分布表。编制次数分布表的方法,因变数种类不同而有所差异。 1.连续性变数资料的次数分布表现以表3.1的100株小麦株高资料为例,试编制次数分布表 (1)求极差:最大观察值一最小观察值=极差,以R表示,R为整个样本资料的变异幅度。从表3.1中找出最大观察值为106cm,最小观察值为78cm,极差为R=106-78=28cm (2)确定组数和组距根据极差的大小把资料分为若干个组。组与组之间的距离,称为组距,用i表示。组数和组距是相互决定的,在确定组数和组距时应考虑:①观察值个数的多少;②极差的大小;③便于计算;④能反映出资料的真实面貌。样本大小与组数多少的关系可参照表3,2 表3.1资料的观察值个数为100,查表32可分为8-16组,决定分为10组。这样其组距便是: 组距;=R 2.8≈3 组数10 组距得2.8,选用较接近的整数3。此结果比较理想,否则可另定组数。 (3)确定各组的组限组限即为每一组范围的上、下两个界限值,有了上、下两个界限后,才能使各个观察值划归到一定的组内。确定组限首先是确定第一组下限,有了第一组下限后,把下限加上组距,则为第一组的上限;第一组的上限也是第二组的下限,第二组的下限加组距,即为第二组的上限;以下各组依此类推

2 二、质量性状资料质量性状是指能观察而不能测量的性状，即属性性状。如芒的有无、籽粒颜色、荚的开裂性、茸毛的有无等。要从这类性状获得数量资料，可采用下列两种方法：１．统计次数法。在一定群体内，根据某种质量性状的表现对全部个体进行分组，分别统计归入每组的个体数。例如在 320株水稻植株中其柱头颜色有紫、黄两种，经计数其中有 240 株为紫色柱头，另 80 株为黄色柱头。这类资料也称次数资料。２．给分法（给予每类质量性状以相当的数量方法）。例如小麦子粒颜色有红有白，可令是红色的数量为 0，是白色的数量为 1。则在这个小麦子粒群中只有“0”、“1”两种数量，然后，统计“0”、“1”的出现次数，即可得到和数量性状相似的资料。第三节次数分布我们在田间试验所得到的试验资料，不论是连续性变数还是间断性变数，它们的出现都是有一定的数量范围的。如果我们将其可能出现的整个范围分成若干个互斥的区间，再统计出各个区间内的观察值个数（次数），则可发现，表面上杂乱无章的变数，是有一定的分布规律的。这种由不同区间内观察值出现的次数组成的分布，就叫做变数的次数分布，简称次数分布。通过次数分布，可以初步了解变数的分布特点，也便于进一步的计算和分析。一、次数分布表将次数分布做成表格形式，叫做次数分布表。编制次数分布表的方法，因变数种类不同而有所差异。１．连续性变数资料的次数分布表现以表 3.1 的 100 株小麦株高资料为例，试编制次数分布表。（１）求极差：最大观察值—最小观察值＝极差，以 R 表示，R 为整个样本资料的变异幅度。从表 3.1中找出最大观察值为 106cm，最小观察值为78cm，极差为R=106-78=28cm。（２）确定组数和组距根据极差的大小把资料分为若干个组。组与组之间的距离，称为组距，用 i 表示。组数和组距是相互决定的，在确定组数和组距时应考虑：①观察值个数的多少；②极差的大小；③便于计算；④能反映出资料的真实面貌。样本大小与组数多少的关系可参照表 3.2。表 3.1 资料的观察值个数为 100，查表 3.2可分为 8~16 组，决定分为 10组。这样其组距便是： 2.8 3 10 28 = ＝ =  组数组距 R i 组距得 2.8，选用较接近的整数 3。此结果比较理想，否则可另定组数。（３）确定各组的组限组限即为每一组范围的上、下两个界限值，有了上、下两个界限后，才能使各个观察值划归到一定的组内。确定组限首先是确定第一组下限，有了第一组下限后，把下限加上组距，则为第一组的上限；第一组的上限也是第二组的下限，第二组的下限加组距，即为第二组的上限；以下各组依此类推

第一组下限值以资料中最小观察值减为宜,如本例最小观察值是78,=3=15,则第一组下限便是为78-1.5=76.5,第一组上限则为765+3=79,5,因此,本例各组的组限为: 第二组 82.5 第三组 82.5 第十组 103.5 106.5 由于相邻两组的上限和下限是同一值,而一个观察值只归入一组,不可重复,如有压线观察值,可自行规定归入上组还是归入下组 (4)计算组中值有了组限,即可编制次数分布表,但是各组如只用下限和上限来区分,计算上不方便,所以各组还应定出一个“组中点值”(组中值)作为该组的代表,组中值用x表示,组中值=(下限+上限)/2。本例第一组组中值为 (765+795)=78。 (5)各观察值归组并统计各组次数可按资料中各观察值的次序,把各数值逐一归于各组,一般用划“正”字来计数,待全部观察值归组后,即可求得各组的次数,制成次数分布表(表3.3)。从表3.3可以看出,100株小麦株高的变异范围在765~1065cm之间:大部分株高在90cm 左右,而以885~91.5cm之间株数最多。从而可以对该小麦品种株高性状有所了解。另外需要指出,这个次数分布两头少,中间多,形成一个左右大致对称的分布,这种分布有助于我们直观的理解正态分布,正态分布是在第四章将讨论的一个重要内容 2.间断性变数的次数分布表 3.属性变数资料的整理次数分布图试验资料除用次数分布表来表示外,也可用图形来表示,次数分布图可以更形象地表明次数分布情况。常用的图示形式有方柱形图、多边形图和条形图等无论哪一种形式的次数分布图,一般都是在试验资料整理成次数分布表的基础上进行为使绘成的图形显得匀称,横坐标与纵坐标长度比例要适宜,一般以5:4或6:5为好。用横坐标表示各组的组限或组中值,用纵坐标来表示各组的次数,标准绘制图应用现成坐标纸来完成 1.方柱形图适用于表示连续性变数的次数分布。现以表3.1100株小麦株高的次数分布为例加以说明。该表共有10组,所以在横轴上分为10等分(因第一组的下限不是从零开始,故第一等分应离开原点一些,并在其前加折断号),并标上各组的组限,在纵轴上等距标定次数,因表3.1资料最多一组的次数为28,故在纵轴上要分出不低于28等分。查表3.3, 第一组次数为2,则在第一组的上、下限处绘两条纵线,其高度等于纵坐标上的2个单位

3 第一组下限值以资料中最小观察值减 2 i 为宜，如本例最小观察值是 78， 1.5 2 3 2 = = i ，则第一组下限便是为 78-1.5=76.5，第一组上限则为 76.5+3=79.5，因此，本例各组的组限为：组别下限上限第一组 76.5 79.5 第二组 79.5 82.5 第三组 82.5 85.5    第十组 103.5 106.5 由于相邻两组的上限和下限是同一值，而一个观察值只归入一组，不可重复，如有压线观察值，可自行规定归入上组还是归入下组。（４）计算组中值有了组限，即可编制次数分布表，但是各组如只用下限和上限来区分，计算上不方便，所以各组还应定出一个“组中点值”（组中值）作为该组的代表，组中值用 x 表示，组中值=（下限+上限）/2。本例第一组组中值为 78 2 (76.5 79.5) = + 。（５）各观察值归组并统计各组次数可按资料中各观察值的次序，把各数值逐一归于各组，一般用划“正”字来计数，待全部观察值归组后，即可求得各组的次数，制成次数分布表（表 3.3）。从表 3.3可以看出，100 株小麦株高的变异范围在76.5~106.5cm之间；大部分株高在 90cm 左右，而以 88.5~91.5cm 之间株数最多。从而可以对该小麦品种株高性状有所了解。另外需要指出，这个次数分布两头少，中间多，形成一个左右大致对称的分布，这种分布有助于我们直观的理解正态分布，正态分布是在第四章将讨论的一个重要内容。 2．间断性变数的次数分布表 3．属性变数资料的整理二、次数分布图试验资料除用次数分布表来表示外，也可用图形来表示，次数分布图可以更形象地表明次数分布情况。常用的图示形式有方柱形图、多边形图和条形图等。无论哪一种形式的次数分布图，一般都是在试验资料整理成次数分布表的基础上进行。为使绘成的图形显得匀称，横坐标与纵坐标长度比例要适宜，一般以 5:4 或 6:5 为好。用横坐标表示各组的组限或组中值，用纵坐标来表示各组的次数，标准绘制图应用现成坐标纸来完成。１．方柱形图适用于表示连续性变数的次数分布。现以表 3.1 100 株小麦株高的次数分布为例加以说明。该表共有 10 组，所以在横轴上分为 10 等分（因第一组的下限不是从零开始，故第一等分应离开原点一些，并在其前加折断号），并标上各组的组限，在纵轴上等距标定次数，因表 3.1资料最多一组的次数为 28，故在纵轴上要分出不低于28 等分。查表 3.3，第一组次数为 2，则在第一组的上、下限处绘两条纵线，其高度等于纵坐标上的 2 个单位

并用一横线连接两纵线的顶端,即成方柱形。其余各组依次绘制,即可绘制成方柱形次数分布图(图3.1)。 2.多边形图多边形图也是表示连续性变数次数分布的一种图示形式,而且续性变数次数分布的一种图示形式,而且在同图上可比较两组以上的资料 3.条形图适用描述间断性变数和属性变数资料的次数分布。条形图在制作上与方柱形图相比,有两点有所不同:一是横轴标的是间断的组中值或分类性状;二是表示各组或各类次数多少的图形,用的是互不相联的条形,其它与柱形图绘制要求基本一样。现将表36资料绘制成条形图于图3.3,具体制作过程不再赘述。条形图中的条形,如若换成线表示,就成为另外一种示图一一线形图,其制作更易些。第四节平均数从次数分布表或次数分布图中,可以看出一资料变数的分布特点,即集中性和离散性集中性是指资料中的各观察值总是以某一数值为中心分布:离散性是指资料中各观察值的离散、变异程度。但是从次数分布表和次数分布图中只能看出一个大致趋势,且不能以此做统计处理。因此,为了使资料得到完整的描述,还需要从中概括出一些能够反映资料特征的数量指标,这些数量指标称为试验资料的特征数。变数集中性这特征,通常用平均数来描述。平均数是数量资料的代表值,它表示数量资料的中心位置,可作为资料的代表与其它资料进行比较,是人们生产、科研和生活中最常用的特征数。平均数有多种,应用最广泛的是算术平均数。算术平均数 1.定义一个数量资料中各个观察值的总和除以观察值个数所得的商,即为算术平均数,样本算术平均数用x表示,其计算公式为 x=x+x2+x+…+x= (=1,2,…n) (3.1) 式中:∑为累加符号,∑x1表示从第一个观察值x一直加到第n个观察值x的总和 n为样本容量即样本内观察值个数。上式可简写为总体平均数用μ表示,其公式为

4 并用一横线连接两纵线的顶端，即成方柱形。其余各组依次绘制，即可绘制成方柱形次数分布图（图 3.1）。２．多边形图多边形图也是表示连续性变数次数分布的一种图示形式，而且续性变数次数分布的一种图示形式，而且在同一图上可比较两组以上的资料。３．条形图适用描述间断性变数和属性变数资料的次数分布。条形图在制作上与方柱形图相比，有两点有所不同：一是横轴标的是间断的组中值或分类性状；二是表示各组或各类次数多少的图形，用的是互不相联的条形，其它与柱形图绘制要求基本一样。现将表 3.6 资料绘制成条形图于图 3.3，具体制作过程不再赘述。条形图中的条形，如若换成线表示，就成为另外一种示图――线形图，其制作更易些。第四节平均数从次数分布表或次数分布图中，可以看出一资料变数的分布特点，即集中性和离散性。集中性是指资料中的各观察值总是以某一数值为中心分布；离散性是指资料中各观察值的离散、变异程度。但是从次数分布表和次数分布图中只能看出一个大致趋势，且不能以此做统计处理。因此，为了使资料得到完整的描述，还需要从中概括出一些能够反映资料特征的数量指标，这些数量指标称为试验资料的特征数。变数集中性这一特征，通常用平均数来描述。平均数是数量资料的代表值，它表示数量资料的中心位置，可作为资料的代表与其它资料进行比较，是人们生产、科研和生活中最常用的特征数。平均数有多种，应用最广泛的是算术平均数。一、算术平均数１．定义一个数量资料中各个观察值的总和除以观察值个数所得的商，即为算术平均数，样本算术平均数用 x 表示，其计算公式为 n x n x x x x x n i i n = = + + + + = 1 2 3  1 (i=1,2,…,n) (3.1) 式中：  为累加符号， = n i i x 1 表示从第一个观察值 x1 一直加到第 n 个观察值 xn 的总和， n 为样本容量即样本内观察值个数。上式可简写为 n x x  = (3.2) 总体平均数用  表示，其公式为

6 (2)各个观察值与平均数的差数平方的总和，比各个观察值与任何一个数值的差数平方的总和都小，即   = = −  −  n i n i i i x x x a a x 1 1 2 2 ( ) ( ) ( ) 。亦可简述为离均差平方的总和为最小。用简写式证明如下：设 a 为任何数值，可能比 x 大或比 x 小，但不等于 x ，用算式表示即 a = x   ， 表示 x 与 a 的差数。 2 2 2 2 2 ( ) 2 ( ) ( ) ( ) [( ) ] =  −    − +   − =  −   =  −   x x x x n x a x x x x 以公式 3.6 知， (x − x) = 0 ，由此 2 (x − x) = 0 故 2 2 2 2 2 (x − a) = (x − x) + n = (x − x) + n(x − a) 移项 2 2 2 (x − x) = (x − a) − n(x − a) 2 2 2 ( ) ( ) ( ) 0 x x x a n x a   −   −  −  （3.7）因而证实了，离均差平方和比观察值离任一其它数值的差数平方和都小。二、几何平均数一个数量资料中如有 n 个观察值，相乘积开 n 次方所得数值，即为几何平均数，用 G 表示。 n n G = x  x  x  x 1 2 3 (3.8) 上述可用计算器直接算出，也可转换成对数运算。几何平均数常用于表示某现象的平均发展速度，如计算若干天内，某种植物株高、根长生长量或某种昆虫繁殖量，每天各为上天的平均倍数等，用几何平均数能比算术平均数更准确地反映实际情况。 [例 3.4]调查某麦田百株蚜虫发生情况如表 3.8，试求百株蚜虫平均每天繁殖量各为上天的多少倍？首先算出蚜虫每天繁殖量为上天的倍数，如 6 月 28 日为 6 月 27 日的 340/100=3.09 倍， 6 月 29 日为 6 月 28 日的 810/340=2.38 倍等，然后，将这些数据代入 3.8 式。则有表 3.8 百株蚜虫繁殖量 3.09 2.38 1.54 1.27 14.4 1.95 4 4 G =    = = 即百株麦蚜在 4 天中，平均每天繁殖量各为上天的 1.95 倍。我们可以验证：6 月 27 日百株麦蚜为 110 头，4天后为 110×1.954=1 590（头），与 7 月 1 日实际虫数相符。如若用算术平均数计算就不会符合了。这说明此类问题用几何平均数

7 计算更为确切。三、中数将资料中的所有观察值从小到大依次排列，居中间位置的观察值称为中数，用Md表示。例如 2,3,4,5,6 的中数是 4。若观察值个数为偶数，则以中间两个观察值的算术平均数为中数。例如 2,3,4,5 的中数 3.5 2 3 4 = + M d = 。在农业试验上，以 50％为标准的各种生育期、发生期以及杀虫剂毒力的致死中量、致死中浓度等，用的都是中数。四、众数在资料中出现次数最多的一个数值称为众数(mode)，用 M 0 表示。例如 i f f f M L  + = + 1 2 2 0 (3.9) 式中：L 为次数最多组的下限，f1为次数最多组上一组的次数，f2 为次数最多组下一组的次数，i 为组距。以表 3.3 数据为例 3 89.75(cm) 21 15 15 0 88.5  = + M = + 即表 3.3 资料的众数为 89.75，用上式算出的众数，在理论上要比次数最多的组中值 90 要精确。几种平均数之间的关系：在观察值为正态分布的情况下，算术平均数、众数、中数三个数重合，若为同一资料，一般 x  G 。第五节变异数平均数作为数量资料的代表值，其代表性的强弱取决于资料内各观察值变异程度的大小。但是仅靠平均数并不能了解资料中各观察值间的变异程度大小，也无法知道平均数的代表性如何，例如有 A、B 两组数据： A 组 60、58、60 、61、61 x = 60 B 组 10、110、50、90、40 x = 60 假设这是两个都自称新育成的矮杆小麦株高资料（且随机抽取的很有代表性的样本），我们能仅靠平均数就对它们作出正确评价吗？虽然两组的平均数都是 60，但两组数据的变异程度有很大不同，它们平均数的代表性亦大不一样。所以只用平均数表示资料的特征是不够的，为了更全面地描述一个数量资料，还必须有一个度量其变异程度的特征数，这个特征数叫变异数。最常用的变异数有极差、方差、标准差和变异系数

极差 range又称全距,用R表示,它表示资料的变异范围。R大表示变异范围大,其x代表性差:若R小表示变异范围小,其x代表性好。如上面两组数据中,R61-58=3,R=110 -10=100,RA<RB,说明A组数据的变异范围小,A的代表性好于xB 极差虽然可以对资料的变异程度有所说明,但是比较粗放。例如另有C组数据10、110、60、60、60,可以直观地看出整个资料的变异程度小于B 组,但这两组的R都相等。显然,极差不是根据全部观察值求得的,而是由最大和最小两个极端观察值决定的,因此,没有充分利用资料中的全部信息,使得类似B、C两组数据间的变异及平均数的代表性,用R无法正确反映。另外,对于同一总体,抽出的不同样本,其极差波动也比较大。为了正确反映资料的变异度,较合理的方法是根据样本中的全部观察值来度量。这时需选定一个数值作为共同比较的标准,因为平均数是数量资料的代表值,所以用它作为比较的标准,让资料中每个观察值都与相减,即得各个离均差(xx)。设想再求和∑(x-x),用其来反映变异度的大小。但36式已证明∑(x-x)=0,这样就达不到目的。如果各个离均差的平方再相加,得到各离均差平方的总和(简称平方和,缩写为SS),则可反映出资料的变异度。平方和的定义公式为这样还不完善,例如再有D组数据10、110,其平方和与C组相等,但两组的变异度是不一样的,因此,要体现出观察值数目n的影响,用(n-1)来除平方和,即可得到全面反映资料变异度的变异数,将这个平均的平方和称为方差 varance)。样本方差用s2表示,其公式为 (x1-x) 总体方差用a2表示,其公式为 x1- 3.11和3.12式中,n1称自由度,N为总体容量。习惯上把样本的s2又称均方( mean of wares,总体的σ2称为方差,s是σ2的无偏估计值。方差在统计分析上有广泛的应用。三、标准差定义虽然方差概括了资料中每个观察值所提供的信息,全面的反映了其变异度,但是由于采

8 一、极差极差(range)又称全距，用 R 表示，它表示资料的变异范围。R 大表示变异范围大，其 x 代表性差；若 R 小表示变异范围小，其 x 代表性好。如上面两组数据中，RA=61-58=3，RB=110 -10=100，RA<RB，说明 A 组数据的变异范围小， x A 的代表性好于 x B。极差虽然可以对资料的变异程度有所说明，但是比较粗放。例如另有 C 组数据 10、110、60、60、60，可以直观地看出整个资料的变异程度小于 B 组，但这两组的 R 都相等。显然，极差不是根据全部观察值求得的，而是由最大和最小两个极端观察值决定的，因此，没有充分利用资料中的全部信息，使得类似 B、C 两组数据间的变异及平均数的代表性，用 R 无法正确反映。另外，对于同一总体，抽出的不同样本，其极差波动也比较大。二、方差为了正确反映资料的变异度，较合理的方法是根据样本中的全部观察值来度量。这时需选定一个数值作为共同比较的标准，因为平均数是数量资料的代表值，所以用它作为比较的标准，让资料中每个观察值都与 x 相减，即得各个离均差(x- x )。设想再求和 (x − x) ，用其来反映变异度的大小。但 3.6 式已证明 (x − x) =0，这样就达不到目的。如果各个离均差的平方再相加，得到各离均差平方的总和（简称平方和，缩写为 SS），则可反映出资料的变异度。平方和的定义公式为 = = − n i i SS x x 1 2 ( ) (3.10) 这样还不完善，例如再有 D 组数据 10、110，其平方和与 C 组相等，但两组的变异度是不一样的，因此，要体现出观察值数目 n 的影响，用(n-1)来除平方和，即可得到全面反映资料变异度的变异数，将这个平均的平方和称为方差(variance)。样本方差用 s 2 表示，其公式为 1 ( ) 1 2 2 − − = = n x x s n i i (3.11) 总体方差用 2  表示，其公式为 N x N i  i = − = 1 2 2 ( )  (3.12) 3.11 和 3.12 式中，n-1 称自由度，N 为总体容量。习惯上把样本的 s 2 又称均方(mean of squares)，总体的 2  称为方差，S 2 是 2  的无偏估计值。方差在统计分析上有广泛的应用。三、标准差１．定义虽然方差概括了资料中每个观察值所提供的信息，全面的反映了其变异度，但是由于采

9 用了平方的形式，度量单位也随之平方了（如平方克、平方厘米），这在反映有度量单位事物时不好解释，另外平方使数值量也增大了，与实际变异度有相当差距，方差只适于反映不需考虑上述情况事物的变异度。为此，把方差开平方还原，就得到一个新的变异数―标准差 (standard deviation)。标准差是方差的平方根，样本标准差用 s 表示，其公式为 1 ( ) 2 −  − = n x x s (3.13) 总体标准差公式 N x 2 ( )   − = (3.14) 用标准差表示事物的变异性，不仅保留了方差的优点，而且在度量单位上与平均数一致，在数量水平上也客观实际，因此，标准差能够很好地表示出样本（或总体）中每个观察值的平均变异度。关于自由度的说明：样本标准差（或方差）之所以不用样本容量 n，而用自由度 n-1 作为除数。这是因为我们通常所掌握的样本资料，不知  的数值，不得不用样本平均数 x 来代替  。由于 x 与  总有差异，由公式 3.7 可知，如以  代替 a，则 2 2 (x − x)  (x −) 。因此，由 (x x) / n 2  − 算出的标准差将偏小，现用n-1可校正偏小的弊病。自由度记作DF(degree of freedom)，其具体数值则常用 v 表示。２．标准差的计算 (1)直接法按照 3.13 式直接计算。 [例 3.5]有 5 株大麦单株粒重资料如下：3、7、6、4、5，n=5、 x = 25、x = 5 ，试计算标准差（单位 g） 1.58( ) 5 1 10 5 1 (3 5) (7 5) (6 5) (4 5) (5 5) 1 ( ) 2 2 2 2 2 2 g n x x s = − = − − + − + − + − + − = −  − = (2)矫正数法以上计算可以看出，标准差的计算主要在于计算平方和，可把定义平方和的公式推导为 (3.15) ( ) ( ) ( ) 2 ( ) ( 2 ) 2 ( ) 2 2 2 2 2 2 2 2 2 2 n x x n x n x x n x n n x x x x x x x x x  =  −  +  =  −  +   − =  −  + =  −   统计上把 n x 2 ( ) 称为矫正数，记作 C，即 n x C 2 ( ) = 。因此有

《田间试验统计》 第三章 试验资料的整理

《田间试验统计》第三章试验资料的整理