第三章试验资料的整理 田间试验的观察、测量和记载而得到的试验数据一般称为试验资料 用编制次数分布表、绘制次数分布图等形式,对资料进行科学的整理,从而初步揭示试 验研究对象的本质及规律。 然后,概括出反映试验资料特征的数量指标,为试验资料的统计分析提供基础 第一节统计学的几个基本概念 为学习从本章开始的生物统计内容,首先要了解统计学的几个基本名词术语 1、总体:具有共同性质的个体所组成的集团,称为总体。 总体又分无限总体和有限总体。无限总体所含个体多得无所计数。有限总体包有限的。 般构成总体的所有个体数目以N表示,称为总体容量 2、样本:从总体中随机抽出若干个体称为样本.样本一般均指随机样本, 样本内个体的数目以n表示,称为样本容量。试验所取得的数据也是样本 在统计上,把样本容量30者,称为大样本;把样本容量n≤30者,称为小样本 3、参数:由总体的全部观察值而算得的描述总体特征的数值,称为参数(如总体平均 数等) 4、统计数:由样本的全部观察值算得的描述样本特征的数值,称为统计数,(如样本 平均数等)。样本统计数是总体相应参数的估计值 5、观察值:每一个体的某一性状测定值叫做观察值 6、变数:若干有变异的观察值叫随机变数或简称变数 观察值是一个具体的数值,而变数则是一群具有变异性的观察值的总称 第二节试验资料的分类 田间试验中所得的试验资料,因性状不同一般可分为如下两大类: 、数量性状资料 数量性状是指可用测量和计数方法表示的性状。这类性状资料又可分为两种: 1.连续性变数:指由度量、称量或测量方法所获得的数据,其观察值不一定是整数 在任何两个相邻的观察值之间可以有微小差异的其它数值存在。例如称重水稻每穗粒重时 在2g至3g之间,可以有255g或2.8g等数值存在。如株高、产量、穗长、粒重等均为连续 性变数。 2.间断性变数:指由计数方法获得的数据,每个观察值必须以整数表示。如苗数 分蘖数、荚数、果穗数、昆虫头数等,只能以整数表示,不可能在一株玉米上有1.6个果穗, 或在一株水稻上出现27个分蘖。由于两个相邻整数间是不连续的,故称为间断性变数
1 第三章 试验资料的整理 田间试验的观察、测量和记载而得到的试验数据一般称为试验资料。 用编制次数分布表、绘制次数分布图等形式,对资料进行科学的整理,从而初步揭示试 验研究对象的本质及规律。 然后,概括出反映试验资料特征的数量指标,为试验资料的统计分析提供基础。 第一节 统计学的几个基本概念 为学习从本章开始的生物统计内容,首先要了解统计学的几个基本名词术语。 1、总体:具有共同性质的个体所组成的集团,称为总体。 总体又分无限总体和有限总体。无限总体所含个体多得无所计数。有限总体包有限的。 一般构成总体的所有个体数目以N表示,称为总体容量。 2、样本:从总体中随机抽出若干个体称为样本.样本一般均指随机样本。 样本内个体的数目以 n 表示,称为样本容量。试验所取得的数据也是样本。 在统计上,把样本容量 n>30 者,称为大样本;把样本容量 n≤30 者,称为小样本。 3、参数:由总体的全部观察值而算得的描述总体特征的数值,称为参数(如总体平均 数等)。 4、统计数:由样本的全部观察值算得的描述样本特征的数值,称为统计数,(如样本 平均数等)。样本统计数是总体相应参数的估计值。 5、观察值 :每一个体的某一性状测定值叫做观察值。 6、变数: 若干有变异的观察值叫随机变数或简称变数。 观察值是一个具体的数值,而变数则是一群具有变异性的观察值的总称。 第二节 试验资料的分类 田间试验中所得的试验资料,因性状不同一般可分为如下两大类: 一、数量性状资料 数量性状是指可用测量和计数方法表示的性状。这类性状资料又可分为两种: 1.连续性变数: 指由度量、称量或测量方法所获得的数据,其观察值不一定是整数, 在任何两个相邻的观察值之间可以有微小差异的其它数值存在。例如称重水稻每穗粒重时, 在 2g 至 3g 之间,可以有 2.55g 或 2.8g 等数值存在。如株高、产量、穗长、粒重等均为连续 性变数。 2.间断性变数: 指由计数方法获得的数据,每个观察值必须以整数表示。如苗数、 分蘖数、荚数、果穗数、昆虫头数等,只能以整数表示,不可能在一株玉米上有1.6 个果穗, 或在一株水稻上出现 2.7 个分蘖。由于两个相邻整数间是不连续的,故称为间断性变数
、质量性状资料 质量性状是指能观察而不能测量的性状,即属性性状。如芒的有无、籽粒颜色、荚的开 裂性、茸毛的有无等。要从这类性状获得数量资料,可采用下列两种方法: 统计次数法。在一定群体内,根据某种质量性状的表现对全部个体进行分组,分别 统计归入每组的个体数。例如在320株水稻植株中其柱头颜色有紫、黄两种,经计数其中有 240株为紫色柱头,另80株为黄色柱头。这类资料也称次数资料。 2.给分法(给予每类质量性状以相当的数量方法)。例如小麦子粒颜色有红有白,可 令是红色的数量为0,是白色的数量为1。则在这个小麦子粒群中只有“0”、“1”两种数量 然后,统计“0”、“1”的出现次数,即可得到和数量性状相似的资料。 第三节次数分布 我们在田间试验所得到的试验资料,不论是连续性变数还是间断性变数,它们的出现都 是有一定的数量范围的。如果我们将其可能出现的整个范围分成若干个互斥的区间,再统计 出各个区间内的观察值个数(次数),则可发现,表面上杂乱无章的变数,是有一定的分布规 律的。这种由不同区间内观察值出现的次数组成的分布,就叫做变数的次数分布,简称次数 分布。通过次数分布,可以初步了解变数的分布特点,也便于进一步的计算和分析 、次数分布表 将次数分布做成表格形式,叫做次数分布表。编制次数分布表的方法,因变数种类不同 而有所差异。 1.连续性变数资料的次数分布表 现以表3.1的100株小麦株高资料为例,试编制次数分布表 (1)求极差:最大观察值一最小观察值=极差,以R表示,R为整个样本资料的变异 幅度。从表3.1中找出最大观察值为106cm,最小观察值为78cm,极差为R=106-78=28cm (2)确定组数和组距根据极差的大小把资料分为若干个组。组与组之间的距离,称 为组距,用i表示。组数和组距是相互决定的,在确定组数和组距时应考虑:①观察值个数 的多少;②极差的大小;③便于计算;④能反映出资料的真实面貌。样本大小与组数多少的 关系可参照表3,2 表3.1资料的观察值个数为100,查表32可分为8-16组,决定分为10组。这样其组距 便是: 组距;=R 2.8≈3 组数10 组距得2.8,选用较接近的整数3。此结果比较理想,否则可另定组数。 (3)确定各组的组限组限即为每一组范围的上、下两个界限值,有了上、下两个界 限后,才能使各个观察值划归到一定的组内。确定组限首先是确定第一组下限,有了第一组 下限后,把下限加上组距,则为第一组的上限;第一组的上限也是第二组的下限,第二组的 下限加组距,即为第二组的上限;以下各组依此类推
2 二、质量性状资料 质量性状是指能观察而不能测量的性状,即属性性状。如芒的有无、籽粒颜色、荚的开 裂性、茸毛的有无等。要从这类性状获得数量资料,可采用下列两种方法: 1.统计次数法。在一定群体内,根据某种质量性状的表现对全部个体进行分组,分别 统计归入每组的个体数。例如在 320株水稻植株中其柱头颜色有紫、黄两种,经计数其中有 240 株为紫色柱头,另 80 株为黄色柱头。这类资料也称次数资料。 2.给分法(给予每类质量性状以相当的数量方法)。例如小麦子粒颜色有红有白,可 令是红色的数量为 0,是白色的数量为 1。则在这个小麦子粒群中只有“0”、“1”两种数量, 然后,统计“0”、“1”的出现次数,即可得到和数量性状相似的资料。 第三节 次数分布 我们在田间试验所得到的试验资料,不论是连续性变数还是间断性变数,它们的出现都 是有一定的数量范围的。如果我们将其可能出现的整个范围分成若干个互斥的区间,再统计 出各个区间内的观察值个数(次数),则可发现,表面上杂乱无章的变数,是有一定的分布规 律的。这种由不同区间内观察值出现的次数组成的分布,就叫做变数的次数分布,简称次数 分布。通过次数分布,可以初步了解变数的分布特点,也便于进一步的计算和分析。 一、次数分布表 将次数分布做成表格形式,叫做次数分布表。编制次数分布表的方法,因变数种类不同 而有所差异。 1.连续性变数资料的次数分布表 现以表 3.1 的 100 株小麦株高资料为例,试编制次数分布表。 (1)求极差:最大观察值—最小观察值=极差,以 R 表示,R 为整个样本资料的变异 幅度。从表 3.1中找出最大观察值为 106cm,最小观察值为78cm,极差为R=106-78=28cm。 (2)确定组数和组距 根据极差的大小把资料分为若干个组。组与组之间的距离,称 为组距,用 i 表示。组数和组距是相互决定的,在确定组数和组距时应考虑:①观察值个数 的多少;②极差的大小;③便于计算;④能反映出资料的真实面貌。样本大小与组数多少的 关系可参照表 3.2。 表 3.1 资料的观察值个数为 100,查表 3.2可分为 8~16 组,决定分为 10组。这样其组距 便是: 2.8 3 10 28 = = = 组数 组距 R i 组距得 2.8,选用较接近的整数 3。此结果比较理想,否则可另定组数。 (3)确定各组的组限 组限即为每一组范围的上、下两个界限值,有了上、下两个界 限后,才能使各个观察值划归到一定的组内。确定组限首先是确定第一组下限,有了第一组 下限后,把下限加上组距,则为第一组的上限;第一组的上限也是第二组的下限,第二组的 下限加组距,即为第二组的上限;以下各组依此类推
第一组下限值以资料中最小观察值减为宜,如本例最小观察值是78,=3=15,则 第一组下限便是为78-1.5=76.5,第一组上限则为765+3=79,5,因此,本例各组的组限为: 第二组 82.5 第三组 82.5 第十组 103.5 106.5 由于相邻两组的上限和下限是同一值,而一个观察值只归入一组,不可重复,如有压线 观察值,可自行规定归入上组还是归入下组 (4)计算组中值有了组限,即可编制次数分布表,但是各组如只用下限和上限来区 分,计算上不方便,所以各组还应定出一个“组中点值”(组中值)作为该组的代表,组中值 用x表示,组中值=(下限+上限)/2。本例第一组组中值为 (765+795)=78。 (5)各观察值归组并统计各组次数可按资料中各观察值的次序,把各数值逐一归于 各组,一般用划“正”字来计数,待全部观察值归组后,即可求得各组的次数,制成次数分 布表(表3.3)。 从表3.3可以看出,100株小麦株高的变异范围在765~1065cm之间:大部分株高在90cm 左右,而以885~91.5cm之间株数最多。从而可以对该小麦品种株高性状有所了解。另外需 要指出,这个次数分布两头少,中间多,形成一个左右大致对称的分布,这种分布有助于我 们直观的理解正态分布,正态分布是在第四章将讨论的一个重要内容 2.间断性变数的次数分布表 3.属性变数资料的整理 次数分布图 试验资料除用次数分布表来表示外,也可用图形来表示,次数分布图可以更形象地表明 次数分布情况。常用的图示形式有方柱形图、多边形图和条形图等 无论哪一种形式的次数分布图,一般都是在试验资料整理成次数分布表的基础上进行 为使绘成的图形显得匀称,横坐标与纵坐标长度比例要适宜,一般以5:4或6:5为好。用横 坐标表示各组的组限或组中值,用纵坐标来表示各组的次数,标准绘制图应用现成坐标纸来 完成 1.方柱形图适用于表示连续性变数的次数分布。现以表3.1100株小麦株高的次数 分布为例加以说明。该表共有10组,所以在横轴上分为10等分(因第一组的下限不是从零 开始,故第一等分应离开原点一些,并在其前加折断号),并标上各组的组限,在纵轴上等距 标定次数,因表3.1资料最多一组的次数为28,故在纵轴上要分出不低于28等分。查表3.3, 第一组次数为2,则在第一组的上、下限处绘两条纵线,其高度等于纵坐标上的2个单位
3 第一组下限值以资料中最小观察值减 2 i 为宜,如本例最小观察值是 78, 1.5 2 3 2 = = i ,则 第一组下限便是为 78-1.5=76.5,第一组上限则为 76.5+3=79.5,因此,本例各组的组限为: 组 别 下 限 上 限 第一组 76.5 79.5 第二组 79.5 82.5 第三组 82.5 85.5 第十组 103.5 106.5 由于相邻两组的上限和下限是同一值,而一个观察值只归入一组,不可重复,如有压线 观察值,可自行规定归入上组还是归入下组。 (4)计算组中值 有了组限,即可编制次数分布表,但是各组如只用下限和上限来区 分,计算上不方便,所以各组还应定出一个“组中点值”(组中值)作为该组的代表,组中值 用 x 表示,组中值=(下限+上限)/2。本例第一组组中值为 78 2 (76.5 79.5) = + 。 (5)各观察值归组并统计各组次数 可按资料中各观察值的次序,把各数值逐一归于 各组,一般用划“正”字来计数,待全部观察值归组后,即可求得各组的次数,制成次数分 布表(表 3.3)。 从表 3.3可以看出,100 株小麦株高的变异范围在76.5~106.5cm之间;大部分株高在 90cm 左右,而以 88.5~91.5cm 之间株数最多。从而可以对该小麦品种株高性状有所了解。另外需 要指出,这个次数分布两头少,中间多,形成一个左右大致对称的分布,这种分布有助于我 们直观的理解正态分布,正态分布是在第四章将讨论的一个重要内容。 2.间断性变数的次数分布表 3.属性变数资料的整理 二、次数分布图 试验资料除用次数分布表来表示外,也可用图形来表示,次数分布图可以更形象地表明 次数分布情况。常用的图示形式有方柱形图、多边形图和条形图等。 无论哪一种形式的次数分布图,一般都是在试验资料整理成次数分布表的基础上进行。 为使绘成的图形显得匀称,横坐标与纵坐标长度比例要适宜,一般以 5:4 或 6:5 为好。用横 坐标表示各组的组限或组中值,用纵坐标来表示各组的次数,标准绘制图应用现成坐标纸来 完成。 1.方柱形图 适用于表示连续性变数的次数分布。现以表 3.1 100 株小麦株高的次数 分布为例加以说明。该表共有 10 组,所以在横轴上分为 10 等分(因第一组的下限不是从零 开始,故第一等分应离开原点一些,并在其前加折断号),并标上各组的组限,在纵轴上等距 标定次数,因表 3.1资料最多一组的次数为 28,故在纵轴上要分出不低于28 等分。查表 3.3, 第一组次数为 2,则在第一组的上、下限处绘两条纵线,其高度等于纵坐标上的 2 个单位
并用一横线连接两纵线的顶端,即成方柱形。其余各组依次绘制,即可绘制成方柱形次数分 布图(图3.1)。 2.多边形图多边形图也是表示连续 性变数次数分布的一种图示形式,而且续性 变数次数分布的一种图示形式,而且在同 图上可比较两组以上的资料 3.条形图适用描述间断性变数和属 性变数资料的次数分布。条形图在制作上与 方柱形图相比,有两点有所不同:一是横轴 标的是间断的组中值或分类性状;二是表示 各组或各类次数多少的图形,用的是互不相联的条形,其它与柱形图绘制要求基本一样。现 将表36资料绘制成条形图于图3.3,具体制作过程不再赘述。 条形图中的条形,如若换成线表示,就成为另外一种示图一一线形图,其制作更易些。 第四节平均数 从次数分布表或次数分布图中,可以看出一资料变数的分布特点,即集中性和离散性 集中性是指资料中的各观察值总是以某一数值为中心分布:离散性是指资料中各观察值的离 散、变异程度。但是从次数分布表和次数分布图中只能看出一个大致趋势,且不能以此做统 计处理。因此,为了使资料得到完整的描述,还需要从中概括出一些能够反映资料特征的数 量指标,这些数量指标称为试验资料的特征数。变数集中性这特征,通常用平均数来描述。 平均数是数量资料的代表值,它表示数量资料的中心位置,可作为资料的代表与其它资 料进行比较,是人们生产、科研和生活中最常用的特征数。 平均数有多种,应用最广泛的是算术平均数。 算术平均数 1.定义 一个数量资料中各个观察值的总和除以观察值个数所得的商,即为算术平均数,样本算 术平均数用x表示,其计算公式为 x=x+x2+x+…+x= (=1,2,…n) (3.1) 式中:∑为累加符号,∑x1表示从第一个观察值x一直加到第n个观察值x的总和 n为样本容量即样本内观察值个数。上式可简写为 总体平均数用μ表示,其公式为
4 并用一横线连接两纵线的顶端,即成方柱形。其余各组依次绘制,即可绘制成方柱形次数分 布图(图 3.1)。 2.多边形图 多边形图也是表示连续 性变数次数分布的一种图示形式,而且续性 变数次数分布的一种图示形式,而且在同一 图上可比较两组以上的资料。 3.条形图 适用描述间断性变数和属 性变数资料的次数分布。条形图在制作上与 方柱形图相比,有两点有所不同:一是横轴 标的是间断的组中值或分类性状;二是表示 各组或各类次数多少的图形,用的是互不相联的条形,其它与柱形图绘制要求基本一样。现 将表 3.6 资料绘制成条形图于图 3.3,具体制作过程不再赘述。 条形图中的条形,如若换成线表示,就成为另外一种示图――线形图,其制作更易些。 第四节 平均数 从次数分布表或次数分布图中,可以看出一资料变数的分布特点,即集中性和离散性。 集中性是指资料中的各观察值总是以某一数值为中心分布;离散性是指资料中各观察值的离 散、变异程度。但是从次数分布表和次数分布图中只能看出一个大致趋势,且不能以此做统 计处理。因此,为了使资料得到完整的描述,还需要从中概括出一些能够反映资料特征的数 量指标,这些数量指标称为试验资料的特征数。变数集中性这一特征,通常用平均数来描述。 平均数是数量资料的代表值,它表示数量资料的中心位置,可作为资料的代表与其它资 料进行比较,是人们生产、科研和生活中最常用的特征数。 平均数有多种,应用最广泛的是算术平均数。 一、算术平均数 1.定义 一个数量资料中各个观察值的总和除以观察值个数所得的商,即为算术平均数,样本算 术平均数用 x 表示,其计算公式为 n x n x x x x x n i i n = = + + + + = 1 2 3 1 (i=1,2,…,n) (3.1) 式中: 为累加符号, = n i i x 1 表示从第一个观察值 x1 一直加到第 n 个观察值 xn 的总和, n 为样本容量即样本内观察值个数。上式可简写为 n x x = (3.2) 总体平均数用 表示,其公式为
x 无限总体的平均数实际上无法计算,只是一个理论值。 2.算术平均数的计算方法 (1)直接法按照(32)式直接计算。 例3.1称得某小麦品种千粒重5份,分别为34、32.5、335、32、3g),试求其平均千 ∑x34+325+33.5+32+338) 5 (2)加权法如资料中各个观察值x(=1,2…),具有不同的次数(f),这个次数在统计 上称为“权”,且f+…十=n,这时可用加权法计算平均数,其公式为 xk 可简写为 x=2/x 用这种方法计算出的算术平均数,称为加权算术平均数。 「例32]随机抽取某大豆品种12个荚,数每荚大豆粒数为3、1、3、2、4、3、3、2、2 4、3、3,试计算每荚平均豆粒数 ∑∫x(1×1)+(2×3)+(3×6)+(4×2) =275(粒) 12 已经编制了次数分布表的资料,可在次数分布表的基础上由(35试式计算加权算术平均数 这时(35)式中的x为次数分布表中各组的组中值;∫为各组的次数;n为总次数。 例3.3]由表3.3资料计算100株小麦平均株高。 由表37算得∑∫x=9075,代入(3.5)式有 ∑∫x90 100 即100株小麦平均株高为90.75cm。表3.7100株小麦株高的平均数计算 3.算术平均数的性质 (1)各观察值与其平均数之差(简称离均差)的总和等于零,即∑(x1-x)=0。用简写 式证明如下 ∑(x-x)=∑x-∑x=2x-n==∑x-2x=0 (3.6)
5 N x N x N i i = = =1 (3.3) 无限总体的平均数实际上无法计算,只是一个理论值。 2.算术平均数的计算方法 (1)直接法 按照(3.2)式直接计算。 [例 3.1]称得某小麦品种千粒重 5 份,分别为 34、32.5、33.5、32、33(g),试求其平均千 粒重。 33( ) 5 34 32.5 33.5 32 33 g n x x = + + + + = = (2)加权法 如资料中各个观察值 xi(i=1,2,…),具有不同的次数(fi),这个次数在统计 上称为“权”,且 f1+f2+…+fk=n ,这时可用加权法计算平均数,其公式为 n f x n f x f x f x x k i i i k k = = + + + = 1 1 2 2 1 (3.4) 可简写为 n fx x = (3.5) 用这种方法计算出的算术平均数,称为加权算术平均数。 [例 3.2]随机抽取某大豆品种 12个荚,数每荚大豆粒数为 3、1、3、2、4、3、3、2、2、 4、3、3,试计算每荚平均豆粒数。 2.75( ) 12 (1 1) (2 3) (3 6) (4 2) = 粒 + + + = = n f x x 已经编制了次数分布表的资料,可在次数分布表的基础上由(3.5)式计算加权算术平均数。 这时(3.5)式中的 x 为次数分布表中各组的组中值;f 为各组的次数;n 为总次数。 [例 3.3]由表 3.3 资料计算 100 株小麦平均株高。 由表 3.7 算得 fx = 9075 ,代入(3.5)式有 90.75( ) 100 9075 cm n f x x = = = 即 100 株小麦平均株高为 90.75cm。表 3.7 100 株小麦株高的平均数计算 3.算术平均数的性质 (1)各观察值与其平均数之差(简称离均差)的总和等于零,即 = − = n i i x x 1 ( ) 0 。用简写 式证明如下 ( ) = − = 0 − = − = − x x n x x x x x x n (3.6)
(2)各个观察值与平均数的差数平方的总和,比各个观察值与任何一个数值的差数平方的 总和都小,即∑(x1-x)2<∑(x-a)2(a≠)。亦可简述为离均差平方的总和为最小用 简写式证明如下: 设a为任何数值,可能比x大或比x小,但不等于x,用算式表示即a=x±Δ,A表示 与a的差数 ∑(x-a)2=X(x-x±△)2=∑[(x-x)±△ ±2△∑(x 以公式36知,∑(x-x)=0,由此2△∑(x-x)=0 故∑(x-a)2=∑(x-x)2+m2=∑(x-x)2+m(x-a) 移项∑(x-x)2=∑(x-a)2-n(x-a) (x-x)2<∑(x-a) 因而证实了,离均差平方和比观察值离任一其它数值的差数平方和都小 几何平均数 个数量资料中如有n个观察值,相乘积开n次方所得数值,即为几何平均数,用G表 上述可用计算器直接算出,也可转换成对数运算。 几何平均数常用于表示某现象的平均发展速度,如计算若干天内,某种植物株高、根长 生长量或某种昆虫繁殖量,每天各为上天的平均倍数等,用几何平均数能比算术平均数更准 确地反映实际情况 「例34]调査某麦田百株蚜虫发生情况如表3.8,试求百株蚜虫平均每天繁殖量各为上天 的多少倍? 首先算出蚜虫每天繁殖量为上天的倍数,如6月28日为6月27日的340/100=309倍, 6月29日为6月28日的810/340=2.38倍等,然后,将这些数据代入3.8式。则有 表3.8百株蚜虫繁殖量 G=309×238×154×127=144=1.95 即百株麦蚜在4天中,平均每天繁殖量各为上天的195倍。 我们可以验证:6月27日百株麦蚜为110头,4天后为110×1.954=1590(头),与7 月1日实际虫数相符。如若用算术平均数计算就不会符合了。这说明此类问题用几何平均数
6 (2)各个观察值与平均数的差数平方的总和,比各个观察值与任何一个数值的差数平方的 总和都小,即 = = − − n i n i i i x x x a a x 1 1 2 2 ( ) ( ) ( ) 。亦可简述为离均差平方的总和为最小。用 简写式证明如下: 设 a 为任何数值,可能比 x 大或比 x 小,但不等于 x ,用算式表示即 a = x , 表示 x 与 a 的差数。 2 2 2 2 2 ( ) 2 ( ) ( ) ( ) [( ) ] = − − + − = − = − x x x x n x a x x x x 以公式 3.6 知, (x − x) = 0 ,由此 2 (x − x) = 0 故 2 2 2 2 2 (x − a) = (x − x) + n = (x − x) + n(x − a) 移项 2 2 2 (x − x) = (x − a) − n(x − a) 2 2 2 ( ) ( ) ( ) 0 x x x a n x a − − − (3.7) 因而证实了,离均差平方和比观察值离任一其它数值的差数平方和都小。 二、几何平均数 一个数量资料中如有 n 个观察值,相乘积开 n 次方所得数值,即为几何平均数,用 G 表 示。 n n G = x x x x 1 2 3 (3.8) 上述可用计算器直接算出,也可转换成对数运算。 几何平均数常用于表示某现象的平均发展速度,如计算若干天内,某种植物株高、根长 生长量或某种昆虫繁殖量,每天各为上天的平均倍数等,用几何平均数能比算术平均数更准 确地反映实际情况。 [例 3.4]调查某麦田百株蚜虫发生情况如表 3.8,试求百株蚜虫平均每天繁殖量各为上天 的多少倍? 首先算出蚜虫每天繁殖量为上天的倍数,如 6 月 28 日为 6 月 27 日的 340/100=3.09 倍, 6 月 29 日为 6 月 28 日的 810/340=2.38 倍等,然后,将这些数据代入 3.8 式。则有 表 3.8 百株蚜虫繁殖量 3.09 2.38 1.54 1.27 14.4 1.95 4 4 G = = = 即百株麦蚜在 4 天中,平均每天繁殖量各为上天的 1.95 倍。 我们可以验证:6 月 27 日百株麦蚜为 110 头,4天后为 110×1.954=1 590(头),与 7 月 1 日实际虫数相符。如若用算术平均数计算就不会符合了。这说明此类问题用几何平均数
计算更为确切。 、中数 将资料中的所有观察值从小到大依次排列,居中间位置的观察值称为中数,用Ma表 例如2,3,4,5,6的中数是4。若观察值个数为偶数,则以中间两个观察值的算术平均数 为中数。例如2,3,45的中数10235。 在农业试验上,以50%为标准的各种生育期、发生期以及杀虫剂毒力的致死中量、致 死中浓度等,用的都是中数 四、众数 在资料中出现次数最多的一个数值称为众数mode,用Mo表示 例 Mo=L+ 39) 式中:L为次数最多组的下限,f为次数最多组上一组的次数,五为次数最多组下一组的 次数,i为组距。 以表3.3数据为例 15 M。=85+1sx3=8975(cm) 即表3.3资料的众数为8975,用上式算出的众数,在理论上要比次数最多的组中值90 要精确 几种平均数之间的关系:在观察值为正态分布的情况下,算术平均数、众数、中数三个 数重合,若为同一资料,一般x>G。 第五节变异数 平均数作为数量资料的代表值,其代表性的强弱取决于资料内各观察值变异程度的大 小。但是仅靠平均数并不能了解资料中各观察值间的变异程度大小,也无法知道平均数的代 表性如何,例如有A、B两组数据 A组60、58、60、61、61x=60 B组10、110、50、90、40=60 假设这是两个都自称新育成的矮杆小麦株高资料(且随机抽取的很有代表性的样本) 我们能仅靠平均数就对它们作出正确评价吗?虽然两组的平均数都是60,但两组数据的变异 程度有很大不同,它们平均数的代表性亦大不一样。所以只用平均数表示资料的特征是不够 的,为了更全面地描述一个数量资料,还必须有一个度量其变异程度的特征数,这个特征数 叫变异数。最常用的变异数有极差、方差、标准差和变异系数
7 计算更为确切。 三、中 数 将资料中的所有观察值从小到大依次排列,居中间位置的观察值称为中数,用Md表示。 例如 2,3,4,5,6 的中数是 4。若观察值个数为偶数,则以中间两个观察值的算术平均数 为中数。例如 2,3,4,5 的中数 3.5 2 3 4 = + M d = 。 在农业试验上,以 50%为标准的各种生育期、发生期以及杀虫剂毒力的致死中量、致 死中浓度等,用的都是中数。 四、众 数 在资料中出现次数最多的一个数值称为众数(mode),用 M 0 表示。 例如 i f f f M L + = + 1 2 2 0 (3.9) 式中:L 为次数最多组的下限,f1为次数最多组上一组的次数,f2 为次数最多组下一组的 次数,i 为组距。 以表 3.3 数据为例 3 89.75(cm) 21 15 15 0 88.5 = + M = + 即表 3.3 资料的众数为 89.75,用上式算出的众数,在理论上要比次数最多的组中值 90 要精确。 几种平均数之间的关系:在观察值为正态分布的情况下,算术平均数、众数、中数三个 数重合,若为同一资料,一般 x G 。 第五节 变异数 平均数作为数量资料的代表值,其代表性的强弱取决于资料内各观察值变异程度的大 小。但是仅靠平均数并不能了解资料中各观察值间的变异程度大小,也无法知道平均数的代 表性如何,例如有 A、B 两组数据: A 组 60、58、60 、61、61 x = 60 B 组 10、110、50、90、40 x = 60 假设这是两个都自称新育成的矮杆小麦株高资料(且随机抽取的很有代表性的样本), 我们能仅靠平均数就对它们作出正确评价吗?虽然两组的平均数都是 60,但两组数据的变异 程度有很大不同,它们平均数的代表性亦大不一样。所以只用平均数表示资料的特征是不够 的,为了更全面地描述一个数量资料,还必须有一个度量其变异程度的特征数,这个特征数 叫变异数。最常用的变异数有极差、方差、标准差和变异系数
极差 range又称全距,用R表示,它表示资料的变异范围。R大表示变异范围大,其x代 表性差:若R小表示变异范围小,其x代表性好。如上面两组数据中,R61-58=3,R=110 -10=100,RA<RB,说明A组数据的变异范围小,A的代表性好于xB 极差虽然可以对资料的变异程度有所说明,但是比较粗放。 例如另有C组数据10、110、60、60、60,可以直观地看出整个资料的变异程度小于B 组,但这两组的R都相等。显然,极差不是根据全部观察值求得的,而是由最大和最小两个 极端观察值决定的,因此,没有充分利用资料中的全部信息,使得类似B、C两组数据间的 变异及平均数的代表性,用R无法正确反映。另外,对于同一总体,抽出的不同样本,其极 差波动也比较大。 为了正确反映资料的变异度,较合理的方法是根据样本中的全部观察值来度量。这时需 选定一个数值作为共同比较的标准,因为平均数是数量资料的代表值,所以用它作为比较的 标准,让资料中每个观察值都与相减,即得各个离均差(xx)。设想再求和∑(x-x),用其 来反映变异度的大小。但36式已证明∑(x-x)=0,这样就达不到目的。如果各个离均差的 平方再相加,得到各离均差平方的总和(简称平方和,缩写为SS),则可反映出资料的变异 度。平方和的定义公式为 这样还不完善,例如再有D组数据10、110,其平方和与C组相等,但两组的变异度是 不一样的,因此,要体现出观察值数目n的影响,用(n-1)来除平方和,即可得到全面反映资 料变异度的变异数,将这个平均的平方和称为方差 varance)。样本方差用s2表示,其公式为 (x1-x) 总体方差用a2表示,其公式为 x1- 3.11和3.12式中,n1称自由度,N为总体容量。习惯上把样本的s2又称均方( mean of wares,总体的σ2称为方差,s是σ2的无偏估计值。方差在统计分析上有广泛的应用。 三、标准差 定义 虽然方差概括了资料中每个观察值所提供的信息,全面的反映了其变异度,但是由于采
8 一、极 差 极差(range)又称全距,用 R 表示,它表示资料的变异范围。R 大表示变异范围大,其 x 代 表性差;若 R 小表示变异范围小,其 x 代表性好。如上面两组数据中,RA=61-58=3,RB=110 -10=100,RA<RB,说明 A 组数据的变异范围小, x A 的代表性好于 x B。 极差虽然可以对资料的变异程度有所说明,但是比较粗放。 例如另有 C 组数据 10、110、60、60、60,可以直观地看出整个资料的变异程度小于 B 组,但这两组的 R 都相等。显然,极差不是根据全部观察值求得的,而是由最大和最小两个 极端观察值决定的,因此,没有充分利用资料中的全部信息,使得类似 B、C 两组数据间的 变异及平均数的代表性,用 R 无法正确反映。另外,对于同一总体,抽出的不同样本,其极 差波动也比较大。 二、方 差 为了正确反映资料的变异度,较合理的方法是根据样本中的全部观察值来度量。这时需 选定一个数值作为共同比较的标准,因为平均数是数量资料的代表值,所以用它作为比较的 标准,让资料中每个观察值都与 x 相减,即得各个离均差(x- x )。设想再求和 (x − x) ,用其 来反映变异度的大小。但 3.6 式已证明 (x − x) =0,这样就达不到目的。如果各个离均差的 平方再相加,得到各离均差平方的总和(简称平方和,缩写为 SS),则可反映出资料的变异 度。平方和的定义公式为 = = − n i i SS x x 1 2 ( ) (3.10) 这样还不完善,例如再有 D 组数据 10、110,其平方和与 C 组相等,但两组的变异度是 不一样的,因此,要体现出观察值数目 n 的影响,用(n-1)来除平方和,即可得到全面反映资 料变异度的变异数,将这个平均的平方和称为方差(variance)。样本方差用 s 2 表示,其公式为 1 ( ) 1 2 2 − − = = n x x s n i i (3.11) 总体方差用 2 表示,其公式为 N x N i i = − = 1 2 2 ( ) (3.12) 3.11 和 3.12 式中,n-1 称自由度,N 为总体容量。习惯上把样本的 s 2 又称均方(mean of squares),总体的 2 称为方差,S 2 是 2 的无偏估计值。方差在统计分析上有广泛的应用。 三、标准差 1.定 义 虽然方差概括了资料中每个观察值所提供的信息,全面的反映了其变异度,但是由于采
用了平方的形式,度量单位也随之平方了(如平方克、平方厘米),这在反映有度量单位事物 时不好解释,另外平方使数值量也增大了,与实际变异度有相当差距,方差只适于反映不需 考虑上述情况事物的变异度。为此,把方差开平方还原,就得到一个新的变异数一标准差 ( standard deviation)。标准差是方差的平方根,样本标准差用s表示,其公式为 (x-x) 总体标准差公式 ∑(x-)2 (3.14) 用标准差表示事物的变异性,不仅保留了方差的优点,而且在度量单位上与平均数一致, 在数量水平上也客观实际,因此,标准差能够很好地表示出样本(或总体)中每个观察值的 平均变异度。 关于自由度的说明:样本标准差(或方差)之所以不用样本容量n,而用自由度n1作 为除数。这是因为我们通常所掌握的样本资料,不知4的数值,不得不用样本平均数x来代 替μ。由于与H总有差异,由公式37可知,如以代替a,则∑(x-x)2<∑(x-u)2。因 此,由√∑(x-x)2n算出的标准差将偏小现用n1可校正偏小的弊病。自由度记作DF( degree of freedom),其具体数值则常用v表示。 2.标准差的计算 (1)直接法按照3.13式直接计算。 [例3.5]有5株大麦单株粒重资料如下:3、7、6、4、5,H5、∑x=25、F=5,试计 算标准差(单位g) x-x2/3=s+(7-5)+6-5)+(4-)+65=5 1.58(g) (2)矫正数法以上计算可以看出,标准差的计算主要在于计算平方和,可把定义平方和 的公式推导为 ∑(x-x)2=2(x2-2x+x2)=2x2-2x,S》n 统计上把①x称为矫正数,记作C,即C<x2 因此有
9 用了平方的形式,度量单位也随之平方了(如平方克、平方厘米),这在反映有度量单位事物 时不好解释,另外平方使数值量也增大了,与实际变异度有相当差距,方差只适于反映不需 考虑上述情况事物的变异度。为此,把方差开平方还原,就得到一个新的变异数―标准差 (standard deviation)。标准差是方差的平方根,样本标准差用 s 表示,其公式为 1 ( ) 2 − − = n x x s (3.13) 总体标准差公式 N x 2 ( ) − = (3.14) 用标准差表示事物的变异性,不仅保留了方差的优点,而且在度量单位上与平均数一致, 在数量水平上也客观实际,因此,标准差能够很好地表示出样本(或总体)中每个观察值的 平均变异度。 关于自由度的说明:样本标准差(或方差)之所以不用样本容量 n,而用自由度 n-1 作 为除数。这是因为我们通常所掌握的样本资料,不知 的数值,不得不用样本平均数 x 来代 替 。由于 x 与 总有差异,由公式 3.7 可知,如以 代替 a,则 2 2 (x − x) (x −) 。因 此,由 (x x) / n 2 − 算出的标准差将偏小,现用n-1可校正偏小的弊病。自由度记作DF(degree of freedom),其具体数值则常用 v 表示。 2.标准差的计算 (1)直接法 按照 3.13 式直接计算。 [例 3.5]有 5 株大麦单株粒重资料如下:3、7、6、4、5,n=5、 x = 25、x = 5 ,试计 算标准差(单位 g) 1.58( ) 5 1 10 5 1 (3 5) (7 5) (6 5) (4 5) (5 5) 1 ( ) 2 2 2 2 2 2 g n x x s = − = − − + − + − + − + − = − − = (2)矫正数法 以上计算可以看出,标准差的计算主要在于计算平方和,可把定义平方和 的公式推导为 (3.15) ( ) ( ) ( ) 2 ( ) ( 2 ) 2 ( ) 2 2 2 2 2 2 2 2 2 2 n x x n x n x x n x n n x x x x x x x x x = − + = − + − = − + = − 统计上把 n x 2 ( ) 称为矫正数,记作 C,即 n x C 2 ( ) = 。 因此有
用此公式计算[例35标准差,可先用一竖式算出∑x和∑x2,再代入316式 4 16 35 矫正数法是实际使用最多的方法,尤其计算器按键均以此式设计,据此式用计算器计算 十分便捷。 (3)加权法与加权法计算平均数一样,当资料中观察值较多,并且已经编制了次数分布 表,可借助于次数分布表计算标准差,其公式为 ∑f(x-x)2 上式可以写成矫正数法公式 2A2-(/A [例36]由表33计算100株小麦株高的标准差 由表37可得∑/x=9075∑f2=826517 9075 826517 代入(3.18式有 100-1 100=54(cm) 即100株小麦的株高标准差为544(cm)
10 1 ( ) 2 2 − − = n n x x s (3.16) 用此公式计算[例 3.5]标准差,可先用一竖式算出 x 和 2 x ,再代入 3.16 式 x x 2 3 7 6 4 5 9 49 36 16 25 x = 25 135 2 x = 1.58( ) 5 1 5 25 135 1 ( ) 2 2 2 g n n x x s = − − = − − = 矫正数法是实际使用最多的方法,尤其计算器按键均以此式设计,据此式用计算器计算 十分便捷。 (3)加权法 与加权法计算平均数一样,当资料中观察值较多,并且已经编制了次数分布 表,可借助于次数分布表计算标准差,其公式为 1 ( ) 2 − − = n f x x s (3.17) 上式可以写成矫正数法公式 1 ( ) 2 2 − − = n n fx fx s (3.18) [例 3.6]由表 3.3 计算 100 株小麦株高的标准差。 由表 3.7 可得 9 075 826 517 2 f x = f x = 代入(3.18)式有 5.44( ) 100 1 100 9 075 826 517 2 s = cm − − = 即 100 株小麦的株高标准差为 5.44(cm)