《田间试验统计》第四章理论分布与抽样分布.doc_大学文库

第四章理论分布与抽样分布第一节事件和概率的基本概念事件我们把试验作为一个广泛的术语,包括科学试验、调查和观察。例如抛一枚硬币观察落地后哪一面向上和在一袋种子中取出一粒测定其能否发芽等都可看做是一次试验。显然这样的试验可以在相同的条件下重复进行,每次试验可能的结果有多个 1、随机事件:把一次试验所有可能的结果都称为事件次试验中必然要发生的结果称为必然事件次试验必然不发生的结果称为不可能事件次试验中可能发生也可能不发生的结果则称为随机事件虽然在一次试验中随机事件能否出现很难预料,但如果多次重复同一试验,随机事件的出现与否却是有规律的。 2、互斥事件:如果事件A和事件B不同时发生,称A和B互斥事件。 3、对立事件:事件A和事件B是互斥的,但必发生其中一,就称事件B为事件A的对立事件,记B为A 4、独立事件:事件A与事件B的发生与否各自彼此无关,称事件A与事件B是相互独立的例:如同时播下两粒种子,第一粒种子的发芽与否与第二粒种子是否发芽是无关的因此这两粒种子的发芽与否是相互独立的、概率 1、随机事件的发生规律必须通过大量的试验观察才能得到。试验次数与随机事件A 发生次数的比值称为事件A的频率( frequency)。表41是一批棉花种子发芽试验的结果, 从中可以看出随着种子粒数(试验次数)的增加,发芽的频率稳定在060左右。频率的稳定性揭示了随机事件发生的规律性。频率稳定在较大数值表明该事件发生的可能性较大,稳定在较小数值表明该事件发生的可能性较小。我们定义:设事件A在n次试验中出现了m次,随着n的增加事件A出现的频率一所稳定趋近的数值p为事件概记为P(4)=p 由于频率总是介于0和1之间,因此概率也必然介于0和1之间,即0≤p 许多情况下p很难准确获得。通常以n充分大时事件A出现的频率作为它的概率的估计值,即p=n (42) 例如表41棉花种子发芽的概率(发芽率)可用n为500时的频率来估计,即p=060

1 第四章理论分布与抽样分布第一节事件和概率的基本概念一、事件我们把试验作为一个广泛的术语，包括科学试验、调查和观察。例如抛一枚硬币观察落地后哪一面向上和在一袋种子中取出一粒测定其能否发芽等都可看做是一次试验。显然这样的试验可以在相同的条件下重复进行，每次试验可能的结果有多个。 1、随机事件：把一次试验所有可能的结果都称为事件。一次试验中必然要发生的结果称为必然事件。一次试验必然不发生的结果称为不可能事件。一次试验中可能发生也可能不发生的结果则称为随机事件。虽然在一次试验中随机事件能否出现很难预料，但如果多次重复同一试验，随机事件的出现与否却是有规律的。 2、互斥事件：如果事件 A 和事件 B 不同时发生，称 A 和 B 互斥事件。 3、对立事件：事件 A 和事件 B 是互斥的，但必发生其中一，就称事件 B 为事件 A 的对立事件，记 B 为 A 。 4、独立事件：事件 A 与事件 B 的发生与否各自彼此无关，称事件 A 与事件 B 是相互独立的。例：如同时播下两粒种子，第一粒种子的发芽与否与第二粒种子是否发芽是无关的，因此这两粒种子的发芽与否是相互独立的。二、概率 1、随机事件的发生规律必须通过大量的试验观察才能得到。试验次数与随机事件 A 发生次数的比值称为事件 A 的频率（frequency）。表 4.1 是一批棉花种子发芽试验的结果，从中可以看出随着种子粒数（试验次数）的增加，发芽的频率稳定在 0.60 左右。频率的稳定性揭示了随机事件发生的规律性。频率稳定在较大数值表明该事件发生的可能性较大，稳定在较小数值表明该事件发生的可能性较小。我们定义：设事件 A 在 n 次试验中出现了 m 次，随着 n 的增加事件 A 出现的频率 m n 所稳定趋近的数值 p 为事件概记为 P(A)＝p （4.1）由于频率总是介于 0 和 1 之间，因此概率也必然介于 0 和 1 之间，即 0≤p≤1。许多情况下 p 很难准确获得。通常以 n 充分大时事件 A 出现的频率作为它的概率的估计值，即 p  m n = （4.2）例如表4.1棉花种子发芽的概率（发芽率）可用n 为500时的频率来估计，即 p  = 0.60

通过频率计算估计的概率称为统计概率或经验概率 2、另一些情况下p可以准确求出。第一种情况是试验可能的结果数是有限的,且每种结果的出现是互斥和等可能的。此时, P= P(A) 事件A包含的结果数 4.3) 试验所有可能的结果数例如,在0,1,……,9中随机抽取一个数字有10种可能的结果,每个数字被抽取的机会相等且互斥。设A为抽取的数字≤3,则它包含了0,1,2和3四种结果,因此 P=P(A) 04。这样计算求得的概率称为古典概率 3、另一种情况是根据已知的概率分布理论来计算概率,这样求得的概率称为理论概率。本章后面有关二项分布和正态分布的概率计算均属此类概率的计算法则 1、互斥事件的概率法则(加法定理) 如果事件A和事件B互斥,概率各为P(A)和P(B),那么它们的和事件的概率为: P(4+B)=P(A)+P(B) (4.5) 2、对立事件的概率法则如果事件A的概率为P(A),那么其对立事件的概率为: P(A)=1-P(A) (46) 2、对立事件的概率法则乘法定理随机事件A和B的积事件的概率为 P(AB)=P(A)P(BA) 其中P(B/A)称为条件概率,意为在事件A已发生的条件下事件B发生的概率特殊地,如果A和B相互独立,那么B的发生与否与A无关,即P(BA)=P(B),所 P(AB)=P(A)P(B) (4.8) 概率的加法定理和乘法定理都适用于多个随机事件的概率计算。〔例4.1)一口袋中装有6个球,其中红球2个,白球4个。从口袋中随机取球2次每次取1个。考虑两种情况:(1)第一次取球观其颜色后放回袋中,这叫放回抽样;(2) 第一次取球后不放回袋中,这叫不放回抽样。试就这两种情况分别求2个都是白球和至少有1个白球的概率。本题属古典概率计算。设A为第一次是白球,B为第二次是白球。2次都是白球是A 和B的积,至少有1个白球是A和B的和。第一次取球有6种等可能且互斥的结果,其中 4种是白球,因此 42 P 对于放回抽样,第二次取球与第一次无关,结果与第一次一样,所以

2 通过频率计算估计的概率称为统计概率或经验概率。 2、另一些情况下 p 可以准确求出。第一种情况是试验可能的结果数是有限的，且每一种结果的出现是互斥和等可能的。此时， p＝ P(A)＝事件 A 包含的结果数（4.3）试验所有可能的结果数例如，在 0，1，……，9 中随机抽取一个数字有 10 种可能的结果，每个数字被抽取的机会相等且互斥。设 A 为抽取的数字≤3，则它包含了 0，1，2 和 3 四种结果，因此 p = P(A) = = . 4 10 0 4 。这样计算求得的概率称为古典概率。 3、另一种情况是根据已知的概率分布理论来计算概率，这样求得的概率称为理论概率。本章后面有关二项分布和正态分布的概率计算均属此类。三、概率的计算法则 1、互斥事件的概率法则（加法定理）如果事件 A 和事件 B 互斥，概率各为 P(A)和 P(B)，那么它们的和事件的概率为： P(A+B)＝P(A)＋P(B) （4.5） 2、对立事件的概率法则如果事件 A 的概率为 P(A)，那么其对立事件的概率为： P( A )＝1－P(A) （4.6） 2、对立事件的概率法则乘法定理随机事件 A 和 B 的积事件的概率为 P(AB)＝P(A)P(B/A) （4.7）其中 P(B/A)称为条件概率，意为在事件 A 已发生的条件下事件 B 发生的概率。特殊地，如果 A 和 B 相互独立，那么 B 的发生与否与 A 无关，即 P(B/A) ＝P(B)，所以， P(AB)＝P(A)P(B) （4.8）概率的加法定理和乘法定理都适用于多个随机事件的概率计算。〔例4. 1〕一口袋中装有 6 个球，其中红球 2 个，白球 4 个。从口袋中随机取球 2 次，每次取 1 个。考虑两种情况：（1）第一次取球观其颜色后放回袋中，这叫放回抽样；（2）第一次取球后不放回袋中，这叫不放回抽样。试就这两种情况分别求 2 个都是白球和至少有 1 个白球的概率。本题属古典概率计算。设 A 为第一次是白球，B 为第二次是白球。2 次都是白球是 A 和 B 的积，至少有 1 个白球是 A 和 B 的和。第一次取球有 6 种等可能且互斥的结果，其中 4 种是白球，因此， P( A) = = 4 6 2 3 对于放回抽样，第二次取球与第一次无关，结果与第一次一样，所以

3 P B P AB P A B ( ) ( ) ( ) = =  = + = + −  = 2 3 2 3 2 3 4 9 2 3 2 3 2 3 2 3 8 9 对于不放回抽样，在第一次已取得白球的条件下，第二次有 5 种等可能且互斥的取法，其中 3 种是白球，所以 P B A P AB P A B ( / ) ( ) ( ) = =  = + = + −  = 3 5 2 3 3 5 2 5 2 3 3 5 2 3 3 5 13 15 第二节随机变数及其分布一、随机变数许多试验的结果用数值来表示，例如人的身高和作物的产量等，但重复试验得到的数值不完全相同，也就是说试验结果不是一个确定的数值而是一个变数（variable）。每次试验中此变数到底是多少受偶然因素的影响，不能事先确定。这种随偶然因素而变化的变数称为随机变数（random variable）。在试验之前随机变数是一个不确定的量，有许多可能的取值。但在试验中只有其中的一个可能取值得到了实现。这种实现了的取值称为观察值（observed value），观察值是一个确定的数值。有些试验的结果本身不是数值，但可将其数量化后用数值来表示，因此也是随机变数。例如，一粒种子的发芽试验有发芽和不发芽两种可能的结果，如用 1 代表发芽，0 代表不发芽，试验结果就是一个有 0 和 1 两种可能取值的随机变数。如果随机变数只有有限个可能的取值，并在试验中以确定的概率来取这些数值，就称它为间断性（internal）随机变数。质量性状和计数的数量性状的试验结果常常是间断性随机变数。如果随机变数可能的取值充满一个区间，并且试验结果落在任意区间内的概率是确定的，就称它为连续性（continuous）随机变数。计量性状的试验结果通常是连续性随机变数。二、随机变数的概率分布随机变数可能的取值或取值区间的概率反映了随机变数的统计规律性，称为概率分布（probability distribution）。间断性随机变数一般用概率分布列来表示这种规律性。设随机

6 第三节二项分布一、二项总体分布质量性状的试验研究中常见所有个体都可根据某事件的发生与不发生而分成两组的情况。例如在大豆花色遗传规律的研究中，所有植株都可根据开紫花还是白花（不开紫花）分为两组。又如在种子的发芽试验中，每粒种子都可根据发芽与否归入发芽或不发芽组。将这类试验的结果数量化，以种子发芽试验为例，设不发芽为 0，发芽为 1，那么每粒种子的试验结果可用一个只有 0 和 1 两个可能取值的间断性随机变数来表示。如果发芽的概率为 p，不发芽与发芽对立其概率就是 q＝1－p，可用表 4.4 的概率分布列来表示。这种概率分布称为二项总体分布，又称（0，1）二点分布，因为随机变数 X 只有 0 和 1 两个可能的取值。二项总体分布的数学期望和方差可如下计算。设总体里有 N 个个体，p 为 x＝1 的概率，q 为 x＝0 的概率，那么 x＝1 组的理论发生次数应为 pN，x＝0 组的理论发生次数应为 qN。因此   = = = − + − = pN N p pN p qN p N pq 2 2 2 (1 ) (0 ) （4.25）由于 q＝1－p，所以 p 是二项总体分布唯一的参数。表 4.4 二项总体的概率分布列表 4.5 种子发芽试验的概率分布列（一） x P(X=x) P(X≤x) x P(X=x) P(X≤x) 0 1 q=1－p p q p+q=1 0 1 2 0.01 0.18 0.81 0.01 0.19 1.00 〔例4. 3〕以某试验地的 5 株蔬菜为总体调查蚜虫危害情况。令 x＝1 代表受害，x＝0 代表未受害，5 株的观察结果为 0，1，0，1，0。试求危害率的数学期望和方差。根据式（4.25）得   = + + + + = = − + − + − + − + − = 0 1 0 1 0 5 0 4 0 0 4 1 0 4 0 0 4 1 0 4 0 0 4 5 0 24 2 2 2 2 2 2 . ( . ) ( . ) ( . ) ( . ) ( . ) . 说明该试验地蚜虫的平均危害率为 0.4，危害率变异的方差为 0.24。此例也说明了二项总体的平均数为  = p ，方差为 = pq 2  ，标准差为  = pq 。二、二项分布的概率函数及计算仍以种子发芽试验为例，假定发芽的概率为 0.9，每两粒种子为一组统计试验结果

因为每粒种子的发芽与否是相互独立的,所以两粒都不发芽的概率为0.1×0.1=0.01 粒发芽一粒不发芽(含第一粒发芽第二粒不发芽和第一粒不发芽第二粒发芽两种情况)的概率为0.9×0.1+0.1×0.9=018;两粒种子都发芽的概率为09×09=0.81。以随机变数X 代表发芽试验的结果,它有0,1和2三个可能的取值。上述试验结果可列成表45的概率分布列根据以上分析可以看出,如果以p代表事件A发生的概率且在每次重复试验中都相等, 以q=1-p代表其对立事件A发生的概率,那么在n次重复试验中事件A出现x次(x=1 2,……,n)的概率表达为概率函数的形式为 f(x)=P(X=x)=Crp'q 其中Cn是组合数。式(4.26)称为二项分布( binomial distribution)的概率函数,因为它正是二项式展开后含有p的项。由于p+q=1,所以 (p+q)2=cm”+Cmr”1+cp2q"2+…+ Cnp q"-+…+Cnp"=∑f(x)=1 意为在n次试验中出现互斥事件x=0,x=1,……,x=n其中之一的概率为1。〔例4.4〕在一批发芽率为0.9的种子里取5粒进行发芽试验。以x为发芽粒数,试做出试验结果X的概率分布列。已知n=5,p=0.9,q=1-0.9=0.1。根据式(426)得到如表46所示的概率分布列计算二项分布的各项概率也可以用递推公式。因为 P(X=x)=Crp '"-, P(X=x+1)=Crtp*q-r 两者的比值为 P(X=x+1)Cp (n-x)p P(X=x) C q (x+1) 所以 P(x=x+1)=n-XP P(r-x (4.27) (x+1)q 在上例中P(X=0)=0.00001,用式(427)来求P(X=1)为 (5-0)×0.9 P(X=1)= (0+D)xO1×0000100045 其余各项也可以依此计算也可以用图42来表示表46的概率分布列。从图中可以看出这是一个偏态的概率分布,因为其p≠q且n较小。如果p=q则二项分布是对称的,见图4.3。理论分析和实践结果都表明当n很大时,即使p≠q的二项分布其图形也接近对称,见图44 例45某玉米种子发芽率为06,今按设计株距穴播,若每穴播4粒,预计田间保苗率是多少? 首先考虑,这里的田间保苗率实际上是每穴有种子发芽的概率,这是一个和事件,可

7 因为每粒种子的发芽与否是相互独立的，所以两粒都不发芽的概率为 0.1×0.1＝0.01；一粒发芽一粒不发芽（含第一粒发芽第二粒不发芽和第一粒不发芽第二粒发芽两种情况）的概率为 0.9×0.1＋0.1×0.9＝0.18；两粒种子都发芽的概率为 0.9×0.9＝0.81。以随机变数 X 代表发芽试验的结果，它有 0，1 和 2 三个可能的取值。上述试验结果可列成表 4.5 的概率分布列。根据以上分析可以看出，如果以 p 代表事件A 发生的概率且在每次重复试验中都相等，以 q＝1－p 代表其对立事件 A 发生的概率，那么在 n 次重复试验中事件 A 出现 x 次（x＝1， 2，……，n）的概率表达为概率函数的形式为 f (x) = P X x Cn p q x x n x ( = ) = − （4.26）其中 Cn x 是组合数。式（4.26）称为二项分布（binomial distribution）的概率函数，因为它正是二项式展开后含有 p x的项。由于 p＋q＝1，所以 = − − − + = + + + + + + = = n x n n n x x n x n n n n n n n p q C q C pq C p q C p q C p f x 0 2 0 1 1 2 2 2 ( )   ( ) 1 意为在 n 次试验中出现互斥事件 x＝0，x＝1，……，x＝n 其中之一的概率为 1。〔例4. 4〕在一批发芽率为 0.9 的种子里取 5 粒进行发芽试验。以 x 为发芽粒数，试做出试验结果 X 的概率分布列。已知 n＝5，p＝0.9，q＝1－0.9＝0.1。根据式（4.26）得到如表 4.6 所示的概率分布列。计算二项分布的各项概率也可以用递推公式。因为 P X x Cn p q P X x C p q x x n x n x x n x ( = ) = , ( = + ) = − + + − − 1 1 1 1 两者的比值为 P X x P X x C p C q n x p x q n x n x ( ) ( ) ( ) ( ) = + = = = − + + 1 1 1 所以 P X x n x p x q ( ) P X x ( ) ( ) = + = ( ) − + 1 = 1 （4.27）在上例中 P(X=0)=0.000 01，用式（4.27）来求 P(X=1)为 P(X ) ( ) . ( ) . = = . −  +  1  5 0 0 9 0 1 01 0 000 01=0.000 45 其余各项也可以依此计算。也可以用图 4.2 来表示表 4.6 的概率分布列。从图中可以看出这是一个偏态的概率分布，因为其 p≠q 且 n 较小。如果 p＝q 则二项分布是对称的，见图 4.3。理论分析和实践结果都表明当 n 很大时，即使 p≠q 的二项分布其图形也接近对称，见图 4.4。 [例 4.5] 某玉米种子发芽率为 0.6，今按设计株距穴播，若每穴播 4 粒，预计田间保苗率是多少？首先考虑，这里的田间保苗率实际上是每穴有种子发芽的概率，这是一个和事件，可

8 计算为 P（一穴中有种子发芽）= f (1) +f (2) +f (3) +f (4) 或利用完全事件系概率总和等于 1 的规律简化计算为 1 - f (0) =1- 0 0 4 C4 0.6 0.4 = 0.9744 可知此时，田间预计保苗率为 97.44% 。三、泊松分布当 n 较大，p 或 q 较小，np 或 nq≤5 时，二项分布将为泊松分布（Poisson distribution）所接近。令 m＝np，则泊松分布的概率分布为 P X x m e x x m ( ) ! = = − （4.28）其中 e＝2.718 28……是自然对数的底。当 n 较大时用（4.28）式计算 P(X＝x)比用（4.26）式简单得多，且有足够的精确度。表 4.7 给出了一个 np＝1 的计算实例，可说明泊松分布对二项分布的接近程度。如果试验次数很大，某事件出现的次数很小，那么此事件的出现次数将服从泊松分布。这类现象在农业科学研究中很多，如昆虫与植物种类在一定面积内的分布，病虫侵害作物的分布和溶液中微生物的分布等。〔例4. 6〕设一批种子中不合格种子占 0.005，从中抽取 800 粒，试求其中不合格种子恰有 10 粒和不多于 5 粒的概率。因为 n＝800，p＝0.005，np＝4＜5，所以可按泊松分布来计算。 P X e ( = ) = .  = − 10 4 10! 0 005 10 4 292 P X e x x x ( ) !  = .  = − = 5  4 0 785 4 0 5 132 后者也可以在泊松分布累积函数表中查出。泊松分布的数学期望、方差和标准差为  = m, = m, = m 2 （4.29）也就是说，泊松分布仅由一个参数 m 决定。第四节正态分布一、正态总体分布正态分布是连续性随机变数的概率分布形式之一，又称常态分布或高斯分布。许多社会和自然现象，特别是受众多因素影响的农业和生物科学中绝大多数现象都服从正态分布。理论研究还表明即使原数据不服从正态分布甚至是间断性随机变数，只要试验次数（样本容量）n 足够大，其样本统计数例如平均数也趋于正态分布

9 随机变数 X 服从正态分布记为 X～N（μ， 2 ）。其中μ是正态分布的数学期望，  2 是正态分布的方差，它们都是正态分布的参数。正态分布的概率密度函数为 f x e x ( ) = −  −     1  2 1 2 2     （4.30）其图形称正态分布曲线，见图 4.5。正态分布的概率累积函数为 F x f x dx P X x x ( ) = ( ) = (  ) −  （4.31）其图形称正态累积曲线，见图 4.6。正态分布曲线有如下特性： 1、正态分布曲线以总体平均数μ为中心，向左右两侧对称分布。 2、正态分布曲线是一单峰曲线，总体平均数μ对应的概率密度最大，左右两侧离μ 越远对应的概率密度越小。 3、总体平均数μ决定曲线的中心位置，标准差σ决定曲线的变化率。μ和σ不同的总体其正态分布曲线的位置和形状各异，因此正态分布曲线是以参数μ和σ的不同而变化的曲线系统。 4、正态分布曲线在μ±σ处有拐点，两尾向左右无限延伸，以横轴为渐近线，全距为-∞至∞。 5、无论μ和σ为多少，正态分布曲线与横轴间的总面积都等于 1，意为随机变数 X 的取值位于-∞至∞之间的概率为 1，即 P(−  X  ) = f (x)dx = F() = −   1 （4.32） 6、无论μ和σ为多少，随机变数的取值落在任意区间（a，b）的概率为直线 x＝a 和 x＝b 与正态分布曲线和横轴间的面积，即 P a X b P X b P X a f x dx F b F a a b (   ) = (  ) − (  ) = ( ) = ( ) − ( )  （4.33）式（4.33）取开区间是因为连续性随机变数的概率分布中不存在取某个数值的概率。几个常用区间所对应的概率如下： P(μ－σ<X<μ+σ)＝0.682 6 P(μ－2σ<X<μ+2σ)＝0.954 5 P(μ－3σ<X<μ+3σ)＝0.997 3 （4.34） P(μ－1.96σ<X<μ+1.96σ)＝0.95 P(μ－2.58σ<X<μ+2.58σ)＝0.99 可见标准差在正态分布中是一个重要的参数，任意区间以总体平均数加减若干个标准差的形式表示即可确定其对应的概率。二、正态分布的标准化

《田间试验统计》 第四章 理论分布与抽样分布

《田间试验统计》第四章理论分布与抽样分布