第四章理论分布与抽样分布 第一节事件和概率的基本概念 事件 我们把试验作为一个广泛的术语,包括科学试验、调查和观察。例如抛一枚硬币观察 落地后哪一面向上和在一袋种子中取出一粒测定其能否发芽等都可看做是一次试验。显然 这样的试验可以在相同的条件下重复进行,每次试验可能的结果有多个 1、随机事件:把一次试验所有可能的结果都称为事件 次试验中必然要发生的结果称为必然事件 次试验必然不发生的结果称为不可能事件 次试验中可能发生也可能不发生的结果则称为随机事件 虽然在一次试验中随机事件能否出现很难预料,但如果多次重复同一试验,随机事件 的出现与否却是有规律的。 2、互斥事件:如果事件A和事件B不同时发生,称A和B互斥事件。 3、对立事件:事件A和事件B是互斥的,但必发生其中一,就称事件B为事件A的 对立事件,记B为A 4、独立事件:事件A与事件B的发生与否各自彼此无关,称事件A与事件B是相互 独立的 例:如同时播下两粒种子,第一粒种子的发芽与否与第二粒种子是否发芽是无关的 因此这两粒种子的发芽与否是相互独立的 、概率 1、随机事件的发生规律必须通过大量的试验观察才能得到。试验次数与随机事件A 发生次数的比值称为事件A的频率( frequency)。表41是一批棉花种子发芽试验的结果, 从中可以看出随着种子粒数(试验次数)的增加,发芽的频率稳定在060左右。 频率的稳定性揭示了随机事件发生的规律性。频率稳定在较大数值表明该事件发生的 可能性较大,稳定在较小数值表明该事件发生的可能性较小。我们定义:设事件A在n次 试验中出现了m次,随着n的增加事件A出现的频率一所稳定趋近的数值p为事件概记 为P(4)=p 由于频率总是介于0和1之间,因此概率也必然介于0和1之间,即0≤p 许多情况下p很难准确获得。通常以n充分大时事件A出现的频率作为它的概率的估 计值,即p=n (42) 例如表41棉花种子发芽的概率(发芽率)可用n为500时的频率来估计,即p=060
1 第四章 理论分布与抽样分布 第一节 事件和概率的基本概念 一、事件 我们把试验作为一个广泛的术语,包括科学试验、调查和观察。例如抛一枚硬币观察 落地后哪一面向上和在一袋种子中取出一粒测定其能否发芽等都可看做是一次试验。显然 这样的试验可以在相同的条件下重复进行,每次试验可能的结果有多个。 1、随机事件:把一次试验所有可能的结果都称为事件。 一次试验中必然要发生的结果称为必然事件。 一次试验必然不发生的结果称为不可能事件。 一次试验中可能发生也可能不发生的结果则称为随机事件。 虽然在一次试验中随机事件能否出现很难预料,但如果多次重复同一试验,随机事件 的出现与否却是有规律的。 2、互斥事件:如果事件 A 和事件 B 不同时发生,称 A 和 B 互斥事件。 3、对立事件:事件 A 和事件 B 是互斥的,但必发生其中一,就称事件 B 为事件 A 的 对立事件,记 B 为 A 。 4、独立事件:事件 A 与事件 B 的发生与否各自彼此无关,称事件 A 与事件 B 是相互 独立的。 例:如同时播下两粒种子,第一粒种子的发芽与否与第二粒种子是否发芽是无关的, 因此这两粒种子的发芽与否是相互独立的。 二、概率 1、随机事件的发生规律必须通过大量的试验观察才能得到。试验次数与随机事件 A 发生次数的比值称为事件 A 的频率(frequency)。表 4.1 是一批棉花种子发芽试验的结果, 从中可以看出随着种子粒数(试验次数)的增加,发芽的频率稳定在 0.60 左右。 频率的稳定性揭示了随机事件发生的规律性。频率稳定在较大数值表明该事件发生的 可能性较大,稳定在较小数值表明该事件发生的可能性较小。我们定义:设事件 A 在 n 次 试验中出现了 m 次,随着 n 的增加事件 A 出现的频率 m n 所稳定趋近的数值 p 为事件概记 为 P(A)=p (4.1) 由于频率总是介于 0 和 1 之间,因此概率也必然介于 0 和 1 之间,即 0≤p≤1。 许多情况下 p 很难准确获得。通常以 n 充分大时事件 A 出现的频率作为它的概率的估 计值,即 p m n = (4.2) 例如表4.1棉花种子发芽的概率(发芽率)可用n 为500时的频率来估计,即 p = 0.60
通过频率计算估计的概率称为统计概率或经验概率 2、另一些情况下p可以准确求出。第一种情况是试验可能的结果数是有限的,且每 种结果的出现是互斥和等可能的。此时, P= P(A) 事件A包含的结果数 4.3) 试验所有可能的结果数 例如,在0,1,……,9中随机抽取一个数字有10种可能的结果,每个数字被抽取 的机会相等且互斥。设A为抽取的数字≤3,则它包含了0,1,2和3四种结果,因此 P=P(A) 04。这样计算求得的概率称为古典概率 3、另一种情况是根据已知的概率分布理论来计算概率,这样求得的概率称为理论概 率。本章后面有关二项分布和正态分布的概率计算均属此类 概率的计算法则 1、互斥事件的概率法则(加法定理) 如果事件A和事件B互斥,概率各为P(A)和P(B),那么它们的和事件的概率为: P(4+B)=P(A)+P(B) (4.5) 2、对立事件的概率法则 如果事件A的概率为P(A),那么其对立事件的概率为: P(A)=1-P(A) (46) 2、对立事件的概率法则乘法定理 随机事件A和B的积事件的概率为 P(AB)=P(A)P(BA) 其中P(B/A)称为条件概率,意为在事件A已发生的条件下事件B发生的概率 特殊地,如果A和B相互独立,那么B的发生与否与A无关,即P(BA)=P(B),所 P(AB)=P(A)P(B) (4.8) 概率的加法定理和乘法定理都适用于多个随机事件的概率计算。 〔例4.1)一口袋中装有6个球,其中红球2个,白球4个。从口袋中随机取球2次 每次取1个。考虑两种情况:(1)第一次取球观其颜色后放回袋中,这叫放回抽样;(2) 第一次取球后不放回袋中,这叫不放回抽样。试就这两种情况分别求2个都是白球和至少 有1个白球的概率。 本题属古典概率计算。设A为第一次是白球,B为第二次是白球。2次都是白球是A 和B的积,至少有1个白球是A和B的和。第一次取球有6种等可能且互斥的结果,其中 4种是白球,因此 42 P 对于放回抽样,第二次取球与第一次无关,结果与第一次一样,所以
2 通过频率计算估计的概率称为统计概率或经验概率。 2、另一些情况下 p 可以准确求出。第一种情况是试验可能的结果数是有限的,且每 一种结果的出现是互斥和等可能的。此时, p= P(A)= 事件 A 包含的结果数 (4.3) 试验所有可能的结果数 例如,在 0,1,……,9 中随机抽取一个数字有 10 种可能的结果,每个数字被抽取 的机会相等且互斥。设 A 为抽取的数字≤3,则它包含了 0,1,2 和 3 四种结果,因此 p = P(A) = = . 4 10 0 4 。这样计算求得的概率称为古典概率。 3、另一种情况是根据已知的概率分布理论来计算概率,这样求得的概率称为理论概 率。本章后面有关二项分布和正态分布的概率计算均属此类。 三、概率的计算法则 1、 互斥事件的概率法则(加法定理) 如果事件 A 和事件 B 互斥,概率各为 P(A)和 P(B),那么它们的和事件的概率为: P(A+B)=P(A)+P(B) (4.5) 2、对立事件的概率法则 如果事件 A 的概率为 P(A),那么其对立事件的概率为: P( A )=1-P(A) (4.6) 2、 对立事件的概率法则乘法定理 随机事件 A 和 B 的积事件的概率为 P(AB)=P(A)P(B/A) (4.7) 其中 P(B/A)称为条件概率,意为在事件 A 已发生的条件下事件 B 发生的概率。 特殊地,如果 A 和 B 相互独立,那么 B 的发生与否与 A 无关,即 P(B/A) =P(B),所 以, P(AB)=P(A)P(B) (4.8) 概率的加法定理和乘法定理都适用于多个随机事件的概率计算。 〔例4. 1〕一口袋中装有 6 个球,其中红球 2 个,白球 4 个。从口袋中随机取球 2 次, 每次取 1 个。考虑两种情况:(1)第一次取球观其颜色后放回袋中,这叫放回抽样;(2) 第一次取球后不放回袋中,这叫不放回抽样。试就这两种情况分别求 2 个都是白球和至少 有 1 个白球的概率。 本题属古典概率计算。设 A 为第一次是白球,B 为第二次是白球。2 次都是白球是 A 和 B 的积,至少有 1 个白球是 A 和 B 的和。第一次取球有 6 种等可能且互斥的结果,其中 4 种是白球,因此, P( A) = = 4 6 2 3 对于放回抽样,第二次取球与第一次无关,结果与第一次一样,所以
P 224 P(AB)=÷ 222 (4+B)=3+3-3x3=9 对于不放回抽样,在第一次已取得白球的条件下,第二次有5种等可能且互斥的取法 其中3种是白球,所以 P(B/A= P(4B)=3×5=5 232313 P(A+B) 353515 第二节随机变数及其分布 随机变数 许多试验的结果用数值来表示,例如人的身高和作物的产量等,但重复试验得到的数 值不完全相同,也就是说试验结果不是一个确定的数值而是一个变数( variable)。每次试 验中此变数到底是多少受偶然因素的影响,不能事先确定。这种随偶然因素而变化的变数 称为随机变数( random variable)。在试验之前随机变数是一个不确定的量,有许多可能 的取值。但在试验中只有其中的一个可能取值得到了实现。这种实现了的取值称为观察值 ( observed value),观察值是一个确定的数值 有些试验的结果本身不是数值,但可将其数量化后用数值来表示,因此也是随机变数 例如,一粒种子的发芽试验有发芽和不发芽两种可能的结果,如用1代表发芽,0代表不 发芽,试验结果就是一个有0和1两种可能取值的随机变数 如果随机变数只有有限个可能的取值,并在试验中以确定的概率来取这些数值,就称 它为间断性( internal)随机变数。质量性状和计数的数量性状的试验结果常常是间断性随 机变数。如果随机变数可能的取值充满一个区间,并且试验结果落在任意区间内的概率是 确定的,就称它为连续性( continuous)随机变数。计量性状的试验结果通常是连续性随 机变数 、随机变数的概率分布 随机变数可能的取值或取值区间的概率反映了随机变数的统计规律性,称为概率分布 ( probability distribution)。间断性随杋变数一般用概率分布列来表示这种规律性。设随机
3 P B P AB P A B ( ) ( ) ( ) = = = + = + − = 2 3 2 3 2 3 4 9 2 3 2 3 2 3 2 3 8 9 对于不放回抽样,在第一次已取得白球的条件下,第二次有 5 种等可能且互斥的取法, 其中 3 种是白球,所以 P B A P AB P A B ( / ) ( ) ( ) = = = + = + − = 3 5 2 3 3 5 2 5 2 3 3 5 2 3 3 5 13 15 第二节 随机变数及其分布 一、 随机变数 许多试验的结果用数值来表示,例如人的身高和作物的产量等,但重复试验得到的数 值不完全相同,也就是说试验结果不是一个确定的数值而是一个变数(variable)。每次试 验中此变数到底是多少受偶然因素的影响,不能事先确定。这种随偶然因素而变化的变数 称为随机变数(random variable)。在试验之前随机变数是一个不确定的量,有许多可能 的取值。但在试验中只有其中的一个可能取值得到了实现。这种实现了的取值称为观察值 (observed value),观察值是一个确定的数值。 有些试验的结果本身不是数值,但可将其数量化后用数值来表示,因此也是随机变数。 例如,一粒种子的发芽试验有发芽和不发芽两种可能的结果,如用 1 代表发芽,0 代表不 发芽,试验结果就是一个有 0 和 1 两种可能取值的随机变数。 如果随机变数只有有限个可能的取值,并在试验中以确定的概率来取这些数值,就称 它为间断性(internal)随机变数。质量性状和计数的数量性状的试验结果常常是间断性随 机变数。如果随机变数可能的取值充满一个区间,并且试验结果落在任意区间内的概率是 确定的,就称它为连续性(continuous)随机变数。计量性状的试验结果通常是连续性随 机变数。 二、随机变数的概率分布 随机变数可能的取值或取值区间的概率反映了随机变数的统计规律性,称为概率分布 (probability distribution)。间断性随机变数一般用概率分布列来表示这种规律性。设随机
变数X可能的取值为x,x,…,x,每个取值对应的概率P(X=x)为p,p 其概率分布列见表42。其中F(x)=P(K≤x)称间断性随机变数的概率累积函数 表42间断性随机变数的概率分布列 P(X 连续性随机变数一般用概率密度函数x)和概率累积函数F(x)来表示其概率分布规律 F(x)=」f(x)d (49) 无论间断性还是连续性随机变数的概率累积函数都具有如下性质: 1、非降性如果x<x2,则 F(x1)≤F(x2) (4.10) 2、因为x不可能小于-∞,所以 FO (411) 3、因为x必然小于∞,所以 (412) 、随机变数的数字特征 反映随机变数分布特点的特征数主要有数学期望和方差 1、数学期望 随机变数的数学期望( expectation)就是它的总体平均数,记为=E(X)。对于间 断性随机变数 H=∑ (4.13) 对于连续性随机变数 u=xf(x) (4.14) 随机变数的数学期望具有下列性质: (1)常数的数学期望等于常数本身,即 E(c) (4.15) 2)常数与随机变数乘积的数学期望为该常数与该随机变数数学期望的乘积 E(CX)=cE(X) (4.16) (3)随机变数之和的数学期望等于各自的数学期望之和,即 E(H+1)=E(1)+E(Y) (4.17) (4)独立随机变数之积的数学期望等于各自的数学期望之积,即 E(x)=E()E(1) (4.18) (5)离均差的数学期望为零,即 E(X-)=0 (419) 方差
4 变数 X 可能的取值为 x1,x2,……,xk,每个取值对应的概率 P(X=xi)为 p1,p2,……,pk, 其概率分布列见表 4.2。其中 F(xi)=P(X≤xi)称间断性随机变数的概率累积函数。 表 4.2 间断性随机变数的概率分布列 XI x1 x2 …… xk P(X=xi) p1 p2 …… pk F(xi) p1 p1+p2 …… 1 连续性随机变数一般用概率密度函数 f(x)和概率累积函数 F(x)来表示其概率分布规律 F x f x dx x ( ) = ( ) (4.9) 无论间断性还是连续性随机变数的概率累积函数都具有如下性质: 1、 非降性 如果 x1<x2,则 F(x1)≤F(x2) (4.10) 2、 因为 x 不可能小于-∞,所以 F(-∞)=0 (4.11) 3、 因为 x 必然小于∞,所以 F(∞)=1 (4.12) 三、随机变数的数字特征 反映随机变数分布特点的特征数主要有数学期望和方差。 1、 数学期望 随机变数的数学期望(expectation)就是它的总体平均数,记为 = E(X) 。对于间 断性随机变数 = p xi i (4.13) 对于连续性随机变数 = xf (x)dx (4.14) 随机变数的数学期望具有下列性质: (1) 常数的数学期望等于常数本身,即 E(c)=c (4.15) (2) 常数与随机变数乘积的数学期望为该常数与该随机变数数学期望的乘积 E(cX)= c E(X) (4.16) (3) 随机变数之和的数学期望等于各自的数学期望之和,即 E(X+Y)=E(X)+E(Y) (4.17) (4) 独立随机变数之积的数学期望等于各自的数学期望之积,即 E(XY)=E(X)E(Y) (4.18) (5) 离均差的数学期望为零,即 E(X − ) = 0 (4.19) 2、 方差
随机变数的方差记为σ2=D(X)=EI(X-A)2]。对于间断性随机变数 a2=∑p(x2-)2 对于连续性随机变数 02=cx-u)'/(x)dr (4.21) 随机变数的方差具有如下性质: (1)常数的方差为零,即 D(C)=0 (4.22) (2)常数与随机变数之积的方差为 D(cr=cD(X (423) (3)独立随机变数之和或差的方差等于各自的方差之和,即 D(x±Y)=D(h+D(Y (4.24) 例4.2)甲乙两工人一天中出现次品的概率分布列见表43。如两人的日产量相同, 问谁的技术较好和谁的技术稳定? 表43甲乙两人出现次品的概率分布列 工人 技术好坏和稳定与否可由出现次品的数学期望和方差来反映。对于甲和乙分别有 E(甲)=04×0+0.3×1+0.2×2+0.1×3=1 D(甲)=0.4×(0-1)2+0.3×(1-1)2+0.2×(2-1)2+0.1×(3-1)2=1 E(乙)=0.3×0+0.5×1+0.2×2+0×3=0.9 D(乙)=0.3×(0-0.9)2+0.5×(1-0.9)2+0.2×(2-0.9)2=049 据此得出的结论是乙的技术较好且稳定。 随机变数的数学期望和方差与样本的平均数和方差是不同的概念。前者是根据概率分 布计算出来的理论值,与试验实际进行与否无关。后者是根据样本观察值计算出来的统计 数,而观察值只有在试验之后才能得到
5 随机变数的方差记为 ( ) [( ) ] 2 2 = D X = E X − 。对于间断性随机变数 = − 2 2 ( ) i i p x (4.20) 对于连续性随机变数 = (x − ) f (x)dx 2 2 (4.21) 随机变数的方差具有如下性质: (1) 常数的方差为零,即 D(c)=0 (4.22) (2) 常数与随机变数之积的方差为 D(cX)=c 2D(X) (4.23) (3) 独立随机变数之和或差的方差等于各自的方差之和,即 D(X±Y)=D(X)+D(Y) (4.24) 〔例4. 2〕甲乙两工人一天中出现次品的概率分布列见表 4.3。如两人的日产量相同, 问谁的技术较好和谁的技术稳定? 表 4.3 甲乙两人出现次品的概率分布列 工人 甲 乙 xi 0 1 2 3 0 1 2 3 P(X=xi) 0.4 0.3 0.2 0.1 0.3 0.5 0.2 0 技术好坏和稳定与否可由出现次品的数学期望和方差来反映。对于甲和乙分别有 E(甲)=0.4×0+0.3×1+0.2×2+0.1×3=1 D(甲)=0.4×(0-1)2+0.3×(1-1)2+0.2×(2-1)2+0.1×(3-1)2=1 E(乙)=0.3×0+0.5×1+0.2×2+0×3=0.9 D(乙)=0.3×(0-0.9)2+0.5×(1-0.9)2+0.2×(2-0.9)2=0.49 据此得出的结论是乙的技术较好且稳定。 随机变数的数学期望和方差与样本的平均数和方差是不同的概念。前者是根据概率分 布计算出来的理论值,与试验实际进行与否无关。后者是根据样本观察值计算出来的统计 数,而观察值只有在试验之后才能得到
第三节二项分布 、二项总体分布 质量性状的试验研究中常见所有个体都可根据某事件的发生与不发生而分成两组的 情况。例如在大豆花色遗传规律的硏究中,所有植株都可根据开紫花还是白花(不开紫花) 分为两组。又如在种子的发芽试验中,每粒种子都可根据发芽与否归入发芽或不发芽组。 将这类试验的结果数量化,以种子发芽试验为例,设不发芽为0,发芽为1,那么每粒种 子的试验结果可用一个只有0和1两个可能取值的间断性随机变数来表示。如果发芽的概 率为p,不发芽与发芽对立其概率就是q=1-p,可用表44的概率分布列来表示。这种概 率分布称为二项总体分布,又称(0,1)二点分布,因为随机变数X只有0和1两个可能 的取值 二项总体分布的数学期望和方差可如下计算。设总体里有N个个体,p为x=1的概 率,q为x=0的概率,那么x=1组的理论发生次数应为pN,x=0组的理论发生次数应为 N。因此 Nd 425) 0sN1-p)+q(0-p)2 N pq 由于q=1-p,所以p是二项总体分布唯一的参数。 表44二项总体的概率分布列 表45种子发芽试验的概率分布列(一) PX=x)PX≤x) p+q=1 〔例4.3〕以某试验地的5株蔬菜为总体调査蚜虫危害情况。令x=1代表受害,x=0 代表未受害,5株的观察结果为0,1,0,1,0。试求危害率的数学期望和方差 根据式(425)得 0+1+0+1+0 =04 2(0-04)2+(1-04)2+(0-04)2+(1-04)2+(0-04)2 0.24 说明该试验地蚜虫的平均危害率为0.4,危害率变异的方差为0.24。此例也说明了二 项总体的平均数为=p,方差为a2=p,标准差为a=√pq。 、二项分布的概率函数及计算 仍以种子发芽试验为例,假定发芽的概率为0.9,每两粒种子为一组统计试验结果
6 第三节 二项分布 一、二项总体分布 质量性状的试验研究中常见所有个体都可根据某事件的发生与不发生而分成两组的 情况。例如在大豆花色遗传规律的研究中,所有植株都可根据开紫花还是白花(不开紫花) 分为两组。又如在种子的发芽试验中,每粒种子都可根据发芽与否归入发芽或不发芽组。 将这类试验的结果数量化,以种子发芽试验为例,设不发芽为 0,发芽为 1,那么每粒种 子的试验结果可用一个只有 0 和 1 两个可能取值的间断性随机变数来表示。如果发芽的概 率为 p,不发芽与发芽对立其概率就是 q=1-p,可用表 4.4 的概率分布列来表示。这种概 率分布称为二项总体分布,又称(0,1)二点分布,因为随机变数 X 只有 0 和 1 两个可能 的取值。 二项总体分布的数学期望和方差可如下计算。设总体里有 N 个个体,p 为 x=1 的概 率,q 为 x=0 的概率,那么 x=1 组的理论发生次数应为 pN,x=0 组的理论发生次数应为 qN。因此 = = = − + − = pN N p pN p qN p N pq 2 2 2 (1 ) (0 ) (4.25) 由于 q=1-p,所以 p 是二项总体分布唯一的参数。 表 4.4 二项总体的概率分布列 表 4.5 种子发芽试验的概率分布列(一) x P(X=x) P(X≤x) x P(X=x) P(X≤x) 0 1 q=1-p p q p+q=1 0 1 2 0.01 0.18 0.81 0.01 0.19 1.00 〔例4. 3〕以某试验地的 5 株蔬菜为总体调查蚜虫危害情况。令 x=1 代表受害,x=0 代表未受害,5 株的观察结果为 0,1,0,1,0。试求危害率的数学期望和方差。 根据式(4.25)得 = + + + + = = − + − + − + − + − = 0 1 0 1 0 5 0 4 0 0 4 1 0 4 0 0 4 1 0 4 0 0 4 5 0 24 2 2 2 2 2 2 . ( . ) ( . ) ( . ) ( . ) ( . ) . 说明该试验地蚜虫的平均危害率为 0.4,危害率变异的方差为 0.24。此例也说明了二 项总体的平均数为 = p ,方差为 = pq 2 ,标准差为 = pq 。 二、二项分布的概率函数及计算 仍以种子发芽试验为例,假定发芽的概率为 0.9,每两粒种子为一组统计试验结果
因为每粒种子的发芽与否是相互独立的,所以两粒都不发芽的概率为0.1×0.1=0.01 粒发芽一粒不发芽(含第一粒发芽第二粒不发芽和第一粒不发芽第二粒发芽两种情况)的 概率为0.9×0.1+0.1×0.9=018;两粒种子都发芽的概率为09×09=0.81。以随机变数X 代表发芽试验的结果,它有0,1和2三个可能的取值。上述试验结果可列成表45的概率 分布列 根据以上分析可以看出,如果以p代表事件A发生的概率且在每次重复试验中都相等, 以q=1-p代表其对立事件A发生的概率,那么在n次重复试验中事件A出现x次(x=1 2,……,n)的概率表达为概率函数的形式为 f(x)=P(X=x)=Crp'q 其中Cn是组合数。式(4.26)称为二项分布( binomial distribution)的概率函数,因 为它正是二项式展开后含有p的项。由于p+q=1,所以 (p+q)2=cm”+Cmr”1+cp2q"2+…+ Cnp q"-+…+Cnp"=∑f(x)=1 意为在n次试验中出现互斥事件x=0,x=1,……,x=n其中之一的概率为1。 〔例4.4〕在一批发芽率为0.9的种子里取5粒进行发芽试验。以x为发芽粒数,试做 出试验结果X的概率分布列。 已知n=5,p=0.9,q=1-0.9=0.1。根据式(426)得到如表46所示的概率分布列 计算二项分布的各项概率也可以用递推公式。因为 P(X=x)=Crp '"-, P(X=x+1)=Crtp*q-r 两者的比值为 P(X=x+1)Cp (n-x)p P(X=x) C q (x+1) 所以 P(x=x+1)=n-XP P(r-x (4.27) (x+1)q 在上例中P(X=0)=0.00001,用式(427)来求P(X=1)为 (5-0)×0.9 P(X=1)= (0+D)xO1×0000100045 其余各项也可以依此计算 也可以用图42来表示表46的概率分布列。从图中可以看出这是一个偏态的概率分 布,因为其p≠q且n较小。如果p=q则二项分布是对称的,见图4.3。理论分析和实践 结果都表明当n很大时,即使p≠q的二项分布其图形也接近对称,见图44 例45某玉米种子发芽率为06,今按设计株距穴播,若每穴播4粒,预计田间保苗 率是多少? 首先考虑,这里的田间保苗率实际上是每穴有种子发芽的概率,这是一个和事件,可
7 因为每粒种子的发芽与否是相互独立的,所以两粒都不发芽的概率为 0.1×0.1=0.01;一 粒发芽一粒不发芽(含第一粒发芽第二粒不发芽和第一粒不发芽第二粒发芽两种情况)的 概率为 0.9×0.1+0.1×0.9=0.18;两粒种子都发芽的概率为 0.9×0.9=0.81。以随机变数 X 代表发芽试验的结果,它有 0,1 和 2 三个可能的取值。上述试验结果可列成表 4.5 的概率 分布列。 根据以上分析可以看出,如果以 p 代表事件A 发生的概率且在每次重复试验中都相等, 以 q=1-p 代表其对立事件 A 发生的概率,那么在 n 次重复试验中事件 A 出现 x 次(x=1, 2,……,n)的概率表达为概率函数的形式为 f (x) = P X x Cn p q x x n x ( = ) = − (4.26) 其中 Cn x 是组合数。式(4.26)称为二项分布(binomial distribution)的概率函数,因 为它正是二项式展开后含有 p x的项。由于 p+q=1,所以 = − − − + = + + + + + + = = n x n n n x x n x n n n n n n n p q C q C pq C p q C p q C p f x 0 2 0 1 1 2 2 2 ( ) ( ) 1 意为在 n 次试验中出现互斥事件 x=0,x=1,……,x=n 其中之一的概率为 1。 〔例4. 4〕在一批发芽率为 0.9 的种子里取 5 粒进行发芽试验。以 x 为发芽粒数,试做 出试验结果 X 的概率分布列。 已知 n=5,p=0.9,q=1-0.9=0.1。根据式(4.26)得到如表 4.6 所示的概率分布列。 计算二项分布的各项概率也可以用递推公式。因为 P X x Cn p q P X x C p q x x n x n x x n x ( = ) = , ( = + ) = − + + − − 1 1 1 1 两者的比值为 P X x P X x C p C q n x p x q n x n x ( ) ( ) ( ) ( ) = + = = = − + + 1 1 1 所以 P X x n x p x q ( ) P X x ( ) ( ) = + = ( ) − + 1 = 1 (4.27) 在上例中 P(X=0)=0.000 01,用式(4.27)来求 P(X=1)为 P(X ) ( ) . ( ) . = = . − + 1 5 0 0 9 0 1 01 0 000 01=0.000 45 其余各项也可以依此计算。 也可以用图 4.2 来表示表 4.6 的概率分布列。从图中可以看出这是一个偏态的概率分 布,因为其 p≠q 且 n 较小。如果 p=q 则二项分布是对称的,见图 4.3。理论分析和实践 结果都表明当 n 很大时,即使 p≠q 的二项分布其图形也接近对称,见图 4.4。 [例 4.5] 某玉米种子发芽率为 0.6,今按设计株距穴播,若每穴播 4 粒,预计田间保苗 率是多少? 首先考虑,这里的田间保苗率实际上是每穴有种子发芽的概率,这是一个和事件,可
计算为 P(一穴中有种子发芽)=f(1)+f(2)+f(3)+f(4) 或利用完全事件系概率总和等于1的规律简化计算为 1-f(0)=1-C0.0600.4=0.9744 可知此时,田间预计保苗率为9744%。 三、泊松分布 当n较大,p或q较小,即或mg≤5时,二项分布将为泊松分布( Poisson distribution) 所接近。令m=四,则泊松分布的概率分布为 m e P(X=x) 其中e=271828……是自然对数的底。当n较大时用(4.28)式计算P(X=x)比用(4.26) 式简单得多,且有足够的精确度。表4.7给出了一个叩=1的计算实例,可说明泊松分布 对二项分布的接近程度。 如果试验次数很大,某事件出现的次数很小,那么此事件的出现次数将服从泊松分布。 这类现象在农业科学研究中很多,如昆虫与植物种类在一定面积内的分布,病虫侵害作物 的分布和溶液中微生物的分布等。 例4.6)设一批种子中不合格种子占0005,从中抽取800粒,试求其中不合格种子 恰有10粒和不多于5粒的概率 因为n=800,p=0.005,m=4<5,所以可按泊松分布来计算 P(X=10、40xe 0005292 10! P(X≤5)= 0x!=0785132 后者也可以在泊松分布累积函数表中查出 泊松分布的数学期望、方差和标准差为 (4.29) 也就是说,泊松分布仅由一个参数m决定。 第四节正态分布 、正态总体分布 正态分布是连续性随机变数的概率分布形式之一,又称常态分布或高斯分布。许多社 会和自然现象,特别是受众多因素影响的农业和生物科学中绝大多数现象都服从正态分 布。理论研究还表明即使原数据不服从正态分布甚至是间断性随机变数,只要试验次数(样 本容量)n足够大,其样本统计数例如平均数也趋于正态分布
8 计算为 P(一穴中有种子发芽)= f (1) +f (2) +f (3) +f (4) 或利用完全事件系概率总和等于 1 的规律简化计算为 1 - f (0) =1- 0 0 4 C4 0.6 0.4 = 0.9744 可知此时,田间预计保苗率为 97.44% 。 三、泊松分布 当 n 较大,p 或 q 较小,np 或 nq≤5 时,二项分布将为泊松分布(Poisson distribution) 所接近。令 m=np,则泊松分布的概率分布为 P X x m e x x m ( ) ! = = − (4.28) 其中 e=2.718 28……是自然对数的底。当 n 较大时用(4.28)式计算 P(X=x)比用(4.26) 式简单得多,且有足够的精确度。表 4.7 给出了一个 np=1 的计算实例,可说明泊松分布 对二项分布的接近程度。 如果试验次数很大,某事件出现的次数很小,那么此事件的出现次数将服从泊松分布。 这类现象在农业科学研究中很多,如昆虫与植物种类在一定面积内的分布,病虫侵害作物 的分布和溶液中微生物的分布等。 〔例4. 6〕设一批种子中不合格种子占 0.005,从中抽取 800 粒,试求其中不合格种子 恰有 10 粒和不多于 5 粒的概率。 因为 n=800,p=0.005,np=4<5,所以可按泊松分布来计算。 P X e ( = ) = . = − 10 4 10! 0 005 10 4 292 P X e x x x ( ) ! = . = − = 5 4 0 785 4 0 5 132 后者也可以在泊松分布累积函数表中查出。 泊松分布的数学期望、方差和标准差为 = m, = m, = m 2 (4.29) 也就是说,泊松分布仅由一个参数 m 决定。 第四节 正态分布 一、正态总体分布 正态分布是连续性随机变数的概率分布形式之一,又称常态分布或高斯分布。许多社 会和自然现象,特别是受众多因素影响的农业和生物科学中绝大多数现象都服从正态分 布。理论研究还表明即使原数据不服从正态分布甚至是间断性随机变数,只要试验次数(样 本容量)n 足够大,其样本统计数例如平均数也趋于正态分布
随机变数X服从正态分布记为X~N(,2)。其中u是正态分布的数学期望,a2 是正态分布的方差,它们都是正态分布的参数。正态分布的概率密度函数为 f(x)= (4.30) Ov2丌 其图形称正态分布曲线,见图45 正态分布的概率累积函数为 F(x)=f(x)dx=P(X<x (431) 其图形称正态累积曲线,见图46 正态分布曲线有如下特性: 1、正态分布曲线以总体平均数p为中心,向左右两侧对称分布 2、正态分布曲线是一单峰曲线,总体平均数μ对应的概率密度最大,左右两侧离 越远对应的概率密度越小 3、总体平均数决定曲线的中心位置,标准差σ决定曲线的变化率。4和a不同的 总体其正态分布曲线的位置和形状各异,因此正态分布曲线是以参数和a的不同而变化 的曲线系统 4、正态分布曲线在μ±σ处有拐点,两尾向左右无限延伸,以横轴为渐近线,全距 为-∞至∞。 5、无论μ和a为多少,正态分布曲线与横轴间的总面积都等于1,意为随机变数X 的取值位于-∞至∞之间的概率为1 P(-<x<∞)=f(x)tk=F(∞)=1 (432) 6、无论μ和σ为多少,随机变数的取值落在任意区间(a,b)的概率为直线x=a和 x=b与正态分布曲线和横轴间的面积,即 P(a<x<b)=p(x <b)-P(X <a)=f(x)dx=F(b)-F(a) (4.33) 式(433)取开区间是因为连续性随机变数的概率分布中不存在取某个数值的概率。 几个常用区间所对应的概率如下: P(H-0<X<+0)=0.6826 P(H-20<<+20)=0.9545 P(-30<<+30)=0.9973 (4.34) P(4-1.960<K<+1.960)=0.9 P(-2.580<X<+2.580)=0.99 可见标准差在正态分布中是一个重要的参数,任意区间以总体平均数加减若干个标准 差的形式表示即可确定其对应的概率 、正态分布的标准化
9 随机变数 X 服从正态分布记为 X~N(μ, 2 )。其中μ是正态分布的数学期望, 2 是正态分布的方差,它们都是正态分布的参数。正态分布的概率密度函数为 f x e x ( ) = − − 1 2 1 2 2 (4.30) 其图形称正态分布曲线,见图 4.5。 正态分布的概率累积函数为 F x f x dx P X x x ( ) = ( ) = ( ) − (4.31) 其图形称正态累积曲线,见图 4.6。 正态分布曲线有如下特性: 1、 正态分布曲线以总体平均数μ为中心,向左右两侧对称分布。 2、 正态分布曲线是一单峰曲线,总体平均数μ对应的概率密度最大,左右两侧离μ 越远对应的概率密度越小。 3、 总体平均数μ决定曲线的中心位置,标准差σ决定曲线的变化率。μ和σ不同的 总体其正态分布曲线的位置和形状各异,因此正态分布曲线是以参数μ和σ的不同而变化 的曲线系统。 4、 正态分布曲线在μ±σ处有拐点,两尾向左右无限延伸,以横轴为渐近线,全距 为-∞至∞。 5、无论μ和σ为多少,正态分布曲线与横轴间的总面积都等于 1,意为随机变数 X 的取值位于-∞至∞之间的概率为 1,即 P(− X ) = f (x)dx = F() = − 1 (4.32) 6、无论μ和σ为多少,随机变数的取值落在任意区间(a,b)的概率为直线 x=a 和 x=b 与正态分布曲线和横轴间的面积,即 P a X b P X b P X a f x dx F b F a a b ( ) = ( ) − ( ) = ( ) = ( ) − ( ) (4.33) 式(4.33)取开区间是因为连续性随机变数的概率分布中不存在取某个数值的概率。 几个常用区间所对应的概率如下: P(μ-σ<X<μ+σ)=0.682 6 P(μ-2σ<X<μ+2σ)=0.954 5 P(μ-3σ<X<μ+3σ)=0.997 3 (4.34) P(μ-1.96σ<X<μ+1.96σ)=0.95 P(μ-2.58σ<X<μ+2.58σ)=0.99 可见标准差在正态分布中是一个重要的参数,任意区间以总体平均数加减若干个标准 差的形式表示即可确定其对应的概率。 二、正态分布的标准化
总体平均数∥=0,方差G2=1的正态分布称标准正态分布。 为了简化正态分布的概率计算,通常以一个新变数u代替X,将X离其平均数μ的差 数以a为单位进行标准化。即 (4.35) u称为正态离差,是一个服从标准正态分布的随机变数,记为u~N(0,1)。其概率密度 函数为 f(u)= (4.36) 概率累积函数为 F(u)=Pu<)=∫f(hm (4.37) F()的定义参见图47,具体数值可以从本书的附表2中查得。 〔例4.7〕计算正态离差的随机取值落在区间(-1,1),(-2,2)和(-3,3)的概 P(-1<x1)=P(<1)-P(x-1)=F(1)-F(-1) 查附表2,F(1)=0.8413,F(-1)=0.1587。因此 P(-1<l1)=0.8413-0.1587=0.6826 同理 P(-2<l2)=P(<2)-P(x-2)=F(2)-F(-2) =09773-0.0228=0.9545 P(-3<x3)=P(<3)-P(x-3)=F(3)-F(-3) 0.9987-0.0014=0.9973 以上计算验证了式(434),参见图48 0.9973 图47正态累积函数的图 图48区间(-1,1)、(-2,2)和(-3,3)的概率图示 三、正态分布的概率计算 任意服从正态分布的随机变数X都可通过标准化变换为正态离差来计算其落于任意 区间的概率
10 总体平均数μ=0,方差 2 =1 的正态分布称标准正态分布。 为了简化正态分布的概率计算,通常以一个新变数 u 代替 X,将 X 离其平均数μ的差 数以σ为单位进行标准化。即 − = x u (4.35) u 称为正态离差,是一个服从标准正态分布的随机变数,记为 u~N(0,1)。其概率密度 函数为 f u e u ( ) = 1 − 2 1 2 2 (4.36) 概率累积函数为 F ui P u ui f u du ui ( ) = ( ) = ( ) − (4.37) F(ui)的定义参见图 4.7,具体数值可以从本书的附表 2 中查得。 〔例4. 7〕计算正态离差的随机取值落在区间(-1,1),(-2,2)和(-3,3)的概 率。 P(-1<u<1)=P(u<1)-P(u<-1)=F(1)-F(-1) 查附表 2,F(1)=0.841 3,F(-1)=0.158 7。因此 P(-1<u<1)=0.841 3-0.158 7=0.682 6 同理 P(-2<u<2)=P(u<2)-P(u<-2)=F(2)-F(-2) =0.977 3-0.022 8=0.954 5 P(-3<u<3)=P(u<3)-P(u<-3)=F(3)-F(-3) =0.998 7-0.001 4=0.997 3 以上计算验证了式(4.34),参见图 4.8。 图 4.7 正态累积函数的图示 图 4.8 区间(-1,1)、(-2,2)和(-3,3)的概率图示 三、正态分布的概率计算 任意服从正态分布的随机变数 X 都可通过标准化变换为正态离差u 来计算其落于任意 区间的概率。 f(x) 0.4 f(x) 0.682 6 0.954 5 0.997 3 ui u -3 -2 -1 0 1 2 3 x