第八章常用统计分布 第一节超几何分布 适用:小群体的两分变量。假定总体为K个成功类、(N-K)个为失败类 1.超几何分布为离散型随机变量的概率分布,它的数学形式是 P(X=x)=H(x; N,n,K) CKCN-K K K (1 2超几何分布的数学期望值和方差 EC) D(X)=(N-n)(-K)K 如果用Nq=1-p,则有=E(X)=Pp DO=npg 3关于超几何分布的近似 K P(X=x)) 设某校有1000名大学生,其中有外国留学生10、名,现从该校学生中任抽 2人,求抽到外国留学生的概率分布。 [解]抽到外国留学生人数X服从N=1000、K=10、n=2的超几何分布, 根据(8.1)式得 P(X=0)=-9 990×989 =0.98009 1000×999
第八章 常用统计分布 第一节 超几何分布 适用:小群体的两分变量。假定总体为 K 个成功类、(N-K)个为失败类 1.超几何分布为离散型随机变量的概率分布,它的数学形式是 2.超几何分布的数学期望值和方差 如果用 ,则有 3.关于超几何分布的近似 设某校有 l000 名大学生,其中有外国留学生 10、名,现从该校学生中任抽 2 人,求抽到外国留学生的概率分布。 [解] 抽到外国留学生人数 X 服从 N=1000、K=10、n=2 的超几何分布, 根据(8.1)式得 n N n x N K x K C C C P X x H x N n K − − ( = ) = ( ; , , ) = x x n x n N K N K C − ( ) (1− ) N nK = E(X ) = ( 1) ( )( ) ( ) 2 − − − = = N N n N n N K K D X q p N K p = , =1− = E(X ) = np 1 ( ) 2 − − = = N N n D X npq x x n x n n N n x N K x K N K N K C C C C P X x − − − ( = ) = ( ) (1− ) 0.98009 1000 999 990 989 ( 0) 2 1000 2 990 0 10 = = = = C C C P X
10×990×2 P(X=1) 990 0.01982 1000 1000×999 10×9 P(X=2)==1 0.00009 1000 1000×999 两种方法计算结果比较一下,仅在小数点后第5位上才出现误差。当然在> 0.1时,如此计算误差会比较大。另外,二项分布的计算量仍不算小,有时还 可以将二项分布近似为泊松分布,这一点我们将在下一节讨论 第二节泊松分布 适用:稀有事件的研究。一个事件的平均发生次数是大量实验的结果,在这 些试验中,此事件可能发生,但是发生的概率非常小 泊松分布亦为离散型随机变量的概率分布,随机变量Ⅹ为样本内成功事件的 次数。若λ为成功次数的期望值,假定它为已知。而且在某一时空中成功的次数 很少,超过5次的成功概率可忽不计,那么X的某一具体取值x(即稀有事件出 现的次数)的概率分布为 P(X=x)=P(x, n) 泊松分布的性质:x的取值为零和一切正整数;图形是非对称的,但随着的 λ增加,图形变得对称;泊松分布的数学期望和方差均为λ。 E(X=x D(X)=E(X2)-[E(X)
两种方法计算结果比较一下,仅在小数点后第 5 位上才出现误差。当然在> 0.1 时,如此计算误差会比较大。另外,二项分布的计算量仍不算小,有时还 可以将二项分布近似为泊松分布,这一点我们将在下一节讨论。 第二节 泊松分布 适用:稀有事件的研究。一个事件的平均发生次数是大量实验的结果,在这 些试验中,此事件可能发生,但是发生的概率非常小。 泊松分布亦为离散型随机变量的概率分布,随机变量 X 为样本内成功事件的 次数。若λ为成功次数的期望值,假定它为已知。而且在某一时空中成功的次数 很少,超过 5 次的成功概率可忽不计,那么 X 的某一具体取值 x(即稀有事件出 现的次数)的概率分布为 泊松分布的性质:x 的取值为零和一切正整数;图形是非对称的,但随着的 λ增加,图形变得对称;泊松分布的数学期望和方差均为λ。 0.01982 1000 999 10 990 2 ( 1) 2 1000 1 990 1 10 = = = = C C C P X 0.00009 1000 999 10 9 ( 2) 2 1000 0 990 2 10 = = = = C C C P X − = = = e x P X x P x x ! ( ) ( ; ) = = = − 0 ! ( ) x x e x E X x = − = = − − = 2 0 2 2 2 ! ( ) ( ) [ ( )] e x x D X E X E X x x
PCr-x)4 a-2.5 =10 18方 图8.1泊松分布图 第三节 卡方分布 卡方分布是一种连续型随机变量的概率分布,主要用于列联表检验。 1.数学形式 设随机变量Ⅺ1,X2,…Xk,相互独立,且都服从同一的正态分布N(μ, 2)。那么,我们可以先把它们变为标准正态变量Z1,Z2,…Zk,k个独立标准 正态变量的平方和被定义为卡方分布 分布)的随机变量(团读作卡 方),且 (x1-∠)2 r=1 我们把随机变量园的概率分布称为园分布,其概率密度记作 。其中k为卡方分布的自由度,它表示定义式中 独立变量的个数。 关于卡方分布的分布函数,附表7对不同的自由度k及不同的临界概率α 0xd: k) PP 2(x, k)ds 注意x2(k)写法的含义:它表示自由度为k的卡方分布,当其分布函 数P 时,其随机变量 的临界值(参见图)。具体来说,在假设检验中,它表示 在显著性水平α上卡方分布随机变量 的临界值
第三节 卡方分布 卡方分布是一种连续型随机变量的概率分布,主要用于列联表检验。 1.数学形式 设随机变量 X1,X2,…Xk,相互独立,且都服从同一的正态分布 N (μ, σ2)。那么,我们可以先把它们变为标准正态变量 Z1,Z2,…Zk,k 个独立标准 正态变量的平方和被定义为卡方分布( 分布)的随机变量 ( 读作卡 方),且 我们把随机变量 的概率分布称为 分布,其概率密度记作 。其中 k 为卡方分布的自由度,它表示定义式中 独立变量的个数。 关于卡方分布的分布函数,附表 7 对不同的自由度 k 及不同的临界概率α (0<α<1),给出了满足下面概率式的 的值(参见图)。 注意 写法的含义:它表示自由度为 k 的卡方分布,当其分布函 数 时,其随机变量 的临界值(参见图)。具体来说,在假设检验中,它表示 在显著性水平α上卡方分布随机变量 的临界值。 2 2 = = = − = − + + − + − = k i i k i i k x Z x x x 1 2 1 2 2 2 1 2 2 2 2 ( ) 1 ( ) ( ) ( ) 2 2 ( ) 2 k = = + 2 ( ; ) 2 ( ; ) 2 2 P k x k dx ( ) 2 k P( 2 2 ;k) = 2 2
2.卡方分布的性质 ()团恒为正值 (2)卡方分布的期望值E(X2)是自由度k,方差D(X2)为2k。 卡方分布取决于自由度k,每一个可能的自由度对应一个具体的卡方分布 卡方分布只与自由度有关,这就给卡方分布的实际应用带来很大方便。分布由正 态分布导出,但它之所以与正态分布的参数μ和o无关,是因为标准正态变量Z 与原来的参数无关 (3)卡方分布具有可加性 x2(k1)+x2(k2)=x2(k1+k2 (4)利用卡方分布可以推出样本方差S2的分布 x(n 式中:02代表总体方差,自由度为n 第四节 F分布 F分布是连续性随机变量的另一种重要的小样本分布,可用来检验两个总体 的方差是否相等,多个总体的均值是否相等。还是方差分析和正交设计的理论基 础 1.数学形式 设X2(K)和X2(K2)相互独立,那么随机变量 F(kk)=x(k)IKi x(k2)/k2 服从自由度为(k1,k2)的F分布。其中,分子上的自由度k1叫做第一自由 度,分母上的自由度k2叫做第二自由度。 3.样本方差的抽样分布 [例]由一正态总体抽出容量为25的一随机样本,已知σ2=6,求
2. 卡方分布的性质 (1) 恒为正值 。 (2)卡方分布的期望值 E(X2 ) 是自由度 k,方差 D(X2 ) 为 2k。 卡方分布取决于自由度 k,每一个可能的自由度对应一个具体的卡方分布。 卡方分布只与自由度有关,这就给卡方分布的实际应用带来很大方便。分布由正 态分布导出,但它之所以与正态分布的参数μ和σ无关,是因为标准正态变量 Z 与原来的参数无关。 (3)卡方分布具有可加性 (4)利用卡方分布可以推出样本方差 S2 的分布 式中:σ2 代表总体方差,自由度为 n―l。 第四节 F 分布 F 分布是连续性随机变量的另一种重要的小样本分布,可用来检验两个总体 的方差是否相等,多个总体的均值是否相等。还是方差分析和正交设计的理论基 础。 1.数学形式 设 X 2 (K1) 和 X 2 (K2) 相互独立,那么随机变量 服从自由度为(k1,k2)的 F 分布。其中,分子上的自由度 k1 叫做第一自由 度,分母上的自由度 k2 叫做第二自由度。 3. 样本方差的抽样分布 [例] 由一正态总体抽出容量为 25 的一随机样本,已知σ2=6,求 2 ( ) ( ) ( ) 1 2 2 2 2 1 2 k + k = k + k ~ ( 1) 2 2 2 n − nS 2 2 2 1 1 2 1 2 ( )/ ( )/ ( , ) k k k k F k k =
样本方差S2在3.3到8.7之间的概率。 [解]已知n=25,σ2=6,由 得 P(3≤s≤87)-32y=2=82 8.7 x(24)≤ 0.95-0.05=0 所以,样本方差S2落在3.3和8.7之间的概率约为90%。 我们把随机变量F的概率分布称为F分布,其概率密度记作 (xk1,k)。本书附表8对不同自由度(k,k2)及不同的临界概率a(0 <α<1),给出满足下列概率式的Fa(k1,k2)的值(参见图) (F≥FB:k1,k2) P(x: kI, k2 )d 注意F&(KK2)写法的含义:它表示自由度为(k1,k2)的F分布,当 其分布函数P(F≥F)时,其随机变量F的临界值(参见图)。具体来说,在 假设检验中,它表示在显著性水平α上F分布随机变量F的临界值。 Pr() FaG.,) 图8.4F检验的否定域
样本方差 S 2 在 3.3 到 8.7 之间的概率。 [解] 已知 n=25,σ2=6,由 得 所以,样本方差 S 2 落在 3.3 和 8.7 之间的概率约为 90%。 我 们 把 随 机 变 量 F 的 概 率 分 布 称 为 F 分 布 , 其 概 率 密 度 记 作 。本书附表 8,对不同自由度(k1,k2)及不同的临界概率α(0 <α<1),给出满足下列概率式的 Fα(k1,k2)的值(参见图)。 注意 F&(K1,K2) 写法的含义:它表示自由度为 (k1,k2)的 F 分布,当 其分布函数 时,其随机变量 F 的临界值(参见图)。具体来说,在 假设检验中,它表示在显著性水平α上 F 分布随机变量 F 的临界值。 ~ ( 1) 2 2 2 n − nS (3.3 8.7) 2 P S ) 3.3 8.7 ( 2 2 2 2 n nS n = P ) 6 8.7 25 (24) 6 3.3 25 ( 2 = P = 0.95− 0.05 = 0.90 ( ; , ) 1 2 x k k F = = + F P(F F ;k1 , k2 ) F (x;k1 , k2 )dx ( ) P F F
如果S2和S2是两个独立随机样本的方差,样本来源于具有相同方差o2 的两个正态总体,样本容量分别为nl和n2,那么根据(8.22)式,随机变量F 服从于自由度为(n1-1和n2-1)的F分布 /(n2 2.F分布性质 (1)随机变量F恒为正值,F分布也是一个连续的非对称分布。 (2)分布具有一定程度的反对称性。 (k12k2) (k12k2) (3)F分布的期望值与变异数(方差 (F) (k2=2)D(F) 2k2(k1+k2-2) k1(k2-2)2(k2-4) (k2>4) prx) (10,10) (5,10) 图8.5F分布图(概率密度曲线)
如果 S1 2和 S2 2 是两个独立随机样本的方差,样本来源于具有相同方差σ2 的两个正态总体,样本容量分别为 n1 和 n2,那么根据(8.22)式,随机变量 F 服从于自由度为(n1―1 和 n2―1)的 F 分布。 2. F 分布性质 (1)随机变量 F 恒为正值,F 分布也是一个连续的非对称分布。 (2)分布具有一定程度的反对称性。 (3) F 分布的期望值与变异数(方差) = − − = 2 2 2 1 2 2 2 2 1 2 1 1 /( 1) /( 1) S S n S n n S n F ( , ) 1 ( , ) 1 2 1 1 2 F k k F k k − = ( 2) 2 ( ) 2 2 1 − = k k k E F ( 4) ( 2) ( 4) 2 ( 2) ( ) 2 2 2 1 2 2 1 2 − − + − = k k k k k k k D F