第七章次数资料分析——x检验 前面介绍了计量资料的统计分析方法检验法与方差分析法。在畜牧、水产等科学 研究中,除了分析计量资料以外,还常常需要对次数资料、等级资料进行分析。等级资料实 际上也是一种次数资料。次数资料服从二项分布或多项分布,其统计分析方法不同于服从正 态分布的计量资料。本章将分别介绍对次数资料、等级资料进行统计分析的方法。 第一节z2统计量与z2分布 x2统计量的意义 为了便于理解,现结合一实例说明x2(读作卡方)统计量的意义。根据遗传学理论 动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中,有公羔428只,母羔448只。按 1:1的性别比例计算,公、母羔均应为438只。以A表示实际观察次数,T表示理论次数,可将 上述情况列成表7-1。 表7-1羔羊性别实际观察次数与理论次数 性别 实际观察次数A 理论次数T (A-T)2/T 公 428(A1) 438(71) 0.2283 母 448(A2) 438(7,) 876 0.4566 从表7-1看到,实际观察次数与理论次数存在一定的差异,这里公、母各相差10只。这 个差异是属于抽样误差(把对该羊场一年所生羔羊的性别统计当作是一次抽样调查)、还是羔 羊性别比例发生了实质性的变化?要回答这个问题,首先需要确定一个统计量用以表示实际 观察次数与理论次数偏离的程度:然后判断这一偏离程度是否属于抽样误差,即进行显著性 检验。为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与 理论次数的差数。从表7-1看出:A1-T1=-10,A2-T2=10,由于这两个差数之和为0,显然不 能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。为了避免正、负抵消,可 将两个差数A1-T1、A2T2平方后再相加,即计算∑(A-m)2,其值越大,实际观察次数与理论 次数相差亦越大,反之则越小。但利用∑(A-m)2表示实际观察次数与理论次数的偏离程度尚 有不足。例如某一组实际观察次数为505、理论次数为500,相差5;而另一组实际观察次数 为26、理论次数为21,相差亦为5。显然这两组实际观察次数与理论次数的偏离程度是不同 的。因为前者是相对于理论次数500相差5,后者是相对于理论次数21相差5。为了弥补这 不足,可先将各差数平方除以相应的理论次数后再相加,并记之为x2,即 T 也就是说x2是度量实际观察次数与理论次数偏离程度的一个统计量,z越小,表明实
125 第七章 次数资料分析—— 2检验 前面介绍了计量资料的统计分析方法⎯⎯t 检验法与方差分析法。在畜牧、水产等科学 研究中,除了分析计量资料以外,还常常需要对次数资料、等级资料进行分析。等级资料实 际上也是一种次数资料。次数资料服从二项分布或多项分布,其统计分析方法不同于服从正 态分布的计量资料。本章将分别介绍对次数资料、等级资料进行统计分析的方法。 第一节 2 统计量与 2 分布 一、 2 统计量的意义 为了便于理解,现结合一实例说明 2 (读作卡方) 统计量的意义。根据遗传学理论, 动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中,有公羔428只,母羔448只。按 1:1的性别比例计算,公、母羔均应为438只。以A表示实际观察次数,T表示理论次数,可将 上述情况列成表7-1。 表7-1 羔羊性别实际观察次数与理论次数 性别 实际观察次数A 理论次数T A-T (A-T) 2 /T 公 428( A1 ) 438( T1 ) -10 0.2283 母 448( A2 ) 438( T2 ) 10 0.2283 合计 876 876 0 0.4566 从表7-1看到,实际观察次数与理论次数存在一定的差异,这里公、母各相差10只。 这 个差异是属于抽样误差(把对该羊场一年所生羔羊的性别统计当作是一次抽样调查)、还是羔 羊性别比例发生了实质性的变化?要回答这个问题,首先需要确定一个统计量用以表示实际 观察次数与理论次数偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性 检验。为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与 理论次数的差数。从表7-1看出:A1-T1 =-10,A2-T2=10,由于这两个差数之和为0, 显然不 能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。为了避免正、负抵消,可 将两个差数A1-T1、A2-T2平方后再相加,即计算∑(A-T) 2,其值越大,实际观察次数与理论 次数相差亦越大,反之则越小。但利用∑(A-T) 2表示实际观察次数与理论次数的偏离程度尚 有不足。例如某一组实际观察次数为505、理论次数为500,相差5;而另一组实际观察次数 为26、 理论次数为21,相差亦为5。显然这两组实际观察次数与理论次数的偏离程度是不同 的。因为前者是相对于理论次数500相差5,后者是相对于理论次数21相差5。为了弥补这一 不足,可先将各差数平方除以相应的理论次数后再相加,并记之为 2 ,即 − = T A T 2 2 ( ) (7-1) 也就是说 2 是度量实际观察次数与理论次数偏离程度的一个统计量, 2越小,表明实
际观察次数与理论次数越接近;x2=0,表示两者完全吻合;x2越大,表示两者相差越 对于表7-1的资料,可计算得 =0456 表明实际观察次数与理论次数是比较接近的 、x2分布 上面在属于离散型随机变量的次数资料的基础上引入了统计量x2,它近似地服从统 计学中一种连续型随机变量的概率分布 2分布。下面对统计学中的x2分布作一简略介 设有一平均数为μ、方差为σ的正态总体。现从此总体中独立随机抽取n个随机变量 、x2、…、xn,并求出其标准正态离差 记这n个相互独立的标准正态离差的平方和为x2: (x1-p) x=+1+…+Ln= ∑=∑2 它服从自由度为m的x2分布,记为 若用样本平均数x代替总体平均数μ,则随机变量 (x1-x) 服从自由度为m1的x2分布,记为 因此,x2分布是由正态总体随机抽样得来的一种连续型随机变量的分布。显然,x2≥0, 即x2的取值范围是[0,+∞):x2分布密度曲线是随自由度不同而改变的一组曲线。随自由 度的增大,曲线由偏斜渐趋于对称:d≥30时,√2x2接近平均数为√24-1的正态分布
126 际观察次数与理论次数越接近; 2 =0,表示两者完全吻合; 2 越大,表示两者相差越大。 对于表7-1的资料,可计算得 2 = + = − = − 0.4566 438 10 438 ( ) ( 10) 2 2 2 T A T 表明实际观察次数与理论次数是比较接近的。 二、 2 分布 上面在属于离散型随机变量的次数资料的基础上引入了统计量 2 , 它近似地服从统 计学中一种连续型随机变量的概率分布⎯⎯ 2 分布。下面对统计学中的 2 分布作一简略介 绍。 设有一平均数为μ、方差为 2 的正态总体。现从此总体中独立随机抽取n个随机变量: x1、x2、…、xn,并求出其标准正态离差: − = 1 1 x u , − = 2 2 x u ,…, − = n n x u 记这n个相互独立的标准正态离差的平方和为 2 : 2 = 2 2 2 2 1 ... u + u + + un = 2 1 2 2 2 ( ) ( ) = − = − = n i i i i x x u (7-2) 它服从自由度为n的 2 分布,记为 2 n i 1 2 i (x ) − = ~ 2 (n); 若用样本平均数 x 代替总体平均数μ,则随机变量 2= 2 2 2 1 2 ( 1) ( ) n S x x n i i − = − = (7-3) 服从自由度为n-1的 2 分布,记为 2 2 ( 1) n − S ~ (n 1) 2 − 因此, 2 分布是由正态总体随机抽样得来的一种连续型随机变量的分布。显然, 2 ≥0, 即 2 的取值范围是[0,+∞); 2 分布密度曲线是随自由度不同而改变的一组曲线。随自由 度的增大,曲线由偏斜渐趋于对称;df≥30时, 2 2 接近平均数为 2df −1 的正态分布
图7-1给出了几个不同自由度的x2概率分布密度曲线 df-5 d/=6 图7-1几个自由度的x2概率分布密度曲 、x2)的连续性矫正 由(7-1)式计算的x2只是近似地服从连续型随机变量x2分布。在对次数资料进行x2 检验利用连续型随机变量x2分布计算概率时,常常偏低,特别是当自由度为1时偏差较大 Yates(1934)提出了一个矫正公式,矫正后的x2值记为x2 ∑ (4-n 当自由度大于时,(7-1)式的x2分布与连续型随机变量x2分布相近似,这时,可不作 连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相 邻的一组或几组合并,直到理论次数大于5为止。 第二节适合性检验 适合性检验的意义 判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为 适合性检验。在适合性检验中,无效假设为H:实际观察的属性类别分配符合已知属性类别 分配的理论或学说:备择假设为H:实际观察的属性类别分配不符合已知属性类别分配的理 论或学说。并在无效假设成立的条件下,按已知属性类别分配的理论或学说计算各属性类别 的理论次数。因所计算得的各个属性类别理论次数的总和应等于各个属性类别实际观察次数 的总和,即独立的理论次数的个数等于属性类别分类数减1。也就是说,适合性检验的自由 度等于属性类别分类数减1。若属性类别分类数为k,则适合性检验的自由度为k1。然后根 据(7-1)或(7-4)计算出x2或2c。将所计算得的2或2c值与根据自由度k-1查x2值表(附表8) 所得的临界x2值:x2a05、x2比较:若x2(或2)0.05,表明实际观察次数 127
127 图7-1给出了几个不同自由度的 2 概率分布密度曲线。 三、 2 的连续性矫正 由(7-1)式计算的 2 只是近似地服从连续型随机变量 2 分布。在对次数资料进行 2 检验利用连续型随机变量 2 分布计算概率时,常常偏低,特别是当自由度为1时偏差较大。 Yates(1934)提出了一个矫正公式,矫正后的 2 值记为 2 c : 2 c = − − T A T 2 ( 0.5) (7-4) 当自由度大于1时,(7-1)式的 2 分布与连续型随机变量 2 分布相近似,这时,可不作 连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相 邻的一组或几组合并,直到理论次数大于5为止。 第二节 适合性检验 一、适合性检验的意义 判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为 适合性检验。在适合性检验中,无效假设为H0:实际观察的属性类别分配符合已知属性类别 分配的理论或学说;备择假设为HA:实际观察的属性类别分配不符合已知属性类别分配的理 论或学说。并在无效假设成立的条件下,按已知属性类别分配的理论或学说计算各属性类别 的理论次数。因所计算得的各个属性类别理论次数的总和应等于各个属性类别实际观察次数 的总和,即独立的理论次数的个数等于属性类别分类数减1。也就是说,适合性检验的自由 度等于属性类别分类数减1。若属性类别分类数为k,则适合性检验的自由度为k-1 。然后根 据(7-1)或(7-4)计算出 2或 2 c。将所计算得的 2或 2 c值与根据自由度k-1查 2值表(附表8) 所得的临界 2值: 2 0.05、 2 0.01比较:若 2 (或 2 c)< 2 0.05,P>0.05,表明实际观察次数 图 7-1 几个自由度的 2 概率分布密度曲 线
与理论次数差异不显著,可以认为实际观察的属性类别分配符合已知属性类别分配的理论或 学说;若x20.05≤x2(或x2)0.05,不能否定场,表明实际观察次数与理论次数差异不显著,可以认 为白色羊与黑色羊的比率符合孟德尔遗传分离定律3:1的理论比例。 【例7.2】在研究牛的毛色和角的有无两对相对性状分离现象时,用黑色无角牛和红 色有角牛杂交,子二代出现黑色无角牛192头,黑色有角牛78头,红色无角牛72头,红色 有角牛18头,共360头。试问这两对性状是否符合孟德尔遗传规律中9:3:3:1的遗传比 例 检验步骤
128 与理论次数差异不显著,可以认为实际观察的属性类别分配符合已知属性类别分配的理论或 学说;若 2 0.05≤ 2 (或 2 c)< 2 0.01,0.01<P≤0.05,表明实际观察次数与理论次数差异 显著,实际观察的属性类别分配不符合已知属性类别分配的理论或学说; 若 2 ( 或 2 c) ≥ 2 0.01,P≤0.01,表明实际观察次数与理论次数差异极显著,实际观察的属性类别分配极 显著不符合已知属性类别分配的理论或学说。 二、适合性检验的方法 下面结合实例说明适合性检验方法。 【例 7.1】 在进行山羊群体遗传检测时,观察了 260 只白色羊与黑色羊杂交的子二代 毛色,其中 181 只为白色,79 只为黑色,问此毛色的比率是否符合孟德尔遗传分离定律的 3∶ 1 比例? 检验步骤如下: (一)提出无效假设与备择假设 H0:子二代分离现象符合 3∶1 的理论比例。 HA:子二代分离现象不符合 3∶1 的理论比例。 (二)选择计算公式 由于本例是涉及到两组毛色(白色与黑色),属性类别分类 数 k=2,自由度 df=k-1=2-1=1,须使用公式(7—4)来计算 2 c 。 (三)计算理论次数 根据理论比率 3∶1 求理论次数: 白色理论次数:T1=260×3/4=195 黑色理论次数:T2=260×1/4=65 或 T2=260-T1=260-195=65 (四)计算 2 c 表 7—2 2 c计算表 性 状 实际观察次数(A) 理论次数(T) A-T 2 c 白 色 181 195 -14 0.935 黑 色 79 65 +14 2.804 总 和 260 260 0 3.739 3.739 65 (| 79 65 | 0.5) 195 (| | 0.5) (|181 195 | 0.5) 2 2 2 2 = − − + − − = − − = T A T C (五)查临界 2 值,作出统计推断 当自由度 df=1 时,查得 2 0.05(1) =3.84,计算的 2 c0.05,不能否定 H0,表明实际观察次数与理论次数差异不显著,可以认 为白色羊与黑色羊的比率符合孟德尔遗传分离定律 3∶1 的理论比例。 【例 7.2】 在研究牛的毛色和角的有无两对相对性状分离现象时,用黑色无角牛和红 色有角牛杂交,子二代出现黑色无角牛 192 头,黑色有角牛 78 头,红色无角牛 72 头,红色 有角牛 18 头,共 360 头。试问这两对性状是否符合孟德尔遗传规律中 9∶3∶3∶1 的遗传比 例? 检验步骤:
(一)提出无效假设与备择假设 H:实际观察次数之比符合9:3:3:1的理论比例。 HA:实际观察次数之比不符合9:3:3:1的分离理论比例 (二)选择计算公式由于本例的属性类别分类数k=4:自由度k-1=4-1=3>1 故利用(7-1)式计算x (三)计算理论次数依据各理论比率9331计算理论次数 黑色无角牛的理论次数71:360×9/16=2025: 黑色有角牛的理论次数T2:360×3/16=675 红色无角牛的理论次数T3:360×3/16=67.5: 红色有角牛的理论次数T4:360×1/16=25。 或T4=360-202.5-67.5-675=225 (四)列表计算x 表7—3x2计算表 际观察次数A 理论次数T A -T' (A-T)T 色无角牛 192(A1) 202.5(T1) 5444 黑色有角牛 78(A2) 67.5(T2) 1.6333 红色无角牛 72(A3) 67.5(73) 1.6333 红色有角牛 18(A4) 22.5(74) 4.711 x2=∑ 0.5444+16333+1.6333+0.9=4.711 (五)查临界x2值,作出统计推断当=3时,x0=7:815,因x20.05,不能否定H,表明实际观察次数与理论次数差异不显著,可以认为毛色与角 的有无两对性状杂交二代的分离现象符合孟德尔遗传规律中9:3:3:1的遗传比例。 、x2显著性检验的再分割法 当实际观察次数与理论次数经x2检验差异显著或极显著时,还应对其结果进行再分割 检验,下面举例说明 【例7.3】两对相对性状杂交子二代4种表现型A-B-、A-bb、aaB-、aabb的观察次数 依次为152、39、53、6,问这两对相对性状的遗传是否符合孟德尔遗传规律中9:3:3:1 的比例。 检验步骤同【例7.2】,计算结果见表7—4 表7-4x2计算表 表现型 实际观察次数A 理论次数T A -T (A-T) 152 140.625 11.375 0.920 A -bb 46.875 -7.875 1.323
129 (一)提出无效假设与备择假设 H0:实际观察次数之比符合 9∶3∶3∶1 的理论比例。 HA:实际观察次数之比不符合 9∶3∶3∶1 的分离理论比例。 (二)选择计算公式 由于本例的属性类别分类数 k=4:自由度 df=k-1=4-1=3>1, 故利用(7—1)式计算 2 。 (三)计算理论次数 依据各理论比率 9:3:3:1 计算理论次数: 黑色无角牛的理论次数 T1:360×9/16=202.5; 黑色有角牛的理论次数 T2:360×3/16=67.5; 红色无角牛的理论次数 T3:360×3/16=67.5; 红色有角牛的理论次数 T4:360×1/16=22.5。 或 T4=360-202.5-67.5-67.5=22.5 (四)列表计算 2 表 7—3 2 计算表 类 型 实际观察次数 A 理论次数 T A-T (A-T)2 /T 黑色无角牛 192(A1) 202.5(T1) -10.5 0.5444 黑色有角牛 78(A2) 67.5(T2) +10.5 1.6333 红色无角牛 72(A3) 67.5(T3) +4.5 1.6333 红色有角牛 18(A4) 22.5(T4) -4.5 0.9000 总 计 360 360 0 4.711 2 = − T A T 2 ( ) =0.5444+1.6333+1.6333+0.9=4.711 (五)查临界 2 值,作出统计推断 当 df=3 时, 2 0.05(3)=7.815,因 2 0.05,不能否定 H0 ,表明实际观察次数与理论次数差异不显著,可以认为毛色与角 的有无两对性状杂交二代的分离现象符合孟德尔遗传规律中 9∶3∶3∶1 的遗传比例。 *三、 2 显著性检验的再分割法 当实际观察次数与理论次数经 2 检验差异显著或极显著时,还应对其结果进行再分割 检验,下面举例说明。 【例 7.3】 两对相对性状杂交子二代 4 种表现型 A-B-、A-bb、aaB-、aabb 的观察次数 依次为 152、39、53、6,问这两对相对性状的遗传是否符合孟德尔遗传规律中 9∶3∶3∶1 的比例。 检验步骤同【例 7.2】,计算结果见表 7—4。 表 7—4 2 计算表 表现型 实际观察次数 A 理论次数 T A-T (A-T)2 /T A-B- 152 140.625 11.375 0.920 A-bb 39 46.875 -7.875 1.323
46.875 6.125 aa bb 15625 5.929 总和 250 250 表中理论次数依9:3:3:1理论比率计算 A-B-的理论次数T:250×9/16=140.625 A-bb的理论次数T2=aaB-的理论次数73:250×3/16=46875 abb的理论次数T4:250×1/16=15625 或T4=250-140.625-46.875-46875=15625 由表7-5可知x2=8.972,由=3查2值表得:x20(-=7.815,x213=11345。因为 x20)x2005,表明实际观察次数 与理论观察次数差异不显著,可以认为3种表现型符合9:3:3的理论比例。于是,我们再 分析表现型aabb是否与其它三种表现型的合并组比例不符合1:15的理论比例。 2.检验bb表现型与其它三种表现型的合并组是否符合1:15的比例,分割后2值(记 为x2)的计算见表7-6。 表7-62分割表(理论比例1:15) 实际观察次数A理论次数T 其它三种表现型合并组 244 234.375 0.395 250.000 6.324
130 aa B- 53 46.875 6.125 0.800 aa bb 6 15.625 -9.625 5.929 总 和 250 250 0 2 =8.972 表中理论次数依 9∶3∶3∶1 理论比率计算: A-B-的理论次数 T1:250×9/16=140.625; A-bb 的理论次数 T2=aaB-的理论次数 T3:250×3/16=46.875; aa bb 的理论次数 T4:250×1/16=15.625。 或 T4=250-140.625-46.875-46.875=15.625 由表 7—5 可知 2=8.972,由 df=3 查 2 值表得: 2 0.05(3)=7.815, 2 0.01(3)=11.345。因为 2 0.05(3)0.05,表明实际观察次数 与理论观察次数差异不显著,可以认为 3 种表现型符合 9∶3∶3 的理论比例。于是,我们再 分析表现型 aabb 是否与其它三种表现型的合并组比例不符合 1:15 的理论比例。 2. 检验 aabb 表现型与其它三种表现型的合并组是否符合 1:15 的比例,分割后 2 值(记 为 2 2 )的计算见表 7-6。 表 7—6 2 2 分割表(理论比例 1∶15) 表现型 实际观察次数 A 理论次数 T A-T (A-T)2 /T aabb 6 15.625 -9.625 5.929 其它三种表现型合并组 244 234.375 9.625 0.395 总 和 250 250.000 0 6.324
x2=5929+0.395=6324 由d2=2-1=1,查x表得,x0512=3841,x205=6.635,由于x20051<x2<x0 (1),故0.01<P<0.05,表明实际观察次数与理论次数差异显著,即aabb表现型与其它三种 表现型组合不符合1:15的比例,这样的结论可为我们进一步研究这个问题提供线索 x2经分割后,x2=2.543,n2=6.324,x12+2=8867与总x2=8.922略有差异,这是由 于计算的舍入误差所造成:总自由度4=3,d=2,d=1,所以总=d+d。如果分割后x2 值或自由度之和不等于x2值或总自由度,说明所分割的列联表相互不独立。 四、资料分布类型的适合性检验 实际观测得来的资料是否服从某种理论分布,亦可应用适合性检验来判断。在正态分布 的适合性检验中,由于理论次数是由样本总次数、平均数与标准差决定的,用去3个自由度, 所以自由度为k3(k为组数);而在二项分布和波松分布的适合性检验中,由于其理论次数由 总次数与均数求得,丧失2个自由度,所以自由度为k2。但应注意,当组段内理论次数小于 5时,必须与相邻组段进行合并,直至合并的理论次数大于5时为止。下面分别举例说明。 实际观测资料服从正态分布的适合性检验 【例7.4】检验200头大白猪仔猪一月窝重的资料是否服从正态分布 表7—7200头大白猪仔猪一月龄窝重服从正态分布的适合性检验表 累加概 组限组中实际次数上限;x=率(a)各组概率理论次数 )值(x0 (D) x (5) (7 (10) 0.0051 1016 12|4}10 01360.0085174%6441.9680 16-206 24-41.6 0.0322001863720 32-336-1.500.06680.0346 6.920 0.6252 3610 40-256-1.14 0.1271 0060312.0600.3519 40-4413 48-176-0.78 021770.0906 14467 -0.43 0.3330.115923.1801.6476 -0.070.47210.1385 27.7000.1043 646835 726 0.61410.14 28.400 5338 144 0.73890.1248249600.370 100 0.84130 2048000132 88—9216 1.35 091150.0702 14.04002736 961008 104384 0.95640.0449 1069 104-108 46.4 0244 1163 0544 420.992240011422883n0.3393 1.0000 8.7308 1、先将资料(原始数据略)整理成次数分布表,组限、组中值、各组的次数列于表7-7 的(1)、(2)、(3)栏,再将各组上限列于第(4)栏中 2、计算各组组上限与均数(x=656kg)之差,列于第(5)栏。 3、计算校正标准差S。由于由分组资料求得的标准差较不分组时所得标准差为大,故 需作校正。 131
131 2 2 =5.929+0.395=6.324 由 df2 =2-1=1,查 2 表得, 2 0..05(12)=3.841, 2 0..05(1)=6.635,由于 2 0..05(1)120 108 116 4 3 7 0 112 120 46.4 54.4 2.07 2.42 0.9808 0.99224 0.0244 0.0114 0.0078 4.880 2.288 8.72 1.552 0.3393 合计 200 1.0000 200.00 8.7308 1、先将资料(原始数据略)整理成次数分布表,组限、组中值、各组的次数列于表 7-7 的(1)、(2)、(3)栏,再将各组上限列于第(4)栏中。 2、计算各组组上限与均数( x =65.6kg)之差,列于第(5)栏。 3、计算校正标准差 Sc。由于由分组资料求得的标准差较不分组时所得标准差为大,故 需作校正
∑ 961903102)2 22.44(kg) 200-1 4、依公式u=x-求各组上限的正态离差,列入第6栏。如第一组 8-65.6 5、设该资料服从正态分布,依值查正态分布表得各组段的累计概率(a),列入第(7) 栏。如当=2.57时,a=0.0051,u=0.29时,a=0.6141 6、求出每一组段的概率,列入第(8)栏。由下一组段的累加概率减去本组段的累加概 率而得。如8-组段的概率为00136-0.0051=0.0085 7、以总数n=200头乘以各组概率便得理论次数,列入第(9)栏。凡理论值小于5者应 加以合并。本例前三组与后三组分别合并。合并后的实际次数与理论次数分别为10与644 7与8.72,见第(3)与第(9)栏。 8、求各组x2值,列入第(10)栏。 9、确定自由度。这里是因为求理论次数时用去均数,标准差与总次数三个统计量,该 例经合并共12个组,故d=12-3=9 10、结论。由9查x2表得:2206(9=16919,而计算所得的x2值为:x2=87808,因 为x2005,表明各组实际次数与由正态分布计算的理论次数差异不显著,可以 认为大白猪仔猪一月窝重服从正态分布 (二)实际观测资料服从二项分布的适合性检验 【例7.5】用800粒牧草种子进行发芽试验,分80行,每行10粒种子,共有174粒 发芽。则每粒种子发芽的概率约为174/800=0.2175,不发芽的概率约为0.7825(即1-0.2175), 每行发芽种子数见表7—8,问该资料是否服从二项分布 表7-880行发芽试验资料服从二项分布的适合性检验计算表 行内种子发芽数实际行数4理论概率理论行数7 x2=(4-m)2171 0 0.0861 6.8880 0.1145 0.2392 0.0390 0.2992 0.6900 0.2218 17.7440 1.8594 345678 0.1079 8.6320 860000 0.0360 2.8800 0. 0083 0.0013 06601.3600 0.2176 0.0001 0.00 0.0000 0.0000 2.9205 表中理论概率由二项分布概率计算公式:Cp‘q*计算,如 ×0.21750×0.782510=0.0861
132 22.44( ) 12 8 200 1 200 (13120 ) 961920 1 12 ( ) 2 2 2 2 2 k g i n n fx fx Sc − = − − − = − − = 4、依公式 Sc x x u − = 求各组上限的正态离差,列入第 6 栏。如第一组 2.57 22.44 8 65.6 = − − u = 5、设该资料服从正态分布,依 u 值查正态分布表得各组段的累计概率(a),列入第(7) 栏。如当 u=-2.57 时,a=0.0051,u=0.29 时,a=0.6141。 6、求出每一组段的概率,列入第(8)栏。由下一组段的累加概率减去本组段的累加概 率而得。如 8─ 组段的概率为 0.0136-0.0051=0.0085。 7、以总数 n=200 头乘以各组概率便得理论次数,列入第(9)栏。凡理论值小于 5 者应 加以合并。本例前三组与后三组分别合并。合并后的实际次数与理论次数分别为 10 与 6.44、 7 与 8.72,见第(3)与第(9)栏。 8、求各组 2 值,列入第(10)栏。 9、确定自由度。这里是因为求理论次数时用去均数,标准差与总次数三个统计量,该 例经合并共 12 个组,故 df=12-3=9。 10、结论。由 df=9 查 2 表得: 2 0.05(9)=16.919,而计算所得的 2 值为: 2=8.7808,因 为 20.05,表明各组实际次数与由正态分布计算的理论次数差异不显著,可以 认为大白猪仔猪一月窝重服从正态分布。 (二)实际观测资料服从二项分布的适合性检验 【例 7.5】 用 800 粒牧草种子进行发芽试验,分 80 行,每行 10 粒种子,共有 174 粒 发芽。则每粒种子发芽的概率约为 174/800=0.2175,不发芽的概率约为 0.7825(即 1-0.2175), 每行发芽种子数见表 7—8,问该资料是否服从二项分布。 表 7—8 80 行发芽试验资料服从二项分布的适合性检验计算表 一行内种子发芽数 实际行数 A 理论概率 理论行数 T (A T) /T 2 2 = − 0 1 2 3 4 5 6 7 8 9 10 6 20 28 12 8 6 0 0 14 0 0 0 0.0861 0.2392 0.2992 0.2218 0.1079 0.0360 0.0083 0.0013 0.0001 0.0000 0.0000 6.8880 19.1360 23.9360 17.7440 8.6320 2.8800 0.6640 0.1040 12.3600 0.0800 0.0000 0.0000 0.1145 0.0390 0.6900 1.8594 0.2176 总 和 80 2.9205 表中理论概率由二项分布概率计算公式: k k n k Cn p q − 计算,如 0.2175 0.7825 0.0861 10!0! 10! 0 0 10 0 10 C10 p q = = ;
Cplq”=如×0.21751×0.7825%=02392 表中的理论行数由理论概率乘以80行而得,如 0.0861×80=6.8880, 0.2392×80=191360 由于表中后6组的理论次数均小于5,故将后6组与第5组合并为一组。并组以后,资 料分为5组。 由表7-8可知,x2=29025。由45-2=3,查2值表得:x205(3=781,因为x20.05,表明实际行数与由二项分布计算得来的理论行数差异不显著,可以认为种子发芽试 验的结果服从二项分布 (三)实际观测资料服从波松分布的适合性检验 【例7.6】用显微镜检査某样品内结核菌的数目,对某些视野内各小方格的结核菌数 计数,然后按不同的结核菌数目把格子分类,记录每类的格子数。其结果见表7—9第(1)、 (2)栏。试检验结核菌数是否服从波松分布。 1.计算理论概率设结核菌数服从波松分布P(λ),其概率计算公式为: (>0) 其中λ为平均数,且等于方差o2。此时因λ未知,可利用样本平均数x来估计。利 用加权法求样本平均数x为 118 表7—9结核菌数服从波松分布适合性检验计算表 结核菌数x(1)实际格子数(=A)(2)理论概率(3)理论格子数(T)(4)(A7)2m5) 0.1511 5.9708 0.1578 0.2253 17.8298 0.1768 0.2240 0.0129 64320 0.0071 5 0.0997 19.7178 0.0834 0.0496 5.8528 0.0211 248989.5818 0.1297 0.2611 0.3068 总计 0.9990 117.8820 0.7288 将王代入(7-5)式,求得各项理论概率为 2.98 P(x 计算结果列于第(3)栏。 2.计算理论次数将总次数№=118乘以各组的理论概率即得各组理论次数T。计算 结果列于第(4)栏。由于表后4组的理论次数小于5,故将后4组与第7组合并为一组
133 0.2175 0.7825 0.2392 9!1! 10! 1 1 9 1 9 C10 p q = = ; 表中的理论行数由理论概率乘以 80 行而得,如 0.086180=6.8880, 0.239280=19.1360 由于表中后 6 组的理论次数均小于 5,故将后 6 组与第 5 组合并为一组。并组以后,资 料分为 5 组。 由表 7—8 可知, 2=2.9025。由 df=5-2=3,查 2 值表得: 2 0..05(3)=7.81,因为 20.05,表明实际行数与由二项分布计算得来的理论行数差异不显著,可以认为种子发芽试 验的结果服从二项分布。 (三)实际观测资料服从波松分布的适合性检验 【例 7.6】 用显微镜检查某样品内结核菌的数目,对某些视野内各小方格的结核菌数 计数,然后按不同的结核菌数目把格子分类,记录每类的格子数。其结果见表 7—9 第(1)、 (2)栏。试检验结核菌数是否服从波松分布。 1. 计算理论概率 设结核菌数服从波松分布 P(λ),其概率计算公式为: ( 0) ! = − e m P m m (7—5) 其中λ为平均数μ,且等于方差σ2。此时因λ未知,可利用样本平均数 x 来估计。利 用加权法求样本平均数 x 为: 2.983 118 5 0 19 1 1 9 = + + + = = f fx x 表 7—9 结核菌数服从波松分布适合性检验计算表 结核菌数 x(1) 实际格子数(f=A) (2) 理论概率(3) 理论格子数(T)(4) (A-T)2 /T(5) 0 5 0.0506 1 19 0.1511 5.9708 0.1578 2 26 0.2253 17.8298 0.1768 3 26 0.2240 26.5854 0.0129 4 21 0.1671 26.4320 0.0071 5 13 0.0997 19.7178 0.0834 6 7 8 9 5 1 8 1 1 0.0496 0.0211 0.0079 0.0026 5.8528 2.4898 9.5818 0.9322 0.3068 0.1297 0.2611 总计 118 0.9990 117.8820 0.7288 将 x 代入(7—5)式,求得各项理论概率为 , 0,1,2, ,9 ! 2.983 ( ) = = e −2.983 m = k P x k k 计算结果列于第(3)栏。 2. 计算理论次数 将总次数 N=118 乘以各组的理论概率即得各组理论次数 T。计算 结果列于第(4)栏。由于表后 4 组的理论次数小于 5,故将后 4 组与第 7 组合并为一组
合并后的实际格子数为8,理论格子数为9.5818。 3.计算x2值根据表7-9第(5)栏的数据可得x2值为 (A-T=0788 因为此例经并组后的分组数为7:计算理论次数利用了样本平均数和总次数,所以自由 度为7-2=5。当5时,查x2值表得:x205)=1107,因为x2005,表明结 核菌的各实际格子数与根据波松分布计算出的理论格子数差异不显著,可以认为结核菌数服 从波松分布 第三节独立性检验 、独立性检验的意义 对次数资料,除进行适合性检验外,有时需要分析两类因子是相互独立还是彼此相关。 如研究两类药物对家畜某种疾病治疗效果的好坏,先将病畜分为两组,一组用第一种药物治 疗,另一组用第二种药物治疗,然后统计每种药物的治愈头数和未治愈头数。这时需要分析 药物种类与疗效是否相关,若两者彼此相关,表明疗效因药物不同而异,即两种药物疗效不 相同:若两者相互独立,表明两种药物疗效相同。这种根据次数资料判断两类因子彼此相关 或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料对子因子间相关 性的研究。 独立性检验与适合性检验是两种不同的检验方法,除了研究目的不同外,还有以下区别: (一)独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的 不同而构成2×2、2×c、r×c列联表(r为行因子的属性类别数,c为列因子的属性类别数)。 而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。 (二)适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论 次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。 (三)在适合性检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际 次数之和,自由度为属性类别数减1。而在rXc列联表的独立性检验中,共有m个理论次 数,但受到以下条件的约束:1、r个理论次数的总和等于m个实际次数的总和:2、r个横 行中的每一个横行理论次数总和等于该行实际次数的总和。但由于r个横行实际次数之和的 总和应等于个实际次数之和,因而独立的行约束条件只有r-1个:3、类似地,独立的列 约束条件有c-1个。因而在进行独立性检验时,自由度为rC-1-(r-1)+c-1)=(r-1)(c-1),即等于 (横行属性类别数-1)×(直列属性类别数-1)。 独立性检验的方法 下面结合实例分别介绍2×2、2×c、r×c列联表独立性检验的具体过程。 (-)2×2列联表的独立性检验2×2列联表的一般形式如表7-10所示,其自 由度=(C-1)(-1)=(2-1)(2-1)=1,在进行x2检验时,需作连续性矫正,应计算x2值
134 合并后的实际格子数为 8,理论格子数为 9.5818。 3. 计算 2 值 根据表 7—9 第(5)栏的数据可得 2 值为: 0.7288 ( ) 2 2 = − = T A T 因为此例经并组后的分组数为 7;计算理论次数利用了样本平均数和总次数,所以自由 度为 7-2=5。当 df=5 时,查 2 值表得: 2 0.05(5)=11.07,因为 20.05,表明结 核菌的各实际格子数与根据波松分布计算出的理论格子数差异不显著,可以认为结核菌数服 从波松分布。 第三节 独立性检验 一、独立性检验的意义 对次数资料,除进行适合性检验外,有时需要分析两类因子是相互独立还是彼此相关。 如研究两类药物对家畜某种疾病治疗效果的好坏,先将病畜分为两组,一组用第一种药物治 疗,另一组用第二种药物治疗,然后统计每种药物的治愈头数和未治愈头数。这时需要分析 药物种类与疗效是否相关,若两者彼此相关,表明疗效因药物不同而异,即两种药物疗效不 相同;若两者相互独立,表明两种药物疗效相同。这种根据次数资料判断两类因子彼此相关 或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料对子因子间相关 性的研究。 独立性检验与适合性检验是两种不同的检验方法,除了研究目的不同外,还有以下区别: (一)独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的 不同而构成 2×2、2×c、r×c 列联表(r 为行因子的属性类别数,c 为列因子的属性类别数)。 而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。 (二)适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论 次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。 (三)在适合性检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际 次数之和,自由度为属性类别数减 1。而在 r×c 列联表的独立性检验中,共有 rc 个理论次 数,但受到以下条件的约束:1、rc 个理论次数的总和等于 rc 个实际次数的总和;2、r 个横 行中的每一个横行理论次数总和等于该行实际次数的总和。但由于 r 个横行实际次数之和的 总和应等于 rc 个实际次数之和,因而独立的行约束条件只有 r-1 个;3、类似地,独立的列 约束条件有 c-1 个。因而在进行独立性检验时,自由度为 rc-1-(r-1)-(c-1)=(r-1)(c-1),即等于 (横行属性类别数-1)×(直列属性类别数-1)。 二、独立性检验的方法 下面结合实例分别介绍 2×2、2×c、r×c 列联表独立性检验的具体过程。 (一)2×2 列联表的独立性检验 2×2 列联表的一般形式如表 7—10 所示,其自 由度 df=( C -1) (r-1)=(2-1) (2-1)=1,在进行 2 检验时,需作连续性矫正,应计算 2 c 值