生物统计学：《生物统计附试验设计》课程教材（第三版）第七章次数资料分析—x2检验.doc_大学文库

第七章次数资料分析——x检验前面介绍了计量资料的统计分析方法检验法与方差分析法。在畜牧、水产等科学研究中,除了分析计量资料以外,还常常需要对次数资料、等级资料进行分析。等级资料实际上也是一种次数资料。次数资料服从二项分布或多项分布,其统计分析方法不同于服从正态分布的计量资料。本章将分别介绍对次数资料、等级资料进行统计分析的方法。第一节z2统计量与z2分布 x2统计量的意义为了便于理解,现结合一实例说明x2(读作卡方)统计量的意义。根据遗传学理论动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中,有公羔428只,母羔448只。按 1:1的性别比例计算,公、母羔均应为438只。以A表示实际观察次数,T表示理论次数,可将上述情况列成表7-1。表7-1羔羊性别实际观察次数与理论次数性别实际观察次数A 理论次数T (A-T)2/T 公 428(A1) 438(71) 0.2283 母 448(A2) 438(7,) 876 0.4566 从表7-1看到,实际观察次数与理论次数存在一定的差异,这里公、母各相差10只。这个差异是属于抽样误差(把对该羊场一年所生羔羊的性别统计当作是一次抽样调查)、还是羔羊性别比例发生了实质性的变化?要回答这个问题,首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度:然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与理论次数的差数。从表7-1看出:A1-T1=-10,A2-T2=10,由于这两个差数之和为0,显然不能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。为了避免正、负抵消,可将两个差数A1-T1、A2T2平方后再相加,即计算∑(A-m)2,其值越大,实际观察次数与理论次数相差亦越大,反之则越小。但利用∑(A-m)2表示实际观察次数与理论次数的偏离程度尚有不足。例如某一组实际观察次数为505、理论次数为500,相差5;而另一组实际观察次数为26、理论次数为21,相差亦为5。显然这两组实际观察次数与理论次数的偏离程度是不同的。因为前者是相对于理论次数500相差5,后者是相对于理论次数21相差5。为了弥补这不足,可先将各差数平方除以相应的理论次数后再相加,并记之为x2,即 T 也就是说x2是度量实际观察次数与理论次数偏离程度的一个统计量,z越小,表明实

125 第七章次数资料分析—— 2检验前面介绍了计量资料的统计分析方法⎯⎯t 检验法与方差分析法。在畜牧、水产等科学研究中，除了分析计量资料以外，还常常需要对次数资料、等级资料进行分析。等级资料实际上也是一种次数资料。次数资料服从二项分布或多项分布，其统计分析方法不同于服从正态分布的计量资料。本章将分别介绍对次数资料、等级资料进行统计分析的方法。第一节 2  统计量与 2  分布一、 2  统计量的意义为了便于理解，现结合一实例说明 2  (读作卡方) 统计量的意义。根据遗传学理论，动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中，有公羔428只，母羔448只。按 1:1的性别比例计算，公、母羔均应为438只。以A表示实际观察次数，T表示理论次数，可将上述情况列成表7-1。表7-1 羔羊性别实际观察次数与理论次数性别实际观察次数A 理论次数T A-T （A-T） 2 /T 公 428（ A1 ） 438（ T1 ） -10 0.2283 母 448（ A2 ） 438（ T2 ） 10 0.2283 合计 876 876 0 0.4566 从表7-1看到，实际观察次数与理论次数存在一定的差异，这里公、母各相差10只。这个差异是属于抽样误差(把对该羊场一年所生羔羊的性别统计当作是一次抽样调查)、还是羔羊性别比例发生了实质性的变化?要回答这个问题，首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度；然后判断这一偏离程度是否属于抽样误差，即进行显著性检验。为了度量实际观察次数与理论次数偏离的程度，最简单的办法是求出实际观察次数与理论次数的差数。从表7-1看出：A1-T1 =-10，A2-T2=10，由于这两个差数之和为0，显然不能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。为了避免正、负抵消，可将两个差数A1-T1、A2-T2平方后再相加，即计算∑(A-T) 2，其值越大，实际观察次数与理论次数相差亦越大，反之则越小。但利用∑(A-T) 2表示实际观察次数与理论次数的偏离程度尚有不足。例如某一组实际观察次数为505、理论次数为500，相差5；而另一组实际观察次数为26、理论次数为21，相差亦为5。显然这两组实际观察次数与理论次数的偏离程度是不同的。因为前者是相对于理论次数500相差5，后者是相对于理论次数21相差5。为了弥补这一不足，可先将各差数平方除以相应的理论次数后再相加，并记之为 2  ，即  − = T A T 2 2 ( )  (7-1) 也就是说 2  是度量实际观察次数与理论次数偏离程度的一个统计量， 2越小，表明实

128 与理论次数差异不显著，可以认为实际观察的属性类别分配符合已知属性类别分配的理论或学说；若 2 0.05≤ 2 (或 2 c)＜ 2 0.01，0.01＜P≤0.05，表明实际观察次数与理论次数差异显著，实际观察的属性类别分配不符合已知属性类别分配的理论或学说；若 2 ( 或 2 c) ≥ 2 0.01，P≤0.01，表明实际观察次数与理论次数差异极显著，实际观察的属性类别分配极显著不符合已知属性类别分配的理论或学说。二、适合性检验的方法下面结合实例说明适合性检验方法。【例 7.1】在进行山羊群体遗传检测时，观察了 260 只白色羊与黑色羊杂交的子二代毛色，其中 181 只为白色，79 只为黑色，问此毛色的比率是否符合孟德尔遗传分离定律的 3∶ 1 比例？检验步骤如下：（一）提出无效假设与备择假设 H0：子二代分离现象符合 3∶1 的理论比例。 HA：子二代分离现象不符合 3∶1 的理论比例。（二）选择计算公式由于本例是涉及到两组毛色（白色与黑色），属性类别分类数 k=2，自由度 df=k-1=2-1=1，须使用公式（7—4）来计算 2  c 。（三）计算理论次数根据理论比率 3∶1 求理论次数：白色理论次数：T1=260×3/4=195 黑色理论次数：T2=260×1/4=65 或 T2=260-T1=260-195=65 （四）计算 2  c 表 7—2  2 c计算表性状实际观察次数（A）理论次数（T） A-T 2  c 白色 181 195 -14 0.935 黑色 79 65 +14 2.804 总和 260 260 0 3.739 3.739 65 (| 79 65 | 0.5) 195 (| | 0.5) (|181 195 | 0.5) 2 2 2 2 = − − + − − = − − =  T A T  C (五)查临界 2 值，作出统计推断当自由度 df=1 时，查得 2 0.05（1） =3.84，计算的  2 c0.05，不能否定 H0，表明实际观察次数与理论次数差异不显著，可以认为白色羊与黑色羊的比率符合孟德尔遗传分离定律 3∶1 的理论比例。【例 7.2】在研究牛的毛色和角的有无两对相对性状分离现象时，用黑色无角牛和红色有角牛杂交，子二代出现黑色无角牛 192 头，黑色有角牛 78 头，红色无角牛 72 头，红色有角牛 18 头，共 360 头。试问这两对性状是否符合孟德尔遗传规律中 9∶3∶3∶1 的遗传比例？检验步骤：

129 （一）提出无效假设与备择假设 H0：实际观察次数之比符合 9∶3∶3∶1 的理论比例。 HA：实际观察次数之比不符合 9∶3∶3∶1 的分离理论比例。（二）选择计算公式由于本例的属性类别分类数 k=4：自由度 df=k-1=4-1=3>1，故利用（7—1）式计算 2  。（三）计算理论次数依据各理论比率 9:3:3:1 计算理论次数：黑色无角牛的理论次数 T1：360×9/16=202.5；黑色有角牛的理论次数 T2：360×3/16=67.5；红色无角牛的理论次数 T3：360×3/16=67.5；红色有角牛的理论次数 T4：360×1/16=22.5。或 T4=360-202.5-67.5-67.5=22.5 （四）列表计算 2  表 7—3 2  计算表类型实际观察次数 A 理论次数 T A-T （A-T）2 /T 黑色无角牛 192（A1） 202.5（T1） -10.5 0.5444 黑色有角牛 78（A2） 67.5（T2） +10.5 1.6333 红色无角牛 72（A3） 67.5（T3） +4.5 1.6333 红色有角牛 18（A4） 22.5（T4） -4.5 0.9000 总计 360 360 0 4.711 2  = − T A T 2 ( ) =0.5444+1.6333+1.6333+0.9=4.711 （五）查临界 2  值，作出统计推断当 df=3 时， 2 0.05(3)=7.815，因 2  0.05，不能否定 H0 ，表明实际观察次数与理论次数差异不显著，可以认为毛色与角的有无两对性状杂交二代的分离现象符合孟德尔遗传规律中 9∶3∶3∶1 的遗传比例。 *三、 2  显著性检验的再分割法当实际观察次数与理论次数经 2  检验差异显著或极显著时，还应对其结果进行再分割检验，下面举例说明。【例 7.3】两对相对性状杂交子二代 4 种表现型 A-B-、A-bb、aaB-、aabb 的观察次数依次为 152、39、53、6，问这两对相对性状的遗传是否符合孟德尔遗传规律中 9∶3∶3∶1 的比例。检验步骤同【例 7.2】，计算结果见表 7—4。表 7—4 2  计算表表现型实际观察次数 A 理论次数 T A-T （A-T）2 /T A-B- 152 140.625 11.375 0.920 A-bb 39 46.875 -7.875 1.323

x2=5929+0.395=6324 由d2=2-1=1,查x表得,x0512=3841,x205=6.635,由于x20051<x2<x0 (1),故0.01<P<0.05,表明实际观察次数与理论次数差异显著,即aabb表现型与其它三种表现型组合不符合1:15的比例,这样的结论可为我们进一步研究这个问题提供线索 x2经分割后,x2=2.543,n2=6.324,x12+2=8867与总x2=8.922略有差异,这是由于计算的舍入误差所造成:总自由度4=3,d=2,d=1,所以总=d+d。如果分割后x2 值或自由度之和不等于x2值或总自由度,说明所分割的列联表相互不独立。四、资料分布类型的适合性检验实际观测得来的资料是否服从某种理论分布,亦可应用适合性检验来判断。在正态分布的适合性检验中,由于理论次数是由样本总次数、平均数与标准差决定的,用去3个自由度, 所以自由度为k3(k为组数);而在二项分布和波松分布的适合性检验中,由于其理论次数由总次数与均数求得,丧失2个自由度,所以自由度为k2。但应注意,当组段内理论次数小于 5时,必须与相邻组段进行合并,直至合并的理论次数大于5时为止。下面分别举例说明。实际观测资料服从正态分布的适合性检验【例7.4】检验200头大白猪仔猪一月窝重的资料是否服从正态分布表7—7200头大白猪仔猪一月龄窝重服从正态分布的适合性检验表累加概组限组中实际次数上限;x=率(a)各组概率理论次数 )值(x0 (D) x (5) (7 (10) 0.0051 1016 12|4}10 01360.0085174%6441.9680 16-206 24-41.6 0.0322001863720 32-336-1.500.06680.0346 6.920 0.6252 3610 40-256-1.14 0.1271 0060312.0600.3519 40-4413 48-176-0.78 021770.0906 14467 -0.43 0.3330.115923.1801.6476 -0.070.47210.1385 27.7000.1043 646835 726 0.61410.14 28.400 5338 144 0.73890.1248249600.370 100 0.84130 2048000132 88—9216 1.35 091150.0702 14.04002736 961008 104384 0.95640.0449 1069 104-108 46.4 0244 1163 0544 420.992240011422883n0.3393 1.0000 8.7308 1、先将资料(原始数据略)整理成次数分布表,组限、组中值、各组的次数列于表7-7 的(1)、(2)、(3)栏,再将各组上限列于第(4)栏中 2、计算各组组上限与均数(x=656kg)之差,列于第(5)栏。 3、计算校正标准差S。由于由分组资料求得的标准差较不分组时所得标准差为大,故需作校正。 131

132 22.44( ) 12 8 200 1 200 (13120 ) 961920 1 12 ( ) 2 2 2 2 2 k g i n n fx fx Sc − = − − − = − − =   4、依公式 Sc x x u − = 求各组上限的正态离差，列入第 6 栏。如第一组 2.57 22.44 8 65.6 = − − u = 5、设该资料服从正态分布，依 u 值查正态分布表得各组段的累计概率（a），列入第（7）栏。如当 u=-2.57 时，a=0.0051，u=0.29 时，a=0.6141。 6、求出每一组段的概率，列入第（8）栏。由下一组段的累加概率减去本组段的累加概率而得。如 8─ 组段的概率为 0.0136-0.0051=0.0085。 7、以总数 n=200 头乘以各组概率便得理论次数，列入第（9）栏。凡理论值小于 5 者应加以合并。本例前三组与后三组分别合并。合并后的实际次数与理论次数分别为 10 与 6.44、 7 与 8.72，见第(3)与第（9）栏。 8、求各组 2 值，列入第（10）栏。 9、确定自由度。这里是因为求理论次数时用去均数，标准差与总次数三个统计量，该例经合并共 12 个组，故 df=12-3=9。 10、结论。由 df=9 查 2 表得： 2 0.05（9）=16.919，而计算所得的 2 值为： 2=8.7808，因为 20.05，表明各组实际次数与由正态分布计算的理论次数差异不显著，可以认为大白猪仔猪一月窝重服从正态分布。（二）实际观测资料服从二项分布的适合性检验【例 7.5】用 800 粒牧草种子进行发芽试验，分 80 行，每行 10 粒种子，共有 174 粒发芽。则每粒种子发芽的概率约为 174/800=0.2175，不发芽的概率约为 0.7825（即 1-0.2175），每行发芽种子数见表 7—8，问该资料是否服从二项分布。表 7—8 80 行发芽试验资料服从二项分布的适合性检验计算表一行内种子发芽数实际行数 A 理论概率理论行数 T (A T) /T 2 2  = − 0 1 2 3 4 5 6 7 8 9 10 6 20 28 12 8 6 0 0 14 0 0 0 0.0861 0.2392 0.2992 0.2218 0.1079 0.0360 0.0083 0.0013 0.0001 0.0000 0.0000 6.8880 19.1360 23.9360 17.7440 8.6320 2.8800 0.6640 0.1040 12.3600 0.0800 0.0000 0.0000 0.1145 0.0390 0.6900 1.8594 0.2176 总和 80 2.9205 表中理论概率由二项分布概率计算公式： k k n k Cn p q − 计算，如 0.2175 0.7825 0.0861 10!0! 10! 0 0 10 0 10 C10 p q =   = ；

133 0.2175 0.7825 0.2392 9!1! 10! 1 1 9 1 9 C10 p q =   = ；表中的理论行数由理论概率乘以 80 行而得，如 0.086180=6.8880， 0.239280=19.1360 由于表中后 6 组的理论次数均小于 5，故将后 6 组与第 5 组合并为一组。并组以后，资料分为 5 组。由表 7—8 可知， 2=2.9025。由 df=5-2=3，查 2 值表得： 2 0..05（3）=7.81，因为 20.05，表明实际行数与由二项分布计算得来的理论行数差异不显著，可以认为种子发芽试验的结果服从二项分布。（三）实际观测资料服从波松分布的适合性检验【例 7.6】用显微镜检查某样品内结核菌的数目，对某些视野内各小方格的结核菌数计数，然后按不同的结核菌数目把格子分类，记录每类的格子数。其结果见表 7—9 第（1）、（2）栏。试检验结核菌数是否服从波松分布。 1. 计算理论概率设结核菌数服从波松分布 P（λ），其概率计算公式为： ( 0) ! =  −    e m P m m （7—5）其中λ为平均数μ，且等于方差σ2。此时因λ未知，可利用样本平均数 x 来估计。利用加权法求样本平均数 x 为： 2.983 118 5 0 19 1 1 9 =  +  + +  =   =  f fx x 表 7—9 结核菌数服从波松分布适合性检验计算表结核菌数 x（1）实际格子数(f=A) (2) 理论概率（3）理论格子数(T)(4) （A-T）2 /T(5) 0 5 0.0506 1 19 0.1511 5.9708 0.1578 2 26 0.2253 17.8298 0.1768 3 26 0.2240 26.5854 0.0129 4 21 0.1671 26.4320 0.0071 5 13 0.0997 19.7178 0.0834 6 7 8 9 5 1 8 1 1 0.0496 0.0211 0.0079 0.0026 5.8528 2.4898 9.5818 0.9322 0.3068 0.1297 0.2611 总计 118 0.9990 117.8820 0.7288 将 x 代入（7—5）式，求得各项理论概率为 , 0,1,2, ,9 ! 2.983 ( ) = = e −2.983 m =  k P x k k 计算结果列于第（3）栏。 2. 计算理论次数将总次数 N=118 乘以各组的理论概率即得各组理论次数 T。计算结果列于第（4）栏。由于表后 4 组的理论次数小于 5，故将后 4 组与第 7 组合并为一组

合并后的实际格子数为8,理论格子数为9.5818。 3.计算x2值根据表7-9第(5)栏的数据可得x2值为 (A-T=0788 因为此例经并组后的分组数为7:计算理论次数利用了样本平均数和总次数,所以自由度为7-2=5。当5时,查x2值表得:x205)=1107,因为x2005,表明结核菌的各实际格子数与根据波松分布计算出的理论格子数差异不显著,可以认为结核菌数服从波松分布第三节独立性检验、独立性检验的意义对次数资料,除进行适合性检验外,有时需要分析两类因子是相互独立还是彼此相关。如研究两类药物对家畜某种疾病治疗效果的好坏,先将病畜分为两组,一组用第一种药物治疗,另一组用第二种药物治疗,然后统计每种药物的治愈头数和未治愈头数。这时需要分析药物种类与疗效是否相关,若两者彼此相关,表明疗效因药物不同而异,即两种药物疗效不相同:若两者相互独立,表明两种药物疗效相同。这种根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料对子因子间相关性的研究。独立性检验与适合性检验是两种不同的检验方法,除了研究目的不同外,还有以下区别: (一)独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成2×2、2×c、r×c列联表(r为行因子的属性类别数,c为列因子的属性类别数)。而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。 (二)适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。 (三)在适合性检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际次数之和,自由度为属性类别数减1。而在rXc列联表的独立性检验中,共有m个理论次数,但受到以下条件的约束:1、r个理论次数的总和等于m个实际次数的总和:2、r个横行中的每一个横行理论次数总和等于该行实际次数的总和。但由于r个横行实际次数之和的总和应等于个实际次数之和,因而独立的行约束条件只有r-1个:3、类似地,独立的列约束条件有c-1个。因而在进行独立性检验时,自由度为rC-1-(r-1)+c-1)=(r-1)(c-1),即等于 (横行属性类别数-1)×(直列属性类别数-1)。独立性检验的方法下面结合实例分别介绍2×2、2×c、r×c列联表独立性检验的具体过程。 (-)2×2列联表的独立性检验2×2列联表的一般形式如表7-10所示,其自由度=(C-1)(-1)=(2-1)(2-1)=1,在进行x2检验时,需作连续性矫正,应计算x2值

134 合并后的实际格子数为 8，理论格子数为 9.5818。 3. 计算 2 值根据表 7—9 第（5）栏的数据可得 2 值为： 0.7288 ( ) 2 2 = − =  T A T  因为此例经并组后的分组数为 7；计算理论次数利用了样本平均数和总次数，所以自由度为 7-2=5。当 df=5 时，查 2 值表得： 2 0.05（5）=11.07，因为 20.05，表明结核菌的各实际格子数与根据波松分布计算出的理论格子数差异不显著，可以认为结核菌数服从波松分布。第三节独立性检验一、独立性检验的意义对次数资料，除进行适合性检验外，有时需要分析两类因子是相互独立还是彼此相关。如研究两类药物对家畜某种疾病治疗效果的好坏，先将病畜分为两组，一组用第一种药物治疗，另一组用第二种药物治疗，然后统计每种药物的治愈头数和未治愈头数。这时需要分析药物种类与疗效是否相关，若两者彼此相关，表明疗效因药物不同而异，即两种药物疗效不相同；若两者相互独立，表明两种药物疗效相同。这种根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。独立性检验实际上是基于次数资料对子因子间相关性的研究。独立性检验与适合性检验是两种不同的检验方法，除了研究目的不同外，还有以下区别：（一）独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成 2×2、2×c、r×c 列联表（r 为行因子的属性类别数，c 为列因子的属性类别数）。而适合性检验只按某一因子的属性类别将如性别、表现型等次数资料归组。（二）适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用，理论次数是在两因子相互独立的假设下进行计算。（三）在适合性检验中确定自由度时，只有一个约束条件：各理论次数之和等于各实际次数之和，自由度为属性类别数减 1。而在 r×c 列联表的独立性检验中，共有 rc 个理论次数，但受到以下条件的约束：1、rc 个理论次数的总和等于 rc 个实际次数的总和；2、r 个横行中的每一个横行理论次数总和等于该行实际次数的总和。但由于 r 个横行实际次数之和的总和应等于 rc 个实际次数之和，因而独立的行约束条件只有 r-1 个；3、类似地，独立的列约束条件有 c-1 个。因而在进行独立性检验时，自由度为 rc-1-(r-1)-(c-1)=(r-1)(c-1)，即等于（横行属性类别数-1）×（直列属性类别数-1）。二、独立性检验的方法下面结合实例分别介绍 2×2、2×c、r×c 列联表独立性检验的具体过程。（一）2×2 列联表的独立性检验 2×2 列联表的一般形式如表 7—10 所示，其自由度 df=( C -1) (r-1)=(2-1) (2-1)=1，在进行 2 检验时，需作连续性矫正，应计算 2  c 值

生物统计学：《生物统计附试验设计》课程教材（第三版）第七章 次数资料分析—x2检验

生物统计学：《生物统计附试验设计》课程教材（第三版）第七章次数资料分析—x2检验