中国科学技术大学：《数理统计》课程教学资源（课件讲义）第十二讲非参数检验（二）.pdf_大学文库

近似为k个服从自由度为1的X2分布的随机变量之和，由于∑=1(n:-np)=0,故这k个随机变量满足一个约束，从而X2的自由度为k-1.事实上，可以严格地证明，在一定的条件下， X2的极限分布就是自由度为k-1的X2分布，但其证明超出本课程的要求范围. 下面给出一个例子来说明拟合优度检验的应用，例1.有人制造一个含6个面的骰子，并声称是均匀的.现设计一个实验来检验此命题：连续投掷600次，发现出现六面的频数分别为97,104,82,110,93,114.问能否在显著性水平0.2 下认为觳子是均匀的？解：该问题设计的总体是一个有6个类别的离散总体，记出现六个面的概率分别为即1，·，6，则零假设可以表示为 H0:p=1/6,i=1,…,6. 在零假设下，理论频数都是100，故检验统计量X2的取值为 97-100)2+104-1002+82-1002+110-1002+93-100)2+L14-1002 =6.94 100 100 100 100 100 100 跟自由度为6-1=5的x2分布的上0.05分位数(0.2)≈7.29比较，不能拒绝零假设，即可在显著性水平0.2下认为骰子是均匀的. 例2.孟德尔(Mendel)豌豆杂交试验。纯黄和纯绿品种杂交，因为黄色对绿色是显性的，在Mendel第一定律（自由分离定律）的假设下，二代豌豆中应该有T5%是黄色的，25%是绿色的。在产生的n=8023个二代豌豆中，有n1=6022个黄色，2=2001个绿色。我们的问题是检验这些这批数据是否支持Mendel第一定律，要检验的假设是 H0:T1=0.75,T2=0.25 解：在Mendel2第一定律(Ho)下，黄色和绿色的个数期望值为 41=nm1=8023*0.75=6017.25,2=nπ2=8023*0.25=2005.75 则Pearson X2统计量为 z=∑0- .=(6022-6017.25)2/6017.25+(2001-2005.75)2/2005.75=0.015 E 自由度df=l,p-value为0.99996.因此可以认为这些数据服从Mendel第一定律。Fisher基于Mendel的这些数据，发现其数据与理论值符合的太好，p-value=0.99996,但这么好的拟合在几千次试验中才发生一次，因而Fisher断定数据可能有伪造的嫌疑。 (2)理论分布含若干未知参数的情形当理论总体总含有未知的参数时，理论频数p:一般也与这些参数有关，此时应该用适当的估计如极大似然估计代替这些参数以得到：的估计，得到的统计量记为 x2=m-n啦)2 npi 拟合优度检验的提出者Karl Pearson最初认为在零假设下，检验统计量的x2的极限分布仍等于自由度为k-1的x2分布，R.A.Fisher发现自由度应该等于k-1减去估计的独立参数的个数r,即k-1-r 2

例3.从某人群中随机抽取100个人的血液，并测定他们在某基因位点处的基因型.假设该位点只有两个等位基因A和a,这100个基因型中AA,Aa和aa的个数分别为30,40,30，则能否在O.05的水平下认为该群体在此位点处达到Hardy-Weinberg平衡态？解：取零假设为 Ho:Hardy-Weinberg平衡态成立. 设人群中等位基因A的频率为p,则该人群在此位点处达到Hardy-Weinberg平衡态指的是在人群中3个基因型的频率分别为P(AA)=p2,P(Aa)=2p(1-p)和P(aa)=(1-p)2,即零假设可等价地写成 Ho:P(AA)=p2,P(Aa)=2p(1-p),P(aa)=(1-p)2. 在H0下，3个基因型的理论频数为100×2,100×2×2(1-)和100×(1-)2，其中分等于估计的等位基因频率0.5，代入X2统计量表达式，得统计量的值等于4.该统计量的值大于自由度为3-1-1=1（恰好一个自由参数被估计）的x2分布上0.05分位数3.84，故可在0.05的水平下认为未达到Hardy-Weinberg平衡态. S1.2列联表的独立性和齐一性检验 (1)独立性检验下面考虑很常用的列联表.列联表是一种按两个属性作双向分类的表.例如肝癌病人可以按所在医院（属性A)和是否最终死亡（属性B)分类.目的是看不同医院的疗效是否不同. 又如婴儿可按喂养方式（属性A,分两个水平：母乳喂养与人工喂养）和小儿牙齿发育状况（属性B,分两个水平：正常与异常)来分类.这两个例子中两个属性都只有两个水平，相应的列联表称为“四格表”，一般地，如果第一个属性有a个水平，第二个属性有b个水平，称为a×b 表（见教材268）.实际应用中，常见的一个问题是考察两个属性是否独立.即零假设是 H。:属性A与属性B独立这是列联表的独立性检验问题，假设样本量为n,第（亿，）格的频数为n·记p=P(属性A,B分别处于水平i,),4= P(属性A有水平)，：=P(属性B有水平).则零假设就是P)=:巴防：将山和v,看成参数，则总的独立参数有a-1+b-1=a+b-2个.它们的极大似然估计为 =0,= n 正好是它们的频率（证明参看教材）.其中n.=∑=1n,n=∑1·在下，第（位，）格的理论频数为ni=n,nj/m,因此在H下，∑-1∑=1n)-np)应该较小.故取检验统计量为（niy-n.nj/m)2 (ni.n.j/n) 在零假设下x2的极限分布是有自由度为k-1-r=ab-1-(a+b-2)=(a-1)(b-1)的X2 分布.对于四格表，自由度为1. 3

(2)齐一性检验跟列联表有关的另一类重要的检验是齐一性检验，即检验某一个属性A的各个水平对应的另一个属性B的分布全部相同，这种检验跟独立性检验有着本质的区别.独立性问题中两属性都是随机的：而齐一性问题中属性A是非随机的，这样涉及到的分布实际上是条件分布虽然如此.所采用的检验方法跟独立性检验完全一样例4.下面表是甲乙两医院肝癌病人生存情况.需要根据这些数据判断两医院的治疗效果是否一样甲、乙两院肝癌的近期疗效生存死亡合计甲院 150(n11) 88n12)】 238(m1.) 乙院 36(n21) 18(m22） 54(n2.) 合计 186m.1) 106(m.2 292(n) 解：这是一个齐一性检验问题.检验统计量X2的观测值为02524，远远小于自由度为1的X2 分布的上0.05分位数，故可以接受零假设，即在水平0.05下可以认为两个医院的疗效无差别的当有某个格子的频数较小时，如果允许的话可以合并格子是每个格子的频数足够大，实际问题中不允许合并格子（合并后失去了实际意义），此时可以用Fisher的精确检验法. S1.3连续总体情形设(X1,·,X)是取自总体X的一个样本，记X的分布函数为F(x),需要检验的那种分布中含有r个总体参数01，…，0，.我们要在显著性水平α下检验 H0:F(x)=Fo(x;01,…,0r) 其中F6(x;01,·,0,)表示需要检验的那种分布的分布函数.例如，当我们要检验 Ho:XN(4,σ2) 时，r=2,01=4,02=02 上述假设可以通过适当的离散化总体分布，采用拟合优度法来做检验.首先把实数轴分成k个子区间(aj-1,al,=1,·,k,其中ao可以取-o,ak可以取oo.这样构造了一个离散总体，其取值就是这k个区间.记 p5=PHn(aj-1<X≤aj)=F(a:01,·,0r)-F(aj-1;01,…,0r),j=1,…,k 如果Ho成立，则概率p5应该与数据落在区间(aj-1,al的频率fj=n/n接近，其中n表示相应的频数.当：的取值不含未知参数时，取检验统计量 X2=(-p)2 npi

中国科学技术大学：《数理统计》课程教学资源（课件讲义）第十二讲 非参数检验（二）

中国科学技术大学：《数理统计》课程教学资源（课件讲义）第十二讲非参数检验（二）