
第八章列联表8.1二维列联表的齐性和独立性的X2检验在前面的中位数检验中的×?检验统计量实际上和一般的r×c维列联表的×2检验统计量是一样的。但是对不同的目的和不同的数据结构,解释不一样,先看两个例子:例8.1(数据:wid.txt,wid.sav)对于某种疾病有三种处理方法.某医疗机构分别对22.15和19个病人用这三种方法处理,处理的结果分“改善”和“没有改善”两种,并且列在下表中:改善合计没有改善处理A1012227处理B815处理C61319合计562333我们希望知道不同处理的改善比例是不是一样

例8.2(数据:shop.txt,shop.sav,shopA.txt)在一个有三个主要百货商场的商贸中心,调查者问479个不同年龄段的人首先去三个商场中的哪个,结果如下:总和年龄段商场1商场2商场3708345198≤3015918619231-5041103889>50总和21519470479问题是想知道人们对这三个商场的选择和他们的年龄是否独立这两个例子的数据都有下面的两因子列联表形式:Be总和BiB2A1niln12nicni...........Arnrlnr2nrcnr.总和n.1n..n-2n.c

这里,行频数总和ni,=,ni,列频数总和n.=,ni,频数总和n..=,ni=,n.,,而A,...A.为行因子的r个水平,Bi,….B为列因子的c个水平用pi;表示第ij个格子频数占总频数的理论比例(概率).显然,Pij=E(ni)/n.,这里E(ni)为对ni;的数学期望,而相应的第i行的理论比例(概率)pi.及第列的理论比例(概率)p;分别为pi,=Zi=1Pi,和p-;=Z=1Pij

关于齐性的检验。对于例8.1所代表的那一类问题.要检验的是行分布的齐性(homogeneity).一般来说,对齐性的检验就是检验H。:“对所有行,(给定行的)条件列概率相同”,或者,用数学语言,记(给定第行后)第列条件概率为pili=pi/pi,零假设则为Ho:Pjli=Pjl*,对于所有不同的i和i*及所有的j成立而备选假设为H:“零假设中的等式至少有一个不成立”,在零假设下,我们可以记上面的条件概率为统一的p.i,它对于所有的行都是一样的

在零假设之下,第ii个格子的期望值E,应该等于p.ini,但p.,未知,在零假设下,可以用其估计p.,=n.i/n.代替.这样期望值Ni.n.jEi ~ p.jni. =n..而观测值Oi(按照前一章的记号)为nii:如此,前一章提到的Pearsonx2统计量为E Zj-(Oμ - u)~ Dr Zj-(ni - )ni.n.jEijn..它在样本量较大时(比如每个格子的期望频数E大于等于5时)近似地服从自由度为(r -1)(c-1)的x2分布关于例8.1,可以用R语句y=matrix(scan("D:data/wid.txt"),3,2,b=T)读入数据,然后用语句chisq.test(y)得到Q=1.076,自由度为2,而p值=0.5839这说明我们没有理由认为,各种处理的结果有所不同

关于独立性的检验.而对于例8.2那一类问题.要检验的是行和列变量的独立性(independence).当行列变量独立时,一个观测值分配到第ii个格子的理论概率pi应该等于行列两个概率之积pi.p.i,即零假设为Ho : Pij =pi.p.j.j=nini而第订格子的期望值为这时,在零假设下,它的估计值为pi=pi.p.jn..n..ni.n.jEij ~ Pijn. =n..这和前面检验齐性时零假设下的期望值一样,由此可以得到和上面检验齐性时导出的同样的统计量Q.这也可以说是殊途同归吧.这样导出的Q当然也有同样的渐近分布.这类关于独立性的问题的数据获取,通常是随机选取一定数自的样本,然后记录这些个体分配到各个格子的数目(频数):它并不事先固定某变量各水平的观测对象数自,这和齐性问题有所区别

对于例8.2,用y=matrix(scan("D:/data/shop.txt"),3,3,b=T)R语句读入数据,然后用语句chisq.test(y)得到Q=18.65,自由度为4,而p值为0.0009这说明在显著性水平不小于0.001时,我们可以拒绝零假设即认为.顾客的年龄与去哪个商场的选择是相关的

关于独立性检验还可以采用另一个基于多项分布的似然函数的检验统计量称为似然比检验统计量(likelihoodratioteststatistic)它是用一般的最大似然函数与在零假设下的最大似然的比.取其对数的二倍而得(简称为LRT)2ZnilnT=2二Eiii,j在零假设下,T有自由度为(r-1)(c-1)的×分布.在备选假设下,T和Q的值可能会很不同,但只要样本不太小,结果差不多.在许多情况下,由于T的可加性它用得更多.对于例8.2.在如前面描述的那样输入数据之后,我们可以使用下面的R语句:a=loglin(x,list(1,2)),得到T=18.69,再把得到的结果a代入语句pchisq(a$1rt,asdf,low=F)得到p值为0.0009.结论和用Q差不多.这里的函数a=loglin是后面要介绍的拟合对数线性模型的函数.利用这个对数线性模型的函数可以处理比这一节更加复杂的问题

8.2低维列联表的Fisher精确检验对于观测值数目不大的低维列联表的齐性和独立性问题还可以不用近似的x2统计量来检验.这就是所谓Fisher精确检验(Fisher'sexacttest或Fisher-Irwintest及Fisher-Yatestest(Fisher,1935ab;Yates,1934).我们以2×2列联表为例来讨论.假如列联表为B2B1总和A1ni.n11n12A2n21n2.n22总和n.2n..n.1

在这里,假定边际频数(行和列的频数总和)n1,n2.,n.1,n.2及n.都是固定的在A和B独立或没有齐性的零假设下,在给定边际频率时,这个具体的列联表的条件概率只依赖于四个频数中的任意一个(因为由给定的边际频数可以得到另外三个).在零假设下,该概率满足超几何分布,它可以写成(对任意的i=1,2和=1,2n.1n.2nin2n.i!ni.In.2!n2.!n21n11n12niln.!n1i!n12!n2i!n22!nn..1