
目录第七章假设检验117.3拟合优度检验1离散总体情形7.3.1列联表的独立性和齐F一性检验47.3.2连续总体情形7.3.35i
目录 第七章 假设检验 1 7.3 拟合优度检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7.3.1 离散总体情形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7.3.2 列联表的独立性和齐一性检验 . . . . . . . . . . . . . . . . . . . . . . . . . . 4 7.3.3 连续总体情形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 i

第七章假设检验7.3拟合优度检验前面的假设检验基本上是在假定总体是正态的条件下做的,但是这个假设本身不一定成立,需要收集样本(X1,,Xn)来检验它.一般地,检验Ho:X服从某种分布可以采用KarlPearson提出的x?拟合优度检验离散总体情形7.3.1(1)理论分布不含未知参数的情形设某总体X服从一个离散分布,且根据经验得知总体落在类别a1,**,ak的理论频率分别为P1,,Pk;现从该总体抽得一个样本量为n的样本,其落在类别a1,,ak的观测数分别为n1,,nk:感兴趣的问题是检验理论频率是否正确,即下面假设是否正确:Ho: P(X Eai) = pi,"..,P(X Eak)= pk这类问题只提零假设而不提对立假设,相应的检验方法称为拟合优度检验。显然,在零假设下,各类别的理论频数分别为np1,,npk,将理论频数和观测频数列于下表:类别aia2...ak理论频数np1np2npk观测频数nin2...nk由大数定律知,在零假设成立时,ni/n依概率收敛于pi,故理论频数npi与观测频数ni接近而检验统计量取为Sanpi1
第七章 假设检验 7.3 拟合优度检验 前面的假设检验基本上是在假定总体是正态的条件下做的, 但是这个假设本身不一定成立, 需 要收集样本 (X1, · · · , Xn) 来检验它. 一般地, 检验 H0 : X服从某种分布 可以采用 Karl Pearson 提出的 χ 2 拟合优度检验. 7.3.1 离散总体情形 (1) 理论分布不含未知参数的情形 设某总体 X 服从一个离散分布, 且根据经验得知总体落在类别 a1, · · · , ak 的理论频率分别 为 p1, · · · , pk, 现从该总体抽得一个样本量为 n 的样本, 其落在类别 a1, · · · , ak 的观测数分别为 n1, · · · , nk. 感兴趣的问题是检验理论频率是否正确, 即下面假设是否正确: H0 : P(X ∈ a1) = p1, · · · , P(X ∈ ak) = pk. 这类问题只提零假设而不提对立假设, 相应的检验方法称为拟合优度检验. 显然, 在零假设下, 各 类别的理论频数分别为 np1, · · · , npk, 将理论频数和观测频数列于下表: 类别 a1 a2 · · · ak 理论频数 np1 np2 · · · npk 观测频数 n1 n2 · · · nk 由大数定律知, 在零假设成立时, ni/n 依概率收敛于 pi , 故理论频数 npi 与观测频数 ni 接近. 而检验统计量取为 χ 2 = X k i=1 (ni − npi) 2 npi . 1

简单地,就是x?=(O-E)2E其中O为观测频数,E为期望频数,这个统计量中每项的分母的选取有点讲究,我们可以这样粗略地解释:假设ni服从Poisson分布,则ni的均值和方差均为npi,从而(ni-npi)/Vnpi的极限分布为标准正态分布,因此x2近似为k个服从自由度为1的x2分布的随机变量之和,由于i=i(ni-npi)=0,故这k个随机变量满足一个约束,从而×2的自由度为k一1.事实上,可以严格地证明,在一定的条件下,×2的极限分布就是自由度为k一1的×2分布,但其证明超出本课程的要求范围下面给出一个例子来说明拟合优度检验的应用例7.3.1.有人制造一个含6个面的般子,并声称是均匀的:现设计一个实验来检验此命题:连续投掷600次,发现出现六面的频数分别为97,104,82,110,93,114.问能否在显著性水平0.2下认为般子是均匀的?解:该问题设计的总体是一个有6个类别的离散总体,记出现六个面的概率分别为P1,,P6,则零假设可以表示为Ho:pi=1/6,i=1,*,6.在零假设下,理论频数都是100,故检验统计量×2的取值为(97 -100)2 + (104 -100)2 + (82 100)2 + (110 -100) + (93 - 100)2 (114 -100)2=6.94100100100100100100跟自由度为6-1=5的x×2分布的上0.05分位数x(0.2)~7.29比较,不能拒绝零假设,即可在显著性水平0.2下认为殷子是均匀的例7.3.2.孟德尔(Mendel)豌豆杂交试验。纯黄和纯绿品种杂交,因为黄色对绿色是显性的,在Mendel第一定律(自由分离定律)的假设下,二代豌豆中应该有75%是黄色的,25%是绿色的。在产生的n=8023个二代豌豆中,有n1=6022个黄色,n2=2001个绿色。我们的问题是检验这些这批数据是否支持Mendel第一定律,要检验的假设是Ho:元1=0.75,π2=0.25解:在Mendel第一定律(Ho)下,黄色和绿色的个数期望值为μ1=nT1=8023*0.75=6017.25,μ2=n2=8023*0.25=2005.752
简单地, 就是 χ 2 = X (O − E) 2 E , 其中 O 为观测频数, E 为期望频数. 这个统计量中每项的分母的选取有点讲究, 我们可以这样粗略地解释: 假设 ni 服从 Poisson 分布, 则 ni 的均值和方差均为 npi , 从而 (ni − npi)/ √npi 的极限分布为标准正态分布, 因此 χ 2 近 似为 k 个服从自由度为 1 的 χ 2 分布的随机变量之和, 由于 Pk i=1(ni − npi) = 0, 故这 k 个随机变 量满足一个约束, 从而 χ 2 的自由度为 k − 1. 事实上, 可以严格地证明, 在一定的条件下, χ 2 的极 限分布就是自由度为 k − 1 的 χ 2 分布, 但其证明超出本课程的要求范围. 下面给出一个例子来说明拟合优度检验的应用. 例 7.3.1. 有人制造一个含 6 个面的骰子, 并声称是均匀的. 现设计一个实验来检验此命题: 连续 投掷 600 次, 发现出现六面的频数分别为 97, 104, 82, 110, 93, 114. 问能否在显著性水平 0.2 下 认为骰子是均匀的? 解: 该问题设计的总体是一个有 6 个类别的离散总体, 记出现六个面的概率分别为 p1, · · · , p6, 则 零假设可以表示为 H0 : pi = 1/6, i = 1, · · · , 6. 在零假设下, 理论频数都是 100, 故检验统计量 χ 2 的取值为 (97 − 100)2 100 + (104 − 100)2 100 + (82 − 100)2 100 + (110 − 100)2 100 + (93 − 100)2 100 + (114 − 100)2 100 = 6.94, 跟自由度为 6 − 1 = 5 的 χ 2 分布的上 0.05 分位数 χ 2 5 (0.2) ≈ 7.29 比较, 不能拒绝零假设, 即可在 显著性水平 0.2 下认为骰子是均匀的. 例 7.3.2. 孟德尔(Mendel)豌豆杂交试验。纯黄和纯绿品种杂交,因为黄色对绿色是显性的,在Mendel第 一定律(自由分离定律)的假设下,二代豌豆中应该有75%是黄色的,25%是绿色的。在产生的n = 8023个二代豌豆中,有n1 = 6022个黄色, n2 = 2001个绿色。我们的问题是检验这些这批数据是 否支持Mendel第一定律,要检验的假设是 H0 : π1 = 0.75, π2 = 0.25 解: 在Mendel第一定律(H0)下,黄色和绿色的个数期望值为 µ1 = nπ1 = 8023 ∗ 0.75 = 6017.25, µ2 = nπ2 = 8023 ∗ 0.25 = 2005.75 2

则Pearsonx?统计量为2自由度df=1,p-value为0.903.因此可以认为这些数据服从Mendel第一定律。Fisher基于Mendel试验的所有数据,发现其数据与理论值符合的太好,p一value=0.99993,但这么好的拟合在几万次试验中才发生一次,因而Fisher断定数据可能有伪造的嫌疑[注1]。(2)理论分布含若干未知参数的情形当理论总体总含有未知的参数时,理论频数npi一般也与这些参数有关,此时应该用适当的估计如极大似然估计代替这些参数以得到Pi的估计pi,得到的统计量记为=L(mi-np)?npi1=1拟合优度检验的提出者KarlPearson最初认为在零假设下,检验统计量的x2的极限分布仍等于自由度为k-1的x2分布,R.A.Fisher发现自由度应该等于k-1减去估计的独立参数的个数r,即k-1-r.例7.3.3.从某人群中随机抽取100个人的血液,并测定他们在某基因位点处的基因型假设该位点只有两个等位基因A和a,这100个基因型中AA,Aa和aa的个数分别为30,40,30,则能否在0.05的水平下认为该群体在此位点处达到Hardy-Weinberg平衡态?解:取零假设为Ho:Hardy-Weinberg平衡态成立.设人群中等位基因A的频率为p,则该人群在此位点处达到Hardy-Weinberg平衡态指的是在人群中3个基因型的频率分别为P(AA)=p2,P(Aa)=2p(1-p)和P(aa)=(1-p)2,即零假设可等价地写成Ho : P(AA) = p2, P(Aa) = 2p(1 - p), P(aa) = (1 - p)2在Ho下,3个基因型的理论频数为100×p2,100×2×p(1-P)和100×(1-P)2,其中p等于估计的等位基因频率0.5,代入x2统计量表达式,得统计量的值等于4.该统计量的值大于自由度为3-1-1=1(恰好一个自由参数被估计)的×2分布上0.05分位数3.84,故可在0.05的水平下认为未达到Hardy-Weinberg平衡态.[/https://arxiv.org/pdf/1104.2975.pdf3
则Pearson χ 2统计量为 Z = X (O − E) 2 E = (6022 − 6017.25)2 /6017.25 + (2001 − 2005.75)2 /2005.75 = 0.015 自由度df = 1,p−value为0.903. 因此可以认为这些数据服从Mendel第一定律。Fisher基于Mendel试 验的所有数据,发现其数据与理论值符合的太好,p − value = 0.99993,但这么好的拟合在几万 次试验中才发生一次,因而Fisher断定数据可能有伪造的嫌疑[注1]。 (2) 理论分布含若干未知参数的情形 当理论总体总含有未知的参数时, 理论频数 npi 一般也与这些参数有关, 此时应该用适当的估 计如极大似然估计代替这些参数以得到 pi 的估计 pˆi , 得到的统计量记为 χ 2 = X k i=1 (ni − npˆi) 2 npˆi . 拟合优度检验的提出者 Karl Pearson 最初认为在零假设下, 检验统计量的 χ 2 的极限分布仍等于 自由度为 k − 1 的 χ 2 分布, R. A. Fisher 发现自由度应该等于 k − 1 减去估计的独立参数的个数 r, 即 k − 1 − r. 例 7.3.3. 从某人群中随机抽取 100 个人的血液, 并测定他们在某基因位点处的基因型. 假设该位 点只有两个等位基因 A 和 a, 这 100 个基因型中 AA, Aa 和 aa 的个数分别为30, 40, 30, 则能否 在 0.05 的水平下认为该群体在此位点处达到 Hardy-Weinberg 平衡态? 解: 取零假设为 H0 : Hardy-Weinberg 平衡态成立. 设人群中等位基因 A 的频率为 p, 则该人群在此位点处达到 Hardy-Weinberg 平衡态指的是在人 群中 3 个基因型的频率分别为 P(AA) = p 2 , P(Aa) = 2p(1 − p) 和 P(aa) = (1 − p) 2 , 即零假设可 等价地写成 H0 : P(AA) = p 2 , P(Aa) = 2p(1 − p), P(aa) = (1 − p) 2 . 在 H0 下, 3 个基因型的理论频数为 100 × pˆ 2 , 100 × 2 × pˆ 2 (1 − pˆ) 和 100 × (1 − pˆ) 2 , 其中 pˆ 等于估 计的等位基因频率 0.5, 代入 χ 2 统计量表达式, 得统计量的值等于 4. 该统计量的值大于自由度为 3 − 1 − 1 = 1 (恰好一个自由参数被估计) 的 χ 2 分布上 0.05 分位数 3.84, 故可在 0.05 的水平下认 为未达到 Hardy-Weinberg 平衡态. [注1]https://arxiv.org/pdf/1104.2975.pdf 3

7.3.2列联表的独立性和齐一性检验(1)独立性检验下面考虑很常用的列联表列联表是一种按两个属性作双向分类的表.例如肝癌病人可以按所在医院(属性A)和是否最终死亡(属性B)分类.目的是看不同医院的疗效是否不同.又如婴儿可按喂养方式(属性A,分两个水平:母乳喂养与人工喂养)和小儿牙齿发育状况(属性B,分两个水平:正常与异常)来分类,这两个例子中两个属性都只有两个水平,相应的列联表称为“四格表”,一般地,如果第一个属性有a个水平,第二个属性有b个水平,称为a×b表(见教材p268).实际应用中,常见的一个问题是考察两个属性是否独立.即零假设是Ho:属性A与属性B独立.这是列联表的独立性检验问题假设样本量为n,第(i,i)格的频数为ni:记pi=P(属性A,B分别处于水平i,j),ui=P(属性A有水平i),ui=P(属性B有水平i).则零假设就是pi=uiuj.将ui和u看成参数,则总的独立参数有a-1+b-1=a+b-2个.它们的极大似然估计为i=,0j="nn正好是它们的频率(证明参看教材),其中ni.=i=ini,nj=i=1nij·在Ho下,第(i,j)格的理论频数为npij=ni.n.i/n,因此在Ho下,=,=(nii-npi)应该较小。故取检验统计量为 - 2(nin.i/n)i=1 j=1在零假设下x2的极限分布是有自由度为k-1-r=ab-1-(a+b-2)=(a-1)(b-1)的x分布.对于四格表,自由度为1.(2)齐一性检验跟列联表有关的另一类重要的检验是齐一性检验,即检验某一个属性A的各个水平对应的另一个属性B的分布全部相同,这种检验跟独立性检验有着本质的区别.独立性问题中两属性都是随机的:而齐一性问题中属性A是非随机的,这样涉及到的分布实际上是条件分布.虽然如此,所采用的检验方法跟独立性检验完全一样4
7.3.2 列联表的独立性和齐一性检验 (1) 独立性检验 下面考虑很常用的列联表. 列联表是一种按两个属性作双向分类的表. 例如肝癌病人可以按所 在医院 (属性 A) 和是否最终死亡 (属性 B) 分类. 目的是看不同医院的疗效是否不同. 又如婴儿可 按喂养方式 (属性 A, 分两个水平: 母乳喂养与人工喂养) 和小儿牙齿发育状况 (属性 B, 分两个水 平: 正常与异常) 来分类. 这两个例子中两个属性都只有两个水平, 相应的列联表称为“四格表”, 一 般地, 如果第一个属性有 a 个水平, 第二个属性有 b 个水平, 称为 a × b 表 (见教材 p268) . 实际应 用中, 常见的一个问题是考察两个属性是否独立. 即零假设是 H0 : 属性 A 与属性 B 独立. 这是列联表的独立性检验问题. 假设样本量为 n, 第 (i, j) 格的频数为nij . 记 pij = P(属性 A, B 分别处于水平i, j), ui = P(属性 A 有水平i), vi = P(属性 B 有水平j). 则零假设就是 pij = uivj . 将 ui 和 vj 看成参数, 则 总的独立参数有 a − 1 + b − 1 = a + b − 2 个. 它们的极大似然估计为 uˆi = ni· n , vˆj = n·j n . 正好是它们的频率 (证明参看教材) . 其中 ni· = Pb j=1 nij , n·j = Pa i=1 nij . 在 H0 下, 第 (i, j) 格 的理论频数为 npˆij = ni·n·j/n, 因此在 H0 下, Pa i=1 Pb j=1(nij − npˆij ) 应该较小. 故取检验统计量 为 χ 2 = Xa i=1 X b j=1 (nij − ni·n·j/n) 2 (ni·n·j/n) . 在零假设下 χ 2 的极限分布是有自由度为 k − 1 − r = ab − 1 − (a + b − 2) = (a − 1)(b − 1) 的 χ 2 分布. 对于四格表, 自由度为 1. (2) 齐一性检验 跟列联表有关的另一类重要的检验是齐一性检验, 即检验某一个属性 A 的各个水平对应的另 一个属性 B 的分布全部相同, 这种检验跟独立性检验有着本质的区别. 独立性问题中两属性都是 随机的; 而齐一性问题中属性 A 是非随机的, 这样涉及到的分布实际上是条件分布. 虽然如此, 所 采用的检验方法跟独立性检验完全一样. 4

例7.3.4.下面表是甲乙两医院肝癌病人生存情况.需要根据这些数据判断两医院的治疗效果是否一样.甲、乙两院肝癌的近期疗效生存死亡合计甲院150(n11)238(n1.)88(n12)乙院36(n21)18(n22)54(n2.)合计186(n.1)106(n.2)292(n)解:这是一个齐一性检验问题.检验统计量×2的观测值为0.2524,远远小于自由度为1的×2分布的上0.05分位数,故可以接受零假设,即在水平0.05下可以认为两个医院的疗效无差别的当有某个格子的频数较小时,如果充许的话可以合并格子是每个格子的频数足够大,实际问题中不允许合并格子(合并后失去了实际意义),此时可以用Fisher的精确检验法7.3.3连续总体情形设(X1,.,Xn)是取自总体X的一个样本,记X的分布函数为F(a),需要检验的那种分布中含有r个总体参数1,0r.我们要在显著性水平α下检验Ho:F(r)=Fo(r;01,...,,),其中Fo(r;01,,)表示需要检验的那种分布的分布函数.例如,当我们要检验Ho : X ~ N(μ,g?)时,r=2,01=μ02=g2V cp -20(t-Fo(r; μ,o) =上述假设可以通过适当的离散化总体分布,采用拟合优度法来做检验。首先把实数轴分成k个子区间(aj-1,ail,j=1,…,k,其中ao可以取-oo,ak可以取8o.这样构造了一个离散总体,其取值就是这k个区间.记Pi=PHo(aj-1<X≤aj)=Fo(aj;01,*-*,o,)-Fo(aj-1;01,.-*,0),j=1,.+,k.5
例 7.3.4. 下面表是甲乙两医院肝癌病人生存情况. 需要根据这些数据判断两医院的治疗效果是否 一样. 甲、乙两院肝癌的近期疗效 生存 死亡 合计 甲院 150(n11) 88(n12) 238(n1·) 乙院 36(n21) 18(n22) 54(n2·) 合计 186(n·1) 106(n·2) 292(n) 解: 这是一个齐一性检验问题. 检验统计量 χ 2 的观测值为 0.2524, 远远小于自由度为 1 的 χ 2 分 布的上 0.05 分位数, 故可以接受零假设, 即在水平 0.05 下可以认为两个医院的疗效无差别的. 当有某个格子的频数较小时, 如果允许的话可以合并格子是每个格子的频数足够大, 实际问题 中不允许合并格子 (合并后失去了实际意义), 此时可以用 Fisher 的精确检验法. 7.3.3 连续总体情形 设 (X1, · · · , Xn) 是取自总体 X 的一个样本, 记 X 的分布函数为 F(x), 需要检验的那种分布 中含有 r 个总体参数 θ1, · · · , θr. 我们要在显著性水平 α 下检验 H0 : F(x) = F0(x; θ1, · · · , θr), 其中 F0(x; θ1, · · · , θr) 表示需要检验的那种分布的分布函数. 例如, 当我们要检验 H0 : X ∼ N(µ, σ2 ) 时, r = 2, θ1 = µ, θ2 = σ 2 . F0(x; µ, σ2 ) = ˆ x −∞ 1 √ 2πσ2 exp − 1 2σ 2 (t − µ) 2 dt. 上述假设可以通过适当的离散化总体分布, 采用拟合优度法来做检验. 首先把实数轴分成 k 个子区间 (aj−1, aj ], j = 1, · · · , k, 其中 a0 可以取 −∞, ak 可以取 ∞. 这样构造了一个离散总体, 其取值就是这 k 个区间. 记 pj = PH0 (aj−1 < X ≤ aj ) = F0(aj ; θ1, · · · , θr) − F0(aj−1; θ1, · · · , θr), j = 1, · · · , k. 5

如果Ho成立,则概率pi应该与数据落在区间(aj-1,ajl的频率fj=ni/n接近,其中nj表示相应的频数.当Pi的取值不含未知参数时,取检验统计量Semx2 =npj=1否则取x2=-np)?npij=1其中pi是将pi中的未知参数换成适当的估计后得到的pi的估计.拒绝域取为[x? > x-r-1(α)] 如果Pi中不含未知参数,则r=0使用x2进行拟合优度检验时一般要求n≥50,npi≥5,j=1,..,k,如果不满足这个条件,最好把某些组作适当合并,例7.3.5.从某连续总体中抽取一个样本量为100的样本,发现样本均值和样本标准差分别为-0.225和1.282,落在不同区间的频数如下表所示:区间[1, 0.5)[0.5,0][0,0.5][0.5,1][1,8](-80, -1)251018241013观测频数1617理论频数27141412可否在显著性水平0.05下认为该总体服从正态分布?解:设理论正态分布的均值和方差分别为μ和2,记第i个区间为(ai-1,ai,i=1,.·,6,则样本落在第i个格子的理论概数为100P(ai-1<X≤ai),其中X~N(μ,2).将μ=-0.225和2=器×1.2822=1.622代入得到估计的理论频数,列于上表中Ho:总体服从正态分布由此算得检验统计量×2的值约为9.25,与自由度为6-1-2=3的×2分布的上0.05分位数x3(0.05)~7.81比较可以拒绝零假设,即可以在显著性水平0.05下认为该总体不服从正态分布6
如果 H0 成立, 则概率 pj 应该与数据落在区间 (aj−1, aj ] 的频率 fj = nj/n 接近, 其中 nj 表示相 应的频数. 当 pi 的取值不含未知参数时, 取检验统计量 χ 2 = X k j=1 (nj − npj ) 2 npj , 否则取 χ 2 = X k j=1 (nj − npˆj ) 2 npˆj , 其中 pˆi 是将 pi 中的未知参数换成适当的估计后得到的 pi 的估计. 拒绝域取为 χ 2 > χ2 k−r−1 (α) . 如果 pi 中不含未知参数, 则 r = 0. 使用 χ 2 进行拟合优度检验时一般要求 n ≥ 50, npˆj ≥ 5, j = 1, · · · , k, 如果不满足这个条件, 最好把某些组作适当合并. 例 7.3.5. 从某连续总体中抽取一个样本量为 100 的样本, 发现样本均值和样本标准差分别为 −0.225 和 1.282, 落在不同区间的频数如下表所示: 区间 (−∞, −1) [−1, −0.5) [−0.5, 0) [0, 0.5) [0.5, 1) [1, ∞) 观测频数 25 10 18 24 10 13 理论频数 27 14 16 14 12 17 可否在显著性水平 0.05 下认为该总体服从正态分布? 解: 设理论正态分布的均值和方差分别为 µ 和 σ 2 , 记第 i 个区间为 (ai−1, ai , i = 1, · · · , 6, 则样 本落在第 i 个格子的理论概数为 100P(ai−1 < X ≤ ai), 其中 X ∼ N(µ, σ2 ). 将 µ = −0.225 和 σ 2 = 99 100 × 1.2822 = 1.622 代入得到估计的理论频数, 列于上表中. H0 : 总体服从正态分布 由此算得检验统计量 χ 2 的值约为 9.25, 与自由度为 6-1-2=3 的 χ 2 分布的上 0.05 分位数 χ 2 3 (0.05) ≈ 7.81 比较可以拒绝零假设, 即可以在显著性水平 0.05 下认为该总体不服从正态分布. 6