§73分布的假设检验 前面讨论的总体分布中知参数的估计和检验都是假定总体分布类型已知,比如为正态总 体的前提下进行的,在实际应用时,总体的分布往往未知,首先应对总体分布类型进行推断, 如何对总体的分布进行推断呢,不难想象,我们可以由样本作经验分布函数的提示,对总体 分布类型作假设,然后再对所提的假设进行检验。由于所用的方法不依赖于总体分布的具体 数学形式。在数理统计中,就把这种不依赖于分布的统计方法称为非参数统计法。 非参数统计的内容十分丰富,在本节我们主要介绍非参数假设检验中最重要的一类 分布函数的拟合检验。关于分布的假设检验常见方法有四种:概率图纸法、x2-似合优度检 验法、柯尔莫哥洛夫一斯米尔诺夫检验法及秩和检验法,本节仅介绍其中的一种一z2检 验法 x2-拟合检验法: 下面我们介绍皮尔逊提出的x2-拟合检验法,它像各种显著性检验一样,能控制犯第 类错误的概率。 1.设总体X~F(x),但F(x)未知, 从X抽取子样(X1;…,Xn)的观测值为(x1,…xn)据此检验: 1°Ho:F(x)=F0(x)(其中Fx)为某个已知的分布,不含未知参数),我们将X的可能 取值范围R分成k个互不相交的区间 A4=na4)A2=[a1,a2)……,A4={x,a) (这些区间不一定长度相等。且a0可为-∞,a可为+∞)。 以n表示样本观测值(x1x2;……x)中落入A的频数n,称之为观测频数, 显然有∑=n,而事件(X∈4)在m次观测中发生的频率为 我们知道,当H为真时,P(X∈A1)Fo(a)-Fan)=P 于是得到在H为真时,容量为m的子样落入区间A的理论频数为m2,且有 P 由大数定律知,当H为真时,"一B→P1(n-∞)
§7.3 分布的假设检验 前面讨论的总体分布中知参数的估计和检验都是假定总体分布类型已知,比如为正态总 体的前提下进行的,在实际应用时,总体的分布往往未知,首先应对总体分布类型进行推断, 如何对总体的分布进行推断呢,不难想象,我们可以由样本作经验分布函数的提示,对总体 分布类型作假设,然后再对所提的假设进行检验。由于所用的方法不依赖于总体分布的具体 数学形式。在数理统计中,就把这种不依赖于分布的统计方法称为非参数统计法。 非参数统计的内容十分丰富,在本节我们主要介绍非参数假设检验中最重要的一类—— 分布函数的拟合检验。关于分布的假设检验常见方法有四种:概率图纸法、 -似合优度检 验法、柯尔莫哥洛夫—斯米尔诺夫检验法及秩和检验法,本节仅介绍其中的一种 —— 检 验法。 2 χ 2 χ 2 χ -拟合检验法: 下面我们介绍皮尔逊提出的 -拟合检验法,它像各种显著性检验一样,能控制犯第一 类错误的概率。 2 χ 1. 设总体 X ~F(x),但 F(x)未知, 从X抽取子样(X1,……, Xn)的观测值为(x1,……,xn).据此检验: 1° H0:F(x)=F0 (x) (其中F0(x)为某个已知的分布,不含未知参数),我们将X的可能 取值范围R分成k个互不相交的区间: [ ) [ ) [ ) A a a A a a Ak ak ak , , , , , , 1 = 0 1 2 = 1 2 "" = −1 (这些区间不一定长度相等。且a0可为-∞,ak可为+∞)。 以ni表示样本观测值(x1,x2,……,xn)中落入Ai的频数ni,称之为观测频数, 显然有 n n ,而事件{ }在 n 次观测中发生的频率为 k i ∑ i = =1 i X ∈ A n ni 。 我们知道,当H0为真时,P( )=F i X ∈ A 0 (ai)−F0(ai-1) P i k i = , =1,2,", ∆ 于是得到在H0为真时,容量为n的子样落入区间Ai的理论频数为 npi ,且有 np n p n k i i k i ∑ i = ∑ = =1 =1 由大数定律知,当H0为真时, i i p p n n ⎯⎯→ (n→∞) 1
即当n充分大时,n2与m的差异不应太大。根据这个思想,皮尔逊( k. Pearson)构造出 H的检验统计量为: (7.1) 并证明了如下的结论 定理71(尔逊定理)当H为真时,(7.1)所示的x2统计量的渐近分布是自由度为k1 的x2-分布,即 k(n;1-m)21 →x2(k-1)(当n→∞时)(72) 对于给定的水平a,P(x2x12查x2(k)分布表,确定出临界值,从而得H的拒绝 域C=x2,∞将子样观察值代入(7.12所示的x2统计量算出其观测值x2,视其是否落入 C而作出拒绝或接受H的判断。 上面的检验法称为皮尔逊2拟合检验法。 2.总体X~F(x),其中F(x)未知,需检验 Ho: F(x)= Fo(xi: 01, B2 On),其中F0为已知类型的分布,但含有m个未知参数O m 在这种情况,我们首先用O1,O2,n的极大似然估计6…O代替F0的B1,B2m, 再按情况1的办法进行检验,但这时(71)所示的x2-统计量的渐近分布将是x2(m-1),即 有 定理7,2( Fisher定理)H为真时,用6,……,Om的极大似然估计1,…bn代 F(x;1, On)中的未知参数O ,On,并用 B=Fo(a1;1,…bm)-F0(a1-1;1,…m) 代替(7.1)式中的p所得的统计量 x2=∑(-) npi
即当n充分大时, 与 的差异不应太大。根据这个思想,皮尔逊(k.Pearson)构造出 H ni npi 0的检验统计量为: ∑= − = k i i i i np n np 1 2 2 ( ) χ (7.1) 并证明了如下的结论 定理 7.1(皮尔逊定理) 当H0为真时,(7.1)所示的 统计量的渐近分布是自由度为k-1 的 -分布,即 2 χ 2 χ ( 1) ( ) 2 1 2 2 ⎯⎯→ − − = ∑ = k np n np L k i i i i χ χ (当 n → ∞ 时) (7.2) 对于给定的水平α,P{ }查 (k-1)分布表,确定出临界值,从而得H 2 1 2 χ ≥ χ −α 2 χ 0的拒绝 域C=[ ,∞],将子样观察值代入(7.12)所示的 -统计量算出其观测值 ,视其是否落入 C而作出拒绝或接受H 2 χ 1−α 2 χ 2 χ 0的判断。 上面的检验法称为皮尔逊 拟合检验法。 2 χ 2. 总体 X~F(x),其中 F(x)未知,需检验: H0:F(x) = F0(xi;θ1, θ2, ……, θm), 其中F0为已知类型的分布,但含有m个未知参数θ1, θ2, ……, θm. 在这种情况,我们首先用θ1,θ2,……, θm的极大似然估计 代替F θ θ m ˆ , ˆ 1 " 0的θ1,θ2,……, θm, 再按情况 1 的办法进行检验,但这时(7.1)所示的 -统计量的渐近分布将是 (k-m-1),即 有: 2 χ 2 χ 定理 7.2 (Fisher定理) H0为真时,用θ1,……, θm 的极大似然估计θ ˆ 1,"θ ˆ m 代 F(xi; θ1,……, θm)中的未知参数θ1,……, θm,并用 ) ˆ , ˆ ) ( ; ˆ , ˆ ˆ ( ; i 0 i 1 m 0 i 1 1 m p F a θ "θ F a θ "θ − = − 代替(7.1)式中的pi所得的统计量 ∑= − = k i i i i np n np 1 2 2 ˆ ( ˆ ) χ 2
当n→时,有x2(km-1)分布。 例712对200个电池做寿命试验,(1-1,4)表示以小时计的时间区间(=1,2,,56),在a=005 下,试检验电池寿命X服从指数分布。 组序 t-1,t (0,5) 2 (5,10) 45 (10,15) (15,20) 4 (20,25) 2 ∑ 解首先,用样本观察值对未知参数作最大似然估计。以x表示区间(11,)的中点(也称 为组中值),则 n:x 200 (25×133+7.5×45+12.5×15+175×4+225×2+27.5×1)=5 0.2 故提出假设0:X服从A=0.2的指数分布.当H0为真时,有 1=P<X≤5}=F(5)-F(0)=F(5)=1-e=06321 P2=P5<X≤10)=F(10)-F(5)=e-e2=02325 类似地算出:p3=0.0855p4=0.03147,P5=00016,P6=00043 各v=m;分别为:12642,4652,17.10,6.30,2.32,0.84 由于v5和%6都小于5,且合并后仍小于5,故与v4合并 组序 126.42 0.3425 2 45 46.52 l52 0.0497 3 15 17.10 2.10 0.2579 7 9.46 -2.46 0.6397 200 200 1.29 (n1-mp2)2 由a=0.05得 np as(2) 由于x2<xa2(km-1),故接受,即认为x服从参数x=02的指数分布
当 n→∞时,有 (k-m-1)分布。 2 χ 例 7.12 对 200 个电池做寿命试验,(ti-1, ti)表示以小时计的时间区间(i=1,2,…,6),在 a=0.05 下,试检验电池寿命 X 服从指数分布。 组序 (ti-1, ti) ni 1 (0, 5) 133 2 (5, 10) 45 3 (10, 15) 15 4 (15, 20) 4 5 (20, 25) 2 6 (25, 30) 1 ∑ 200 解 首先,用样本观察值对未知参数λ作最大似然估计。以 xi 表示区间(ti-1, ti)的中点(也称 为组中值),则 ( ) 2.5 133 7.5 45 12.5 15 17.5 4 22.5 2 27.5 1 5 200 1 200 1 6 1 = ∑ = × + × + × + × + × + × = i= i i x n x 1 0.2 ˆ λ = x = 故提出假设 H0:X 服从λ=0.2 的指数分布. 当 H0 为真时,有 { } ( ) ( ) ( ) { } 5 10 (10) (5) 0.2325 0 5 5 0 5 1 0.6321 1 2 2 1 1 = < ≤ = − = − = = < ≤ = − = = − = − − − p P X F F e e p P X F F F e 类似地算出:p3 =0.0855, p4 =0.03147, p5 =0.0016, p6 =0.0043. 各 vi=npi 分别为:126.42, 46.52, 17.10, 6.30, 2.32, 0.84. 由于 v5 和 v6 都小于 5,且合并后仍小于 5,故与 v4 合并. 组序 ni vi=npi ni-npi (ni-npi)2/npi 1 133 126.42 6.58 0.3425 2 45 46.52 -1.52 0.0497 3 15 17.10 -2.10 0.2579 4 7 9.46 -2.46 0.6397 ∑ 200 200 1.29 1.29 ( ) 4 1 2 2 = − = ∑ i= i i i np n np χ ,由 a=0.05 得 2 χ (k-m-1)= (2) 5.991 2 χ 0.025 = 由于χ2﹤χa2(k-m-1),故接受 H0,即认为 X 服从参数λ= 0.2 的指数分布。 3
例713从同类产品中,任取n=200批,质检结果如下表,其中x表示各批产品中次品数 n表示有x件次品的批数,试在显著性水平a=0.05下,检验次品件数X服从泊松分布。 序号 116 22 200 解先用最大似然估计法求估计值。 n 0.6 检验假设为H0:X服从=06的泊松分布。当H0成立时,算得 P1 8c-06=05488,P:∥c-06 0.32928698 类似地算出 P3=0098761,p4=00197572,P5=0.00296 再算出理论频数p分别为 1097623,65.8574,197572,3.9514,0.5927 x2=255943,而xa2(km-1)=x2(4-1-1)=9210 由于x2<x2(k-m-1),所以接受H0,即认为x服从=06的泊松分布
例 7.13 从同类产品中,任取 n = 200 批,质检结果如下表,其中 xi 表示各批产品中次品数, ni 表示有 xi 件次品的批数,试在显著性水平 a=0.05 下,检验次品件数 X 服从泊松分布。 序号 1 2 3 4 5 xi 0 1 2 3 4 ∑ ni 116 56 22 4 2 200 解 先用最大似然估计法求λ估计值。 0.6 5 1 ˆ 5 1 = = ∑ = i= i i λ x x n 检验假设为 H0: X 服从λ=0.6 的泊松分布。当 H0 成立时,算得 0.32928698 1! 0.6 0.5488, 0! 0.6 0.6 1 2 0.6 0 1 = = = = − − p e p e 类似地算出 p3=0.098761, p4=0.0197572, p5=0.00296. 再算出理论频数 npi 分别为 109.7623,65.8574,19.7572,3.9514,0.5927. χ2 =2.5509243,而χa2 (k-m-1)= (4 1 1) 9.210 2 χ 01 − − = 由于χ2< χa2(k―m―1),所以接受 H0,即认为 X 服从λ=0.6 的泊松分布。 4