§8非参数检验
§8 非参数检验
§8.1拟合优度检验 前面介绍的参数检验是已知总体分布函数的类型对 未知参数进行假设检验。在实际问题中常常不能预知 总体的分布,这时在进行参数检验之前,先要对总体 的分布类型进行假设检验,这一类假设检验称之为分 布函数的拟合检验。在实际问题中有时要考虑两总体 分布是否相同,是否独立,从而提出相同性检验、独 立性检验,这些检验也属于非参数检验。 非参数检验多数只利用样本观察值的相对大小或 样本观察值间的大小顺序关系进行判断的,因此,计 算简单,易于掌握。对于总体分布类型已知的问题, 虽然非参数检验方法也可以采用,但其缺点是没有充 分利用样本所含的信息,从而检验效率通常比参数检 验差一些
§8.1 拟合优度检验 • 前面介绍的参数检验是已知总体分布函数的类型对 未知参数进行假设检验。在实际问题中常常不能预知 总体的分布,这时在进行参数检验之前,先要对总体 的分布类型进行假设检验,这一类假设检验称之为分 布函数的拟合检验。在实际问题中有时要考虑两总体 分布是否相同,是否独立,从而提出相同性检验、独 立性检验,这些检验也属于非参数检验。 • 非参数检验多数只利用样本观察值的相对大小或 样本观察值间的大小顺序关系进行判断的,因此,计 算简单,易于掌握。对于总体分布类型已知的问题, 虽然非参数检验方法也可以采用,但其缺点是没有充 分利用样本所含的信息,从而检验效率通常比参数检 验差一些
§8.1.1分布函数的拟合检验 这里考虑的是如下的假设检验问题: Ho: F(x)=Fo(x),H: F(X)*Fo(x), 其中F(x)为总体X的分布函数,未知,F0x)为某已知的分布函数, Fx)中可以含有未知参数,也可以不含有未知参数。分布函数F0(x) 一般是根据总体的物理意义、样本的经验分布函数、直方图得到启 发而确定的。如何对H进行检验呢?H0的检验方法很多,对F(x) 的不同类型有不同的检验方法。当F(x)为正态分布函数时,常用正 态概率纸法与偏度、峰度法(略)。一般情形(正态分布和其它的分 布)用皮尔逊( Pearson)检验法 这一方法的基本思想是:将样本观察值x1x2,xn分成k组,分 组的办法是-将包含x1,x2,xn的某个区间(tt1)分为互不相交的k个 子区间△1=(t1,41i=1,2,…,k,使得t…t1t,一般 要求取k≈1.87(n-1)4。以O1表示样本观察值落入第个小 区间(t121](i=1,2,…k)的频数(称为实际频数)。如果 H为真,由给定的分布函数Fx),计算得 P1=B11-1<Xk≤t1}=F0(1)-F(1),i=1,2,…,k
§8.1.1 分布函数的拟合检验 这里考虑的是如下的假设检验问题: H0 : F(x)=F0 (x) , H1 : F(x)≠F0 (x) , 其中F(x)为总体X的分布函数,未知,F0 (x) 为某已知的分布函数, F0 (x) 中可以含有未知参数,也可以不含有未知参数。分布函数F0 (x) 一般是根据总体的物理意义、样本的经验分布函数、直方图得到启 发而确定的。如何对H0进行检验呢?H0的检验方法很多,对F0 (x) 的不同类型有不同的检验方法。当F0 (x) 为正态分布函数时,常用正 态概率纸法与偏度、峰度法(略)。一般情形(正态分布和其它的分 布)用皮尔逊(Peareson) 检验法。 这一方法的基本思想是:将样本观察值x1 ,x2 ,…,xn分成k组,分 组的办法是---将包含x1 ,x2 ,…,xn的某个区间(t0 ,tk ) 分为互不相交的k个 子区间 ,使得t 0<t1<…<tk-1<tk,一般 要求取 。以Oi 表示样本观察值落入第i个小 区间 的频数(称为实际频数)。如果 H0为真,由给定的分布函数F0 (x) ,计算得 2 t t i k i i i ( , ], 1,2, , = −1 = 0.4 k 1.87(n −1) ( , ]( 1,2, , ) 1 t t i k i− i = p P t X t F t F t i k i i k i i i { } ( ) ( ), 1,2, , = 0 −1 = 0 − 0 −1 =
其中021,分=1 ,称E:=np;为样本 X1,X2…,Xn落入第个小区间的理论频数,当H成立时, 理论频数E与实际频数O应很 接近,即(O-E)2应很小,从而 ∑ (O-E) 也应该比较小,我们记此和式为xn,即 ∑ O-E (1.1) E1 应较小,否则不能认为H成立,所以H的拒绝域应 为{z2>C},C应由置信系数a确定
其中0<pi<1 , ,称Ei=npi 为样本 X1 ,X2 ,…,Xn 落入第i个小区间的理论频数,当H0成立时, 理论频数Ei与实际频数Oi应很 接近,即(Oi -Ei ) 2 应很小,从而 也应该比较小,我们记此和式为 ,即 (1.1) 应较小,否则不能认为H0成立,所以H0的拒绝域应 为 ,C应由置信系数α确定。 = = k i i p 1 1 = − k i i i i E O E 1 2 ( ) 2 n = − = n i i i i n E O E 1 2 2 ( ) n C 2
皮尔逊定理:设把总体X的样本X1,X2…Xn 分成互不相 容的k类:(t=124(2=12,…,k),p为X落入第i类的 概率。若H:X服从某一已知分布F(x)成立,则当n→>∞ 时,不论F∞x)服从什么分布总有 ∑ (O-E,)2 x2(k-1) 这样,利用皮尔逊定理可定义小概率事件: Pin>xa(k-1=a 故H的拒绝域为xn2>x2(k-1)。据此可进行拟合 优度检验 但是检验时必需注意以下几点: (1)样本容量n应充分大,且每类理论频数不能太小,通常 n>50且E≥5,若E<5则通过合并相邻的类使之不小于5
皮尔逊定理:设把总体X的样本X1 ,X2 ,…,Xn 分成互不相 容的k类: , pi 为X落入第 i 类的 概率。若H0 : X 服从某一已知分布F0 (x) 成立,则当n→∞ 时,不论F0 (x)服从什么分布总有 这样,利用皮尔逊定理可定义小概率事件: 故H0的拒绝域为 。据此可进行拟合 优度检验。 但是检验时必需注意以下几点: (1)样本容量n应充分大,且每类理论频数不能太小,通常 n>50且Ei ≥5 , 若Ei<5 则通过合并相邻的类使之不小于5。 ( , ]( 1,2, , ) 1 t t i k i− i = ~ ( 1) ( ) 2 1 2 2 − − == k E O E n i i i i n { ( −1)} = 2 2 P k n ( 1) 2 2 n k −
(2)如果F(x)中含有m个未知参数0,02…,0n,则首先 要用这m个未知参数的极大似然估计值B,.2…,6 代替θ1,02,0lm,使F(x)中不含有未知参数,然后计算 P1,再建立y2,但是这时xn分布的自由度为df=k (3)当df=1时,xn统计量的较正公式为 O.-E k E
(2)如果F0 (x) 中含有m个未知参数θ1 ,θ2 ,…,θm ,则首先 要用这m个未知参数的极大似然估计值 代替θ1 ,θ2 ,…,θm,使F0 (x)中不含有未知参数,然后计算 pi ,再建立 , 但是这时 分布的自由度为df=k- 1-m 。 (3)当df=1时, 统计量的较正公式为 = − − = k i i i i n E O E 1 2 2 2 1 m ˆ , , ˆ , ˆ 1 2 2 n 2 n 2 n
例1生物学家 G. Mende将丰满的黄色豆子与皱皮的绿色 豆子杂交,得四种豆子,它们的数目如下: 分类丰满黄色丰满绿色皱皮黄色皱皮绿色合计 实际频数315108101 32 556 总体率 p P3 P4 按 Mendel理论,这四种豆子的比例应为9:3:3:1。试判断试 验结果是否符合理论结果
例1 生物学家G.Mendel将丰满的黄色豆子与皱皮的绿色 豆子杂交,得四种豆子,它们的数目如下: 分类 丰满黄色 丰满绿色 皱皮黄色 皱皮绿色 合计 实际频数 315 108 101 32 556 总体率 p1 p2 p3 p4 1 按Mendel理论,这四种豆子的比例应为9:3:3:1。试判断试 验结果是否符合理论结果
例2用显微镜检査涂片的某种细菌位于各小方格 里的个数共观察了118个小方格,得不同细菌数的 小方格如下表所示试判断小方格里的细菌数X是 否服从 Poisson分布. 细菌数0123456789合计 观察频数519262621135111118 理论频数617826.626.419711.8582.50.90.31178 O-E:11.20.60.4131.2 1.5 (O1-E2 1.440.360.161.69144 2.25 (O-E)2/E;0.1670 0810.0140.0060.0860.1220.237 0.713
例2 用显微镜检查涂片的某种细菌位于各小方格 里的个数,共观察了118个小方格,得不同细菌数的 小方格如下表所示.试判断小方格里的细菌数X是 否服从Poisson分布. 细菌数 0 1 2 3 4 5 6 7 8 9 合计 观察频数 5 19 26 26 21 13 5 1 1 1 118 理论频数 6 17.8 26.6 26.4 19.7 11.8 5.8 2.5 0.9 0.3 117.8 ∣Oi –Ei∣ 1 1.2 0.6 0.4 1.3 1.2 1.5 (Oi –Ei ) 2 1 1.44 0.36 0.16 1.69 1.44 2.25 (Oi –Ei ) 2 /Ei 0.167 0.081 0.014 0.006 0.086 0.122 0.237 0.713
§812列联表资料的x检验 列联表是按两种属性分类的一种频数数据表,因此, 分类资料的x2统计量不仅可以用作拟合优度检验,而 且更广泛地用于列联表的独立性检验和多组资料分布概 率的相同性检验。 交叉分类资料两属性的独立性检验 列联表中的数据通常是由两种方式抽样后分类得到 的。其中,一种是以一个总体抽样后,按两种属性搭配 的类确定其个体数目而得,因而称为交叉分类资料。 例3为了了解某种药品对某种疾病的疗效是否与年 龄有关,在研究的区域里共调查了300名服药患者。若将 疗效分为“显著”、“一般”和“较差”三等,将年龄 分成“儿童”、“中青年”和“老年”三级,则300名患 者按疗效与年龄的等级搭配,共3×3=9种类型的分类结 果可用如下形式的频数表表示:
§8.1.2 列联表资料的 检验 列联表是按两种属性分类的一种频数数据表,因此, 分类资料的 统计量不仅可以用作拟合优度检验,而 且更广泛地用于列联表的独立性检验和多组资料分布概 率的相同性检验。 一、交叉分类资料两属性的独立性检验 列联表中的数据通常是由两种方式抽样后分类得到 的。 其中,一种是以一个总体抽样后, 按两种属性搭配 的类确定其个体数目而得,因而称为交叉分类资料。 例3 为了了解某种药品对某种疾病的疗效是否与年 龄有关,在研究的区域里共调查了300名服药患者。若将 疗效分为“显著”、“一般”和“较差”三等,将年龄 分成“儿童”、“中青年”和“老年”三级,则300名患 者按疗效与年龄的等级搭配, 共3×3=9种类型的分类结 果可用如下形式的频数表表示: 2 2
某药疗效与年龄分类频数表 疗效 年龄 合计 儿童 中青年 老年 O 显著43(46.51)38(4267)32(38.83) 128 一般28(42.1)44(39.00)45(35.49 117 较差23(19.98)18(18.3)14(16.68) 55 合计O1109 100 91 300 由上例中数据表可推为一般情形:对容量为n的样本,按属性 X(X1,X2…,X)与属性Y(Y1,Y2x…,Y进行分类,出现在(X,Y)类的 实测频数为O1(=1,2,…,rj=1,2,…,c)。故一般的r×c列联表为 r×c列联表的一般形式 属性 属性Y 合计 X 11 12 lc 2 21 22 合 O2..Ore 0…0m 计O1O1O2 c
某药疗效与年龄分类频数表 疗效 年龄 合计 儿童 中青年 老年 Oi• 显著 43(46.51) 38 (42.67) 32 (38.83) 128 一般 28 (42.51) 44 (39.00) 45 (35.49) 117 较差 23 (19.98) 18 (18.33) 14 (16.68) 55 合计O•j 109 100 91 300 由上例中数据表可推为一般情形:对容量为n的样本,按属性 X(X1 ,X2 ,…,Xr ) 与属性Y(Y1 ,Y2 ,…,Yc )进行分类,出现在(Xi ,Yj ) 类的 实测频数为Oij (i=1,2,…,r;j=1,2,…,c) 。故一般的r×c列联表为 r×c列联表的一般形式 属性 属性Y 合计 X Y1 Y2 … Yc Oi• X1 O11 O12 … O1c O1• X2 O21 O22 … O2c O2• … … … … … … Xr Or1 Or2 … Orc Or• 合计O•j O•1 O•2 … O•c n