第十一章非参数检验 在社会研究中我们经常要采用定序尺度,但直到现 在,我们都还没有机会讨论涉及到定序尺度的显著性检 验。本章要讲述某些用于定序尺度的双样本检验。与以 前所讲的检验不同,使用这类方法不需要对总体分布作 任何事先的假定(例如正态总体)。同时从检验的内容来 说,也不是检验总体分布的某些参数(例如均值、成 数、方差等),而是检验总体某些有关的性质,所以称 为非参数检验。非参数检验,泛指“对分布类型已知的 总体进行参数检验”之外的所有检验方法 2021/2/2
2021/2/2 1 第十一章 非参数检验 在社会研究中我们经常要采用定序尺度,但直到现 在,我们都还没有机会讨论涉及到定序尺度的显著性检 验。本章要讲述某些用于定序尺度的双样本检验。与以 前所讲的检验不同,使用这类方法不需要对总体分布作 任何事先的假定(例如正态总体)。同时从检验的内容来 说,也不是检验总体分布的某些参数(例如均值、成 数、方差等),而是检验总体某些有关的性质,所以称 为非参数检验。非参数检验,泛指“对分布类型已知的 总体进行参数检验”之外的所有检验方法
与均值差等检验比较,非参数检验有什么优点呢? 在对均值差进行t检验时,不仅要有定距尺度的假定, 还要有正态总体的假定。当然,对于大样本,正态总体 的假定可以放松。但正是对于小样本,这种假定最容易 出问题。因此,在满足下面两条件之一时,我们期望用 非参数检验代替均值差检验:①没有根据采用定距尺 度,但可以安排数据的顺序(即秩);②样本小且不能假 定具有正态分布。由于非参数检验不能充分利用全部现 有的资料信息。因此,如果有根据采用定距尺度,并且 如果对于小样本能够假定其具有正态性,或对大样本能 够放松对正态性假定的要求,一般宁愿使用均值差检 验,而不用非参数检验。 2021/2/2
2021/2/2 2 与均值差等检验比较,非参数检验有什么优点呢? 在对均值差进行t 检验时,不仅要有定距尺度的假定, 还要有正态总体的假定。当然,对于大样本,正态总体 的假定可以放松。但正是对于小样本,这种假定最容易 出问题。因此,在满足下面两条件之一时,我们期望用 非参数检验代替均值差检验:①没有根据采用定距尺 度,但可以安排数据的顺序(即秩);②样本小且不能假 定具有正态分布。由于非参数检验不能充分利用全部现 有的资料信息。因此,如果有根据采用定距尺度,并且 如果对于小样本能够假定其具有正态性,或对大样本能 够放松对正态性假定的要求,一般宁愿使用均值差检 验,而不用非参数检验
非参数检验,无需做出经典统计所必要的 关于分布的任何假设。唯一需要的假设是:全 部数据或数据对都出自相同的基本总体,且取 样是随机的、相互独立的。基于这种原因,非 参数检验又称为分布自由(或无分布检验。 无 分布”不是指总体真的无分布,而是指虽有时 对 总体分布一无所知,但仍可以进行分析。不仅 如此,这些很容易理解的方法还可以用于处理 2等级的资料和定性的信息
2021/2/2 3 非参数检验,无需做出经典统计所必要的 关于分布的任何假设。唯一需要的假设是:全 部数据或数据对都出自相同的基本总体,且取 样是随机的、相互独立的。基于这种原因,非 参数检验又称为分布自由(或无分布)检验。 “无 分布”不是指总体真的无分布,而是指虽有时 对 总体分布一无所知,但仍可以进行分析。不仅 如此,这些很容易理解的方法还可以用于处理 等级的资料和定性的信息
很显然,如果把从一个正态总体中抽取的数据用分布 自由来处理,其效果肯定不如相应的参数检验有力。我们 般用下述指标来确定非参数检验的“效率”。 参数检验中的n 非参数检验中的n 式中的n0和n分别是两种检验 检验力又称检验势, 保证实现给定的检验力所需的样本 它是用1-或-(犯 容量。如果说某种非参数检验的检 第二类错误的概率)] 验效率为95%,就意味着这种非参 来定义的。也就是说, 数检验在使用100个数据时的效力等 对于固定的样本容量, 检验能够否定错误假 于检验(在正确模型条件下)使用95 设的能力越大,其相 个数据的效力。 对检验力越大 2021/2/2
2021/2/2 4 很显然,如果把从一个正态总体中抽取的数据用分布 自由来处理,其效果肯定不如相应的参数检验有力。我们 一般用下述指标来确定非参数检验的“效率” 。 式中的n 0和n分别是两种检验 保证实现给定的检验力所需的样本 容量。如果说某种非参数检验的检 验效率为95%,就意味着这种非参 数检验在使用100个数据时的效力等 于t检验(在正确模型条件下)使用95 个数据的效力。 检验力又称检验势, 它是用1―β或[1―(犯 第二类错误的概率)] 来定义的。也就是说, 对于固定的样本容量, 检验能够否定错误假 设的能力越大,其相 对检验力越大
第一节符号检验 符号检验”是针对观察结果之差的符号来作估价的。 在 单一实验组的实验中,对于样本中每个个体的前测与后测, 如果我们并不关心(X1-X)的具体数值,而只关心是增大 了还是减小了。具体来说,就是只研究差值d的符号,即 若X1>X,记作“+”; 若X1<X,记作“—”; 若X=X,删去。 那么我们面对的就将是配对样本的“符号检验”问题 了。“符号检验”并不要求配对样本出自同一个总体,重要 的是各个对的结果要相互独立
2021/2/2 5 “符号检验”是针对观察结果之差的符号来作估价的。 在 单一实验组的实验中,对于样本中每个个体的前测与后测, 如果我们并不关心(X1―X0)的具体数值,而只关心是增大 了还是减小了。具体来说,就是只研究差值 d 的符号,即 若X1>X0,记作“+”; 若X1<X0,记作“―”; 若X1 =X0,删去。 那么我们面对的就将是配对样本的“符号检验”问题 了。“符号检验”并不要求配对样本出自同一个总体,重要 的是各个对的结果要相互独立。 第一节 符号检验
符号检验的零假设就是配对观察结果的差平均起来等于零:人们 期望这些差中有一半小于零负号),而另一半大于零(正号),因此 符号检验就是对差分布之中位数为零的零假设检验。现将符号检验 的零假设和备择假设表达如下 H0:P(+)=p(-)=0.5 H1:单侧检验p(+)>p(-)或p(+)<p() 双侧检验p(+(-) 很显然,符号检验就是先假设p=0.5,按二项分布计算正号“+” 出现次数之抽样分布,然后以样本中正号“+”出现的次数x作为检 验统计量。如果它是B(x;n,0.5)下的小概率事件,便否定对差分 布之中位数为零的零假设,即认为两总体存在平均水平上的差别 由此可见,符号检验是二项检验的一种实际应用。 2021/2/2
2021/2/2 6 符号检验的零假设就是配对观察结果的差平均起来等于零:人们 期望这些差中有一半小于零(负号),而另一半大于零(正号),因此 符号检验就是对差分布之中位数为零的零假设检验。现将符号检验 的零假设和备择假设表达如下 H0:p (+)=p (―)=0.5 H1:单侧检验p (+)>p (―)或 p (+)<p (―) 双侧检验p (+)≠p (―) 很显然,符号检验就是先假设p=0.5,按二项分布计算正号“+” 出现次数之抽样分布,然后以样本中正号“+”出现的次数x 作为检 验统计量。如果它是B(x;n,0.5)下的小概率事件,便否定对差分 布之中位数为零的零假设,即认为两总体存在平均水平上的差别。 由此可见,符号检验是二项检验的一种实际应用
「例假设我们观测15个相配的对,获得两个差为零和13个差不为 零,其中有11个正号,2个负号,试在25%的显著性水平上进行单 侧检验。 「解]H:p=0.5 H1:p(+)>P(-) 由α=0.025确定否定域,查二项分布表(附表2) P(13;13,0.5)=0.000 P(12;13,0.5)=0.002 P(11;13,0.5)=0.010 P(10;13,0.5)=0.035 P(13)+P(12)+P(1)=0.0000.002+0.010=0.0120.025 所以否定域由x等于11,12,13组成。现检验统计量x=11, 所以零假设p=0.5在25%显著性水平上被拒绝。 2021/2/2
2021/2/2 7 [例] 假设我们观测15个相配的对,获得两个差为零和13个差不为 零,其中有11个正号,2个负号,试在2.5%的显著性水平上进行单 侧检验。 [解] H0:p=0.5 H1:p (+)>p (―) 由α=0.025确定否定域,查二项分布表(附表2) P (13;13,0.5)=0.000 P (12; 13,0.5)=0.002 P (11; 13,0.5)=0.010 P (10; 13,0.5)=0.035 P (13) + P(12)+ P (11)=0.000 + 0.002 + 0.010 =0.012<0.025 P (13) + P (12) + P (11) +P(10)=0.012 + 0.035=0.047>0.025 所以否定域由x等于11,12,13组成。现检验统计量x=11, 所以零假设p=0.5在2.5%显著性水平上被拒绝
例随机地选择13个单位,放映一部描述吸烟有害于身体健康 的影片,下表中的数字是各单位认为吸烟有害身体健康的职工的百分 比,现试在005显著性水平上,用符号检验检验实验无效的零假设。 表10.1 配对序号前测/%后测/%差值d=X1+Xd-d(d-d 1 63 68 49 4 54 53 71 75 4 5 39 49 10 6 7 49 7 67 75 16 8 58 2 2 52 6 10 37 61 55 6 3 13 51 57 合计 52 328 2021/2/2
2021/2/2 8 [例] 随机地选择13个单位,放映一部描述吸烟有害于身体健康 的影片,下表中的数字是各单位认为吸烟有害身体健康的职工的百分 比,现试在0.05显著性水平上,用符号检验检验实验无效的零假设
解]Hn:p=0.5 H1:p(+)>p(一) 由上例知,B(x;13,0.5在a=0.025显著性 水平上,单侧检验(p>0.5)否定域由x由1l, 12,13组成。 观察前表知,在13个相配的对中,10个差为 正号,3个差为负号,即检验统计量x=10。所 以零假设p=0.5在25%显著性水平上不能被拒 绝 2021/2/2
2021/2/2 9 [解] H0:p=0.5 H1:p (+)>p (―) 由上例知,B(x;13,0.5)在α=0.025显著性 水平上,单侧检验(p>0.5)否定域由 x 由11, 12,13组成。 观察前表知,在13个相配的对中,10个差为 正号,3个差为负号,即检验统计量 x=10。所 以零假设 p=0.5在2.5%显著性水平上不能被拒 绝
对比例10.3和[例12可见,由于符号检验只计 及差值d的符号,而没有计及差值d的大小,所以有时用t 检验可以作出拒绝零假设的判定,如改用符号检验却往往 不能作出这样的判定。因此说,符号检验效力较低。根据 计算,就满足正态分布而言,符号检验法的效率是配对样 本t检验的63%。即如果符号检验法需要样本容量为100 的话,那么t检验法只需n=63就可作出相同的检验。但符 号检验运用于定类尺度,对总体分布又无需加以限制,所 以就配对样本的显著性检验而言,其适应面是相当广的 像符号检验这样的非参数值验,在分布自由检验中称为 简便检验(或快速检验)。 2021/2/2
2021/2/2 10 对比[例10.3.1]和[例11.1.2]可见,由于符号检验只计 及差值d 的符号,而没有计及差值d的大小,所以有时用t 检验可以作出拒绝零假设的判定,如改用符号检验却往往 不能作出这样的判定。因此说,符号检验效力较低。根据 计算,就满足正态分布而言,符号检验法的效率是配对样 本 t 检验的63%。即如果符号检验法需要样本容量为100 的话,那么t 检验法只需n=63就可作出相同的检验。但符 号检验运用于定类尺度,对总体分布又无需加以限制,所 以就配对样本的显著性检验而言,其适应面是相当广的。 像符号检验这样的非参数值验,在分布自由检验中称为 简便检验(或快速检验)