第七章假设检验 本章主要讲述假设检验思想概述;正态总体参数检验(u检验,t检验,x 内容检验和F检验):非正态总体参数检验(非正态总体均值检验的大样本方法,指 数总体的参数检验);检验的实际意义及两类错误(检验结果的实际意义,检验 提要中的两类错误,样本容量确定问题)等内容 1、理解假设检验的基本思想,掌握假设检验的基本步骤,了解假设检验可能产生 的两类错误 重点2、了解单个和两个正态总体的均值与方差的假设检验。 分析3、了解总体分布假设的x2检验法。 难点 假设检验的基本思想、基本步骤及假设检验可能产生的两类错误。 分析 习题 布置习题7(1,5,70.13.16,18 备注
第七章 假设检验 内容 提要 本章主要讲述假设检验思想概述;正态总体参数检验( u 检验, t 检验, 2 检验和 F 检验);非正态总体参数检验(非正态总体均值检验的大样本方法,指 数总体的参数检验);检验的实际意义及两类错误(检验结果的实际意义,检验 中的两类错误,样本容量确定问题)等内容. 重点 分析 1、理解假设检验的基本思想,掌握假设检验的基本步骤,了解假设检验可能产生 的两类错误。 2、了解单个和两个正态总体的均值与方差的假设检验。 3、了解总体分布假设的 2 检验法。 难点 分析 假设检验的基本思想、基本步骤及假设检验可能产生的两类错误。 习题 布置 习题 7 (1,3,5,7,10,13,16,18) 备注
教学内容( Contents Chapter seven假设检验 hypothesis Tests) §71假设检验思想概述( Summary of Hypothesis Test Idea) 前一章讲了对总体参数的估计问题,即是对样本进行适当的加工,以推断出参数的值(或 置信区间)。本章介绍的假设检验,是另一大类统计推断问题。它是先假设总体具有某种特征 (例如总体的参数为多少),然后再通过对样本的加工,即构造统计量,推断出假设的结论是 否合理。从纯粹逻辑上考虑,似乎对参数的估计与对参数的检验不应有实质性的差别,犹如 说:“求某方程的根”与“验证某数是否是某方程的根”这两个问题不会得出矛盾的结论一样, 但从统计的角度看估计和检验,这两种统计推断是不同的,它们不是简单的“计算”和“验 算”的关系。假设检验有它独特的统计思想,也就是说引入假设检验是完全必要的。我们来 考虑下面的例子 Example7.1某厂家向一百货商店长期供应某种货物,双方根据厂家的传统生产水平, 定出质量标准,即若次品率超过3%,则百货商店拒收该批货物。今有一批货物,随机抽43件 检验,发现有次品2件,问应如何处理这批货物? 如果双方商定用点估计方法作为验收方法,显然243>3%,这批货物是要被拒收的。但 是厂家有理由反对用这种方法验收。他们认为,由于抽样是随机的,在这次抽样中,次品的 频率超过3%,不等于说这批产品的次品率p(概率)超过了3%就如同说掷一枚钱币,正 反两面出现的概率各为12,但若掷两次钱币,不见得正、反面正好各出现一次一样。就是说 即使该批货的次品率为3%,仍有很大的概率使得在抽检43件货物时出现2个以上的次品, 因此需要用别的方法。如果百货商店也希望在维护自己利益的前提下,不轻易地失去一个有 信誉的货源,也会同意采用别的更合理的方法。事实上,对于这类问题,通常就是采用假设 检验的方法。具体来说就是先假设次品率P≤3%,然后从抽样的结果来说明P≤3%这一假 设是否合理。注意,这里用的是“合理”一词,而不是“正确”,粗略地说就是“认为p≤3%” 能否说得过去。具体如何做,下面再说 还有一类问题实际上很难用参数估计的方法去解决。 Example7.2某研究所推出一种感冒特效新药,为证明其疗效,选择200名患者为志愿 者。将他们均分为两组,分别不服药或服药,观察三日后痊愈的情况,得出下列数据 是否痊愈 痊愈者未痊愈者合计 服何种药 未服药者 服药者 问新药是否确有明显疗效? 这个问题就不存在估计什么的问题。从数据来看,新药似乎有一定疗效,但效果不明显, 服药者在这次试验中的情况比未服药者好,完全可能是随机因素造成的。对于新药上市这样 关系到千万人健康的事,一定要采取慎重的态度。这就需要用一种统计方法来检验药效,假 设检验就是在这种场合下的常用手段。具体来说,我们先不轻易地相信新药的作用,因此可 以提出假设“新药无效”,除非抽样结果显著地说明这假设不合理,否则,将不能认为新药 有明显的疗效。这种提出假设然后做出否定或不否定的判断通常称为显著性检验( Significance test) 假设检验也可分为参数检验( Parametric test)和非参数检验( Nonparametric test)。当总体 分布形式已知,只对某些参数做出假设,进而做出的检验为参数检验;对其它假设做出的检
84 教 学 内 容 ( Contents ) Chapter Seven 假设检验(Hypothesis Tests) §7.1 假设检验思想概述(Summary of Hypothesis Test Idea) 前一章讲了对总体参数的估计问题,即是对样本进行适当的加工,以推断出参数的值(或 置信区间)。本章介绍的假设检验,是另一大类统计推断问题。它是先假设总体具有某种特征 (例如总体的参数为多少),然后再通过对样本的加工,即构造统计量,推断出假设的结论是 否合理。从纯粹逻辑上考虑,似乎对参数的估计与对参数的检验不应有实质性的差别,犹如 说:“求某方程的根”与“验证某数是否是某方程的根”这两个问题不会得出矛盾的结论一样。 但从统计的角度看估计和检验,这两种统计推断是不同的,它们不是简单的“计算”和“验 算”的关系。假设检验有它独特的统计思想,也就是说引入假设检验是完全必要的。我们来 考虑下面的例子。 Example 7.1 某厂家向一百货商店长期供应某种货物,双方根据厂家的传统生产水平, 定出质量标准,即若次品率超过3%,则百货商店拒收该批货物。今有一批货物,随机抽43件 检验,发现有次品2件,问应如何处理这批货物? 如果双方商定用点估计方法作为验收方法,显然2/43>3%,这批货物是要被拒收的。但 是厂家有理由反对用这种方法验收。他们认为,由于抽样是随机的,在这次抽样中,次品的 频率超过3%,不等于说这批产品的次品率 p (概率)超过了3%.就如同说掷一枚钱币,正 反两面出现的概率各为1/2,但若掷两次钱币,不见得正、反面正好各出现一次一样。就是说, 即使该批货的次品率为3%,仍有很大的概率使得在抽检43件货物时出现2个以上的次品, 因此需要用别的方法。如果百货商店也希望在维护自己利益的前提下,不轻易地失去一个有 信誉的货源,也会同意采用别的更合理的方法。事实上,对于这类问题,通常就是采用假设 检验的方法。具体来说就是先假设次品率 p 3% ,然后从抽样的结果来说明 p 3% 这一假 设是否合理。注意,这里用的是“合理”一词,而不是“正确”,粗略地说就是“认为 p 3% ” 能否说得过去。具体如何做,下面再说。 还有一类问题实际上很难用参数估计的方法去解决。 Example 7.2 某研究所推出一种感冒特效新药,为证明其疗效,选择 200 名患者为志愿 者。将他们均分为两组,分别不服药或服药,观察三日后痊愈的情况,得出下列数据。 是否痊愈 服何种药 痊愈者 未痊愈者 合计 未服药者 48 52 100 服药者 56 44 100 合 计 104 96 200 问新药是否确有明显疗效? 这个问题就不存在估计什么的问题。从数据来看,新药似乎有一定疗效,但效果不明显, 服药者在这次试验中的情况比未服药者好,完全可能是随机因素造成的。对于新药上市这样 关系到千万人健康的事,一定要采取慎重的态度。这就需要用一种统计方法来检验药效,假 设检验就是在这种场合下的常用手段。具体来说,我们先不轻易地相信新药的作用,因此可 以提出假设“新药无效”,除非抽样结果显著地说明这假设不合理,否则,将不能认为新药 有明显的疗效。这种提出假设然后做出否定或不否定的判断通常称为显著性检验(Significance test)。 假设检验也可分为参数检验(Parametric test)和非参数检验(Nonparametric test)。当总体 分布形式已知,只对某些参数做出假设,进而做出的检验为参数检验;对其它假设做出的检
验为非参数检验。如例7.1中,总体是两点分布,只需对参数P做出假设检验,这是参数检 验问题,而例7.2则是非参数检验的问题。与估计问题稍不同的是,一般来说非参数检验同 参数检验一样,在实际中经常要用到,因此,我们准备花一定的篇幅分别加以介绍。 无论是参数检验还是非参数检验,其原理和步骤都有共同的地方,我们将通过下面的例 子来阐述假设检验的一般原理和步骤 Example7.3据报载,某商店为搞促销,对购买一定数额商品的顾客给予一次摸球中奖 的机会,规定从装有红、绿两色球各10个的暗箱中连续摸10次(摸后放回),若10次都 是摸得绿球,则中大奖。某人按规则去摸10次,皆为绿球,商店认定此人作弊,拒付大奖, 此人不服,最后引出官司。 我们在此并不关心此人是否真正作弊,也不关心官司的最后结果,但从统计的观点看, 商店的怀疑是有道理的。因为,如果此人摸球完全是随机的,则要正好在10次摸球中均摸到 绿球的概率为()0= 这是一个很小的数,一个统计的基本原理是在一次试验中所发 1024 生的事件不应该是小概率事件。现在既然这样小概率的事件发生了,就应当推测出此人摸球 不是随机的,换句话说有作弊之嫌 上述的这一推断,实际上就是假设检验的全部过程。它一般包含了这么几步:提出假设, 抽样,并对样本进行加工(构造统计量),定出一个合理性界限,得出假设是否合理的结论。 为了便于操作,我们将结合例7.3,把这一过程步骤表述得更加形式化一点。这里要说明一点 的是所谓“小概率事件”。究竞多大概率为小概率事件?在一个问题中,通常是指定一个正 数a,0n(a)}=a.如取a=0.01,由分布列算出: P10=l/1024≈0.001,p=10/1024≈0.01,p+p10≈0.011 对于这种离散型概率分布,不一定能取到n(a).取最接近的n,使当H成立时 PN>m}≤a,因此n=9.即该小概率事件是{N>9} 5°得出结论 已算得N=10,即{N>9发生了,而{N>9被视为对H。不利的小概率事件,它在一 次试验中是不应该发生的,现在{N>9居然发生了,只能认为H是不成立的,即H1:“此
85 验为非参数检验。如例 7.1 中,总体是两点分布,只需对参数 P 做出假设检验,这是参数检 验问题,而例 7.2 则是非参数检验的问题。与估计问题稍不同的是,一般来说非参数检验同 参数检验一样,在实际中经常要用到,因此,我们准备花一定的篇幅分别加以介绍。 无论是参数检验还是非参数检验,其原理和步骤都有共同的地方,我们将通过下面的例 子来阐述假设检验的一般原理和步骤。 Example 7.3 据报载,某商店为搞促销,对购买一定数额商品的顾客给予一次摸球中奖 的机会,规定从装有红、绿两色球各10个的暗箱中连续摸10次(摸后放回),若 10 次都 是摸得绿球,则中大奖。某人按规则去摸10次,皆为绿球,商店认定此人作弊,拒付大奖, 此人不服,最后引出官司。 我们在此并不关心此人是否真正作弊,也不关心官司的最后结果,但从统计的观点看, 商店的怀疑是有道理的。因为,如果此人摸球完全是随机的,则要正好在 10 次摸球中均摸到 绿球的概率为 1024 1 ) 2 1 ( 10 = ,这是一个很小的数,一个统计的基本原理是在一次试验中所发 生的事件不应该是小概率事件。现在既然这样小概率的事件发生了,就应当推测出此人摸球 不是随机的,换句话说有作弊之嫌。 上述的这一推断,实际上就是假设检验的全部过程。它一般包含了这么几步:提出假设, 抽样,并对样本进行加工(构造统计量),定出一个合理性界限,得出假设是否合理的结论。 为了便于操作,我们将结合例 7.3,把这一过程步骤表述得更加形式化一点。这里要说明一点 的是所谓“小概率事件”。究竟多大概率为小概率事件?在一个问题中,通常是指定一个正 数 ,0 1 ,认为概率不超过 的事件是在一次试验中不会发生的事件,这个 称为显著 性水平(Level of significance)。对于实际问题应根据不同的需要和侧重,指定不同的显著性水 平。但为了制表方便,通常可选取 =0.01,0.05,0.10 等。 下面我们用假设检验的语言来模拟商店的推断: 1 0 提出假设: H0 :此人未作弊; H1 :此人作弊。 这里 H0 称为原假设(Null hypothesis),H1 称为备选假设(Alternative hypothesis)或对立 假设(Opposite hypothesis),备选假设也可以不写。 2 0 构造统计量,并由样本算出其具体值: 统计量取为 10 次模球中摸中绿球的个数 N .由抽样结果算出 N = 10 . 3 0 求出在 H0 下,统计量 N 的分布,构造对 H0 不利的小概率事件: 易知,在 H0 下,即如果此人是完全随机地摸球的话,统计量 N 服从二项分布B(10, 1/2).其分布列为 10 10 ) 2 1 ( k pk = C ,k = 0,1,2, ,10 .那么此人摸到的绿球数应该在平均数 5 个附近,所以对 H0 不利的小概率事件是:“绿球数 N 大于某个较大的数,或小于某个较小的 数。”在此问题中,若此 H0 不成立,即此人作弊的话,不可能故意少摸绿球,因此只需考虑 事件“ N 大于某个较大的数”,这个数常称为临界值,即某个分位数。 4 0 给定显著性水平 ,确定临界值: 即取一数 n() 使得P{ N > n() }= .如取 =0.01,由分布列算出: 1/1024 0.001, p10 = 10/1024 0.01, p9 = p9 + p10 0.011. 对于这 种离 散型 概率 分布 ,不 一定 能取 到 n() .取最 接近 的 n ,使当 H0 成立 时, P{N n} ,因此 n = 9 .即该小概率事件是 {N 9}. 5 0 得出结论: 已算得 N = 10 ,即 {N 9} 发生了,而 {N 9} 被视为对 H0 不利的小概率事件,它在一 次试验中是不应该发生的,现在 {N 9} 居然发生了,只能认为 H0 是不成立的,即 H1 :“此
人作弊”成立。 这一推断过程,也是假设检验的一般步骤,在这些步骤中,关键的技术问题是确定一个适 当的用以检验假设的统计量,这个统计量至少应该满足在H成立的情况下,其抽样分布易于 计算(査到)。当然还应该尽量满足一些优良性条件,特别是在参数检验中。限于篇幅,我 们不准备在本书中仔细讨论这些优良性条件。在统计量选定以后,便可构造出由该统计量T描 述某个显著性水平下的一小概率事件{T∈B},我们称使得这一小概率事件发生的样本空间 的点的全体 V={(X1,X2…,Xn)∈X:7(X1,X2,…,XnB)∈Ba} 为H的否定域( Negation region)或拒绝域( Rejection region),通常也简记为={T∈Ban}.最 后的检验即是判断所给的样本是否落在V内,或者是T∈B是否成立。因此,从这个意义上 可以说设计一个检验,本质上就是找到一个恰当的否定域V,使得在H。下,它的概率 P(|H)=(或≤)a 今后我们总是把统计检验中提到的“小概率事件”视为与否定域V是等价的概念。另外, 称V的余集X-为H0的接受域 §7.2正态总体参数检验( Parameter Test of Normal collectivity 对于正态总体,其参数无非是两个:期望和方差σ2,如果加上两总体的参数比较,概 括起来,对参数的假设一般只有如下四种情形:(i)对,(ⅱ)对a2,(ⅲ)对山1-2 (ⅳv)对σ2/σ2.其中情形(i)、(ⅲ)又分为a2(或a2,a2)已知和未知的两种情况 下面我们将分别予以讨论。如前所提到的,对于设计一个检验,关键是构造一个统计量 T=T(6),它需满足的一个必要条件是在H0成立时,分布为已知(有表可查),同时它 对于需要检验的参数来说应该是“较好”的,这一点与参数的区间估计很相似。在正态总体 参数的区间估计中,我们正好也是讨论了上述四种情形的置信区间。在区间估计中,我们曾 提到过,构造参数的置信区间的关键一步是从b的点估计出发,构造一个分布已知的含未知 参数θ的随机变量T(日),针对四种情况,当时我们构造的T(0)分别是 C1.对 7(4) X-A ,(a已知),T(4) X-A ,(a未知) O/vn 对 T(G2) 对p1-2 r(A,n2)=(x=1)-(-2),(a,a2已知) T(1,2) 1n1+2(万(二)(G=0未知) n1+n2 S,+ns n2(n21-1)S C4 对当:7(G2,2) n1(n2-1)S2a2 对于正态参数检验,我们也将针对不同情况,采用形式与上述随机变量T(O)完全一样的统计 量T(60),来作为检验统计量。但这里需要说明的是,作为区间估计中的T(0)与检验中的
86 人作弊”成立。 这一推断过程,也是假设检验的一般步骤,在这些步骤中,关键的技术问题是确定一个适 当的用以检验假设的统计量,这个统计量至少应该满足在 H0 成立的情况下,其抽样分布易于 计算(查到)。当然还应该尽量满足一些优良性条件,特别是在参数检验中。限于篇幅,我 们不准备在本书中仔细讨论这些优良性条件。在统计量选定以后,便可构造出由该统计量 T 描 述某个显著性水平下的一小概率事件{ T B },我们称使得这一小概率事件发生的样本空间 的点的全体 {( , , , ) : ( , , , ; ) } V = X1 X2 Xn T X1 X2 Xn B 为 H0 的否定域(Negation region)或拒绝域(Rejection region),通常也简记为 V ={ T B }.最 后的检验即是判断所给的样本是否落在 V 内,或者是 T B 是否成立。因此,从这个意义上 可以说设计一个检验,本质上就是找到一个恰当的否定域 V ,使得在 H0 下,它的概率 P(V | H0 ) = (或 )a 今后我们总是把统计检验中提到的“小概率事件”视为与否定域 V 是等价的概念。另外, 称 V 的余集 −V 为 H0 的接受域。 §7.2 正态总体参数检验(Parameter Test of Normal Collectivity) 对于正态总体,其参数无非是两个:期望 和方差 2 ,如果加上两总体的参数比较,概 括起来,对参数的假设一般只有如下四种情形:(ⅰ)对 ,(ⅱ)对 2 ,(ⅲ)对 1 − 2 , (ⅳ)对 2 2 2 1 / .其中情形(i)、(ⅲ)又分为 2 (或 2 2 2 1 , )已知和未知的两种情况。 下面我们将分别予以讨论。如前所提到的,对于设计一个检验,关键是构造一个统计量 ( ) T = T 0 ,它需满足的一个必要条件是在 H0 成立时,分布为已知(有表可查),同时它 对于需要检验的参数来说应该是“较好”的,这一点与参数的区间估计很相似。在正态总体 参数的区间估计中,我们正好也是讨论了上述四种情形的置信区间。在区间估计中,我们曾 提到过,构造参数 的置信区间的关键一步是从 的点估计出发,构造一个分布已知的含未知 参数 的随机变量 T ( ),针对四种情况,当时我们构造的 T ( )分别是 C1. 对 : ( ) ,(已知) n X T − = , ,( ) 1 ( ) 未知 − − = S n X T C2. 对 2 : 2 2 2 ( ) nS T = C3. 对 1 − 2 : ( 未知) ( 已知) 1 2 2 2 2 2 1 1 1 2 1 2 1 2 1 2 1 2 1 2 2 2 2 1 2 1 1 2 1 2 ( 2) ( ) ( ) ( , ) , , ( ) ( ) ( , ) = + − − − + + − = + − − − = n S n S X Y n n n n n n T n n X Y T C4. 对 2 2 2 1 : 2 2 2 1 2 1 2 1 2 2 2 1 2 2 2 1 ( 1) ( 1) ( , ) n n S n n S T − − = 对于正态参数检验,我们也将针对不同情况,采用形式与上述随机变量 T ( ) 完全一样的统计 量 ( ) T 0 ,来作为检验统计量。但这里需要说明的是,作为区间估计中的 T ( ) 与检验中的
T(O)是有所不同的,第一,T(O)中含有待估的未知参数θ,因此,它不是统计量,只是 般的随机变量;而T(O)中的参数6为一已知数,因此它是统计量。第二,T(6)的分布是己 知的,这是因为其中的与总体中的参数O是相一致的:而T(6)的分布则需在假设总体参数 θ明确时分布才已知。除此之外,它们的分布形式是完全一样的 上述统计量T(60)在H成立时通常有4种分布: D1.N(O.1)情形CL.、C3.中,σ(或σ1,O2)已知 D2t分布情形,C1.、C3.中,σ(或σ1,O2)未知; D3.x2分布,情形C2 D4.F分布,情形C4 我们分别称以它们为检验统计量的检验为u检验、t检验、x2检验和F检验。下面将分 别讨论这几种检验所适应的具体问题和检验的方法 检验( u test) u检验适应在方差已知的情况下,对期望的检验(单总体或双总体) (一)单总体情形 考察下面的例子: Example7.4一台包装机装洗衣粉,额定标准重量为500g,根据以往经验,包装机的 实际装袋重量服从正态N(G2),其中σ=15g,为检验包装机工作是否正常,随机抽取9 袋,称得洗衣粉净重数据如下(单位:g) 497506518524488517510515516 若取显著性水平a=0.01,问这包装机工作是否正常? 所谓包装机工作正常,即是包装机包装洗衣粉的份量的期望值应为额定份量500g,多装 了厂家要亏损,少装了损害消费者利益。因此要检验包装机工作是否正常,用参数表示就是 =500是否成立。 首先,我们根据以往的经验认为,在没有特殊情况下,包装机工作应该是正常的,由此 提出原假设和备选假设 Ho:=5 H1:4≠500 然后对给定的显著性水平α=0.01,构造统计量和小概率事件,来进行检验。 一般地,可将例7.4表述如下:设X~N(u,a2),G已知,X1X2,…,xn,为X的 子样,求对问题 的显著水平为a(0<a<1的检验。 这个问题就归结为,总体服从N(2),a2已知,需检验μ,由前所述,用u检验法 我们仿照例7.3的步骤来解这个问题 Solution1°提出假设(已有,略)。 2构造统计量。此问题属情形C1.的u检验,故用统计量 X 并计算其具体值。在例7.4中 u=((497+506+518+524+488+517+510+515+516)-500)(15/√9)=202 30易知,在H成立的条件下;u服从正态分布N(0,D),因此根据正态分布的特点,在H 成立的条件下,的值应以较大的概率出现在0的附近,因此对H0不利的小概率事件是u的
87 ( ) T 0 是有所不同的,第一, T ( ) 中含有待估的未知参数 ,因此,它不是统计量,只是一 般的随机变量;而 ( ) T 0 中的参数 0 为一已知数,因此它是统计量。第二, T ( ) 的分布是已 知的,这是因为其中的 与总体中的参数 是相一致的;而 ( ) T 0 的分布则需在假设总体参数 明确时分布才已知。除此之外,它们的分布形式是完全一样的。 上述统计量 ( ) T 0 在 H0 成立时通常有4种分布: D1. N(0,1) 情形 C1.、C3.中, (或1 , 2)已知 ; D2. t 分布情形,C1.、C3.中, (或1 , 2)未知 ; D3. 2 分布,情形 C2.; D4. F 分布,情形 C4. 我们分别称以它们为检验统计量的检验为 u 检验、 t 检验、 2 检验和 F 检验。下面将分 别讨论这几种检验所适应的具体问题和检验的方法。 一、 u 检验( u test) u 检验适应在方差已知的情况下,对期望的检验(单总体或双总体)。 (一)单总体情形 考察下面的例子: Example 7.4 一台包装机装洗衣粉,额定标准重量为 500g,根据以往经验,包装机的 实际装袋重量服从正态 ( , ) 2 N 0 ,其中 0 =15g,为检验包装机工作是否正常,随机抽取 9 袋,称得洗衣粉净重数据如下(单位:g) 497 506 518 524 488 517 510 515 516 若取显著性水平 =0.01,问这包装机工作是否正常? 所谓包装机工作正常,即是包装机包装洗衣粉的份量的期望值应为额定份量 500g,多装 了厂家要亏损,少装了损害消费者利益。因此要检验包装机工作是否正常,用参数表示就是 =500 是否成立。 首先,我们根据以往的经验认为,在没有特殊情况下,包装机工作应该是正常的,由此 提出原假设和备选假设: H0 : =500; H1 : 500 然后对给定的显著性水平 =0.01,构造统计量和小概率事件,来进行检验。 一般地,可将例 7.4 表述如下:设 ~ ( , ) 2 X N 0 , 2 0 已知, , , ., , X1 X2 Xn 为 X 的 一子样,求对问题 H0 : = 0 ; H1 : 0 的显著水平为 (0 1) 的检验。 这个问题就归结为,总体服从 ( , ) 2 N 0 , 2 0 已知,需检验 ,由前所述,用 u 检验法。 我们仿照例 7.3 的步骤来解这个问题。 Solution 1 0 提出假设(已有,略)。 2 0 构造统计量。此问题属情形C1.的u检验,故用统计量 n X u 0 0 − = 并计算其具体值。在例 7.4 中 (497 506 518 524 488 517 510 515 516) 500)/(15/ 9) 2.02 9 1 u = ( + + + + + + + + − = 3 0 易知,在 H0 成立的条件下; u 服从正态分布 N(0,1) ,因此根据正态分布的特点,在 H0 成立的条件下, u 的值应以较大的概率出现在0的附近,因此对 H0 不利的小概率事件是 u 的
值出现在远离0的地方。即大于某个较大的数,或小于某个较小的数。这一小概率事件对应 的否定域为 V=fuu-g >u12} 满足P(|H0)=α.构造这一否定域利用了u的概率密度曲线两侧尾部面积(图7-1),故 称具有这种形式的否定域的检验为双侧检验( Two-sided test)。 p(r) 4给定显著性水平,在例7.4中a=0.01,查出临界值u=-2.575,u=u=2.575. 5°从u的值判断小概率事件是否发生,并由此得出接受或拒绝H的结论。对于例7.4 因为在2中算出的u值,其绝对值小于2.575,样本点在否定域V之外,即小概率事件未发生 故接受H,亦即认为包装机工作正常。 (二)双总体情形 双总体u检验适应的问题的一般提法如下:设X1,X2,…,Xn为出自N(1,G1)的样本, 1,H2,…,为出自N(22)的样本,1,O2已知,两个总体的样本之间独立,求对于 1-2的显著水平为a的检验。例如假设具有下列形式 H:1-2≤0;H1:1-2>0 此问题属情形C3.的u检验,故用统计量 当H成立时,总体所服从的是一族分布,因此a的分布也无法确定,通常我们是先取H成 立时的边界值山一μ2=0,这时u~N(O,1,据此来确定否定域。易知,此时若H1: 11-42>0成立,则的值应有变大的趋势。于是对H。不利的小概率事件应为 V=u>u-a 显然当p1-2=0时,P(|p1-H2=0)=a;而当1-42=al1-a}=P{l-a>1a-a}<a 如图7-2所示 (z) 图7-2 总之,当H0成立时,P(|H)≤a.它被认为是在一次试验中实际上不出现的事件。这 否定域的构造利用了N(O,1概率密度单侧的尾部面积,故称这种形式的检验为单侧检验
88 值出现在远离0的地方。即 u 大于某个较大的数,或小于某个较小的数。这一小概率事件对应 的否定域为 { } { } { } 2 2 2 1 1 V u u u u u u − − = = 满足 P(V | H0 ) = .构造这一否定域利用了 u 的概率密度曲线两侧尾部面积(图 7-1),故 称具有这种形式的否定域的检验为双侧检验(Two-sided test)。 图 7-1 4 0 给定显著性水平,在例 7.4 中 =0.01,查出临界值 2 u =-2.575, 2 1 − u =- 2 u =2.575. 5 0 从 u 的值判断小概率事件是否发生,并由此得出接受或拒绝 H0 的结论。对于例 7.4, 因为在 2 0 中算出的 u 值,其绝对值小于 2.575,样本点在否定域 V 之外,即小概率事件未发生, 故接受 H0 ,亦即认为包装机工作正常。 (二)双总体情形 双总体 u 检验适应的问题的一般提法如下:设 X X Xn , , ., 1 2 为出自 ( , ) 2 N 1 1 的样本, Y Y Yn , , ., 1 2 为出自 ( , ) 2 N 2 2 的样本, 1 , 2 已知,两个总体的样本之间独立,求对于 1 − 2 的显著水平为 的检验。例如假设具有下列形式: H0 : 1 − 2 0;H1 : 1 − 2 0 此问题属情形 C3 .的 u 检验,故用统计量 2 2 2 1 2 1 ( ) n n X Y u + − = 当 H0 成立时,总体所服从的是一族分布,因此 u 的分布也无法确定,通常我们是先取 H0 成 立时的边界值 1 − 2 = 0 ,这时 u ~ N(0,1) ,据此来确定否定域。易知,此时若 H1 : 1 − 2 0 成立,则 u 的值应有变大的趋势。于是对 H0 不利的小概率事件应为 { } V = u u1− 显然当 1 − 2 = 0 时, P(V | 1 − 2 = 0) = ;而当 1 − 2 = a 0 时, u − a ~ N(0,1) , 此时 P(V | 1 − 2 = a) = P{u u1−} = P{u − a u1− − a} 如图 7-2 所示。 图 7-2 总之,当 H0 成立时, ( | ) P V H0 .它被认为是在一次试验中实际上不出现的事件。这 一否定域的构造利用了 N(0,1) 概率密度单侧的尾部面积,故称这种形式的检验为单侧检验
( One-sided test)。最后通过计算u的具体值,观察小概率事件是否发生,未发生接受H0,发 生了则拒绝H 般地,检验统计量若为正态或t分布,采用双侧或单侧检验仅与假设的形式有关,当备 选假设中的参数区域在原假设的参数区域的两侧时,用双侧检验,在一侧时,用对应于该侧 的单侧检验 二、t检验( t test) t检验用于当方差未知时对期望的检验,可以是单总体,也可是双总体。当然对于双总体, 它们的样本之间应该是独立的 (一)单总体情形 考察如下例子: Example7.5某部门对当前市场的价格情况进行调查。以鸡蛋为例,所抽查的全省 个集市上,售价分别为(单位:元/500克) 3.053.313.343.823.303.163.843.103.903.18 3.883.223.283.343.623.283.303.223.543.30 已知往年的平均售价一直稳定在3.25元/500克左右,能否认为全省当前的鸡蛋售价明显高于 往年 对于这样的实际问题,通常可以补充下列条件,首先,一般可认为全省鸡蛋价格服从正 态分布N(,a2),其次,我们定出一个显著水平如a=0.05.针对这一问题提出一个合理的假 设是 H:=3.25 1>3.25 将这一问题一般化就是:设X,X2,…,Xn为出自N(Aa2)的样本,a2未知,求对问 10:=o 的显著水平为a(0t1-a(n-D)} 最后根据计算出来的t值,看样本是否落在V内,若落在V内,则拒绝H。,否则,接受H。 具体到例7.5,可算出n=20,X=3.399,S=0.2622,由此计算出t=2.477.另外查表可得 1-a(n-1)=lo9n5(19)=2.0930,或<0) 的显著水平为a的检验 这是情形C3.中σ未知的场合,用统计量
89 (One-sided test)。最后通过计算 u 的具体值,观察小概率事件是否发生,未发生接受 H0 ,发 生了则拒绝 H0 . 一般地,检验统计量若为正态或 t 分布,采用双侧或单侧检验仅与假设的形式有关,当备 选假设中的参数区域在原假设的参数区域的两侧时,用双侧检验,在一侧时,用对应于该侧 的单侧检验。 二、 t 检验( t test) t 检验用于当方差未知时对期望的检验,可以是单总体,也可是双总体。当然对于双总体, 它们的样本之间应该是独立的。 (一)单总体情形 考察如下例子: Example 7.5 某部门对当前市场的价格情况进行调查。以鸡蛋为例,所抽查的全省 20 个集市上,售价分别为(单位:元/500 克) 3.05 3.31 3.34 3.82 3.30 3.16 3.84 3.10 3.90 3.18 3.88 3.22 3.28 3.34 3.62 3.28 3.30 3.22 3.54 3.30 已知往年的平均售价一直稳定在 3.25 元/500 克左右,能否认为全省当前的鸡蛋售价明显高于 往年? 对于这样的实际问题,通常可以补充下列条件,首先,一般可认为全省鸡蛋价格服从正 态分布 ( , ) 2 N ,其次,我们定出一个显著水平如 =0.05.针对这一问题,提出一个合理的假 设是 H0 : = 3.25 ; H1 : 3.25 将这一问题一般化就是:设 X1 X2 Xn , , , 为出自 ( , ) 2 N 的样本, 2 未知,求对问 题 H0 : = 0 ; H1 : > 0 的显著水平为 (0 1) 的检验。这属于情形 C1. 2 未知的情况,可用 t 检验。即取检验 统计量为 S n 1 X t 0 − − = 在 H0 成立的条件下, t ~ t(n − 1) ;又当 H1 成立时, t 有变大的趋势,因此用单侧检验,即取 否定域为 V {t t (n 1)} = 1− − 最后根据计算出来的 t 值,看样本是否落在 V 内,若落在 V 内,则拒绝 H0 ,否则,接受 H0 . 具体到例 7.5,可算出 n =20, X =3.399, S =0.2622,由此计算出 t =2.477.另外查表可得 ( 1) (19) 1 0.975 t n − = t − =2.093<2.477,故拒绝 H0 ,即鸡蛋的价格较往年明显上涨。 (二)双总体的情形 对于双总体,一般地讨论比较麻烦,通常考虑两种特殊情况,一种是 1 = 2 = (未 知)的情形,这一情形问题的一般提法是:设 1 , , , X1 X 2 X n 为出自 ( , ) 2 N 1 的样本, 2 , , , Y1 Y2 Yn 为出自 ( , ) 2 N 2 的样本,两个总体的样本之间独立,求问题 H : 0;H : 0( 0, 0) o 1 − 2 = 1 1 − 2 或 或 的显著水平为 的检验。 这是情形 C3。中 2 未知的场合,用统计量
t=,mn(n+n2-2)(x-万 H1+n2 其中S2=∑(X,-x)2,S2=∑(1-1)2.在H成立时,t服从自由度为 n1=1 n+n2-2的t分布.否定域则依照H1的具体内容来构造,即依照H1决定采用双侧或单侧 检验。 第二种情形是σ1,O2未知,但n1=n2=n,则可考虑所谓配对检验法(Mtod red- sample test)。此时令 ∑Z,S2=∑(Z1-z)2 由于当H1=2时,Z1~N(0.2+a2),且相互独立,则 z~N(0 IZ 且Z与S2独立,故t= t(n-1) S 可作为H0:山-H2=0的检验统计量。 Example7.6某工厂生产某种电器材料。要检验原来使用的材料与一种新硏制的材料的 疲劳寿命有无显著性差异,各取若干样品,做疲劳寿命试验,所得数据如下(单位:小时): 0110150659021027 新材料:6015022031038035025045011017 一般认为,材料的疲劳寿命服从对数正态分布,并可以假定原材料疲劳寿命的对数h5与新 材料疲劳寿命的对数hn有相同的方差,即可设h5~N(1,a2),hn~N(/2,O Solution问题归结为下述检验: H1:1≠H2 当H成立时,h与hn就有相同的分布,从而5与n有相同的分布,即两种材料的疲劳寿 命没有显著性差异。将前面的试验数据取对数 ln5:1.6022.0412.1761.8131.9542.3222.431 lnn:1.7782.1762.3422.4912.5602.5442.3982.6532.0412.243 记h的样本为X1,X2…,Xn,hn的样本为,Y2,…,Y2,则可算出 x=20484,S2 0.501 7≈0.072,n1 0.663 Y=2.3246,S2 =00663,n2=10 对此问题可用式(7.1)中的统计量t,具体算出 t=-20l 显然,这个问题须用双侧检验,若给显著性水平α=0.05,否定域V应为
90 2 2 2 2 1 1 1 2 1 2 1 2 n S n S X Y n n n n n n 2 t + − + + − = ( ) ( ) (7.1) 其 中 = = = − = − 1 2 1 2 2 2 2 1 2 1 2 1 ( ) 1 ( ) , 1 n i i n i i Y Y n X X S n S . 在 H0 成立时 , t 服 从 自 由 度 为 n1 + n2 − 2 的 t 分布.否定域则依照 H1 的具体内容来构造,即依照 H1 决定采用双侧或单侧 检验。 第二种情形是 1 2 , 未知,但 n1 = n2 = n ,则可考虑所谓配对检验法(Method of paired-sample test)。此时令 = = = = − = − = n i i n i i i i i Z Z n Z S n Z Z X Y i n 1 2 2 1 ( ) 1 , 1 , 1,2,, , 由于当 1 = 2 时, ~ (0, ) 2 2 2 Zi N 1 + ,且相互独立,则 ~ (0, ), ~ ( 1) 2 2 2 2 1 2 2 2 2 1 − + + n nS n Z N 且 2 Z与S 独立,故 ~ ( 1) 1 1 1 2 2 2 1 2 2 2 2 1 − − = − + + = t n S n Z n nS n Z t t 可作为 H0 : 1 − 2 = 0的检验统计量。 Example 7.6 某工厂生产某种电器材料。要检验原来使用的材料与一种新研制的材料的 疲劳寿命有无显著性差异,各取若干样品,做疲劳寿命试验,所得数据如下(单位:小时): 原材料: 40 110 150 65 90 210 270 新材料: 60 150 220 310 380 350 250 450 110 175 一般认为,材料的疲劳寿命服从对数正态分布,并可以假定原材料疲劳寿命的对数 ln 与新 材料疲劳寿命的对数 ln 有相同的方差,即可设 ln ~ ( , ) 2 N 1 ,ln ~ ( , ) 2 N 2 . Solution 问题归结为下述检验: H0 : 1 = 2 ; H1 : 1 2 当 H0 成立时, ln 与 ln 就有相同的分布,从而 与 有相同的分布,即两种材料的疲劳寿 命没有显著性差异。将前面的试验数据取对数: ln : 1.602 2.041 2.176 1.813 1.954 2.322 2.431 ln : 1.778 2.176 2.342 2.491 2.560 2.544 2.398 2.653 2.041 2.243 记 ln 的样本为 1 , , , X1 X 2 X n ,ln 的样本为 2 , , , Y1 Y2 Yn ,则可算出 0.0663, 10 10 0.663 2.3246, 0.072, 7 7 0.501 2.0484, 2 2 2 1 2 1 = = = = = = = Y S n X S n 对此问题可用式(7.1)中的统计量 t ,具体算出: t = −2.01 显 然 , 这 个 问 题 须 用 双 侧 检 验 , 若 给 显 著 性 水 平 =0.05 , 否 定 域 V 应 为
t卜t05(7+10-2)=lo93(15)≈213} 计算结果表明Hx24(n-1} 如图7-3所示。 图7-3 此时P(|H0)=+=a.对于(ii)当H0成立时,σ2≤a0,令 则2~x2(n-D且2≥x2.注意到此时,不利于H0的事件是统计量x2变大,因此,采用 单侧检验,即取否定域为 ={x2>x(n-D)} 可知此时有 P(|H0)=P{x2>x20(n-1)}≤P{2>x2(n-1)}=a 二)F检验 设X1,X2,…X为出自N(422)的样本,HY2,…,P为出自N(422)的样本, 且样本之间独立。考虑假设
91 {| | (7 10 2) (15) 2.13} 0.975 2 0.05 1 + − = − t t t . 计算结果表明 t 2.13 ,因此不能否定 H0 ,即认为两种材料的疲劳寿命没有显著性差异。 三、 2 检验和 F 检验( 2 test and F test) 2 检验和 F 检验都是对于方差的检验,前者用于单参数的情形C2.,后者往往用于两参 数的情形C4. (一) 2 检验 设 X1 X2 Xn , , , 为出自 ( , ) 2 N 的样本,要对参数 2 进行检验,这里 往往是未知 的。假设的形式通常如 (ⅰ) H0 : 2 = 2 0 ; H1 : 2 2 0 (ⅱ) H0 : 2 2 0 ; H1 : 2 2 0 ( H0 : 2 2 0 ; H1 : 2 < 2 0 类似) 都可选择统计量 2 0 2 2 nS = (7.2) 对于(i),当 H0 成立时,式(7.1)右边服从 2 (n-1)分布。由于 2 1 S n n − 是 2 的无 偏估计,因此,当 H0 成立时,上述值应趋向于 n −1,而它也正好是 2 (n-1)的期望值。 比值太大或太小都不利于 H0 ,自然地,可以来用双侧检验,取否定域为 V { (n 1)} { (n 1)} 2 1 2 2 2 2 2 = − − − 如图 7-3 所示。 图 7-3 此时 . 2 2 ( | ) 0 P V H = + = 对于(ii)当 H0 成立时, 2 2 0 ,令 2 2 ~2 nS = 则 2 2 2 2 n −1 ~ ( ),且 .注意到此时,不利于 H0 的事件是统计量 2 变大,因此,采用 单侧检验,即取否定域为 V { (n 1)} 2 1 2 = − − 可知此时有 ( | ) = { − ( −1)} { − ( −1)} = 2 1 2 2 1 2 P V H0 P n P n (二) F 检验 设 1 , , , X1 X 2 X n 为出自 ( , ) 2 N 1 1 的样本, 2 , , , Y1 Y2 Yn 为出自 ( , ) 2 N 2 2 的样本, 且样本之间独立。考虑假设
≠ (ⅱ)Hn:a12≤ 对此可采用统计量 (n,-7s F= (7.3 n2(n1-1)S2 进行检验,易知,对于(i),在H0下,F~F(n1-l,n2-D),我们可取否定域为 ={FFa(m1-1,n2-1 此时P(|H)=a 对于(ⅱ),类似前面的讨论,可取否定域为 ={F>F2(m1-l,n2-1) 此时P(|H0)≤ Example7.7一台机床大修前曾加工一批零件,共n1=10件,加工尺寸的样本方差为 S2=250042).大修后加工一批零件,共n2=12件,加工尺寸的样本方差为S2=40042) 问此机床大修后,精度有明显提高的最小显著性水平大致有多大 Solution对此实际问题,可设加工尺寸服从正态分布,即机床大修前后加工尺寸分别服 从N(1G12)和N(A2,a2).于是由题意有 0=0 用F统计量 n,(n,一 F 6.36 (n1-1S212×9×40 否定域为(F>Fa(9,11)},从表上查得 当a=0005时,F-(911)=554636 由此可知,在否定H的前提下,最小显著性水平在0.001到0.005之间 §7.3检验的实际意义及两类错误 of Tests and two t 前面对参数的假设检验的方法进行了较详尽的讨论,但读者可能有不少疑问,如这些检 验方法对于相应的问题是不是唯一的方法?若不是唯一的,是不是最优的方法?最优的标准又 是什么?检验的优劣与显著性水平a的关系如何?下面我们将研究一下这方面的问题。为了 不涉及过多的概念和理论推证,我们的讨论只是较为简略的。 检验结果的实际意义( Practical significance of results of tests) )检验的原理是“小概率事件在一次试验中不发生”,以此作为推断的依据,决定是 接受H0或拒绝H0·但是这一原理只是在概率意义下成立,并不是严格成立的,即不能说小概 率事件在一次试验中绝对不可能发生。仍以例7.3来说,尽管按统计推断结论,认为摸球人 作弊,但事实上也完全可能没有作弊。试想如果在不作弊的情况下,10次全部摸中绿球绝对 不可能的话,那么开设摸奖就没有意义了。因此,当摸奖人事实上的确是未作弊的话,商店 的统计推断就犯了错误,关于犯检验的错误我们放到后面再讲。 b)在假设检验中,原假设H与备选假设H1的地位是不对等的。一般来说a是较小的
92 (ⅰ) H0 : 2 1 = 2 2 ; H1 : 2 1 2 2 (ⅱ) H0 : 2 1 2 2 ; H1 : 2 1 2 2 对此可采用统计量 2 2 1 2 2 1 2 1 n n 1 S n n 1 S F ( ) ( ) − − = (7.3) 进行检验,易知,对于(i),在 H0 下, F ~ F(n 1,n 1) 1 − 2 − ,我们可取否定域为 V {F F (n 1,n 1)} {F F (n 1,n 1)] 1 2 1 1 2 2 2 = − − − − − 此时 P(V | H0 ) = . 对于(ⅱ),类似前面的讨论,可取否定域为 V {F F (n 1,n 1)} = 1− 1 − 2 − 此时 P(V | H0 ) . Example 7.7 一台机床大修前曾加工一批零件,共 1 n =10 件,加工尺寸的样本方差为 ( ) 2 2 S1 = 2500 .大修后加工一批零件,共 n2 = 12 件,加工尺寸的样本方差为 ( ) 2 2 S2 = 400 . 问此机床大修后,精度有明显提高的最小显著性水平大致有多大? Solution 对此实际问题,可设加工尺寸服从正态分布,即机床大修前后加工尺寸分别服 从 ( , ) 2 N 1 1 和 ( , ) 2 N 2 2 .于是由题意有 H0 : 2 1 = 2 2 ; H1 : 2 1 > 2 2 用 F 统计量 6 36 12 9 400 10 11 2500 n n 1 S n n 1 S F 2 2 1 2 2 1 2 1 . ( ) ( ) = − − = 否定域为{ F > (9,11) F1− },从表上查得 0.001 (9,11) 8.12 6.36; 0.005 (9,11) 5.54 6.36; 1 1 = = = = − − F F 当 时, 当 时, 由此可知,在否定 H0 的前提下,最小显著性水平在 0.001 到 0.005 之间。 §7.3 检验的实际意义及两类错误 (Practical Significance of Tests and Two Types Error) 前面对参数的假设检验的方法进行了较详尽的讨论,但读者可能有不少疑问,如这些检 验方法对于相应的问题是不是唯一的方法?若不是唯一的,是不是最优的方法?最优的标准又 是什么?检验的优劣与显著性水平 的关系如何?下面我们将研究一下这方面的问题。为了 不涉及过多的概念和理论推证,我们的讨论只是较为简略的。 一、 检验结果的实际意义(Practical significance of results of tests) a)检验的原理是“小概率事件在一次试验中不发生”,以此作为推断的依据,决定是 接受 H0 或拒绝 H0 .但是这一原理只是在概率意义下成立,并不是严格成立的,即不能说小概 率事件在一次试验中绝对不可能发生。仍以例 7.3 来说,尽管按统计推断结论,认为摸球人 作弊,但事实上也完全可能没有作弊。试想如果在不作弊的情况下,10 次全部摸中绿球绝对 不可能的话,那么开设摸奖就没有意义了。因此,当摸奖人事实上的确是未作弊的话,商店 的统计推断就犯了错误,关于犯检验的错误我们放到后面再讲。 b)在假设检验中,原假设 H0 与备选假设 H1 的地位是不对等的。一般来说 是较小的