中国科学技术大学：《数理统计》课程教学资源（课件讲义）第九讲参数假设检验（一）.pdf_大学文库

注意这个提法中将Ho放在中心位置，它是检验的对象.H和H1的位置不可颠倒.从这个例子可将假设检验问题一般化，提法如下：设有参数分布族{F4,0∈日}，此处日为参数空间.X1,·,Xn是从上述分布族中抽取的简单随机样本.在参数假设检验问题中，我们感兴趣的是是否属于参数空间日的某个真子集日0，则命题Ho:0∈Θ称为零假设或原假设，其确切含义是：存在一个0∈日0使得X的分布为Fg。.记日1=日-Θ0，则命题H1:9∈日1称为Ho的对立假设或备择假设（在例5.1.1中，日=(0,1），90=(0,0.01，日1=(0.01,1).则假设检验问题表为 H0:0∈Θ0←→H1:0∈Θ1， (1.1) 在(5.1.1)式中，若9o或01只包含参数空间日中的一个点，则称为简单假设(simple hypothe- sis):否则，称为复合假设(composite hypothesis).例如，样本抽自N(a,o),后已知，则参数空间为日={a:-oao,则零假设H和对立假设H1皆为复合假设二、假设检验的依据-小概率原理在例5.1.1中，由于这批产品数量很大，故若记X为抽取的100件产品中的次品数，则可以近似认为X~B(100,p.如果零假设0<p≤0.01是正确的，则 P(X≥3)≤1-∑Cioo0.010.991400--0.079 =0 即如果认为这批产品是合格的，则100件产品中有3件次品或者更多次品的可能性只有7.9%，这个概率比较小，按照小概率原理，不大可能在一次实验中就发生，但我们偏偏观测到了.因此有理由怀疑零假设是不正确的. 应用小概率原理只能大体上表达我们对零假设是否成立的大致推断三、否定域、检验函数和检验统计量我们仍通过例子来说明这个概念，例5.1.2设X=(X1,·,Xn)为从总体X~N(a,1)中抽取的随机样本.考虑检验问题： Ho:a=ao←→H1:a≠a0: (1.2) 此处，ao为给定的常数，这种检验的一种直观上的作法是：先求a的一个估计量，我们知道了=A∑1X:是a的一个优良估计.若下一ao较大，我们就倾向于否定Ho;反之，如果区-a0较小，我们就认为抽样结 2

在例5.1.2中要确定检验，必须定出(5.1.3)或(5.1.4)式中的A,此处A称为临界值(critical vaue).要定下c的值需要找到检验统计量的分布.在此例中检验统计量是T=灭.同样在例5.1.1中，检验函数(5.15)中的c称为临界值，检验统计量是T=∑X.确定检验统计量的分布是解决假设检验问题的关键.当检验统计量的精确分布很难找到时，若其极限分布比较简单，我们可用极限分布代替精确分布，获得假设检验问题的近似解，四、两类错误与功效函数统计推断是以样本为依据的，由于样本的随机性，我们不能保证统计推断方法的绝对正确性，而只能以一定的概率去保证这种推断的可靠性在假设检验问题中可能出现下列两种情形会犯错误：决策拒绝Ho 接受Ho 假设 Ho为真犯错不犯错 H1为真不犯错犯错 1.零假设Ho本来是对的，由于样本的随机性，样本观察值落入否定域D,错误地将Ho否定了，称为弃真.这时犯的错误称为第一类错误(Type I error), 2.零假设H0本来不对，由于样本的随机性，样本观察值落入接受域D,错误地将H接受了，称为取伪.这时犯的错误称为第二类错误(Type IⅡerrOr). 如在例5.1.1中确定了非随机检验如下： 1 o(x) 若∑10X>3 0 若∑X:≤3. 如果总体的真实次品率为p=0.0050.01,由于样本的随机性，抽样结果显示∑1X:=1,即样本落入了接受域.这时我们犯第二类错误。应当注意，在每一具体场合，我们只会犯两类错误中的一个.当检验确定后，犯两类错误的概率也就确定了.我们希望犯两类错误的概率越小越好，但这一点很难做到.在样本大小固定的前提下，二者不可兼得.这就如同区间估计问题中可靠度和精度二者不可兼得一样.那么，怎样去计算犯两类错误的概率呢？为此，引出功效函数的概念。定义5.1.2设p(x)是H0:0∈日0←→H1：0∈日1的一个检验函数，则 B(0)=Pe{用检验p否定了Ho}=Ea[p(X)儿，0∈Θ 称为p的功效函数(power function),也称为效函数或势函数. 若(x)为非随机化检验，否定域为D,则 B(0)=Po(X=(X1,...,Xn)E D) 4

因此功效函数表示当样本分布参数为9时，否定Ho的概率.对例5.1.1，当检验函数为随机化检验(1.5)时，利用∑1X,~b(m,),0d+P(x=e）以下讨论中假定(x)皆为非随机化的检验函数，除非特别申明，不认为(x)为随机化检验函数. 知道了检验(x)的功效函数后，就可以计算犯两类错误的概率.若以α()和B()分别记犯第一、二类错误的概率，则犯第一类错误的概率可表示为 Be(8)当∈6o 当0∈Θ1，犯第二类错误的概率可表示为 0 当0∈日0 8*(0) 1-3.(0)当0∈61. 还需要说明的一点是：如前所述，犯两类错误的概率完全由功效函数决定，从这一点上看，如果两个检验有同一功效函数，则此两检验在性质上也完全相同. 四、检验水平和控制犯第一类错误概率的原则前面说过，我们希望一个检验犯两类错误的概率都很小，但除极例外情形，一般说来在固定样本大小时对任何检验都办不到.例如，要使犯第一类错误的概率减小，就要缩小拒绝域，使接受域增大，这必然导致犯第二类错误概率增大，反之亦然.因此，Neyman-Pearson提出了一条原则，就是限制犯第一类错误概率的原则.即在保证犯第一类错误的概率不超过指定数值α (0<α<1，通常取较小的数)的检验中，寻找犯第二类错误概率尽可能小的检验.若记 Sa={p:a*(0)=B(0)≤a,当0∈Θo}: S。表示由所有犯第一类错误的概率都不超过α的检验函数构成的类.我们只考虑S。中的检验在S。中挑选“犯第二类错误的概率尽可能小的检验”，这种法则称为控制犯第一类错误概率的法则. 根据Neyman-Pearson原则，在原假设Ho为真时，我们作出错误决定（即否定Ho)的概率受到了控制.这表明，原假设Ho受到保护，不致于轻易被否定.所以在具体问题中，我们往往将有把握、不能轻易否定的命题作为原假设Ho,而把没有把握的、不能轻易肯定的命题作为对立假设.因此原假设Ho和对立假设H1的地位是不平等的，不能相互调换. 5

与犯第一类错误概率相联系的另一个概念是检验水平，其定义如下：定义5.1.3设p是(1.1)的一个检验，而0≤a≤1.如果p犯第一类错误的概率总不超过a (或等价地说，若p满足：B(0)≤a,对一切0∈日o),则称a是检验p的一个水平，而p称为显著性水平为a的检验，简称水平为α的检验. 按这一定义，检验的水平不唯一.若a为检验p的水平，而a<a'<1,则a'也是检验p的水平为避免这一问题，有时称一个检验的最小水平为其真实水平.也就是检验p的真实水平=sup{Be(0),9∈Θo} (1.6) 至于水平的选择，习惯上把α取得比较小且标准化，如a=0.01,0.05,0.10等.标准化是为了方便造表水平的选取，对检验的性质有很大影响.不难了解，如果水平选得很低，那么我们容许犯第一类错误的概率很小，而为了达到这一点势必大大缩小否定域，而这样就增加了犯第二类错误的可能性.反之，若水平选得高，则否定域扩大，使接受域缩小，从而犯第二类错误的概率相应的将降低.这样看来，水平的选择不是一个数学问题，而是一个必须从实际角度来考虑的问题.一般说来有以下几个因素影响水平的选定 1.当一个检验涉及两方利益时，水平的选定常是双方协议的结果.以例5.1.1为例，商店向工厂进货，检验其次品率是否超过0.01，若水平选的低，则可能有较多的次品被商店接受：反之，若水平定的高，则将有较多的合格品被商店拒收.因此水平定的大小涉及商店和工厂双方利益，应由双方商定.如前所述有时还要采取随机化的方法，使双方利益达到平衡】 2.两种错误的后果一般在性质上有很大的不同.如果第一类错误的后果在性质上很严重，我们就力求在合理的范围内尽量减少犯这种错误的可能性，这时相应的水平就取得更低一些.例如，制药厂要生产一种新药代替旧药治疗某种疾病，安排了一些试验，要对新旧药物疗效作出检验.由于旧药已经长期临床使用，有一定的疗效.新药尚未经长期临床使用，一旦效果不好时，将危及病人的生命安全，造成的后果会很严重.所以在进行检验时，将原假设Ho设为”旧药不比新药差”，且使检验水平α定得更小一些，这样使Ho被否定的可能性大大减小了.这样就保证了： “原假设被否定、新药被接受的检验”将是非常严格的。 3.一般说来，试验者在试验前对问题的情况总不是一无所知的.他对问题的了解使他对零假设是否能成立就有了一定的看法.这种看法可能影响到他对水平的选择.比方说一个物理学家根据某种理论推定随机变量X应有分布F,而他打算将这一理论付诸检验.很明显，如果他对这一理论很有信心，他将非常倾向于认为假设能成立，这时只有很有力的证据才可能使他认为这假设不对.相应地，他将把检验水平取得低一些在实际问题中，零假设被否定，常常意味着推翻一种理论或用新方法来代替一直使用的标准方法.在大多数情况下，人们希望这样做时有相当大的根据.从这里可以看到，Neyman- Pearson:控制犯第一类错误的原则，在零假设的选择中有很大的实际意义，而决不单纯是一数学问题.同时，也进一步理解了在假设检验问题中，零假设处在突出地位的原因最后要说明的一点是：若水平α很小，原假设H0不会轻易被否定.如果样本观察值落入了否定域，我们做出“否定原假设Ho”的结论就比较可靠（因为，此时我们只会犯第一类错误，且其概率很小).反之，当α很小时，如果样本观察值落入接受域，我们做出“接受原假设Ho”的结论未必可靠.这只能表明：在所选定的水平下没有充分根据认为H不成立，决不意味着有充分根据说明它正确（因为此时我们只会犯第二类错误，但其概率可能很大）· 6

Üã1òaÜÿV«ÉÈX,òáVg¥uY², Ÿ½¬Xe: ½¬5.1.3 ϕ¥(1.1)òáu, 0 ≤ α ≤ 1. XJϕã1òaÜÿV«oÿáLα (½d/`, eϕ˜v: βϕ(θ) ≤ α,ÈòÉθ ∈ Θ0) , K°α¥uϕòáY², ϕ°èwÕ5 Y²èαu, {°Y²èαu. U˘ò½¬,uY²ÿçò.eαèuϕY², α < α0 < 1,Kα 0è¥uϕY². è;ù˘òØK, kû°òáuÅY²èŸ˝¢Y². è“¥ uϕ˝¢Y² = sup{ βϕ(θ), θ ∈ Θ0} (1.6) ñuY²¿J,S.˛rα'ÖIOz,Xα = 0.01, 0.05, 0.10. IOz¥è ê BEL. Y²¿, Èu5ükÈåKè. ÿJ ),XJY²¿È$, @o·ÇNNã1ò aÜÿV«È, è à˘ò:³7åå†ƒ½ç, ˘“O\ ã1aÜÿå U5. áÉ,eY²¿p,Kƒ½ç*å, ¶…ç†, l ã1aÜÿV«ÉAÚ¸ $. ˘w5,Y²¿Jÿ¥òáÍÆØK, ¥òá7Ll¢S›5ƒØK. òÑ`5 k±eAáœÉKèY²¿½. 1. òáu9¸ê|Ãû, Y²¿½~¥VêÆ(J. ±~5.1.1è~,˚AïÛ Ç?¿, uŸg¨«¥ƒáL0.01,eY²¿$,KåUkıg¨˚A…;áÉ,eY ²½p, KÚkı‹Ç¨˚A·¬. œdY²½å9˚A⁄ÛÇVê|Ã,Ad Vê˚½. Xc§„,kûÑáÊëÅzê{,¶Vê|Ãà²Ô. 2. ¸´ÜÿJòÑ35ü˛kÈåÿ”. XJ1òaÜÿJ35ü˛ÈÓ, · Ç“Â¶3‹nâåS¶˛~ã˘´ÜÿåU5,˘ûÉAY²“ç$ò . ~ X,õÜÇá)ò´#ÜìOŒÜ£,´;æ, S¸ ò £,áÈ#ŒÜ‘ä—u . duŒÜÆ²œK¶^,kò½. #Üˇô²œK¶^, òJÿ–û,Ú à9æ<)·S, E§J¨ÈÓ. §±3?1uû, ÚbH0è”ŒÜÿ' #Ü”,Ö¶uY²α½çò , ˘¶H0ƒ½åU5åå~ . ˘“y : /bƒ½!#Ü…u0Ú¥ö~ÓÇ. 3. òÑ`5,£ˆ3£cÈØKú¹oÿ¥òÃ§. ¶ÈØK )¶¶È"b ¥ƒU§·“k ò½w{, ˘´w{åUKè¶ÈY²¿J. 'ê`òá‘nÆ[ ä‚,´nÿÌ½ëÅC˛XAk©ŸF, ¶ãéÚ˘ònÿGÃu. È²w,XJ¶È˘ò nÿÈk&%,¶Úö~ñïu@èbU§·, ˘ûêkÈkÂy‚‚åU¶¶@è˘b ÿÈ. ÉA/,¶ÚruY²$ò . 3¢SØK•, "bƒ½, ~~øõXÌÄò´nÿ½^#ê{5ìOòÜ¶^ IOê{. 3åıÍú¹e,<ÇF"˘âûkÉåä‚. l˘på±w, NeymanPearsonõõã1òaÜÿK,3"b¿J•kÈå¢Sø¬, ˚ÿ¸X¥òÍÆ ØK. ”û,è?ò⁄n) 3buØK•,"b?3‚—/†œ. Åá`²ò:¥:eY²αÈ,bH0ÿ¨î¥ƒ½. XJ* ä·\ ƒ½ ç, ·Çâ—/ƒ½bH00(ÿ“'åÇ(œè, dû·Çê¨ã1òaÜÿ, ÖŸV «È). áÉ, αÈû,XJ* ä·\…ç,·Çâ—/…bH00(ÿô7 åÇ. ˘êUL²:3§¿½Y²evkø©ä‚@èH0ÿ§·,˚ÿøõXkø©ä‚`² ß((œèdû·Çê¨ã1aÜÿ, ŸV«åUÈå) . 6

中国科学技术大学：《数理统计》课程教学资源（课件讲义）第九讲 参数假设检验（一）

中国科学技术大学：《数理统计》课程教学资源（课件讲义）第九讲参数假设检验（一）