
目录第六章参数估计196.2区间估计186.2.1置信区间1置信界$6.2.24确定样本大小$6.2.34i
8 ¹ 18Ù ëêO 1 §6.2 «mO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 §6.2.1 &«m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 §6.2.2 &. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 §6.2.3 (½ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 i

第六章参数估计86.2区间估计对于一个未知量,人们在测量和计算时,常不以得到近似值为满足,还需要估计误差,及要求知道近似值的精确程度(亦即所求真值所在的范围).类似的,对于未知的参数§,除了求出它的点估计外,我们还希望估计出一个范围,并希望知道这个范围包含参数6真值得可信程度这样的范围通常以区间形式给出,同时还给出此区间包含真值得可信程度.这种形式的估计称为区间估计比如一个人的年龄在18-25之间;月支出在400-600元之间等,区间估计的好处是把可能的误差用醒目的形式表示出来了.比如你估计月花费支出是500,我们相信多少会有误差,但是误差有多大?单从你提出的500这个数字还给不出什么信息,若你给出估计支出是400-600之间,则人们相信你在作出这估计时,已把可能出现的误差考虑到了,多少给人们以更大的信任感.因此区间估计也是常用的一种估计方式现在最流行的一种区间估计理论是J.Neyman在上世纪30年代建立起来的.他的理论的基本概念很简单,为表达方便,我们暂时假定总体分布只包含一个未知参数,且要估计的就是0本身.如果总体分布中包含若干位置参数01,··,0,而要估计的是g(01,···,0),则基本概念和方法并无不同.这在后面的例子里可以看出86.2.1置信区间Neyman建立起来的区间估计也叫置信区间,字面上的意思是:对该区间能包含未知参数可置信到何种程度.假设X1,...,X,是从该总体中抽取的样本,所谓e的区间估计,就是要寻求满足条件(X1,.,Xn)<(X1,,Xn)的两个统计量@和为端点的区间[但,可]一旦有个样本X1,Xn的值后,就把估计在区间[(Xi,Xn),(X1,.·,X)]之内.不难理解,这里有两个要求·6以很大概率被包含在区间[,可内,也就是说Pe(α≤0≤0)=1- Q尽可能大,即要求估计尽量可靠·估计的精度要尽可能高,比如要求区间,要尽可能的短,或者某种能体现这个要求的其他准则。1
18Ù ëêO §6.2 «mO éuþ,<3ÿþÚO, ~رCq÷v, IOØ, 9¦Cq°(§Ý(½=¤¦ý¤3). aq, éuëêθ, Ø ¦Ñ§:Oˆθ , ·F"OÑ, ¿F"ù¹ëêθý &§Ý. ùÏ~±«m/ªÑ, ÓÑd«m¹ý&§ Ý. ù«/ªO¡«mO. 'X<c#318-25m; |Ñ3400-600m. «mOÐ?´r UØ^28/ªL«Ñ5 . 'X\Os¤|Ñ´500, ·&õ¬k Ø, ´Økõ? ül\JÑ500ùêiØÑo&E, e\ÑO| Ñ´400-600m, K<&\3ÑùO, ®rUÑyØÄ , õ <±&?a. Ïd«mO´~^«Oª. y361««mOnØ´J. Neyman3þV30cïáå5. ¦n ØÄVgé{ü, LB, ·6b½oN©Ù¹ëêθ, OÒ´θ. XJoN©Ù¥¹eZ ëêθ1, · · · , θk, O´g(θ1, · · · , θk), KÄVgÚ{¿ÃØÓ. ù3¡~fp±wÑ. §6.2.1 &«m Neymanïáå5«mO&«m, i¡þ¿g´: éT«mU¹ ëêθ&Û«§Ý. bX1, · · · , Xn´lToN¥Ä, ¤¢θ«mO,Ò ´Ï¦÷v^θ(X1, · · · , Xn) < ¯θ(X1, · · · , Xn)üÚOþθÚ¯θà:«m[θ, ¯θ]. kX1, · · · , Xn,ÒrθO3«m[θ(X1, · · · , Xn), ¯θ(X1, · · · , Xn)]S. Ø Jn),ùpkü¦ • θ ±éVǹ3«m[θ, ¯θ]S, Ò´` Pθ(θ ≤ θ ≤ ¯θ) = 1 − α ¦U, =¦O¦þ. • O°Ý¦Up§'X¦«m[θ, ¯θ]¦Uá, ½ö,«UNyù ¦Ù¦OK" 1

比如估计一个人的年龄,如[30,35],我们自然希望这个人的年龄有很大把握在这个区间之内,并且希望这个区间不能太长.如果估计是[10,90],当然可靠了,但是精度太差,用处不大但这两个要求是相互矛盾的,因此区间估计的原则是在已有的样本资源限制下,找出更好的估计方法以尽量提高可靠性和精度。Neyman提出了广泛接受的准则:先保证可靠性,在此前提下尽可能提高精度。为此,引入如下定义定义6.2.1.设总体分布F(a,0)含有一个或多个未知的参数0,9E日,对给定的值α,(0<α<1),若由样本Xi,..,Xn确定的两个统计量=(X1,.,Xn)和=(Xi,.,Xn),满足Pe(≤0≤)=1-QV0e称1一α为置信系数或置信水平,而称[,为6的置信水平为1一Q的置信区间。区间估计就是在给定的置信水平之下,去寻找有优良精度的区间。一般,我们首先寻求参数的一个估计(多数是基于其充分统计量构造的),然后基于此估计量构造参数6的置信区间,介绍如下1.枢轴变量法设待估参数为g(0),1.找一个与待估参数(0)有关的统计量T,一般是其一个良好的点估计(多数是通过极大似然估计构造);2.设法找出T与g()的某一函数S(T,g(0)的分布,其分布F要与参数无关(S即为枢轴变量);3.对任何常数a<b,不等式a≤S(T,g(0))≤b要能表示成等价的形式A≤g(0)≤B,其中A,B只与T,a,b有关而与参数无关;4.取分布F的上α/2分位数wa/2和上(1-α/2)分位数w1-α/2,有F(wα/2)-F(w1-a/2)=1-Q.因此P(w1-α/2 ≤ S(T, g(0) ≤wα/2) = 1 - Q由3我们就可以得到所求的置信区间,2
'XO<c#, X[30,35], ·g,F"ù<c#kérº3ù«m S, ¿ F"ù«mØU. XJO´[10,90], , ,´°Ý, ^? Ø. ùü¦´pgñ§Ïd«mOK´3®k] e§é ÑÐO{±¦þJp5Ú°Ý"Neyman JÑ 2ÉOKµky 5§3dcJe¦UJp°Ý"d§Ú\Xe½Â: ½Â 6.2.1. oN©ÙF(x, θ)¹k½õëêθ§θ ∈ Θ§é½α,(0 < α < 1)§edX1, · · · , Xn(½üÚOþ¯θ = ¯θ(X1, · · · , Xn) Úθ = θ(X1, · · · , Xn)§ ÷v Pθ(θ ≤ θ ≤ ¯θ) = 1 − α ∀ θ ∈ Θ ¡1 − α&Xê½&Y²§ ¡[θ, ¯θ]θ&Y²1 − α&«m" «mOÒ´3½&Y²e§Ïék`û°Ý«m" §·ÄkϦëêθO(õê´ÄuÙ¿©ÚOþE)§,Ä udOþEëêθ&«m§0Xe: 1. ͶCþ{ ëêg(θ)§ 1. éëêg(θ)k'ÚOþT§´ÙûÐ:O(õê´ÏL4 q,OE)¶ 2. {éÑTg(θ),¼êS(T, g(θ))©Ù§Ù©ÙFëêθÃ'(S=Ͷ Cþ); 3. é?Û~êa < b§Øªa ≤ S(T, g(θ)) ≤ bUL«¤d/ªA ≤ g(θ) ≤ B§Ù ¥A, BT, a, bk' ëêÃ'¶ 4. ©ÙFþα/2© êωα/2Úþ(1 − α/2)© êω1−α/2§kF(ωα/2 ) − F(ω1−α/2 ) = 1 − α. Ïd P(ω1−α/2 ≤ S(T, g(θ)) ≤ ωα/2 ) = 1 − α d3·Ò±¤¦&«m. 2

例6.2.1.设Xi,,Xn为从正态总体N(μ,g2)中抽取得样本,求参数μ,g2的1-α置信区间。解:由于,的估计×s满足Ti= Vn(X-μ)/S~ tn-1T2 = (n - 1)S /α2 ~ xn-1所以T1,T2就是我们所要寻求的枢轴变量,从而易得参数μ,?的1-α置信区间分别为1Stn-1(a/2),X+1sX-Stn-1(α/2)VnVn(n - 1)s? (n-1)s?xn-1(α/2)"xn-1(1 -α/2)]例6.2.2.设X1,..·,Xn为从正态总体N(μ1,o)中抽取得样本,Yi,.·,Ym为从正态总体N(μ2,o2)中抽取得样本,两组样本相互独立。求参数μ1一2/2的1一α置信区间。解:方法完全类似于前面的例子,此处略2.大样本法大样本法就是利用中心极限定理,以建立枢轴变量。通过以下例子说明例6.2.3.某事件A在每次实验中发生的概率都是p,作n次独立的实验,以Yn记A发生的次数。求p的1一α置信区间。解:设n比较大,令q=1-p,则由中心极限定理知,近似有(Yn-np)/Vnpq~N(0,1),从而(Yn一np)/Vnpg可以作为枢轴变量。由(*)P(-uα/2 ≤ (Yn - np)//mpq ≤ ua/2) ~ 1 - Q可以等价表示成P(A≤p≤B)~1-Q其中A,B为方程(Yn -np)/Vnpq = ua/23
~ 6.2.1. X1, · · · , XnloNN(µ, σ2 )¥Ä§¦ëêµ, σ21 − α&« m" )µduµ, σ2OX, S ¯ 2÷v T1 = √ n(X¯ − µ)/S ∼ tn−1 T2 = (n − 1)S 2 /σ2 ∼ χ 2 n−1 ¤±T1, T2Ò´·¤Ï¦Í¶Cþ§l ´ëêµ, σ21 − α&«m©O X¯ − 1 √ n Stn−1(α/2), X¯ + 1 √ n Stn−1(α/2) , (n − 1)S 2 χ 2 n−1 (α/2), (n − 1)S 2 χ 2 n−1 (1 − α/2) . ~ 6.2.2. X1, · · · , XnloNN(µ1, σ2 1 )¥Ä§Y1, · · · , YmloNN(µ2, σ2 2 )¥ ħü|pÕá"¦ëêµ1 − µ2, σ2 1 /σ2 21 − α&«m" )µ{aquc¡~f§d?Ñ. 2. { {Ò´|^¥%4½n§±ïáͶCþ"ÏL±e~f`²: ~ 6.2.3. ,¯A3zg¢¥u)VÇÑ´p§ngÕᢧ±YnPAu) gê"¦p1 − α&«m" )µn'§-q = 1 − p, Kd¥%4½n§Cqk(Yn − np)/ √npq ∼ N(0, 1)§l (Yn − np)/ √npq±Í¶Cþ"d P(−uα/2 ≤ (Yn − np)/ √ npq ≤ uα/2 ) ≈ 1 − α (∗) ±dL«¤ P(A ≤ p ≤ B) ≈ 1 − α Ù¥A, B§ (Yn − np)/ √ npq = uα/2 3

的解,即p(1 - p) ua/2wa12A,B=节+±a/2+ 4n22nn+ua/2nA取负号,B取正号,p=Yn/n。由于(*)式只是近似成立,故区间估计也只是近似成立,当n较大时才相去不远。详细的说明参见课本p203。我们还可以先假定方差是“已知”的,最后再将其估计,得到如下Wald置信区间:p±ua/2Vp(1-p)/n.86.2.2置信界在实际中,有时我们只对参数的一端的界限感兴趣。比如果汁的最低含量,有害物质的最高含量等等.这就需要寻求参数的感兴趣的置信界限定义6.2.2.设总体分布F(r,0)含有一个未知的参数0,9E,对给定的值α,(0<α<a),若由样本Xi,**,Xn确定的两个统计量=(Xi,..,Xn)和=(Xi,.,Xn),1.若Pe(0 ≤0)≥1-αVEe则称为的一个置信系数为1一α的置信上界。2.若Pe(0 ≥) ≥1 - αVEO则称为0的一个置信水平为1一α的置信下界。而(-80,可]和[,+80)都称为是单边的置信区间。寻求置信上、下界的方法和寻求置信区间的方法完全类似。86.2.3确定样本大小在以区间长度为精度准则下,置信区间越窄就越好,为什么呢?作为一个一般的原则,我们已经知道更多的测量可以得到更精确的推断。有时候,对精度是有要求的,甚至于是在测量之前就提出此要求,因此相应的样本大小就要事先确定下来。我们以如下的例子说明如何确定样本大小,一般的方法类似。4
), = A, B = n n + u 2 α/2 pˆ+ u 2 α/2 2n ± uα/2 s pˆ(1 − pˆ) n + u 2 α/2 4n2 AKÒ§BÒ§pˆ = Yn/n" du(*)ª´Cq¤á§«mO´Cq¤á§nâØ" [`²ëp203"·±kb½´“®”§2òÙO§X eWald &«mµ pˆ± uα/2 p pˆ(1 − pˆ)/n. §6.2.2 &. 3¢S¥§k·éëêθà.a,"'XJ$¹þ, k³Ô p¹þ. ùÒIϦëêθa,&.. ½Â 6.2.2. oN©ÙF(x, θ)¹këêθ§θ ∈ Θ§é½α,(0 &«m" Ϧ&þ!e.{ÚϦ&«m{aq" §6.2.3 (½ 3±«mݰÝOKe, &«mÄÒЧoQº K§·®²õÿþ±°(íä"kÿ§é°Ý´k¦§$ u´3ÿþcÒJÑd¦§ÏdAÒ¯k(½e5"·±Xe ~f`²XÛ(½§{aq" 4

例6.2.4.假设某种成分的含量服从正态分布N(μ,α2),2已知。要求平均含量μ的(1-α)置信区间的长度不能长于W。试确定测量样本大小。解:由于。2已知,我们已经知道可以根据×~N(μ,α2/n)来构造μ的95%置信区间。因此易知区间长度为2ua/2%,从而由62ua/2m≤w得到2u/20n≥比如当=0.1,w=0.05,α=0.05,可以得到n≥(2×1.8x0-1)2=61.4656.即为达到要求至少需要测量62次。5
~ 6.2.4. b,«¤©¹þÑl©ÙN(µ, σ2 )§σ 2®"¦²þ¹þµ(1−α) &«mÝØUuω"Á(½ÿþ" ): duσ 2®§·®²±âX¯ ∼ N(µ, σ2/n)5Eµ95% &«m"Ïd ´«mÝ2uα/2 √σ n . l d 2uα/2 σ √ n ≤ ω n ≥ 2uα/2σ ω 2 . 'Xσ = 0.1, ω = 0.05, α = 0.05, ±n ≥ 2×1.96×0.1 0.05 2 = 61.4656. =¦ Iÿþ62g" 5