中国科学技术大学：《概率论与数理统计》课程教学资源（课件讲义）第六章参数估计 6.2 置信区间

团购合买资源类别：文库，文档格式：PDF，文档页数：13，文件大小：232.45KB

第六讲：参数估计 6.2 区间估计 1 6.2.1置信区间 2 6.2.2 置信界.· 10 6.2.3 确定样本大小 11 Previous Next First Last Back Forward 1

第六讲: 参数估计 6.2 区间估计 . . . . . . . . . . . . . . . . . . . . 1 6.2.1 置信区间 . . . . . . . . . . . . . . . . 2 6.2.2 置信界 . . . . . . . . . . . . . . . . . . 10 6.2.3 确定样本大小 . . . . . . . . . . . . . . 11 Previous Next First Last Back Forward 1

6.2 区间估计对于一个未知量，人们在测量和计算时，常不以得到近似值为满足，还需要估计误差，及要求知道近似值的精确程度（亦即所求真值所在的范围).类似的，对于未知的参数0，除了求出它的点估计0外，我们还希望估计出一个范围，并希望知道这个范围包含参数0真值得可信程度.这样的范围通常以区间形式给出，同时还给出此区间包含真值的可信程度.这种形式的估计称为区间估计比如你估计月花费支出是500，我们相信多少会有误差，但是误差 TExample 有多大？单从你提出的500这个数字还给不出什么信息，若你给出估计支出是400-600之间，则人们相信你在作出这估计时，已把可能出现的误差考虑到了，多少给人们以更大的信任感.因此区间估计也是常用的一种估计方式。 ↓Example Previous Next First Last Back Forward

6.2 区间估计对于一个未知量, 人们在测量和计算时, 常不以得到近似值为满足, 还需要估计误差, 及要求知道近似值的精确程度 (亦即所求真值所在的范围). 类似的, 对于未知的参数 θ, 除了求出它的点估计 ˆθ 外, 我们还希望估计出一个范围, 并希望知道这个范围包含参数 θ 真值得可信程度. 这样的范围通常以区间形式给出, 同时还给出此区间包含真值的可信程度. 这种形式的估计称为区间估计. ↑Example 比如你估计月花费支出是 500, 我们相信多少会有误差, 但是误差有多大? 单从你提出的 500 这个数字还给不出什么信息, 若你给出估计支出是 400-600 之间, 则人们相信你在作出这估计时, 已把可能出现的误差考虑到了, 多少给人们以更大的信任感. 因此区间估计也是常用的一种估计方式. ↓Example Previous Next First Last Back Forward 1

现在最流行的一种区间估计理论是J.Neyman在上世纪30年代建立起来的.他的理论的基本概念很简单，为表达方便，我们暂时假定总体分布只包含一个未知参数0，且要估计的就是0本身.如果总体分布中包含若干位置参数01，·，0k,而要估计的是g(01,·,), 则基本概念和方法并无不同.这在后面的例子里可以看出 6.2.1置信区间 Neyman建立起来的区间估计也叫置信区间，字面上的意思是：对该区间能包含未知参数日可置信到何种程度，假设X1,·,Xn是从该总体中抽取的样本，所谓（一维未知）0 的区间估计，就是要 ·寻求统计量(X1,·,Xn)<(X1,·,Xn)所构成的区间 [但，可. ·该区间满足一定的要求 Previous Next First Last Back Forward 2

现在最流行的一种区间估计理论是 J. Neyman 在上世纪 30 年代建立起来的. 他的理论的基本概念很简单, 为表达方便, 我们暂时假定总体分布只包含一个未知参数 θ, 且要估计的就是 θ 本身. 如果总体分布中包含若干位置参数 θ1, · · · , θk, 而要估计的是 g(θ1, · · · , θk), 则基本概念和方法并无不同. 这在后面的例子里可以看出. 6.2.1 置信区间 Neyman 建立起来的区间估计也叫置信区间, 字面上的意思是: 对该区间能包含未知参数 θ 可置信到何种程度. 假设 X1, · · · , Xn 是从该总体中抽取的样本, 所谓 (一维未知)θ 的区间估计, 就是要 • 寻求统计量 θ(X1, · · · , Xn) < ¯θ(X1, · · · , Xn) 所构成的区间 [θ, ¯θ]. • 该区间满足一定的要求 Previous Next First Last Back Forward 2

不难理解，这里有两个要求 ·0以很大概率被包含在区间[但，可内，也就是说 Pa(0≤0≤0)=1-a 尽可能大，即要求估计尽量可靠 ·估计的精度要尽可能高，比如要求区间【但，可要尽可能的短，或者某种能体现这个要求的其他准则。比如估计一个人的年龄，如[30,35)，我们自然希望这个人的年龄有很大把握在这个区间之内，并且希望这个区间不能太长.如果估计是 [10,90],当然可靠了，但是精度太差，用处不大但这两个要求是相互矛盾的，因此区间估计的原则是在已有的样本资源限制下，找出更好的估计方法以尽量提高可靠性和精度。 Neyman提出了广泛接受的准则：先保证可靠性，在此前提下尽可能提高精度。为此，引入如下定义： Previous Next First Last Back Forward 3

不难理解, 这里有两个要求 • θ 以很大概率被包含在区间 [θ, ¯θ] 内, 也就是说 Pθ(θ ≤ θ ≤ ¯θ) = 1 − α 尽可能大, 即要求估计尽量可靠. • 估计的精度要尽可能高，比如要求区间 [θ, ¯θ] 要尽可能的短, 或者某种能体现这个要求的其他准则。比如估计一个人的年龄, 如 [30,35], 我们自然希望这个人的年龄有很大把握在这个区间之内, 并且希望这个区间不能太长. 如果估计是 [10,90], 当然可靠了, 但是精度太差, 用处不大. 但这两个要求是相互矛盾的，因此区间估计的原则是在已有的样本资源限制下，找出更好的估计方法以尽量提高可靠性和精度。 Neyman 提出了广泛接受的准则：先保证可靠性，在此前提下尽可能提高精度。为此，引入如下定义: Previous Next First Last Back Forward 3

设总体分布F(x,)含有一个或多个未知的参数0,0∈日，对给定的值a,(0<a<1),若由样本X1,…,Xn确定的两个统计量百=(X1,…,Xn)和且=(X1,…,Xn),满足 Definition Pa(g≤0≤0=1-a t0∈日称1-α为置信系数或置信水平，而称[但，可为0的置信水平为1-a的置信区间。置信区间就是在给定的置信水平之下，去寻找有优良精度的区间。一般，我们首先寻求参数0的一个估计（多数是基于其充分统计量构造的)，然后基于此估计量构造参数0的置信区间，介绍如下： Previous Next First Last Back Forward 4

设总体分布 F(x, θ) 含有一个或多个未知的参数 θ，θ ∈ Θ，对给定的值 α,(0 < α < 1)，若由样本 X1, · · · , Xn 确定的两个统计量 ¯θ = ¯θ(X1, · · · , Xn) 和 θ = θ(X1, · · · , Xn)，满足 Pθ(θ ≤ θ ≤ ¯θ) = 1 − α ∀ θ ∈ Θ 称 1 − α 为置信系数或置信水平，而称 [θ, ¯θ] 为 θ 的置信水平为 1 − α 的置信区间。 Definition 置信区间就是在给定的置信水平之下，去寻找有优良精度的区间。一般，我们首先寻求参数 θ 的一个估计 (多数是基于其充分统计量构造的)，然后基于此估计量构造参数 θ 的置信区间，介绍如下: Previous Next First Last Back Forward 4

1.枢轴变量法设待估参数为g(), 1.找一个与待估参数g(有关的统计量T,一般是其一个良好的点估计（多数是通过极大似然估计构造）： 2.设法找出T与g()的某一函数S(T,g()的分布，其分布F 要与参数0无关(S即为枢轴变量： 3.对任何常数a<b,不等式a≤S(T,g(0)≤b要能表示成等价的形式A≤g(0)≤B,其中A,B只与T,a,b有关而与参数无关： 4.取分布F的上a/2分位数wa/2和上(1-a/2)分位数w1-a/2, 有F(wa/2)-F(w1-a/2)=1-a.因此 P(a1-a/2≤S(T,g(0)≤wa/2)=1-a 由3我们就可以得到所求的置信区间. Previous Next First Last Back Forward

1. 枢轴变量法设待估参数为 g(θ)， 1. 找一个与待估参数 g(θ) 有关的统计量 T，一般是其一个良好的点估计 (多数是通过极大似然估计构造)； 2. 设法找出 T 与 g(θ) 的某一函数 S(T, g(θ)) 的分布，其分布 F 要与参数 θ 无关 (S 即为枢轴变量); 3. 对任何常数 a < b，不等式 a ≤ S(T, g(θ)) ≤ b 要能表示成等价的形式 A ≤ g(θ) ≤ B，其中 A, B 只与 T, a, b 有关而与参数无关； 4. 取分布 F 的上 α/2 分位数 ωα/2 和上 (1−α/2) 分位数 ω1−α/2，有 F(ωα/2) − F(ω1−α/2) = 1 − α. 因此 P(ω1−α/2 ≤ S(T, g(θ)) ≤ ωα/2) = 1 − α 由 3 我们就可以得到所求的置信区间. Previous Next First Last Back Forward 5

设X1,·,Xn为从正态总体N(4,σ)中抽取得样本，求参数 TExample 4,o2的1-a置信区间。 ↓Example 解： Previous Next First Last Back Forward 6

↑Example 设 X1, · · · , Xn 为从正态总体 N(µ, σ2 ) 中抽取得样本，求参数 µ, σ2 的 1 − α 置信区间。 ↓Example 解：由于 µ, σ2 的估计 X, S ¯ 2 满足 T1 = √ n(X¯ − µ)/S ∼ tn−1 T2 = (n − 1)S 2 /σ 2 ∼ χ 2 n−1 所以 T1, T2 就是我们所要寻求的枢轴变量，从而易得参数 µ, σ2 的 1 − α 置信区间分别为 [ X¯ − 1 √ n Stn−1(α/2), X¯ + 1 √ n Stn−1(α/2)] , [ (n − 1)S 2 χ 2 n−1 (α/2), (n − 1)S 2 χ 2 n−1 (1 − α/2) ] . Previous Next First Last Back Forward 6

设X,,Xn为从正态总体N(u4,)中抽取得样本，上，…，Yyn在ampe 为从正态总体N(2,σ)中抽取得样本，两组样本相互独立。求参数 41-2,1/2的1-a置信区间。 ↓Example 解： Behrens-Fisher problem Previous Next First Last Back Forward

↑Example 设 X1, · · · , Xn 为从正态总体 N(µ1, σ2 1) 中抽取得样本，Y1, · · · , Ym 为从正态总体 N(µ2, σ2 2) 中抽取得样本，两组样本相互独立。求参数 µ1 − µ2, σ2 1/σ 2 2 的 1 − α 置信区间。 ↓Example 解：方法完全类似于前面的例子，由于 µ1, µ2, σ2 1, σ2 2 的估计分别为 X, ¯ Y , S ¯ 2 X, S2 Y , 且注意到 X¯ − Y¯ ∼ N(µ1 − µ2, σ 2 1 n + σ 2 2 m ), (n − 1)S 2 X/σ 2 1 ∼ χ 2 n−1 以及 (m − 1)S 2 X/σ 2 1 ∼ χ 2 m−1, 结合两组样本的独立性可知 S 2 Y S 2 X σ 2 2 σ 2 1 ∼ F(m − 1, n − 1) 从而可得 σ 2 X/σ 2 Y 的置信区间. 对 µ1 − µ2 的置信区间, 当 σ 2 X, σ2 Y 已知或者相等但未知情形, 容易得到其置信区间; 当两者不全已知且不相等时, 不存在 µX −µY 的精确置信区间 (Behrens-Fisher problem). Previous Next First Last Back Forward 7

2.大样本法大样本法就是利用极限分布，以建立枢轴变量。通过以下例子说明：某事件A在每次实验中发生的概率都是p,作n次独立的实验， TExample 以Yn记A发生的次数。求p的1-a置信区间。 ⊥Example 解：设n比较大，令q=1-p,则由中心极限定理知，近似有 (Yn-np)/√mp西~N(0,1),从而(Yn-np)/Vmpg可以作为枢轴变量。由 P(-ua/2≤(Yn-np)/npg≤ua/2)≈1-a (*) 可以等价表示成 P(A≤p≤B)≈1-a Previous Next First Last Back Forward 8

2. 大样本法大样本法就是利用极限分布，以建立枢轴变量。通过以下例子说明: ↑Example 某事件 A 在每次实验中发生的概率都是 p，作 n 次独立的实验，以 Yn 记 A 发生的次数。求 p 的 1 − α 置信区间。 ↓Example 解：设 n 比较大，令 q = 1 − p, 则由中心极限定理知，近似有 (Yn − np)/√npq ∼ N(0, 1)，从而 (Yn − np)/√npq 可以作为枢轴变量。由 P(−uα/2 ≤ (Yn − np)/√ npq ≤ uα/2) ≈ 1 − α (∗) 可以等价表示成 P(A ≤ p ≤ B) ≈ 1 − α Previous Next First Last Back Forward 8

其中A,B为方程 (Yn -np)/vnpq ua/2 的解，即 A,B=- 22 +吃2 十 2n 土ua/2 4n2 A取负号，B取正号，=Yn/mo 由于(*)式只是近似成立，故区间估计也只是近似成立，当较大时才相去不远。详细的说明参见课本p203。我们还可以先假定方差是“已知”的，最后再将其估计，得到如下Wald置信区间： p±ua/2Vp1-)/m. Previous Next First Last Back Forward 9

其中 A, B 为方程 (Yn − np)/√ npq = uα/2 的解, 即 A, B = n n + u 2 α/2  pˆ+ u 2 α/2 2n ± uα/2√ pˆ(1 − pˆ) n + u 2 α/2 4n2   A 取负号，B 取正号，pˆ = Yn/n。由于 (*) 式只是近似成立，故区间估计也只是近似成立，当 n 较大时才相去不远。详细的说明参见课本 p203。我们还可以先假定方差是 “已知” 的，最后再将其估计，得到如下 Wald 置信区间： pˆ± uα/2√ pˆ(1 − pˆ)/n. Previous Next First Last Back Forward 9

点击下载完整版文档（PDF格式）

共13页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录