第六讲:参数估计 6.2 区间估计 1 6.2.1置信区间 2 6.2.2 置信界.· 10 6.2.3 确定样本大小 11 Previous Next First Last Back Forward 1
第六讲: 参数估计 6.2 区间估计 . . . . . . . . . . . . . . . . . . . . 1 6.2.1 置信区间 . . . . . . . . . . . . . . . . 2 6.2.2 置信界 . . . . . . . . . . . . . . . . . . 10 6.2.3 确定样本大小 . . . . . . . . . . . . . . 11 Previous Next First Last Back Forward 1
6.2 区间估计 对于一个未知量,人们在测量和计算时,常不以得到近似值为满 足,还需要估计误差,及要求知道近似值的精确程度(亦即所求真值所 在的范围).类似的,对于未知的参数0,除了求出它的点估计0外, 我们还希望估计出一个范围,并希望知道这个范围包含参数0真值得 可信程度.这样的范围通常以区间形式给出,同时还给出此区间包含 真值的可信程度.这种形式的估计称为区间估计 比如你估计月花费支出是500,我们相信多少会有误差,但是误差 TExample 有多大?单从你提出的500这个数字还给不出什么信息,若你给出估 计支出是400-600之间,则人们相信你在作出这估计时,已把可能出 现的误差考虑到了,多少给人们以更大的信任感.因此区间估计也是 常用的一种估计方式。 ↓Example Previous Next First Last Back Forward
6.2 区间估计 对于一个未知量, 人们在测量和计算时, 常不以得到近似值为满 足, 还需要估计误差, 及要求知道近似值的精确程度 (亦即所求真值所 在的范围). 类似的, 对于未知的参数 θ, 除了求出它的点估计 ˆθ 外, 我们还希望估计出一个范围, 并希望知道这个范围包含参数 θ 真值得 可信程度. 这样的范围通常以区间形式给出, 同时还给出此区间包含 真值的可信程度. 这种形式的估计称为区间估计. ↑Example 比如你估计月花费支出是 500, 我们相信多少会有误差, 但是误差 有多大? 单从你提出的 500 这个数字还给不出什么信息, 若你给出估 计支出是 400-600 之间, 则人们相信你在作出这估计时, 已把可能出 现的误差考虑到了, 多少给人们以更大的信任感. 因此区间估计也是 常用的一种估计方式. ↓Example Previous Next First Last Back Forward 1
现在最流行的一种区间估计理论是J.Neyman在上世纪30年 代建立起来的.他的理论的基本概念很简单,为表达方便,我们暂时假 定总体分布只包含一个未知参数0,且要估计的就是0本身.如果总 体分布中包含若干位置参数01,·,0k,而要估计的是g(01,·,), 则基本概念和方法并无不同.这在后面的例子里可以看出 6.2.1置信区间 Neyman建立起来的区间估计也叫置信区间,字面上的意思是: 对该区间能包含未知参数日可置信到何种程度, 假设X1,·,Xn是从该总体中抽取的样本,所谓(一维未知)0 的区间估计,就是要 ·寻求统计量(X1,·,Xn)<(X1,·,Xn)所构成的区间 [但,可. ·该区间满足一定的要求 Previous Next First Last Back Forward 2
现在最流行的一种区间估计理论是 J. Neyman 在上世纪 30 年 代建立起来的. 他的理论的基本概念很简单, 为表达方便, 我们暂时假 定总体分布只包含一个未知参数 θ, 且要估计的就是 θ 本身. 如果总 体分布中包含若干位置参数 θ1, · · · , θk, 而要估计的是 g(θ1, · · · , θk), 则基本概念和方法并无不同. 这在后面的例子里可以看出. 6.2.1 置信区间 Neyman 建立起来的区间估计也叫置信区间, 字面上的意思是: 对该区间能包含未知参数 θ 可置信到何种程度. 假设 X1, · · · , Xn 是从该总体中抽取的样本, 所谓 (一维未知)θ 的区间估计, 就是要 • 寻求统计量 θ(X1, · · · , Xn) < ¯θ(X1, · · · , Xn) 所构成的区间 [θ, ¯θ]. • 该区间满足一定的要求 Previous Next First Last Back Forward 2
不难理解,这里有两个要求 ·0以很大概率被包含在区间[但,可内,也就是说 Pa(0≤0≤0)=1-a 尽可能大,即要求估计尽量可靠 ·估计的精度要尽可能高,比如要求区间【但,可要尽可能的短,或 者某种能体现这个要求的其他准则。 比如估计一个人的年龄,如[30,35),我们自然希望这个人的年龄有很 大把握在这个区间之内,并且希望这个区间不能太长.如果估计是 [10,90],当然可靠了,但是精度太差,用处不大 但这两个要求是相互矛盾的,因此区间估计的原则是在已有的 样本资源限制下,找出更好的估计方法以尽量提高可靠性和精度。 Neyman提出了广泛接受的准则:先保证可靠性,在此前提下尽可能 提高精度。为此,引入如下定义: Previous Next First Last Back Forward 3
不难理解, 这里有两个要求 • θ 以很大概率被包含在区间 [θ, ¯θ] 内, 也就是说 Pθ(θ ≤ θ ≤ ¯θ) = 1 − α 尽可能大, 即要求估计尽量可靠. • 估计的精度要尽可能高,比如要求区间 [θ, ¯θ] 要尽可能的短, 或 者某种能体现这个要求的其他准则。 比如估计一个人的年龄, 如 [30,35], 我们自然希望这个人的年龄有很 大把握在这个区间之内, 并且希望这个区间不能太长. 如果估计是 [10,90], 当然可靠了, 但是精度太差, 用处不大. 但这两个要求是相互矛盾的,因此区间估计的原则是在已有的 样本资源限制下,找出更好的估计方法以尽量提高可靠性和精度。 Neyman 提出了广泛接受的准则:先保证可靠性,在此前提下尽可能 提高精度。为此,引入如下定义: Previous Next First Last Back Forward 3
设总体分布F(x,)含有一个或多个未知的参数0,0∈日, 对给定的值a,(0<a<1),若由样本X1,…,Xn确定的两 个统计量百=(X1,…,Xn)和且=(X1,…,Xn),满足 Definition Pa(g≤0≤0=1-a t0∈日 称1-α为置信系数或置信水平,而称[但,可为0的置信水 平为1-a的置信区间。 置信区间就是在给定的置信水平之下,去寻找有优良精度的区 间。 一般,我们首先寻求参数0的一个估计(多数是基于其充分统计 量构造的),然后基于此估计量构造参数0的置信区间,介绍如下: Previous Next First Last Back Forward 4
设总体分布 F(x, θ) 含有一个或多个未知的参数 θ,θ ∈ Θ, 对给定的值 α,(0 < α < 1),若由样本 X1, · · · , Xn 确定的两 个统计量 ¯θ = ¯θ(X1, · · · , Xn) 和 θ = θ(X1, · · · , Xn),满足 Pθ(θ ≤ θ ≤ ¯θ) = 1 − α ∀ θ ∈ Θ 称 1 − α 为置信系数或置信水平,而称 [θ, ¯θ] 为 θ 的置信水 平为 1 − α 的置信区间。 Definition 置信区间就是在给定的置信水平之下,去寻找有优良精度的区 间。 一般,我们首先寻求参数 θ 的一个估计 (多数是基于其充分统计 量构造的),然后基于此估计量构造参数 θ 的置信区间,介绍如下: Previous Next First Last Back Forward 4
1.枢轴变量法设待估参数为g(), 1.找一个与待估参数g(有关的统计量T,一般是其一个良好 的点估计(多数是通过极大似然估计构造): 2.设法找出T与g()的某一函数S(T,g()的分布,其分布F 要与参数0无关(S即为枢轴变量: 3.对任何常数a<b,不等式a≤S(T,g(0)≤b要能表示成等 价的形式A≤g(0)≤B,其中A,B只与T,a,b有关而与参 数无关: 4.取分布F的上a/2分位数wa/2和上(1-a/2)分位数w1-a/2, 有F(wa/2)-F(w1-a/2)=1-a.因此 P(a1-a/2≤S(T,g(0)≤wa/2)=1-a 由3我们就可以得到所求的置信区间. Previous Next First Last Back Forward
1. 枢轴变量法 设待估参数为 g(θ), 1. 找一个与待估参数 g(θ) 有关的统计量 T,一般是其一个良好 的点估计 (多数是通过极大似然估计构造); 2. 设法找出 T 与 g(θ) 的某一函数 S(T, g(θ)) 的分布,其分布 F 要与参数 θ 无关 (S 即为枢轴变量); 3. 对任何常数 a < b,不等式 a ≤ S(T, g(θ)) ≤ b 要能表示成等 价的形式 A ≤ g(θ) ≤ B,其中 A, B 只与 T, a, b 有关而与参 数无关; 4. 取分布 F 的上 α/2 分位数 ωα/2 和上 (1−α/2) 分位数 ω1−α/2, 有 F(ωα/2) − F(ω1−α/2) = 1 − α. 因此 P(ω1−α/2 ≤ S(T, g(θ)) ≤ ωα/2) = 1 − α 由 3 我们就可以得到所求的置信区间. Previous Next First Last Back Forward 5
设X1,·,Xn为从正态总体N(4,σ)中抽取得样本,求参数 TExample 4,o2的1-a置信区间。 ↓Example 解: Previous Next First Last Back Forward 6
↑Example 设 X1, · · · , Xn 为从正态总体 N(µ, σ2 ) 中抽取得样本,求参数 µ, σ2 的 1 − α 置信区间。 ↓Example 解: 由于 µ, σ2 的估计 X, S ¯ 2 满足 T1 = √ n(X¯ − µ)/S ∼ tn−1 T2 = (n − 1)S 2 /σ 2 ∼ χ 2 n−1 所以 T1, T2 就是我们所要寻求的枢轴变量,从而易得参数 µ, σ2 的 1 − α 置信区间分别为 [ X¯ − 1 √ n Stn−1(α/2), X¯ + 1 √ n Stn−1(α/2)] , [ (n − 1)S 2 χ 2 n−1 (α/2), (n − 1)S 2 χ 2 n−1 (1 − α/2) ] . Previous Next First Last Back Forward 6
设X,,Xn为从正态总体N(u4,)中抽取得样本,上,…,Yyn在ampe 为从正态总体N(2,σ)中抽取得样本,两组样本相互独立。求参数 41-2,1/2的1-a置信区间。 ↓Example 解: Behrens-Fisher problem Previous Next First Last Back Forward
↑Example 设 X1, · · · , Xn 为从正态总体 N(µ1, σ2 1) 中抽取得样本,Y1, · · · , Ym 为从正态总体 N(µ2, σ2 2) 中抽取得样本,两组样本相互独立。求参数 µ1 − µ2, σ2 1/σ 2 2 的 1 − α 置信区间。 ↓Example 解: 方法完全类似于前面的例子,由于 µ1, µ2, σ2 1, σ2 2 的估计分别 为 X, ¯ Y , S ¯ 2 X, S2 Y , 且注意到 X¯ − Y¯ ∼ N(µ1 − µ2, σ 2 1 n + σ 2 2 m ), (n − 1)S 2 X/σ 2 1 ∼ χ 2 n−1 以及 (m − 1)S 2 X/σ 2 1 ∼ χ 2 m−1, 结合两组样本的独立 性可知 S 2 Y S 2 X σ 2 2 σ 2 1 ∼ F(m − 1, n − 1) 从而可得 σ 2 X/σ 2 Y 的置信区间. 对 µ1 − µ2 的置信区间, 当 σ 2 X, σ2 Y 已 知或者相等但未知情形, 容易得到其置信区间; 当两者不全已知且不 相等时, 不存在 µX −µY 的精确置信区间 (Behrens-Fisher problem). Previous Next First Last Back Forward 7
2.大样本法 大样本法就是利用极限分布,以建立枢轴变量。通过以下例子说 明: 某事件A在每次实验中发生的概率都是p,作n次独立的实验, TExample 以Yn记A发生的次数。求p的1-a置信区间。 ⊥Example 解:设n比较大,令q=1-p,则由中心极限定理知,近似有 (Yn-np)/√mp西~N(0,1),从而(Yn-np)/Vmpg可以作为枢轴变 量。由 P(-ua/2≤(Yn-np)/npg≤ua/2)≈1-a (*) 可以等价表示成 P(A≤p≤B)≈1-a Previous Next First Last Back Forward 8
2. 大样本法 大样本法就是利用极限分布,以建立枢轴变量。通过以下例子说 明: ↑Example 某事件 A 在每次实验中发生的概率都是 p,作 n 次独立的实验, 以 Yn 记 A 发生的次数。求 p 的 1 − α 置信区间。 ↓Example 解: 设 n 比较大,令 q = 1 − p, 则由中心极限定理知,近似有 (Yn − np)/√npq ∼ N(0, 1),从而 (Yn − np)/√npq 可以作为枢轴变 量。由 P(−uα/2 ≤ (Yn − np)/√ npq ≤ uα/2) ≈ 1 − α (∗) 可以等价表示成 P(A ≤ p ≤ B) ≈ 1 − α Previous Next First Last Back Forward 8
其中A,B为方程 (Yn -np)/vnpq ua/2 的解,即 A,B=- 22 +吃2 十 2n 土ua/2 4n2 A取负号,B取正号,=Yn/mo 由于(*)式只是近似成立,故区间估计也只是近似成立,当较 大时才相去不远。详细的说明参见课本p203。我们还可以先假定方 差是“已知”的,最后再将其估计,得到如下Wald置信区间: p±ua/2Vp1-)/m. Previous Next First Last Back Forward 9
其中 A, B 为方程 (Yn − np)/√ npq = uα/2 的解, 即 A, B = n n + u 2 α/2 pˆ+ u 2 α/2 2n ± uα/2√ pˆ(1 − pˆ) n + u 2 α/2 4n2 A 取负号,B 取正号,pˆ = Yn/n。 由于 (*) 式只是近似成立,故区间估计也只是近似成立,当 n 较 大时才相去不远。详细的说明参见课本 p203。我们还可以先假定方 差是 “已知” 的,最后再将其估计,得到如下 Wald 置信区间: pˆ± uα/2√ pˆ(1 − pˆ)/n. Previous Next First Last Back Forward 9