简介 1.1一元均值推断回顾 1 1.2 Hotelling'sT2统计量 5 1.3 T2和似然比检验..·. 12 1.3.1似然比检验方法回顾 12 1.3. 2多元正态均值检验的似然比检验方法·14 1.3.3协方差已知时均值检验..··. 16 1.4置信域 18 1.4.1同时置信区间.. 20 1.4.2大样本置信区间.... 27 1.5样本存在缺失值时参数的估计.··.····· 29 Previous Next First Last Back Forward 1
简介 1.1 一元均值推断回顾 . . . . . . . . . . . . . . . 1 1.2 Hotelling’s T 2 统计量 . . . . . . . . . . . . . 5 1.3 T 2 和似然比检验 . . . . . . . . . . . . . . . . 12 1.3.1 似然比检验方法回顾 . . . . . . . . . . 12 1.3.2 多元正态均值检验的似然比检验方法 . 14 1.3.3 协方差已知时均值检验 . . . . . . . . . 16 1.4 置信域 . . . . . . . . . . . . . . . . . . . . . . 18 1.4.1 同时置信区间 . . . . . . . . . . . . . . 20 1.4.2 大样本置信区间 . . . . . . . . . . . . . 27 1.5 样本存在缺失值时参数的估计 . . . . . . . . . 29 Previous Next First Last Back Forward 1
从本讲开始,我们开始介绍一些多元推断技术.多元分析中的主 要特点是需要对?个变量同时进行分析.首先我们看有关于多元均值 的一些假设假设问题。 1.1一元均值推断回顾 假设X1,.,Xm为来自一元总体的简单随机样本,4为该总体 的均值,我们常常感兴趣此总体均值是否等于某个已知的常数0,即 为下述假设检验问题 H0:4=0+H1:μ≠o 距离方法对此问题,我们首先找到μ的一个相合估计,然后构造 其于0之间偏差的某个距离,当零假设成立时候,该距离应该很小 反之,则应该比较大.据此可以给出一个检验方法 Previous Next First Last Back Forward 1
从本讲开始, 我们开始介绍一些多元推断技术. 多元分析中的主 要特点是需要对 p 个变量同时进行分析. 首先我们看有关于多元均值 的一些假设假设问题. 1.1 一元均值推断回顾 假设 X1, . . . , Xn 为来自一元总体的简单随机样本, µ 为该总体 的均值, 我们常常感兴趣此总体均值是否等于某个已知的常数 µ0, 即 为下述假设检验问题 H0 : µ = µ0 ↔ H1 : µ ̸= µ0 距离方法 对此问题, 我们首先找到 µ 的一个相合估计, 然后构造 其于 µ0 之间偏差的某个距离, 当零假设成立时候, 该距离应该很小; 反之, 则应该比较大. 据此可以给出一个检验方法. Previous Next First Last Back Forward 1
·当样本来自正态总体分布N(4,σ)时候,则样本均值元和样 本标准差S分别为4和σ的相合估计 ·从而一个合适的检验统计量为 T=: -40 S/n ·当T值较小时候,了和0比较靠近,因此不能拒绝零假设.此 即为一样本t检验方法。 。当Ho成立时,检验统计量T的分布为自由度n-1的t分布, 从而水平a检验的拒绝域为T1之tn-1(a/2): 这个检验统计量是合理的,其可以由似然比检验方法导出.由于似然 比 nao0oE的=(+n是r) LR=maxa>oL(Ho,2,s2) Previous Next First Last Back Forward 2
• 当样本来自正态总体分布 N(µ, σ2 ) 时候, 则样本均值 X¯ 和样 本标准差 S 分别为 µ 和 σ 的相合估计 • 从而一个合适的检验统计量为 T = X¯ − µ0 S/ √ n • 当 T 值较小时候, X¯ 和 µ0 比较靠近, 因此不能拒绝零假设. 此 即为一样本 t 检验方法. • 当 H0 成立时, 检验统计量 T 的分布为自由度 n − 1 的 t 分布, 从而水平 α 检验的拒绝域为 |T| ≥ tn−1(α/2). 这个检验统计量是合理的, 其可以由似然比检验方法导出. 由于似然 比 LR = maxσ>0 L(µ0, σ2 |x, s ¯ 2 ) maxµ∈R,σ>0 L(µ, σ2|x, s ¯ 2) = ( 1 + 1 n − 1 T 2 )−n/2 Previous Next First Last Back Forward 2
·当Ho成立时,LR的值应靠近1;而当H1成立时候,LR的值 应该远小于1 ·从而似然比检验方法得到的拒绝域有形式LR≤c,其中c为 常数 ·显然,似然比检验的拒绝域等价于T川≥co,在水平α下, co=tn-1(a/2): 因此,T是一个合理的检验统计量.另一方面, ·注意T较大时拒绝Ho等价于统计距离 2=)=n(-mo)()--m) S2/n 太大时拒绝Ho,即拒绝域为T2≥t员-1(a/2)=F,n-1(a) ·当不能拒绝Ho时候,我们得出0距离下较近(在下的标准 差单位下),因此0是μ的一个合理可能值 Previous Next First Last Back Forward 3
• 当 H0 成立时, LR 的值应靠近 1; 而当 H1 成立时候, LR 的值 应该远小于 1 • 从而似然比检验方法得到的拒绝域有形式 LR ≤ c, 其中 c 为 常数 • 显然, 似然比检验的拒绝域等价于 |T| ≥ c0, 在水平 α 下, c0 = tn−1(α/2). 因此, T 是一个合理的检验统计量. 另一方面, • 注意 |T| 较大时拒绝 H0 等价于统计距离 T 2 = (X¯ − µ0) 2 S2/n = n(X¯ − µ0) ′ (S 2 ) −1 (X¯ − µ0) 太大时拒绝 H0, 即拒绝域为 T 2 ≥ t 2 n−1(α/2) = F1,n−1(α). • 当不能拒绝 H0 时候, 我们得出 µ0 距离 X¯ 较近 (在 X¯ 的标准 差单位下), 因此 µ0 是 µ 的一个合理可能值. Previous Next First Last Back Forward 3
·μ的合理可能值集包含在μ的100(1一a)%置信区间中: X-n-o/2m,爱≤m≤x+n-a/2四, ·这个置信区间包含了零假设H0:4=o的所有在水平α下不 能被拒绝的可能点μ0 ·在样本数据被收集前,此区间为随机区间,其包含的概率为 1-a ,当带入具体样本数据后,此区间为一固定区间,其要么包含4, 要么不包含4 当方差σ2已知时候,类似可知检验统计量为 T2=-o2 n(-uo)'(2)-(uo)xi σ2/n Previous Next First Last Back Forward 4
• µ 的合理可能值集包含在 µ 的 100(1 − α)% 置信区间中: X¯ − tn−1(α/2) S √ n ≤ µ0 ≤ X¯ + tn−1(α/2) S √ n • 这个置信区间包含了零假设 H0 : µ = µ0 的所有在水平 α 下不 能被拒绝的可能点 µ0 • 在样本数据被收集前, 此区间为随机区间, 其包含 µ 的概率为 1 − α • 当带入具体样本数据后, 此区间为一固定区间, 其要么包含 µ, 要么不包含 µ 当方差 σ 2 已知时候, 类似可知检验统计量为 T 2 = (X¯ − µ0) 2 σ2/n = n(X¯ − µ0) ′ (σ 2 ) −1 (X¯ − µ0) H0∼ χ 2 1 Previous Next First Last Back Forward 4
1.2 Hotelling's T2统计量 ·现在考虑p维向量0是否为p维总体均值4的一个合理值, 即 H0:μ=0+H1:μ≠40 。假设样本X1,,Xn为来自均值向量为4,协方差矩阵为 的某个多元总体,x和S分别为样本均值向量和样本协方差矩 阵 ·对该检验问题,直观上可将一元场合时的距离推广到p元场合 T=-y(层S) (仅-o) ·则当T2的值过大时候,我们拒绝零假设Ho,即拒绝域有形式 T2≥c,这里c为待定常数 Previous Next First Last Back Forward 5
1.2 Hotelling’s T 2 统计量 • 现在考虑 p 维向量 µ0 是否为 p 维总体均值 µ 的一个合理值, 即 H0 : µ = µ0 ↔ H1 : µ ̸= µ0 • 假设样本 X1, . . . , Xn 为来自均值向量为 µ, 协方差矩阵为 Σ 的某个多元总体, x¯ 和 S 分别为样本均值向量和样本协方差矩 阵 • 对该检验问题, 直观上可将一元场合时的距离推广到 p 元场合 T 2 = (x¯ − µ0) ′ ( 1 n S )−1 (x¯ − µ0) • 则当 T 2 的值过大时候, 我们拒绝零假设 H0, 即拒绝域有形式 T 2 ≥ c, 这里 c 为待定常数 Previous Next First Last Back Forward 5
·由于在零假设下,当n→∞时候T2→X,因此当取c= X(a)时我们得到一个渐近水平α检验: T2之X2(a)时候拒绝Ho 该假设无需假定总体分布为多元正态分布. ·当总体分布为多元正态分布N(4,)时候,我们可以得到T2 的精确分布.因此可以得到一个精确的水平α检验.注意到可 以找到正交变换使得 V元(仅-四=am,(n-1)S=∑44 i=1 其中z1,,zm相互独立且同分布于N(0,),因此当Ho成 立时候 () =1 Previous Next First Last Back Forward 6
• 由于在零假设下, 当 n → ∞ 时候 T 2 → χ 2 p, 因此当取 c = χ 2 p(α) 时我们得到一个渐近水平 α 检验: T 2 ≥ χ 2 p(α)时候拒绝H0 该假设无需假定总体分布为多元正态分布. • 当总体分布为多元正态分布 Np(µ, Σ) 时候, 我们可以得到 T 2 的精确分布. 因此可以得到一个精确的水平 α 检验. 注意到可 以找到正交变换使得 √ n(x¯ − µ) = zn, (n − 1)S = n∑−1 i=1 ziz ′ i 其中 z1, . . . , zn 相互独立且同分布于 Np(0, Σ), 因此当 H0 成 立时候 T 2 d= z ′ n ( 1 n − 1 n∑−1 i=1 ziz ′ i )−1 zn Previous Next First Last Back Forward 6
定理1.设样本X1,,Xni.i.d~Nn(o),则 r产=nl依-oyS-1x-o)~-二12Rn-p n-p 其中又和S分别表示样本均值和样本协方差矩阵. 证明.由前面知 T2兰(m-1)( ∑)=-Bn 其中a1,,nii.d~Nn(0,).不难看出,∑可以不妨设为Ip取 正交矩阵Q,其第一行为/川z‖,其他行任意.则Q为一随机矩阵。 由正交矩阵的性质易知 Qzn=(zn,0,...,0)' 注意到B-1m=(Qzny(∑(Qa(Qza)(Qzn),若记Y= Previous Next First Last Back Forward
定理 1. 设样本 X1, . . . , Xni.i.d ∼ Np(µ0, Σ), 则 T 2 = n(x¯ − µ0) ′ S −1 (x¯ − µ0) ∼ (n − 1)p n − p Fp,n−p 其中 x¯ 和 S 分别表示样本均值和样本协方差矩阵. 证明. 由前面知 T 2 d= (n − 1)z ′ n ( n∑−1 i=1 ziz ′ i )−1 zn := (n − 1)z ′ nB −1 zn 其中 z1, . . . , zni.i.d ∼ Np(0, Σ). 不难看出, Σ 可以不妨设为 Ip. 取 正交矩阵 Q, 其第一行为 z ′ n/∥zn∥, 其他行任意. 则 Q 为一随机矩阵. 由正交矩阵的性质易知 Qzn = (∥zn∥, 0, . . . , 0)′ 注意到 z ′ nB −1 zn = (Qzn) ′ (∑n−1 i=1 (Qzi)(Qzi) ′ )−1 (Qzn), 若记 Yi = Previous Next First Last Back Forward 7
Qz,i=1,…,n,以及0=∑(Q2)(Qz)'则有 T/(n-1)4 YU-Iy Yll2=ll 112 其中1/U11=山11.2=u11-u12U221. 由于给定Q时候,Yn和U条件独立,而lY2=lQzm2~x2 与Q无关.于是只需证明u112~X员-p,则可得Yn和112相互独 立,最后由F分布定义立得T2的分布. 事实上,记[Q1,,Qzm-1]=(2,Z)/,24表示第一行。 则 -空=(8)eoa-(2a0 z*aZ(2) ZZe 从而 u11.2兰z*a(1n-1-Z(2(Z*2)Z*(2)厂Z*2)z(u) Previous Next First Last Back Forward 8
Qzi, i = 1, . . . , n, 以及 U = ∑n−1 i=1 (Qzi)(Qzi) ′ 则有 T 2 /(n − 1) d= Y ′ nU −1 Yn = ∥Yn∥ 2U 11 = ∥Yn∥ 2 u11·2 其中 1/U 11 = u11·2 = u11 − u ′ 12U −1 22 u21. 由于给定 Q 时候, Yn 和 U 条件独立, 而 ∥Yn∥ 2 = ∥Qzn∥ 2 ∼ χ 2 p 与 Q 无关. 于是只需证明 u11·2 ∼ χ 2 n−p, 则可得 Yn 和 u11·2 相互独 立, 最后由 F 分布定义立得 T 2 的分布. 事实上, 记 [Qz1, . . . , Qzn−1] = (z ∗ (1), Z∗ (2)) ′ , z ∗′ (1) 表示第一行. 则 U = n∑−1 i=1 z ∗ i z ∗′ i = ( z ∗′ (1) Z ∗′ (2) ) (z ∗ (1), Z∗ (2)) = ( z ∗′ (1)z ∗ (1) z ∗′ (1)Z ∗ (2) Z ∗′ (2)z ∗ (1) Z ∗′ (2)Z ∗ (2) ) 从而 u11·2 d= z ∗′ (1)(In−1 − Z ∗ (2)(Z ∗′ (2)Z ∗ (2)) −1Z ∗′ (2))z ∗ (1) Previous Next First Last Back Forward 8
在给定Q时候,注意到1n-1-Z2(Z*2Z*e)-1Z2,为幂 等阵,其秩为n一p.而的分量为i.i.d标准正态随机变量,因此 给定Z2时候u11.2兰X品-p其分布与Z2和Q无关. 综上即得 m-p)T2_lml2/卫 (n-1)pu11.2/(n-p) 心fp,n-p 0 一般地,有下述结论 定理2.设A~W(n,∑p)与Z~Nn(0,p)相互独立,n>p,则 Tr2=nZA1z~n吧 n-p+n-p+ 证明.证明类似上面的证明过程,略. ▣ Previous Next First Last Back Forward 9
在给定 Q 时候, 注意到 In−1 − Z ∗ (2)(Z ∗′ (2)Z ∗ (2)) −1Z ∗′ (2) 为幂 等阵, 其秩为 n − p. 而 z ∗ (1) 的分量为 i.i.d 标准正态随机变量, 因此 给定 Z ∗ (2) 时候 u11·2 d= χ 2 n−p 其分布与 Z ∗ (2) 和 Q 无关. 综上即得 (n − p)T 2 (n − 1)p = ∥zn∥ 2 /p u11·2/(n − p) ∼ Fp,n−p. 一般地, 有下述结论 定理 2. 设 A ∼ Wp(n, Σp) 与 Z ∼ Np(0, Σp) 相互独立, n > p, 则 T 2 = nZ′A −1Z ∼ np n − p + 1 Fp,n−p+1 证明. 证明类似上面的证明过程, 略. Previous Next First Last Back Forward 9