
第九讲Hotelling's T2 检验T2 = n(区- μo)TS-1(区-μo)~HoCFp,n-p
1 第九讲 Hotelling’s 𝑇 2 检验 𝑇 2 = 𝑛(𝐱ത − 𝝁𝟎) ⊤𝑆 −1 𝐱ത − 𝝁𝟎 ~𝐻0 𝑐𝐹𝑝,𝑛−𝑝

多元样本均值和样本方差矩阵样本均值假设x1,,XnERPiid~(u,),即总体均值和方差矩阵分别为样本方差μ=E(x1),Z=var(x),总体未必正态。的无偏性X= =1Xi, S =,=1(Xi - x)(Xi -x)Tn命题1.假设xu.,XnERPiid~(u,Z),则样本均值和样本方差分别是总体均值和方差矩阵的无偏估计:E(≤) =μ, var(β) ==,E(S) = Z.mZ证明: E(3) = Z-1 Exi = μ, var(3) =Z-1 var(x)=号注意到nn(n- 1)s =(Xi -x)(Xi x)T =(xi-μ)(xi-μ)T-n(区-μ)(区-μ)1i=1而E(n=1(Xi -μ)(xi -μ)T) = nE(X1 -μ)(x1 -μ)T = nvar(x1) = nZ ,E(n(x-μ)(x-μ)T) = nvar(x) = =→ E(n -1)S = nz-→ E(S) = Z
2 多元样本均值和样本方差矩阵 假设 𝐱1, . , 𝐱𝑛 ∈ 𝑅 𝑝 iid ~(𝝁, Σ) ,即总体均值和方差矩阵分别为 𝝁 = 𝐸 𝐱1 , Σ = 𝑣𝑎𝑟(𝐱1) ,总体未必正态。 𝐱ത = 1 𝑛 σ𝑖=1 𝑛 𝐱𝑖,𝑆 = 1 𝑛−1 σ𝑖=1 𝑛 (𝐱𝑖 − 𝐱ത)(𝐱𝑖 − 𝐱ത) ⊤ 样本均值 样本方差 的无偏性 命题1. 假设 𝐱1, . , 𝐱𝑛 ∈ 𝑅 𝑝 iid ~(𝝁, Σ), 则样本均值和样本方差 分别是总体均值和方差矩阵的无偏估计: 𝐸 𝐱ത = 𝝁, 𝑣𝑎𝑟 𝐱ത = Σ 𝑛 , 𝐸 𝑆 = Σ. 证明:𝐸 𝐱ത = 1 𝑛 σ𝑖=1 𝑛 𝐸𝐱𝑖 = 𝝁, var 𝐱ത = 1 𝑛2 σ𝑖=1 𝑛 var(𝐱𝑖) = Σ 𝑛 . 注意到 而 𝐸(σ𝑖=1 𝑛 (𝐱𝑖 − 𝝁) 𝐱𝑖 − 𝝁 ⊤) = 𝑛𝐸(𝐱1 − 𝝁) 𝐱𝟏 − 𝝁 ⊤ = 𝑛var(𝐱1) = 𝑛Σ , 𝐸 𝑛 𝐱ത − 𝝁 𝐱ത − 𝝁 ⊤ = 𝑛var 𝐱ത = Σ ⇒ E 𝑛 − 1 𝑆 = 𝑛Σ − Σ ⇒ 𝐸 𝑆 = Σ 𝑛 − 1 𝑆 = 𝑖=1 𝑛 (𝐱𝑖 − 𝐱ത)(𝐱𝑖 − 𝐱ത) ⊤ = 𝑖=1 𝑛 (𝐱𝑖 − 𝝁) 𝐱𝑖 − 𝝁 ⊤ − 𝑛(𝐱ത − 𝝁)(𝐱ത − 𝝁) ⊤

多元正态分布参数的极大似然估计极大似然命题2.假设x1.,Xnid~Np(u,Z),则μ,Z的极大似然估计估计MLE分别为=×=S*=(n-1)S/n注:极大似然估计是最优或渐近最优的。S*~S。证明1:似然函数(x1,,Xn的联合概率密度):L(u,2) = p(x1, .., Xn)1p/z II=1 exp(-(Xi - μ)Tz-1(xi - μ) /2)C=(2元)np/22/z exp(-(±-) T2-1(x-) ---(xi - )T-1(x; - x)显然u的极大点众=x。下面只需极大化7z exp(--1(xi - x)T2-1(x1 - x)= [2|n/2exp(-tr(αZr=-1(xi - x) (xi - x)T) = Z-1= [α/n/2exp(-"tr(2S)3
多元正态分布参数的极大似然估计 3 命题2. 假设𝐱1, . , 𝐱𝑛 𝑖𝑖𝑑 ~𝑁𝑝 𝝁, Σ , 则𝝁, Σ的极大似然估计 分别为 𝝁ෝ = 𝐱ത, Σ = 𝑆 ∗ = 𝑛 − 1 𝑆/𝑛 证明1: 似然函数(𝐱1, . , 𝐱𝑛的联合概率密度): 𝐿 𝝁, Σ = 𝑝 𝐱1, . , 𝐱𝑛 = 𝐶 |Σ| 𝑛/2 ς𝑖=1 𝑛 exp −(𝐱𝑖 − 𝝁) ⊤Σ −1 (𝐱𝑖 − 𝝁)/2 = 𝐶 |Σ| 𝑛/2 exp − 𝑛 2 (𝐱ത − 𝝁) ⊤Σ −1 (𝐱ത − 𝝁) − 1 2 σ𝑖=1 𝑛 𝐱𝑖 − 𝐱ത ⊤Σ −1 𝐱𝑖 − 𝐱ത 显然𝝁的极大点𝝁ෝ = 𝐱ത。 Ω = Σ −1 C = 1 (2𝜋) 𝑛𝑝/2 注:极大似然估计是最优或渐近最优的。𝑆 ∗ ≈ 𝑆。 极大似然 估计MLE 下面只需极大化 1 |Σ| 𝑛/2 exp − 1 2 σ𝑖=1 𝑛 𝐱𝑖 − 𝐱ത ⊤Σ −1 𝐱𝑖 − 𝐱ത = |Ω| 𝑛/2 exp − 1 2 tr Ω σ𝑖=1 𝑛 𝐱𝑖 − 𝐱ത 𝐱𝑖 − 𝐱ത ⊤ = |Ω| 𝑛/2 exp − 𝑛 2 tr Ω𝑆 ∗

故求的极大似然估计等价于max f(), f(2) = log(/2) - tr(2s*)>0记A=2S*,其所有特征根入1,,入pf(n) = log(In) - tr(ns*) = log(I2s*D) - tr(ns*) - log(Is*D= log(IAD) - tr(A) - log(|S*D= Zr=1(log(ai) - i) -log(IS*D)令%=1-1= 0= =1,i= 1,.,paaiMi→A= lp→最优解=S*-1,=S*方差矩阵当或2=-1不是完全未知、具有参数结构时,比如2=2(0)的优化目似然方法极大化:标函数max (log(l2(0)D-tr(2(0)s*))2(0)>0其中一般用S替代S*。4
4 记𝐴 = Ω𝑆 ∗ ,其所有特征根 𝜆1, . , 𝜆𝑝 𝑓 Ω = log Ω − tr Ω𝑆 ∗ = log Ω𝑆 ∗ − tr Ω𝑆 ∗ − log 𝑆 ∗ = log 𝐴 − tr 𝐴 − log 𝑆 ∗ = σ𝑖=1 𝑝 log 𝜆𝑖 − 𝜆𝑖 − log 𝑆 ∗ 令 𝜕𝑓 𝜕𝜆𝑖 = 1 𝜆𝑖 − 1 = 0 ⇒ 𝜆𝑖 = 1, 𝑖 = 1, . , 𝑝 ⇒ 𝐴 = 𝐼𝑝 ⇒最优解Ω = 𝑆 ∗−1 ,Σ = 𝑆 ∗ 故求Σ的极大似然估计等价于 max Ω>0 𝑓 Ω ,𝑓 Ω = log Ω − tr Ω𝑆 ∗ 当Σ或Ω = Σ −1不是完全未知、具有参数结构时,比如Ω = Ω(𝛉), 似然方法极大化: max Ω(𝛉)>0 log Ω(𝛉) − tr Ω(𝛉)𝑆 ∗ , 其中一般用𝑆替代𝑆 ∗。 方差矩阵 的优化目 标函数

证明2.不限制2对称,f(2)=log(/2D)一tr(2S*)对2求导afalog(a)atr(2s*):2-1- S*anana2令之为0,得=S*-1,2=S*矩阵、向量导数:(1)A对称则x'Ax=2Axaxotr(AX)(2)X,A为pxp矩阵,则log/X1axax一些矩阵微商公式表贵y-(X)axa1Az2AzIxI(x-y,IXI1 X 1 (2x1 ding(Xx1)(X对序)IAXBIIAXBIA'(AX B)-"YBI [4XB |A((AX B)-YB"2AX(X'AX)-1InIXAX(A对标)X(A+A)tr(XAX')A'Br(AXB)参见王松桂等(2004)线性模型引论P49tr(X'AX B)AX B + 4'X B'In/X12x1_ diag(X-1)(X对明)http://staff.ustc.edu.cn/~ynyang/vector/books/Wang-linear-model.pdftr(AX)(X对称)A+A'-diag(A)5
5 证明2. 不限制Ω对称,𝑓 Ω = log Ω − tr Ω𝑆 ∗ 对Ω求导 𝜕𝑓 𝜕Ω = 𝜕 log Ω 𝜕Ω − 𝜕tr Ω𝑆 ∗ 𝜕Ω = Ω −1 − 𝑆 ∗ 令之为0,得Ω = 𝑆 ∗−1 ,Σ = 𝑆 ∗ . tr( ) log | | (2) 1)A , 2 1 T T A X AX X X X X A p p A A , 为 矩阵,则 , ( 对称 则 矩阵、向量导数: x x x x 参见王松桂等(2004)线性模型引论 P49 http://staff.ustc.edu.cn/~ynyang/vector/books/Wang-linear-model.pdf

第4讲多元正态性质罗列中漏掉了如下性质(至目前还没用到过)正态随机向量的线性组合命题3.假设xi~Nui,Z),i=1,2独立,则X1 +X2~Np(u1 +μ2,Z1+22)证明1:因为x~Np(u,Z)矩母函数Eexp(tTx) = exp(tTμ + tTZt/2), Vt E RP,则Eexp(tT(x1 + x2)) = Eexp(tTx1)Eexp(tTx2)= exp(exp(tT(μ1 + μ2) + tT(21 +Z2)t/2)) .这说明x1+X2~N(1+μ2,Z+2)。证明2:由x1,X2的联合概率密度可知由多元正态性质4(第4讲),X1+X2=(lp,Ip)) ~Np(μ1 + μ2,Z1 +Z2)6
6 命题3. 假设𝐱𝑖~𝑁𝑝 𝝁𝑖 , Σ𝑖 , 𝑖 = 1,2独立,则 𝐱1 + 𝐱2~𝑁𝑝 𝝁1 + 𝝁2, Σ1 + Σ2 证明1:因为𝐱~𝑁𝑝 𝝁, Σ ⇔ 矩母函数 𝐸𝑒𝑥𝑝 𝐭 ⊤𝐱 = exp(𝐭 ⊤𝝁 + 𝐭 ⊤Σ𝐭/2), ∀𝐭 ∈ 𝑅 𝑝 , 则 𝐸𝑒𝑥𝑝 𝐭 ⊤(𝐱1 + 𝐱2) = 𝐸𝑒𝑥𝑝 𝐭 ⊤𝐱1 𝐸𝑒𝑥𝑝 𝐭 ⊤𝐱2 = exp(exp(𝐭 ⊤(𝝁1 + 𝝁2) + 𝐭 ⊤(Σ1 + Σ2)𝐭/2)) . 这说明𝐱1 + 𝐱2~𝑁𝑝 𝝁1 + 𝝁2, Σ1 + Σ2 。 第4讲多元正态性质罗列中漏掉了如下性质(至目前还没用到过) 证明2: 由𝐱1, 𝐱2的联合概率密度可知 𝐱1 𝐱2 ~𝑁2𝑝 𝝁1 𝝁2 , Σ1 0 0 Σ2 , 由多元正态性质4(第4讲),𝐱1 + 𝐱2 = (𝐼𝑝, 𝐼𝑝) 𝐱1 𝐱2 ~𝑁𝑝 𝝁1 + 𝝁2, Σ1 + Σ2 . 正态随机 向量的线 性组合

样本均值命题4.假设x1,,Xniid~N(u,Z),则和方差的(1)x~Np (μu,=); (2) (n -1)S~Wp(n - 1,Z); (3) x Il S.分布证明:(1)由引理1,x~Np(u,Z/n)(2)参见第8讲定理3,记X = (X1, .., Xn)T, Z = (X1 - μ, .., Xn - μ)T = X - 1μT,其中x1-μ,,Xn-μid~Np(o,2),则1111(n - 1)S = xTn由Cochran定理(n - 1)S~W,(n - 1,2)。xT1z1)1=0(3)因为xu,nn11 1Tz7第8讲引理2.ABT=0→AZBZ。n11→ 1TZZTZ = (n-1)S,n所以x Ⅱ S
7 样本均值 和方差的 分布 命题4. 假设𝐱1, ., 𝐱𝑛 𝑖𝑖𝑑 ~𝑁𝑝 𝝁, Σ , 则 1 𝐱ത~𝑁𝑝 𝝁, Σ 𝑛 ; 2 𝑛 − 1 𝑆~𝑊𝑝 𝑛 − 1, Σ ; 3 𝐱ത ⫫ 𝑆. 证明: (1) 由引理1,𝐱ത~𝑁𝑝 𝝁, Σ/𝑛 . (2) 参见第8讲定理3, 第8讲引理2. 𝐴𝐵 ⊤ = 0 ⇒ 𝐴𝑍⫫𝐵𝑍。 记𝑋 = (𝐱1, ., 𝐱𝑛) ⊤, 𝑍 = (𝐱1 − 𝝁, ., 𝐱𝑛 − 𝝁) ⊤ = 𝑋 − 𝟏𝝁 ⊤, 其中𝐱1 − 𝝁, ., 𝐱𝑛 − 𝝁 𝑖𝑖𝑑 ~𝑁𝑝 𝟎, Σ ,则 𝑛 − 1 𝑆 = 𝑋 ⊤ 𝐼𝑛 − 𝟏𝟏 ⊤ 𝒏 𝑋 = 𝑍 ⊤ 𝐼𝑛 − 𝟏𝟏 ⊤ 𝒏 𝑍 由Cochran定理 𝑛 − 1 𝑆~𝑊𝑝 𝑛 − 1, Σ 。 (3) 因为𝐱ത = 𝑋 ⊤𝟏 𝑛 = 𝑍 ⊤𝟏 𝑛 + 𝝁, 𝐼𝑛 − 𝟏𝟏 ⊤ 𝒏 𝟏 = 𝟎 ⇒ 𝟏 ⊤𝑍 ⫫ 𝐼𝑛 − 𝟏𝟏 ⊤ 𝒏 𝑍 ⇒ 𝟏 ⊤𝑍 ⫫ 𝑍 ⊤ 𝐼𝑛 − 𝟏𝟏 ⊤ 𝒏 𝑍 = 𝑛 − 1 𝑆, 所以𝐱ത ⫫ 𝑆

多元正态模型下的显著性检验多元分析中方差矩阵完全未知(或几乎完全未知)假设x1,Xnid~N(μu,)。x~Np(u,/n),var()=/n完全未知以马氏距离度量x和u之间的差距T(μ,2) = (区-μ)Tvar(≤)-1(区-μ) = n(区-μ)T-1(区-μ)~xp为了检验Ho:μ=μo(μo已知),T(u,2)中μ换成μo,并代入Z的估计S,得到Wald检验统计量(Hotelling'sT2)T2 = n(X-μo)Ts-1(区-μo)~HoCFp,n-p (定理1)回归分析中的多参数检验中方差矩阵除了一个参数?,完全已知:y = Xβ+ E, E~N(0,α2Ip), β~Np(β,α2(XTX)-1), Var(β)=2(XTX)-1α2未知,(XTX)-1已知以马氏距离度量β与β的差距T(β,2) =(β-β)Tvar(β)-(β-β) = (β-β)T(XTX)(β-β)/α2~xp与多元正态均值检验问题不同,这里方差矩阵var(β)=α2(XTX)-1只有一个未知2,代入2的估计即得到F = (β-β)T(XTX/α2)(β-β)~HoFpn-p8
8 多元正态模型下的显著性检验 以马氏距离度量𝐱ത 和𝝁之间的差距 𝑇(𝝁, Σ) = (𝐱ത − 𝝁) ⊤var 𝐱ത −1 𝐱ത − 𝝁 = 𝑛(𝐱ത − 𝝁) ⊤Σ −1 𝐱ത − 𝝁 ~𝜒𝑝 2 为了检验𝐻0:𝝁 = 𝝁𝟎 (𝝁𝟎已知), 𝑇(𝝁, Σ)中𝝁换成𝝁𝟎,并代入Σ的估 计𝑆,得到Wald检验统计量(Hotelling’s 𝑇 2) 𝑇 2 = 𝑛(𝐱ത − 𝝁𝟎) ⊤𝑆 −1 𝐱ത − 𝝁𝟎 ~𝐻0 𝑐𝐹𝑝,𝑛−𝑝(定理1) 以马氏距离度量𝛃与𝛃的差距 𝑇 𝛃, 𝜎 2 = (𝛃 − 𝛃) ⊤var 𝛃 −1 𝛃 − 𝛃 = (𝛃 − 𝛃) ⊤ 𝑋 ⊤𝑋 𝛃 − 𝛃 /𝜎 2~𝜒𝑝 2 与多元正态均值检验问题不同,这里方差矩阵var β = 𝜎 2 (𝑋 ⊤𝑋) −1 只 有一个未知𝜎 2,代入𝜎 2的估计即得到 𝐹 = (𝛃 − 𝛃) ⊤(𝑋 ⊤𝑋/𝜎ො 2 ) 𝛃 − 𝛃 ~𝐻0 𝐹𝑝,𝑛−𝑝 回归分析中的多参数检验中方差矩阵除了一个参数𝜎 2,完全已知: 𝐲 = 𝑋𝛃 + 𝛆, 𝛆~𝑁 0, 𝜎 2 𝐼𝑝 , 𝛃~𝑁𝑝 𝛃, 𝜎 2 (𝑋 ⊤𝑋) −1 ,var 𝛃 =𝜎 2 (𝑋 ⊤𝑋) −1 , 𝜎 2未知,(𝑋 ⊤𝑋) −1已知 多元分析中方差矩阵完全未知(或几乎完全未知): 假设𝐱1, ., 𝐱𝑛 𝑖𝑖𝑑 ~𝑁𝑝 𝝁, Σ 。𝐱ത~𝑁𝑝 𝝁, Σ/𝑛 , var 𝐱ത = Σ/𝑛完全未知

回忆第8讲推论4.假设W~W,(m),z~Np(o,Ip),m≥p假设W,则_zTz,_W-,~xm-p+1 (且与z独立)对于非标准的Wishart和正态分布,我们有引理1.假设W~W,(m,2),z~N,(0,2),W z,m≥p,Z>0,则zTz-1zzTW-12~Xm-p+1且与z独立。ZTW-1证: 令2 = Z-1/2z~Np(0,Ip), W = Z-1/2WZ-1/2~Wp(m,Ip)ZTzzTE-1z则由第8讲推论4,zTW-12~Xm-p+10zTW-1z定理1. 假设W~W,(m,Z),z~N,(0,Z),Z>0,m ≥p,假设W z;D则zTW-1z~-m-p+iFp,m-p+1
9 回忆第8讲推论4. 假设𝑊~𝑊𝑝 𝑚 , 𝐳~𝑁𝑝 𝟎,𝐼𝑝 , 𝑚 ≥ 𝑝, 假设𝑊 ⫫ 𝐳,则 𝐳 ⊤𝐳 𝐳⊤𝑊−1𝐳 ~𝜒𝑚−𝑝+1 2 (且与𝐳独立) 对于非标准的Wishart和正态分布,我们有 证:令𝐳 = Σ −1/2𝐳~𝑁𝑝 𝟎,𝐼𝑝 , 𝑊෩ = Σ −1/2𝑊Σ −1/2~𝑊𝑝 𝑚,𝐼𝑝 , 则由第8讲推论4, 𝐳 ⊤Σ −1𝐳 𝐳⊤𝑊−1𝐳 = 𝐳 ⊤𝐳 𝐳⊤𝑊෩ −1𝐳 ~𝜒𝑚−𝑝+1 2 。 引理1. 假设𝑊~𝑊𝑝 𝑚, Σ , 𝐳~𝑁𝑝 𝟎, Σ ,𝑊 ⫫ 𝐳, 𝑚 ≥ 𝑝, Σ > 0, 则 𝐳 ⊤Σ −1𝐳 𝐳 ⊤𝑊−1𝐳 ~𝜒𝑚−𝑝+1 2 , 且 𝐳 ⊤Σ −1𝐳 𝐳⊤𝑊−1𝐳 与𝐳独立。 定理1. 假设𝑊~𝑊𝑝 𝑚, Σ , 𝐳~𝑁𝑝 𝟎, Σ , Σ > 0, 𝑚 ≥ 𝑝, 假设𝑊 ⫫ 𝐳, 则𝐳 ⊤𝑊−1𝐳~ 𝑝 𝑚−𝑝+1 𝐹𝑝,𝑚−𝑝+1

zTE-1z证明:由引理1,W-,~m-p+1,与z独立,而 2T2-1z~xβ,由F分布的定义zTz-1z/pm-p+1Z1Ap,m-p+1ZTE-1Zp /(m -p+ 1)zTW-1z定理2. 假设x1,.,Xn idNp(u,Z),n>p,Z>0,则(n - 1)pT2 =n(x-μ)Ts-1(x-μ)2p,n-pn-p证明: x~Np(u,Z/n) = z Vn(区-μ)~Np(0,2),而W ≤ (n - 1)S~W(n - 1,2),由定理1,zTW-1z=_,n(x-μ)Ts-1(x-μ)~_n-pfp,n-p= T2 = n(x-μ)Ts-1(-μ) = (n - 1)zTW-1z~ (m-1)P Fp,p,n-pn-p10
10 定理2. 假设𝐱1, ., 𝐱𝑛 𝑖𝑖𝑑 ~𝑁𝑝 𝝁, Σ , 𝑛 > 𝑝, Σ > 0, 则 𝑇 2 = 𝑛 𝐱ത − 𝝁 ⊤𝑆 −1 𝐱ത − 𝝁 ~ 𝑛 − 1 𝑝 𝑛 − 𝑝 𝐹𝑝,𝑛−𝑝 证明: 𝐱ത~𝑁𝑝 𝝁, Σ/𝑛 ⇒ 𝐳 ≜ 𝑛 𝐱ത − 𝝁 ~𝑁𝑝 𝟎, Σ , 而𝑊 ≜ 𝑛 − 1 𝑆 ~𝑊𝑝 𝑛 − 1, Σ , 由定理1 , 𝐳 ⊤𝑊−1𝐳 = 1 𝑛−1 𝑛 𝐱ത − 𝝁 ⊤𝑆 −1 𝐱ത − 𝝁 ~ 𝑝 𝑛−𝑝 𝐹𝑝,𝑛−𝑝 ⇒ 𝑇 2 = 𝑛 𝐱ത − 𝝁 ⊤𝑆 −1 𝐱ത − 𝝁 = (𝑛 − 1)𝐳 ⊤𝑊−1𝐳~ (𝑛−1)𝑝 𝑛−𝑝 𝐹𝑝,𝑛−𝑝 证明: 由引理1, 𝐳 ⊤Σ −1𝐳 𝐳⊤𝑊−1𝐳 ~𝜒𝑚−𝑝+1 2 ,与𝐳独立, 而 𝐳 ⊤Σ −1𝐳~𝜒𝑝 2 , 由𝐹分布的定义 𝑚 − 𝑝 + 1 𝑝 𝐳 ⊤𝑊−1𝐳 = 𝐳 ⊤Σ −1𝐳/𝑝 𝐳 ⊤Σ −1𝐳 𝐳 ⊤𝑊−1𝐳 /(𝑚 − 𝑝 + 1) ~𝐹𝑝,𝑚−𝑝+1