
第六讲Wishart分布假设z1,.,zmiid~Np(0,2)z1矩阵Zmxp=:是球对称的。2m
1 第六讲 Wishart分布 假设 𝐳1, . , 𝐳𝑚 iid ~𝑁𝑝(𝟎, Σ), 矩阵𝑍𝑚×𝑝 = 𝐳1 ⊤ ⋮ 𝐳𝑚 ⊤ 是球对称的

多元样本假设x1,,XnERP是一组iid随机样本,按行排列成n×p数据矩阵数据矩阵(xT)X=:(xT)样本均值X= En=1Xi = XT1/n样本方差S=-Zn=1(Xi -x)(Xi -x)T =XT(In - PI) X =-XTXc矩阵其中 Pi=11T /n,X。=(In-Pi)X是X的中心化。验证:Z-1(xX - )(xi - x)T =Z= (x, - nxT = XTx - ux = XT(n - P) X假设x1,,Xmiid~N(u,Z),统计推断依赖于x,S的分布。我们首先考虑u=O时,XTX的分布(Wishart分布),进而推导出μ≠0时S的分布。2
2 多元样本 假设 𝐱1, . , 𝐱𝑛 ∈ 𝑅 𝑝是一组iid随机样本,按行排列成𝑛 × 𝑝数据矩阵 𝑋 = 𝐱1 ⊤ ⋮ 𝐱𝑛 ⊤ 数据矩阵 样本均值 𝐱ത = 1 𝑛 σ𝑖=1 𝑛 𝐱𝑖 = 𝑋 ⊤𝟙/𝑛 样本方差 矩阵 𝑆 = 1 𝑛−1 σ𝑖=1 𝑛 (𝐱𝑖 − 𝐱ത)(𝐱𝑖 − 𝐱ത) ⊤ = 1 𝑛−1 𝑋 ⊤(𝐼𝑛 − 𝑃𝟙) 𝑋 = 1 𝑛−1 𝑋𝑐 ⊤𝑋𝑐 , 其中 𝑃𝟙 = 𝟙𝟙 ⊤/𝑛,𝑋𝑐 = (𝐼𝑛−𝑃𝟙) 𝑋是𝑋的中心化。 验证: σ𝑖=1 𝑛 𝐱𝑖 − 𝐱ത 𝐱𝑖 − 𝐱ത ⊤ = σ𝑖=1 𝑛 𝐱𝑖𝐱𝑖 ⊤ − 𝑛𝐱ത 𝐱ത ⊤ = 𝑋 ⊤𝑋 − 𝑋 ⊤𝟙𝟙 ⊤𝑋 𝑛 = 𝑋 ⊤(𝐼𝑛 − 𝑃𝟙) 𝑋 假设 𝐱1, . , 𝐱𝑚 iid ~𝑁𝑝(𝛍, Σ), 统计推断依赖于𝐱ത, 𝑆的分布。我们 首先考虑𝛍 = 0时,𝑋 ⊤𝑋的分布(Wishart分布),进而推导出 𝛍 ≠ 0时𝑆的分布

Wishart分布Wishart分布主要用于描述样本协方差矩阵的分布。Wishart分布是正态假设下,p×p正定矩阵W=zTz所有p(p+1)/2个不同元素(对角线+上三角)的联合分布。苏格兰数学家JohnWishart在1928年求出了该分布的密度函数,后被称为Wishart分布。Wishart分布是多元gamma分布的特殊情况,是卡方或gamma分布的多元拓展。Wishart假设 Z1,., Zm iid ~Np(O,Z),记Z = (z1,.., Zm)T,则分布定义p×p矩阵W=zTz=ZmizizT的分布称为自由度为m,参数为Z的Wishart分布,记作W~W,(m,Z)。→当p=1时,Z=2,W~2xm当Z=Ip时,Wp(m,Ip)称为标准的Wishart分布,简记作Wp(m)。3
3 Wishart 分布 假设 𝐳1, . , 𝐳𝑚 iid ~𝑁𝑝(𝟎, Σ), 记𝑍 = (𝐳1, . , 𝐳𝑚) ⊤,则 𝑝 × 𝑝矩阵 𝑊 = 𝑍 ⊤𝑍 = σ𝑖=1 𝑚 𝐳𝑖𝐳𝑖 ⊤ 的分布称为自由度为 𝑚,参数为Σ的Wishart分布,记作𝑊~𝑊𝑝 𝑚, Σ 。 Wishart 分布定义 Wishart分布主要用于描述样本协方差矩阵的分布。 Wishart分布是正态假设下,𝑝 × 𝑝正定矩阵𝑊 = 𝑍 ⊤𝑍所有𝑝(𝑝 + 1)/2 个不同元素(对角线+上三角)的联合分布。苏格兰数学家John Wishart在1928年求出了该分布的密度函数,后被称为Wishart分布。 Wishart分布是多元gamma分布的特殊情况,是卡方或gamma分布的 多元拓展。 当𝑝 = 1时, Σ = 𝜎 2 , 𝑊~𝜎 2𝜒𝑚 2 当Σ = 𝐼𝑝时,𝑊𝑝 𝑚,𝐼𝑝 称为标准的Wishart分布,简记作𝑊𝑝 𝑚

注1:W=zTz是随机矩阵,也称为Wishartensemble。统计物理概率论中一般称随机矩阵或其分布为ensemble(系综、集成),最著名的是GOE:Gaussianorthogonalensemble(另外还有GUE,GSE,Wishart)。一个n×n对称实随机矩阵H~GOE→H=(G+GT)/V2n,其中G=(gi),gij,i,j=1,...n,idN(0,1),H的概率密度函数为1ntr(H2p(H)Zexp4注2:当p>1时,虽然Z=(Z1,,Zm)T的每一行都不是球对称的:Zi ~Np(o,2), i = 1,..,m但Z=(z(1),,Z(p))的每一列都服从球对称正态分布:zG)~Nm(0,j Im) = Wj= Iz()l/~ ~j xm, j = 1, ., p即W的对角元都服从scaled卡方分布。我们下面讨论z=(z1,,zm)T的球对称性,以及如何利用这种对称性求解Wishart分布的概率密度。4
4 注2:当𝑝 > 1时,虽然𝑍 = (𝐳1, . , 𝐳𝑚) ⊤的每一行都不是球对称的: 𝐳𝑖 ~𝑁𝑝(𝟎, Σ), 𝑖 = 1, . , 𝑚 但𝑍 = (𝐳(1) , . , 𝐳(𝑝))的每一列都服从球对称正态分布: 𝐳(𝑗)~𝑁𝑚 0, 𝜎𝑗𝑗 𝐼𝑚 ⇒ 𝑤𝑗𝑗= 𝐳(𝑗) 2 ~𝜎𝑗𝑗 𝜒𝑚 2 , 𝑗 = 1, . , 𝑝 即𝑊的对角元都服从scaled 卡方分布。 注1:𝑊 = 𝑍 ⊤𝑍是随机矩阵,也称为Wishart ensemble。统计物理、 概率论中一般称随机矩阵或其分布为ensemble(系综、集成),最著名 的是GOE: Gaussian orthogonal ensemble (另外还有GUE,GSE, Wishart)。 一个𝑛 × 𝑛对称实随机矩阵𝐻~GOE ⇔ 𝐻 = (𝐺 + 𝐺 ⊤)/ 2𝑛,其 中𝐺 = 𝑔𝑖𝑗 , 𝑔𝑖𝑗, 𝑖,𝑗 = 1, . 𝑛, 𝑖𝑖𝑑 ~𝑁(0,1), 𝐻的概率密度函数为 𝑝 𝐻 = 1 𝑍 exp − 𝑛 4 𝑡𝑟 𝐻 2 . 我们下面讨论𝑍 = (𝐳1, . , 𝐳𝑚) ⊤的球对称性,以及如 何利用这种对称性求解Wishart分布的概率密度

m×p矩阵z是把同分布的z1..,zm逐行排列而成的“列向量”:Z各行独立且同分(zT)布Z =:(zm该“列向量”的第个位置放置的不是一个实数,而是一个frame(行向量zj),与p=1情形类似,各个frame独立且同为正态分布,因此Z应该也是球对称的:Z是球对命题1.Z的概率密度即z1..…,Zm的联合概率密度称的1p(Z) = p(z1, ., zm) = Cexp(-{tr(2-1zTz)(2元)pm/2/2jm/2仅与zTz有关,对于Vm×m正交矩阵H,Hz兰z.1验证: p(2) = p(1., m) =I1(2n)/2/z exp(-z[2-1z /2)= Cexp(-1zT-1zi) = Cexp(-tr(2-1zTz))且对v正交矩阵H,p(HZ)=p(Z),即Hz 兰z。5
5 𝑍 = 𝐳1 ⊤ ⋮ 𝐳𝑚 ⊤ 𝑍各行独 立且同分 布 𝑚 × 𝑝矩阵𝑍是把同分布的𝐳1, . , 𝐳𝑚逐行排列而成的“列向量”: 该“列向量”的第𝑖个位置放置的不是一个实数,而是一个frame (行向量𝐳𝑖 ⊤),与𝑝 = 1情形类似, 各个frame独立且同为正态 分布,因此𝑍应该也是球对称的: 𝑑 命题1. 𝑍的概率密度即 𝐳1, . , 𝐳𝑛的联合概率密度 𝑝 𝑍 = 𝑝 𝐳1, . , 𝐳𝑚 = 𝐶exp − 1 2 𝑡𝑟(Σ −1𝑍 ⊤𝑍) 仅与 𝑍 ⊤𝑍有关,对于∀ 𝑚 × 𝑚正交矩阵𝐻, 𝐻𝑍 = 𝑍. 𝑍是球对 称的 验证: 𝑝 𝑍 = 𝑝 𝐳1, . , 𝐳𝑚 = ς𝑖=1 𝑚 1 (2𝜋) 𝑝/2|Σ| 1/2 exp −𝐳𝑖 ⊤Σ −1𝐳𝑖/2 = 𝐶exp − 1 2 σ𝑖=1 𝑚 𝐳𝑖 ⊤Σ −1𝐳𝑖 = 𝐶exp − 1 2 𝑡𝑟(Σ −1𝑍 ⊤𝑍) , 且对∀正交矩阵𝐻, 𝑝 𝐻𝑍 = 𝑝 𝑍 , 即𝐻𝑍 = 𝑍。 𝐶 = 1 (2𝜋) 𝑝𝑚/2|Σ|𝑚/2 𝑑

ZTZ:Z的W=zTz=m,zz是z的各个分量/frame的“平方和”模长平方可看作是Z的“模长平方”。因此我们有理由相信W分布的求解应该与一元情形(p=1)的求解类似。第二讲P12定理1求解了一般球对称分布的模长分布,定理2给出了Nn(O,In)情形的结论。下面针对球对称正态Nm(O,α21m),即Wishart分布p=1情形,再次重复第二讲定理2的证明过程:假设z1,.,zmiid~N(O,α2),排成列向量Wishart分布的求解:Z1)p=1情形:~Nn(O,g2In),z =(Zm)其概率密度(2元g2)m/2该分布仅与模长有关,是球对称的。为了求z分布,以及给定lz条件下z的分布,考虑变换z-rur=zu=zz(我们略去,其实不需要,u中的球坐标细节)6
6 𝑊 = 𝑍 ⊤𝑍 = σ𝑖=1 𝑚 𝐳𝑖𝐳𝑖 ⊤ 是 𝑍的 各个分量/frame的“平方和” , 可看作是Z的“模长平方” 。因此我们有理由相信W分布的 求解应该与一元情形(𝑝 = 1)的求解类似。 𝑍 ⊤𝑍: 𝑍的 模长平方 Wishart分 布的求解: 𝑝 = 1情形 假设 𝑧1, . , 𝑧𝑚 iid ~𝑁(0, 𝜎 2 ),排成列向量 𝐳 = 𝑧1 ⋮ 𝑧𝑚 ~𝑁𝑛(𝟎, 𝜎 2 𝐼𝑛), 其概率密度 𝑝 𝐳 = 1 (2𝜋𝜎2)𝑚/2 exp − 1 2𝜎2 𝐳 2 , 该分布仅与模长有关,是球对称的。为了求 𝐳 分布,以及给定 𝐳 条件下𝐳的分布,考虑变换 𝐳 → 𝑟, 𝐮 , 𝑟 = 𝐳 , 𝐮 = 𝐳/ 𝐳 , 第二讲P12定理1求解了一般球对称分布的模长分布,定理2给 出了𝑁𝑛(𝟎,𝐼𝑛)情形的结论。下面针对球对称正态𝑁𝑚(𝟎, 𝜎 2 𝐼𝑚), 即Wishart分布𝑝 = 1情形,再次重复第二讲定理2的证明过程: (我们略去,其实不需要,𝐮中的球坐标细节)

Jacobian: J(z →(r,u) =rm-1 dz = rm-1dr(du)形式记号(du):sm-1面积元doexpr22g2rm-1dr(du) ≤ g(r)dr(du)= p(z)dz =(1)(2元g2)2令t=r2/2g2(1)式表明径向长度r与方向u可分离,即ru。两边积分,r部分的积分利用gamma g(r)dr =(2g2)z积分容易求得(参看右边推导),则我们可1r(m/2)以得到球面面积(高斯积分法),并同时+m/2-1dt2元m/22元m/2得到r的概率密度:(1)式两边积分1= J p(2)dz= J g(r)dr J(du) = Fm/2 sm-1 = Ism-1| = 2mm/2/(m/2)2元m/= p(z)dz = g(r)dr(du) = [sm-1lg(r)dr × Ism-1) (du)2azr2)rm-1|sm-1exp(-dr x(du)[sm-1](2元g2)m/2→ r~oXm,u~U(sm-1), rll u
7 形式记号 d𝐮 : 𝑆 𝑚−1面积元𝑑𝜎 = exp(− 1 2𝜎2 𝑟 2)𝑟𝑚−1|𝑆𝑚−1| (2𝜋𝜎2)𝑚/2 𝑑𝑟 × 1 𝑆𝑚−1 (𝑑𝐮) ⇒ 𝑟~𝜎𝜒𝑚 , 𝐮~𝑈(𝑆 𝑚−1 ), 𝑟⫫ 𝐮 (1)式两边积分 = �𝑑� �𝑑�(��)�� = �𝑑� �� �� = 1 Γ(𝑚/2) 2𝜋𝑚/2 𝑆 𝑚−1 ⇒ 𝑝 𝐳 𝑑𝐳 = 𝑔 𝑟 𝑑𝑟 𝑑𝐮 = |𝑆 𝑚−1 |𝑔 𝑟 𝑑𝑟 × 1 𝑆𝑚−1 (𝑑𝐮) 令 𝑡 = 𝑟 2 /2𝜎 2 = �𝑑� �� �� exp − 1 2𝜎2 𝑟 2 2𝜋𝜎2 𝑚 2 𝑟 𝑚−1𝑑𝑟 = 1 2𝜋𝑚/2 න 𝑒 −𝑡 𝑡 𝑚/2−1𝑑𝑡 = Γ(𝑚/2) 2𝜋𝑚/2 Jacobian: 𝐽 𝐳 → 𝑟, 𝐮 = 𝑟 𝑚−1 ⇔ 𝑑𝐳 = 𝑟 𝑚−1𝑑𝑟(𝑑𝐮) (1)式表明径向长度𝑟与方向𝐮可分离,即 𝑟⫫ 𝐮。两边积分,𝑟部分的积分利用gamma 积分容易求得(参看右边推导),则我们可 以得到球面面积(高斯积分法),并同时 得到𝑟的概率密度: ⇒ 𝑝 𝐳 𝑑𝐳 = exp − 1 2𝜎2 𝑟 2 2𝜋𝜎2 𝑚 2 𝑟 𝑚−1𝑑𝑟(𝑑𝐮) ≜ 𝑔(𝑟)𝑑𝑟(𝑑𝐮) (1) ⇒ 𝑆 𝑚−1 = 2𝜋 𝑚/2 /Γ(𝑚/2)

现在回到p>1情形,z1,,zmiid~N,(0,2)联合概率密度Wishart分zT布的求解:.Zmxpp(Z) = p(Z1. ., zm) = Cexp(-tr(2-1zTz)p>1情形(zm)类似于p=1,我们对Z做极分解变换Z = UW1/2: W = zTz,U = Z(zTz)-1/2W>0,p×p正定矩阵,可看作是z的“模长平方”;U是z的"单位化":UTU=IpUE Vmp = (U E Rmxp:UT U = Ip)c RmpVm,p称为Stiefel 流形(manifold),dim(Vm,p)= mp=P(p+)2当p = 1,Vm1 = Sm-1;当p>1,Vmp是Rmp中既光滑又有旋转对称性的几何体。(李群:连续的变换群,兼具群对称性和流形的微分光滑性)例:当m=3,p=2,UeV3.2的一种"极坐标"参数化:cos(0)- sin(0) cos()U=(sin()cos(Φ)cos() cos(Φ)cos() —sin(Φ) sin()sin()sin(Φ)cos() sin(Φ)cos()+cos(Φ) sin() E(0,元),Φ E [0,2元), E[0,2元)0
8 现在回到𝑝 > 1情形, 𝐳1, . , 𝐳𝑚 iid ~𝑁𝑝(𝟎, Σ)联合概率密度 𝑝 𝑍 = 𝑝 𝐳1, . , 𝐳𝑚 = 𝐶exp − 1 2 𝑡𝑟(Σ −1𝑍 ⊤𝑍) 类似于𝑝 = 1, 我们对𝑍做极分解变换 Wishart分 布的求解: 𝑝 > 1情形 𝑍 = 𝑈𝑊1/2 :𝑊 = 𝑍 ⊤𝑍,𝑈 = 𝑍(𝑍 ⊤𝑍) −1/2 • 𝑊 > 0, 𝑝 × 𝑝正定矩阵,可看作是Z的“模长平方”; • 𝑈是𝑍的“单位化”: 𝑈 ⊤𝑈 = 𝐼𝑝 𝑍𝑚×𝑝 = 𝐳1 ⊤ ⋮ 𝐳𝑚 ⊤ 𝑉𝑚,𝑝称为Stiefel 流形(manifold), 𝑑𝑖𝑚(𝑉𝑚,𝑝) = 𝑚𝑝 − 𝑝(𝑝+1) 2 • 当𝑝 = 1, 𝑉𝑚,1 = 𝑆 𝑚−1 ; • 当𝑝 > 1, 𝑉𝑚,𝑝是𝑅 𝑚𝑝中既光滑又有旋转对称性的几何体。 (李群: 连续的变换群,兼具群对称性和流形的微分光滑性) 𝑈 ∈ 𝑉𝑚,𝑝 = {𝑈 ∈ 𝑅 𝑚×𝑝 :𝑈 ⊤ 𝑈 = 𝐼𝑝} ⊂ 𝑅 𝑚𝑝 例:当𝑚 = 3, 𝑝 = 2, 𝑈 ∈ 𝑉3,2的一种“极坐标”参数化: 𝑈 = cos(𝜃) − sin 𝜃 cos(𝜑) sin 𝜃 cos(𝜙) cos 𝜃 cos 𝜙 cos 𝜑 − sin(𝜙) sin 𝜑 sin 𝜃 sin(𝜙) cos 𝜃 sin 𝜙 cos 𝜑 + cos(𝜙) sin 𝜑 , 𝜃 ∈ 0, 𝜋 ,𝜙 ∈ [0,2𝜋), 𝜑 ∈ [0,2𝜋)

极分解变换Z一→(W,U)的Jacobian(附录:定理A8)J = J(Z -→ (W,U)) = 2-P|W(m-p-1)/2 dz = 2-P|W|(m-p-1)/2(dW)(dU)I仅与W有关,我们可分离p(Z)中的径向W和方向U(即WⅡU):m-p-1(dw)(du)p(z)dZ = C2-Pexp(E-1W)IWI2tr2(2)≤ g(W)(dW)(dU), U e Vm,p(2)式两边同时积分1= J p(Z)dz = J g(W)(dW) JueVm(dU) = J g(W)(dW) IVm,pl积分『g(W)(dW)可以求得,与多元Gamma函数有关(参见下页),1则IVmpl=Tg(w)(aw’g(W)IVmpl 即是W的概率密度。9
9 极分解变换𝑍 → 𝑊, 𝑈 的Jacobian (附录: 定理A8) 𝐽 = 𝐽(𝑍 → 𝑊,𝑈 ) = 2 −𝑝 |𝑊| (𝑚−𝑝−1)/2 ⇔ 𝑑𝑍 = 2 −𝑝 |𝑊| (𝑚−𝑝−1)/2 (𝑑𝑊)(𝑑𝑈) 𝐽仅与𝑊有关,我们可分离𝑝 𝑍 中的径向𝑊和方向𝑈(即𝑊 ⫫ 𝑈 ): 𝑝 𝑍 𝑑𝑍 = 𝐶2 −𝑝 exp − 1 2 𝑡𝑟 Σ −1𝑊 𝑊 𝑚−𝑝−1 2 𝑑𝑊 𝑑𝑈 ≜ 𝑔 𝑊 𝑑𝑊 𝑑𝑈 , 𝑈 ∈ 𝑉𝑚,𝑝 (2) (2)式两边同时积分 ��,�𝑉�∋�� (�𝑑�)(��)�� = �𝑑� �� �� = 1 |��,�𝑉�| (�𝑑�)(��)�� = (�𝑑�) 积分 (�𝑑�)(��)�� 可以求得,与多元Gamma 函数有关(参见下页), 则|𝑉𝑚,𝑝| = 1 。即是W的概率密度 𝑔 𝑊 𝑑𝑊 , 𝑔 𝑊 |𝑉𝑚,𝑝|

定义:多元gamma函数(α>P二,p正整数)S是p×p正定矩阵0+1Ip(a) = Js>o exp(-trS)ISa-(ds),由附录定理A6T,(a) = p(p-1)/4 &=1r(α - )2P元mp/22P元mp/21= J g(W)(dw)[Vm,p]Jg(w)(dw)Tp(g)p()=W的概率密度为-P-tr(E-1W) IWIp(W) = g(W) IVm,pl = C2-Pexp× IVm,pl22元mp/21代入 C = (2m)pm/2m/2 即得Wishart分布的概率密度:1Vm,pTp(m)12m-p-1tr(-1w)p(W) :W2exp2mp/2T,()/2|m/210
10 ⇒ 𝑊的概率密度为 𝑝 𝑊 = 𝑔(𝑊) |𝑉𝑚,𝑝| = 𝐶2 −𝑝 exp − 1 2 𝑡𝑟 Σ −1𝑊 𝑊 𝑚−𝑝−1 2 × |𝑉𝑚,𝑝| 代入 𝐶 = 1 (2𝜋) 𝑝𝑚/2|Σ|𝑚/2 , |𝑉𝑚,𝑝| = 2 𝑝𝜋𝑚𝑝/2 Γ𝑝( 𝑚 2 ) 即得Wishart分布的概率密度: 𝑆是𝑝 × 𝑝正定矩阵 定义:多元gamma函数( 𝑎 > 𝑝−1 2 , 𝑝正整数) Γ𝑝 𝑎 = <��0 exp −𝑡𝑟𝑆 |𝑆| 𝑎− 𝑝+1 2 (𝑑𝑆), = (�𝑑�)(��)�� ⇒ 2 𝑝𝜋𝑚𝑝/2 Γ𝑝( 𝑚 2 ) ⇒ |𝑉𝑚,𝑝| = 1 �𝑑� �� �� = 2 𝑝𝜋𝑚𝑝/2 Γ𝑝( 𝑚 2 ) , 𝑝 𝑊 = 1 2𝑚𝑝/2Γ𝑝( 𝑚 2 )|Σ|𝑚/2 𝑊 𝑚−𝑝−1 2 exp − 1 2 𝑡𝑟 Σ −1𝑊 由附录定理A6: Γ𝑝 𝑎 = 𝜋 𝑝(𝑝−1)/4 ς𝑘=1 𝑝 Γ 𝑎 − 𝑘−1 2