
第七讲Wishart分布!Z各"行"独立vectormatrixtensor同分布
1 第七讲 Wishart分布II vector matrix tensor 𝑍 = ∗ ⋮ ∗ 各”行”独立 同分布

上节课:从多元正态样本的密度出发,应用矩阵外积微分形式等Recap工具,给出了求解Wishart分布概率密度的大致过程:Z1,..,zmiid~Np(O,2),Z = (z1,.., Zm)T的概率密度球对称pz(Z) = p(zZ1, ., Zm) = Cexp(-tr(E-1zTZ)) = h(W)Z = UW1/2,W = zTz,U = ZW-1/2,UTU = lpJ(z → (W,U)) = J(W) = 2-P[W(m-p-1)/2Vm,p = (U:UTU = Ip)pz(z)dz= h(W))(W)(dW)(dU) =p(W) (dW) ×(dU),U EVm,pVm,p2元mp/2p(W) = IVm,p|h(W)J(W), IVm,pl =rp()U~U(Vm.p),UWW的概率密度(Wishart)-p-1(-tr(2-1W))p(W)=2mp/2r,(2)2m/ /exp2其中球对称性有基本的重要性。2
2 𝑈~𝑈(𝑉𝑚,𝑝),𝑈 ⫫ 𝑊, 𝑊的概率密度 (Wishart) 𝑝 𝑊 = 1 2𝑚𝑝/2Γ𝑝( 𝑚 2 )|Σ|𝑚/2 𝑊 𝑚−𝑝−1 2 exp − 1 2 𝑡𝑟 Σ −1𝑊 , 𝐳1, . , 𝐳𝑚 iid ~𝑁𝑝(𝟎, Σ), 𝑍 = (𝐳1, . , 𝐳𝑚) ⊤的概率密度 𝑝𝑍 𝑍 = 𝑝 𝐳1, . , 𝐳𝑚 = 𝐶exp − 1 2 𝑡𝑟(Σ −1𝑍 ⊤𝑍) ≜ ℎ(𝑊) 𝑝𝑍 𝑍 𝑑𝑍 = ℎ 𝑊 𝐽 𝑊 𝑑𝑊 𝑑𝑈 = 𝑝 𝑊 𝑑𝑊 × 1 |𝑉𝑚,𝑝| 𝑑𝑈 , 𝑈 ∈ 𝑉𝑚,𝑝 𝑍 = 𝑈𝑊1/2 , 𝑊 = 𝑍 ⊤𝑍, 𝑈 = 𝑍𝑊−1/2 ,𝑈 ⊤𝑈 = 𝐼𝑝 𝐽 𝑍 → 𝑊,𝑈 = 𝐽 𝑊 = 2 −𝑝 |𝑊| (𝑚−𝑝−1)/2 上节课:从多元正态样本的密度出发,应用矩阵外积微分形式等 工具,给出了求解Wishart分布概率密度的大致过程: Recap 球对称 𝑝 𝑊 = |𝑉𝑚,𝑝|ℎ 𝑊 𝐽(𝑊), |𝑉𝑚,𝑝| = 2 𝑝𝜋𝑚𝑝/2 Γ𝑝( 𝑚 2 ) 𝑉𝑚,𝑝 = {𝑈:𝑈 ⊤𝑈 = 𝐼𝑝} 其中球对称性有基本的重要性

球对称(正交不变)阝随机矩阵记号: O(m) = (H e Rmxm: HTH = Im)假设m≥p,zERmxp(m×p矩阵),假设zTz>0。矩阵函数球对称f(Z)称为是(左)球对称的或正交不变的,如果对任何VHEO(m),函数f(HZ)=f(Z)。当p=1时,这是第2-3讲的随机向量情形。命题1:f(Z)球对称,ZERm×pf(Z)=h(zTz),某个Rpxp上的函数h证:(-)对任何给定的ZERmxp,令H1=(ZTZ)-1/2zT,它是行正交的,即HiHT=lp。补全Hi成正交矩阵((ZTZ)-1/2zTH1)HHH2由 0 = H2HT = H2 Z(ZTZ)-1/2 → H2Z = 0. 则HZ =0f(2) = f(HZ) = f (ZT2)1/2)≤ h(zTz) 。0m
3 球对称(正交不变)随机矩阵 球对称 函数 假设𝑚 ≥ 𝑝 ,𝑍 ∈ 𝑅 𝑚×𝑝 (𝑚 × 𝑝矩阵) ,假设𝑍 ⊤𝑍 > 0。矩阵函数 𝑓(𝑍)称为是(左)球对称的或正交不变的,如果对任何∀ 𝐻 ∈ 𝒪(𝑚), 𝑓 𝐻𝑍 = 𝑓 𝑍 。当𝑝 = 1时, 这是第2-3讲的随机向量情形。 记号:𝒪(𝑚) = 𝐻 ∈ 𝑅 𝑚×𝑚: 𝐻 ⊤𝐻 = 𝐼𝑚 命题1:𝑓 𝑍 球对称,𝑍 ∈ 𝑅 𝑚×𝑝 ⇔ 𝑓 𝑍 = ℎ(𝑍 ⊤𝑍) ,某个𝑅 𝑝×𝑝 上的函数ℎ. 证:(⇒) 对任何给定的𝑍 ∈ 𝑅 𝑚×𝑝 , 令𝐻1 = (𝑍 ⊤ 𝑍) −1/2𝑍 ⊤,它是行正交 的,即𝐻1𝐻1 ⊤ = 𝐼𝑝。 补全𝐻1成正交矩阵 𝐻 = 𝐻1 𝐻2 = (𝑍 ⊤𝑍) −1/2𝑍 ⊤ 𝐻2 , 由 0 = 𝐻2𝐻1 ⊤ = 𝐻2 𝑍(𝑍 ⊤𝑍) −1/2 ⇒ 𝐻2𝑍 = 0. 则𝐻𝑍 = (𝑍 ⊤𝑍) 1/2 0 ,则 𝑓 𝑍 = 𝑓 𝐻𝑍 = 𝑓 (𝑍 ⊤𝑍) 1/2 0 ≜ ℎ(𝑍 ⊤𝑍)

Z1,,zmiid~N(O,Z),zs转置后罗列成“列向量”Np(0,2)zT样本的球:z =对称性(zmz的概率密度即z1.,zn的联合概率密度pz(Z) = p(z1, .., Zm) = Cexp(-=tr(2-1zTz)仅依赖于zTZ,是球对称的,即对VHEO(m)HZ = z,pz(HZ) = pz(Z),即Z的分布不依赖于正交坐标系的特定选取。虽然Z行内分量不独立,但按列来看Z = (z(1) .,Z(p)每个列向量在Rm中都是球对称的:Z=(oij)ZG)~Nm(0, qjlm),列向量之间的相关结构也具有球对称性:COv(zZ(),Z(k) = 0jklm4
4 𝐳1, . , 𝐳𝑚 iid ~𝑁𝑝(𝟎, Σ), 𝐳’s转置后罗列成“列向量” 𝑍 = 𝐳1 ⊤ ⋮ 𝐳𝑚 ⊤ 𝑍的概率密度即 𝐳1, . , 𝐳𝑛的联合概率密度 𝑝𝑍 𝑍 = 𝑝 𝐳1, . , 𝐳𝑚 = 𝐶exp − 1 2 𝑡𝑟(Σ −1𝑍 ⊤𝑍) 仅依赖于𝑍 ⊤𝑍,是球对称的, 即对∀ 𝐻 ∈ 𝒪 𝑚 , 𝐻𝑍 = 𝑍, 𝑝𝑍 𝐻𝑍 = 𝑝𝑍(𝑍), 即Z的分布不依赖于正交坐标系的特定选取。 𝑁𝑝(𝟎, Σ) 样本的球 对称性 虽然𝑍行内分量不独立,但按列来看 𝑍 = 𝐳(1) , . , 𝐳(𝑝) 每个列向量在 𝑅 𝑚中都是球对称的: 𝐳(𝑗)~𝑁𝑚 𝟎, 𝜎𝑗𝑗𝐼𝑚 , 列向量之间的相关结构也具有球对称性: cov(𝐳(𝑗) ,𝐳(𝑘)) = 𝜎𝑗𝑘𝐼𝑚 Σ = 𝜎𝑖𝑗 𝑑

模仿第2-3讲,我们可以考虑一般的球对称分布m×p矩阵Z:般球Hz Z, H E O(m)正交对称矩阵分布Z的概率密度仅依赖于ZTZ(未必正态):Pz(z) = h(W), W =zTzZ = UW1/2, W = ZTZ,U = ZW-1/2,UTU = lp与Wishart分布的求解完全相同(P2):J(z→(W,u))=J(W)=2-P/w(m-p-1)/21 (du)pz(z)dz = h(W)(W)(dw)(du) = p(W) (dW) × μmpl则我们得到U~U(Vmp),UⅡW,W=zTz的概率密度p(W) = [Vm,pV(W) h(W) = mpl -h(W)/W|(m-p-1)/2Tp反之,W=ZTZ的密度p(W)唯一决定了球对称分布:由h(W)=p(W)/IVm,pV(W),可得m×p随机矩阵z的分布p(zTz)pz(z) =:IVm,plJ(zTz)如果Z球对称,且各行独立,则各行服从N(O,2),这是多元版本的Mawell-Herschel(MH)定理5
5 模仿第2-3讲,我们可以考虑一般的球对称分布 𝑚 × 𝑝 矩阵 𝑍 : 𝐻𝑍 = 𝑍,𝐻 ∈ 𝒪(𝑚)正交 𝑍 的概率密度仅依赖于𝑍 ⊤𝑍 (未必正态): 𝑝𝑍 𝑍 = ℎ(𝑊), 𝑊 = 𝑍 ⊤𝑍 与Wishart分布的求解完全相同(P2): 𝑝𝑍 𝑍 𝑑𝑍 = ℎ 𝑊 𝐽 𝑊 𝑑𝑊 𝑑𝑈 = 𝑝 𝑊 𝑑𝑊 × 1 |𝑉𝑚,𝑝| 𝑑𝑈 则我们得到𝑈~𝑈 𝑉𝑚,𝑝 ,𝑈 ⫫ 𝑊, 𝑊 = 𝑍 ⊤𝑍的概率密度 𝑝 𝑊 = |𝑉𝑚,𝑝|𝐽 𝑊 ℎ 𝑊 = 𝜋𝑚𝑝/2 Γ𝑝( 𝑚 2 ) ℎ 𝑊 |𝑊| (𝑚−𝑝−1)/2 反之,𝑊 = 𝑍 ⊤𝑍的密度𝑝 𝑊 唯一决定了球对称分布:由 ℎ 𝑊 = 𝑝 𝑊 /|𝑉𝑚,𝑝|𝐽 𝑊 ,可得𝑚 × 𝑝随机矩阵𝑍的分布 𝑝𝑍 𝑍 = 𝑝 𝑍 ⊤𝑍 |𝑉𝑚,𝑝|𝐽 𝑍⊤𝑍 一般球 对称矩 阵分布 𝑑 如果𝑍球对称,且各行独立,则各行服从𝑁𝑝 𝟎, Σ , 这是多元版 本的 Mawell-Herschel (MH)定理 𝑍 = 𝑈𝑊1/2 , 𝑊 = 𝑍 ⊤𝑍, 𝑈 = 𝑍𝑊−1/2 ,𝑈 ⊤𝑈 = 𝐼𝑝 𝐽 𝑍 → 𝑊, 𝑈 = 𝐽 𝑊 = 2 −𝑝 |𝑊| (𝑚−𝑝−1)/2

元Herschel-MaxwellTheorem(HM):多元MH假设随机变量z1.,zm独立,若m×1随机向量z=(z1,zm)T定理服从球对称分布,则z1,…,zmidN(O,α2)。Mukherjee(2017)证明大概:取~Nm(O,Im)是球对称的。z服从球对称分布=Z1d二±三~U(sm-1) =II/VmIIzI II/z/Vm由大数定律,㎡→o时,=/( + +m)/m → E() = 1,/mIIzll/Nm→ ,E(z) ≤ g = z1 / α =51~N(0,1),S.Mukherjee(2017)AProofoftheHerschel-MaxwellTheoremUsingtheStrongLawof LargeNumbers.PiMuEpsilonJournal.Vol14(6)该文花了较大篇幅处理上述证明的漏洞。命题2(多元MH).假设z1,.,ZmERP独立,Z=(z1,,Zm)T,若m×p矩阵z服从球对称分布,则z1,.,zmiid~Np(O,2)。证明:对任何常向量tERPZtERm球对称分布且分量独立,由MH定理,zTt服从一元正态分布,则zm服从多元正态N(0,2)。6
6 多元MH 定理 命题2(多元MH). 假设𝐳1, . , 𝐳𝑚 ∈ 𝑅 𝑝 独立,𝑍 = (𝐳1, . , 𝐳𝑚) ⊤, 若 𝑚 × 𝑝 矩阵𝑍服从球对称分布,则𝐳1, . , 𝐳𝑚 iid ~𝑁𝑝(𝟎, Σ)。 证明:对任何常向量 𝐭 ∈ 𝑅 𝑝 , 𝑍𝐭 ∈ 𝑅 𝑚球对称分布且分量独立,由 MH定理,𝐳𝑖 ⊤ 𝐭 服从一元正态分布,则𝐳𝑚服从多元正态𝑁𝑝(𝟎, Σ)。 一元Herschel-Maxwell Theorem (HM): 假设随机变量𝑧1, . , 𝑧𝑚独立,若𝑚 × 1随机向量𝐳 = (𝑧1, . , 𝑧𝑚) ⊤ 服从球对称分布,则𝑧1, . , 𝑧𝑚 iid ~𝑁(0, 𝜎 2 )。 Mukherjee(2017)证明大概: 取𝛏~𝑁𝑚(𝟎,𝐼𝑚) 是球对称的。𝐳服从球对称分布⇒ 𝐳 𝐳 = 𝛏 𝛏 ~𝑈 𝑆 𝑚−1 ⇒ 𝑧1 𝐳 / 𝑚 = 𝜉1 𝛏 / 𝑚 , 由大数定律,𝑚 → ∞时, 𝛏 𝑚 = (𝜉1 𝟐 + ⋯ + 𝜉𝑚 𝟐 )/𝑚 → 𝐸 𝜉1 𝟐 = 1, 𝐳 / 𝑚 → 𝐸 𝑧1 𝟐 ≜ σ ⇒ 𝑧1/ σ = 𝜉1~𝑁(0,1). 𝑑 𝑑 𝑑 S. Mukherjee (2017) A Proof of the Herschel-Maxwell Theorem Using the Strong Law of Large Numbers. Pi Mu Epsilon Journal. Vol 14(6). 该文花了较大篇幅处理上述证明的漏洞

PiMuEpsilonJournal,蛙鸣:面向大学生的期刊。课程中有些问题可以进一步思考ME多元MH定理(我们自已的命名)在物理学中的应用?·矩阵球对称分布在文献中是否有过足够讨论?简单(直观)地证明矩阵的极分解变换Z=UW1/2W=zTz,U=zW-1/2 的雅可比J(Z →U,W)仅与|WI有关。推广的阿基米德定理(我们自已的命名)的几何意义或应用?·Vm,p=UE Rm×p:UTU=lp}上的均匀分布U(Vmp)的边际分布?比如第一列、第一行的分布?藉此考察Stiefel流形的几何性质。的第个*分量/位置代表第个样本。*位置如果放置矩阵,即矩阵Z=.样本数据,所有的样本构成一个tensor张量Z。张量的球对称性?日z =*各行”独立同分布vectormatrixtensor
7 Pi Mu Epsilon Journal,蛙鸣:面向大学生的期刊。 课程中有些问题可以进一步思考ΠΜΕ: • 多元MH定理(我们自己的命名)在物理学中的应用? • 矩阵球对称分布在文献中是否有过足够讨论? • 简单(直观)地证明矩阵的极分解变换𝑍 = 𝑈𝑊1/2 , 𝑊 = 𝑍 ⊤𝑍, 𝑈 = 𝑍𝑊−1/2 的雅可比 𝐽(𝑍 → 𝑈, 𝑊)仅与|𝑊|有关。 • 推广的阿基米德定理(我们自己的命名)的几何意义或应用? • 𝑉𝑚,𝑝 = {𝑈 ∈ 𝑅 𝑚×𝑝 :𝑈 ⊤𝑈 = 𝐼𝑝} 上的均匀分布 𝑈 𝑉𝑚,𝑝 的边际分布?比如第 一列、第一行的分布?藉此考察Stiefel流形的几何性质。 • 𝑍 = ∗ ⋮ ∗ 的第𝑖个*分量/位置代表第𝑖个样本。*位置如果放置矩阵,即矩阵 样本数据,所有的样本构成一个tensor张量Z。张量的球对称性? vector matrix tensor 𝑍 = ∗ ⋮ ∗ 各”行”独立同分布

几个引理首先介绍几个有关判定独立、条件独立、等分布的引理。引理1(参见Bilodeau&Brenner,2009,P27,Proposition2.13)(1)假设x,y是随机元(随机变量、随机向量、随机矩阵甚至其它复杂的随机数学对象),我们有x,y独立一对任何可测(可积)函数f,g,Ef(x)g(y)=Ef(x)Eg(y)(2)x=y对任何可测函数f,Ef(x)=Ef(y)对于通常的随机变量,f,g取任何示性函数就足够了引理2.u,v是两个随机变量,若u|v的条件分布仅与v的某个函数β(v)有关,则u|g(v)=u|v将条件期望看作投影,条件分布也是条件期望,条件分布P(uv)可看作是u在v空间上的投影,若P(uv)恰好落在v的子空间β(の)上,则P(u)可看成是u直接在p(v)上的投影,即P(u)=P(ulp(v))8
8 对于通常的随机变量,f , g取任何示性函数就足够了. (2) , ( ) ( ) , ( , ( ) ( ) ( ) ( ). (1) , ( 1( Bilodeau& Brenner,2009, 27,Proposition 2.13) x y f Ef x Ef y x y f g Ef x g y Ef x Eg y x y P d 对任何可测函数 独立 对任何可测 可积)函数 , 数学对象),我们有 假设 是随机元 随机变量、随机向量、随机矩阵甚至其它复杂的随机 引理 参见 首先介绍几个有关判定独立、条件独立、等分布的引理。 几个引理 ( ) | ( ) | . 2. | v v u v u v u v u v d 与 的某个函数 有关,则 引理 , 是两个随机变量,若 的条件分布仅 将条件期望看作投影,条件分布也是条件期望,条件分布𝑃(𝑢|𝑣)可看作 是𝑢在𝑣空间上的投影,若 𝑃(𝑢|𝑣)恰好落在𝑣的子空间𝜑(𝑣)上,则𝑃 𝑢 𝑣 可看成是𝑢直接在𝜑(𝑣)上的投影,即𝑃 𝑢 𝑣 = 𝑃 𝑢 𝜑 𝑣

引理2的证明:对任何给定的u的函数f,因为给定v时,u的条件分布仅与p(v)有关,所以E(f(u)/v)仅与p(v)有关,记作E(f(u)/v)=h(g(v)由条件期望的平滑性质/tower性质,(*)E[E(f(u) / v) /p(v)] = E(f(u) /p(v))左端E[E(f(u) / v) / p(v)]= E[h(p(v) / p(v)) = h(p(v)) = E(f(u) [ v),所以E(f(u)l p(v))=E(f(u) /v), 这说明u|p(v)=u| v)引理3.若xz,且z,则x形式化证明(P表示概率或密度):P(x,y) = J P(x,y|z) P(z)dz = J P(x|z) P(yz)P(z) dzP(x) P(ylz)P(z)dz = P(x) / P(ylz)P(z)dz = P(x)P(y)
9 ( ( )| ( )) ( ( )| ) | ( ) | . [ ( ( )| )| ( )] [ ( ( ))| ( )] ( ( )) ( ( )| ) [ ( ( )| )| ( )] ( ( )| ( )) (*) / tower ( ) ( ( )| ) ( ) ( ( )| ) ( ( )), 2 E f u v E f u v u v u v E E f u v v E h v v h v E f u v E E f u v v E f u v v E f u v v E f u v h v u f v u d 所以 ,这说明 左端 , 由条件期望的平滑性质 性质, 有关,所以 仅与 有关,记作 引理 的证明:对任何给定的 的函数 ,因为给定 时, 的条件分布仅与 引理3. 若 𝑥 ⫫ 𝑦 | 𝑧, 且𝑥 ⫫ 𝑧,则 𝑥 ⫫ 𝑦 形式化证明(𝑃表示概率或密度): �𝑑� �� �� ��|�� �� ��|�� �� = �𝑑� �� �� ��|�� ,�� �� = �� ,�� �� = න 𝑃 𝑥 𝑃 𝑦|𝑧 𝑃 𝑧 d𝑧 = 𝑃 𝑥 න 𝑃 𝑦|𝑧 𝑃 𝑧 𝑑𝑧 = 𝑃 𝑥 𝑃 𝑦 𝑥 𝑦 𝑧

引理3的证明:任取f,g。由xz=E(f(x)|z)=Ef(x)由x y / z= E(f(x)g(y)lz) = E(f(x)lz) × E(g(y)lz)。所以Ef(x)g(y) = E(Ef(x)g(y)[z) = E{[Ef(x)|z][Eg(y)|z]}= E(Ef(x) [Eg(y)|z]) = Ef(x) E(Eg(y)Iz} = Ef(x)Eg(y) = x y引理4.假设x~Nm(0,Im),P是秩为r的m×m投影矩阵(对称幂等矩阵),则xTPx~xz,xT(Im-P)x~xm-r,两者独立该结果在线性回归分析中已有介绍和广泛应用,它是Cochran定理的特殊情况(见后面定理2)证明:因为P是秩为r的对称幂等阵,存在正交矩阵H.使得H,故y=Hx~N(0,Im),y的前r个分量组成的y,~N,(0,I,)'PX=x'H( )=(v1,ylyly, ~ x?x(Im- P)x=yy210
10 引理3的证明:任取𝑓, 𝑔。由𝑥 ⫫ 𝑧 ⇒ 𝐸 𝑓 𝑥 𝑧 = 𝐸𝑓(𝑥) 由𝑥 ⫫ 𝑦 | 𝑧 ⇒ 𝐸(𝑓 𝑥 𝑔 𝑦 |𝑧) = 𝐸(𝑓 𝑥 |𝑧) × 𝐸(𝑔 𝑦 |𝑧)。 所以𝐸𝑓 𝑥 𝑔 𝑦 = 𝐸 𝐸𝑓 𝑥 𝑔 𝑦 𝑧 = 𝐸 𝐸𝑓 𝑥 𝑧 [𝐸𝑔(𝑦)|𝑧] = 𝐸 𝐸𝑓(𝑥) [𝐸𝑔(𝑦)|𝑧] = 𝐸𝑓 𝑥 𝐸 𝐸𝑔(𝑦)|𝑧 = 𝐸𝑓 𝑥 𝐸𝑔 𝑦 ⇒ 𝑥 ⫫ 𝑦. 2 2 2 2 1 1 2 1 1 2 1 ( ) ~ ~ . 0 0 0 ( , ) 0 0 0 0 0 0 ~ ( , ), ~ ( , ) 0 0 0 m m r r r r r m m r r r m m m m I P I I H I P H H H N I r N I I P H P r H x x y y y y y y x x x x y y y y y x 0 y y 0 T T T T T T T T T T ,故 的前 个分量组成的 证明:因为 是秩为 的对称幂等阵,存在正交矩阵 使得 引理4. 假设 𝐱~𝑁𝑚 0,𝐼𝑚 ,𝑃是秩为𝑟的 𝑚 × 𝑚投影矩阵(对称幂等 矩阵),则𝐱 ⊤𝑃𝐱~𝜒𝑟 2 ,𝐱 ⊤ 𝐼𝑚 − 𝑃 𝐱~𝜒𝑚−𝑟 2 , 两者独立 该结果在线性回归分析中已有介绍和广泛应用,它是Cochran 定理的特殊情况(见后面定理2)