
第四讲多元正态分布 (μ, 2)
第四讲 多元正态分布 1 𝑁𝑝(𝛍, Σ)

内容多元生成分布:球对称正态、Boltzmann分布椭球分布多元正态分布高斯图模型概率图模型:马氏随机场Hammersley-Clifford定理
内容 • 多元生成分布:球对称正态、Boltzmann分布 • 椭球分布 • 多元正态分布 • 高斯图模型 • 概率图模型:马氏随机场 • Hammersley-Clifford定理 2

多元生成模型:球对称正态、Boltzmann分布球对称分布的仿射变换可以生成椭球分布,最重要的是Nn(O,α2In)。Boltzmann分布是物理学中的重要概率模型,众多分布与其有关,我们也把它视作多元离散分布的生成模型X=(x1,..,xn)T~N(0,α21n)(α2=1时是标准正态)球对称正态N(0,-In)X1,...,xniid~N(O,o2),一概率密度函数f(x)=(2no0)/exp(-1x1)一前~ (s"-1),岚 Ixl, Ix~0xn;概率密度:-1rn-1e-r2/202, r >0Pn,g(r) = 2n/2-1r(n/2)封闭物理系统在热力学温度T时处于能量状态E:的概率(或密度Boltzmann(Gibbs)分布p(Ei) =zexp(-E;/kT),其中配分(partition)函数Z=Z,exp(-Ei/kT),Boltzmann常数k=1.380649×10-23焦耳/开尔文。5
5 多元生成模型:球对称正态、Boltzmann分布 𝐱 = (𝑥1, . . , 𝑥𝑛) ⊤~𝑁𝑛 0, 𝜎 2 𝐼𝑛 (𝜎 2= 1时是标准正态) ⇔ 𝑥1, . . , 𝑥𝑛 iid ~𝑁 0, 𝜎 2 , ⇔ 概率密度函数𝑓 𝐱 = 1 (2𝜋𝜎2) 𝑛/2 exp − 1 2𝜎2 𝐱 2 ⇔ 𝐱 𝐱 ~𝑈 𝑆 𝑛−1 , 𝐱 𝐱 ⫫ 𝐱 , 𝐱 ~𝜎𝜒𝑛 ,概率密度: 𝑝𝑛,𝜎 𝑟 = 𝜎 −𝑛 2 𝑛/2−1Γ(𝑛/2) 𝑟 𝑛−1𝑒 −𝑟 2/2𝜎 2 , 𝑟 > 0 球对称正 态𝑁𝑛 0, 𝜎 2 𝐼𝑛 球对称分布的仿射变换可以生成椭球分布,最重要的是 𝑁𝑛 0, 𝜎 2 𝐼𝑛 。Boltzmann分布是物理学中的重要概率模型,众多 分布与其有关,我们也把它视作多元离散分布的生成模型。 封闭物理系统在热力学温度𝑇时处于能量状态𝐸𝑖的概率(或密度) 𝑝 𝐸𝑖 = 1 𝑍 exp(−𝐸𝑖/𝑘𝑇), 其中配分 partition 函数 𝑍 = σ𝑖 exp(−𝐸𝑖/𝑘𝑇), Boltzmann常数 𝑘 = 1.380649 × 10−23焦耳/开尔文。 Boltzmann (Gibbs)分布

分子速率的麦克斯韦-玻尔兹曼分布(Maxwell-Boltzmann):0X3分布kT2/元g3 v?e-2 /2g2P3,(v) =,v>0,=Nm这是oX3分布,其中m:质量,T:温度,k:Boltzmann常数。麦克斯韦(1860)和玻尔兹曼考虑热平衡状态下理想气体分子(或粒子)速度向量v=(1,V2,V3)T和速率=++的概率分布。麦克斯韦假设v各向同性且分量独立→V1,V2,V3id~N(0,α2)。Hershell(1850)更早发现了这一结果。玻尔兹曼从热力学角度推导出球对称正态,得到。2=,,(是一m般的Boltzmann能量分布的基础)从而速率=++~0X3,=kT/m由此可得能量E=mv2/2服从()x3Maxwell-Hershell定理:随机向量x球对称分布且所有分量独立 X~Nn(0,α2In)6
6 分子速率的麦克斯韦-玻尔兹曼分布(Maxwell–Boltzmann): 𝑝3,𝜎 𝑣 = 2 𝜋𝜎3 𝑣 2𝑒 −𝑣 2/2𝜎 2 , 𝑣 > 0, 𝜎 = 𝑘𝑇 𝑚 这是𝜎𝜒3 分布,其中𝑚: 质量, 𝑇:温度, 𝑘:Boltzmann常数。 麦克斯韦(1860)和玻尔兹曼考虑热平衡状态下理想气体分子(或粒子) 速度向量𝐯 = (𝑣1, 𝑣2, 𝑣3) ⊤和速率𝑣 = 𝑣1 2 + 𝑣2 2 + 𝑣3 2 的概率分布。 • 麦克斯韦假设𝐯各向同性且分量独立⇒ 𝑣1, 𝑣2, 𝑣3 iid ~𝑁 0, 𝜎 2 。 Hershell(1850)更早发现了这一结果。 • 玻尔兹曼从热力学角度推导出球对称正态,得到 𝜎 2 = 𝑘𝑇 𝑚 , (是一 般的Boltzmann能量分布的基础) 从而速率𝑣 = 𝑣1 2 + 𝑣2 2 + 𝑣3 2 ~𝜎𝜒3 ,𝜎 = 𝑘𝑇/𝑚 由此可得能量𝐸 = 𝑚𝑣 2 /2服从( 𝑘𝑇 2 )𝜒3 2 𝜎𝜒3 分布 Maxwell-Hershell定理:随机向量𝐱球对称分布且所有分量 独立⇔ 𝐱~𝑁𝑛 0, 𝜎 2 𝐼𝑛

*球对称多元正态的仿射变换生成(球)多元正态分布这是本课程的主要模型;常见的统计模型,比如线性回归模型、误差正态的时间序列、纵向数据模型实际上是具有特殊结构的多元正态模型。*Boltzmann分布应用于特定场合,假定能量的特殊形式生成一些物理学中重要的多元离散分布或模型Ising model, Boltzmann machine, restrictedBoltzmann machine, energy-based models anddeepBoltzmannmachine
7 球对称多元正态的仿射变换生成(椭球)多元正态分布, 这是本课程的主要模型; Boltzmann分布应用于特定场合, 假定能量的特殊形式, 生成一些物理学中重要的多元离散分布或模型。 常见的统计模型,比如线性回归模型、误差 正态的时间序列、纵向数据模型实际上是具 有特殊结构的多元正态模型。 Ising model, Boltzmann machine, restricted Boltzmann machine, energy-based models and deep Boltzmann machine

椭球分布假设x服从方差为I,的球对称分布,密度函数为f(x)=h(llxll)xERP。给定常数向量μERP和p阶正定矩阵Z,则x的仿射变换的分布称为椭球分布:y = 21/2 x +μ ~ Ep(μ, 2)其概率密度函数为p(y) = [2|-1/2 h(y -μ)Tz-1(y -μ)因为x均值为0,方差为lp,Ep(u,2)的均值为μ,协方差为Z。最重要的椭球分布是多元正态分布。例1.假设x服从标准的多元正态1F(x) = (2m)p/z exp (- x1/ /2),则y=Z1/2x+μ的概率密度函数为1p(y) = (2n)p/2/2/1/2 exp(-(y -μm)Tz-1(y - )/2)这称为多元正态分布,y~Np(u,2)8
8 椭球分布 假设𝐱服从方差为𝐼𝑝的球对称分布,密度函数为𝑓(𝐱) = ℎ( 𝐱 ), 𝐱 ∈ 𝑅 𝑝。给定常数向量𝛍 ∈ 𝑅 𝑝和 𝑝 阶正定矩阵Σ,则𝐱的仿射变换 的分布称为椭球分布: 𝐲 = Σ 1/2 𝐱 + 𝛍 ~ 𝐸𝑝(𝛍, Σ) 其概率密度函数为 𝑝 𝐲 = |Σ| −1/2 ℎ((𝐲 − 𝛍) ⊤Σ −1 (𝐲 − 𝛍)) 例1. 假设𝐱服从标准的多元正态 𝑓 𝐱 = 1 (2𝜋) 𝑝/2 exp (− 𝐱 2 /2), 则𝐲 = Σ 1/2 𝐱 + 𝛍 的概率密度函数为 𝑝 𝐲 = 1 (2𝜋) 𝑝/2|Σ| 1/2 exp(−(𝐲 − 𝛍) ⊤Σ −1 (𝐲 − 𝛍)/2) 这称为多元正态分布, 𝐲~𝑁𝑝(𝛍, Σ). 最重要的椭球分布是多元正态分布。 因为𝐱均值为0,方差为𝐼𝑝, 𝐸𝑝 (𝛍, Σ)的均值为𝛍,协方差为Σ

例2.球内均匀分布f(x)=,xl≤1,椭球均匀分布:1g(y) = n2/ y e En = (y: (y - μ)Tz-1(y -w) ≤ 1)椭球En的体积|Enl=BnZ|1/2。椭圆E2=(x1,x2):+≤1)的面积V2= πa1a2,周长没有初等表达a2a2r(k-)r(k+)αkSs - 4 / /asim2(0) .cos(0) d0-2a 2- cr = - /a椭圆积分植球En= (ax.,n);Z--≤1]的体积V=[B"[a1an,而表面积S,没有初等表达,Rivin(2007)给出了一个有趣表达n(-EZn-1X/a?,X1,.,Xn id ~N(0,1/2)SE,=nIgorRivin.Surfaceareaandothermeasuresofellipsoids.AdvancesinAppliedMathematics39(2007)409-4279
9 例2. 球内均匀分布 𝑓 𝐱 = 1 𝐵𝑛 , 𝐱 ≤ 1, 椭球均匀分布: 𝑔 𝐲 = 1 𝐵𝑛 |Σ| 1/2 , 𝐲 ∈ 𝐸𝑛 = {𝐲: (𝐲 − 𝛍) ⊤Σ −1 (𝐲 − 𝛍) ≤ 1} 椭球𝐸𝑛的体积|𝐸𝑛| = 𝐵 𝑛 |Σ| 1/2。 椭圆𝐸2 = 𝑥1, 𝑥2 : 𝑥1 2 𝑎1 2 + 𝑥2 2 𝑎2 2 ≤ 1 的面积𝑉2 = 𝜋𝑎1𝑎2,周长没有初等表达 𝑆𝐸2 = 4 0 𝜋/2 𝑎1 2 sin2 𝜃 + 𝑎2 2 cos2 𝜃 𝑑𝜃 =2𝜋𝑎1 σ𝑘=0 ∞ Γ(𝑘− 1 2 )Γ(𝑘+ 1 2 ) Γ(− 1 2 )Γ(𝑘+1) 𝛼 𝑘 𝑘! , 𝛼 = 1 − 𝑎2 2 /𝑎1 2 椭球𝐸𝑛 = 𝑥1, . , 𝑥𝑛 : σ𝑖=1 𝑛 𝑥𝑖 2 𝑎𝑖 2 ≤ 1 的体积𝑉𝑛 = 𝐵 𝑛 𝑎1 ⋯ 𝑎𝑛, 而表面积𝑆𝑛没 有初等表达, Rivin(2007)给出了一个有趣表达: 𝑆𝐸𝑛 = 𝑛Γ( 𝑛 2 ) Γ( 𝑛+1 2 ) 𝐸 σ𝑖=1 𝑛 𝑋𝑖 2 /𝑎𝑖 2 ,X1, . , X𝑛 iid ~𝑁(0,1/2) Igor Rivin. Surface area and other measures of ellipsoids. Advances in Applied Mathematics 39 (2007) 409–427 椭圆积分

多元正态分布基于球对称的多元标准正态分布生成椭球多元正态分布,这其实是多元正态分布的一种定义方式:定义1(多元正态,许宝):假设随机向量zgxl~N(0,),即z的联合多元正态定义11密度为f(z)=(2元)/z exp(-1/IP /2)。 假设A是p×g常数矩阵,μ是px1常数向量,则称x=Az+μ服从参数为μ,AAT的多元正态分布,记作x~ N,(μ, AAT)。若A不是行满秩的,则AAT不可逆,此时称为退化多元正态分布。退化多元正态没有恰当的概率密度,但与非退化正态类似。10
10 基于球对称的多元标准正态分布生成椭球多元正态分布,这其实 是多元正态分布的一种定义方式: 记作 。 常数向量,则称 服从参数为 , 的多元正态分布, 密度为 。假设 是 常数矩阵, 是 定义(多元正态,许宝騄):假设随机向量 即 的联合 ~ ( , ) exp( || || / 2) 1 (2 ) 1 ( ) 1 ~ ( , ), 2 / 2 1 T T N AA A AA f A p q p N I p q q q q x μ x z μ μ z z μ z 0 z 多元正 态定义1 若 𝐴 不是行满秩的,则 𝐴𝐴 ⊤ 不可逆,此时称为退化多元正态分布。 退化多元正态没有恰当的概率密度,但与非退化正态类似。 多元正态分布

定义1最常见的情况是取g=p,A=Z1/2其中>0,此时x = 1/2z +μ~Np(μ,2)Jacobian J(z→x=1/2z+μ)由z的分布立得x的密度(如定义2所示)= [2-1/2| = 1/2|1/2定义2(非退化多元正态):若p维随机向量x的概率密度函数为多元正态定义21(2a)//≥2/z exp(-(x-μ1) 2-(x-m),,XERPf(x) =其中参数uERP,Z为pxp正定矩阵,则称x服从p元正态分布,记作x~N,(μ,2)。非退化情形下定义1和定义2等价。下面除非特别声明,总假设>0我们已熟知多元正态分布的性质1-6(p13-16),简单列举如下。11
11 定义1最常见的情况是取𝑞 = 𝑝, 𝐴 = Σ 1/2 , 其中Σ > 0,此时 𝐱 = Σ 1/2𝐳 + 𝛍~𝑁𝑝(𝛍, Σ) 由𝐳的分布立得𝐱的密度(如定义2所示) 记作 。 其中参数 , 为 正定矩阵,则称 服从 元正态分布, , 定义 非退化多元正态 若 维随机向量 的概率密度函数为 ~ , ( ) ( ) 2 1 exp (2 ) | | 1 ( ) 2( ): 1 / 2 1/ 2 x μ μ x x x μ x μ x x p p p p N R p p p f R p T 非退化情形下定义1和定义2等价。 多元正 态定义2 下面除非特别声明,总假设Σ > 0. Jacobian 𝐽 𝐳 → 𝐱 = Σ 1/2𝐳 + 𝛍 = Σ −1/2 = 1/|Σ| 1/2 我们已熟知多元正态分布的性质1-6(p13-16),简单列举如下

定义1这种生成/表示方式使得我们很容易地从标准多元正态的性质推导出一般多元正态的性质。上述密度求解即是一例。再如:性质1:N(u,2)的均值和方差为μ,Z证:由z~Np(0, lp),E(z) = 0,var(z) = Ip,容易得到x=Z1/2z + μ的均值和方差E(x)=μ,var(x)=var(z1/2z)=Z.Z12(211则性质2:~Np(u,Z),划分x:22Z21X1 X2→ Z12= 0,证:Z~Np(0,Ip),212=0时,(21/22)+μ,Z121X2(2/p2)12
12 定义1这种生成/表示方式使得我们很容易地从标准多元正态的性质推 导出一般多元正态的性质。上述密度求解即是一例 。再如: 证:由𝐳~𝑁𝑝(𝟎,𝐼𝑝),𝐸 𝐳 = 𝟎, var 𝐳 = 𝐼𝑝, 容易得到𝐱 = Σ 1/2𝐳 + 𝛍 的均值和方差 𝐸 𝐱 = 𝛍,var 𝐱 = var Σ 1/2𝐳 = Σ. 性质1:𝑁𝑝(𝛍, Σ)的均值和方差为𝛍, Σ 证: 𝐳~𝑁𝑝 𝟎,𝐼𝑝 ,Σ12 = 0时, 𝐱1 𝐱2 = Σ 1/2𝐳 + 𝛍 = Σ11 1/2 𝐳1 Σ22 1/2 𝐳2 +𝛍,𝒛1 ⫫ 𝒛2⇒ 𝐱1 ⫫ 𝐱2 性质2: 𝐱~𝑁𝑝(𝛍, Σ),划分𝐱 = 𝐱1 𝐱2 , Σ = Σ11 Σ12 Σ21 Σ22 ,则 𝐱1 ⫫ 𝐱2⇔ Σ12= 0