基于最小风险的贝叶斯决策 口条件期望损失:对于特定的观察样本x(特征向 量),决策口,造成的损失对x实际所属类别的 第二章贝叶斯决策理论 各种可能的平均,也叫做条件风险: R(a,Ix)=E[i(a.0,)] 2009.09.29 若ao,jPo,l 口期望风险:对所有x取值所作的决策a(x)所带 来的平均风险,即条件风险对x的数学期望。 R(a)=E[R(a(x)Ix)]=[R(a(x)Ix)p(x)dx 基于最小风险的贝叶斯决策 基于最小风险的贝叶斯决策 口目标:决策带来的损失的平均值一一(平均)风 口最小风险决策的计算步骤 险最小。 ■在已知P(o,pk|w山,i=l,,c,以及给定待识 口决策规则 别样本x的情况下,根据贝叶斯公式计算后验概 率: Decide a.if R(x)=min R(a) ■利用后验概率及决策表(或损失矩阵),算出每 个决策的条件风险(a,x); ■通过保证对于每个观测值下的条件风险最小,使 ■按照最小的条件风险进行决策。 得决策的数学期望一一平均风险最小。基于最小 ◆ 损失矩阵在某些特殊问题,存在简单的解 风险的贝叶斯决策是一致最优决策。 析表达式。 实际问题中得到合适的损失矩阵不容易, 基于最小风险的贝叶斯决策 基于最小风险的贝叶斯决策 口两类别问题 口两类别问题 ■定义(符号简化) ■决策规则 。行为a:deciding,: a,if(221-Ai)P(0lx)>(a2-22)P(o21x) Decide ·行为a2:deciding2; @otherwise ·损失=(c,0),i,j=1,2. 用贝叶斯公式展开 ■条件风险 if P(xl()P(o) R(aIx)=P(@Ix)+42P(@2Ix) Decide P|o2)(21-)P(@) R(a2|x)=21P(o1|x)+22P(o21x) otherwise
第二章 贝叶斯决策理论 2009.09.29 2 基于最小风险的贝叶斯决策 条件期望损失:对于特定的观察样本 x(特征向 量),决策 造成的损失对 x 实际所属类别的 各种可能的平均,也叫做条件风险: 期望风险:对所有 x 取值所作的决策α(x)所带 来的平均风险,即条件风险对 x 的数学期望。 i 1 ( |) ( , ) ( , )( | ) i ij c ij j j R E P x x R ER R p d ( ) [ ( ( ) | )] ( ( ) | ) ( ) xx xx xx 3 基于最小风险的贝叶斯决策 目标:决策带来的损失的平均值——(平均)风 险最小。 决策规则 通过保证对于每个观测值下的条件风险最小,使 得决策的数学期望——平均风险最小。基于最小 风险的贝叶斯决策是一致最优决策。 1, , , if ( | ) min ( | ) kk i j a Decide R R x x 4 基于最小风险的贝叶斯决策 最小风险决策的计算步骤 在已知P(ωi),p(x |ωi),i=1,…,c,以及给定待识 别样本 x 的情况下,根据贝叶斯公式计算后验概 率; 利用后验概率及决策表(或损失矩阵),算出每 个决策的条件风险 ; 按照最小的条件风险进行决策。 ( | ) R i x 5 基于最小风险的贝叶斯决策 两类别问题 定义(符号简化) 条件风险 1 1 2 2 ij j : deciding ; : deciding ; ( , ), , 1, 2. i i j 行为 行为 损失 1 11 1 12 2 2 21 1 22 2 ( |) ( |) ( |) ( |) ( |) ( |) R PP R PP xxx xxx 6 基于最小风险的贝叶斯决策 两类别问题 决策规则 用贝叶斯公式展开 1 21 11 1 12 22 2 2 , if ( ) ( | ) ( )( | ) Decide , otherwise P P x x 12 22 2 1 2 21 11 1 2 1 ( )() , if > Decide ( )() , otherwise (| ) ( | ) P P P P x x
基于最小风险的贝叶斯决策 基于最小风险的贝叶斯决策 口例解:两类细胞识别问题:正常类(ω,)和异常 口利用贝叶斯公式计算两类的后验概率: 类(ω) 0.9×0.2 =0.818 ■根据已有知识和经验,两类的先验概率为: P(@Ix)= 0.9×0.2+0.1×0.4 正常(o):P(w)=0.9 0.4×0.1 P(@x)= 异常(w):Po=0.1 02x0.9+0,4×0.=0.182 对某一样本观察值x,通过计算或查表得到: Ralx)=22,Po,lx)=e(o,)=1.092, po=0.2,pxw-0.4 入10,入26,入21=1,入20 Ra,l)=2,P@,)=ay=0.818 ■按最小风险决策如何对细胞x进行分类? .R(a Ix)>R(a Ix),.Decide az,xE 两种决策方法之间的关系 两种决策方法之间的关系 口基于最小错误率的Bayes决策可作为最小风险 口条件风险 Bayes决策的一种特殊情形。 口定义损失为 R(a,Ix)=>i(a:@,)P(@,Ix) =1 0,i=j,i,j=l,…c a,o,)-i,i≠j =P(o,1x)=1-P(@1) j=1,≠i ■不考虑"拒绝"等其他决策; 口决策规则 ■决策正确时没有损失;决策错误时损失为1;即 min R(a;Ix)max P(@,Ix) 0-1损失函数。 12 两种决策方法之间的关系 两种决策方法之间的关系 口图例一 口图例二 ■由0-1损失函数确定阅值0 ■给予假设入12>入21确定阁值6b。(R变小) 0。=Po2)/P(o) Po2,-) 0=P(o(
7 基于最小风险的贝叶斯决策 例解:两类细胞识别问题:正常类(ω1)和异常 类(ω2) 根据已有知识和经验,两类的先验概率为: 正常(ω1): P(ω1)=0.9 异常(ω2): P(ω2)=0.1 对某一样本观察值 x,通过计算或查表得到: p(x|ω1)=0.2, p(x|ω2)=0.4 λ11=0, λ12=6, λ21=1, λ22=0 按最小风险决策如何对细胞 x 进行分类? 8 基于最小风险的贝叶斯决策 利用贝叶斯公式计算两类的后验概率: 1 2 2 1 1 12 2 1 2 2 2 21 1 1 1 2 22 0.9 0.2 ( | ) 0.818, 0.9 0.2 0.1 0.4 0.4 0.1 ( | ) 0.182; 0.2 0.9 0.4 0.1 ( | ) ( | ) ( | ) 1.092, ( | ) ( | ) ( | ) 0.818; ( | ) ( | ), Decide , . j j j j j j P P R P R P R R x x x xx x xx xx x 9 两种决策方法之间的关系 基于最小错误率的Bayes决策可作为最小风险 Bayes决策的一种特殊情形。 定义损失为 不考虑“拒绝”等其他决策; 决策正确时没有损失;决策错误时损失为1;即 0-1损失函数。 0, ( , ) , , 1, , . 1, i j i j i j c i j 10 两种决策方法之间的关系 条件风险 决策规则 1 1, ( | ) ( , )( | ) ( | )1 ( | ) c i ij j j c j i j ji R P P P x x x x min ( | ) max ( | ) R P i i x x 11 两种决策方法之间的关系 图例一 12 两种决策方法之间的关系 图例二 由0-1损失函数确定阈值θa; 给予假设λ12>λ21确定阈值θb。(R1变小) (decision regions) 2 1 ( )/ ( ) a P P 2 12 22 1 21 11 ( )( ) ( )( ) b P P
13 Neyman-Pearson决策 Neyman-Pearson决策 口问题的提出 口两类错误率 ■某些两类判决问题,某一类错误较另一类错误更 ■令R是整个特征空间,R是类别w1的决策域, 为重要一损失更为严重。例如在癌细胞识别问 R2是类别O2的决策域:R,+R2=R 题中,把异常误判为正常的损失更为严重。 P(error)=P(@.Ix)p(xx+P(lx)p(xds ■先验概率未知. 口基本思想 =jpa)Po,h+∫pa)Pah ■严格限制较重要的一类错误概率,在令其等于某 =P(@:)S.p(xI@:)dx+P(o)J.P(xl0,)ds 常数的约束下使另一类误判概率最小。 =P(@)P(error)+P(@)P(error) ■P1eror,P2eror)即两类错误率。 15 16 Neyman-Pearson决策 Neyman-Pearson决策 口决策目标:在P2erro)=E条件下,求P1(eror) 口决策目标:极小化Y 极小值。 ■根据Lagrange乘子法,建立数学模型 r=(1-E)+J [Ap(x)-p(xx: 或者 y=P(error)+(B(error)-So), y=-)2+[pxo)-ipxo,达: 其中入是Lagrange乘子,目标是求y的极小值. ■对于固定的入,要使得y最小,应满足 注意:R(eor)=pa达=l-pa x∈R,p(x|o2)-p(x)a,then x =0→=x/ p|o2) p(x@)< 器-0一人AaM=6 →N-P决策规则归结为找阁值入,使得 D方程式确定一个分界面,使得Peor=c0,同 Jap(xlo)ds=to 时又使得P,(error)尽可能小。该分界面上x值具有 一个特点,即它们的两类条件密度函数之比是一 口入的显式解不易求解,可用试探法。 个常数,该比值就是Lagrange乘子入
13 Neyman-Pearson 决策 问题的提出 某些两类判决问题,某一类错误较另一类错误更 为重要 — 损失更为严重。例如在癌细胞识别问 题中,把异常误判为正常的损失更为严重。 先验概率未知。 基本思想 严格限制较重要的一类错误概率,在令其等于某 常数的约束下使另一类误判概率最小。 14 Neyman-Pearson 决策 两类错误率 令 R 是整个特征空间,R1 是类别ω1的决策域, R2 是类别ω2的决策域:R1 + R2= R。 P1(error),P2(error)即两类错误率。 1 2 1 2 1 2 2 1 2 2 11 2 21 1 2 2 11 ( ) ( | ) () ( | ) () ( | )( ) ( | )( ) () ( | ) () ( | ) ( )( ) ( )( ) R R R R R R P error P p d P p d p Pd p Pd P p dx P p d P P error P P error x xx x xx x xx x x xx 15 Neyman-Pearson 决策 决策目标:在P2(error)=ε0条件下,求P1(error) 极小值。 根据Lagrange乘子法,建立数学模型 其中λ是Lagrange乘子,目标是求γ的极小值。 1 20 P error P error ( ) ( ( ) ), 2 1 1 2 1 11 2 2 20 ( ) (| ) 1 (| ) ; () ( | )1 ( | ) . R R R R P error p d p d P error p d p d xx xx xx xx 注意: 16 Neyman-Pearson 决策 决策目标:极小化γ 对于固定的λ,要使得γ最小,应满足 1 2 0 21 0 12 (1 ) [ ( ) ( )] (1 ) [ ( ) ( )] R R p p d p p d x xx x xx ; 或者 ; 1 21 21 2 , ( | ) ( | ) 0; , ( | ) ( | ) 0; Rp p Rp p x xx xx x 17 Neyman-Pearson 决策 决策准则 N-P决策规则归结为找阈值λ,使得 λ的显式解不易求解,可用试探法。 1 2 1 2 1 1 2 2 if ( ) ( ), then or ( ) ( ) , then ( ) p p p l p xx x x x x x 1 2 0 (| ) . R p d x x 18 Neyman-Pearson 决策 求决策准则的方法二 令 t 是 R1 和 R2 的分界点(面),将γ分别对 t 和λ求偏导,γ极值点存在的必要条件是: 方程式确定一个分界面,使得P2(error)=ε0 ,同 时又使得P1(error)尽可能小。该分界面上 x 值具有 一个特点,即它们的两类条件密度函数之比是一 个常数,该比值就是Lagrange乘子λ 。 1 1 2 2 0 (| ) 0 ; (| ) 0 ( | ) ; R p t p p d x x x x
19 20 Neyman-Pearson决策 Neyman-Pearson决策 口例解:一个两类问题中,模式均为二维正态分 口例解 布,其均值失量和协方差阵分别为: ■判决准则: 4=(-1,0),42=1,0),=2=1 设&。=0.09,求Neyman--Pearson的决策阈值。 fem-2)之1e4 then :.对于不同的2,决策边界是平行于x,的不同直线。(如图) ■解: 脚[-%-小立++ p(x1o)=1 pe=e[-4-}---+到 ()=eoxp(-2x) po2) 21 22 Neyman-Pearson决策 Neyman-Pearson决策 口例解 口最小错误率的Bayes.决策与N-P决策 ■通过计算P2(error)=6o求解入: ■均以似然比为基础; B(error)=p(xo:)dx ■最小错误率的Bayes决策的阈值是先验概率之比 P(@2) 2 P() 4 ■Neyman-Pearson.决策的闵值是Lagrange乘子 (和先验概率无关)。 入 4 2 1 1/2 1/4 0.046 0.0890.0159 0.258 0.378 1与的关系表 其他决策方法(自学)》 分类器设计 口最大最小决策 口分类器(classifier):能够将每个样本都分到某 ■基本思想:类先验概率未知,考查先验概率变化 个类别中去(或者拒绝)的计算机算法。 对错误率的影响,找出使最小风险贝叶斯决策的 ■是从特征空间到决策空间的映射。 风险最大的先验概率,以这种最坏情况设计分类 口决策城(decision region):分类器将d维特征 空间划分为若千区域。 口序贯分类方法 口决策面(decision boundary):小不同类别区域 ■基本思想:除考虑分类造成的损失外,还考虑特 之间的边界,又叫作分类边界、决策边界或分类 征获取所造成的代价。先用一部分特征分类,然 面。数学上用解析形式表示成决策面方程。 后逐步加入新特征以减少分类损失,同时衡量总 的损失,以求得最优的效益
19 Neyman-Pearson 决策 例解:一个两类问题中,模式均为二维正态分 布,其均值矢量和协方差阵分别为: 解: 1 2 12 ( 1,0) , (1,0) , . T T I 0 设 , 0.09 Neyman-Pearson 求 的决策阈值。 2 2 1 11 12 2 2 2 2 2 12 1 1 2 11 11 ( | ) exp exp 1 ; 22 22 11 11 ( | ) exp exp 1 ; 22 22 (| ) exp( 2 ). (| ) T T p xx p xx p x p x xx x xx x x 20 Neyman-Pearson 决策 例解 判决准则: 1 1 2 2 1 if exp( 2 ) i e , th 1 - ln 2 en ; x x x , . . x 对于不同的 ,决策边界是平行于 的不同直线。(如图) 21 Neyman-Pearson 决策 例解 通过计算P2(error)=ε0求解λ: 1 2 2 1 2 2 ln 2 1 2 2 1 1 2 ln 2 1 1 ( ) (| ) 1 ( 1) exp 2 2 1 ( 1) exp . 2 2 R P error p d x x dx dx x dx x x 0.046 0.089 0.0159 0.258 0.378 0 4 2 1 1/2 1/4 0 与 的关系表 22 Neyman-Pearson 决策 最小错误率的Bayes决策与N-P决策 均以似然比为基础; 最小错误率的Bayes决策的阈值是先验概率之比 Neyman-Pearson决策的阈值是Lagrange乘子 (和先验概率无关)。 ; ( ) ( ) 1 2 P P 23 其他决策方法(自学) 最大最小决策 基本思想:类先验概率未知,考查先验概率变化 对错误率的影响,找出使最小风险贝叶斯决策的 风险最大的先验概率,以这种最坏情况设计分类 器。 序贯分类方法 基本思想:除考虑分类造成的损失外,还考虑特 征获取所造成的代价。先用一部分特征分类,然 后逐步加入新特征以减少分类损失,同时衡量总 的损失,以求得最优的效益。 24 分类器设计 分类器(classifier):能够将每个样本都分到某 个类别中去(或者拒绝)的计算机算法。 是从特征空间到决策空间的映射。 决策域(decision region):分类器将 d 维特征 空间划分为若干区域。 决策面(decision boundary):不同类别区域 之间的边界,又叫作分类边界、决策边界或分类 面。数学上用解析形式表示成决策面方程
25 26 分类器设计 分类器设计 口判别函数(discriminant functions):是模式( 口最小错误率Bayes.决策 或特征向量)x的函数,用于表述决策规则。 ■决策规则:将x归于o类,如果 ■对于c类别问题,相应于每一类别定义一个函 (1)P(o,Ix)=max P(o,x 数,构成一组判别函数g,i=1,2,c,使得 or (2)p()P()=m()P(,) 8(x)>g,(x)→x∈0j=1…,cj≠6 or3)国=pa2、Px1o,) I回广2回jL,6 即将x分类到有最大判别函数值的类别。 or (4)In p(x)+n P()=max (in p(x)+inP(,)) 口判别函数的选择不唯一。如果)是一个单调递 ■判别函数 增函数(如logarithm),将g,x替换成fg,x (1)g(x)=P(a,Ix) 不改变判决结果。简化分析和计算! (2)g,(x)=px|o,)P(@,) (3)8,(x)=In p(xl@)+In P(@,) 27 28 分类器设计 分类器设计 口最小错误率Bayes.决策 口最小错误率Bayes:决策 ■决策面方程:相邻的两个决策域在决策面上的判 ■分类器:一个计算c个判别函数并选取与最大判 别函数值相等,即 别函数值相对应的类别的网络或机器」 8,(x)=8,(x) p(riw:)P(on) p()) ([w (n) 29 分类器设计 分类器设计 口两类别的最小错误率Bayes.决策 口两类别的最小错误率Bayes:决策 ■判决函数:可只定义一个判别函数 ■决策面方程 g(x)=8(x)-82(x), g(x)=0. 此时的决策规则是 ifgy>o,then decide∈ ■分类器 (1)g(x)=P(@,Ix)-P(@2 Ix) (2)g(x)=p(x|a)P(,)-px|o2)P(o2) (3)g(x)=In)in P() 判期计算 值单元 块策 p(xlo2) P(2)
25 分类器设计 判别函数(discriminant functions):是模式( 或特征向量)x 的函数,用于表述决策规则。 对于c类别问题,相应于每一类别定义一个函 数,构成一组判别函数 gi (x), i = 1,2,…,c,使得 即将 x 分类到有最大判别函数值的类别。 判别函数的选择不唯一。如果 f(·) 是一个单调递 增函数(如logarithm),将 gi (x) 替换成 f(gi (x)) 不改变判决结果。 简化分析和计算! ( ) ( ) 1, , , ; ij i gg j xx x c j i 26 分类器设计 最小错误率Bayes决策 决策规则:将x归于ωi类,如果 判别函数 (1) ( ) ( | ) (2) ( ) ( | ) ( ) (3) ( ) ln ( | ) ln ( ) i i i ii i ii g P gpP gp P x x x x x x 1, , 1, , 1, , (1) ( | ) max ( | ); or (2) ( | ) ( ) max ( | ) ( ); (| ) (| ) or (3) ( ) , 1, , , ; (| ) (| ) or (4) ln ( | ) ln ( ) max ln ( | ) ln ( ) ; i j j c ii j j j c j i j i ii j j j c P P pP p P p p l j cj i p p pP p P x x x x x x x x x x x 27 分类器设计 最小错误率Bayes决策 决策面方程:相邻的两个决策域在决策面上的判 别函数值相等,即 ( ) ( ). i j g g x x 28 分类器设计 最小错误率Bayes决策 分类器:一个计算 c 个判别函数并选取与最大判 别函数值相对应的类别的网络或机器。 29 分类器设计 两类别的最小错误率Bayes决策 判决函数:可只定义一个判别函数 此时的决策规则是 1 2 gg g ( ) ( ) ( ), xxx 1 2 11 2 2 1 1 2 2 (1) ( ) ( | ) ( | ) (2) ( ) ( | )( ) ( | )( ) (| ) ( ) (3) ( ) ln ln (| ) ( ) gP P gp P p P p P g p P xxx xx x x x x 1 2 if ( ) 0, then decide . g x x 30 分类器设计 两类别的最小错误率Bayes决策 决策面方程 分类器 g( ) 0. x
31 正态分布 单变量的正态分布 口目的:结合一种比较典型的概率分布来进一步研究基于 A bell-shaped distribution defined by the probability density function 最小错误率Bayes决策分类器。 口Bayes?决策的三个前提: 1 ·@类别数确定;@各类的先脸概率P(®已知;③各类的 p(x)= e 2a 条件概率密度函数pxw)已知, v2no 口Bayesa决策中,类条件概率密度的选择要求: If the randon variable x follows a normal distribution,then ■模型合理性 ◆The probabi1 ity that Y wi11Eal】4 nto the1 nterval《e,b)4a given by ■计算可行性 口最常用概率密度模型:正态分布 ·apsed,.6eaa,vaiue of瓦X灯=了prdt= ■观测值通常是很多种因素共同作用的结果,根据中心极 限定理,它们(近似)服从正态分布。 Var(x)=EI(x-)]=[(x-u)'p(x)dx=a2 。计算、分析最为简单的模型, Standard deviation of x.a',in 0.=0 33 单变量的正态分布 单变量的正态分布 口样本主要集中分布在其均值附近,其分散程度用 口p)完全由u与σ2确定,常记作N(u,σ2)。 标准差来衡量,。愈大分散程度也越大。从分布 口正态分布的熵(entropy)在所有的已知均值及方 的总体中抽取样本,约有95%的样本都落在区间 差的分布中最大。 (4-20,u+20)内。 Hp(x)=-∫px)npx)d 80%of area(prohabi5y)花sm:士1.28 %of area (probability)lies in 口p)关于均值对称,最大值位于x=μ处, 1 p0=2πo 25 35 多元正态分布 多元正态分布 口概率密度函数 口如x服从多元正态分布,则有 1 μ=Ex=∫xp(x)dk P(x)= 2a)区cp--n/z'-. Σ=Ex--]=∫(K--'p) 其中: 口具体的,如x是x的第i个分量,μ是μ的第i个 【=[,x,…,x是d维列向量(T表示向量的转置): 分量,01是∑的第个元素,则有 μ=4,4,…,4是d维均值向量: 4=Ex]=∫xpd Σ是d×d协方差矩阵: o=g-43,-4] 工是的逆矩阵,四是Σ的行列式。 =g-4x,4,p,x,,本
31 正态分布 目的:结合一种比较典型的概率分布来进一步研究基于 最小错误率Bayes决策分类器。 Bayes决策的三个前提: ①类别数确定;②各类的先验概率P(ωi)已知;③各类的 条件概率密度函数p(x|ωi)已知。 Bayes决策中,类条件概率密度的选择要求: 模型合理性 计算可行性 最常用概率密度模型:正态分布 观测值通常是很多种因素共同作用的结果,根据中心极 限定理,它们(近似)服从正态分布。 计算、分析最为简单的模型。 32 单变量的正态分布 33 单变量的正态分布 p(x)完全由μ与σ2确定,常记作N(μ, σ2)。 正态分布的熵(entropy)在所有的已知均值及方 差的分布中最大。 p(x)关于均值对称,最大值位于x=μ处, H p(x) p(x)ln p(x)dx; . 2 1 ( ) p 34 单变量的正态分布 样本主要集中分布在其均值附近,其分散程度用 标准差来衡量,σ愈大分散程度也越大。从分布 的总体中抽取样本,约有95%的样本都落在区间 (μ-2σ,μ+2σ)内。 35 多元正态分布 概率密度函数 1 1 1/2 2 / 2 1 2 1 2 1 1 ( ) exp( ( ) ( )), (2 ) [ , , , ] [ , , , ] T d T d T d p xx x d T d d d x x μ Σ x μ Σ x μ Σ Σ Σ ΣΣ 其中: 是 维列向量( 表示向量的转置); 是 维均值向量; 是 协方差矩阵; 是 的逆矩阵, 是 的行列式。 36 多元正态分布 如 x 服从多元正态分布,则有 具体的,如 xi 是 x 的第i个分量,μi是μ的第i个 分量,σij2是Σ的第ij个元素,则有 [] () ; [( ) ] ( ( ) ; T T E pd E p d μ x xxx Σ x -μ)(x -μ x -μ)(x -μ) xx 2 [] () ; [( )( ) ] ( )( ) ( , ) . i i i ii T ij i i j j T i i j j ij ij E x x p x dx Ex x x x p x x dx dx
37 多元正态分布 多元正态分布的性质 口协方差矩阵Σ 1.参数μ和∑对分布具有决定性 ■是对称非负定阵,这里严格限定成正定阵,即 p(x)~N(μ,) IΣ1>0. ■多元正态分布由d+d(d+1)/2个参数完全确 ■对角线元素0是x相应分量x的方差,即0?。 定。 ■非对角线元素0是和y的协方差,衡量了分 量间的相关性。 2.等密度点的轨迹为超椭球面 手果x原马线动料立,购=4X,-6川 ■p(x)是指数函数,因此等概率密度点对应于指 口电0唐】,则p是x中图元的单 数项为常数,即 李正杏密度函数的内积。 (x-)「(《-)=常数; 39 40 多元正态分布的性质 多元正态分布的性质 2.等密度点的轨迹为超椭球面 2. 等密度点的轨迹为超椭球面 置 在二维情况下,方程的解是一个椭圆轨迹,其 ■马氏距离(Mahalanobis distance):随机向量x偏 长短轴方向由协方差矩阵∑的特征向量决定: 离均值向量μ的距离 在三维时则是一个椭球面;超过三维则是超椭 球面,主轴方向由协方差矩阵的特征向量决 r=/(x-H)(x-p); 定,各主轴的长度则与相应的特征值成正比。 口在数理统计中,常用来确定未知样本集和已知样 伤 本集的相似性;考虑到各种特性之间的联系(C.f. 欧式距离):与尺度无关,即独立于测量尺度; 口也可衡量两个服从同一分布并且其协方差矩阵为 Σ的随机变量的差异程度。 ■Σ=I,即为欧式距离; ■Σ=diag(o子…o),即为归一化的欧式距离。 41 多元正态分布的性质 多元正态分布的性质 3.分布的离散程度 5.不相关性等价于独立性 ■由参数|Σ1/2决定,与单变量时由标准差。决 ■x和y相互独立:p心y=p6p心 定相一致。 ■:和不相关:E]=EE 4.边缘分布和条件分布的正态性 ■如多元正态分布的任意两个分量互不相关,则 ■多元正态分布的边缘分布和条件分布仍然是正 它们一定独立。 态分布; o2=0,i≠j ■如多元正态随机向量X的协方差阵是对角阵, 则x各分量之间是相互律的正态分怖随机变量。 p(x)~N() 0 →p(x)=Πpx)
37 2 1 1 1 12 2 2 2 21 1 1 1 2 2 1 12 2 2 21 2 [( ) ] [( )( )] [( )( )] [( ) ] . Ex Ex x Ex x Ex Σ 多元正态分布 协方差矩阵Σ 是对称非负定阵,这里严格限定成正定阵,即 |Σ| > 0。 对角线元素σii2是 x 相应分量 xi 的方差,即σi 2 。 非对角线元素σij2是 xi 和 xj 的协方差,衡量了分 量间的相关性。 如果xi 和 xj统计独立,则σij=0。 如σij=0(任意i≠j),则p(x) 是x 中各元素的单 变量正态密度函数的内积。 38 多元正态分布的性质 1. 参数μ和 Σ对分布具有决定性 多元正态分布由 d+d(d+1)/2 个参数完全确 定。 2. 等密度点的轨迹为超椭球面 p(x) 是指数函数,因此等概率密度点对应于指 数项为常数,即 p(x) ~ N(μ,Σ); T 1 (x μ) Σ (x μ) 常数; 39 多元正态分布的性质 2. 等密度点的轨迹为超椭球面 在二维情况下,方程的解是一个椭圆轨迹,其 长短轴方向由协方差矩阵Σ的特征向量决定; 在三维时则是一个椭球面;超过三维则是超椭 球面,主轴方向由协方差矩阵的特征向量决 定,各主轴的长度则与相应的特征值成正比。 例: 1 2 1 2 2 0 4 0 1/4 0 , , , 0 01 0 1 1, 4 x x 如 是一个椭圆。 40 多元正态分布的性质 2. 等密度点的轨迹为超椭球面 马氏距离(Mahalanobis distance):随机向量 x 偏 离均值向量 μ的距离 在数理统计中,常用来确定未知样本集和已知样 本集的相似性;考虑到各种特性之间的联系(c.f. 欧式距离);与尺度无关,即独立于测量尺度; 也可衡量两个服从同一分布并且其协方差矩阵为 Σ的随机变量的差异程度。 Σ=I,即为欧式距离; Σ=diag(σ1 2, …,σd 2 ),即为归一化的欧式距离。 r ; T 1 (x μ) Σ (x μ) 41 多元正态分布的性质 3. 分布的离散程度 由参数|Σ|1/2决定,与单变量时由标准差σ决 定相一致。 4. 边缘分布和条件分布的正态性 多元正态分布的边缘分布和条件分布仍然是正 态分布; 42 2 2 11 2 1 () ( ) 0, 0 0 ij nn n i i p px i j x 多元正态分布的性质 5. 不相关性等价于独立性 xi 和 xj 相互独立:p(xi ,xj )=p(xi )p(xj ); xi 和 xj 不相关: E[xi xj ]=E[xi ]·E[xj ]; 如多元正态分布的任意两个分量互不相关,则 它们一定独立。 如多元正态随机向量x的协方差阵Σ是对角阵, 则x各分量之间是相互独立的正态分布随机变量
43 44 多元正态分布的性质 多元正态分布的性质 6.线性变换的正态性 6.线性变换的正态性 ■多元正态分布的随机向量的线性变换仍然是多 ■白化变换 元正态分布的随机向量,即 A=①AP→py)~N(A,I p(x)~N(u,) 其中,矩阵①的列向量是Σ的正交特征向量,矩 y=ATxA∈Rt 阵A由Σ相应的特征根构成的对角矩阵。 →py)-N(A'μ,ATΣA: 口将任意的多元正态分布变换成球形分布,即变换 后分布的协方差矩阵是单位矩阵。 口由于协方差矩阵∑是对称矩阵,因此总可以找到 ■线性组合的正态性 某个线性变换A,使变换后的协方差矩阵ATΣA 成为对角矩阵,这就意味着在某一个新的坐标系 口当k=l时(即A是d维向量a,则y=ax是一个 标量,是x的线性组合 统中,可以做到使各分量之间相互独立。 py)~N(a'μ,a'a: 45 多元正态分布的性质 6.线性变换的正态性 图2多特征空同中的一个线件变瘤将 个任意工老分率变成另一个正态分和 个变,A,将原分布变成分右NA N):努一个线性变换,导由向量a决定 的向某条点线的授影P,产生合装直战方 向的N(,产)分有。尽管这选变换产生 个本同空翼中的分布,我们还是特它们品 在工空间中。一种白化变装,人 将产生一个器周你的高新分布
43 多元正态分布的性质 6. 线性变换的正态性 多元正态分布的随机向量的线性变换仍然是多 元正态分布的随机向量,即 由于协方差矩阵Σ是对称矩阵,因此总可以找到 某个线性变换A,使变换后的协方差矩阵ATΣA 成为对角矩阵,这就意味着在某一个新的坐标系 统中,可以做到使各分量之间相互独立。 ( ) ~ ( , ); , ( ) ~ ( ) y A μ A ΣA y A x A x μ,Σ T T T d k p N p N 44 多元正态分布的性质 6. 线性变换的正态性 白化变换 其中,矩阵Φ的列向量是Σ的正交特征向量,矩 阵Λ由Σ相应的特征根构成的对角矩阵。 将任意的多元正态分布变换成球形分布,即变换 后分布的协方差矩阵是单位矩阵。 线性组合的正态性 当 k=1 时(即A 是 d 维向量 a),则 y=aTx 是一个 标量,是 x 的线性组合 1 2 ( ) ~ ( , ); T w w p N A ΦΛ y A μ I ( ) ~ (a μ,a Σa); T T p y N 45 多元正态分布的性质 6. 线性变换的正态性