2010/9/29 多元正态分布 口概率密度函数 第二章贝叶斯决策理论 2a网cxp(←x-P-k-》. 1 p(x)= 2010.09.29 其中: x=x,2,…,x是d维列向量(T表示向量的转置): μ=[4,4,…,]是d维均值向量: Σ是d×d协方差矩阵: 卫是Σ的逆矩阵,四是的行列式。 多元正态分布 多元正态分布的性质 口均值u和协方差矩阵Σ 1.参数μ和工对分布具有决定性 μ=E[x=「xp(x)d p(x)~N(μ, ■多元正态分布由d+d(d+1)2个参数完全确定。 三=x-)-μ]=∫(x-)-'px)k 4=ELx]=「xPx) 2.分布的离散程度 o=Ex-4x,-4] ■由参数四2决定,与单变量时由标准差。决定 相一致: =∬区-4x-4px,x本 巴肿=广 多元正态分布的性质 多元正态分布的性质 3.等密度点的轨迹为超椭球面 3. 等密度点的轨迹为超椭球面 (-)T(K-=常数: ■马氏距离(Mahalanobis distance:随机向量x偏 离均值向量μ的距离 ■超椭球面的主轴方向由协方差矩阵的特征向量 决定,各主轴的长度与相应的特征值成正比。 r=√-m)ΣK-m: 口确定未知样本集和已知样本集的相似性:考虑各 特性间的联系:与尺度无关: 口衡量两个服从同一分布且其协方差矩阵为Σ的随 机变量的差异程度。 1
2010/9/29 1 第二章 贝叶斯决策理论 2010.09.29 2 多元正态分布 概率密度函数 1 1 1/2 2 /2 1 2 1 2 1 1 ( ) exp( ( ) ( )), (2 ) [ , , , ] [ , , , ] T d T d T d p xx x d T d d d x x μ Σ x μ Σ x μ Σ Σ Σ ΣΣ 其中: 是 维列向量( 表示向量的转置); 是 维均值向量; 是 协方差矩阵; 是 的逆矩阵, 是 的行列式。 3 多元正态分布 均值μ和协方差矩阵Σ [] () ; [( ) ] ( ( ) ; T T E pd E p d μ x xxx Σ x - μ)(x - μ x - μ)(x - μ) xx 2 [] () [( )( ) ] ( )( ) ( , ) . i i i ii T ij i i j j T i i j j ij ij E x x p x dx Ex x x x p x x dx dx 4 多元正态分布的性质 1. 参数μ和 Σ对分布具有决定性 多元正态分布由 d+d(d+1)/2 个参数完全确定。 2. 分布的离散程度 由参数 |Σ| 1/2 决定,与单变量时由标准差 σ 决定 相一致: p(x) ~ N(μ,Σ); 12 12 1 || . d j j Σ 5 多元正态分布的性质 3. 等密度点的轨迹为超椭球面 超椭球面的主轴方向由协方差矩阵的特征向量 决定,各主轴的长度与相应的特征值成正比。 T 1 (x μ) Σ (x μ) 常数; 6 多元正态分布的性质 3. 等密度点的轨迹为超椭球面 马氏距离(Mahalanobis distance):随机向量 x 偏 离均值向量 μ 的距离 确定未知样本集和已知样本集的相似性:考虑各 特性间的联系;与尺度无关; 衡量两个服从同一分布且其协方差矩阵为Σ的随 机变量的差异程度。 r ; T 1 (x μ) Σ (x μ)
2010/9/29 多元正态分布的性质 多元正态分布的性质 4.边缘分布和条件分布的正态性 5.不相关性等价于独立性 ■多元正态分布的边缘分布和条件分布仍然是正 ■x,和y相互独立:pxx)=pcp): 态分布: ■和不相关:Exx=Ex]ELx小: ■如多元正态分布的任意两个分量互不相关,则 它们一定独立。 ■如多元正态随机向量x的那方差解Σ是对角阵, p(x,)~N(4,oi) 则x各分量之间是相互独立物正态分相随机变 量。 →= 0…2 →RK0-i 多元正态分布的性质 多元正态分布的性质 6.线性变换的正态性 6.线性变换的正态性 8 多元正态分布的随机向量的线性变换仍然是多 ■白化变换 元正态分布的随机向量,即 A=DA-→py)-N(A4,Ig p(x)~N(u,) 其中,矩阵Φ的列向量是Σ的正交特征向量,矩 y=A'x,A∈ 阵A由Σ相应的特征根构成的对角矩阵。 =py)~N(A'μ,A'Σ ■线性组合的正态性 口存在一个线性变换A,使变换后的协方差矩阵 口当k=1时(即A是d维向量a,则y=ax是一个 AΣA为对角矩阵:即在某一新坐标系统中,可 标量,是x的线性组合 以做到使各分量之间相互独立。 py)-N(au,a'Σa 多元正态分布的性质 多元正态分布的性质 MA'uI 1. 参数μ和工完全决定分布: 2. 等概率密度点的轨迹为超椭球面: 3. 不相关性等价于独立性: 4. 边缘分布和条件分布的正态性: 5.线性变换的正态性: MARAEA) 口白化变换: 口线性组合的正态性。 2
2010/9/29 2 7 多元正态分布的性质 4. 边缘分布和条件分布的正态性 多元正态分布的边缘分布和条件分布仍然是正 态分布; 8 2 2 11 2 1 () ( ) 0, 0 0 ij nn n i i p px i j x 多元正态分布的性质 5. 不相关性等价于独立性 xi 和 xj相互独立:p(xi ,xj )=p(xi )p(xj ); xi 和 xj不相关: E[xi xj ]=E[xi ]·E[xj ]; 如多元正态分布的任意两个分量互不相关,则 它们一定独立。 如多元正态随机向量 x 的协方差阵 Σ 是对角阵, 则 x 各分量之间是相互独立的正态分布随机变 量。 9 多元正态分布的性质 6. 线性变换的正态性 多元正态分布的随机向量的线性变换仍然是多 元正态分布的随机向量,即 存在一个线性变换 A,使变换后的协方差矩阵 ATΣA 为对角矩阵;即在某一新坐标系统中,可 以做到使各分量之间相互独立。 ( ) ~ ( , ); , ( ) ~ ( ) y A μ A ΣA y A x A x μ,Σ T T T d k p N p N 10 多元正态分布的性质 6. 线性变换的正态性 白化变换 其中,矩阵Φ的列向量是Σ的正交特征向量,矩 阵Λ由Σ相应的特征根构成的对角矩阵。 线性组合的正态性 当 k=1 时(即A 是 d 维向量 a),则 y=aTx 是一个 标量,是 x 的线性组合 1 2 ( ) ~ ( , ); T w w p N A ΦΛ y A μ I ( ) ~ (a μ,a Σa); T T p y N 11 多元正态分布的性质 12 多元正态分布的性质 1. 参数 μ 和 Σ 完全决定分布; 2. 等概率密度点的轨迹为超椭球面; 3. 不相关性等价于独立性; 4. 边缘分布和条件分布的正态性; 5. 线性变换的正态性; 白化变换; 线性组合的正态性
2010/9/29 14 正态分布&最小错误率Bayes决策 正态分布&最小错误率Bayes决策 口各模式类的特征向量服从多元正态分布: 口决策面方程 pxa)~N(μ,bi=l,,cG 8(x)=8(x),即 口最小错误率Bayes决策规则和判别函数: @arg maxip(x lo)P()), -yΣ)--,rz】 g.(x)=Inp(xl@)+InP(@). )=0 21∑1 P(@,) 采用对数形式的判别函数: g)=--)y2---n2r+hP@ 正态分布&最小错误率Baves决策 正态分布&最小错误率Baves决策 情况一:=σ21,1=1,,c 口最小距离分类器 ·即有 区”, ■条件:=o2L,P(o,)=1c,i=1,,C ■判别函数: ■判决函数: 5()--G-By-B-in2r-io"nPa) gx)=-(x-,(K-4,)=-x-4, 2σ2 ■判决规则:每个样本以它到每类样本均值的欧式 5.()--G-YG-E2:InPo)--k-E+hPox 距离平方的最小值确定其分类,即 2o3 其中,欧式距离平方x-4,f=区-,红-)=2区,一,护 如果k-,f=min-μ,则x∈g 正态分布&最小错误率Bayes决策 正态分布&最小错误率Bayes决策 口最小距离分类器 口线性分类器 ■可看作模板匹配:每个类有一个典型样本(即均 ■条件:∑=σ1,各先验概率关系未知: 值向量),称为模板:而待分类样本x只需按欧 ■判别函数: 氏距离计算与哪个模板最相似(欧氏距离最短)即 可作决定。 &,倒=--LY-2+nPa) 2a3 =a-2+gA)+n@ :x'x与类别号i无关 (2+)+)wxt 3
2010/9/29 3 13 正态分布&最小错误率Bayes决策 各模式类的特征向量服从多元正态分布: 最小错误率 Bayes 决策规则和判别函数: 采用对数形式的判别函数: arg max{ ( | ) ( )}, ( ) ln ( | ) ln ( ); j i jj i ii p P gp P x x x i ii p N ic ( | ) ~ ( ), 1, , ; x μ ,Σ 1 1 1 ( ) ( ) ( ) ln ln2 ln ( ). 2 22 T i ii i i i d g P x x μ x μ 14 正态分布&最小错误率Bayes决策 决策面方程 1 -1 -1 ( ) ( )( ) ( ) 2 1 | ( ) ln ln 0 2| | () ( ) ( ), T T ii i j j j i i j j i j P P g g x - μ x - μ x - μ x - μ | x x 即 15 正态分布&最小错误率Bayes决策 情况一:Σi =σ2I, I = 1, …, c 即有 判决函数: 1 2 2 ; 1 , d i i I 2 2 2 2 2 2 2 1 ( )( ) 1 ( ) ln 2 ln ln ( ) 2 22 ( )( ) ( ) ln ( ) ln ( ); 2 2 , || || ( ) ( ) ( ) . T i i d i i T i i i i ii d T i i i j ij j d g P g PP x x μ x μ x x μ x μ x μ x 其中 欧式距离平方 x μ x μ x μ 16 正态分布&最小错误率Bayes决策 最小距离分类器 条件:Σi =σ2I, P(ωi ) = 1/c, i = 1, …, c. 判别函数: 判决规则:每个样本以它到每类样本均值的欧式 距离平方的最小值确定其分类,即 2 ( ) ( ) ( ) || || . T i ii i g x x μ x μ x μ min , . i 2 1, , 2 如果 x μ x μ 则 x j j c i 17 正态分布&最小错误率Bayes决策 最小距离分类器 可看作模板匹配:每个类有一个典型样本(即均 值向量),称为模板;而待分类样本x只需按欧 氏距离计算与哪个模板最相似(欧氏距离最短)即 可作决定。 18 正态分布&最小错误率Bayes决策 线性分类器 条件:Σi =σ2I,各先验概率关系未知; 判别函数: 2 T 2 T 2 2 0 0 2 ( )( ) ( ) ln ( ) 2 1 2 ln ( ); 2 1 ( ) 2 ln ( ) , 2 1 1 ln ( ). 2 i T i i i i T T i ii i T T i i ii i T T i ii i i T i i g P P i g P P x μ x μ x x x μ x μ μ x x x μ x μ μ w μ μμ w x 与类别号 无关 其中,
2010/9/29 20 正态分布&最小错误率Bayesi决策 正态分布&最小错误率Bayes决策 口线性分类器 Case1:∑i=o2T ·判别函数为线性函数或决策面为超平面: ■决策面方程: wT(x-X)=0, 其中:w=4- 62 P(@) -2,+)n,-,下hPO-,》 Figure 5:If the covariance matrices of two distributions are equal and proportional atintheeans The c bundarytherchanged 正态分布&最小错误率Bayesi决策 正态分布&最小错误率Baves决策 情况二:=l,,c 口马式距离分类器 ■几何上,具有同样概率密度函数的点的轨迹是同 ■条件:=Σ,Po)=1/c,i=1,,C 样大小和形状的超椭球面,中心由类均值μ决定。 ■判别函数:x到的马式距离的平方 ·判别函数: 9 8国=--YE---邮+ha)-gn2a 1 g(x)=y2=(x-,)Σ(x-, →&)=-2-yz-4)+hP@ 正态分有日P(a)=P@).三=E:时的决策面 正态分布&最小错误率Bayes决策 正态分布&最小错误率Bayes决策 口线性分类器 口线性分类器 ■条件:=工,各先验概率关系未知: ■决策面方程 ■判别函数: w(x-x)=0, 8,()=- -x-4,+4)+nPa) 其中:w='(μ,-b g,(x)=wx+00 1 6=24+μ)厂 ho,-, (,"Σ,-μPo 其中,w,=μ, a。=-2g+hP@ 4
2010/9/29 4 19 正态分布&最小错误率Bayes决策 线性分类器 判别函数为线性函数或决策面为超平面; 决策面方程: 2 0 2 0 , 1 ( ) ( ) ln ( ). 2 || || ( ) ( )0, i j i ij ij ij j T P P w μ μ x μμ μμ μ μ wxx 其中: 20 正态分布&最小错误率Bayes决策 21 正态分布&最小错误率Bayes决策 情况二:Σi =Σ, i=1, …, c 几何上,具有同样概率密度函数的点的轨迹是同 样大小和形状的超椭球面,中心由类均值μi决定。 判别函数: 1 1 1 1 ( ) ( ) ( ) ln ln ( ) ln 2 2 22 1 ( ) ( ) ( ) ln ( ); 2 T i ii i i i T i i ii d g P g P x x μ x μ x x μ x μ 22 正态分布&最小错误率Bayes决策 马式距离分类器 条件: Σi =Σ, P(ωi ) = 1/c, i = 1, …, c. 判别函数:x 到μi 的马式距离的平方 2 () ( ) ( ) T i ii g -1 x x-μ x - μ ; 23 正态分布&最小错误率Bayes决策 线性分类器 条件:Σi =Σ,各先验概率关系未知; 判别函数: 111 1 1 1 0 0 1 ( ) ( ) ln ( ) 2 ( ) , 1 ln ( ). 2 TTT T i i ii i i i i i T i T i i i i i g P g P x x Σ x μ Σ x x Σ μ μΣ μ x w Σ μ μΣ μ w x 其中, = 24 正态分布&最小错误率Bayes决策 线性分类器 决策面方程 1 0 0 ( ), 1 1 ( ) ( ) ln ( ). 2 ( ) ( ) () ( ) 0, i j i ij ij T ij ij j T P P -1 w μ μ x μμ μ μ μ -μ μ -μ wxx 其中:
2010/9/29 正态分布&最小错误率Bayes决策 正态分布&最小错误率Bayes决策 Case2:∑i=y 情况三:各类的协方差矩阵不相等 ■判决函数: g国-支x-yz*-)广2邮+ha) =xWx+wx+@0 种w女 (d×d矩阵), w,= (d维列向量), +In P(o) 正态分布&最小错误率Bayesa决策 例:二维正态分布数据的决策域 情况三:各类的协方差矩阵不相等 P(1)=P(2)=0,5 ■决策面方程 敌雷 4=[8]=(2) 面,也可能是超平面。 (a)是两个超球体等密度分布-圆; %=[3]品-(6) (b)是(a)在x,轴方向有扩展-椭圆 6 (c)表示决策面为抛物面; (d)与(e)差别在于均值点相互关系 -(日2)写=(622)】 不同: (e)中出现了对称性情况,双曲线 2=3.514-1.1251+0.1875r2 退化成直线, a parabola with vertex at ( 总结 口贝叶斯决策理论是统计模式识别的重要理论基础。 ■理论上讲,贝叶斯决策方法是最优的(在最小错 误率或最小风险意义上): ■贝叶斯决策所需条件最多。实际应用中,需要首 先得到先验概率和类条件概率密度。 5
2010/9/29 5 25 正态分布&最小错误率Bayes决策 26 正态分布&最小错误率Bayes决策 情况三:各类的协方差矩阵不相等 判决函数: 1 0 1 1 ( ) ( ) ( ) ln ln ( ) 2 2 T i ii i i i T T iii g P x x μ x μ x Wx w x 1 1 1 0 1 ( ), 2 , 1 1 ln ln ( ). 2 2 i i i ii T i iii i i d d d P W Σ w Σ μ μΣ μ Σ 其中, 矩阵 ( 维列向量) 27 决策面为二次超曲面:超球面、 超椭球面、超抛物面、超双曲 面,也可能是超平面。 (a)是两个超球体等密度分布-圆; (b) 是(a)在 x2 轴方向有扩展-椭圆; (c)表示决策面为抛物面; (d)与(e) 差别在于均值点相互关 系 不同; (e)中出现了对称性情况,双曲线 退化成直线; 正态分布&最小错误率Bayes决策 情况三:各类的协方差矩阵不相等 决策面方程 0 0 ( ) ( ) 0. T T i ij i j xx x WW ww j 例:二维正态分布数据的决策域 28 29 总结 贝叶斯决策理论是统计模式识别的重要理论基础。 理论上讲,贝叶斯决策方法是最优的(在最小错 误率或最小风险意义上); 贝叶斯决策所需条件最多。实际应用中,需要首 先得到先验概率和类条件概率密度