多元正态分布的性质 1. 参数山和∑完全决定分布; 第二章贝叶斯决策理论 2. 等概率密度点的轨迹为超椭球面; 3.不相关性等价于独立性; 2009.10.13 4.边缘分布和条件分布的正态性; 5. 线性变换的正态性; 口白化变换: 口线性组合的正态性。 正态分布&最小错误率Bayes决策 正态分布&最小错误率Bavesz决策 口最小错误率Baves决策的判决规则和判决函数 口决策面方程 口各模式类的观测特征向量服从多元正态分布 8(x)=g,(x),即 px|o,)~N(,)i=l,…,c [-yz)-,Σ刀 口采用对数形式的判别函数 &)=-支-nyr-)广+ha)-号n2x P(0,) ■判别函数中与类别i无关的项,对于类别的决策 没有影响,可以忽略。 正态分布&最小错误率Bayesi决策 正态分布&最小错误率Bayes决策 情况一:Σ=o2L,L,c 情况一:Σ=02L,i=l…,c ■I是dxd维单位矩阵,即 )最小距离分类器:各先验概率相等,则判决函 数可简化为 z。 小= g(x)=-(x-4,)(x-4)=-Ix-4, ■代入判决函数即有 ■判决规则:每个样本以它到每类样本均值的欧式 ()--(s-y-in2-ine"sna) 距离平方的最小值确定其分类,即 22 g=-=,=2+nPo)=-上+hPea大 如果k-f=min小-,则x∈a 2o2 22 ■条件:正态分布∑=o2L,P叫o,上lc。 其中欧式距离平方-A广=-/=)-豆-户
第二章 贝叶斯决策理论 2009.10.13 2 多元正态分布的性质 1. 参数μ和Σ完全决定分布; 2. 等概率密度点的轨迹为超椭球面; 3. 不相关性等价于独立性; 4. 边缘分布和条件分布的正态性; 5. 线性变换的正态性; 白化变换; 线性组合的正态性。 3 正态分布&最小错误率Bayes决策 最小错误率Bayes决策的判决规则和判决函数 各模式类的观测特征向量服从多元正态分布 采用对数形式的判别函数 判别函数中与类别 i 无关的项,对于类别的决策 没有影响,可以忽略。 i ii p( | ) ~ ( ), 1, , ; x N ic μ ,Σ 1 1 1 ( ) ( ) ( ) ln ln ( ) ln 2 ; 2 22 T i ii i i i d g P x x μ x μ 4 正态分布&最小错误率Bayes决策 决策面方程 1 -1 -1 ( ) ( )( ) ( ) 2 1 | ( ) ln ln 0 2| | () ( ) ( ), T T ii i j j j i i j j i j P P g g x - μ x - μ x - μ x - μ | x x 即 5 正态分布&最小错误率Bayes决策 情况一:Σi =σ2I, i=1,…,c I 是 d×d 维单位矩阵,即 代入判决函数即有 2 2 2 1 2 2 0 , ; 0 1 , i d i i I 2 2 2 2 2 2 2 1 ( )( ) 1 ( ) ln 2 ln ln ( ) 2 22 ( )( ) ( ) ln ( ) ln ( ); 2 2 , || || ( ) ( ) ( ) . T i i d i i T i i i i ii d T i i i j ij j d g P g PP x x μ x μ x x μ x μ x μ x 其中 欧式距离平方 x μ x μ x μ 6 正态分布&最小错误率Bayes决策 情况一:Σi =σ2I, i=1,…,c a) 最小距离分类器:各先验概率相等,则判决函 数可简化为 判决规则:每个样本以它到每类样本均值的欧式 距离平方的最小值确定其分类,即 条件:正态分布∑i = σ2 I, P(ωi )=1/c。 2 () ( )( ) || || . T i ii i g x x μ x μ x μ min , . i 2 1, , 2 如果 x μ x μ j 则 x j c i
正态分布&最小错误率Bayesi决策 正态分布&最小错误率Bayes?决策 情况一:Σ=02L,i=1,,c 情况一:Σ=o2L,=1,,c )最小距离分类器 b)线性分类器:(各先验概率关系未知) ■可看作模板匹配:每个类有一个典型样本(即 均值向量),称为模板,而待分类样本x只要 g国=--Y-2+nPa 2a2 按欧氏距离计算与哪个模板最相似(欧氏距离 最短)即可作决定。 's-2s+n)mPok :xx与类别号i无关 小8国=a2a+,)rh@)-+a 其中,=之a=京+h@ 正态分布&最小错误率Bayesi决策 正态分布&最小错误率Bayes?决策 情况一:Σ=021=1c Case 1:;=o2I b)线性分类器:判别函数为线性函数或者决策面 为超平面的分类器。 ■决策面方程: w(-)=0, 其中:w=,-, σ2 -In P(o(H,-B) 3=,+,)-,FP@ ■决策面为一个过的超平面,法线方向为(μ1- μ,当Pw)=Po,该超平面过(u+u)/2 点;在二维情况下,即过μ与μ连线的垂直平 分线。当P(w)≠P(w),该超平面的位置要向远 离先险概率大的方向偏,但超平面方向不变。 正态分布&最小错误率Bayesz决策“ 正态分布&最小错误率Bayesa决策" 情况二:=Σ,=L,c,即各类协方差矩阵相等 情况二:Σ=Σ,i=l,…,c,即各类协方差矩阵相等 ■几何上,具有同样概率密度函数的点的轨迹是同 )马式距离分类器:各先验概率相等,则判决函 样大小和形状的超椭球面,中心由类均值μ决定 数可简化为 2与i无关, 8()=y2=(-4,)(-4,方 8国=-2-yg't-)广2e+nPe)-2n2a 口判决函数是x到μ的马式距离的平方。 →8国=-k-Y'(-,)+nP@方 正态分HP)P.时的决策面
7 正态分布&最小错误率Bayes决策 情况一:Σi =σ2I, i=1,…,c a) 最小距离分类器 可看作模板匹配:每个类有一个典型样本(即 均值向量),称为模板,而待分类样本x只要 按欧氏距离计算与哪个模板最相似(欧氏距离 最短)即可作决定。 8 正态分布&最小错误率Bayes决策 情况一:Σi =σ2I, i=1,…,c b) 线性分类器:(各先验概率关系未知) 2 T 2 T 2 2 0 0 2 ( )( ) ( ) ln ( ) 2 1 2 ln ( ); 2 1 ( ) 2 ln ( ) , 2 1 1 ln ( ). 2 i T i i i i T T i ii i T T i i ii i T T i ii i i T i i g P P i g P P x μ x μ x x x μ x μ μ x x x μ x μ μ w μ μμ w x 与类别号 无关 其中, , 9 正态分布&最小错误率Bayes决策 情况一:Σi =σ2I, i=1,…,c b) 线性分类器:判别函数为线性函数或者决策面 为超平面的分类器。 决策面方程: 决策面为一个过x0的超平面,法线方向为(μi- μj)。当P(ωi)=P(ωj),该超平面过(μi+μj)/2 点;在二维情况下,即过μi与μj连线的垂直平 分线。当P(ωi)≠P(ωj),该超平面的位置要向远 离先验概率大的方向偏,但超平面方向不变。 2 0 2 0 , 1 ( ) ( ) ln ( ). 2 || || ( ) ( )0, i j i ij ij ij j T P P w μ μ x μμ μμ μ μ wxx 其中: 10 正态分布&最小错误率Bayes决策 11 正态分布&最小错误率Bayes决策 情况二:Σi =Σ, i=1,…,c,即各类协方差矩阵相等 几何上,具有同样概率密度函数的点的轨迹是同 样大小和形状的超椭球面,中心由类均值μi决定。 Σ与 i 无关, 1 1 1 1 ( ) ( ) ( ) ln ln ( ) ln 2 2 22 1 ( ) ( ) ( ) ln ( ); 2 T i ii i i i T i i ii d g P g P x x μ x μ x x μ x μ 12 正态分布&最小错误率Bayes决策 情况二:Σi =Σ, i=1,…,c,即各类协方差矩阵相等 a) 马式距离分类器:各先验概率相等,则判决函 数可简化为 判决函数是x到μi的马式距离的平方。 2 () ( ) ( ) T i ii g -1 x x-μ x -μ ;
13 正态分布&最小错误率Bayes决策 正态分布&最小错误率Bayes/决策“ 情况二:Σ=Σ,=1,…,c,即各类协方差矩阵相等 情况二:Σ=Σ,i=1,,c,即各类协方差矩阵相等 b)各先验概率关系未知 b)线性分类器(各先验概率关系未知) ■忽略与i无关的项 ■决策面方程 g=-文-R-rA++ha) w(x-x6)=0, g(x)=wx+@o 其中:w='(,- 。=,+p厂 2a- 1 其中,w,=μ, ao=-2空p,+nP@2 ■决策面为一个过x的超平面。当P(o)=P(w山, 该超平面过(μ+μ)/2,点;当P(o)≠P(0,该 ■决策方程也是线性方程,决策面是超平面, 超平面朝远离先验概率大的方向移动。一般情况 下,该超平面不与两均值向量的连线正交。 正态分布&最小错误率Bayesz决策" 正态分布&最小错误率Bayesi决策 Case 2:= 口线性分类器小结 ■在多元正态分布的条件下,基于最小错误率贝叶 斯决策只要能做到各类别的协方差矩阵是一样 的,那么无论先验概率是否相等,都可以用线性 分界面实现. ■最小(欧氏)距离分类器则要求各正态分布的协 方差矩阵为单位阵,且各类别的先验概率相等。 the means. 正态分布&最小错误率Bayes.决策 正态分布&最小错误率Bayesa决策“ 情况三:各类的协方差矩阵不相等 情况三:各类的协方差矩阵不相等 ·判决函数为x的二次型 ■决策面方程 8,)=- -yg'-)-pl+hP@) 是敏数 x+0a =xWx+w,x+@o 面,也可能是超平面 (a)是两个超球体等密度分布-圆: 其种w= (dxd矩阵), (b)是(a)在x,轴方向有扩展.椭圆: w,=4, (c)表示决策面为抛物面; (d维列向量), (d与e)差别在于均值点相互关系 h P(a) 不同; (e)中出现了对称性情况,双曲线 退化成直线:
13 正态分布&最小错误率Bayes决策 情况二:Σi =Σ, i=1,…,c,即各类协方差矩阵相等 b) 各先验概率关系未知 忽略与 i 无关的项 决策方程也是线性方程,决策面是超平面。 111 1 1 1 0 0 1 ( ) ( ) ln ( ) 2 ( ) , 1 ln ( ). 2 TTT T i i ii i i i i i T i T i i i i i g P g P x x Σ x μ Σ x x Σ μ μΣ μ x w Σ μ μΣ μ w x 其中, = 14 正态分布&最小错误率Bayes决策 情况二:Σi =Σ, i=1,…,c,即各类协方差矩阵相等 b) 线性分类器(各先验概率关系未知) 决策面方程 决策面为一个过x0的超平面。当P(ωi)=P(ωj), 该超平面过(μi+μj)/2点;当P(ωi)≠P(ωj),该 超平面朝远离先验概率大的方向移动。一般情况 下,该超平面不与两均值向量的连线正交。 1 0 0 ( ), 1 1 ( ) ( ) ln ( ). 2 ( ) ( ) () ( ) 0, i j i ij ij T ij ij j T P P -1 w μ μ x μμ μμ μ -μ μ -μ wxx 其中: 15 正态分布&最小错误率Bayes决策 16 正态分布&最小错误率Bayes决策 线性分类器小结 在多元正态分布的条件下,基于最小错误率贝叶 斯决策只要能做到各类别的协方差矩阵是一样 的,那么无论先验概率是否相等,都可以用线性 分界面实现。 最小(欧氏)距离分类器则要求各正态分布的协 方差矩阵为单位阵,且各类别的先验概率相等。 17 正态分布&最小错误率Bayes决策 情况三:各类的协方差矩阵不相等 判决函数为 x 的二次型 1 0 1 1 ( ) ( ) ( ) ln ln ( ) 2 2 T i ii i i i T T iii g P x x μ x μ x Wx w x 1 1 1 0 1 ( ), 2 , 1 1 ln ln ( ). 2 2 i i i ii T i ii i i i d d d P W Σ w Σ μ μΣ μ Σ 其中, 矩阵 ( 维列向量) 18 决策面为二次超曲面:超球面、 超椭球面、超抛物面、超双曲 面,也可能是超平面。 (a)是两个超球体等密度分布-圆; (b) 是(a)在 x2 轴方向有扩展-椭圆; (c)表示决策面为抛物面; (d)与(e) 差别在于均值点相互关 系 不同; (e)中出现了对称性情况,双曲线 退化成直线; 正态分布&最小错误率Bayes决策 情况三:各类的协方差矩阵不相等 决策面方程 0 0 ( ) ( ) 0. T T i ij i j xx x WW ww j
19 讨论 口贝叶斯决策理论是统计模式识别的重要理论基础。 ■理论上讲,贝叶斯决策方法是最优的(在最小错 误率或最小风险意义上); ■贝叶斯决策所需条件最多。实际应用中,需要首 先得到先验概率和类条件概率密度 口方法一:先估计概率密度,后求解决策规则 口方法二:若已知或可假设概率密度为某种形式( 比如正态分布),可先求出判决函数形式,再从 样本估计其中的参数。 口方法三:直接选择或假设某种判决函数形式,用 样本确定其参数
19 讨论 贝叶斯决策理论是统计模式识别的重要理论基础。 理论上讲,贝叶斯决策方法是最优的(在最小错 误率或最小风险意义上); 贝叶斯决策所需条件最多。实际应用中,需要首 先得到先验概率和类条件概率密度 方法一:先估计概率密度,后求解决策规则 方法二:若已知或可假设概率密度为某种形式( 比如正态分布),可先求出判决函数形式,再从 样本估计其中的参数。 方法三:直接选择或假设某种判决函数形式,用 样本确定其参数