2010/9/24 引言 第二章贝叶斯决策理论 2009.09.20 Training 本章主要内容 引言 口引言 口客观现象或事物的发生和发展,按照“可预见性 可分两类情况:确定性和随机性: 口基于最小错误率的Bayes决策 ■随机性事物的结果无法预知,但具有统计规律: 口基于最小风险的Bayes:决策 ■随机性事物的特征观察值是随机变量。 口特征的观察值总含有某种误差,其具有一定的随 口基于判别函数的分类器设计 机性:而且同类的不同对象的某个特征的值通常 也是按某种规律散布的。 口正态分布的最小错误率Bayesi决策 →模式类别和判决结果的随机性: 口讨论 )用概率统计的理论和方法来解决识别问题是合 理的。 引言 口统计模式识别的要点:将模式的特征向量考虑为 符合某种统计规律(概率密度/分布函数)的随 引言 机向量:而任一样本是取自总体中的一个个体。 口需要解决三个问题: ■判别问题:已知若干总体分布,当给出一个个体 样本时,要确定这个样本属于哪个总体? ■训练问题:已知一些个体样本,分别属于某些总 体,要确定这些总体的分布规律(或参数)。 ■误判率问题:研究运用上述模型所造成的误判率 的计算。 1
2010/9/24 1 第二章 贝叶斯决策理论 2009.09.20 2 本章主要内容 引言 基于最小错误率的Bayes决策 基于最小风险的Bayes决策 基于判别函数的分类器设计 正态分布的最小错误率Bayes决策 讨论 引言 4 引言 5 引言 客观现象或事物的发生和发展,按照“可预见性” 可分两类情况:确定性和随机性; 随机性事物的结果无法预知,但具有统计规律; 随机性事物的特征观察值是随机变量。 特征的观察值总含有某种误差,其具有一定的随 机性;而且同类的不同对象的某个特征的值通常 也是按某种规律散布的。 模式类别和判决结果的随机性; 用概率统计的理论和方法来解决识别问题是合 理的。 6 引言 统计模式识别的要点:将模式的特征向量考虑为 符合某种统计规律(概率密度/分布函数)的随 机向量;而任一样本是取自总体中的一个个体。 需要解决三个问题: 判别问题:已知若干总体分布,当给出一个个体 样本时,要确定这个样本属于哪个总体? 训练问题:已知一些个体样本,分别属于某些总 体,要确定这些总体的分布规律(或参数)。 误判率问题:研究运用上述模型所造成的误判率 的计算
2010/9/24 10 概念和名词约定 概念和名词约定 口样本sample:待研究对象的个体,包括性质已 口分类器classifier:能将每个样本分到某个类 知或未知的个体。 别中(或拒绝)的计算机算法 口类别c1ass:将所研究的样本性质离散化成有限 ■是从特征空间到决策空间的映射: 的类别,同一类的样本在该性质上不可区分。 ■分类器将特征空间划分为若干区域(决策域, decision region): ■类别用@(i=1,2,,c,共c类)表示: ■不同类别区域之间的边界称作分类/决策边界 口已知样本:类别情况已知的样本。 分类/决策面(decision boundary)。 口未知样本:类别情况未知的样本。 口样本集:若干样本的集合,分已知样本集和未知 样本集。 概念和名词约定 口特征features ■样本的任何可区分且可观测的属性: 贝叶斯决策理论 ·包括定量特征和定性特征,通常最后转化为定量 特征: ■特征向量feature vectors:样本的所有特征 组成的维向量,是样本在数学上的表达,因此 也称为样本: =2,,x 概念和名词约定 贝叶斯定理 口特征空间feature space:d维特征向量的所 Reverend Thomas Bayes 有可能取值范围构成的d维特征空间。 1702-1761 ·每个样本(特征向量)是该空间中的一个点,每 类别则是该空间中的一个区域。 P(x)= P(y)P(r) ∑P(yz)P(z) IE The paper was sent to the alSocicty by Risha a friend of Bayes',who wrote:. Feature space3可 Seatter plot(2D) 2
2010/9/24 2 7 概念和名词约定 样本sample:待研究对象的个体,包括性质已 知或未知的个体。 类别class:将所研究的样本性质离散化成有限 的类别,同一类的样本在该性质上不可区分。 类别用ωi (i=1,2,…,c,共c类)表示; 已知样本:类别情况已知的样本。 未知样本: 类别情况未知的样本。 样本集:若干样本的集合,分已知样本集和未知 样本集。 8 概念和名词约定 特征features 样本的任何可区分且可观测的属性; 包括定量特征和定性特征,通常最后转化为定量 特征; 特征向量feature vectors:样本的所有特征 组成的d维向量,是样本在数学上的表达,因此 也称为样本; , , , . 1 2 T d x x x x 9 概念和名词约定 特征空间feature space:d维特征向量的所 有可能取值范围构成的d维特征空间。 每个样本(特征向量)是该空间中的一个点,每 类别则是该空间中的一个区域。 10 概念和名词约定 分类器classifier:能将每个样本分到某个类 别中(或拒绝)的计算机算法 是从特征空间到决策空间的映射; 分类器将特征空间划分为若干区域(决策域, decision region); 不同类别区域之间的边界称作分类/决策边界、 分类/决策面(decision boundary)。 贝叶斯决策理论 12 贝叶斯定理
2010/9/24 贝叶斯决策理论概述 贝叶斯决策理论概述 口例1:医生根据病人血液中白细胞的浓度来判断 口类条件概率 病人是否患有血液病。 ■x的分布取决于类别状态(患病或未患病),用 ■一个人的白细胞浓度是3100,医生应该做出怎 类条件概率密度函数来表示: 样的判断? pxa)~N(2000,1000: ■根据医学知识和以往的经验,医生知道: pxo2)~N(7000,3000: 口一般人群中,患病的人数比例为0.5%: 口p(xo):类别w中,在一个连续的函数空间中 口患病的人白细胞的浓度服从均值2000,方差 观测到x的可能性: 1000的正态分布:未患病的人白细胞的浓度服从 均值7000,方差3000的正态分布。 口p(x,)和px4,)间的区别表示了血液病人和 非血液病人之间白细胞浓度值的区别。 17 贝叶斯决策理论概述 贝叶斯决策理论概述 口数学表示 口后验概率 ■用Q表示“类别"随机变量,类别w1和w2分别表示 ■问题:已知先验概率P(@,)和类条件概率密度函 数p(x|0,),1,2:对于一个样本x=3100,判 “患病”和“未患病”: 定x∈W1或x∈W2? 。用X表示“白细胞浓度值”随机变量: ■即,计算在观测样本x下,其类别状态是 (=1,2)的概率:P(o,lx)。 ■决策空间⊙={w1,w2}. ■后验概率即一个具体事物属于某种类别的概率。 口一个样本只可能属于两个类别之一,即有约束 P(@Ix)+P(@:Ix)=1 区别P(o,lx)和P(o,). 贝叶斯决策理论概述 贝叶斯决策理论概述 口先验概率 P(o,lx)=P(ox) P(Q=a,)=0.5% p(x) P(2=02)=99.5% P(o)p(xlo) P(2=a)+P(2=)=I (排他性、穷举性) ∑Po,)px|o,) ■仅依据先验信息的判决规则 Decide if PP) @otherwise ■判决的误差概率 P(error)=min(P(,).P() 时w闪 3
2010/9/24 3 13 贝叶斯决策理论概述 例1:医生根据病人血液中白细胞的浓度来判断 病人是否患有血液病。 一个人的白细胞浓度是3100,医生应该做出怎 样的判断? 根据医学知识和以往的经验,医生知道: 一般人群中,患病的人数比例为0.5%; 患病的人白细胞的浓度服从均值2000,方差 1000的正态分布;未患病的人白细胞的浓度服从 均值7000,方差3000的正态分布。 14 贝叶斯决策理论概述 数学表示 用Ω表示“类别”随机变量,类别ω1和ω2分别表示 “患病” 和“未患病”; 用 x 表示“白细胞浓度值”随机变量; 决策空间Θ={ω1,ω2}。 15 贝叶斯决策理论概述 先验概率 仅依据先验信息的判决规则 判决的误差概率 1 2 1 2 ( ) 0.5% ( ) 99.5% ( ) ( )1 ( ) P P P P 排他性、穷举性 , if Decide , otherwise 1 12 2 ω P(ω ) P(ω ) ω P(error) minP(1), P(1) 16 贝叶斯决策理论概述 类条件概率 x 的分布取决于类别状态(患病或未患病),用 类条件概率密度函数来表示: :类别ωi中,在一个连续的函数空间中 观测到 x 的可能性; 和 间的区别表示了血液病人和 非血液病人之间白细胞浓度值的区别。 ( | ) ~ (7000, 3000); ( | ) ~ (2000,1000); 2 1 p x N p x N ( | ) 1 p x 2 p x(| ) i p x(| ) 17 贝叶斯决策理论概述 后验概率 问题:已知先验概率 和类条件概率密度函 数 ,i=1, 2;对于一个样本 x=3100,判 定 x∈ω1 或 x∈ω2? 即,计算在观测样本 x 下,其类别状态是ωi (i=1,2)的概率: 。 后验概率即一个具体事物属于某种类别的概率。 一个样本只可能属于两个类别之一,即有约束 区别 和 。 i p x(| ) i P( ) i P x ( |) 1 2 P xP x ( |) ( |) 1 i P x ( |) i P( ) 18 贝叶斯决策理论概述 ( ,) ( |) ( ) ( )(| ) ( )(| ) i i i i j j j P x P x p x P px P px
2010/9/24 12 基于最小错误率的贝叶斯决策 基于最小错误率的贝叶斯决策 口目标:最小化决策的平均错误率P(eor) 口判决规则及其等价形式 ■特征向量观测值的可能取值范围内的分类错误率 ■最大化似然比准则 的均值。 P(error)=P(error,x)d a,if=pxla2、Pe) assign x∈ p(xo)P(c) otherwise P(erorIx)p(x)ds ■对似然比取负对数 =E(P(errorlx)). ■平均错误率是条件错误率的数学期望。 assign x∈ if)=-In p()+in p)In P(o) otherwise 基于最小错误率的贝叶斯决策 基于最小错误率的贝叶斯决策 口条件错误率 口例:两类鱼的自动分类问题,鲈鱼(ω,)和鲑鱼 (o),用鱼长度的观察值(x)为特征。 P(errorlx)= [P(@x),if assign xe P(@x),if assign xeo ■根据统计结果:Pxa) P(@,)=3; 链鱼 .P(errorx)20,p(x)20,Vx 炉鱼 P(xlo) Px|42 ..min P(errorlx),for all x=min P(error) P(O2)=23; P(errorlx)=min(P(o Ix),P(o,Ix)Vx. 10 ■如何将一条长为10的鱼分类? 基于最小错误率的贝叶斯决策 基于最小错误率的贝叶斯决策 口判决规则及其等价形式 口解法一: ·最大化后验概率准则 P(o,Ix=10)=P(x=10l0)P(@) p(x-10) 「,ifP(|x)>P(a2lx) p(x=101o)P(@) assign x∈ @,otherwise p(x=101o,)P(o)+p(x=101o2)P(o2) 0.05×1/3 0.05x1/3+0.50×2/3=0.048: @if p(xlo)P(@)>p(xlo2)P(@2) assign x∈ P(@1x=10)=1-P(g|x=10)=0.952 otherwise →P@lx=10)<P(2|x=10 →x-10∈2,即是鲑鱼。 4
2010/9/24 4 19 基于最小错误率的贝叶斯决策 目标:最小化决策的平均错误率 特征向量观测值的可能取值范围内的分类错误率 的均值。 平均错误率是条件错误率的数学期望。 ( ) ( ,) ( | ) () ( ( | )). P error P error x dx P error x p x dx E P error x P(error) 20 基于最小错误率的贝叶斯决策 条件错误率 ( | ) min ( | ), ( | ) , . min ( | ), for all min ( ) ( | ) 0, ( ) 0, 1 2 P error x P x P x x P error x x P error P error x p x x 2 1 1 2 ( | ), if assign x ( |) ( | ), if assign x P x P error x P x 21 基于最小错误率的贝叶斯决策 判决规则及其等价形式 最大化后验概率准则 11 2 2 , if ( | ) ( | ) assign , otherwise P xP x x 1 11 2 2 2 , if ( | ) ( ) ( | ) ( ) assign , otherwise px P px P x 22 基于最小错误率的贝叶斯决策 判决规则及其等价形式 最大化似然比准则 对似然比取负对数 2 2 1 1 1 2 ( ) ( ) (| ) , if ( ) assign (| ) , otherwise p x l x P x p x P 2 1 12 1 2 ( ) , if ( ) ln ( | ) ln ( | ) ln ) assign ( ) , otherwise P hx px px x P 23 基于最小错误率的贝叶斯决策 例:两类鱼的自动分类问题,鲈鱼(ω1)和鲑鱼 (ω2),用鱼长度的观察值(x)为特征。 根据统计结果: 如何将一条长为10的鱼分类? ( ) 1 3; P 1 2 P( ) 2 3; 10 1 P x(| ) x (| ) P x i 鲈鱼 鲑鱼 0.0 5 0.5 2 P x(| ) 24 基于最小错误率的贝叶斯决策 解法一: 1 1 1 1 1 11 2 2 ( 10 | ) ( ) ( | 10) ( ) ( | )( ) ( | )( ) ( | )( ) 0.05 1/ 3 0.048 0.05 1/ 3 0.50 2 / 3 px P P x p x px P px P px P 10 10 10 10 ; 2 1 1 2 2 ( | 10) 1 ( | 10) 0.952 ( | 10) ( | 10) 10 , Px Px Px Px x ; ; 即是鲑鱼
2010/9/24 基于最小错误率的贝叶斯决策 口解法二(用似然比): 1x=10)=p=101@2-005=0.L px=101a2)0.50 判决阀值8.=P%)-2=2: P()1/3 2(x=10)<02: ·.x=10∈02,即是鲑鱼。 基于最小错误率的贝叶斯决策 口再看决策的错误率 P(error)=J P(o:Ix)p(x)d+P(@lx)p(x)ds =JP(xl0.)P(@:)dkx+JP(xl0)P(@)ds =P(@:)JP(xl@:)dx+P(o)JP(xlo)dx 错误率为图中两个划线部分之和, 对应的错误率区域面积为最小, 基于最小错误率的贝叶斯决策 口推广 ■允许使用多于一个的特征,即用特征向量: ■允许多于两种的类别状态: (I)s除写判别拟外的典她附的如拒绝): (2)a引能误概摔健P暇的提铁数P,)P(o,上 Pferror)=1-P(correct)=1-p(xl)P() 5
2010/9/24 5 25 基于最小错误率的贝叶斯决策 解法二(用似然比): 1 12 2 2 12 1 12 12 2 ( |) 0.05 10 0.1 ( | ) 0.50 ( ) 2/3 2 ( ) 1/3 10 , p x l x p x P P l x x 10 () ; 10 判决阀值 ; ( 10) ; 即是鲑鱼。 26 再看决策的错误率 基于最小错误率的贝叶斯决策 1 2 1 2 1 2 2 1 2 2 11 2 21 1 ( ) ( | ) () ( | ) () (| )( ) (| )( ) ( ) (| ) ( ) (| ) R R R R R R P error P x p x dx P x p x dx P x P dx P x P dx P P x dx P P x dx 27 基于最小错误率的贝叶斯决策 推广 允许使用多于一个的特征,即用特征向量; 允许多于两种的类别状态; 允许除了判定类别以外的其他行为(如拒绝); 可以引入比误差概率更一般的损失函数。 c j j R j j j j c i i i j j c i i P(error) P correct p x P dx x p x P p x P x P x P x j 1 1, , 1, , 1 ( ) 1 ( | ) ( ) (2) assign , if ( | ) ( ) max ( | ) ( ); (1) assign , if ( | ) max ( | );