本章主要内容 ▣引言 第二章贝叶斯决策理论 口基于最小错误率的Bayes决策 口基于最小风险的Bayes:决策 口基于判别函数的分类器设计 2009.09.22 口正态分布的最小错误率Bayes决策 口讨论 引言 引言 口模式识别是一种分类(classification)问题,即 口统计决策理论是处理模式分类问题的基本理论之 根据识别对象所呈现的观察值,将其分到某个类 一,对模式分析和分类器(classifier)的设计起 别中去。 指导作用。贝叶斯(Bayes)决策理论是统计模式 信号空间 识别中的一个基本方法,我们先讨论这一决策理 特征空问 论,然后讨论涉及统计判别方法的一些基本问题。 数据获取 预处理 特征提取 与选择 分类决策 分类器 设计 引言 引言 口客观现象或事物的发生和发展,按照“可预见性” 口随机模型是用来描述自然界中不确定现象的数学 可分两类情况一确定性和随机性。 模型。 ■随机性事物的结果无法预知,但具有统计规律。 口统计模式识别的要点:将模式的特征量考虑为符 ▣随机性事物的特征观察值是随机变量。 合某种统计规律(概率密度/分布函数)的随机 量。而任一个样本是取自总体中的一个个体。 口特征的观察值总含有某种误差,其具有一定的随 口需要解决三个问题: 机性:而且同类的不同对象的某个特征的值通常 ■判别问题:已知若干总体分布,当给出一个个体 也是按某种规律散布的。 样本时,要确定这个样本属于哪个总体? →模式类别和判决结果的随机性 ■训练问题:已知一些个体样本,分别属于某些总 体,要确定这些总体的分布规律(或参数)。 →用概率统计的理论和方法来解决识别问题是合 ■误判率问题:研究运用上述模型所造成的误判率 理的。 的计算
第二章 贝叶斯决策理论 2009.09.22 本章主要内容 引言 基于最小错误率的Bayes决策 基于最小风险的Bayes决策 基于判别函数的分类器设计 正态分布的最小错误率Bayes决策 讨论 引言 模式识别是一种分类(classification)问题,即 根据识别对象所呈现的观察值,将其分到某个类 别中去。 引言 统计决策理论是处理模式分类问题的基本理论之 一,对模式分析和分类器(classifier)的设计起 指导作用。贝叶斯(Bayes)决策理论是统计模式 识别中的一个基本方法,我们先讨论这一决策理 论,然后讨论涉及统计判别方法的一些基本问题。 引言 客观现象或事物的发生和发展,按照“可预见性” 可分两类情况 — 确定性和随机性。 随机性事物的结果无法预知,但具有统计规律。 随机性事物的特征观察值是随机变量。 特征的观察值总含有某种误差,其具有一定的随 机性;而且同类的不同对象的某个特征的值通常 也是按某种规律散布的。 模式类别和判决结果的随机性 用概率统计的理论和方法来解决识别问题是合 理的。 引言 随机模型是用来描述自然界中不确定现象的数学 模型。 统计模式识别的要点:将模式的特征量考虑为符 合某种统计规律(概率密度/分布函数)的随机 量。而任一个样本是取自总体中的一个个体。 需要解决三个问题: 判别问题:已知若干总体分布,当给出一个个体 样本时,要确定这个样本属于哪个总体? 训练问题:已知一些个体样本,分别属于某些总 体,要确定这些总体的分布规律(或参数)。 误判率问题:研究运用上述模型所造成的误判率 的计算
概念和名词约定 概念和名词约定 口样本sample:待研究对象的个体,包括性质已 口特征features:样本的任何可区分的且可观测 知或未知的个体(统计学中有不同的约定)。 的方面(属性)。 口类别class:将所研究的样本性质离散化成有限 ■包括定量特征和定性特征,通常最后转化为定量 的类别,认为同一类的样本在该性质上是不可区 特征。 分的。 口特征向量feature vectors::样本的所有特征组 ■类别用⊙1(i=1,2,,c,共c类)表示:如两 成的d维向量。 个类别用o1,02表示,也可用{-1,1表示。 ■是样本在数学上的表达,因此也称为样本。 口已知样本:类别情况已知的样本。 口未知样本:类别情况未知的样本。 口样本集:若干样本的集合,分已知样本集和未知 rs 样本集。 概念和名词约定 概念和名词约定 口特征空间feature space:d维特征向量的所有 口分类器classifier:能够将每个样本都分到某个 可能取值范围构成的d维特征空间。 类别中去(或者拒绝)的计算机算法。 ■每一个样本(特征向量)是该空间中的一个点, ■是从特征空间到决策空间的映射。 一个类别是该空间中的一个区域。 口Decision region:分类器将特征空间划分为若 阳山出用h古汉口上:1同业业的) 干区域(决策域)。 ■例 口Decision boundary:不同类别区域之间的边 在 位) 界称作分类边界、决策边界或分类面,决策面。 y 值 量的 Feature space (3D) Scatter plot (2D) RA 贝叶斯定理 贝叶斯定理 Reverend Thomas Bayes Two Classes(A.~A),Single Binary-Valued Feature (X.~X) 1702-1761 1000 Data AX)=PX1P P(X) The paper was sent to the Rasal Sosicty by Bichan Priss,a friend of Bayes'.who wrote. PX1d=P,=0248=0.7515 P(XIA)P(A) PA00330 I now send your an essay witich I have foumd among the papers of om deceased friend Mr Bayes. and which,in my opinon,has greut meritIn introdction whicit he has writ to this Essay. P(X,A)+P(X,-A) hes如sh店esign at时nthinking on the subjecto时行was.to find out a method by wirich P(XIA)P(A) =0.250 P-A)0.670 we miglnt judge concering the probabiliy thot an event has to hoppen,in given circumstances, P(XI)P(4)+PCXP(-4) pom supposifie时hat we bow mothing concering it but that,erthe somme circmmstance线 it has happened a certain mmber of times,and failed a certain other mmber of times. 0.75×0.33 =0.75×0.33+0.25×0.67 0.596
概念和名词约定 样本sample:待研究对象的个体,包括性质已 知或未知的个体(统计学中有不同的约定)。 类别class:将所研究的样本性质离散化成有限 的类别,认为同一类的样本在该性质上是不可区 分的。 类别用ωi (i=1,2,…,c,共c类)表示;如两 个类别用ω1,ω2表示,也可用{-1,1}表示。 已知样本:类别情况已知的样本。 未知样本: 类别情况未知的样本。 样本集:若干样本的集合,分已知样本集和未知 样本集。 概念和名词约定 特征features:样本的任何可区分的且可观测 的方面(属性)。 包括定量特征和定性特征,通常最后转化为定量 特征。 特征向量feature vectors:样本的所有特征组 成的d维向量。 是样本在数学上的表达,因此也称为样本。 d x x x x 2 1 概念和名词约定 特征空间feature space:d维特征向量的所有 可能取值范围构成的d维特征空间。 每一个样本(特征向量)是该空间中的一个点, 一个类别是该空间中的一个区域。 例:限定苹果的直径尺寸(x,以厘米为单位) 在7厘米到15厘米之间,重量(y,以两为单位) 在3两到8两之间变化。那么,由x值从7到15,y 值从3到8包围的二维空间就是对苹果进行度量的 特征空间。 概念和名词约定 分类器classifier:能够将每个样本都分到某个 类别中去(或者拒绝)的计算机算法。 是从特征空间到决策空间的映射。 Decision region:分类器将特征空间划分为若 干区域(决策域)。 Decision boundary:不同类别区域之间的边 界称作分类边界、决策边界或分类面,决策面。 贝叶斯定理 贝叶斯定理 ( , ) 0.248 ( | ) 0.7515 ( ) 0.330 PX A PX A P A ( ,~ ) 0.168 ( |~ ) 0.2507 (~ ) 0.670 PX A PX A P A ( | )() (| ) ( ) ( | )() ( , ) ( ,~ ) ( | )() ( | ) ( ) ( |~ ) (~ ) 0.75 0.33 0.596 0.75 0.33 0.25 0.67 PX APA PA X P X PX APA PX A PX A PX APA P X APA PX AP A
贝叶斯决策理论概述 贝叶斯决策理论概述 口贝叶斯决策理论是解决模式分类问题的一种基本 口例1:医生根据病人血液中白细胞的浓度来判断 统计途径。 病人是否患有血液病。 口对问题的要求/条件 ■一个人的白细胞浓度是3100,医生应该做出怎 ■决策问题可以用概率的形式来描述: 样的判断?(两类别的识别问题) ■所有有关的概率结构均已知。 口出发点是利用概率的不同分类决策和相应的决策 ■根据医学知识和以往的经验医生知道: 代价之间的定量折中。 口一般人群中,患病的人数比例为0.5% 口对于同一个问题,采用不同的决策标准将得到不 口患病的人白细胞的浓度服从均值2000,方差 同意义下“最优”的决策。其中最具代表性的是: 1000的正态分布:未患病的人白细胞的浓度服从 ■最小错误率 均值7000,方差3000的正态分布: ■最小风险 贝叶斯决策理论概述 贝叶斯决策理论概述 口数学表示 口先验概率(priori probabilities/prior) ■用Q表示“类别”这一随机变量,类别@1和⊙2分 ■根据大量统计数据确定某个类别事物出现的比例。 别表示“患病”和“未患病”。 ■例1中的两个类别的先验概率分布分别是: P(2=u)=0.5% ■用x表示“白细胞浓度值”这一随机变量。 P2=0,)=99.5% ■决策空间⊙={01,w2}。 P(Q=a)+P2=)=1 (挂他性、穷举性) ■“先验” 口没有获得观测数据(病人白细胞浓度)之前类别 的分布。 口只针对w1和ω2出现的可能性,不考虑其他任何因 素(如白细胞浓度)。 贝叶斯决策理论概述 贝叶斯决策理论概述 o先验概率(priori probabilities/prior) 口类条件概率(Class-conditional Probabilities) ■仅依据先验信息的判决规则: ■可利用白细胞浓度值×(连续随机变量)来帮助 判决: ,ifP@>P@2) ■X的分布取决于类别状态(患病或未患病),用 Decide otherwise 类条件概率密度函数来表示: px|m)~N(2000,1000: ■判决的误差概率 px|o2)~N(7000,3000 口p(xo)是指在类别w下,在一个连续的函数空 P(error)=minP(a),P() 间中观测到×的可能性。 Dp(x|)和px|)间的区别表示了血液病人和 非血液病人之间白细胞浓度值的区别
贝叶斯决策理论概述 贝叶斯决策理论是解决模式分类问题的一种基本 统计途径。 对问题的要求/条件 决策问题可以用概率的形式来描述; 所有有关的概率结构均已知。 出发点是利用概率的不同分类决策和相应的决策 代价之间的定量折中。 对于同一个问题,采用不同的决策标准将得到不 同意义下“最优”的决策。其中最具代表性的是: 最小错误率 最小风险 贝叶斯决策理论概述 例1:医生根据病人血液中白细胞的浓度来判断 病人是否患有血液病。 一个人的白细胞浓度是3100,医生应该做出怎 样的判断? (两类别的识别问题) 根据医学知识和以往的经验医生知道: 一般人群中,患病的人数比例为0.5%。 患病的人白细胞的浓度服从均值2000,方差 1000的正态分布;未患病的人白细胞的浓度服从 均值7000,方差3000的正态分布; 贝叶斯决策理论概述 数学表示 用Ω表示“类别”这一随机变量,类别ω1和ω2分 别表示“患病” 和“未患病”。 用x表示“白细胞浓度值”这一随机变量。 决策空间Θ={ω1,ω2}。 贝叶斯决策理论概述 先验概率 (priori probabilities / prior) 根据大量统计数据确定某个类别事物出现的比例。 例1中的两个类别的先验概率分布分别是: “先验” —— 没有获得观测数据(病人白细胞浓度)之前类别 的分布。 只针对ω1和ω2出现的可能性,不考虑其他任何因 素(如白细胞浓度)。 1 2 1 2 ( ) 0.5% ( ) 99.5% ( ) ( )1 ( ) P P P P 排他性、穷举性 贝叶斯决策理论概述 先验概率 (priori probabilities / prior) 仅依据先验信息的判决规则: 判决的误差概率 , if Decide , otherwise 1 12 2 ω P(ω ) P(ω ) ω ( ) min ( ), ( ) P 1 P 1 P error 贝叶斯决策理论概述 类条件概率(Class-conditional Probabilities) 可利用白细胞浓度值x(连续随机变量)来帮助 判决; x的分布取决于类别状态(患病或未患病),用 类条件概率密度函数来表示: 是指在类别ωi下,在一个连续的函数空 间中观测到x的可能性。 和 间的区别表示了血液病人和 非血液病人之间白细胞浓度值的区别。 ( | ) ~ (7000, 3000); ( | ) ~ (2000,1000); 2 1 p x N p x N ( | ) 1 p x 2 p x(| ) i p x(| )
贝叶斯决策理论概述 贝叶斯决策理论概述 口类条件概率(Class-conditional Probabilities) 口后验概率(posteriori probabilities/,posterior) ■同一类事物的各个属性都有一定的变化范围,在 ■问题:已知先验概率P(@,)和类条件概率密度函 其变化范围内的分布概率用一种函数形式表示, 数p(x|0,),i=1,2:对于一个样本×=3100, 即类条件概率密度函数。 判定X∈01或X∈02? ■这种分布概率只针对同一类别事物,与其他类别 口计算在观测样本×下,其类别状态是o=1,2)的概 的事物无关。 率:P(OIx)。 ■用条件概率形式表示,以强调是同一类别事物的 ■后验概率是一个具体事物属于某种类别的概率。 内部。 口一个样本只可能属于两个类别之一,即有约束 口例,用x表示某一个学生的身高,则男生身高的概 率密度表示成p(x|男生),女生身高表示成p(x女 P(lx)+P(o2|x)=1 生),两者之间没有任何关系。 区别P(oIx)和P(@,)。 贝叶斯决策理论概述 贝叶斯决策理论概述 口后验概率(posteriori probabilities/posterior) 口后验概率(posteriori probabilities/posterior) P(@Ix)=P(@.x) Posterior probabilities for the p(x) priors P(o)=2/3.P(o,)=1/3 Class-conditional P(@,)p(xlo,) For x=14. p.d.fs ∑PO,)pxo) Po,x)=0.92.Pox)=0.08 pix w) P(@x) ■p(x|o,)是oi关于x的似然(likelihood)函数, 表明了在其他条件都相等的情况下,使得x|@) 较大的⊙:更有可能是真实的类别。 posterior=priorxlikelihood evidence 贝叶斯决策理论概述 基于最小错误率的贝叶斯决策 a后验概率(posteriori probabilities/posterior) 口为什么会有错分类,在何种情况下会出现错分 ■实质上,贝叶斯定理是通过观察样本x,把类别 类? 状态的先验概率P(@o,)转化成后验概率P(o,x)。 ■当某一特征向量值X只为某一类物体所特有,即 ■贝叶斯定理的必要性:计算概率需要有大量的数 1,k=i P(@x)= 据,而对于某一特定的事件(如白细胞浓度值 0,k≠i ×=3100)要搜集大量的样本是很困难的。 对其作出决策是容易的,也不会发生错误。 ■贝叶斯定理综合了先验概率(类别出现的可能性) 和类条件概率(类别符合观测样本的可能性)两 ■问题在于出现模棱两可的情况,即不同类别在特 方面因素。 征空间的分布有重叠。此时,任何决策都存在误 判的可能性
贝叶斯决策理论概述 类条件概率(Class-conditional Probabilities) 同一类事物的各个属性都有一定的变化范围,在 其变化范围内的分布概率用一种函数形式表示, 即类条件概率密度函数。 这种分布概率只针对同一类别事物,与其他类别 的事物无关。 用条件概率形式表示,以强调是同一类别事物的 内部。 例,用x表示某一个学生的身高,则男生身高的概 率密度表示成p(x|男生),女生身高表示成p(x|女 生),两者之间没有任何关系。 贝叶斯决策理论概述 后验概率(posteriori probabilities/posterior) 问题:已知先验概率 和类条件概率密度函 数 ,i=1,2;对于一个样本 x=3100, 判定 x∈ω1 或 x∈ω2? 计算在观测样本x下,其类别状态是ωi (i=1,2)的概 率: 。 后验概率是一个具体事物属于某种类别的概率。 一个样本只可能属于两个类别之一,即有约束 区别 和 。 i p x(| ) i P( ) i P x ( | ) 1 2 P xP x ( | ) ( | ) 1 i P x ( | ) i P( ) 贝叶斯决策理论概述 后验概率(posteriori probabilities/posterior) 是ωi 关于x的似然(likelihood)函数, 表明了在其他条件都相等的情况下,使得 较大的ωi 更有可能是真实的类别。 ( ,) ( |) ( ) ( )(| ) ( )(| ) i i i i j j j P x P x p x P px P px prior likelihood posterior evidence i p x(| ) i p x(| ) 贝叶斯决策理论概述 后验概率(posteriori probabilities/posterior) 贝叶斯决策理论概述 后验概率(posteriori probabilities/posterior) 实质上,贝叶斯定理是通过观察样本x,把类别 状态的先验概率 转化成后验概率 。 贝叶斯定理的必要性: 计算概率需要有大量的数 据,而对于某一特定的事件(如白细胞浓度值 x=3100)要搜集大量的样本是很困难的。 贝叶斯定理综合了先验概率(类别出现的可能性) 和类条件概率(类别符合观测样本的可能性)两 方面因素。 i P( ) i P x ( | ) 基于最小错误率的贝叶斯决策 为什么会有错分类,在何种情况下会出现错分 类? 当某一特征向量值X只为某一类物体所特有,即 对其作出决策是容易的,也不会发生错误。 问题在于出现模棱两可的情况,即不同类别在特 征空间的分布有重叠。此时,任何决策都存在误 判的可能性。 1, ( |) 0, k k i P x k i
基于最小错误率的贝叶斯决策 基于最小错误率的贝叶斯决策 口目标:最小化决策的平均错误率P(eror) 口计算条件错误率(以两类别为例) 口P(error):在特征向量观测值的整个可能取值范 围内的错误率的均值。 [P(@x),if assign x P(errorx)= P(o|x),if assign x∈o2 Peror))=」P(error,.xh P(error)p(xds ■因为P(error|x)≥0,p(x)≥0,x E(P(errorx)). →minP(error)一minP(error|x,for allx ▣平均错误率是条件错误率的数学期望。 基于最小错误率的贝叶斯决策 基于最小错误率的贝叶斯决策 口判决规则 口判决规则的等价形式 ■最大化后验概率准则 ■比较大小不需计算P(x),即 o,if P(@x)>P(@x) assign xE @if p(xlo)P(@)>p(xlo2)P(@2) 02, otherwise assignx∈ @,otherwise →P(eor|x)=min{P(o,lx,P(o2lx),廿x o如果对于某个X,有px|)=p(x@2),判决取 ■最小错误率的贝叶斯决策是一致最优决策。 决于先验概率: a如果P(a)=P(a),判决取决于似然概率。 基于最小错误率的贝叶斯决策 基于最小错误率的贝叶斯决策 口判决规则的等价形式 口例解:两类鱼的自动分类问题,鲈鱼(o)和鲑 。最大化似然比准则 鱼(⊙),用鱼长度的观察值(x)为特征。 o,if I(x)=p(xlo P(o) ■根据统计结果:P(xo,) assign x∈ p(xl@2)P(@) 口P(a)=/3; 2,otherwise DP(a2)=2/3; 娃鱼 鲈鱼 P(x|2 Px|)/ 0.5 ■对似然比取负对数 0.05 assign xE if)=-In p+p)In( 口px|0),p(x02)见图示。 10 P(叫) 03, otherwise ■如何将一条长为10的鱼分类?
基于最小错误率的贝叶斯决策 目标:最小化决策的平均错误率 :在特征向量观测值的整个可能取值范 围内的错误率的均值。 平均错误率是条件错误率的数学期望。 ( ) ( ,) ( | ) () ( ( | )). P error P error x dx P error x p x dx E P error x P(error) P(error) 基于最小错误率的贝叶斯决策 计算条件错误率(以两类别为例) 因为 P error x p x x ( | ) 0, ( ) 0, min ( ) min ( | ), for all P error P error x x 2 1 1 2 ( | ), if assign x ( |) ( | ), if assign x P x P error x P x 基于最小错误率的贝叶斯决策 判决规则 最大化后验概率准则 最小错误率的贝叶斯决策是一致最优决策。 11 2 2 , if ( | ) ( | ) assign , otherwise P xP x x 1 2 P error x P x P x x ( | ) min{ ( | ), ( | )}, 基于最小错误率的贝叶斯决策 判决规则的等价形式 比较大小不需计算 ,即 如果对于某个x,有 ,判决取 决于先验概率; 如果 ,判决取决于似然概率。 1 11 2 2 2 , if ( | ) ( ) ( | ) ( ) assign , otherwise px P px P x p( ) x ( | ) ( | ) 1 2 p x p x 1 2 P P () () 基于最小错误率的贝叶斯决策 判决规则的等价形式 最大化似然比准则 对似然比取负对数 2 2 1 1 1 2 ( ) ( ) (| ) , if ( ) assign (| ) , otherwise p x l x P x p x P 2 1 12 1 2 ( ) , if ( ) ln ( | ) ln ( | ) ln ) assign ( ) , otherwise P hx px px x P 基于最小错误率的贝叶斯决策 例解:两类鱼的自动分类问题,鲈鱼(ω1)和鲑 鱼(ω2),用鱼长度的观察值(x)为特征。 根据统计结果: 见图示。 如何将一条长为10的鱼分类? ( ) 1 3; P 1 2 P( ) 2 3; ( | ), ( | ) 1 2 p x p x 10 1 P x(| ) x (| ) P x i 鲈鱼 鲑鱼 0.05 0.5 2 P x(| )
基于最小错误率的贝叶斯决策 基于最小错误率的贝叶斯决策 口解法一: 口解法二(用似然比): P(Ix=10)=P(x=10l@)P(@) p(x=10) 12(x=10)=px=101a)_0.05 p(x=101o2)0.50 =0.15 p(x=100)P(@) p(x=10|a)P(a)+p(x=10|o2)P(o2) 0.05×1/3 判决阀值02= @2_213=2 0.05x1/3+0.50x273=0.048, P(o,)1/3 P(o21x=10)=1-P(alx=10)=0.952: l2(x=10)<02; →P(aIx=10)<P(,|x=10): x=10∈02,即是鲑鱼。 →x=10∈2,即是鲑鱼。 基于最小错误率的贝叶斯决策 基于最小错误率的贝叶斯决策 口再看决策的错误率 ■设t为类别的分界面,则在特征向量x是一维时,t 为x轴上的一点。两个决策区域: p(x) oRr(o,t:决策为o1,P(errorx)=P(a,lx: oRL,+o)决策为u2,P(errorx))=P(alx p(2X) P(error)=SP(@3Ix)p(x)dx+P(0lx)p(x)dx -JP(xl0,)P(@3)dk+JP(xl)P(@)dx =P(@)JP(xl@)dx+P(@)JP(xl)dx 后验概率 基于最小错误率的贝叶斯决策 基于最小错误率的贝叶斯决策 口再看决策的错误率 口推广 ■允许使用多于一个的特征,即用特征向量: P(cwr)Prun) ■允许多于两种的类别状态: (9充除手判定美别以尔桁的(站拒绝): (e) (②)$鳄电误美概闲更P鞭损典数」O,)P(O,方 图29 P(error)=1-P(corect)=,)P(o,yd 错误率为图中两个划线部分之和, 对应的错误率区域面积为最小
基于最小错误率的贝叶斯决策 解法一: 1 1 1 1 1 11 2 2 ( 10 | ) ( ) ( | 10) ( ) ( | )( ) ( | )( ) ( | )( ) 0.05 1/ 3 0.048 0.05 1/ 3 0.50 2 / 3 px P P x p x px P px P px P 10 10 10 10 ; 2 1 1 2 2 ( | 10) 1 ( | 10) 0.952 ( | 10) ( | 10) 10 , Px Px Px Px x ; ; 即是鲑鱼。 基于最小错误率的贝叶斯决策 解法二(用似然比): 1 12 2 2 12 1 12 12 2 ( |) 0.05 10 0.1 ( | ) 0.50 ( ) 2/3 2 ( ) 1/3 10 , p x l x p x P P l x x 10 () ; 10 判决阀值 ; ( 10) ; 即是鲑鱼。 基于最小错误率的贝叶斯决策 1 2 1 2 1 2 2 1 2 2 11 2 21 1 ( ) ( | ) () ( | ) () ( | )( ) ( | )( ) () ( | ) () ( | ) R R R R R R P error P x p x dx P x p x dx P x P dx P x P dx P P x dx P P x dx 基于最小错误率的贝叶斯决策 再看决策的错误率 设t为类别的分界面,则在特征向量x是一维时,t 为x轴上的一点。两个决策区域: R1~(-∞,t):决策为ω1 , R2~(t,+∞):决策为ω2 , 1 2 1 2 2 1 2 2 11 ( ) ( | ) () ( | ) () ( | )( ) ( | )( ) R R R R P error P x p x dx P x p x dx P x P dx P x P dx 2 P( | ) ( | ); error x P x 1 P( | ) ( | ); error x P x 基于最小错误率的贝叶斯决策 再看决策的错误率 基于最小错误率的贝叶斯决策 推广 允许使用多于一个的特征,即用特征向量; 允许多于两种的类别状态; 允许除了判定类别以外的其他行为(如拒绝); 可以引入比误差概率更一般的损失函数。 c j j R j j j j c i i i j j c i i P(error) P correct p x P dx x p x P p x P x P x P x j 1 1, , 1, , 1 ( ) 1 ( | ) ( ) (2) assign , if ( | ) ( ) max ( | ) ( ); (1) assign , if ( | ) max ( | );
基于最小风险的贝叶斯决策 基于最小风险的贝叶斯决策 口决策的风险: 口几个定义 ■以医生根据白细胞浓度判断一个人是否患血液病 ■状态空间2:由c个可能的状态(c类)组成 为例: 2={,02,,0} ▣没病被判为有病,还可以做进一步检查,(一般 ■决策空间:由所有可能采取的决策组成 情况下)损失不大: A={a1,02,,ag} 口有病被判为无病,损失严重。 ■损失函数(C,0,2i=1,…,k,j=1,…,c: ■做决策要考虑决策可能引起的损失。 表示对真实状态为⊙的样本,采取决策%,时所 口最小风险的Bayes决策正是考虑各种不同的错误 造成的损失。 造成的损失不同而提出的一种决策规则。 口常用表格形式描述损失函数(决策表)。 基于最小风险的贝叶斯决策 基于最小风险的贝叶斯决策 口条件期望损失:对于特定的观察样本x,决策α 然 造成的损失对x实际所属类别的各种可能的平 均,也叫做条件风险: 1g两》 M@1吗》 a4g》 (》 向w} 年鸟》 14 R(a,Ix)=E[a(a,.0,)] as3 鸟》 o》 =会a.o,Po,l) 口期望风险:对所有x取值所作的决策ā(X)所带 吗】 就的》 来的平均风险,即条件风险对x的数学期望。 决策表 R(a)=E[R(a(x)Ix)]=[R(a(x)Ix)p(x)dx 基于最小风险的贝叶斯决策 口目标:决策带来的损失的平均值一一(平均)风 险最小。 口决策规则 Decide a,if R(ax)=min R(a,Ix) =, ■通过保证对于每个观测值下的条件风险最小,使 得决策的数学期望一一平均风险最小。基于最小 风险的贝叶斯决策是一致最优决策
基于最小风险的贝叶斯决策 决策的风险: 以医生根据白细胞浓度判断一个人是否患血液病 为例: 没病被判为有病,还可以做进一步检查,(一般 情况下)损失不大; 有病被判为无病 ,损失严重。 做决策要考虑决策可能引起的损失。 最小风险的Bayes决策正是考虑各种不同的错误 造成的损失不同而提出的一种决策规则。 基于最小风险的贝叶斯决策 几个定义 状态空间Ω:由c个可能的状态( c类)组成 决策空间A:由所有可能采取的决策组成 损失函数 : 表示对真实状态为ωj 的样本,采取决策 时所 造成的损失。 常用表格形式描述损失函数(决策表)。 { , , , } 1 2 c { , , , } Α 1 2 k i i k j c i j ( , ), 1,, , 1,, 基于最小风险的贝叶斯决策 决策表 基于最小风险的贝叶斯决策 条件期望损失:对于特定的观察样本x,决策 造成的损失对x实际所属类别的各种可能的平 均,也叫做条件风险: 期望风险:对所有x取值所作的决策α(x)所带 来的平均风险,即条件风险对x的数学期望。 i 1 ( |) ( , ) ( , )( | ) i ij c ij j j R xE P x R ER R p d ( ) [ ( ( ) | )] ( ( ) | ) ( ) xx xx xx 基于最小风险的贝叶斯决策 目标:决策带来的损失的平均值——(平均)风 险最小。 决策规则 通过保证对于每个观测值下的条件风险最小,使 得决策的数学期望——平均风险最小。基于最小 风险的贝叶斯决策是一致最优决策。 1, , , if ( | ) min ( | ) kk i j a Decide R x R x