北京大学：《模式识别》课程教学资源（课件讲稿）贝叶斯决策理论（第一部分）.pdf_大学文库

概念和名词约定概念和名词约定口样本sample:待研究对象的个体，包括性质已口特征features:样本的任何可区分的且可观测知或未知的个体（统计学中有不同的约定）。的方面（属性）。口类别class:将所研究的样本性质离散化成有限 ■包括定量特征和定性特征，通常最后转化为定量的类别，认为同一类的样本在该性质上是不可区特征。分的。口特征向量feature vectors::样本的所有特征组 ■类别用⊙1(i=1,2,,c,共c类)表示：如两成的d维向量。个类别用o1,02表示，也可用{-1,1表示。 ■是样本在数学上的表达，因此也称为样本。口已知样本：类别情况已知的样本。口未知样本：类别情况未知的样本。口样本集：若干样本的集合，分已知样本集和未知 rs 样本集。概念和名词约定概念和名词约定口特征空间feature space:d维特征向量的所有口分类器classifier:能够将每个样本都分到某个可能取值范围构成的d维特征空间。类别中去（或者拒绝）的计算机算法。 ■每一个样本（特征向量）是该空间中的一个点， ■是从特征空间到决策空间的映射。一个类别是该空间中的一个区域。口Decision region:分类器将特征空间划分为若阳山出用h古汉口上：1同业业的) 干区域（决策域）。 ■例口Decision boundary:不同类别区域之间的边在位) 界称作分类边界、决策边界或分类面，决策面。 y 值量的 Feature space (3D) Scatter plot (2D) RA 贝叶斯定理贝叶斯定理 Reverend Thomas Bayes Two Classes(A.~A),Single Binary-Valued Feature (X.~X) 1702-1761 1000 Data AX)=PX1P P(X) The paper was sent to the Rasal Sosicty by Bichan Priss,a friend of Bayes'.who wrote. PX1d=P,=0248=0.7515 P(XIA)P(A) PA00330 I now send your an essay witich I have foumd among the papers of om deceased friend Mr Bayes. and which,in my opinon,has greut meritIn introdction whicit he has writ to this Essay. P(X,A)+P(X,-A) hes如sh店esign at时nthinking on the subjecto时行was.to find out a method by wirich P(XIA)P(A) =0.250 P-A)0.670 we miglnt judge concering the probabiliy thot an event has to hoppen,in given circumstances, P(XI)P(4)+PCXP(-4) pom supposifie时hat we bow mothing concering it but that,erthe somme circmmstance线 it has happened a certain mmber of times,and failed a certain other mmber of times. 0.75×0.33 =0.75×0.33+0.25×0.67 0.596

概念和名词约定  样本sample：待研究对象的个体，包括性质已知或未知的个体（统计学中有不同的约定）。  类别class：将所研究的样本性质离散化成有限的类别，认为同一类的样本在该性质上是不可区分的。  类别用ωi (i=1，2，…，c，共c类)表示；如两个类别用ω1，ω2表示，也可用{-1，1}表示。  已知样本：类别情况已知的样本。  未知样本: 类别情况未知的样本。  样本集：若干样本的集合，分已知样本集和未知样本集。概念和名词约定  特征features：样本的任何可区分的且可观测的方面（属性）。  包括定量特征和定性特征，通常最后转化为定量特征。  特征向量feature vectors：样本的所有特征组成的d维向量。  是样本在数学上的表达，因此也称为样本。              d x x x x  2 1 概念和名词约定  特征空间feature space：d维特征向量的所有可能取值范围构成的d维特征空间。  每一个样本（特征向量）是该空间中的一个点，一个类别是该空间中的一个区域。  例：限定苹果的直径尺寸（x，以厘米为单位）在7厘米到15厘米之间，重量（y，以两为单位）在3两到8两之间变化。那么，由x值从7到15，y 值从3到8包围的二维空间就是对苹果进行度量的特征空间。概念和名词约定  分类器classifier：能够将每个样本都分到某个类别中去（或者拒绝）的计算机算法。  是从特征空间到决策空间的映射。  Decision region：分类器将特征空间划分为若干区域（决策域）。  Decision boundary：不同类别区域之间的边界称作分类边界、决策边界或分类面，决策面。贝叶斯定理贝叶斯定理 ( , ) 0.248 ( | ) 0.7515 ( ) 0.330 PX A PX A P A   ( ,~ ) 0.168 ( |~ ) 0.2507 (~ ) 0.670 PX A PX A P A   ( | )() (| ) ( ) ( | )() ( , ) ( ,~ ) ( | )() ( | ) ( ) ( |~ ) (~ ) 0.75 0.33 0.596 0.75 0.33 0.25 0.67 PX APA PA X P X PX APA PX A PX A PX APA P X APA PX AP A         

贝叶斯决策理论概述贝叶斯决策理论概述口贝叶斯决策理论是解决模式分类问题的一种基本口例1：医生根据病人血液中白细胞的浓度来判断统计途径。病人是否患有血液病。口对问题的要求/条件 ■一个人的白细胞浓度是3100，医生应该做出怎 ■决策问题可以用概率的形式来描述：样的判断？（两类别的识别问题） ■所有有关的概率结构均已知。口出发点是利用概率的不同分类决策和相应的决策 ■根据医学知识和以往的经验医生知道：代价之间的定量折中。口一般人群中，患病的人数比例为0.5% 口对于同一个问题，采用不同的决策标准将得到不口患病的人白细胞的浓度服从均值2000，方差同意义下“最优”的决策。其中最具代表性的是： 1000的正态分布：未患病的人白细胞的浓度服从 ■最小错误率均值7000，方差3000的正态分布： ■最小风险贝叶斯决策理论概述贝叶斯决策理论概述口数学表示口先验概率(priori probabilities/prior) ■用Q表示“类别”这一随机变量，类别@1和⊙2分 ■根据大量统计数据确定某个类别事物出现的比例。别表示“患病”和“未患病”。 ■例1中的两个类别的先验概率分布分别是： P(2=u)=0.5% ■用x表示“白细胞浓度值”这一随机变量。 P2=0,)=99.5% ■决策空间⊙={01，w2}。 P(Q=a)+P2=)=1 (挂他性、穷举性) ■“先验” 口没有获得观测数据（病人白细胞浓度）之前类别的分布。口只针对w1和ω2出现的可能性，不考虑其他任何因素（如白细胞浓度）。贝叶斯决策理论概述贝叶斯决策理论概述 o先验概率(priori probabilities/prior) 口类条件概率(Class-conditional Probabilities) ■仅依据先验信息的判决规则： ■可利用白细胞浓度值×（连续随机变量）来帮助判决： ,ifP@>P@2) ■X的分布取决于类别状态（患病或未患病），用 Decide otherwise 类条件概率密度函数来表示： px|m)~N(2000,1000: ■判决的误差概率 px|o2)~N(7000,3000 口p(xo)是指在类别w下，在一个连续的函数空 P(error)=minP(a),P() 间中观测到×的可能性。 Dp(x|)和px|)间的区别表示了血液病人和非血液病人之间白细胞浓度值的区别

贝叶斯决策理论概述  贝叶斯决策理论是解决模式分类问题的一种基本统计途径。  对问题的要求/条件  决策问题可以用概率的形式来描述；  所有有关的概率结构均已知。  出发点是利用概率的不同分类决策和相应的决策代价之间的定量折中。  对于同一个问题，采用不同的决策标准将得到不同意义下“最优”的决策。其中最具代表性的是：  最小错误率  最小风险贝叶斯决策理论概述  例1：医生根据病人血液中白细胞的浓度来判断病人是否患有血液病。  一个人的白细胞浓度是3100，医生应该做出怎样的判断？（两类别的识别问题）  根据医学知识和以往的经验医生知道： 一般人群中，患病的人数比例为0.5%。 患病的人白细胞的浓度服从均值2000，方差 1000的正态分布；未患病的人白细胞的浓度服从均值7000，方差3000的正态分布；贝叶斯决策理论概述  数学表示  用Ω表示“类别”这一随机变量，类别ω1和ω2分别表示“患病” 和“未患病”。  用x表示“白细胞浓度值”这一随机变量。  决策空间Θ={ω1，ω2}。贝叶斯决策理论概述  先验概率 (priori probabilities / prior)  根据大量统计数据确定某个类别事物出现的比例。  例1中的两个类别的先验概率分布分别是:  “先验” —— 没有获得观测数据（病人白细胞浓度）之前类别的分布。 只针对ω1和ω2出现的可能性，不考虑其他任何因素（如白细胞浓度）。 1 2 1 2 ( ) 0.5% ( ) 99.5% ( ) ( )1 ( ) P P P P             排他性、穷举性贝叶斯决策理论概述  先验概率 (priori probabilities / prior)  仅依据先验信息的判决规则：  判决的误差概率 , if Decide , otherwise 1 12 2 ω P(ω ) P(ω ) ω     ( ) min  ( ), ( ) P 1 P 1 P error  贝叶斯决策理论概述  类条件概率(Class-conditional Probabilities)  可利用白细胞浓度值x（连续随机变量）来帮助判决；  x的分布取决于类别状态（患病或未患病），用类条件概率密度函数来表示：  是指在类别ωi下，在一个连续的函数空间中观测到x的可能性。  和间的区别表示了血液病人和非血液病人之间白细胞浓度值的区别。 ( | ) ~ (7000, 3000); ( | ) ~ (2000,1000); 2 1 p x N p x N   ( | ) 1 p x 2 p x(| )  i p x(| ) 

贝叶斯决策理论概述贝叶斯决策理论概述口类条件概率(Class-conditional Probabilities) 口后验概率(posteriori probabilities/,posterior) ■同一类事物的各个属性都有一定的变化范围，在 ■问题：已知先验概率P(@,)和类条件概率密度函其变化范围内的分布概率用一种函数形式表示，数p(x|0,),i=1,2:对于一个样本×=3100，即类条件概率密度函数。判定X∈01或X∈02？ ■这种分布概率只针对同一类别事物，与其他类别口计算在观测样本×下，其类别状态是o=1,2)的概的事物无关。率：P(OIx)。 ■用条件概率形式表示，以强调是同一类别事物的 ■后验概率是一个具体事物属于某种类别的概率。内部。口一个样本只可能属于两个类别之一，即有约束口例，用x表示某一个学生的身高，则男生身高的概率密度表示成p(x|男生)，女生身高表示成p(x女 P(lx)+P(o2|x)=1 生)，两者之间没有任何关系。区别P(oIx)和P(@,)。贝叶斯决策理论概述贝叶斯决策理论概述口后验概率(posteriori probabilities/posterior) 口后验概率(posteriori probabilities/posterior） P(@Ix)=P(@.x) Posterior probabilities for the p(x) priors P(o)=2/3.P(o,)=1/3 Class-conditional P(@,)p(xlo,) For x=14. p.d.fs ∑PO,)pxo) Po,x)=0.92.Pox)=0.08 pix w) P(@x) ■p(x|o,)是oi关于x的似然(likelihood)函数，表明了在其他条件都相等的情况下，使得x|@) 较大的⊙：更有可能是真实的类别。 posterior=priorxlikelihood evidence 贝叶斯决策理论概述基于最小错误率的贝叶斯决策 a后验概率(posteriori probabilities/posterior) 口为什么会有错分类，在何种情况下会出现错分 ■实质上，贝叶斯定理是通过观察样本x,把类别类？状态的先验概率P(@o,)转化成后验概率P(o,x)。 ■当某一特征向量值X只为某一类物体所特有，即 ■贝叶斯定理的必要性：计算概率需要有大量的数 1,k=i P(@x)= 据，而对于某一特定的事件（如白细胞浓度值 0,k≠i ×=3100)要搜集大量的样本是很困难的。对其作出决策是容易的，也不会发生错误。 ■贝叶斯定理综合了先验概率（类别出现的可能性）和类条件概率（类别符合观测样本的可能性）两 ■问题在于出现模棱两可的情况，即不同类别在特方面因素。征空间的分布有重叠。此时，任何决策都存在误判的可能性

贝叶斯决策理论概述  类条件概率(Class-conditional Probabilities)  同一类事物的各个属性都有一定的变化范围，在其变化范围内的分布概率用一种函数形式表示，即类条件概率密度函数。  这种分布概率只针对同一类别事物，与其他类别的事物无关。  用条件概率形式表示，以强调是同一类别事物的内部。 例，用x表示某一个学生的身高，则男生身高的概率密度表示成p(x|男生)，女生身高表示成p(x|女生)，两者之间没有任何关系。贝叶斯决策理论概述  后验概率(posteriori probabilities/posterior)  问题：已知先验概率和类条件概率密度函数，i=1,2；对于一个样本 x=3100，判定 x∈ω1 或 x∈ω2？ 计算在观测样本x下，其类别状态是ωi (i=1,2)的概率：。  后验概率是一个具体事物属于某种类别的概率。 一个样本只可能属于两个类别之一，即有约束 区别和。 i p x(| )  i P( )  i P x ( | ) 1 2 P xP x ( | ) (    | ) 1 i P x ( | ) i P( )  贝叶斯决策理论概述  后验概率(posteriori probabilities/posterior)  是ωi 关于x的似然(likelihood)函数，表明了在其他条件都相等的情况下，使得较大的ωi 更有可能是真实的类别。 ( ,) ( |) ( ) ( )(| ) ( )(| ) i i i i j j j P x P x p x P px P px          prior likelihood posterior evidence   i p x(| )  i p x(| )  贝叶斯决策理论概述  后验概率(posteriori probabilities/posterior) 贝叶斯决策理论概述  后验概率(posteriori probabilities/posterior)  实质上，贝叶斯定理是通过观察样本x，把类别状态的先验概率转化成后验概率。  贝叶斯定理的必要性: 计算概率需要有大量的数据，而对于某一特定的事件（如白细胞浓度值 x=3100）要搜集大量的样本是很困难的。  贝叶斯定理综合了先验概率（类别出现的可能性）和类条件概率（类别符合观测样本的可能性）两方面因素。 i P( )  i P x ( | ) 基于最小错误率的贝叶斯决策  为什么会有错分类，在何种情况下会出现错分类？  当某一特征向量值X只为某一类物体所特有，即对其作出决策是容易的，也不会发生错误。  问题在于出现模棱两可的情况，即不同类别在特征空间的分布有重叠。此时，任何决策都存在误判的可能性。 1, ( |) 0, k k i P x k i       

基于最小错误率的贝叶斯决策  目标：最小化决策的平均错误率  ：在特征向量观测值的整个可能取值范围内的错误率的均值。  平均错误率是条件错误率的数学期望。 ( ) ( ,) ( | ) () ( ( | )). P error P error x dx P error x p x dx E P error x          P(error) P(error) 基于最小错误率的贝叶斯决策  计算条件错误率（以两类别为例）  因为  P error x p x x ( | ) 0, ( ) 0,   min ( ) min ( | ), for all P error P error x x  2 1 1 2 ( | ), if assign x ( |) ( | ), if assign x P x P error x P x           基于最小错误率的贝叶斯决策  判决规则  最大化后验概率准则   最小错误率的贝叶斯决策是一致最优决策。 11 2 2 , if ( | ) ( | ) assign , otherwise P xP x x       1 2 P error x P x P x x ( | ) min{ ( | ), ( | )},     基于最小错误率的贝叶斯决策  判决规则的等价形式  比较大小不需计算，即 如果对于某个x，有，判决取决于先验概率； 如果，判决取决于似然概率。 1 11 2 2 2 , if ( | ) ( ) ( | ) ( ) assign , otherwise px P px P x         p( ) x ( | ) ( | ) 1 2 p x  p x 1 2 P P () ()    基于最小错误率的贝叶斯决策  判决规则的等价形式  最大化似然比准则  对似然比取负对数 2 2 1 1 1 2 ( ) ( ) (| ) , if ( ) assign (| ) , otherwise p x l x P x p x  P             2 1 12 1 2 ( ) , if ( ) ln ( | ) ln ( | ) ln ) assign ( ) , otherwise P hx px px x P              基于最小错误率的贝叶斯决策  例解：两类鱼的自动分类问题，鲈鱼(ω1)和鲑鱼(ω2)，用鱼长度的观察值(x)为特征。  根据统计结果：    见图示。  如何将一条长为10的鱼分类？ ( ) 1 3; P 1  2 P( ) 2 3;   ( | ), ( | ) 1 2 p x p x 10 1 P x(| )  x (| ) P x i 鲈鱼鲑鱼 0.05 0.5 2 P x(| ) 

基于最小错误率的贝叶斯决策  解法一： 1 1 1 1 1 11 2 2 ( 10 | ) ( ) ( | 10) ( ) ( | )( ) ( | )( ) ( | )( ) 0.05 1/ 3 0.048 0.05 1/ 3 0.50 2 / 3 px P P x p x px P px P px P                      10 10 10 10 ； 2 1 1 2 2 ( | 10) 1 ( | 10) 0.952 ( | 10) ( | 10) 10 , Px Px Px Px x               ；；即是鲑鱼。基于最小错误率的贝叶斯决策  解法二（用似然比）： 1 12 2 2 12 1 12 12 2 ( |) 0.05 10 0.1 ( | ) 0.50 ( ) 2/3 2 ( ) 1/3 10 , p x l x p x P P l x x                     10 （）； 10 判决阀值；（ 10）；即是鲑鱼。基于最小错误率的贝叶斯决策 1 2 1 2 1 2 2 1 2 2 11 2 21 1 ( ) ( | ) () ( | ) () ( | )( ) ( | )( ) () ( | ) () ( | ) R R R R R R P error P x p x dx P x p x dx P x P dx P x P dx P P x dx P P x dx                    基于最小错误率的贝叶斯决策  再看决策的错误率  设t为类别的分界面，则在特征向量x是一维时，t 为x轴上的一点。两个决策区域:  R1~(-∞，t)：决策为ω1 ，  R2~(t，+∞)：决策为ω2 ， 1 2 1 2 2 1 2 2 11 ( ) ( | ) () ( | ) () ( | )( ) ( | )( ) R R R R P error P x p x dx P x p x dx P x P dx P x P dx             2 P( | ) ( | ); error x P x   1 P( | ) ( | ); error x P x   基于最小错误率的贝叶斯决策  再看决策的错误率基于最小错误率的贝叶斯决策  推广  允许使用多于一个的特征，即用特征向量；  允许多于两种的类别状态；  允许除了判定类别以外的其他行为（如拒绝）；  可以引入比误差概率更一般的损失函数。             c j j R j j j j c i i i j j c i i P(error) P correct p x P dx x p x P p x P x P x P x j 1 1, , 1, , 1 ( ) 1 ( | ) ( ) (2) assign , if ( | ) ( ) max ( | ) ( ); (1) assign , if ( | ) max ( | );            