北京大学：《模式识别》课程教学资源（课件讲稿）概率密度函数的估计（第一部分）.pdf_大学文库

引言第三章口Bayes.决策需要已知两种知识： ■各类的先验概率P(⊙ 概率密度函数的估计 ■各类的条件概率密度函数po,). 口知识的来源： 2009-10-13 ■对问题的一般性认识； ■一些训练数据。口实际问题：已知一定数目的样本，对未知样本分类（设计分类器）。引言引言口基于样本的两步Bayes.决策口基于样本的两步Bayes决策 ■首先，根据样本估计P(o)和p似w,记(o,) 样本分布的决策规则：和p(x|o,); 训练样本集统计特征判别函数 ■然后，用估计的概率密度设计贝叶斯分类器。率密度函决策面方程 ■希望：当样本数N一∞时，得到的分类器收敛于 ■面临的问题：理论上的最优解。故，需口如何利用样本集进行估计 x0,)N→pxo,) 口估计量的评价 P(o,)N→P@,) ■原则：寻找在一般情况下适用的“最优”分类器，即错误率最小，对分类器设计在理论上有指导意义， ■重要前提：训练样本的分布能代表样本的真实分 ■由于获取统计分布及其参数很困难，实际问题中并不布，所谓ii.d条件；且有充分的训练样本。一定县备获取准确统计分布的条件，引言引言口类的先验概率的估计（较容易)：口类条件概率密度的估计（非常难） ■依靠经验： ■概率密度函数包含了一个随机变量的全部信息； ■概率密度函数可以是满足下面条件的任何函数： ■用训练数据中各类出现的频率估计；。用频率估计概率的优点： px)≥0， ∫p(x)dk=L ■两种主要思路：口无偏性：口参数估计：概率密度函数的形式已知，而表征函 ▣相合性；数的参数未知，通过训练数据来估计口收敛速度快。 ·最大似然估计、Bayes估计口非参数估计：密度函数的形式未知，也不作假设，利用训练数据直接对概率密度进行估计 ·Parzen窗法、kn-近邻法

第三章概率密度函数的估计 2009-10-13 2 引言  Bayes决策需要已知两种知识：  各类的先验概率 P(ωi)；  各类的条件概率密度函数 p(x|ωi )。  知识的来源：  对问题的一般性认识；  一些训练数据。  实际问题：已知一定数目的样本，对未知样本分类（设计分类器）。 3  基于样本的两步Bayes决策  首先，根据样本估计 P(ωi) 和 p(x|ωi)，记和；  然后，用估计的概率密度设计贝叶斯分类器。  希望：当样本数Ｎ→∞时，得到的分类器收敛于理论上的最优解。故，需  重要前提：训练样本的分布能代表样本的真实分布，所谓i.i.d 条件；且有充分的训练样本。引言 ( ) ˆ P i ˆ(| )i p x  4 引言  基于样本的两步Bayes决策  面临的问题：  如何利用样本集进行估计  估计量的评价  原则:寻找在一般情况下适用的“最优”分类器，即错误率最小，对分类器设计在理论上有指导意义。  由于获取统计分布及其参数很困难，实际问题中并不一定具备获取准确统计分布的条件。训练样本集样本分布的统计特征：概率密度函数决策规则：判别函数决策面方程 5 引言  类的先验概率的估计（较容易）：  依靠经验；  用训练数据中各类出现的频率估计；  用频率估计概率的优点： 无偏性； 相合性； 收敛速度快。 6 引言  类条件概率密度的估计（非常难）  概率密度函数包含了一个随机变量的全部信息；  概率密度函数可以是满足下面条件的任何函数：  两种主要思路： 参数估计：概率密度函数的形式已知，而表征函数的参数未知，通过训练数据来估计  最大似然估计、Bayes估计 非参数估计：密度函数的形式未知，也不作假设，利用训练数据直接对概率密度进行估计  Parzen窗法、kn-近邻法

引言参数估计的基本概念样本所总体概率密度推断解决方法口统计量：样本集的某种函数属类别函数的形式 AK),K=x1.x2...xN); 监督参已蜘已知参数最大似然估口参数空间：总体分布的未知参数日所有可能取值数估计计组成的集合（⊙）：非监督未知已知贝叶斯估计口点估计的估计量和估计值：参数估计 ■日的估计量日=dx,x2,,xw)是样本集的函数：非参数已知未知概率 ■估计量对样本集的一次实现称为估计值。 Parzen窗法，估密 kw近年法区间估计：与点估计相对应，用区间(d,d,)作为函数 B的取值范围的一种估计，该区间称为置信区间。估计量的评价最大似然估计口无偏性（数学期望）：E(同)=日，口假设 ■参数日是确定而未知的量（不是随机量）； ■按类别把样本集分开，样本集K中的样本都是从口有效性（风险小）：va(⊙越小，越有效；概率密度为po)的总体中独立抽取出来的 (独立同分布，1i.d); ■概率密度函数的形式已知，参数未知。为了描述概率密度函数p(:@)与参数日的依赖关系，用口相合性（一致性）：样本数趋于无穷时，日依概 pw。)表示，对于同一类别可简化为p(x8)方率趋于日，即 p1.-02s)-o. ■K中的样本不包括日，()≠i)中的信息，即不同类别的参数在函数上是独立的. 12 最大似然估计最大似然估计口可分别处理各类问题：独立地按概率密度px) 口目标：根据已抽取的N个样本x,x2,,xw,估计抽取样本集K={x,x2,w,用K估计未知参这组样本“最可能”来自那个密度函数。(“最似” 数0. 哪个密度函数) 口样本独立抽取时的似然函数：口基本思路：如果在日=日下，（日）最大，则日应是“最可能”的参数值。 (0)=p(K0)=px)=IIp(x0) 口0是样本集的函数，记作0=d(x,x2,,xw),是日的最大似然估计量. 口对数(loglarized)化似然函数： arg m()arg mx H H(0)=In/(0)=in p(x:10). =arg max∑in p(x8o), k妇

7 引言概率密度函数参数推断 Parzen窗法、 kN近邻法最大似然估计，贝叶斯估计解决方法非参数已知未知估计非监督未知已知参数估计监督参已知已知数估计总体概率密度函数的形式样本所属类别 8 参数估计的基本概念  统计量：样本集的某种函数 f(K)，K={x1, x2 ,…, xN}；  参数空间：总体分布的未知参数θ所有可能取值组成的集合(Θ)；  点估计的估计量和估计值：  θ的估计量 = d(x1, x2 ,…, xN)是样本集的函数；  估计量对样本集的一次实现称为估计值。  区间估计：与点估计相对应，用区间(d1, d2)作为 θ的取值范围的一种估计，该区间称为置信区间。  ˆ 9 估计量的评价  无偏性（数学期望）：  有效性（风险小）：越小，越有效；  相合性（一致性）：样本数趋于无穷时，依概率趋于θ，即  ˆ E   ;  ˆ var   ˆ  0.   n n lim P      10 最大似然估计  假设  参数θ是确定而未知的量（不是随机量）；  按类别把样本集分开，样本集 Kj 中的样本都是从概率密度为 p(x|ωj) 的总体中独立抽取出来的（独立同分布，i.i.d）；  概率密度函数的形式已知，参数未知。为了描述概率密度函数 p(x|ωi) 与参数θ的依赖关系，用 p(x|ωi,θ)表示，对于同一类别可简化为p(x|θ)；  Kj 中的样本不包括θj （j≠i）中的信息，即不同类别的参数在函数上是独立的。 11 最大似然估计  可分别处理各类问题：独立地按概率密度 p(x|θ) 抽取样本集 K={x1, x2 ,…, xN}，用K估计未知参数θ。  样本独立抽取时的似然函数：  对数(loglarized)化似然函数： 1 2 1 ( ) ( | ) ( , ,..., | ) ( | ); N N k k lp p p       K xx x x  1 ( ) ln ( ) ln ( | ). N k k Hl p        x 12  目标：根据已抽取的N个样本 x1, x2 ,…, xN，估计这组样本“最可能”来自哪个密度函数。（“最似” 哪个密度函数）  基本思路：如果在下，l(θ)最大，则应是“最可能”的参数值。  是样本集的函数，记作，是 θ的最大似然估计量。最大似然估计   ˆ   ˆ  ˆ 1 2 ˆ ( , ,..., ) N   d xx x argmax ln ( | ). argmax ( ) argmax ( ) ˆ 1     N k k ML p l H        x

19 正态分布的最大似然估计  单变量正态分布  多元正态分布 1 ^ 1 1 ˆ ; 1 ( )( ) ; ˆ ˆ N k k N T k k k x N x x N            20 正态分布的最大似然估计  讨论  均值的最大似然估计量是无偏的  方差的最大似然估计量不是无偏的 方差的无偏估计为样本方差   ; 1 ˆ 1            N k k N E E x    2 2 22 1 1 -1 ˆ ˆ ; N k k N E E N N               x  2 1 1 ˆ . 1 N k N k      x 21 Goodness-of-fit (拟合优度)  可用Kolmogorov-Smirnov (K-S)拟合优度检验法来度量样本观察值的分布和特定的理论分布间的吻合程度。  K-S检查样本观察值的累积概率分布函数和特定的累积概率分布函数之间的最大绝对偏差。  对一个概率模型未知的样本集，可假设不同的理论分布且估计参数，后用K-S拟合优度检验法选择和样本观察值分布的吻合程度最好的分布。 22 最大似然估计图例 23 贝叶斯估计 — 最大后验概率  思路：和贝叶斯决策类似，只是把离散的决策状态变成了连续的参数估计。样本集 K 估计量真实参数θ 参数空间Θ 是连续空间参数的先验分布 p(θ) 样本x 决策αi 真实状态ωi 状态空间A是离散空间先验概率 P(ωi) 决策问题估计问题  ˆ 24 贝叶斯估计 — 最大后验概率  基本思想：  用样本集 K={x1, x2 ,…, xN} 估计未知参数θ；  把待估计的参数θ看成是随机变量，其先验分布为p(θ)；  希望使后验概率 p(θ| K) 最大。  求解： MAP 1 ( | )() ˆ arg max ( | ) arg max ( ) arg max ( | ) ( ) arg max ln ( | ) ln ( ); N k k p p p p pp p p                 x K K K K ln ( | ) ln ( ) 0. 1            N k  p xk  p 