北京大学：《模式识别》课程教学资源（课件讲稿）概率密度函数的估计（第二部分）.pdf_大学文库

第三章概率密度函数的估计 2009-10-20 2 贝叶斯估计 — 最小风险  损失函数：把θ估计为所造成的损失，记为  期望风险：  条件风险：  ˆ ( ˆ, )。 ˆ (, ) (, ) ˆ (, ) ( | )() ˆ () (, ) ( | ) ˆ ( | ) () ; d d d d E E E E R p dd p p dd p p dd R pd                           x x xx x x xx x xx ˆ ˆ R pd ( | ) (,)( | ) .        x x 3 贝叶斯估计 — 最小风险  最小化期望风险最小化条件风险。  在有限样本集下，最小化经验风险  贝叶斯估计量：（在样本集 K 下）是条件风险（经验风险）最小的估计量，即 ˆ ˆ R pd ( | ) (,)( | ) .        K K BE ˆ BE ˆ ˆ ˆ arg min ( | ). R     K 4 贝叶斯估计 — 最小风险  把损失函数定义为平方误差：  定理：如果采用平方损失函数，则有  同理，在给定样本集K 下，θ的贝叶斯估计是 2 2 ˆ ˆ ( | ) (,)( | ) ˆ [ ( | )] ( | ) [( | ) ]( | ) ; R pd E pd E pd                      x x xx x x 2 ˆ ˆ  ( , ) ( ).      B E ˆ E [|] (|) ;    p d     x x B E ˆ E [| ] (| ) ;    p d     K K 5 贝叶斯估计 — 最小风险  平方误差损失下，求解贝叶斯估计的步骤：  确定θ的先验分布 p(θ)；  由样本集 K={x1, x2 ,…, xN} 求出样本集的联合分布：  计算θ的后验分布  计算贝叶斯估计 1 ( | ) ( | ); N k k p p    K  x ( | )() (| ) ; ( | )() p p p p p d          K K K B E ˆ   p ( | ) . d    K 6 一元正态分布的贝叶斯估计  总体分布密度为：  均值μ未知，μ的先验分布为：  样本集： K={x1, x2 ,…, xN}  用贝叶斯估计方法求μ的估计量 2 px N ( |  ) ~ ( , );   2 0 0 p N ( ) ~ ( , );   

7 一元正态分布的贝叶斯估计  计算μ的后验分布 2 1 ( | )() (| ) ( ) ( | ) ( )~ ( , ) N k NN k p p p p px p N            K K K 2 22 2 0 0 2 22 22 22 0 00 0 1 , 1 ; NN N N N k k N m NN N m N                x ；其中为样本均值 8 一元正态分布的贝叶斯估计  计算μ的贝叶斯估计  是样本信息和先验知识的线性组合。 当 N=0 时， 当N→∞时，  特例： 如，则即先验知识可靠，样本不起作用。 如，则即先验知识十分不确定，完全依靠样本信息。 ˆ (| ) ; N      p d  K ˆ ;  BE  0 ˆ ;  BE N  m 0 2  0  0 ˆ ;  BE    n   ˆ ;  BE N  m 9 贝叶斯学习  由局部推导总体：利用θ的先验分布 p(θ)及训练样本提供的信息（似然函数）p(K|θ)，求出 θ的后验分布p(θ|K) ，然后直接求总体分布。  把类条件概率密度（总体分布）p(x|K) 和未知参数的后验概率密度 p(θ|K) 联系起来。  贝叶斯解的结果与最大似然估计的结果近似相等 ( | ) (, | ) (|, )(| ) (|)(| ) ; p pd p p d pp d              x x x x K K K K K ML ˆ p p (x x | K) (  | ). 10 贝叶斯学习  考虑学习样本个数N，记样本集 KN={x1,…, xN} ;  当 N>1时，  因此，有递推后验概率公式： 1 ( | ) ( | ) ( | ); N N N p pp     K K  x 1 1 ( | ) ( | ) ( | ) ; ( |)(| ) N N N N N p p p p p d           x x K K K 11 贝叶斯学习  参数估计的递推贝叶斯方法(Recursive Bayes Incremental Learning)  设，当样本数目增多，可得到后验概率密度函数序列：  贝叶斯学习(Bayesian Learning)性质：如果此序列收敛予以真实数值为中心的δ函数，即 ( | ) ( ) 0 p  K  p  1 12 pp p ( ), (    | x xx ), ( | , ), 0 ( | ) ( ); N p      K   0 ˆ ( | ) ( | ) ( ). N ppp     xxx K   12 一元正态分布的贝叶斯学习 2 1 ( | )() (| ) ( ) ( | ) ( ) ~ ( , ); N k NN k p p p p px p N            K K K 2 22 2 0 0 2 22 22 22 0 00 0 1 , 1 ; NN N N N k k N m NN N m N                x ；其中为样本均值  计算μ的后验分布 2 N 0 N 当时，， ( | ) 函数。      p K

13 一元正态分布的贝叶斯学习 14 一元正态分布的贝叶斯学习  直接计算总体密度： 2 22 22 2 2 (| ) (| )( | ) 1 1 exp 2 2 ~ ( , ). N N N N N px px p d x N                                   K K 15 非监督参数估计（简介）  样本类别未知，但各类条件概率密度函数的形式已知，根据所有样本估计各类密度函数中的参数。  非监督最大似然估计的思路：  混合密度：分量密度的线性组合  似然函数和对数似然函数 16 非监督参数估计（简介）  非监督最大似然估计的思路：  最大似然估计  可识别性问题：未知参数的个数小于等于独立方程的个数。  计算问题：微分方程组 常采用迭代法进行参数估计。 1 1 ˆ arg max ( | ) arg max ln ( | ); N N k k k k px px              17 总结：参数估计  最大似然估计  最大后验概率估计  贝叶斯估计  贝叶斯学习 ML 1 ˆ arg max ( | ) arg max ( | ); N k k p p         K  x MAP 1 ˆ arg max ( | ) ( ) arg max ln ( | ) ln ( ); N k k pp p p          K  x BE ( | )() ˆ (| ) , (| ) (| ) ; ( | )() p p p E pd p pd               K K KK K p pp d (| ) (|)(| ) .      x x K K 18 讨论：参数估计中的模型选择  实际工作中处理的大都是高维数据：d≥10。  统计学中经典的多元（高维）分布很少，研究的最详尽的是多元正态分布。  近几十年的研究发现，实际所处理的高维数据几乎都不服从正态分布。  通过增加模型的复杂程度（参数的个数），如正态模型的线性组合—高斯混合模型，试图“逼近” 真实的分布，出现了过拟合问题

31 非参数估计的基本方法  讨论：总是 p(x) 的空间平滑后的结果。  如果希望得到 p(x)，须要求 V 趋近于零。区域 R 中可能不包含任何样本，即 p(x) = 0。  实际上，训练样本的个数 n 总是有限的，V 不能取得任意小。 k/n 总是有一定的变动，概率密度函数 p(x) 总是存在一定程度的平滑效果。 k n/ V 32 非参数估计的基本方法  理论讨论：假设可获得无限多的训练样本，如何估计点 x 处的概率密度函数？  构造一系列包含 x 点的区域 R1，R2，…，Rn。  第一个区域用1个样本，第二个区域用2个样本…  设 Vn 为区域 Rn 的体积，kn 为落在区间 Rn 中的样本个数。  对 p(x) 的第 n 次估计为 / () . n n n k n p V x  33 非参数估计的基本方法  pn(x) 收敛于 p(x) 的三个必要条件  给定 n 个训练样本，如何估计 p(x)？（即如何获得满足三个必要条件的区域序列）  核函数法（Parzen窗法）：根据某个确定的体积函数来逐渐收缩一个给定的初始区间。  kN-近邻法：确定 kn 为 n 的某个函数，逐渐生长体积，直到最后能包含进 x 的 kn 个相邻点。 lim 0 lim lim / 0 n n n n n n V k k n        — Approximation 2 — Approximation 1 — to allow to allow pn(x) to converge 34 非参数估计的基本方法  示例：Parzen窗法和kN-近邻法 35 Parzen窗法  假设区域 Rn是一个中心位于估计点 x，棱长为 hn 的 d 维超立方体，其体积为  定义窗函数  表示一个中心在原点的单位超立方体。 n d V h  n j 1 1 u j 1,... , d ( ) 2 0 otherwise          u (u) 36  落入超立方体 Rn内的样本数  Parzen窗估计  是一系列关于 x 和 xi 的函数的叠加；即一种内插过程：每一个样本对估计所起的作用依赖于它到 x 的距离。 Parzen窗法 1 n i n i n k h            x x equals 1 if equals 1 if xi falls within hypercube centered at centered at x

37 Parzen窗法  Parzen窗估计 pn(x) 为合理的密度函数（值非负且积分为1）的条件是窗函数本身是合法的密度函数，即  窗函数可有更一般的形式，不限于超立方体函数。 1 1 1 1 1 ( ) 11 1 ( ) 1. n i n i n n n n i i i n n pd d nV h d d nV h n                               x x xx x x x x uu   ( ) 0; ( ) 1;   d  u uu 38 Parzen窗法  常用窗函数  方窗  正态窗：  指数窗：  三角窗：  超球窗： 1 1 2 ( ) exp ~ (0,1) 2 2  u uN         ( ) exp | | u u    1 if 1 ( ) 0 otherwise       u u 1 if 1 ( ) 0 otherwise u u  u       39 Parzen窗法  窗宽 hn的影响  定义函数及重写 pn(x)  hn 会影响δn(x)的宽度和强度 如 hn很大，δn 的强度很低，而且距离点 x 远近不同的样本的δn 相差不大。pn(x) 是 n 个宽度较大且变化缓慢的函数的叠加，故是一个非常平滑、低分辨力的估计。 如 hn很小，则δn(x-xi) 的峰值很大。pn(x) 是 n 个以样本点为中心的尖脉冲的叠加，统计变动很大，即是一个充满噪声的估计。 1 () ; n V h n n         x x   1 1 () ; n n ni i p n   x xx    n , d V h  n 40 Parzen窗法  窗宽 hn的影响  hn 是平滑参数，需优化，根据样本的数量选择。 41 Parzen窗法  Parzen 估计量的统计性质  pn(x)是渐进无偏和平方误差一致估计的限制条件：  p(x) 在 x 点连续；  窗函数满足下列条件： 窗宽约束：         || || 1 0; 1; sup ; lim 0; d i i d u              u u u u u u u lim 0; lim . n n n n V nV      42 Parzen窗法  例1 ：p(x) 和均是正态分布 ( ) u 1 / n hh n  px N ( ) ~ (0,1)