贝叶斯估计一最小风险 第三章 口损失函数:把日估计为所造成的损失,记为 2(8,0) 概率密度函数的估计 口期望风险: R-SSi0.0)p(x.0x0ds 2009-10-20 p)p(xdods =jep。(0,p01xded R(x)p(x)ds: 口条件风险: R(x)=2(00)p(0lxyio. 贝叶斯估计一最小风险 贝叶斯估计一最小风险 口最小化期望风险)最小化条件风险。 口把损失函数定义为平方误差:2(0,0)=(0-0)2 口在有限样本集下,最小化经验风险 R(lx)=[1(0,0)p(olx)do R(1K)=[1(0.0)p(olke. =J。B-E(e1x)p(e1x)d0+∫.[E(a1x)-p01x)de, 口贝叶斯估计量:(在样本集K下)是条件风险 口定理:如果采用平方损失函数,则有 (经验风险)最小的估计量睡,即 iaE=E[01x]=∫。0p(01x)d0; O=arg min R(K). 口同理,在给定样本集K下,日的贝叶斯估计是 6aE=E01K]=J。0p(01K)d0; 贝叶斯估计一最小风险 一元正态分布的贝叶斯估计 口平方误差损失下,求解贝叶斯估计的步骤: 口总体分布密度为: ■确定日的先验分布p()方 p(x|4)~N(4,o2)5 ■由样本集K=x,2,xw}求出样本集的联合分 布: pKIo)=立pIo: 口均值μ未知,μ的先验分布为: p(4)~N(4o,o); ■计算日的后验分布 n01K)0poao p(K)p(0) 口样本集:K={x,x2,,w} ■计算贝叶斯估计 =fop(o1K)do. 口用贝叶斯估计方法求μ的估计量
第三章 概率密度函数的估计 2009-10-20 2 贝叶斯估计 — 最小风险 损失函数:把θ估计为 所造成的损失,记为 期望风险: 条件风险: ˆ ( ˆ, )。 ˆ (, ) (, ) ˆ (, ) ( | )() ˆ () (, ) ( | ) ˆ ( | ) () ; d d d d E E E E R p dd p p dd p p dd R pd x x xx x x xx x xx ˆ ˆ R pd ( | ) (,)( | ) . x x 3 贝叶斯估计 — 最小风险 最小化期望风险 最小化条件风险。 在有限样本集下,最小化经验风险 贝叶斯估计量:(在样本集 K 下)是条件风险 (经验风险)最小的估计量 ,即 ˆ ˆ R pd ( | ) (,)( | ) . K K BE ˆ BE ˆ ˆ ˆ arg min ( | ). R K 4 贝叶斯估计 — 最小风险 把损失函数定义为平方误差: 定理:如果采用平方损失函数,则有 同理,在给定样本集K 下,θ的贝叶斯估计是 2 2 ˆ ˆ ( | ) (,)( | ) ˆ [ ( | )] ( | ) [( | ) ]( | ) ; R pd E pd E pd x x xx x x 2 ˆ ˆ ( , ) ( ). B E ˆ E [|] (|) ; p d x x B E ˆ E [| ] (| ) ; p d K K 5 贝叶斯估计 — 最小风险 平方误差损失下,求解贝叶斯估计的步骤: 确定θ的先验分布 p(θ); 由样本集 K={x1, x2 ,…, xN} 求出样本集的联合分 布: 计算θ的后验分布 计算贝叶斯估计 1 ( | ) ( | ); N k k p p K x ( | )() (| ) ; ( | )() p p p p p d K K K B E ˆ p ( | ) . d K 6 一元正态分布的贝叶斯估计 总体分布密度为: 均值μ未知,μ的先验分布为: 样本集: K={x1, x2 ,…, xN} 用贝叶斯估计方法求μ的估计量 2 px N ( | ) ~ ( , ); 2 0 0 p N ( ) ~ ( , );
一元正态分布的贝叶斯估计 一元正态分布的贝叶斯估计 口计算u的后验分布 口计算μ的贝叶斯估计 p(K)=P(KI)p() i=∫4p(μ|K)du=4w; p(K) ■是样本信息和先验知识的线性组合。 -a p(sp()-Nx) 口当N=0时,户E=o k1 口当N→∞时,户E→mv 4w= Nog 02 Cug? Naia mNNa ■特例: 口如三0,则应E=4:即先验知识可靠,样本 其中m,=之为样本均值 不起作用。 N台 口如0n>G,则户E=mv;即先验知识十分不确 定,完全依靠样本信息。 贝叶斯学习 贝叶斯学习 口由局部推导总体:利用日的先验分布p(日)及训 口考虑学习样本个数N,记样本集N={x,,xw}; 练样本提供的信息(似然函数)p日),求出 日的后验分布p(),然后直接求总体分布。 口当N>1时, p(xIK)=p(x,01k)de p(KN10)=p(xx10)p(K10) =[p(x10,K)p(0K)de =「p(x|0)p(01K)d0; 口因此,有递推后验概率公式: ■把类条件概率密度(总体分布)p)和未知参 p(xx 10)p(01Kx-) 数的后验概率密度p()联系起来。 p(01K*)=- p(xx 10)p(01K-)do ■贝叶斯解的结果与最大似然估计的结果近似相等 p|K)≈p(x|dm). 11 贝叶斯学习 一元正态分布的贝叶斯学习 口参数估计的递推贝叶斯方法(Recursive Bayes 口计算μ的后验分布 Incremental Learning) P(K)=P(K I)p() ■设p(0|K)=p(0),当样本数目增多,可得到后 p(K) 验概率密度函数序列:p(),p(0川x),p(01x,2,… -a p(s.)p()-N(x) ■贝叶斯学习(Bayesian Learning)性质:如果此 序列收敛予以真实数值为中心的δ函数,即 Nag 2 MN= p(01KN→)=6(0-0)5 Na+ay+ ag+o?lo,ai= dig Nap+ai x为样本均值 p(x|KN→)=p(x|6=0。)=p(x) 其中m=N 当N→时,→0,p叫)→函数
7 一元正态分布的贝叶斯估计 计算μ的后验分布 2 1 ( | )() (| ) ( ) ( | ) ( )~ ( , ) N k NN k p p p p px p N K K K 2 22 2 0 0 2 22 22 22 0 00 0 1 , 1 ; NN N N N k k N m NN N m N x ; 其中 为样本均值 8 一元正态分布的贝叶斯估计 计算μ的贝叶斯估计 是样本信息和先验知识的线性组合。 当 N=0 时, 当N→∞时, 特例: 如 ,则 即先验知识可靠,样本 不起作用。 如 ,则 即先验知识十分不确 定,完全依靠样本信息。 ˆ (| ) ; N p d K ˆ ; BE 0 ˆ ; BE N m 0 2 0 0 ˆ ; BE n ˆ ; BE N m 9 贝叶斯学习 由局部推导总体:利用θ的先验分布 p(θ)及训 练样本提供的信息(似然函数)p(K|θ),求出 θ的后验分布p(θ|K) ,然后直接求总体分布。 把类条件概率密度(总体分布)p(x|K) 和未知参 数的后验概率密度 p(θ|K) 联系起来。 贝叶斯解的结果与最大似然估计的结果近似相等 ( | ) (, | ) (|, )(| ) (|)(| ) ; p pd p p d pp d x x x x K K K K K ML ˆ p p (x x | K) ( | ). 10 贝叶斯学习 考虑学习样本个数N,记样本集 KN={x1,…, xN} ; 当 N>1时, 因此,有递推后验概率公式: 1 ( | ) ( | ) ( | ); N N N p pp K K x 1 1 ( | ) ( | ) ( | ) ; ( |)(| ) N N N N N p p p p p d x x K K K 11 贝叶斯学习 参数估计的递推贝叶斯方法(Recursive Bayes Incremental Learning) 设 ,当样本数目增多,可得到后 验概率密度函数序列: 贝叶斯学习(Bayesian Learning)性质:如果此 序列收敛予以真实数值为中心的δ函数,即 ( | ) ( ) 0 p K p 1 12 pp p ( ), ( | x xx ), ( | , ), 0 ( | ) ( ); N p K 0 ˆ ( | ) ( | ) ( ). N ppp xxx K 12 一元正态分布的贝叶斯学习 2 1 ( | )() (| ) ( ) ( | ) ( ) ~ ( , ); N k NN k p p p p px p N K K K 2 22 2 0 0 2 22 22 22 0 00 0 1 , 1 ; NN N N N k k N m NN N m N x ; 其中 为样本均值 计算μ的后验分布 2 N 0 N 当 时, , ( | ) 函数。 p K
一元正态分布的贝叶斯学习 一元正态分布的贝叶斯学习 口直接计算总体密度: PNur,3,x. p(xK)=[p(xlu)p(ulK)du 2石+op} ~N(4,o2+o). 均值4x 方差由σ增为σ+σ:由于用了以的估计值而不确定性增加 非监督参数估计(简介) 非监督参数估计(简介) 口样本类别未知,但各类条件概率密度函数的形式 口非监督最大似然估计的思路: 已知,根据所有样本估计各类密度函数中的参数。 ■最大似然估计 口非监督最大似然估计的思路: ■混合密度:分量密度的线性组合 i=Ems·pto)=gmg立npIo: le,P) ■可识别性问题:未知参数的个数小于等于独立方 程的个数。 ■似然函数和对数似然函数 ■计算问题:微分方程组 0=pK0=·px,0 V.H©=0,i=12.,c H(0)=In0)=In p(x,10) 口常采用选代法进行参数估计, 总结:参数估计 讨论:参数估计中的模型选择 口最大似然估计 口实际工作中处理的大都是高维数据:d>10。 On =arg max p(K10)=arg max p(x10) 口统计学中经典的多元(高维)分布很少,研究的 口最大后验概率估计 最详尽的是多元正态分布。 =arg max p(K1)p(0)=arg maxI p(x+p(). 口近几十年的研究发现,实际所处理的高维数据几 口贝叶斯估计 乎都不服从正态分布。 P(01K)=P)E(01K)-J0p(01Kd0. 口通过增加模型的复杂程度(参数的个数),如正 p(K10)p(0)de 态模型的线性组合一高斯混合模型,试图“逼近” 口贝叶斯学习 真实的分布,出现了过拟合问题。 p(xK)=[p(x10)p(1K)de
13 一元正态分布的贝叶斯学习 14 一元正态分布的贝叶斯学习 直接计算总体密度: 2 22 22 2 2 (| ) (| )( | ) 1 1 exp 2 2 ~ ( , ). N N N N N px px p d x N K K 15 非监督参数估计(简介) 样本类别未知,但各类条件概率密度函数的形式 已知,根据所有样本估计各类密度函数中的参数。 非监督最大似然估计的思路: 混合密度:分量密度的线性组合 似然函数和对数似然函数 16 非监督参数估计(简介) 非监督最大似然估计的思路: 最大似然估计 可识别性问题:未知参数的个数小于等于独立方 程的个数。 计算问题:微分方程组 常采用迭代法进行参数估计。 1 1 ˆ arg max ( | ) arg max ln ( | ); N N k k k k px px 17 总结:参数估计 最大似然估计 最大后验概率估计 贝叶斯估计 贝叶斯学习 ML 1 ˆ arg max ( | ) arg max ( | ); N k k p p K x MAP 1 ˆ arg max ( | ) ( ) arg max ln ( | ) ln ( ); N k k pp p p K x BE ( | )() ˆ (| ) , (| ) (| ) ; ( | )() p p p E pd p pd K K KK K p pp d (| ) (|)(| ) . x x K K 18 讨论:参数估计中的模型选择 实际工作中处理的大都是高维数据:d≥10。 统计学中经典的多元(高维)分布很少,研究的 最详尽的是多元正态分布。 近几十年的研究发现,实际所处理的高维数据几 乎都不服从正态分布。 通过增加模型的复杂程度(参数的个数),如正 态模型的线性组合—高斯混合模型,试图“逼近” 真实的分布,出现了过拟合问题
非参数估计 概率密度函数的估计方法分类 口非参数估计:密度函数的形式未知,也不作假 设,利用训练数据直接对概率密度进行估计。又 Density Estimation 称作模型无关方法。 ■参数估计需要事先假定一种分布函数,利用样本 metric 数据估计其参数。又称作基于模型的方法。 Semi-parametric ■任何非参数估计方法都需要选择平滑参数。 口主要方法: ■直方图法 ■核函数方法(Parzen窗法) ■K。~近邻法 21 直方图法 直方图法 口最简单的非参数概率密度估计方法。 口平滑参数:小窗个数/尺寸(bin size) 口基本思路:P(x)是p()的一个离散近似。 M=3 P(x) M=20 p(x) p(x). ·把观测向量x的每个分量分成k个等间隔小窗 (bin):xEE,则形成个小舱; ■统计落入各个小舱内的样本数 Oversmoothing H0=1xeB).i=1.2.….m M=10 =50 p(x) ■正规化 D H(i) P()-HU) “Overfitting 2 直方图法 非参数估计的基本方法 口优点 口问题:已知样本集K={x,x2,xn},其中的样 ■计算快速、直观易理解; 本均从服从(x)的总体中独立抽取,估计样本 ■直方图一旦建好,即不再需要训练数据: 空间中任何一点的概率密度Px),以近似)。 ■只保留与直方图小舱的位置和大小相关的信息: ■可顺序建立直方图,即每次考虑一个数据后丢弃。 口基本思路:用某种核函数表示某一样本对待估计 口缺点 的密度函数的贡献,所有样本所作贡献的线性组 ■估计的概率密度不平滑,在小舱边界不连续; 合(函数之和)视作对某点概率密度(x)的估计 ■对小窗个数/尺寸非常敏感; ■在高维空间的推广性不好(数据稀疏)。 )=p(x- o改进:Data-adaptive histogram,naive Bayes,Dependence trees
19 非参数估计 非参数估计:密度函数的形式未知,也不作假 设,利用训练数据直接对概率密度进行估计。又 称作模型无关方法。 参数估计需要事先假定一种分布函数,利用样本 数据估计其参数。又称作基于模型的方法。 任何非参数估计方法都需要选择平滑参数。 主要方法: 直方图法 核函数方法(Parzen窗法) kn-近邻法 20 概率密度函数的估计方法分类 21 直方图法 最简单的非参数概率密度估计方法。 基本思路: 是 的一个离散近似。 把观测向量 x 的每个分量分成 k 个等间隔小窗 (bin);x∈Ed,则形成 kd 个小舱; 统计落入各个小舱内的样本数 正规化 ( ) ˆ P x p( ) x 22 直方图法 平滑参数:小窗个数/尺寸(bin size) 23 直方图法 优点 计算快速、直观易理解; 直方图一旦建好,即不再需要训练数据; 只保留与直方图小舱的位置和大小相关的信息; 可顺序建立直方图,即每次考虑一个数据后丢弃。 缺点 估计的概率密度不平滑,在小舱边界不连续; 对小窗个数/尺寸非常敏感; 在高维空间的推广性不好(数据稀疏)。 改进:Data-adaptive histogram,naive Bayes,Dependence trees… 24 非参数估计的基本方法 问题:已知样本集 K= {x1, x2,…, xn},其中的样 本均从服从 的总体中独立抽取,估计样本 空间中任何一点的概率密度 ,以近似 。 基本思路:用某种核函数表示某一样本对待估计 的密度函数的贡献,所有样本所作贡献的线性组 合(函数之和)视作对某点概率密度p(x)的估计。 ( ) ˆ P x p( ) x p( ) x 1 ˆ ( ) ( ). n N i i p x xx
非参数估计的基本方法 非参数估计的基本方法 B) 口基本事实:一个向量x落在区域R中的概率为 P=「p(x')d →可以通过估计概率P来估计概率密度函数P。 图3.3非参数结计的基本思贴 口如根据p(x)抽取n个独立同分布的样本,则有 nl P(k)KI()(1-P)--B(n.P) ■P:样本x落入区域R的概率; ■P:n个样本中有k个落入区域R的概率: ■B(np吵:k的二项分布。 图34每个样本的货献随距离变化的非参数估计 非参数估计的基本方法 非参数估计的基本方法 口B(n,p)的均值和方差 口当n一∞时,n的分布逼近δ函数 Mean: r=Ek)=nP→P=Ek/m →P 2 Approximation I Variance: relative a2=E(k-)月=nP(1-P) En-明-爱A,A ■E例(即落入R中点的比例的期望)是P的一 个很好的估计; ■样本个数n非常大时估计将非常准确(方差消 失); P=0.7 非参数估计的基本方法 非参数估计的基本方法 口假设:p(x)是连续的,并且区域R足够小,以 至于区间中p几乎没有变化,则有 P()=1n P=p(x)dx'=p(x)V,Approximation2 口讨论:上述近似基于矛盾的假设 其中,V是区域R所包含的体积。 ■区域R相对较大;即区域中包含很多的样本从 D(x) 而使得P的估计分布有非常显著的波峰。 综合两个近似: Approximation 1 p(x)=kin ■区域R相对较小,使得x)在积分区域内几乎 没有变化。 Approximation 2
25 非参数估计的基本方法 26 非参数估计的基本方法 基本事实:一个向量 x 落在区域 R 中的概率为 可以通过估计概率 P 来估计概率密度函数 p。 如根据 p(x) 抽取 n 个独立同分布的样本,则有 P:样本 x 落入区域 R 的概率; P(k):n 个样本中有 k 个落入区域 R 的概率; B(n, p):k 的二项分布。 27 非参数估计的基本方法 B(n, p) 的均值和方差 E[k/n] (即落入 R 中点的比例的期望)是 P 的一 个很好的估计; 样本个数 n 非常大时估计将非常准确(方差消 失); 28 非参数估计的基本方法 当n→∞时,k/n 的分布逼近δ函数 Approximation 1 29 非参数估计的基本方法 假设:p(x) 是连续的,并且区域 R 足够小,以 至于区间中 p 几乎没有变化,则有 其中,V 是区域 R 所包含的体积。 P p dx p V ( ') ' ( ) , x x R Approximation 2 / ( ) k n p V x 综合两个近似: 30 非参数估计的基本方法 讨论:上述近似基于矛盾的假设 区域 R 相对较大;即区域中包含很多的样本从 而使得 P 的估计分布有非常显著的波峰。 Approximation 1 区域 R 相对较小,使得 p(x) 在积分区域内几乎 没有变化。 Approximation 2 / ( ) k n p V x
非参数估计的基本方法 非参数估计的基本方法 口讨论:1n总是px)的空间平滑后的结果. 口理论讨论:假设可获得无限多的训练样本,如何 估计点x处的概率密度函数? ■如果希望得到px,须要求V趋近于零。 ■构造一系列包含x,点的区域R1,R2,,R )区域R中可能不包含任何样本,即px)=0。 ■第一个区域用1个样本,第二个区域用2个样本. ■设Vn为区域Rn的体积,kn为落在区间Rn中的 ■实际上,训练样本的个数n总是有限的,V不能 样本个数。 取得任意小。 ■对p(x)的第n次估计为 →k总是有一定的变动,概率密度函数p(x)总 是存在一定程度的平滑效果。 p()=←/n 非参数估计的基本方法 非参数估计的基本方法 口P(x)收敛于px)的三个必要条件 口示例:Parzen?窗法和kN近邻法 m.=0 一Approximation2 We are estimating density at center of square limk =oo -Approximation I mkn0-to allow p()to converge 口给定n个训练样本,如何估计p(x)?(即如何获 得满足三个必要条件的区域序列) ■核函数法(Parzen窗法):根据某个确定的体积 函数来逐渐收缩一个给定的初始区间。 ■kw一近邻法:确定km为n的某个函数,逐渐生长 体积,直到最后能包含进x的k个相邻点。 C⊙ Parzen窗法 Parzen窗法 口假设区域Rn是一个中心位于估计点x,棱长为 口落入超立方体R内的样本数 hn的d维超立方体,其体积为 equals I if x falls within } hypercube centered at x Va=hd 口定义窗函数 口Parzen宙估计 )j=1..d 10 otherwise ■是一系列关于x和x的函数的叠加; ■(u)表示一个中心在原点的单位超立方体。 即一种内插过程:每一个样本对估计所起的作用 依赖于它到x的距离
31 非参数估计的基本方法 讨论: 总是 p(x) 的空间平滑后的结果。 如果希望得到 p(x),须要求 V 趋近于零。 区域 R 中可能不包含任何样本,即 p(x) = 0。 实际上,训练样本的个数 n 总是有限的,V 不能 取得任意小。 k/n 总是有一定的变动,概率密度函数 p(x) 总 是存在一定程度的平滑效果。 k n/ V 32 非参数估计的基本方法 理论讨论:假设可获得无限多的训练样本,如何 估计点 x 处的概率密度函数? 构造一系列包含 x 点的区域 R1,R2,…,Rn。 第一个区域用1个样本,第二个区域用2个样本… 设 Vn 为区域 Rn 的体积,kn 为落在区间 Rn 中的 样本个数。 对 p(x) 的第 n 次估计为 / () . n n n k n p V x 33 非参数估计的基本方法 pn(x) 收敛于 p(x) 的三个必要条件 给定 n 个训练样本,如何估计 p(x)?(即如何获 得满足三个必要条件的区域序列) 核函数法(Parzen窗法):根据某个确定的体积 函数来逐渐收缩一个给定的初始区间。 kN-近邻法:确定 kn 为 n 的某个函数,逐渐生长 体积,直到最后能包含进 x 的 kn 个相邻点。 lim 0 lim lim / 0 n n n n n n V k k n — Approximation 2 — Approximation 1 — to allow to allow pn(x) to converge 34 非参数估计的基本方法 示例:Parzen窗法和kN-近邻法 35 Parzen窗法 假设区域 Rn是一个中心位于估计点 x,棱长为 hn 的 d 维超立方体,其体积为 定义窗函数 表示一个中心在原点的单位超立方体。 n d V h n j 1 1 u j 1,... , d ( ) 2 0 otherwise u (u) 36 落入超立方体 Rn内的样本数 Parzen窗估计 是一系列关于 x 和 xi 的函数的叠加; 即一种内插过程:每一个样本对估计所起的作用 依赖于它到 x 的距离。 Parzen窗法 1 n i n i n k h x x equals 1 if equals 1 if xi falls within hypercube centered at centered at x
Par忆en窗法 Par忆en窗法 口Parzen窗估计pm(x)为合理的密度函数(值非负 口常用窗函数 且积分为1)的条件是窗函数本身是合法的密度 ■方窗 函数,即 pu)≥0 ∫p(u)d恤=上 ■正态窗: Ja可2h ■指数窗: p(0)=exp(-|ul) f1-if us1 之位h-2咖t ■三角窗: o(u)= 0 otherwise ■超球窗: p(u)= J1if叫sI ■窗函数可有更一般的形式,不限于超立方体函数。 0 otherwise Parzen窗法 Parzen窗法 口窗宽hn的衫响 口宙宽hn的衫响 ■定义函数及重写p(x) ■n是平滑参数,需优化,根据样本的数量选择。 n.=2a- n ■V。=h,hn会影响δn(x)的宽度和强度 口如h很大,δn的强度很低,而且距离点x远近 不同的样本的δ相差不大。P)是n个宽度较 大且变化缓慢的函数的叠加,故是一个非常平滑 低分辨力的估计。 口如h很小,则6(-x的峰值很大。Pa()是n个 以样本点为中心的尖脉冲的叠加,统计变动很 大,即是一个充满噪声的估计 41 42 Parzen窗法 Parzen窗法 Contributions of samples clearly observable 口Parzen估计量的统计性质 口例1:p(x)和p(四)均是正态分布 ■P(x)是渐进无偏和平方误差一致估计的限制条件: xx-x 口p)在x点连续; p(u)20 px)-N(0,1) ∫p(u)du=l 口窗函数满足下列条件: supp(u)<四 )-1 me(u0. hn=h1N厉 口窗宽约束: p(x)= limV=0. lim ny,=o. 个 果
37 Parzen窗法 Parzen窗估计 pn(x) 为合理的密度函数(值非负 且积分为1)的条件是窗函数本身是合法的密度 函数,即 窗函数可有更一般的形式,不限于超立方体函数。 1 1 1 1 1 ( ) 11 1 ( ) 1. n i n i n n n n i i i n n pd d nV h d d nV h n x x xx x x x x uu ( ) 0; ( ) 1; d u uu 38 Parzen窗法 常用窗函数 方窗 正态窗: 指数窗: 三角窗: 超球窗: 1 1 2 ( ) exp ~ (0,1) 2 2 u uN ( ) exp | | u u 1 if 1 ( ) 0 otherwise u u 1 if 1 ( ) 0 otherwise u u u 39 Parzen窗法 窗宽 hn的影响 定义函数及重写 pn(x) hn 会影响δn(x)的宽度和强度 如 hn很大,δn 的强度很低,而且距离点 x 远近 不同的样本的δn 相差不大。pn(x) 是 n 个宽度较 大且变化缓慢的函数的叠加,故是一个非常平滑、 低分辨力的估计。 如 hn很小,则δn(x-xi) 的峰值很大。pn(x) 是 n 个 以样本点为中心的尖脉冲的叠加,统计变动很 大,即是一个充满噪声的估计。 1 () ; n V h n n x x 1 1 () ; n n ni i p n x xx n , d V h n 40 Parzen窗法 窗宽 hn的影响 hn 是平滑参数,需优化,根据样本的数量选择。 41 Parzen窗法 Parzen 估计量的统计性质 pn(x)是渐进无偏和平方误差一致估计的限制条件: p(x) 在 x 点连续; 窗函数满足下列条件: 窗宽约束: || || 1 0; 1; sup ; lim 0; d i i d u u u u u u u u lim 0; lim . n n n n V nV 42 Parzen窗法 例1 :p(x) 和 均是正态分布 ( ) u 1 / n hh n px N ( ) ~ (0,1)
Par忆en窗法 Parzen窗法 口例2:(u)是正态分布 口例3:p(x)是一个均匀分布和一个三角形分布 的混合分布,(u)是正态分布 hm0.2 (b) h=0.0g 4 lk A h=0.01 AA Ms MN AL △M △M A Parzen窗法 Parzen窗法 口讨论 口讨论 ■基于Parzen窗估计的分类器中,我们对每一个类 ■通用性:不需了解分布的形式都能够估计,且只 别都独立的估计概率密度,且根据“最大后验概率” 要样本足够多,总可以得到可靠的收敛的结果。 (MAP)的原则进行分类。 ■局限性:时间消耗和存储器消耗惊人:有限样本 的影响一“维数灾难”:当维数较高时,样本数 Small h 量无法达到精确估计的要求, is better in upper (curse of diemensionality) n d nd+4) region. 16 1 0.1 32 2 0.1 Large h 178 5 0.1 in lower Region.- 3162 10 0.1 3E+13 50 0.1
43 Parzen窗法 例2 : 是正态分布 ( ) u 44 Parzen窗法 例3 : p(x) 是一个均匀分布和一个三角形分布 的混合分布, 是正态分布 ( ) u 45 Parzen窗法 讨论 基于Parzen窗估计的分类器中,我们对每一个类 别都独立的估计概率密度,且根据“最大后验概率” (MAP)的原则进行分类。 46 Parzen窗法 讨论 通用性:不需了解分布的形式都能够估计,且只 要样本足够多,总可以得到可靠的收敛的结果。 局限性:时间消耗和存储器消耗惊人;有限样本 的影响 — “维数灾难” :当维数较高时,样本数 量无法达到精确估计的要求。 (curse of diemensionality) 3162 10 0.1 3E+13 50 0.1 178 5 0.1 32 2 0.1 16 1 0.1 n-4/(d+4) n d