2010/10/14 最小风险估计 第三章 口损失函数:把日估计为日所造成的损失:(,) 概率密度函数的估计 口期望风险: R=S.0)p(x0ds -Jppxdods 2010-10-13 =jp。a6,o)p01xd6h R()p(xds. 口条件风险: R0I)=。26,p01xao 最小风险估计 最小风险估计 口最小化条件风险→最小化期望风险。 口定义平方误差损失函数(0,)=(日-} 口在有限样本集下,最小化经验风险 R(x)=0p(o1xdo R(K)=(.0)p(01K0. =[0-E(01x)p(01x)de+[E(01x)-OFp(01x)de. 口定理:如采用平方损失函数,则有 口贝叶斯估计量:(在样本集K下)是条件风险 (经验风险)最小的估计量ae,即 Oue=ET01x]=0p(01x)de. OuE=argmin R(K). 口同理,在给定样本集K下,日的贝叶斯估计为 ie=E[01K]=j。0p(01K)d0: 最小风险估计的求解步骤 一元正态分布的贝叶斯估计 1.确定0的先验分布p: 口总体分布密度为: 2.由样本集K={x,x2,,xW}求出其联合分布: p(xl4)~N(4,o2)i K19)=门p,I 口均值山未知,u的先验分布为: 3.计算0的后验分布 pl)~N(4,oi} peIK)= p(K10)p(0) ep(K10)p(0)de' 口样本集:K={化,x2,,xN} 4.计算贝叶斯估计 d-p(01 Kdo. 口用贝叶斯估计方法求μ的估计量 1
2010/10/14 1 第三章 概率密度函数的估计 2010-10-13 2 最小风险估计 损失函数:把 θ 估计为 所造成的损失: 期望风险: 条件风险: ˆ , ) ˆ ( ˆ (, ) (, ) ˆ (, ) ( | )() ˆ () (, ) ( | ) ˆ ( | ) () ; d d d d E E E E R p dd p p dd p p dd R pd x x xx x x xx x xx ˆ ˆ R( | ) (,)( | ) . p d x x 3 最小风险估计 最小化条件风险 最小化期望风险 。 在有限样本集下,最小化经验风险 贝叶斯估计量:(在样本集 K 下)是条件风险 (经验风险)最小的估计量 ,即 ˆ ˆ R( | ) (,)( | ) . p d K K BE ˆ BE ˆ ˆ ˆ arg min ( | ). R K 4 最小风险估计 定义平方误差损失函数 定理:如采用平方损失函数,则有 同理,在给定样本集 K 下,θ 的贝叶斯估计为 2 2 ˆ ˆ ( | ) (,)( | ) ˆ [ ( | )] ( | ) [ ( | ) ] ( | ) ; R pd E pd E pd x x xx x x 2 ˆ ˆ ( , ) ( ). BE ˆ E[|] (|) ; p d x x B E ˆ E [| ] (| ) ; p d K K 5 最小风险估计的求解步骤 1. 确定 θ 的先验分布 p(θ); 2. 由样本集 K={x1, x2 ,…, xN} 求出其联合分布: 3. 计算 θ 的后验分布 4. 计算贝叶斯估计 1 ( | ) ( | ); N k k p p K x ( | )() (| ) ; ( | )() p p p p pd K K K BE ˆ p d (| ) . K 6 一元正态分布的贝叶斯估计 总体分布密度为: 均值 μ 未知,μ 的先验分布为: 样本集: K={x1, x2 ,…, xN} 用贝叶斯估计方法求 μ 的估计量 2 px N ( | ) ~ ( , ); 2 0 0 p N ( ) ~ ( , );
2010/10/14 元正态分布的贝叶斯估计 一元正态分布的贝叶斯估计 口计算μ的后验分布 口计算μ的贝叶斯估计 pulK)=PKI四p i=「p(ulK)du=4w p(K) -ap(x p()-N() ■当N=0时,产e=4o: a当N→∞时,户E→mw Nag My = Nata mNaa 6o2 ■如o6=0,则户e三4,即先验知识可靠,样本 Nag+a 不起作用。 牌安名为木监 ■如gn>g,则产e=mv;即先验知识十分不确 定,完全依靠样本信息。 10 基本思想 口利用日的先验分布p0)及训练样本提供的信息 pK0),求0的后验分布p0K):然后直接求解 贝叶斯学习 总体分布。 px|K)=∫px,01K)d0 p(x10)p(0IK)de. ■将类条件概率密度(总体分布)p(x和未知参 数的后验概率密度p(0K)联系起来: ■贝叶斯学习的结果与最大似然估计的结果近似: px|K)≈px0) 2 递推(序贯)后验概率 递推贝叶斯学习 口考虑N>1个学习样本,记样本集={xp,xw 口设p|K)=p(0),当样本数目增多,可得到后 p(K10)=p(xx10)p(K10), 验概率密度函数序列: p(0|K)= p(K 10)p(0) p0),p(0|xbp(01x,2… (K10)p()do 口如果此序列收敛予以真实数值为中心的δ函数, pxvI0)pK-IpO)a点 则称样本分布具有贝叶斯学习(Bayesian Learning) 性质: 1)p()p(do p(01Kw→)=60-0)方 p(xx 10)p(01KN-) 。pwl0)p01K-)de p|KN)=p(x6=0。)=px). 2
2010/10/14 2 7 一元正态分布的贝叶斯估计 计算 μ 的后验分布 2 1 ( | )() (| ) ( ) ( | ) ( )~ ( , ) N k NN k p p p p px p N K K K 2 22 2 0 0 2 22 22 22 0 00 0 1 , 1 ; NN N N N k k N m NN N m N x ; 其中 为样本均值 8 一元正态分布的贝叶斯估计 计算 μ 的贝叶斯估计 当 N=0 时, 当 N→∞时, 如 ,则 即先验知识可靠,样本 不起作用。 如 ,则 即先验知识十分不确 定,完全依靠样本信息。 ˆ (| ) ; N p d K ˆ ; BE 0 ˆ ; BE N m 0 2 0 0 ˆ ; BE n ˆ ; BE N m 贝叶斯学习 10 基本思想 利用 θ 的先验分布 p(θ) 及训练样本提供的信息 p(K|θ),求 θ 的后验分布 p(θ|K);然后直接求解 总体分布。 将类条件概率密度(总体分布)p(x|K) 和未知参 数的后验概率密度 p(θ|K) 联系起来; 贝叶斯学习的结果与最大似然估计的结果近似: ML ˆ p p ( | ) ( | ). x x K θ ( | ) (, | ) (|)(| ) ; p pd pp d x x θ θ x θθ θ Κ K K 11 递推(序贯)后验概率 考虑N > 1个学习样本,记样本集 KN={x1,…, xN}; 1 1 1 1 1 ( ) 1 1 ( ) 1 1 ( | ) ( | ) ( | ), ( | ) () (| ) ( | ) () ( | ) ( | ) () ( | ) ( | ) () ( |)(| ) . ( |)(| ) N N N N N N N N N N p N N p N N N N p pp p p p p pd pp p p p pd p p pp d θ x θ θ θ θ θ θ θθ x θ θθ x θ θ θθ x θ θ x θθ θ K K K K K K K K K K K 12 递推贝叶斯学习 设 ,当样本数目增多,可得到后 验概率密度函数序列: 如果此序列收敛予以真实数值为中心的δ函数, 则称样本分布具有贝叶斯学习(Bayesian Learning) 性质: 0 p p ( | ) () θ θ K 1 12 pp p ( ), ( | ), ( | , ), θ θ x θ x x 0 ( | ) ( ); N p θ θθ K 0 ˆ ( | ) ( | ) ( ). N ppp x x K θ θ x
2010/10/14 14 元正态分布的贝叶斯学习 元正态分布的贝叶斯学习 口计算4的后验分布 p) p(u1K*)=2(K"IL)p() P(Kx) 30 =adp(xlu)pW)N(4w,方 Nag w= Nag+oy+ Nag+a lo,ay=- dia2 au+ai 1 其中m一示会1,为样本均值 当N→o时,σ→0,p叫K)→8函数。 2 15 元正态分布的贝叶斯学习 口直接计算总体密度: px|K)=「p(xl)p(ulK)du 非监督参数估计 1 简介最大似然法 ~N(4w,o2+o). 均值4x 方差由σ2增为σ2+σ 一·由于用了!的估计值而不确定性增加 假设条件 似然函数 1.样本集K=x,,xN中的样本分属于c个类别, 口混合密度函数:分量密度的线性组合 但未知各样本所属类别: px10)=2px1a,8)P@) 分量密度混合参数 2.己知各类先验概率P@,),=1,,c:(有时也 可未知,一起估计) 口似然函数和对数似然函数: 3.已知类条件概率密度形式p@,),l,,C, 1(O=p(KI0=Πpx) 4.需估计未知的c个参数向量002,0。 HO=nlo=立np(x,a0 3
2010/10/14 3 13 一元正态分布的贝叶斯学习 2 1 ( | )() (| ) ( ) ( | ) ( ) ~ ( , ); N N N N k NN k p p p p px p N K K K 2 22 2 0 0 2 22 22 22 0 00 0 1 , 1 ; NN N N N k k N m NN N m N x ; 其中 为样本均值 计算 μ 的后验分布 2 N 0 N 当 时, , ( | ) 函数。 p K 14 一元正态分布的贝叶斯学习 15 一元正态分布的贝叶斯学习 直接计算总体密度: 2 22 22 2 2 (| ) (| )( | ) 1 1 exp 2 2 ~ ( , ). N N N N N N N px px p d x N K K 非监督参数估计 简介最大似然法 假设条件 1. 样本集 K={x1,…, xN}中的样本分属于c个类别, 但未知各样本所属类别; 2. 已知各类先验概率 P(ωi ),i=1, …, c;(有时也 可未知,一起估计) 3. 已知类条件概率密度形式 p(x|ωi ,θi ), i=1, …, c; 4. 需估计未知的 c 个参数向量 θ1, θ2,…, θc。 17 似然函数 混合密度函数:分量密度的线性组合 似然函数和对数似然函数: 18 分量密度 混合参数
2010/10/14 20 最大似然估计 最大似然估计 口计算问题:求解微分方程组 日-=agma】 rIo-eg立np6lo v,H@=2 p(x:lo.0,)P(o) 口可识别性 ■设0≠,如对混合分布中每个x都有px0≠ -产.lr..】 (设0.0独立) pa的,则称密度p0是可识别的: ■大部分常见连续随机变量的分布密度函数都是可 =∑P@,lx,0,)In p(o,8) 识别的:离散随机变量的混合概率函数往往是不 可识别的。 其中后验概率 P(o,x0)=P(x:lo0)P() p(x|) 22 正态分布的非监督最大似然估计 参数估计总结 口均值向量4,未知,,P(@),c已知 口最大似然估计 ■最大似然估计满足方程组 么=K 10)=gnpI,1o p(=0.i=1 口·最大后验概率估计 iw-agrIoAO-g时2nAIo+hnO, 代入正态分布 口贝叶斯估计 Pa5,AUO,kA p0|K)= p(K10)p0) ∑P(@x4A+D=包 p(K10)p(o)do .0E=E(01K)=op(o1Kyo. P(olx,,U》@,x,i) 口贝叶斯学习 p(xK)=[p(x10)p(1K)do. 4
2010/10/14 4 最大似然估计 可识别性 设 θ≠θ’,如对混合分布中每个 x 都有 p(x|θ) ≠ p(x|θ’),则称密度 p(x|θ) 是可识别的; 大部分常见连续随机变量的分布密度函数都是可 识别的;离散随机变量的混合概率函数往往是不 可识别的。 19 1 1 ˆ arg max ( | ) arg max ln ( | ); N N k k k k px px 最大似然估计 计算问题:求解微分方程组 20 正态分布的非监督最大似然估计 均值向量 μi 未知,Σi ,P(ωi ),c 已知 最大似然估计满足方程组 代入正态分布 21 22 参数估计总结 最大似然估计 最大后验概率估计 贝叶斯估计 贝叶斯学习 ML 1 ˆ arg max ( | ) arg max ( | ); N k k p p K x MAP 1 ˆ arg max ( | ) ( ) arg max ln ( | ) ln ( ); N k k pp p p K x BE ( | )() ˆ (| ) , (| ) (| ) ; ( | )() p p p E pd p pd K K KK K p pp d (| ) (|)(| ) . x x K K