统计学习理论及应用 第八讲 数据表示-含参模型 编写:文泉、陈娟 电子科技大学 计机科学与工程学院
统计学习理论及应用 第八讲 数据表示-含参模型 编写:文泉、陈娟 电子科技大学 计算机科学与工程学院
目录 ·例2 概率密度估计 最大后验概率估计 2 最大似然估计 ·例3 。例1 贝叶斯估计 ·均值和方差的无偏与有 偏估计 。例4 ·什么是高斯分布ML的 期望最大化EM 全局最优? ●EM在高斯混合模型中 ·二元函数局部最优条件 的应用 1/56
目录 1 概率密度估计 2 最大似然估计 例 1 均值和方差的无偏与有 偏估计 什么是高斯分布 ML 的 全局最优? 二元函数局部最优条件 例 2 3 最大后验概率估计 例 3 4 贝叶斯估计 例 4 5 期望最大化 EM EM 在高斯混合模型中 的应用 1 / 56
8.1.概率密度估计(Density Estimation) 一些基本概念 Density estimation:estimating the probability density function p(x)based on a given set of training samples D={x1,x2,,Xw}. Estimated density:denoted by p(x). Training samples are i.i.d.and distributed according to p(x): Parametric estimation:parameter vector 0 of p(x; Non-parametric estimation:a function p:F->R O Finite number of training samples meaning that there will be some errors in the function (density)estimation 2/56
8.1. 概率密度估计 (Density Estimation) 一些基本概念 1 Density estimation: estimating the probability density function p(x) based on a given set of training samples D = {x1, x2, ..., xN}. 2 Estimated density: denoted by pˆ(x). 3 Training samples are i.i.d. and distributed according to p(x). 4 Parametric estimation: parameter vector θ of p(x; θ) 5 Non-parametric estimation: a function p : F −→ R 6 Finite number of training samples meaning that there will be some errors in the function (density) estimation. 2 / 56
含参模型估计概率是已知总体分布形式(即函数形式) 但实际情况,我们对分布其实是一无所知的,不含参模 型可以应用于任何概率分布的场合,无需假定概率分布的 形式是已知。 3/56
含参模型估计概率是已知总体分布形式 (即函数形式) 但实际情况,我们对分布其实是一无所知的,不含参模 型可以应用于任何概率分布的场合,无需假定概率分布的 形式是已知。 3 / 56
8.2.最大似然估计Maximun Likelihood 给定一个M类(w1,w2,,w)的分类任务和一个用特征向 量x表示的样本,生成M个条件概率P(w,x),其中: p(wix)=e(xhp( p(x), px)=∑pxhw,lpw,) 如果: p(wlx)>p(wlx),≠i 则x属于w,类。称为贝叶斯决策(Bayes Decision Rule)。 它强调了后验概率。 4/56
8.2. 最大似然估计 Maximun Likelihood 给定一个 M 类 (w1,w2, ..., wM) 的分类任务和一个用特征向 量 x表示的样本,生成 M 个条件概率 P(wi |x), 其中: p(wi |x) = p(x|wi)p(wi) p(x) , p(x) = P M i=1 p(x|wi)p(wi) 如果: p(wi |x) > p(wj |x), ∀j ̸= i 则 x 属于 wi 类。称为贝叶斯决策(Bayes Decision Rule)。 它强调了后验概率。 4 / 56
设x1,x2,,xw是从概率密度函数P(x;)中抽取的样本, X={x1,2,,xw},假定样本之间具有统计独立性,则 p(X9)=p(x1,x2,,xw;0)=Π=p(xk;) 是关于0的似然函数。用最大似然法估计参数9: 0Mu=arg maxΠ1p(xk;). 即使得 ∂I=1p(xk; 2=0 08 5/56
设 x1, x2, ..., xN 是从概率密度函数 P(x; θ) 中抽取的样本, X = {x1, x2, ..., xN} ,假定样本之间具有统计独立性,则: p(X; θ) = p(x1, x2, ..., xN; θ) = ΠN k=1p(xk ; θ) 是关于 θ 的似然函数。用最大似然法估计参数 θ: ˆθML = arg max θ Π N k=1 p(xk ; θ). 即使得 ∂ΠN k=1 p(xk ; θ) ∂θ = 0 5 / 56
利用对数函数的单调性,定义对数似然函数为: L(e)=lnΠ1p(xk;) 则上式等价于: OIIp(xx:0) aL( 2= 1 p(xx;0) 00 :) 00 以上解可能为全局或局部的最大或最小,或者是鞍部,有 时需要进一步确认。 6/56
利用对数函数的单调性,定义对数似然函数为: L(θ) = ln Π N k=1p(xk ; θ) 则上式等价于: ∂ΠN k=1p(xk ; θ) ∂θ = 0 ⇔ ∂L(θ) ∂θ = X N k=1 1 p(xk ; θ) ∂p(xk ; θ) ∂θ = 0 以上解可能为全局或局部的最大或最小,或者是鞍部,有 时需要进一步确认。 6 / 56
8.2.1.例1 例1:假设均值μ和方差σ2未知的一维高斯概率密度函数, 生成N个样本点x1,x2,,w,求出均值,方差的最大似然 估计。 对数似然函数定义为: 的=nae的=n2am(吗 或: u=-2-2aa- 7/56
8.2.1. 例 1 例 1:假设均值 µ 和方差 σ 2 未知的一维高斯概率密度函数, 生成 N 个样本点 x1, x2, ..., xN,求出均值,方差的最大似然 估计。 对数似然函数定义为: L(µ, σ2 ) = lnY N k=1 p(xk ; µ, σ2 ) = lnY N k=1 1 √ 2π √ σ 2 exp(− (xk − µ) 2 2σ 2 ) 或: L(µ, σ2 ) = − N 2 ln(2πσ2 ) − 1 2σ 2 X N k=1 (xk − µ) 2 7 / 56
)对“求导,并令导数为0,可得:立=官 (2)对σ2求导,可得解: N 0+-=0 可以得到: 品-∑- 8/56
(1) 对 µ 求导,并令导数为 0,可得:µˆ = 1 N P N k=1 xk (2) 对 σ 2 求导, 可得解: − N 2σ 2 + 1 2σ 4 X N k=1 (xk − µ) 2 = 0 可以得到: σˆ 2 ML = 1 N X N k=1 (xk − µˆ) 2 8 / 56
8.2.2.均值和方差的无偏与有偏估计 对于有限的N来讲, (1)上面的均值估计是均值的无偏估计: (2)上面的方差估计是方差的有偏估计: =呢∑-明]=∑-的-",2 当N值很大的时候:(1一)o2≈σ2 9/56
8.2.2. 均值和方差的无偏与有偏估计 对于有限的 N 来讲, (1) 上面的均值估计是均值的无偏估计: E[ˆµ] = E " 1 N X N k=1 xk # = 1 N X N k=1 E [xk ] = µ (2) 上面的方差估计是方差的有偏估计: E[ˆσ 2 ML] = E[ 1 N X N k=1 (xk − µˆ) 2 ] = 1 N X N k=1 E[(xk − µˆ) 2 ] = N − 1 N σ 2 当 N 值很大的时候:(1 − 1 N )σ 2 ≈ σ 2 9 / 56