3.1极大似然 ·似然函数:关于统计模型中参数的函数,表示模型参数中的似然性(“似然 性“与”概率”意思相近) ·极大似然:最大可能 ·通常:已知条件结果;极大似然:已知结果→条件(估计值) ·已知样本A,未知参数B: P(A B)P(B) P(BA)= P(A) ·一般步骤: ①写出似然函数并取对数 ②求导数令其为0,得到似然方程 ③解似然方程,得到参数(估计值)
3.1 极大似然 • 似然函数:关于统计模型中参数的函数,表示模型参数中的似然性(“似然 性“与”概率”意思相近) • 极大似然:最大可能 • 通常:已知条件→结果;极大似然:已知结果→条件(估计值) • 已知样本A,未知参数B: • 一般步骤: ① 写出似然函数并取对数 ② 求导数令其为0,得到似然方程 ③ 解似然方程,得到参数(估计值)
3.2隐变量 ·举例:统计学生身高分布 ·样本:100个男生/女生的身高 ·假定:男生和女生身高分别服从相互的独立正态分布,其参数未知 ·已知样本身高的性别:简单的极大似然估计参数 ·未知样本身高的性别:参数估计困难;性别作为隐变量
3.2 隐变量 • 举例:统计学生身高分布 • 样本:100个男生/女生的身高 • 假定:男生和女生身高分别服从相互的独立正态分布,其参数未知 • 已知样本身高的性别:简单的极大似然估计参数 • 未知样本身高的性别:参数估计困难;性别作为隐变量
3.2隐变量 ·举例:抛硬币 ·两枚硬币A和B,其正面向上概率不同 硬币 结果 统计 A 正正反正反 3正-2反 B 反反正正反 2正-3反 A 正反反反反 1正-4反 B 正反反正正 3正-2反 A 反正正反反 2正-3反 ·极大似然可计算出两枚硬币正面向上的概率
3.2 隐变量 • 举例:抛硬币 • 两枚硬币A和B,其正面向上概率不同 • 极大似然可计算出两枚硬币正面向上的概率 硬币 结果 统计 A 正正反正反 3正-2反 B 反反正正反 2正-3反 A 正反反反反 1正-4反 B 正反反正正 3正-2反 A 反正正反反 2正-3反
3.2隐变量 ·举例:抛硬币 ·两枚硬币A和B,其正面向上概率不同 硬币 结果 统计 正正反正反 3正-2反 反反正正反 2正-3反 正反反反反 1正-4反 正反反正正 3正-2反 反正正反反 2正-3反 ·所抛的硬币作为隐变量
3.2 隐变量 • 举例:抛硬币 • 两枚硬币A和B,其正面向上概率不同 • 所抛的硬币作为隐变量 硬币 结果 统计 / 正正反正反 3正-2反 / 反反正正反 2正-3反 / 正反反反反 1正-4反 / 正反反正正 3正-2反 / 反正正反反 2正-3反
3.2隐变量 ·举例:抛硬币 ·假设PA=0.2,PB=0.7 轮数,结果 假如是A 假如是B 1,3正-2反 0.00512 0.03087 2,2正-3反 0.02048 0.01323 3,1正-4反 0.08192 0.00567 4,3正-2反 0.00512 0.03087 5,2正-3反 0.02048 0.01323 ·根据初始假设可估计出PA‘和PB
3.2 隐变量 • 举例:抛硬币 • 假设PA=0.2,PB=0.7 • 根据初始假设可估计出PA‘和PB’ 轮数,结果 假如是A 假如是B 1,3正-2反 0.00512 0.03087 2,2正-3反 0.02048 0.01323 3,1正-4反 0.08192 0.00567 4,3正-2反 0.00512 0.03087 5,2正-3反 0.02048 0.01323
3.3EM算法 ·主要思想: ①给日自主规定个初值 ②根据样本和当前参数日,求隐变量z的条件概率分布的期望 ③基于上式得到的z,根据极大似然估计求最优的日 ④重复第二步和第三步,直到收敛
3.3 EM算法 • 主要思想: ① 给θ自主规定个初值 ② 根据样本和当前参数θ,求隐变量z的条件概率分布的期望 ③ 基于上式得到的z,根据极大似然估计求最优的θ’ ④ 重复第二步和第三步,直到收敛
3.3EM算法 ·公式推导: ·似然函数: L()=L(,,x:0)=Πpx;),6e⊙. ·对数似然函数(求导困难,引入z):() =∑1ogp;) i-1 = ∑卫65n ·引入z后: ∑1ogpr0)=∑log∑p(x0,20:0) z() ∑1g∑Q.(e0Pe9,9:0 Q(z0) z( ∑ec9e89 ≥】
3.3 EM算法 • 公式推导: • 似然函数: • 对数似然函数(求导困难,引入z): • 引入z后:
3.3EM算法 ·Jensen:不等式:如果f是凸函数,X是随机变量,那么:E[fX)]>=f(E[X);X 是常量时,上式取等号 ·期望: ∑o[89鬥] ·根据]ensen不等式,可得: f(a (e普9])≥ar(9门 E可X】 f(b) fE 闪
3.3 EM算法 • Jensen不等式:如果f是凸函数,X是随机变量,那么:E[f(X)]>=f(E[X]);X 是常量时,上式取等号 • 期望: • 根据Jensen不等式,可得:
3.3EM算法 ·证明收敛(等号成立):X为常量 p(x0,20;0) Q(z0) 变换:∑px,0)=∑0(e)e,由于∑0(e)=1 可得:∑p(x,:)=c 可得: Qi(:)= p(x⊙,z0;0) ∑2p(r0,z) p(x@,z0:0) p(x;0の p(zz@:0) 结论:在固定参数后,使下界拉升的Q(z)的计算公式就是条件概率
3.3 EM算法 • 证明收敛(等号成立):X为常量 变换: ,由于 可得: 可得: 结论:在固定参数θ后,使下界拉升的Q(z)的计算公式就是条件概率 , ; i i i i z z p x z Q z c , ; i i z p x z c 1 i i z Q z
3.3EM算法 ·算法步骤: ①随机初始化分布参数日 ②循环E步和M步,直到收敛 (E步,求Q函数)第i次迭代,根据第i-1次迭代得的参数日计算隐变量 z的后验概率,作为隐变量z的现估计值: 隐变量z的(条件)期望等 Q:(z@)=p(z01x0;0) 于其条件概率。 (M步,求使Q函数获得极大时的参数日)将似然函数最大化以获得新 的参数日 0=arg mgx∑∑Q.(e)1og p(x0,20;0) Q(2z@)】 i z(i)
3.3 EM算法 • 算法步骤: ① 随机初始化分布参数θ ② 循环E步和M步,直到收敛 (E步,求Q函数)第i次迭代,根据第i-1次迭代得的参数θ计算隐变量 z的后验概率,作为隐变量z的现估计值: (M步,求使Q函数获得极大时的参数θ )将似然函数最大化以获得新 的参数θ 隐变量z的(条件)期望等 于其条件概率