ch03.参数估计 最大似然估计&贝叶斯估计
Ch 03. 参数估计 最大似然估计 & 贝叶斯估计
Part1最大似然估计
Part 1 最大似然估计
模式分类的途径 途径1:估计类条件概率密度px|o) ·通过px)和P(ω),利用贝叶斯规则计算后验概率P(o|x),然后 通过最大后验概率做出决策 ·两种方法 方法1a:概率密度参数估计 基于对p(X∞)的含参数的描述 方法1b:概率密度非参数估计 基于对p(X|a)的非参数的描述 途径2:直接佔计后验概率P(o|x) 不需要先估计p(x1o) 途径3:直接计算判别函数 ·不需要估计p(x|o)或者P(a1|x)
模式分类的途径 • 途径1:估计类条件概率密度 • 通过 和 ,利用贝叶斯规则计算后验概率 ,然后 通过最大后验概率做出决策 • 两种方法 • 方法1a:概率密度参数估计 基于对 的含参数的描述 • 方法1b:概率密度非参数估计 基于对 的非参数的描述 • 途径2:直接估计后验概率 • 不需要先估计 • 途径3:直接计算判别函数 • 不需要估计 或者
概率密度函数估计与参数估计 参数估计基于对px用已知函数形式的参数化表 小 ·估计未知概率密度函数p(xω的问题被简化为估计 已知函数形式中的未知参数 p(x|)中的所有未知参数可以写成向量形式,称为 参数向量,含有未知参数的概率密度函数p(x|a) 可以表示为p(x|a,8) 斯密度函数中的参数向量 81=(p,2)
概率密度函数估计与参数估计 • 参数估计基于对 用已知函数形式的参数化表 示 • 估计未知概率密度函数 的问题被简化为估计 已知函数形式中的未知参数 • 中的所有未知参数可以写成向量形式,称为 参数向量 ,含有未知参数的概率密度函数 可以表示为 • 高斯密度函数中的参数向量
贝叶斯决策中的参数估计 ·贝叶斯决策为最优决策(最小总风险、最小误差 概率) ·前提条件 已知先验概率P(a) ·已知类条件概率密度p(X|O) 不幸的是 ·多数情况下,先验概率和类条件概率密度未知 我们可利用的 ·有关模式识别问题的一些模糊而笼统的知识 些设计样本(训练样本),构成待分类的模式的一个 特定的子集,作为该模式的代表
贝叶斯决策中的参数估计 • 贝叶斯决策为最优决策(最小总风险、最小误差 概率) • 前提条件 • 已知先验概率 • 已知类条件概率密度 • 不幸的是…… • 多数情况下,先验概率和类条件概率密度未知 • 我们可利用的…… • 有关模式识别问题的一些模糊而笼统的知识 • 一些设计样本(训练样本),构成待分类的模式的一个 特定的子集,作为该模式的代表 ( ) P i ( | )i p x
贝叶斯决策中的参数估计 解决方案 ·假设类条件概率密度为某种含参数的概率密度分布函数 ,通过训练数据来估计该函数中未知的参数 ·将参数估计后的概率密度函数作为类条件概率密度,利 用贝叶斯决策进行分类 ·有监督学习 ·训练集中每个样本的真实类别已知
贝叶斯决策中的参数估计 • 解决方案 • 假设类条件概率密度为某种含参数的概率密度分布函数 ,通过训练数据来估计该函数中未知的参数 • 将参数估计后的概率密度函数作为类条件概率密度,利 用贝叶斯决策进行分类 • 有监督学习 • 训练集中每个样本的真实类别已知
参数估计方法 ·最大似然估计(ML估计) ·假设 将待估计的参数看作确定的量,只是值未知 ·估计方式 将使得产生训练样本的概率最大的参数值作为这些参数的最佳估计 贝叶斯估计(贝叶斯学习) ·假设 将待估计的参数看作符合某种先验概率分布的随机变量 ·估计方式 ·通过观察样本,将先验概率密度通过贝叶斯规则转化为后验概率密度
参数估计方法 • 最大似然估计(ML估计) • 假设 • 将待估计的参数看作确定的量,只是值未知 • 估计方式 • 将使得产生训练样本的概率最大的参数值作为这些参数的最佳估计 • 贝叶斯估计(贝叶斯学习) • 假设 • 将待估计的参数看作符合某种先验概率分布的随机变量 • 估计方式 • 通过观察样本,将先验概率密度通过贝叶斯规则转化为后验概率密度
参数估计方法 ML估计与贝叶斯估计的关系 ·ML估计通常比贝叶斯估计简单 ·ML估计给出参数的值,而贝叶斯估计给出所有可能的 参数值的分布 ·当可用数据很多以至于减轻了先验知识的作用时,贝叶 斯估计可以退化为ML估计
参数估计方法 • ML估计与贝叶斯估计的关系 • ML估计通常比贝叶斯估计简单 • ML估计给出参数的值,而贝叶斯估计给出所有可能的 参数值的分布 • 当可用数据很多以至于减轻了先验知识的作用时,贝叶 斯估计可以退化为ML估计
最大似然估计 给定c个类:o1,2,…2 ·假设所有的类条件概率密度函数p(x|o),i=1…,C都具有已知的 参数化形式 假设每个参数向量1对它所属的类别起的作用都是相互独立的 例如:p(xX|0,0)~NμΣ)whee1=(μΣ) ·给定c个数据集(每个数据集对应一个类别):D,D2,…D 每个数据集D中的样本为独立同分布( independent and identically distributed,缩写为id.)的随机变量,这些随机变量 均从某个概率密度函数pXωθ)独立抽取 由于不同类的参数相互独立,D1无法为,≠的估计提供任何信 ·因此,可以对每个类别分别估计参数,类别下标可以省略 p(X|,6)p(X|0)D→D
最大似然估计 • 给定c个类: • 假设所有的类条件概率密度函数 都具有已知的 参数化形式 • 假设每个参数向量 对它所属的类别起的作用都是相互独立的 • 例如: • 给定c个数据集(每个数据集对应一个类别): • 每个数据集 中的样本为独立同分布(independent and identically distributed,缩写为i.i.d.)的随机变量,这些随机变量 均从某个概率密度函数 独立抽取 • 由于不同类的参数相互独立, 无法为 , 的估计提供任何信 息 • 因此,可以对每个类别分别估计参数,类别下标可以省略
最大似然估计 6相对于数据集D={x,x,…,x}的似然函数 (D|) p(xk a) k=1 对e的ML估计即使得似然函数p(D|6)最大的值en OML=arg max p(D 8) 直观上讲,θM是使得观察到D中样本的可能性最大化的值 p(x|6) ML estimation
最大似然估计 • 相对于数据集 的似然函数 • 对 的ML估计即使得似然函数 最大的值 直观上讲, 是使得观察到D中样本的可能性最大化的值