引言 第三章 口Bayes.决策需要已知两种知识: ■各类的先验概率P(⊙ 概率密度函数的估计 ■各类的条件概率密度函数po,). 口知识的来源: 2009-10-13 ■对问题的一般性认识; ■一些训练数据。 口实际问题:已知一定数目的样本,对未知样本分 类(设计分类器)。 引言 引言 口基于样本的两步Bayes.决策 口基于样本的两步Bayes决策 ■首先,根据样本估计P(o)和p似w,记(o,) 样本分布的 决策规则: 和p(x|o,); 训练样本集 统计特征 判别函数 ■然后,用估计的概率密度设计贝叶斯分类器。 率密度函 决策面方程 ■希望:当样本数N一∞时,得到的分类器收敛于 ■面临的问题: 理论上的最优解。故,需 口如何利用样本集进行估计 x0,)N→pxo,) 口估计量的评价 P(o,)N→P@,) ■原则:寻找在一般情况下适用的“最优”分类器,即错 误率最小,对分类器设计在理论上有指导意义, ■重要前提:训练样本的分布能代表样本的真实分 ■由于获取统计分布及其参数很困难,实际问题中并不 布,所谓ii.d条件;且有充分的训练样本。 一定县备获取准确统计分布的条件, 引言 引言 口类的先验概率的估计(较容易): 口类条件概率密度的估计(非常难) ■依靠经验: ■概率密度函数包含了一个随机变量的全部信息; ■概率密度函数可以是满足下面条件的任何函数: ■用训练数据中各类出现的频率估计; 。用频率估计概率的优点: px)≥0, ∫p(x)dk=L ■两种主要思路: 口无偏性: 口参数估计:概率密度函数的形式已知,而表征函 ▣相合性; 数的参数未知,通过训练数据来估计 口收敛速度快。 ·最大似然估计、Bayes估计 口非参数估计:密度函数的形式未知,也不作假 设,利用训练数据直接对概率密度进行估计 ·Parzen窗法、kn-近邻法
第三章 概率密度函数的估计 2009-10-13 2 引言 Bayes决策需要已知两种知识: 各类的先验概率 P(ωi); 各类的条件概率密度函数 p(x|ωi )。 知识的来源: 对问题的一般性认识; 一些训练数据。 实际问题:已知一定数目的样本,对未知样本分 类(设计分类器)。 3 基于样本的两步Bayes决策 首先,根据样本估计 P(ωi) 和 p(x|ωi),记 和 ; 然后,用估计的概率密度设计贝叶斯分类器。 希望:当样本数N→∞时,得到的分类器收敛于 理论上的最优解。故,需 重要前提:训练样本的分布能代表样本的真实分 布,所谓i.i.d 条件;且有充分的训练样本。 引言 ( ) ˆ P i ˆ(| )i p x 4 引言 基于样本的两步Bayes决策 面临的问题: 如何利用样本集进行估计 估计量的评价 原则:寻找在一般情况下适用的“最优”分类器,即错 误率最小,对分类器设计在理论上有指导意义。 由于获取统计分布及其参数很困难,实际问题中并不 一定具备获取准确统计分布的条件。 训练样本集 样本分布的 统计特征: 概率密度函数 决策规则: 判别函数 决策面方程 5 引言 类的先验概率的估计(较容易): 依靠经验; 用训练数据中各类出现的频率估计; 用频率估计概率的优点: 无偏性; 相合性; 收敛速度快。 6 引言 类条件概率密度的估计(非常难) 概率密度函数包含了一个随机变量的全部信息; 概率密度函数可以是满足下面条件的任何函数: 两种主要思路: 参数估计:概率密度函数的形式已知,而表征函 数的参数未知,通过训练数据来估计 最大似然估计、Bayes估计 非参数估计:密度函数的形式未知,也不作假 设,利用训练数据直接对概率密度进行估计 Parzen窗法、kn-近邻法
引言 参数估计的基本概念 样本所 总体概率密度 推断 解决方法 口统计量:样本集的某种函数 属类别 函数的形式 AK),K=x1.x2...xN); 监督参 已蜘 已知 参数 最大似然估 口参数空间:总体分布的未知参数日所有可能取值 数估计 计 组成的集合(⊙): 非监督 未知 已知 贝叶斯估计 口点估计的估计量和估计值: 参数估 计 ■日的估计量日=dx,x2,,xw)是样本集的函数: 非参数 已知 未知 概率 ■估计量对样本集的一次实现称为估计值。 Parzen窗法, 估 密 kw近年法 区间估计:与点估计相对应,用区间(d,d,)作为 函数 B的取值范围的一种估计,该区间称为置信区间。 估计量的评价 最大似然估计 口无偏性(数学期望):E(同)=日, 口假设 ■参数日是确定而未知的量(不是随机量); ■按类别把样本集分开,样本集K中的样本都是从 口有效性(风险小):va(⊙越小,越有效; 概率密度为po)的总体中独立抽取出来的 (独立同分布,1i.d); ■概率密度函数的形式已知,参数未知。为了描述 概率密度函数p(:@)与参数日的依赖关系,用 口相合性(一致性):样本数趋于无穷时,日依概 pw。)表示,对于同一类别可简化为p(x8)方 率趋于日,即 p1.-02s)-o. ■K中的样本不包括日,()≠i)中的信息,即不同 类别的参数在函数上是独立的. 12 最大似然估计 最大似然估计 口可分别处理各类问题:独立地按概率密度px) 口目标:根据已抽取的N个样本x,x2,,xw,估计 抽取样本集K={x,x2,w,用K估计未知参 这组样本“最可能”来自那个密度函数。(“最似” 数0. 哪个密度函数) 口样本独立抽取时的似然函数: 口基本思路:如果在日=日下,(日)最大,则日应 是“最可能”的参数值。 (0)=p(K0)=px)=IIp(x0) 口0是样本集的函数,记作0=d(x,x2,,xw),是 日的最大似然估计量. 口对数(loglarized)化似然函数: arg m()arg mx H H(0)=In/(0)=in p(x:10). =arg max∑in p(x8o), k妇
7 引言 概率 密度 函数 参数 推断 Parzen窗法、 kN近邻法 最大似然估 计, 贝叶斯估计 解决方法 非参数 已知 未知 估计 非监督 未知 已知 参数估 计 监督参 已知 已知 数估计 总体概率密度 函数的形式 样本所 属类别 8 参数估计的基本概念 统计量:样本集的某种函数 f(K),K={x1, x2 ,…, xN}; 参数空间:总体分布的未知参数θ所有可能取值 组成的集合(Θ); 点估计的估计量和估计值: θ的估计量 = d(x1, x2 ,…, xN)是样本集的函数; 估计量对样本集的一次实现称为估计值。 区间估计:与点估计相对应,用区间(d1, d2)作为 θ的取值范围的一种估计,该区间称为置信区间。 ˆ 9 估计量的评价 无偏性(数学期望): 有效性(风险小): 越小,越有效; 相合性(一致性):样本数趋于无穷时, 依概 率趋于θ,即 ˆ E ; ˆ var ˆ 0. n n lim P 10 最大似然估计 假设 参数θ是确定而未知的量(不是随机量); 按类别把样本集分开,样本集 Kj 中的样本都是从 概率密度为 p(x|ωj) 的总体中独立抽取出来的 (独立同分布,i.i.d); 概率密度函数的形式已知,参数未知。为了描述 概率密度函数 p(x|ωi) 与参数θ的依赖关系,用 p(x|ωi,θ)表示,对于同一类别可简化为p(x|θ); Kj 中的样本不包括θj (j≠i)中的信息,即不同 类别的参数在函数上是独立的。 11 最大似然估计 可分别处理各类问题:独立地按概率密度 p(x|θ) 抽取样本集 K={x1, x2 ,…, xN},用K估计未知参 数θ。 样本独立抽取时的似然函数: 对数(loglarized)化似然函数: 1 2 1 ( ) ( | ) ( , ,..., | ) ( | ); N N k k lp p p K xx x x 1 ( ) ln ( ) ln ( | ). N k k Hl p x 12 目标:根据已抽取的N个样本 x1, x2 ,…, xN,估计 这组样本“最可能”来自哪个密度函数。(“最似” 哪个密度函数) 基本思路:如果在 下,l(θ)最大,则 应 是“最可能”的参数值。 是样本集的函数,记作 ,是 θ的最大似然估计量。 最大似然估计 ˆ ˆ ˆ 1 2 ˆ ( , ,..., ) N d xx x argmax ln ( | ). argmax ( ) argmax ( ) ˆ 1 N k k ML p l H x
最大似然估计 最大似然估计 口图解 口参数求解:必要条件是函数梯度(导数)为0。 ■如日是标量,且()连续可微,则最大似然估计 量是下列方程的解: dl(-0 或 dH(g)=0: do do 12x10 ■如未知参数有S个,即6=[61,02,日s,则 40 最大似然估计量满足方程: 2 7,H0=2,npla)=0: 其中, [a a 表示梯度算子。 最大似然估计 最大似然估计 口讨论 口讨论 ■当必要条件有多个解时,使似然函数为最大的解 才是最大似然估计值。 I(e=pK10)= p,xl8,8)a-8 ■如不满足连续可微,则无一般性方法,需用其他 0 方法求解。 H(8=-Nnl(a-85 口例,随机变量x服从均匀分布,参数日1,日2未知 8-90 <x<02 px|8)=a2-8 0 other 9-9g 设从总体中独立抽取出N个样本x,x2,,v,求 解参数的最大似然估计量。 最大似然估计量为6可xmm,62xmx. 正态分布的最大似然估计 正态分布的最大似然估计 口单变量正态分布 口单变量正态分布 ■未知参数:0=[0,0下,0=4,0=o ■最大似然估计量满足方程 ■样本集:K={代,x2,,; ,H0=2,n1o=0 ■总体分布: [w-0) V.In p(x,10)= 22a-8) 11 np0=-n20,-2a-0) 0;
13 最大似然估计 图解 14 最大似然估计 参数求解:必要条件是函数梯度(导数)为0。 如θ是标量,且l(θ)连续可微,则最大似然估计 量是下列方程的解: 如未知参数有S个,即 θ=[θ 1, θ 2,…, θ S]T,则 最大似然估计量满足方程: ( ) H( ) 0 0. dl d d d 或 1 1 ( ) ln ( | ) 0; N k k S H px 其中, , , 表示梯度算子。 15 最大似然估计 讨论 当必要条件有多个解时,使似然函数为最大的解 才是最大似然估计值。 如不满足连续可微,则无一般性方法,需用其他 方法求解。 例,随机变量x服从均匀分布,参数θ1,θ2未知 设从总体中独立抽取出N个样本 x1, x2 ,…, xN,求 解参数的最大似然估计量。 1 2 2 1 1 (|) 0 other x p x 16 最大似然估计 讨论 12 12 2 1 2 1 1 21 2 21 1 ( , ,... | , ) () ( | ) ; ( ) 0 ( ) ln ( ); 1 0; 1 0; N N px x x l p H Nl H N H N K 最大似然估计量为θ1=xmin, θ2=xmax。 17 正态分布的最大似然估计 单变量正态分布 未知参数: 样本集:K={x1, x2 ,…, xN}; 总体分布: 18 正态分布的最大似然估计 单变量正态分布 最大似然估计量满足方程 1 ( ) ln ( | ) 0; N k k H px
正态分布的最大似然估计 正态分布的最大似然估计 口单变量正态分布 口讨论 解得 -8R2 ■均值的最大似然估计量是无偏的 产- 2小 ■方差的最大似然估计量不是无偏的 口多元正态分布 24-邮 口方差的无偏估计为样本方差 明 21 Goodness-of-fit(拟合优度) 最大似然估计图例 口可用Kolmogorov-Smirnov(K-S)拟合优度检 验法来度量样本观察值的分布和特定的理论分布 间的吻合程度。 口K-S检查样本观察值的累积概率分布函数和特定 (a)True pdt is N(10.4).Estimated pdt is (b)True pat is 0.5V(10,0.16)+0.5/V(11.0.25). N(10.1.30. Estimated pot is V(10.5.0.5). 的累积概率分布函数之间的最大绝对偏差。 口对一个概率模型未知的样本集,可假设不同的理 论分布且估计参数,后用K-S拟合优度检验法选 择和样本观察值分布的吻合程度最好的分布。 (c)True pdt is Gamma(4.4).Estimated pdts (d)Cumulative distribution functions for the ex- are V(15.8.62.1)and Gamma(4.0.3.9). ample in (c). Figure 1:Histograms of samples and estimated densities for different distributions. 贝叶斯估计一最大后验概率 贝叶斯估计一最大后验概率 口思路:和贝叶斯决策类似,只是把离散的决策状 口基本思想: 态变成了连续的参数估计。 ■用样本集K={,x2,,xw}估计未知参数; ■把待估计的参数日看成是随机变量,其先验分布 决策问题 估计问题 为p(6)i 样本 样本集置 ■希望使后验概率p最大。 决策a: 估计量合 口求解: 真实状态0: 真实参数日 dr-arg ma p(K)-arg max (p() 状态空间A是离散空间 参数空间⊙是连续空间 P(K) 先验概率P(o》 参数的先验分布p(日) =arg max p()p(@)=arg max >Inp(x)+In p(0): p(s,10)+In p()-0
19 正态分布的最大似然估计 单变量正态分布 多元正态分布 1 ^ 1 1 ˆ ; 1 ( )( ) ; ˆ ˆ N k k N T k k k x N x x N 20 正态分布的最大似然估计 讨论 均值的最大似然估计量是无偏的 方差的最大似然估计量不是无偏的 方差的无偏估计为样本方差 ; 1 ˆ 1 N k k N E E x 2 2 22 1 1 -1 ˆ ˆ ; N k k N E E N N x 2 1 1 ˆ . 1 N k N k x 21 Goodness-of-fit (拟合优度) 可用Kolmogorov-Smirnov (K-S)拟合优度检 验法来度量样本观察值的分布和特定的理论分布 间的吻合程度。 K-S检查样本观察值的累积概率分布函数和特定 的累积概率分布函数之间的最大绝对偏差。 对一个概率模型未知的样本集,可假设不同的理 论分布且估计参数,后用K-S拟合优度检验法选 择和样本观察值分布的吻合程度最好的分布。 22 最大似然估计图例 23 贝叶斯估计 — 最大后验概率 思路:和贝叶斯决策类似,只是把离散的决策状 态变成了连续的参数估计。 样本集 K 估计量 真实参数θ 参数空间Θ 是连续空间 参数的先验分布 p(θ) 样本x 决策αi 真实状态ωi 状态空间A是离散空间 先验概率 P(ωi) 决策问题 估计问题 ˆ 24 贝叶斯估计 — 最大后验概率 基本思想: 用样本集 K={x1, x2 ,…, xN} 估计未知参数θ; 把待估计的参数θ看成是随机变量,其先验分布 为p(θ); 希望使后验概率 p(θ| K) 最大。 求解: MAP 1 ( | )() ˆ arg max ( | ) arg max ( ) arg max ( | ) ( ) arg max ln ( | ) ln ( ); N k k p p p p pp p p x K K K K ln ( | ) ln ( ) 0. 1 N k p xk p
贝叶斯估计一最大后验概率 口最大后验概率估计和最大似然估计的关系 ■当样本数趋于无穷时,最大后验概率估计一般趋 向于最大似然估计。 ■最大似然估计也可以看作参数的先验概率密度函 数服从均匀分布(相当于没有先验知识)的最大 后验概率估计。 ■当参数的先验概率密度函数比较准确时,最大后 验概率估计的小样本性质大大优于最大似然估计
25 贝叶斯估计 — 最大后验概率 最大后验概率估计和最大似然估计的关系 当样本数趋于无穷时,最大后验概率估计一般趋 向于最大似然估计。 最大似然估计也可以看作参数的先验概率密度函 数服从均匀分布(相当于没有先验知识)的最大 后验概率估计。 当参数的先验概率密度函数比较准确时,最大后 验概率估计的小样本性质大大优于最大似然估计