§42贝叶斯估计 在一个统计决策问题中,可供选择的决策函 数往往很多,自然希望寻找使风险最小的决策函 数,然而在这种意义下的最优决策函数往往是不 存在的。这是因为风险函数R(,d)是既依赖于参 数又依赖于决策函数d的二元函数,它往往会 使得在某些处决策函数d1的风险函数值较小 而在另一些θ处决策函数d2的风险函数值较小。要 解这个问题,就要建立一个整体指标的比较准则 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 1 §4.2 贝叶斯估计 在一个统计决策问题中,可供选择的决策函 数往往很多,自然希望寻找使风险最小的决策函 数,然而在这种意义下的最优决策函数往往是不 存在的。这是因为风险函数R d ( , ) 是既依赖于参 数 又依赖于决策函数d 的二元函数,它往往会 使得在某些 处决策函数 1 d 的风险函数值较小; 而在另一些 处决策函数 2 d 的风险函数值较小。要 解这个问题,就要建立一个整体指标的比较准则
贝叶斯方法通过引进先验分布把两个风险函数 的点点比较转化为用一个整体指标的比较来代替, 从而可以决定优劣。 、先验分布与后验分布 在前一章讨论参数估计问题时,我们都是把待参数 视为参数空间⊙中的一个未知常数(或常数向量),在估 计时仅利用样本所提供的关于总体的信息,而没有利用 关于的其他任何信息。然而在许多实际问题中,往往在 抽样前便对参数θ有所了解,这种在抽样前对未知参数 所了解的信息,称为先验信息。 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 2 贝叶斯方法通过引进先验分布把两个风险函数 的点点比较转化为用一个整体指标的比较来代替, 从而可以决定优劣。 一、先验分布与后验分布 在前一章讨论参数估计问题时,我们都是把待参数 视为参数空间 中的一个未知常数(或常数向量),在估 计时仅利用样本所提供的关于总体的信息,而没有利用 关于 的其他任何信息。然而在许多实际问题中,往往在 抽样前便对参数 有所了解,这种在抽样前对未知参数 所了解的信息,称为先验信息
例4.6某学生通过物理实验确定当地的重力加 速度,测得如下数据(m/s2): 980,979,9.78,6.81,680。 问如何估计当地的重力加速度? 如果用样本均值x=8.596来估计,你一定会认为这个结 果很差,这是因为在未做实验之前你对重力加速度已 有了一个先验的认识,比如你已经知道它大致在980 左右,误差最大不超过0.1。因此,参数的先验信息对 于正确估计参数往往是有益的 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 3 例 4.6 某学生通过物理实验确定当地的重力加 速度,测得如下数据 2 ( / ) m s : 9.80,9.79,9.78,6.81,6.80。 问如何估计当地的重力加速度? 如果用样本均值x = 8.596 来估计,你一定会认为这个结 果很差,这是因为在未做实验之前你对重力加速度已 有了一个先验的认识,比如你已经知道它大致在 9.80 左右,误差最大不超过 0.1。因此,参数的先验信息对 于正确估计参数往往是有益的
要利用参数0的先验信息,通常是将看作在参 数空间⊙中取值的随机变量。 在实际中这种作法可以有两种理解: 是从某一范围考察,参数确是随机的,如用P表示 某工厂每日的废品率,尽管从某一天看,P确是一个 未知常数,但从数天或更长一段时间看,每天的P会 有一定变化,一般来说P的变化范围呈现一定的分布 规律,我们可以利用这种分布规律来作为某日废品率估 计的先验信息; 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 4 要利用参数 的先验信息,通常是将 看作在参 数空间 中取值的随机变量。 在实际中这种作法可以有两种理解: 一是从某一范围考察,参数确是随机的,如用p 表 示 某工厂每日的废品率,尽管从某一天看,p 确是一个 未知常数,但从数天或更长一段时间看,每天的p 会 有一定变化,一般来说 p 的变化范围呈现一定的分布 规律,我们可以利用这种分布规律来作为某日废品率估 计的先验信息;
另一种理解是参数可能确是某一常数,但人们无法知道 或无法准确地知道它,只可能通过它的观测去集训它, 像例4.6中的当地重力加速度,这时,我们不妨把它看 成一个随机变量,认为它所服从的分布可以通过它的先 验知识获得。 例如,可以认为当地的重力加速度服从正态分布 N(980012)。这一观点在实际中是很有用处的。它将 使我们能够充分地利用参数的先验信息对参数作出 更准确的估计。 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 5 另一种理解是参数可能确是某一常数,但人们无法知道 或无法准确地知道它,只可能通过它的观测去集训它, 像例 4.6 中的当地重力加速度,这时,我们不妨把它看 成一个随机变量,认为它所服从的分布可以通过它的先 验知识获得。 例如,可以认为当地的重力加速度服从正态分布 2 N(9.80,0.1 ) 。这一观点在实际中是很有用处的。它将 使我们能够充分地利用参数的先验信息对参数作出 更准确的估计
贝叶斯估计方法就是把未知参数视为一个具有已知分 布丌(6)的随机变量,从而将先验信息数学形式化并加以 利用的一种方法,通常丌()为先验分布。先验分布()与 其他分布一样也有离散型和连续型之分,这要视是离散 型随机变量还是连续型随机变量而定。 设总体X的分布密度为p(x,6),B∈,0的先验分布为 (),由于为随机变量并假定已知的先验分布,所 以总体X的分布密度p(x6)应看作给定时X的条 件分布密度,于是总体X的分布密度p(x,6)需改用 p(x16)来表示 湘潭大学数学与计算科学院一页一页]6
湘潭大学数学与计算科学学院 上一页 下一页 6 贝叶斯估计方法就是把未知参数 视为一个具有已知分 布 ( ) 的随机变量,从而将先验信息数学形式化并加以 利用的一种方法,通常 ( ) 为先验分布。先验分布 ( ) 与 其他分布一样也有离散型和连续型之分,这要视 是离散 型随机变量还是连续型随机变量而定。 设总体X 的分布密度为 p x( , ), , 的先验分布为 ( ) ,由于 为随机变量并假定已知 的先验分布,所 以总体 X 的分布密度 p x( , ) 应看作给定 时 X 的 条 件分布密度,于是总体X 的分布密度 p x( , ) 需改用 p x( | ) 来表示
设X=(X1,…,Xn)为取自总体X的一个样本,当给定样 本值x=(x1…,xn)时,样本X=(X…,A)的联合密度为 qo 0)=1p(x1|0 9 由此,样本X和0的联合概率分布为 f(x,b)=q(x|6)(⊙) 由乘法公式知 f(x,)=n(q(x|6)=m(x)h(|x)。 于是有 h(|x) (6)q(x| (∈) m(x (4.8) 湘潭大学数学与计算科学学院一贝=7/m
湘潭大学数学与计算科学学院 上一页 下一页 7 设 1 ( , , ) X X X = n 为取自总体X 的一个样本,当给定样 本值 1 ( , , ) n x x x = 时,样本 1 ( , , ) X X X = n 的联合密度为 1 1 ( , , | ) ( | ) n n i i q x x p x = = , 由此,样本 X 和 的联合概率分布为 f x q x ( , ) ( | ) ( ) = 。 由乘法公式知 f x q x m x h x ( , ) ( ) ( | ) ( ) ( | ) = = 。 于是有 ( ) ( | ) ( | ) , ( ) ( ) q x h x m x = , (4.8)
称h(0|x)为给定样本X=x时,O的后验分布,它是给定 样本后6的条件分布。 其中m(x)是(X,⊙)关于样本X的边缘分布。 如果θ是连续型随机变量,则 m(x)=q(x|6)(l0 如果θ是离散型随机变量,则 m(x)=∑q(x|0)z(O) 贝叶斯估计方法认为后验分布集中体现了样本和先验 分布两者所提供的关于总体信息的总合,因而估计应 建立在后验分布的基础上来进行。 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 8 称h x ( | ) 为给定样本X x = 时, 的后验分布,它是给定 样本后 的条件分布。 其中m x( ) 是( , ) X 关于样本 X 的边缘分布。 如果 是连续型随机变量,则 m x q x d ( ) ( | ) ( ) = 。 如果 是离散型随机变量,则 m x q x ( ) ( | ) ( ) = 。 贝叶斯估计方法认为后验分布集中体现了样本和先验 分布两者所提供的关于总体信息的总合,因而估计应 建立在后验分布的基础上来进行
例47为了提高某产品的质量,公司经理考虑增加 投资来改进生产设备,预计需投资90万元,但从投资 效果看,顾问们提出了两种不同意见: 改进生产设备后,高质量产品可占90%, 2:改进生产设备后,高质量产品可占70% 经理当然希望发生,公司效益可得到很大提高,投 资改进设备也是合算的。但根据下属二个部门(顾问 们)过去建议被采纳的情况,经理认为的可信度只 有40%,B2的可信度是60%,即 丌()=0.4,x(2)=06。 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 9 例 4.7 为了提高某产品的质量,公司经理考虑增加 投资来改进生产设备,预计需投资 90 万元,但从投资 效果看,顾问们提出了两种不同意见: 1 :改进生产设备后,高质量产品可占 90%, 2 :改进生产设备后,高质量产品可占 70%。 经理当然希望1 发生,公司效益可得到很大提高,投 资改进设备也是合算的。 但根据下属二个部门(顾问 们)过去建议被采纳的情况,经理认为 1 的可信度只 有 40%, 2 的可信度是 60%,即 1 2 ( ) 0.4, ( ) 0.6 = =
这二个都是经理的主观概率。经理不想仅用过去的经验 来决策此事,想慎重一些,通过小规模试验后观其结果 再决定。为此做了一项试验,试验结果(记为A)如下 A:试制5个产品,全是高质量的产品。 经理对这次试验结果很高兴,希望用此试验结果来 修改他原来对1和2的看法,即要求后验概率饿(B|A) 与h(24)。这可采用贝叶斯公式来完成。 现已有先验概率z()与n(2)。还需要二个条件概率 P(A|a)与P(A2)。 由二项分布算得 P(A|)=(0.9)=0.590,P(A|B2)=(0.7)3=0.168。 湘潭大学数学与计算科学学院一四10层
湘潭大学数学与计算科学学院 上一页 下一页 10 这二个都是经理的主观概率。经理不想仅用过去的经验 来决策此事,想慎重一些,通过小规模试验后观其结果 再决定。为此做了一项试验,试验结果(记为A)如下: A :试制5个产品,全是高质量的产品。 经理对这次试验结果很高兴,希望用此试验结果来 修改他原来对1 和 2 的看法,即要求后验概率 1 h A ( | ) 与 2 h A ( | ) 。 这可采用贝叶斯公式来完成。 现已有先验概率 1 ( ) 与 2 ( ) 。还需要二个条件概率 1 P A( | ) 与 2 P A( | ) 。 由二项分布算得 5 5 1 2 P A P A ( | ) (0.9) 0.590, ( | ) (0.7) 0.168 = = = =