第18章贝叶斯估计简介
第18章 贝叶斯估计简介
主要内容 中贝叶斯估计的思想 ◆贝叶斯定理 ◆贝叶斯估计的一个例子 ◆基于后验分布的统计推断 ◆先验分布的选择 ◆多元回归的贝叶斯分析 ◆马尔可夫链蒙特卡罗法
2 主要内容 贝叶斯估计的思想 贝叶斯定理 贝叶斯估计的一个例子 基于后验分布的统计推断 先验分布的选择 多元回归的贝叶斯分析 马尔可夫链蒙特卡罗法
18.1贝叶斯估计的思想 在统计学中有两派,主流是“频率学派”,也称 “古典学派”,即数理统计课的常规内容; 另一派是“贝叶斯学派”,由18世纪英国统计学家 贝叶斯创立。 二者的主要区别在于,频率学派假设总体服从某个 分布,比如f(x;θ),其中θ为待估计、未知、给定的参 数 (或参数向量)。 贝叶斯学派认为,既然θ有不确定性,应将θ本身也 视为随机变量(或随机向量),并用概率分布来描述。 由于的分布在研究者看到数据之前就有,故称为 “先验分布
3 18.1 贝叶斯估计的思想 在统计学中有两派,主流是“频率学派” ,也称 “古典学派” ,即数理统计课的常规内容; 另一派是“贝叶斯学派” ,由18世纪英国统计学家 贝叶斯创立。 二者的主要区别在于,频率学派假设总体服从某个 分布,比如𝑓(𝑥; 𝜃ሻ,其中𝜃为待估计、未知、给定的参 数 (或参数向量)。 贝叶斯学派认为,既然𝜃有不确定性,应将𝜃本身也 视为随机变量(或随机向量),并用概率分布来描述。 由于𝜃的分布在研究者看到数据之前就有,故称为 “先验分布”
18.1贝叶斯估计的思想 得到样本数据后,可根据贝叶斯定理将先验分布更新为 后验分布,并以后验分布作为统计推断的依据。 由于先验分布的主观性,有些学者对贝叶斯学派持有保 留意见。但在大样本中,先验分布的作用将变得很小。 还可使用“相对不含信息”的先验分布,并对后验分布 对于先验分布的依赖性进行“敏感度分析
4 18.1 贝叶斯估计的思想 得到样本数据后,可根据贝叶斯定理将先验分布更新为 后验分布,并以后验分布作为统计推断的依据。 由于先验分布的主观性,有些学者对贝叶斯学派持有保 留意见。但在大样本中,先验分布的作用将变得很小。 还可使用“相对不含信息”的先验分布,并对后验分布 对于先验分布的依赖性进行“敏感度分析”
18.1贝叶斯估计的思想 贝叶斯估计的主要优点: (1)古典学派一般通过最优化(比如,MLE,OLS)进行参 数估计,但有时不易求得最优解。贝叶斯学派只要反复使 用贝叶斯定理即可,不需要进行最优化。虽然贝叶斯分析常 没有解析解,随着计算方法的发展,这已基本不成问题。 (2)古典学派需要用不同的统计量来估计期望、方差、 中位数、分位数等,而贝叶斯学派可以直接得到参数的整个 后验分布。从后验分布,可容易地算出其各阶矩。 (3)对于古典学派的统计量,常常不易找出其“精确的 有限样本分布”,故只能退而求其次,推导大样本渐近分布。 贝叶斯学派一般可直接计算精确的有限样本分布,不需要渐 近理论
5 18.1 贝叶斯估计的思想 贝叶斯估计的主要优点: (1) 古典学派一般通过最优化(比如,MLE,OLS)进行参 数估 计,但有时不易求得最优解。贝叶斯学派只要反复使 用贝叶斯定理即可,不需要进行最优化。虽然贝叶斯分析常 没有解析解,随着计算方法的发展,这已基本不成问题。 (2) 古典学派需要用不同的统计量来估计期望、方差、 中位数、分位数等,而贝叶斯学派可以直接得到参数的整个 后验分布。从后验分布,可容易地算出其各阶矩。 (3) 对于古典学派的统计量,常常不易找出其“精确的 有限样本分布” ,故只能退而求其次,推导大样本渐近分布。 贝叶斯学派一般可直接计算精确的有限样本分布,不需要渐 近理论
182贝叶斯定理 贝叶斯估计的实质在于,反复使用贝叶斯定理,将 先验分布与样本数据综合为后验分布。 对于随机事件A与B,有如下贝叶斯公式 P(AB)P(B|A)·P(A P(AB) P(B) P(B) 其中,第一个等号为条件概率的定义,而第二个等 号使用了概率的乘法公式。 如果将P(A视为先验概率,将B视为样本数据,则贝 叶斯公式给出了在看到样本数据B后,如何将先验概率更 新为后验概率P(A|B)的规则
6 18.2 贝叶斯定理 贝叶斯估计的实质在于,反复使用贝叶斯定理,将 先验分布与样本数据综合为后验分布。 对于随机事件A与B,有如下贝叶斯公式: 𝑃(𝐴|𝐵ሻ = 𝑃(𝐴𝐵ሻ 𝑃(𝐵ሻ = 𝑃(𝐵|𝐴ሻ ⋅ 𝑃(𝐴ሻ 𝑃(𝐵ሻ 其中,第一个等号为条件概率的定义,而第二个等 号使用了概率的乘法公式。 如果将𝑃(𝐴ሻ视为先验概率,将B视为样本数据,则贝 叶斯公式给出了在看到样本数据B后,如何将先验概率更 新为后验概率𝑃(𝐴|𝐵ሻ的规则
182贝叶斯定理 般地,对于随机向量θ(视为参数)与随机向量y(视 为样本数据),根据贝叶斯定理可知, f(y)= f(Jy6)m(6) f() 其中,f(0|y)为看到数据y之后0的条件分布密度(即 后验分布),丌()为参数的先验分布密度,f(,y)为0 与 y的联合分布,f(10)为给定参数e时y的密度函数,而 f(y)为y的边缘分布密度。 在联合分布f(θ,y)中将随机参数θ积分掉,可得y的 边缘密度: f(y)=∫f(,y)d0=∫f(yl1)r(0)d
7 18.2 贝叶斯定理 一般地,对于随机向量𝜃(视为参数)与随机向量y(视 为样本数据),根据贝叶斯定理可知, 𝑓(𝜃|𝑦ሻ = 𝑓(𝜃, 𝑦ሻ 𝑓(𝑦ሻ = 𝑓(𝑦|𝜃ሻ𝜋(𝜃ሻ 𝑓(𝑦ሻ 其中,𝑓(𝜃|𝑦ሻ为看到数据y之后𝜃的条件分布密度(即 后验分布),𝜋(𝜃ሻ为参数𝜃的先验分布密度,𝑓(𝜃, 𝑦ሻ为𝜃 与 y的联合分布,𝑓(𝑦|𝜃ሻ൯为给定参数𝜃时y的密度函数,而 𝑓(𝑦ሻ为y的边缘分布密度。 在联合分布𝑓(𝜃, 𝑦ሻ中将随机参数𝜃积分掉,可得y的 边缘密度: 𝑓(𝑦ሻ = �� ,��)�� ሻ 𝑑𝜃 = ��|��)�� ሻ𝜋(𝜃ሻ 𝑑𝜃
182贝叶斯定理 在贝叶斯分析中,把后验分布f(y)记为p(0|y)(p 表示 posterior),而把y的密度函数f(y|0)记为似然函数 L( 0, y) 在后验分布公式中,分母为边缘分布f(y),不包含日, 故可以将其视为常数。故后验分布与该公式的分子成正 f(y)of(yl()丌() 其中,“∝”表示“成正比”。 省略常数可以简化后验分布的推导,被省的常数可在 以后加上。 省去常数的密度函数被称为“密度核”。 L(θ;y)π()就是后验分布p(y)的密度核。8
8 18.2 贝叶斯定理 在贝叶斯分析中,把后验分布𝑓(𝜃|𝑦ሻ记为𝑝(𝜃|𝑦ሻ (p 表示posterior),而把y的密度函数𝑓(𝑦|𝜃ሻ记为似然函数 𝐿(𝜃; 𝑦ሻ。 在后验分布公式中,分母为边缘分布𝑓(𝑦ሻ,不包含𝜃, 故可以将其视为常数。故后验分布与该公式的分子成正 比: 𝑓(𝜃|𝑦ሻ ∝ 𝑓(𝑦|𝜃ሻ𝜋(𝜃ሻ 其中, “∝”表示“成正比” 。 省略常数可以简化后验分布的推导,被省的常数可在 以后加上。 省去常数的密度函数被称为“密度核” 。 𝐿(𝜃; 𝑦ሻ𝜋(𝜃ሻ就是后验分布𝑝(𝜃|𝑦ሻ的密度核
183贝叶斯估计的一个例子 记随机样本为y=(y1y2…yn),其中y~N( 方差σ2已知,而均值θ未知 古典学派选择θ使似然函数最大化,得 到am==∑ 贝叶斯学派则要额外地设定的先验分布 为了计算方便,选择先验正态分布,即日~N(,2) 其中先验均值u与先验方差x2为已知常数。 如果τ2较大,就表示先验分布的不确定性较大 目标是求出后验分布p(y)。把此计算过程分为以 下三步
9 18.3 贝叶斯估计的一个例子 记随机样本为𝑦 = (𝑦1 𝑦2 ⋯ 𝑦𝑛ሻ ′ ,其中𝑦 ሻ 𝑖~𝑁(𝜃, 𝜎 2 , 方差 𝜎 2已知,而均值𝜃未知。 古 典 学派选择 𝜃 使 似 然 函 数 最 大 化 , 得 到 。 贝叶斯学派则要额外地设定𝜃的先验分布。 为了计算方便,选择先验正态分布,即𝜃~𝑁(𝜇, 𝜏 ሻ 2 , 其中先验均值𝜇与先验方差𝜏 2为已知常数。 如果𝜏 2较大,就表示先验分布的不确定性较大。 目标是求出后验分布𝑝(𝜃|𝑦ሻ。把此计算过程分为以 下三步。 MLE 1 1 ˆ n i i y y n = =
183贝叶斯估计的一个例子 第一步写出先验分布密度π(0) 在贝叶斯分析中,使用方差的倒数有时更为方便 定义θ的“精确度”( precislon)为: h≡1/2 精确度h越大,方差τ2就越小,表明对随机变量θ知 道得越精确。 由于样本均值y的方差为(G2/n),记的精确度为 h*三1/2 的先验密度为: m(0)=(22)1/2exp(-(0-1)2/2z23(一元正态密度) ∝exp{h(-p)2/2}(去掉不含的常数项,代入) 10
10 18.3 贝叶斯估计的一个例子 第一步 写出先验分布密度𝜋(𝜃ሻ。 在贝叶斯分析中,使用方差的倒数有时更为方便。 定义𝜃的“精确度”(precision)为: ℎ ≡ 1Τ𝜏 2 精确度h越大,方差𝜏 2就越小,表明对随机变量𝜃知 道得越精确。 由于样本均值𝑦ത的方差为 𝜎 Τ 2 𝑛 ,记 的精确度为 ℎ ∗ ≡ 𝑛Τ𝜎 2 。 𝜃的先验密度为: 𝜋(𝜃ሻ = 2𝜋𝜏 2 −1Τ2 exp − 𝜃 − 𝜇 Τ 2 2𝜏 2 (一元正态密度) ∝ exp −ℎ 𝜃 − 𝜇 Τ 2 2 (去掉不含 的常数项,代入 )