机器学习 第6章贝叶斯学习 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 1 机器学习 第6章 贝叶斯学习
概述 贝叶斯推理提供了一种概率手段,基于如下的 假定:待考察的量遵循某概率分布,且可根据 这些概率及已观察到的数据进行推理,以作出 最优的决策。 ·贝叶斯推理为衡量多个假设的置信度提供了定 量的方法 贝叶斯推理为直接操作概率的学习算法提供了 基础,也为其他算法的分析提供了理论框架 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏 2
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 2 概述 • 贝叶斯推理提供了一种概率手段,基于如下的 假定:待考察的量遵循某概率分布,且可根据 这些概率及已观察到的数据进行推理,以作出 最优的决策。 • 贝叶斯推理为衡量多个假设的置信度提供了定 量的方法 • 贝叶斯推理为直接操作概率的学习算法提供了 基础,也为其他算法的分析提供了理论框架
简介 贝叶斯学习算法与机器学习相关的两个原因: 贝叶斯学习算法能够计算显示的假设概率,比如朴 素贝叶斯分类 贝叶斯方法为理解多数学习算法提供了一种有效的 手段,而这些算法不一定直接操纵概率数据,比如 ·Find-S 候选消除算法 ·神经网络学习:选择使误差平方和最小化的神经网络 推导出另一种误差函数:交叉熵 分析了决策树的归纳偏置 ·考察了最小描述长度原则 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 3 简介 • 贝叶斯学习算法与机器学习相关的两个原因: – 贝叶斯学习算法能够计算显示的假设概率,比如朴 素贝叶斯分类 – 贝叶斯方法为理解多数学习算法提供了一种有效的 手段,而这些算法不一定直接操纵概率数据,比如 • Find-S • 候选消除算法 • 神经网络学习:选择使误差平方和最小化的神经网络 • 推导出另一种误差函数:交叉熵 • 分析了决策树的归纳偏置 • 考察了最小描述长度原则
贝叶斯学习方法的特性 观察到的每个训练样例可以增量地降低或升高某假设 的估计概率。而其他算法会在某个假设与任一样例不 致时完全去掉该假设 先验知识可以与观察数据一起决定假设的最终概率, 先验知识的形式是:1)每个候选假设的先验概率;2) 每个可能假设在可观察数据上的概率分布 贝叶斯方法可允许假设做出不确定性的预测 新的实例分类可由多个假设一起做出预测,用它们的 概率来加权 即使在贝叶斯方法计算复杂度较高时,它们仍可作为 ·个最优的决策标准衡量其他方法 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 4 贝叶斯学习方法的特性 • 观察到的每个训练样例可以增量地降低或升高某假设 的估计概率。而其他算法会在某个假设与任一样例不 一致时完全去掉该假设 • 先验知识可以与观察数据一起决定假设的最终概率, 先验知识的形式是:1)每个候选假设的先验概率;2) 每个可能假设在可观察数据上的概率分布 • 贝叶斯方法可允许假设做出不确定性的预测 • 新的实例分类可由多个假设一起做出预测,用它们的 概率来加权 • 即使在贝叶斯方法计算复杂度较高时,它们仍可作为 一个最优的决策标准衡量其他方法
贝叶斯方法的难度 难度之一:需要概率的初始知识,当概 率预先未知时,可以基于背景知识、预 先准备好的数据以及基准分布的假定来 估计这些概率 难度之二:一般情况下,确定贝叶斯最 优假设的计算代价比较大(在某些特定 情形下,这种计算代价可以大大降低)。 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 5 贝叶斯方法的难度 • 难度之一:需要概率的初始知识,当概 率预先未知时,可以基于背景知识、预 先准备好的数据以及基准分布的假定来 估计这些概率 • 难度之二:一般情况下,确定贝叶斯最 优假设的计算代价比较大(在某些特定 情形下,这种计算代价可以大大降低)
内容安排 介绍贝叶斯理论 定义极大似然假设和极大后验概率假设 将此概率框架应用于分析前面章节的相关问题 和学习算法 介绍几种直接操作概率的学习算法 贝叶斯最优分类器 Gibbs算法 朴素贝叶斯分类器 ·讨论贝叶斯信念网,这是存在未知变量时被广 泛使用的学习算法 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 6 内容安排 • 介绍贝叶斯理论 • 定义极大似然假设和极大后验概率假设 • 将此概率框架应用于分析前面章节的相关问题 和学习算法 • 介绍几种直接操作概率的学习算法 – 贝叶斯最优分类器 – Gibbs算法 – 朴素贝叶斯分类器 • 讨论贝叶斯信念网,这是存在未知变量时被广 泛使用的学习算法
贝叶斯法则 ·机器学习的任务:在给定训练数据D时,确定 假设空间H中的最佳假设 最佳假设:一种方法是把它定义为在给定数据 D以及H中不同假设的先验概率的有关知识下 的最可能假设 贝叶斯理论提供了一种计算假设概率的方法, 基于假设的先验概率、给定假设下观察到不同 数据的概率以及观察到的数据本身 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 7 贝叶斯法则 • 机器学习的任务:在给定训练数据D时,确定 假设空间H中的最佳假设。 • 最佳假设:一种方法是把它定义为在给定数据 D以及H中不同假设的先验概率的有关知识下 的最可能假设 • 贝叶斯理论提供了一种计算假设概率的方法, 基于假设的先验概率、给定假设下观察到不同 数据的概率以及观察到的数据本身
先验概率和后验概率 用P(h)表示在没有训练数据前假设h拥有的初始 概率。P(h)被称为h的先验概率, 先验概率反映了关于h是一正确假设的机会的 背景知识 如果没有这一先验知识,可以简单地将每一候 选假设赋予相同的先验概率 类似地,P(D)表示训练数据D的先验概率, PDh)表示偎设h成立时D的概率 机器学习中,我们关心的是P(hD),即给定D时 h的成立的概率,称为h的后验概率 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 8 先验概率和后验概率 • 用P(h)表示在没有训练数据前假设h拥有的初始 概率。P(h)被称为h的先验概率。 • 先验概率反映了关于h是一正确假设的机会的 背景知识 • 如果没有这一先验知识,可以简单地将每一候 选假设赋予相同的先验概率 • 类似地,P(D)表示训练数据D的先验概率, P(D|h)表示假设h成立时D的概率 • 机器学习中,我们关心的是P(h|D),即给定D时 h的成立的概率,称为h的后验概率
贝叶斯公式 贝叶斯公式提供了从先验概率Ph)、P(D) 和P(Dh)计算后验概率P(hD)的方法 P(hID- P(DIh)P(h) P(D) P(hD随着P(h)和P(Dh)的增长而增长, 随着P(D)的增长而减少,即如果D独立于 h时被观察到的可能性越大,那么D对h的 支持度越小 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 9 贝叶斯公式 • 贝叶斯公式提供了从先验概率P(h)、P(D) 和P(D|h)计算后验概率P(h|D)的方法 • P(h|D)随着P(h)和P(D|h)的增长而增长, 随着P(D)的增长而减少,即如果D独立于 h时被观察到的可能性越大,那么D对h的 支持度越小 ( ) ( | ) ( ) ( | ) P D P D h P h P h D =
极大后验假设 学习器在候选假设集合H中寻找给定数据 D时可能性最大的假设h,h被称为极大后 验假设(MAP 确定MAP的方法是用贝叶斯公式计算每 个候选假设的后验概率,计算式如下 hMp =arg max P(h D)=arg mar (d)P(h)=arg max P(D h)P(h) P(D 最后一步,去掉了P(D),因为它是不依 赖于h的常量 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-贝叶斯学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 10 极大后验假设 • 学习器在候选假设集合H中寻找给定数据 D时可能性最大的假设h,h被称为极大后 验假设(MAP) • 确定MAP的方法是用贝叶斯公式计算每 个候选假设的后验概率,计算式如下 最后一步,去掉了P(D),因为它是不依 赖于h的常量 arg max ( | ) ( ) ( ) ( | ) ( ) arg max ( | ) arg max P D h P h P D P D h P h h P h D h H h H h H MAP = = =