《机器学习》课程配套教学电子教案（PPT课件讲稿）第6章贝叶斯学习

• 贝叶斯推理提供了一种概率手段，基于如下的假定：待考察的量遵循某概率分布，且可根据这些概率及已观察到的数据进行推理，以作出最优的决策。 • 贝叶斯推理为衡量多个假设的置信度提供了定量的方法 • 贝叶斯推理为直接操作概率的学习算法提供了基础，也为其他算法的分析提供了理论框架

团购合买资源类别：文库，文档格式：PPT，文档页数：85，文件大小：389.5KB

机器学习第6章贝叶斯学习 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏

2003.12.18 机器学习-贝叶斯学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 1 机器学习第6章贝叶斯学习

概述贝叶斯推理提供了一种概率手段,基于如下的假定:待考察的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策。 ·贝叶斯推理为衡量多个假设的置信度提供了定量的方法贝叶斯推理为直接操作概率的学习算法提供了基础,也为其他算法的分析提供了理论框架 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏 2

2003.12.18 机器学习-贝叶斯学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 2 概述 • 贝叶斯推理提供了一种概率手段，基于如下的假定：待考察的量遵循某概率分布，且可根据这些概率及已观察到的数据进行推理，以作出最优的决策。 • 贝叶斯推理为衡量多个假设的置信度提供了定量的方法 • 贝叶斯推理为直接操作概率的学习算法提供了基础，也为其他算法的分析提供了理论框架

简介贝叶斯学习算法与机器学习相关的两个原因: 贝叶斯学习算法能够计算显示的假设概率,比如朴素贝叶斯分类贝叶斯方法为理解多数学习算法提供了一种有效的手段,而这些算法不一定直接操纵概率数据,比如 ·Find-S 候选消除算法 ·神经网络学习:选择使误差平方和最小化的神经网络推导出另一种误差函数:交叉熵分析了决策树的归纳偏置 ·考察了最小描述长度原则 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏

2003.12.18 机器学习-贝叶斯学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 3 简介 • 贝叶斯学习算法与机器学习相关的两个原因： – 贝叶斯学习算法能够计算显示的假设概率，比如朴素贝叶斯分类 – 贝叶斯方法为理解多数学习算法提供了一种有效的手段，而这些算法不一定直接操纵概率数据，比如 • Find-S • 候选消除算法 • 神经网络学习：选择使误差平方和最小化的神经网络 • 推导出另一种误差函数：交叉熵 • 分析了决策树的归纳偏置 • 考察了最小描述长度原则

贝叶斯学习方法的特性观察到的每个训练样例可以增量地降低或升高某假设的估计概率。而其他算法会在某个假设与任一样例不致时完全去掉该假设先验知识可以与观察数据一起决定假设的最终概率, 先验知识的形式是:1)每个候选假设的先验概率;2) 每个可能假设在可观察数据上的概率分布贝叶斯方法可允许假设做出不确定性的预测新的实例分类可由多个假设一起做出预测,用它们的概率来加权即使在贝叶斯方法计算复杂度较高时,它们仍可作为 ·个最优的决策标准衡量其他方法 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏

2003.12.18 机器学习-贝叶斯学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 4 贝叶斯学习方法的特性 • 观察到的每个训练样例可以增量地降低或升高某假设的估计概率。而其他算法会在某个假设与任一样例不一致时完全去掉该假设 • 先验知识可以与观察数据一起决定假设的最终概率，先验知识的形式是：1）每个候选假设的先验概率；2）每个可能假设在可观察数据上的概率分布 • 贝叶斯方法可允许假设做出不确定性的预测 • 新的实例分类可由多个假设一起做出预测，用它们的概率来加权 • 即使在贝叶斯方法计算复杂度较高时，它们仍可作为一个最优的决策标准衡量其他方法

贝叶斯方法的难度难度之一:需要概率的初始知识,当概率预先未知时,可以基于背景知识、预先准备好的数据以及基准分布的假定来估计这些概率难度之二:一般情况下,确定贝叶斯最优假设的计算代价比较大(在某些特定情形下,这种计算代价可以大大降低)。 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏

2003.12.18 机器学习-贝叶斯学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 5 贝叶斯方法的难度 • 难度之一：需要概率的初始知识，当概率预先未知时，可以基于背景知识、预先准备好的数据以及基准分布的假定来估计这些概率 • 难度之二：一般情况下，确定贝叶斯最优假设的计算代价比较大（在某些特定情形下，这种计算代价可以大大降低）

内容安排介绍贝叶斯理论定义极大似然假设和极大后验概率假设将此概率框架应用于分析前面章节的相关问题和学习算法介绍几种直接操作概率的学习算法贝叶斯最优分类器 Gibbs算法朴素贝叶斯分类器 ·讨论贝叶斯信念网,这是存在未知变量时被广泛使用的学习算法 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏

2003.12.18 机器学习-贝叶斯学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 6 内容安排 • 介绍贝叶斯理论 • 定义极大似然假设和极大后验概率假设 • 将此概率框架应用于分析前面章节的相关问题和学习算法 • 介绍几种直接操作概率的学习算法 – 贝叶斯最优分类器 – Gibbs算法 – 朴素贝叶斯分类器 • 讨论贝叶斯信念网，这是存在未知变量时被广泛使用的学习算法

贝叶斯法则 ·机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设最佳假设:一种方法是把它定义为在给定数据 D以及H中不同假设的先验概率的有关知识下的最可能假设贝叶斯理论提供了一种计算假设概率的方法, 基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏

2003.12.18 机器学习-贝叶斯学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 7 贝叶斯法则 • 机器学习的任务：在给定训练数据D时，确定假设空间H中的最佳假设。 • 最佳假设：一种方法是把它定义为在给定数据 D以及H中不同假设的先验概率的有关知识下的最可能假设 • 贝叶斯理论提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身

先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率, 先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率类似地,P(D)表示训练数据D的先验概率, PDh)表示偎设h成立时D的概率机器学习中,我们关心的是P(hD),即给定D时 h的成立的概率,称为h的后验概率 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏

2003.12.18 机器学习-贝叶斯学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 8 先验概率和后验概率 • 用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。 • 先验概率反映了关于h是一正确假设的机会的背景知识 • 如果没有这一先验知识，可以简单地将每一候选假设赋予相同的先验概率 • 类似地，P(D)表示训练数据D的先验概率， P(D|h)表示假设h成立时D的概率 • 机器学习中，我们关心的是P(h|D)，即给定D时 h的成立的概率，称为h的后验概率

贝叶斯公式贝叶斯公式提供了从先验概率Ph)、P(D) 和P(Dh)计算后验概率P(hD)的方法 P(hID- P(DIh)P(h) P(D) P(hD随着P(h)和P(Dh)的增长而增长, 随着P(D)的增长而减少,即如果D独立于 h时被观察到的可能性越大,那么D对h的支持度越小 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏

极大后验假设学习器在候选假设集合H中寻找给定数据 D时可能性最大的假设h,h被称为极大后验假设(MAP 确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下 hMp =arg max P(h D)=arg mar (d)P(h)=arg max P(D h)P(h) P(D 最后一步,去掉了P(D),因为它是不依赖于h的常量 2003.12.18 机器学习-贝叶斯学习作者: Mitchel译者:曾华军等讲者:陶晓鹏

2003.12.18 机器学习-贝叶斯学习作者：Mitchell 译者：曾华军等讲者：陶晓鹏 10 极大后验假设 • 学习器在候选假设集合H中寻找给定数据 D时可能性最大的假设h，h被称为极大后验假设（MAP） • 确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率，计算式如下最后一步，去掉了P(D)，因为它是不依赖于h的常量 arg max ( | ) ( ) ( ) ( | ) ( ) arg max ( | ) arg max P D h P h P D P D h P h h P h D h H h H h H MAP    = = =

点击进入文档下载页（PPT格式）

共85页，可试读20页，点击继续阅读 ↓↓

点击下载（PPT格式）

浏览记录