《机器学习》课程教学资源（PPT课件讲稿）第十二章计算学习理论 Machine Learning

概述关注的问题一些概念及记号可学习性什么是“学习” 什么是“可学习的” 假设空间复杂性对可学习性的影响有限假设空间无限假设空间：基于VC维的分析无限假设空间：基于Rademacher复杂度的分析稳定性

团购合买资源类别：文库，文档格式：PPTX，文档页数：55，文件大小：4.14MB

第十二章:计算学习理论

第十二章：计算学习理论

纲要口概述 ●关注的问题些概念及记号口可学习性 ●什么是“学习” ●什么是“可学习的” ●假设空间复杂性对可学习性的影响有限假设空间 ●无限假设空间:基于VC维的分析无限假设空间:基于 Rademacher复杂度的分析口稳定性

纲要  概述 ⚫ 关注的问题 ⚫ 一些概念及记号  可学习性 ⚫ 什么是“学习” ⚫ 什么是“可学习的” ⚫ 假设空间复杂性对可学习性的影响 ⚫ 有限假设空间 ⚫ 无限假设空间：基于VC维的分析 ⚫ 无限假设空间：基于Rademacher复杂度的分析  稳定性

关注的问题口怎样刻画“学习”这个过程? 口什么样的问题是“可学习的”? 口什么样的问题是“易学习的”? 口对于给定的学习算法,能否在理论上预测其性能? 口理论结果如何指导现实问题的算法设计?

关注的问题  怎样刻画“学习”这个过程？  什么样的问题是“可学习的”？  什么样的问题是“易学习的”？  对于给定的学习算法，能否在理论上预测其性能？  理论结果如何指导现实问题的算法设计？

些概念及记号口样例集:独立同分布样本,仅考虑二分类问题 D={(c1,y1),(a2,y2),…,(xrm,ym)},x;∈,v∈y={-1,+1} 口h为从礼到y的一个映射泛化误差:分类器的期望误差 E(h;D)=P~D(h(m)≠y) ●经验误差:分类器在给定样例集上的平均误差 E(h; D) ∑(a)≠ m 由于D是D的独立同分布采样,因此h的经验误差的期望等于其泛化误差。在上下文明确时将E(h;D)和E(h;D)分别简记为E(h)和E(hb

一些概念及记号 样例集：独立同分布样本, 仅考虑二分类问题  为从到的一个映射 ⚫ 泛化误差：分类器的期望误差 ⚫ 经验误差：分类器在给定样例集上的平均误差由于是的独立同分布采样, 因此的经验误差的期望等于其泛化误差。在上下文明确时, 将和分别简记为和

些概念及记号口误差参数 ∈为E(h的上限,即E(h)≤e →表示预先设定的学得模型所应满足的误差要求口一致性若h在数据集D上的经验误差为0,则称h与D一致,否则不一致。日不合( disagreement) 对于任意两个映射h1,h2∈→y,通过“不合”度量它们的差 d(hr, h2=PinD(h1(a) h2(a)

一些概念及记号  误差参数为的上限, 即表示预先设定的学得模型所应满足的误差要求  一致性若在数据集上的经验误差为0, 则称与一致, 否则不一致。  不合(disagreement) 对于任意两个映射 , 通过“不合”度量它们的差别

什么是“学习” 口概念( concept) 概念是从样本空间λ到标记空间υ的映射,它决定示例m的真实标记J ●目标概念如果对任何样例,y)均有c(m)=y成立,则称C为目标概念 ●概念类( concept class 所有我们希望学得的目标概念所构成的集合称为"概念类,用符号C表示

什么是“学习”  概念(concept) 概念是从样本空间到标记空间的映射, 它决定示例的真实标记 . ⚫ 目标概念如果对任何样例均有成立, 则称为目标概念. ⚫ 概念类(concept class) 所有我们希望学得的目标概念所构成的集合称为”概念类”, 用符号表示

什么是“学习” 口假设空间( hypothesis space) 给定学习算法C,它所考虑的所有可能概念的集合,用符号升表示 ●由于学习算法事先并不知道概念类的真实存在,因此H和C通常是不同的, 学习算法会把自认为可能的目标概念集中起来构成孔 ●对于h∈升,由于并不能确定它是否真的是目标概念,因此称为“假设” 显然,h也是从样本空间到标记空间y的映射 ●学习过程可以视为C在冲中进行的搜索过程

什么是“学习”  假设空间(hypothesis space) 给定学习算法 , 它所考虑的所有可能概念的集合, 用符号表示. ⚫ 由于学习算法事先并不知道概念类的真实存在, 因此和通常是不同的, 学习算法会把自认为可能的目标概念集中起来构成 . ⚫ 对于 ,由于并不能确定它是否真的是目标概念, 因此称为“假设”. 显然, 也是从样本空间到标记空间的映射. ⚫ 学习过程可以视为在中进行的搜索过程

什么是“学习” 口可分的与不可分的 ●可分的( separable) 若目标概念C∈,即H中存在假设能将所有的示例完全正确分开(按照与真实标记一致的方式),则称该问题对学习算法C是“可分的”( separable),也称“一致的”( consistent) ●不可分的( separable) 若目标概念C,则升中不存在任何假设能将所有的示例完全正确分开, 则称该问题对学习算法C是“不可分的”(non- separable),也称“不一致的” (non-consistent)

什么是“学习”  可分的与不可分的 ⚫ 可分的(separable) 若目标概念 , 即中存在假设能将所有的示例完全正确分开(按照与真实标记一致的方式), 则称该问题对学习算法是“可分的”(separable), 也称“一致的”（consistent). ⚫ 不可分的(separable) 若目标概念 ,则中不存在任何假设能将所有的示例完全正确分开，则称该问题对学习算法是“不可分的”(non-separable), 也称“不一致的” （non-consistent)

口对于给定训练集D,我们希望基于学习算法C学得的模型所对应的假设九尽可能接近目标概念C 为什么不是希望精确地学到目标概念c呢? 机器学习过程受到很多因素的制约获得的训练集刀往往仅包含有限数量的样例,因此通常会存在一些在上“等效” 的假设,学习算法无法区别这些假设; ●从分布D采样得到D的过程有一定的偶然性,即便对同样大小的不同训练集,学得结果也可能有所不同

 对于给定训练集 , 我们希望基于学习算法学得的模型所对应的假设尽可能接近目标概念 . 为什么不是希望精确地学到目标概念c呢？机器学习过程受到很多因素的制约 ⚫ 获得的训练集往往仅包含有限数量的样例, 因此通常会存在一些在上“等效” 的假设, 学习算法无法区别这些假设; ⚫ 从分布采样得到的过程有一定的偶然性, 即便对同样大小的不同训练集, 学得结果也可能有所不同

什么是“可学习的” 口概率近似正确( Probably approximately correct,PAC) 我们希望以比较大的把握学得比较好的模型,即以较大概率学得误差满足预设上限的模型令δ表示置信度,上述要求形式化为定义PAC辨识( PAC Identify) 对0<,6<1,所有c∈C和分布D,若存在学习算法C,其输出假设h∈H满足 P(E(hb)≤)≥1-6, 则称学习算法C能从假设空间中PAC辨识概念类? 这样的学习算法C能以较大概率(至少1—)学得目标概念c的近似(误差最多为)

什么是“可学习的”  概率近似正确(Probably Approximately Correct, PAC) 我们希望以比较大的把握学得比较好的模型, 即以较大概率学得误差满足预设上限的模型. 令表示置信度，上述要求形式化为：定义 PAC辨识(PAC Identify) 对 ,所有和分布 ,若存在学习算法 , 其输出假设满足则称学习算法能从假设空间中PAC辨识概念类 . 这样的学习算法能以较大概率(至少 )学得目标概念的近似(误差最多为 )

点击进入文档下载页（PPTX格式）

共55页，可试读19页，点击继续阅读 ↓↓

点击下载（PPTX格式）

浏览记录