SⅥM原理与应用 HITSCIR-TM Group zkli-李泽魁
SVM原理与应用 HITSCIR-TM Group zkli-李泽魁
大纲 背景 线性分类 非线性分类 松弛变量 多元分类 应用 工具包
大纲 • 背景 • 线性分类 • 非线性分类 • 松弛变量 • 多元分类 • 应用 • 工具包 3
SⅦM背景 支持向量机 support vector machine SVM 5 6036978
SVM背景 • 支持向量机 – support vector machine – SVM 4
为什么要用SVM(个人观点) 分类效果好 @刘知远THUV JMLR201410月刊看到一篇神文: Do we Need Hundreds of Classifiers to solve Real Worid Classification Problems?测试了179种分类模型在UC有的121个数据上的性能,发现 Random Forests和swM(高斯核,用LbsM版本)性能最好,真是一个体力活,辛苦作者们 了.httplicn/r7nPBM 11月7日2104来自微博 weibo com 转发459评论2120 上手快 N种语言的N个 Toolkit ·理论基础完备 妇孺皆知的好模型 找工作需要它(利益相关: 应用与原理
为什么要用SVM(个人观点) • 分类效果好 • 上手快 – N种语言的N个Toolkit • 理论基础完备 – 妇孺皆知的好模型 • 找工作需要它(利益相关:面试狗一只) – 应用与原理 5
SVM发展历史 重要理论基础1 60年代, Vapnik和 Chervonenkis提出ⅤC维理论 重要理论基础2 1982年, Vapnik提出结构风险最小化理论 支持向量机( Support Vector Machine是 Cortes和 Vapnik于1995年首先提出的 它在解决小样本、韭线性及高维模式识别 中表现岀许多特有的优势,并能够推广应 用到函数拟合等其他机器学习问题中
SVM发展历史 • 重要理论基础1 – 60年代,Vapnik和Chervonenkis提出VC维理论 • 重要理论基础2 – 1982年,Vapnik提出结构风险最小化理论 • 支持向量机(Support Vector Machine)是 Cortes和Vapnik于1995年首先提出的 • 它在解决小样本、非线性及高维模式识别 中表现出许多特有的优势,并能够推广应 用到函数拟合等其他机器学习问题中 6
作者之一简介 Vapnik 《 Statistical Learning Theory》作者 书中详细的论证了统计机器学习之所以区别于 传统机器学习的本质,就在于统计机器学习能 够精确的给出学习效果,能够解答需要的样本 数等等一系列问题。 A》5 BELON
作者之一简介 • Vapnik – 《Statistical Learning Theory》作者 – 书中详细的论证了统计机器学习之所以区别于 传统机器学习的本质,就在于统计机器学习能 够精确的给出学习效果,能够解答需要的样本 数等等一系列问题。 7
SVM理论基础1(比较八股) 统计学习理论的VC维理论 ( Statistical| Learning theory或ST是研究有限样 本情况下机器学习规律的理论 ( Vapnik-Chervonenkis Dimension)反映了函数集 的学习能力,VC维越大则学习机器越复杂 瓦普尼克 统计学习理论 Statistical Learning Theory Statistical Learning Theory s points shattered 4 points impossible 是 ladimir N Vapnik着 一计建平张学 8
SVM理论基础1(比较八股) • 统计学习理论的VC维理论 – (Statistical Learning Theory或SLT)是研究有限样 本情况下机器学习规律的理论 – (Vapnik-Chervonenkis Dimension) 反映了函数集 的学习能力,VC维越大则学习机器越复杂 8
SVM理论基础2(比较八股) 结构风险最小化 机器学习本质上就是一种对问题真实模型的逼 近。这个与问题真实解之间的误差,就叫做风 险 结构化风险=经验风险+置信风险 经验风险=分类器在给定样木上的误差 置信风险=分类器在未知文本上分类的结果的 误差,代表了我们在多大程度上可以信任分类 器在未知文本上分类的结果。(无法准确估值 给出估计的区间)
SVM理论基础2(比较八股) • 结构风险最小化 – 机器学习本质上就是一种对问题真实模型的逼 近。这个与问题真实解之间的误差,就叫做风 险。 – 结构化风险 = 经验风险 + 置信风险 – 经验风险 = 分类器在给定样本上的误差 – 置信风险 = 分类器在未知文本上分类的结果的 误差,代表了我们在多大程度上可以信任分类 器在未知文本上分类的结果。(无法准确估值, 给出估计的区间) 9
SVM理论基础2(比较八股) 结构化风险=经验风险+置信风险 置信风险因素: 样本数量,给定的样本数量越大,学习结果越有可 能正确,此时置信风险越小; ·分类函数的vC维,显然VC维越大,推广能力越差, 置信风险会变大。 泛化误差界的公式* R(WsRemp(w)+op(n/h) 公式中Rw)就是真实风险,Remp(Ww)就是经验风险, φ(n/h就是置信风险。 ·统计学习的目标从经验风险最小化变为了寻求经验 风险与置信风险的和最小,即结构风险最小
SVM理论基础2(比较八股) • 结构化风险 = 经验风险 + 置信风险 – 置信风险因素: • 样本数量,给定的样本数量越大,学习结果越有可 能正确,此时置信风险越小; • 分类函数的VC维,显然VC维越大,推广能力越差, 置信风险会变大。 • 泛化误差界的公式* – R(w)≤Remp(w)+Ф(n/h) • 公式中R(w)就是真实风险,Remp(w)就是经验风险, Ф(n/h)就是置信风险。 • 统计学习的目标从经验风险最小化变为了寻求经验 风险与置信风险的和最小,即结构风险最小。 10
SVM理论基础(小结) 统计学习理论的VC维理论 SVM关注的是VC维 结构风险最小化 R(W)sRemp(w)+p(n/h)
SVM理论基础(小结) • 统计学习理论的VC维理论 – SVM关注的是VC维 • 结构风险最小化 – R(w)≤Remp(w)+Ф(n/h) 11