统计学习方法 (第2版) 李航著 清华大学出版社
A=U∑PT 彩图15.1奇异值分解的几何解释 doc 1 doc 2 doc 3 doc 4 word word word word4 0 1 彩图18.1概率潜在语义分析的直观解释 cq(x) 拒绝 p(x) 接受 彩图19.1接受-拒绝抽样法
彩图20.1狄利克雷分布例 观测变 隐变晶 话题1的单词分布 话题2的单词分布 话题3的单词分布 文本1:单词序列 2 的话题分有 本2:单词序列 古 文本2的话题分布 彩图20.3LDA的文本生成过程
献给我的母亲
第2版序言 《统计学习方法》第1版于2012年出版,讲述了统计机器学习方法,主要是一些 常用的监督学习方法。第2版增加了一些常用的无监督学习方法,由此本书涵盖了传 统统计机器学习方法的主要内容。 在撰写《统计学习方法》伊始,对全书内容做了初步规划。第1版出版之后,即着 手无监督学习方法的写作。由于写作是在业余时间进行,常常被主要工作打断,历经 六年多时间才使这部分工作得以完成。犹未能加入深度学习和强化学习等重要内容, 希望今后能够增补,完成整本书的写作计划。 《统计学习方法》第1版的出版正值大数据和人工智能的热潮,生逢其时,截至 2019年4月本书共印刷25次,152000册,得到了广大读者的欢迎和支持。有许多读 者指出本书对学习和掌握机器学习技术有极大的帮助,也有许多读者通过电子邮件、 微博等方式指出书中的错误,提出改进的建议和意见。一些高校将本书作为机器学习 课程的教材或参考书。有的同学在网上发表了读书笔记,有的同学将本书介绍的方法 在计算机上实现。清华大学深圳研究生院袁春老师精心制作了第1版十二章的课件, 在网上公布,为大家提供教学之便。众多老师、同学、读者的支持和鼓励,让作者深受 感动和鼓舞。在这里向所有的老师、同学、读者致以诚挚的谢意! 能为中国的计算机科学、人工智能领域做出一点微薄的贡献,感到由衷的欣慰, 同时也感受到作为知识传播者的重大责任,让作者决意把本书写好。也希望大家今后 不吝指教,多提宝贵意见,以帮助继续提高本书的质量。在写作中作者也深切体会到 教学相长的道理,经常发现自己对基础知识的掌握不够扎实,通过写作得以对相关知 识进行了深入的学习,受益匪浅。 本书是一部机器学习的基本读物,要求读者拥有高等数学、线性代数和概率统计 的基础知识。书中主要讲述统计机器学习的方法,力求系统全面又简明扼要地阐述这 些方法的理论、算法和应用,使读者能对这些机器学习的基本技术有很好的掌握。针 对每个方法,详细介绍其基本原理、基础理论、实际算法,给出细致的数学推导和具 体实例,既帮助读者理解,也便于日后复习
IV 统计学习方法(第2版) 第2版增加的无监督学习方法,王泉、陈嘉怡、柴琛林、赵程绮等帮助做了认真细 致的校阅,提出了许多宝贵意见,在此谨对他们表示衷心的感谢。清华大学出版社的 薛慧编辑一直对本书的写作给予非常专业的指导和帮助,在此对她表示衷心的感谢! 由于本人水平有限,本书一定存在不少错误,恳请各位专家、老师和同学批评 指正。 李航 2019年4月
第1版序言 计算机与网络已经融入人们的日常学习、工作和生活之中,成为人们不可或缺的 助手和伙伴。计算机与网络的飞速发展完全改变了人们的学习、工作和生活方式。智 能化是计算机研究与开发的一个主要目标。近几十年来的实践表明,统计机器学习方 法是实现这一目标的最有效手段,尽管它还存在着一定的局限性。 本人一直从事利用统计学习方法对文本数据进行各种智能性处理的研究,包括自 然语言处理、信息检索、文本数据挖掘。近20年来,这些领域发展之快,应用之广, 实在令人惊叹!可以说,统计机器学习是这些领域的核心技术,在这些领域的发展及 应用中起着决定性的作用。 本人在日常的研究工作中经常指导学生,并在国内外一些大学及讲习班上多次做 过关于统计学习的报告和演讲。在这一过程中,同学们学习热情很高,希望得到指导, 这使作者产生了撰写本书的想法。 国内外已出版了多本关于统计机器学习的书籍,比如,Hastie等人的《统计学习 基础》,该书对统计学习的诸多问题有非常精辟的论述,但对初学者来说显得有些深 奥。统计学习范围甚广,一两本书很难覆盖所有问题。本书主要是面向将统计学习方 法作为工具的科研人员与学生,特别是从事信息检索、自然语言处理、文本数据挖掘 及相关领域的研究与开发的科研人员与学生。 本书力求系统而详细地介绍统计学习的方法。在内容选取上,侧重介绍那些最重 要、最常用的方法,特别是关于分类与标注问题的方法。对其他问题及方法,如聚类 等,计划在今后的写作中再加以介绍。在叙述方式上,每一章讲述一种方法,各章内容 相对独立、完整:同时力图用统一框架来论述所有方法,使全书整体不失系统性,读 者可以从头到尾通读,也可以选择单个章节细读。对每一种方法的讲述力求深入浅出, 给出必要的推导证明,提供简单的实例,使初学者易于掌握该方法的基本内容,领会 方法的本质,并准确地使用方法。对相关的深层理论,则予以简述。在每章后面,给出 一些习题,介绍一些相关的研究动向和阅读材料,列出参考文献,以满足读者进一步 学习的需求。本书第1章简要叙述统计学习方法的基本概念,最后一章对统计学习方
统计学习方法(第2版) 法进行比较与总结。此外,在附录中简要介绍一些共用的最优化理论与方法。 本书可以作为统计机器学习及相关课程的教学参考书,适用于信息检索及自然语 言处理等专业的大学生、研究生。 本书初稿完成后,田飞、王佳磊、武威、陈凯、伍浩铖、曹正、陶字等人分别审阅 了全部或部分章节,提出了许多宝贵意见,对本书质量的提高有很大帮助,在此向他 们表示衷心的感谢。在本书写作和出版过程中,清华大学出版社的责任编辑薛慧给予 了很多帮助,在此特向她致谢。 由于本人水平所限,书中难免有错误和不当之处,欢迎各位专家和读者给予批评 指正。 李航 2011年4月23日
目 录 第1篇监督学习 第1章统计学习及监督学习概论.3 1.1统计学习3 1.2统计学习的分类 5 1.2.1基本分类.6 1.2.2按模型分类 1 1.2.3按算法分类 .13 1.2.4按技巧分类 13 1.3统计学习方法三要素 .15 1.3.1摸型.15 1.3.2策略 .16 1.3.3算法 19 1.4模型评估与模型选择 …19 1.4.1训练误差与测试误差 .19 1.4.2过拟合与模型选择 .20 1.5正则化与交叉验证 .23 1.5.1正则化… .23 1.5.2交叉验证 1.6泛化能力. .24 1.6.1泛化误差… .24 1.6.2泛化误差上界 .25 1.7生成模型与判别模型 1.8监督学习应用… 28 1.8.1分类间题.28
VIlI 统计学习方法(第2版) 1.8.2标注问题30 1.8.3回归问题. 32 本章概要.33 继续阅读… ..33 习题 33 参考文献… 34 第2章感知机… 35 2.1感知机模型. 学 2.2感知机学习策略 2.2.1数据集的线性可分性 2.2.2感知机学习策略 3阶 2.3感知机学习算法 … 8 2.3.1感知机学习算法的原始形式… 2.3.2算法的收敛性」 …41 2.3.3感知机学习算法的对偶形式 本章概要46 继续阅读 ·6 习46 参考文献, 4? 第3章k近邻法 3.1k近邻算法 .49 3.2k近邻模型… 60 3.2.1模型 60 3.2.2距离度量 0 3.2.3k值的选择 .52 3.2.4分类决策规则 2 3.3k近邻法的实现:kd树 63 3.3.1构造kd树 3 3.3.2搜索kd树… 本章概要。 继续阅读 67