《机器学习 Machine Learning》课程教学资源（书籍文献）[德] Andreas C. Müller [美] Sarah Guido《Python机器学习基础教程 Introduction to Machine Learning with Python》.pdf_大学文库

v 目录前言..........................................................................................................................................................ix 第 1 章引言.........................................................................................................................................1 1.1 为何选择机器学习 .....................................................................................................................1 1.1.1 机器学习能够解决的问题 ............................................................................................2 1.1.2 熟悉任务和数据 ............................................................................................................4 1.2 为何选择 Python.........................................................................................................................4 1.3 scikit-learn ..............................................................................................................................4 1.4 必要的库和工具 .........................................................................................................................5 1.4.1 Jupyter Notebook ............................................................................................................6 1.4.2 NumPy ............................................................................................................................6 1.4.3 SciPy ...............................................................................................................................6 1.4.4 matplotlib .....................................................................................................................7 1.4.5 pandas .............................................................................................................................8 1.4.6 mglearn ...........................................................................................................................9 1.5 Python 2 与 Python 3 的对比 .....................................................................................................9 1.6 本书用到的版本 .......................................................................................................................10 1.7 第一个应用：鸢尾花分类 .......................................................................................................11 1.7.1 初识数据 ......................................................................................................................12 1.7.2 衡量模型是否成功：训练数据与测试数据 ..............................................................14 1.7.3 要事第一：观察数据 ..................................................................................................15 1.7.4 构建第一个模型：k 近邻算法 ...................................................................................16 1.7.5 做出预测 ......................................................................................................................17 1.7.6 评估模型 ......................................................................................................................18 1.8 小结与展望 ...............................................................................................................................19 书籍下载qq群6089740 钉钉群21734177 IT书籍 http://t.cn/RDIAj5D 电子书寻找看手相钉钉或微信pythontesting

vi ｜目录第 2 章监督学习 ..............................................................................................................................21 2.1 分类与回归 ...............................................................................................................................21 2.2 泛化、过拟合与欠拟合 ...........................................................................................................22 2.3 监督学习算法 ...........................................................................................................................24 2.3.1 一些样本数据集 ..........................................................................................................25 2.3.2 k 近邻 ...........................................................................................................................28 2.3.3 线性模型 ......................................................................................................................35 2.3.4 朴素贝叶斯分类器 ......................................................................................................53 2.3.5 决策树 ..........................................................................................................................54 2.3.6 决策树集成 ..................................................................................................................64 2.3.7 核支持向量机 ..............................................................................................................71 2.3.8 神经网络（深度学习） ................................................................................................80 2.4 分类器的不确定度估计 ...........................................................................................................91 2.4.1 决策函数 ......................................................................................................................91 2.4.2 预测概率 ......................................................................................................................94 2.4.3 多分类问题的不确定度 ..............................................................................................96 2.5 小结与展望 ...............................................................................................................................98 第 3 章无监督学习与预处理......................................................................................................100 3.1 无监督学习的类型 .................................................................................................................100 3.2 无监督学习的挑战 .................................................................................................................101 3.3 预处理与缩放 .........................................................................................................................101 3.3.1 不同类型的预处理 ....................................................................................................102 3.3.2 应用数据变换 ............................................................................................................102 3.3.3 对训练数据和测试数据进行相同的缩放 ................................................................104 3.3.4 预处理对监督学习的作用 ........................................................................................106 3.4 降维、特征提取与流形学习 .................................................................................................107 3.4.1 主成分分析 ................................................................................................................107 3.4.2 非负矩阵分解 ............................................................................................................120 3.4.3 用 t-SNE 进行流形学习 ............................................................................................126 3.5 聚类 .........................................................................................................................................130 3.5.1 k 均值聚类 .................................................................................................................130 3.5.2 凝聚聚类 ....................................................................................................................140 3.5.3 DBSCAN ....................................................................................................................143 3.5.4 聚类算法的对比与评估 ............................................................................................147 3.5.5 聚类方法小结 ............................................................................................................159 3.6 小结与展望 .............................................................................................................................159

目录｜ vii 第 4 章数据表示与特征工程......................................................................................................161 4.1 分类变量 .................................................................................................................................161 4.1.1 One-Hot 编码（虚拟变量） .......................................................................................162 4.1.2 数字可以编码分类变量 ............................................................................................166 4.2 分箱、离散化、线性模型与树 .............................................................................................168 4.3 交互特征与多项式特征 .........................................................................................................171 4.4 单变量非线性变换 .................................................................................................................178 4.5 自动化特征选择 .....................................................................................................................181 4.5.1 单变量统计 ................................................................................................................181 4.5.2 基于模型的特征选择 ................................................................................................183 4.5.3 迭代特征选择 ............................................................................................................184 4.6 利用专家知识 .........................................................................................................................185 4.7 小结与展望 .............................................................................................................................192 第 5 章模型评估与改进 ..............................................................................................................193 5.1 交叉验证 .................................................................................................................................194 5.1.1 scikit-learn 中的交叉验证 ....................................................................................194 5.1.2 交叉验证的优点 ........................................................................................................195 5.1.3 分层 k 折交叉验证和其他策略 .................................................................................196 5.2 网格搜索 .................................................................................................................................200 5.2.1 简单网格搜索 ............................................................................................................201 5.2.2 参数过拟合的风险与验证集 ....................................................................................202 5.2.3 带交叉验证的网格搜索 ............................................................................................203 5.3 评估指标与评分 .....................................................................................................................213 5.3.1 牢记最终目标 ............................................................................................................213 5.3.2 二分类指标 ................................................................................................................214 5.3.3 多分类指标 ................................................................................................................230 5.3.4 回归指标 ....................................................................................................................232 5.3.5 在模型选择中使用评估指标 ....................................................................................232 5.4 小结与展望 .............................................................................................................................234 第 6 章算法链与管道 ...................................................................................................................236 6.1 用预处理进行参数选择 .........................................................................................................237 6.2 构建管道 .................................................................................................................................238 6.3 在网格搜索中使用管道 .........................................................................................................239 6.4 通用的管道接口 .....................................................................................................................242 6.4.1 用 make_pipeline 方便地创建管道 .........................................................................243 6.4.2 访问步骤属性 ............................................................................................................244 6.4.3 访问网格搜索管道中的属性 ....................................................................................244 书籍下载qq群6089740 钉钉群21734177 IT书籍 http://t.cn/RDIAj5D 电子书寻找看手相钉钉或微信pythontesting

viii ｜目录 6.5 网格搜索预处理步骤与模型参数 .........................................................................................246 6.6 网格搜索选择使用哪个模型 .................................................................................................248 6.7 小结与展望 .............................................................................................................................249 第 7 章处理文本数据 ...................................................................................................................250 7.1 用字符串表示的数据类型 .....................................................................................................250 7.2 示例应用：电影评论的情感分析 .........................................................................................252 7.3 将文本数据表示为词袋 .........................................................................................................254 7.3.1 将词袋应用于玩具数据集 ........................................................................................255 7.3.2 将词袋应用于电影评论 ............................................................................................256 7.4 停用词 .....................................................................................................................................259 7.5 用 tf-idf 缩放数据 ..................................................................................................................260 7.6 研究模型系数 .........................................................................................................................263 7.7 多个单词的词袋（n 元分词） ................................................................................................263 7.8 高级分词、词干提取与词形还原 .........................................................................................267 7.9 主题建模与文档聚类 .............................................................................................................270 7.10 小结与展望 ...........................................................................................................................277 第 8 章全书总结 ............................................................................................................................278 8.1 处理机器学习问题 .................................................................................................................278 8.2 从原型到生产 .........................................................................................................................279 8.3 测试生产系统 .........................................................................................................................280 8.4 构建你自己的估计器 .............................................................................................................280 8.5 下一步怎么走 .........................................................................................................................281 8.5.1 理论 ............................................................................................................................281 8.5.2 其他机器学习框架和包 ............................................................................................281 8.5.3 排序、推荐系统与其他学习类型 ............................................................................282 8.5.4 概率建模、推断与概率编程 ....................................................................................282 8.5.5 神经网络 ....................................................................................................................283 8.5.6 推广到更大的数据集 ................................................................................................283 8.5.7 磨练你的技术 ............................................................................................................284 8.6 总结 .........................................................................................................................................284 关于作者..............................................................................................................................................285 关于封面..............................................................................................................................................285

书籍下载gg群6089740钉钉群21734177 IT书籍http:/t.cn/RDIAj5D 前言目前，从医疗诊断和治疗到在社交网络上寻找好友，许多商业应用和研究项目都离不开机器学习。许多人以为，只有大公司的大型研究团队才能用到机器学习。在本书中，我们要向你展示，自己动手构建机器学习解决方案是多么容易的一件事，也将介绍如何将这件事做到最好。学完本书中的知识，你可以自己构建系统，研究Twitter用户的情感，或者对全球变暖做出预测。机器学习的应用十分广泛，如今的海量数据使得其应用范围更是远超人们的想象。目标读者本书是为机器学习从业者或有志成为机器学习从业者的人准备的，他们在为现实生活中的机器学习问题寻找解决方案。这是一本入门书，不需要读者具备机器学习或人工智能 (artificial intelligence,AI)的相关知识。我们主要使用Python和scikit-Learn库，一步步构建一个有效的机器学习应用。我们介绍的方法适用于科学家和研究人员，也会对开发商业应用的数据科学家有所帮助。如果你对Python以及NumPy和matplotlib库有所了解的话，将能够更好地掌握本书的内容。我们刻意不将数学作为重点，而是将机器学习算法的实践作为重点。数学（尤其是概率论)是机器学习算法的基石，所以我们不会详细分析算法的细节。如果你对机器学习算法的数学部分感兴趣，我们推荐阅读Trevor Hastie、Robert Tibshirani和Jerome Friedman合著的《统计学习基础》(Elements of Statistical Learning,Springer出版社）一书，可以在几位作者的网站上免费阅读这本书(http://statweb.stanford.edu/~tibs/ElemStatLearn/)。我们也不会从头讲解如何编写机器学习算法，而是将重点放在如何应用sc1kit-learn库和其他库中已经实现的海量模型。写作本书的原因市面上已经有许多关于机器学习和AI的书了，但这些书都是为计算机科学专业的研究生或博士生准备的，里面全都是高等数学的内容。与之形成鲜明对比的是，在研究领域和商业应用中，机器学习是作为一般工具使用的。如今，使用机器学习并不需要拥有博士学 ix 电子书寻找看手相钉钉或微信pythontesting

ix 前言目前，从医疗诊断和治疗到在社交网络上寻找好友，许多商业应用和研究项目都离不开机器学习。许多人以为，只有大公司的大型研究团队才能用到机器学习。在本书中，我们要向你展示，自己动手构建机器学习解决方案是多么容易的一件事，也将介绍如何将这件事做到最好。学完本书中的知识，你可以自己构建系统，研究 Twitter 用户的情感，或者对全球变暖做出预测。机器学习的应用十分广泛，如今的海量数据使得其应用范围更是远超人们的想象。目标读者本书是为机器学习从业者或有志成为机器学习从业者的人准备的，他们在为现实生活中的机器学习问题寻找解决方案。这是一本入门书，不需要读者具备机器学习或人工智能（artificial intelligence，AI）的相关知识。我们主要使用 Python 和 scikit-learn 库，一步一步构建一个有效的机器学习应用。我们介绍的方法适用于科学家和研究人员，也会对开发商业应用的数据科学家有所帮助。如果你对 Python 以及 NumPy 和 matplotlib 库有所了解的话，将能够更好地掌握本书的内容。我们刻意不将数学作为重点，而是将机器学习算法的实践作为重点。数学（尤其是概率论）是机器学习算法的基石，所以我们不会详细分析算法的细节。如果你对机器学习算法的数学部分感兴趣，我们推荐阅读 Trevor Hastie、Robert Tibshirani 和 Jerome Friedman 合著的《统计学习基础》（Elements of Statistical Learning，Springer 出版社）一书，可以在几位作者的网站上免费阅读这本书（http://statweb.stanford.edu/~tibs/ElemStatLearn/）。我们也不会从头讲解如何编写机器学习算法，而是将重点放在如何应用 scikit-learn 库和其他库中已经实现的海量模型。写作本书的原因市面上已经有许多关于机器学习和 AI 的书了，但这些书都是为计算机科学专业的研究生或博士生准备的，里面全都是高等数学的内容。与之形成鲜明对比的是，在研究领域和商业应用中，机器学习是作为一般工具使用的。如今，使用机器学习并不需要拥有博士学书籍下载qq群6089740 钉钉群21734177 IT书籍 http://t.cn/RDIAj5D 电子书寻找看手相钉钉或微信pythontesting

位。然而，能够完全涵盖在实践中实现机器学习算法的所有重要内容，而又不需要先修高等数学课程，这样的学习资源少之又少。对于那些想要使用机器学习算法而又不想花费大量时间研读微积分、线性代数和概率论的人来说，我们希望本书能够有所帮助。本书概览本书的结构大致如下。 ·第1章介绍机器学习的基本概念及其应用，并给出本书会用到的基本设置。 ·第2章和第3章介绍实践中最常用的机器学习算法，并讨论这些算法的优缺点。 ·第4章介绍在机器学习中待处理数据的呈现方式的重要性，以及应重点关注数据的哪些方面。 ·第5章介绍模型评估和调参的高级方法，重点讲解交叉验证和网格搜索。 ·第6章解释管道的概念。管道用于串联多个模型并封装工作流。第7章介绍如何将前面各章讲述的方法应用到文本数据上，还介绍了一些文本特有的处理方法。第8章对全书进行总结，还介绍了有关更高级主题的参考资料」虽然第2章和第3章给出了实际算法，但对于初学者来说，并不需要理解所有这些算法。如果你想要尽快构建一个机器学习系统，我们建议你首先阅读第1章和第2章的开始部分，里面介绍了所有的核心概念。然后你可以翻到2.5节，里面提到了我们介绍的所有监督学习模型。从中选择最适合你需求的模型，然后翻回到对应小节阅读其详细内容。之后你可以使用第5章中的方法对你的模型进行评估和调参。在线资源在学习本书时，一定要参考scikit-learn官方网站(http:l∥scikit--leam.org),查阅关于类和函数的更详细的文档，以及很多示例。此外，Andreas Muller创建的视频课程“scikit-leam 高等机器学习”(Advanced Machine Learning with scikit-leam)可以作为本书的补充材料。你可以在http:/shop.oreilly.com/product/0636920043836.do观看该课程。排版约定本书使用了下列排版约定。 ·黑体表示新术语或重点强调的内容。等宽字体(constant width) 表示程序片段，以及正文中出现的变量、函数名、数据库、数据类型、环境变量、语句和关键字等。也用于表示命令、模块和包的名称。加粗等宽字体(constant width bold) 表示需要用户逐字输入的命令或其他文本。 ×丨前言图灵社区会员zhugeln(499702878@qq.com)专享尊重版权

x ｜前言位。然而，能够完全涵盖在实践中实现机器学习算法的所有重要内容，而又不需要先修高等数学课程，这样的学习资源少之又少。对于那些想要使用机器学习算法而又不想花费大量时间研读微积分、线性代数和概率论的人来说，我们希望本书能够有所帮助。本书概览本书的结构大致如下。 • 第 1 章介绍机器学习的基本概念及其应用，并给出本书会用到的基本设置。 • 第 2 章和第 3 章介绍实践中最常用的机器学习算法，并讨论这些算法的优缺点。 • 第 4 章介绍在机器学习中待处理数据的呈现方式的重要性，以及应重点关注数据的哪些方面。 • 第 5 章介绍模型评估和调参的高级方法，重点讲解交叉验证和网格搜索。 • 第 6 章解释管道的概念。管道用于串联多个模型并封装工作流。 • 第 7 章介绍如何将前面各章讲述的方法应用到文本数据上，还介绍了一些文本特有的处理方法。 • 第 8 章对全书进行总结，还介绍了有关更高级主题的参考资料。虽然第 2 章和第 3 章给出了实际算法，但对于初学者来说，并不需要理解所有这些算法。如果你想要尽快构建一个机器学习系统，我们建议你首先阅读第 1 章和第 2 章的开始部分，里面介绍了所有的核心概念。然后你可以翻到 2.5 节，里面提到了我们介绍的所有监督学习模型。从中选择最适合你需求的模型，然后翻回到对应小节阅读其详细内容。之后你可以使用第 5 章中的方法对你的模型进行评估和调参。在线资源在学习本书时，一定要参考 scikit-learn 官方网站（http://scikit-learn.org），查阅关于类和函数的更详细的文档，以及很多示例。此外，Andreas Müller 创建的视频课程“scikit-learn 高等机器学习”（Advanced Machine Learning with scikit-learn）可以作为本书的补充材料。你可以在 http://shop.oreilly.com/product/0636920043836.do 观看该课程。排版约定本书使用了下列排版约定。 • 黑体表示新术语或重点强调的内容。 • 等宽字体（constant width）表示程序片段，以及正文中出现的变量、函数名、数据库、数据类型、环境变量、语句和关键字等。也用于表示命令、模块和包的名称。 • 加粗等宽字体（constant width bold）表示需要用户逐字输入的命令或其他文本。图灵社区会员 zhugeln(499702878@qq.com) 专享尊重版权

xii ｜前言技术专家、软件开发人员、Web 设计师、商务人士和创意专家等，在开展调研、解决问题、学习和认证培训时，都将 Safari Books Online 视作获取资料的首选渠道。对于企业、政府、教育机构和个人，Safari Books Online 都提供各种产品组合和灵活的定价策略。用户可通过一个功能完备的数据库检索系统访问 O’Reilly Media、Prentice Hall Professional、 Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、Focal Press、 Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、 Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、Jones & Bartlett、 Course Technology 等数百家出版社的上千种图书、培训视频和正式出版之前的书稿。要了解 Safari Books Online 的更多信息，请访问我们的网站。联系我们请把对本书的评价和问题发给出版社。美国： O’Reilly Media, Inc. 1005 Gravenstein Highway North Sebastopol, CA 95472 中国：北京市西城区西直门南大街 2 号成铭大厦 C 座 807 室（100035）奥莱利技术咨询（北京）有限公司我们为本书创建了一个网页，在上面列出了本书的勘误表、示例以及其他信息。本书的网站地址是：http://shop.oreilly.com/product/0636920030515.do。如果你想就本书发表评论或技术性问题，请发送电子邮件到 bookquestions@oreilly.com。想了解更多 O’Reilly 图书、培训课程、会议和新闻的信息，请访问我们的网站： http://www.oreilly.com。我们在 Facebook 的地址如下：http://facebook.com/oreilly 请关注我们的 Twitter 动态：http://twitter.com/oreillymedia 我们的 YouTube 视频地址如下：http://www.youtube.com/oreillymedia 致谢来自Andreas的致谢如果没有许多人的帮助和支持，本书永远不会出版。我要感谢本书编辑 Meghan Blanchette 和 Brian MacDonald，特别是 Dawn Schanafelt，感谢

书籍下载qg群6089740钉钉群21734177 IT书籍http:/t.cn/RDIAj5D 他们帮助我和Sarah共同完成这本书。我要感谢我的审稿人Thomas Caswell、.Olivier Grisel、Stefan van der Walt和John Myles Wite,感谢他们花费时间阅读本书的早期版本，并提供宝贵的反馈意见。这些意见也成为了科学计算开源生态系统的基石。我永远感谢热情的Python科学计算开源社区，特别要感谢scikit-learn的贡献者们。如果没有这个社区的支持和帮助，特别是Gael Varoquaux、Alex Gramfort和Olivier Grisel的支持和帮助，我永远无法成为scikit-learn的核心贡献者，也无法像现在这样对这个包有如此深刻的理解。我还要感谢scikit-learn的其他所有贡献者，他们花费了大量时间改进并维护这个包。我还要感谢与我讨论的许多同事和同行。这些谈话帮助我理解了机器学习的挑战，并让我产生构思一本教科书的想法。我与许多人讨论过机器学习，但我要特别感谢其中的Bian McFee、Daniela Huttenkoppen、.Joel Nothman、Gilles Louppe、Hugo Bowne-Anderson, Sven Kreis、Alice Zheng、Kyunghyun Cho、Pablo Baberas和Dan Cervone。我还要感谢Rachel Rakov.,她对本书的早期版本做了许多热心的测试和校对工作，在成书过程中给了我很多帮助。就个人来说，我要感谢我的父母Harald和Margot,还有我的姐姐Miriam,感谢他们持续给予我的支持和鼓励。我还要感谢生命中的许多人，他们的爱和友谊给我能量，支持我完成这项富有挑战性的任务。来自Sarah的致谢我要感谢Meghan Blanchette,没有她的帮助和指导，甚至就不会有本项目的存在。感谢 Celia La和Brian Carlson早期对本书的审阅。感谢O'Reilly工作人员无尽的耐心。最后，感谢DTS,感谢你永恒不变的支持。电子书扫描如下二维码，即可购买本书电子版。 ▣ 前言|xi 电子书寻找看手相钉钉或微信pythontesting

前言｜ xiii 他们帮助我和 Sarah 共同完成这本书。我要感谢我的审稿人 Thomas Caswell、Olivier Grisel、Stefan van der Walt 和 John Myles White，感谢他们花费时间阅读本书的早期版本，并提供宝贵的反馈意见。这些意见也成为了科学计算开源生态系统的基石。我永远感谢热情的 Python 科学计算开源社区，特别要感谢 scikit-learn 的贡献者们。如果没有这个社区的支持和帮助，特别是 Gael Varoquaux、Alex Gramfort 和 Olivier Grisel 的支持和帮助，我永远无法成为 scikit-learn 的核心贡献者，也无法像现在这样对这个包有如此深刻的理解。我还要感谢 scikit-learn 的其他所有贡献者，他们花费了大量时间改进并维护这个包。我还要感谢与我讨论的许多同事和同行。这些谈话帮助我理解了机器学习的挑战，并让我产生构思一本教科书的想法。我与许多人讨论过机器学习，但我要特别感谢其中的 Brian McFee、Daniela Huttenkoppen、Joel Nothman、Gilles Louppe、Hugo Bowne-Anderson、 Sven Kreis、Alice Zheng、Kyunghyun Cho、Pablo Baberas 和 Dan Cervone。我还要感谢 Rachel Rakov，她对本书的早期版本做了许多热心的测试和校对工作，在成书过程中给了我很多帮助。就个人来说，我要感谢我的父母 Harald 和 Margot，还有我的姐姐 Miriam，感谢他们持续给予我的支持和鼓励。我还要感谢生命中的许多人，他们的爱和友谊给我能量，支持我完成这项富有挑战性的任务。来自Sarah的致谢我要感谢 Meghan Blanchette，没有她的帮助和指导，甚至就不会有本项目的存在。感谢 Celia La 和 Brian Carlson 早期对本书的审阅。感谢 O’Reilly 工作人员无尽的耐心。最后，感谢 DTS，感谢你永恒不变的支持。电子书扫描如下二维码，即可购买本书电子版。书籍下载qq群6089740 钉钉群21734177 IT书籍 http://t.cn/RDIAj5D 电子书寻找看手相钉钉或微信pythontesting