《商务智能》课程学习资料：集成学习实用机器学习方法 Ensemble Learning

1. 从Netflix Prize说起 2. 集成学习的基本思想 1. 集成学习为何有效 2. 如何构建不同的基学习器 3. 如何综合多个基学习器 3. Bagging 1. Bagging的基本思想 2. 随机森林以及在R中的实际应用 4. Boosting 1. Boosting的基本思想 2. AdaBoost以及在R中的实际应用 5. Stacking 6. 小结以及实用技巧

团购合买资源类别：文库，文档格式：PDF，文档页数：50，文件大小：1.39MB

集成学习 Ensemble Learning 孙亮 sunliang@outlook.com 互联网新技术在线教育领航者

互联网新技术在线教育领航者集成学习 Ensemble Learning 孙亮 sun.liang@outlook.com

Outline 1.从 Netflix prize说起 2.集成学习的基本思想 1.集成学习为何有效 2.如何构建不同的基学习器 3.如何综合多个基学习器 3. Bagging 1. Bagging的基本思想 2.随机森林以及在R中的实际应用 4. Boosting 1. Boosting的基本思想 2. Adaboost以及在R中的实际应用 5. Stacking 6.小结以及实用技巧互联网新技术在线教育领航者业晕学院 ▲ ChinaHadoop.cn

互联网新技术在线教育领航者 Outline 1. 从Netflix Prize说起 2. 集成学习的基本思想 1. 集成学习为何有效 2. 如何构建不同的基学习器 3. 如何综合多个基学习器 3. Bagging 1. Bagging的基本思想 2. 随机森林以及在R中的实际应用 4. Boosting 1. Boosting的基本思想 2. AdaBoost以及在R中的实际应用 5. Stacking 6. 小结以及实用技巧

从 Netflix prize说起 http://www.netflixprize NETFLIX com/ Movies For You Welcome! Netflix prize寻求有效的算法从过去的历史信息中准 ouest, you sho 确的预测用户对于某一电影 are doing on the Leaderboard. 的喜好程度奖金1百万美元,要求解决方案的RMSE比当时Netf的方案提高10% 口我们需要预测给定的用户-电影对对应的讦分(1星到5星口评价标准: Root mean square error(RMSE) 互联网新技术在线教育领航者业晕学院 ▲ ChinaHadoop.cn

互联网新技术在线教育领航者从Netflix Prize说起  我们需要预测给定的用户-电影对对应的评分（1星到5星）  评价标准：Root mean square error (RMSE) http://www.netflixprize. com/ Netflix Prize寻求有效的算法从过去的历史信息中准确的预测用户对于某一电影的喜好程度奖金1百万美元，要求解决方案的RMSE比当时Netflix的方案提高10%

Netflix prize 口具体任务训练集由一组用户-影片的评分(1星到5星)组成需要构建模型来预测测试集中的用户-影片的评分要求解决方案的RMSE比当射Net的方案提高10% 日竞赛过程 ■比赛开始肘主要集中于单个模型的性能提升但是随看比赛的推进,单个模型的性能提升越来越慢主要竞争队伍将多个模型利用集成学习合并,取得了显著的提升互联网新技术在线教育领航者业晕学院 ▲ ChinaHadoop.cn

互联网新技术在线教育领航者 Netflix Prize  具体任务  训练集由一组用户-影片的评分（1星到5星）组成  需要构建模型来预测测试集中的用户-影片的评分  要求解决方案的RMSE比当时Netflix的方案提高10%  竞赛过程  比赛开始时主要集中于单个模型的性能提升  但是随着比赛的推进，单个模型的性能提升越来越慢  主要竞争队伍将多个模型利用集成学习合并，取得了显著的提升

Netflix prize获胜方案 Team Name Best Test score Improvement Best submit Time Bellkors Pragmatic ChaDs 200907-2618:18:28 The Ensemble 200907-26183822 2009-07-10212440 Opera Solutions and vandelay United 08588 2009-07-10011231 Vandelay industries! 200907-100032:20 200906-241206:56 ellkor in Bicchaos 08601 20090513081409 2009-07-24171843 08622 94820090712131151 Biqchaos 1233:59 08623 2009-07240034.07 08624 200907261719:11 Progress Prize 2008- RMSE=0.8627- Winning Team: BellKor in Bio chaos wanglang 00907151453:22 08643 200904221831:32 200906-21192453 009-07-15155304 statin a garage 08662 18.J Dennis Su Craia carmichael 200907-251600:54 200903211620:50 Cinematch score- RMSE=0. 9525 Our final solution (RMSE=0. 8712) consists of blending 107 individual results 互联网新技术在线教育领航者业晕学院 ▲ ChinaHadoop.cn

互联网新技术在线教育领航者 Netflix Prize获胜方案 “Our final solution (RMSE=0.8712) consists of blending 107 individual results.

集成学习在机器学习竞赛中的广泛使用 2: KDD THE 18TH 2012 ACM SIGKDD CONFERENCE ON 器会KDD BEIJING KNOWLEDGE DISCOVERY AND DATA MINING August,2012 (DD2013 CHICA O, LINOIS USA A MINING gaggle KDD2044 Welcome to Tianchi 互联网新技术在线教育领航者业晕学院 ▲ ChinaHadoop.cn

互联网新技术在线教育领航者集成学习在机器学习竞赛中的广泛使用

集成学习口在集成学习构建了一组基学习器(base learner),并将它们综合起来作为最终的模型在很多集成学习模型中,对基学习器的要求很低口集成学习适用于机器学习的几乎所有领城 ■回归分类推荐排序互联网新技术在线教育领航者业晕学院 ▲ ChinaHadoop.cn

互联网新技术在线教育领航者集成学习  在集成学习构建了一组基学习器（base learner），并将它们综合起来作为最终的模型  在很多集成学习模型中，对基学习器的要求很低  集成学习适用于机器学习的几乎所有领域  回归  分类  推荐  排序

集成学习的为何有效? 口多样( diverse)的基学习器 ■不同的模型取长补短 ■每个基学习器都犯不同的错,综合起来犯错的可能性不大口反例:相同的多个基学习器不会帶来任何提升互联网新技术在线教育领航者 9/48 业晕学院 ▲ ChinaHadoop.cn

互联网新技术在线教育领航者集成学习的为何有效？  多样（diverse）的基学习器  不同的模型取长补短  每个基学习器都犯不同的错，综合起来犯错的可能性不大  反例：相同的多个基学习器不会带来任何提升 9/48

集成学习示例1:分类问题口每个线性模型都不能成功将该数据集分类口3个线性模型的简单综合即可将数据集成功分类口每个模型犯不同的错, 但是在综合肘能够取长补短,使得综合后的模型性能更好互联网新技术在线教育领航者业晕学院 ▲ ChinaHadoop.cn

互联网新技术在线教育领航者集成学习示例1：分类问题  每个线性模型都不能成功将该数据集分类  3个线性模型的简单综合即可将数据集成功分类  每个模型犯不同的错，但是在综合时能够取长补短，使得综合后的模型性能更好

集成学习示例2:天气预测 Realit 关… exe. XX s8 x6 Combi 互联网新技术在线教育领航者业晕学院 ▲ ChinaHadoop.cn

互联网新技术在线教育领航者集成学习示例2：天气预测 X X X X X X X X X X X X X

点击进入文档下载页（PDF格式）

共50页，可试读17页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录