集成学习 Ensemble Learning 孙亮 sunliang@outlook.com 互联网新技术在线教育领航者
互联网新技术在线教育领航者 集成学习 Ensemble Learning 孙亮 sun.liang@outlook.com
Outline 1.从 Netflix prize说起 2.集成学习的基本思想 1.集成学习为何有效 2.如何构建不同的基学习器 3.如何综合多个基学习器 3. Bagging 1. Bagging的基本思想 2.随机森林以及在R中的实际应用 4. Boosting 1. Boosting的基本思想 2. Adaboost以及在R中的实际应用 5. Stacking 6.小结以及实用技巧 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 Outline 1. 从Netflix Prize说起 2. 集成学习的基本思想 1. 集成学习为何有效 2. 如何构建不同的基学习器 3. 如何综合多个基学习器 3. Bagging 1. Bagging的基本思想 2. 随机森林以及在R中的实际应用 4. Boosting 1. Boosting的基本思想 2. AdaBoost以及在R中的实际应用 5. Stacking 6. 小结以及实用技巧
从 Netflix prize说起 http://www.netflixprize NETFLIX com/ Movies For You Welcome! Netflix prize寻求有效的 算法从过去的历史信息中准 ouest, you sho 确的预测用户对于某一电影 are doing on the Leaderboard. 的喜好程度 奖金1百万美元,要求解决方案 的RMSE比当时Netf的方案提 高10% 口我们需要预测给定的用户-电影对对应 的讦分(1星到5星 口评价标准: Root mean square error(RMSE) 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 从Netflix Prize说起 我们需要预测给定的用户-电影对 对应 的评分(1星到5星) 评价标准:Root mean square error (RMSE) http://www.netflixprize. com/ Netflix Prize寻求有效的 算法从过去的历史信息中准 确的预测用户对于某一电影 的喜好程度 奖金1百万美元,要求解决方案 的RMSE比当时Netflix的方案提 高10%
Netflix prize 口具体任务 训练集由一组用户-影片的评分(1星到5星)组成 需要构建模型来预测测试集中的用户-影片的评分 要求解决方案的RMSE比当射Net的方案提高10% 日竞赛过程 ■比赛开始肘主要集中于单个模型的性能提升 但是随看比赛的推进,单个模型的性能提升越来越慢 主要竞争队伍将多个模型利用集成学习合并,取得了显著的提升 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 Netflix Prize 具体任务 训练集由一组用户-影片的评分(1星到5星)组成 需要构建模型来预测测试集中的用户-影片的评分 要求解决方案的RMSE比当时Netflix的方案提高10% 竞赛过程 比赛开始时主要集中于单个模型的性能提升 但是随着比赛的推进,单个模型的性能提升越来越慢 主要竞争队伍将多个模型利用集成学习合并,取得了显著的提升
Netflix prize获胜方案 Team Name Best Test score Improvement Best submit Time Bellkors Pragmatic ChaDs 200907-2618:18:28 The Ensemble 200907-26183822 2009-07-10212440 Opera Solutions and vandelay United 08588 2009-07-10011231 Vandelay industries! 200907-100032:20 200906-241206:56 ellkor in Bicchaos 08601 20090513081409 2009-07-24171843 08622 94820090712131151 Biqchaos 1233:59 08623 2009-07240034.07 08624 200907261719:11 Progress Prize 2008- RMSE=0.8627- Winning Team: BellKor in Bio chaos wanglang 00907151453:22 08643 200904221831:32 200906-21192453 009-07-15155304 statin a garage 08662 18.J Dennis Su Craia carmichael 200907-251600:54 200903211620:50 Cinematch score- RMSE=0. 9525 Our final solution (RMSE=0. 8712) consists of blending 107 individual results 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 Netflix Prize获胜方案 “Our final solution (RMSE=0.8712) consists of blending 107 individual results.
集成学习在机器学习竞赛中的广泛使用 2: KDD THE 18TH 2012 ACM SIGKDD CONFERENCE ON 器会KDD BEIJING KNOWLEDGE DISCOVERY AND DATA MINING August,2012 (DD2013 CHICA O, LINOIS USA A MINING gaggle KDD2044 Welcome to Tianchi 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 集成学习在机器学习竞赛中的广泛使用
集成学习 口在集成学习构建了一组基学习器(base learner),并将它们综合起来作为最终的模 型 在很多集成学习模型中,对基学习器的要求很 低 口集成学习适用于机器学习的几乎所有领城 ■回归 分类 推荐 排序 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 集成学习 在集成学习构建了一组基学习器(base learner),并将它们综合起来作为最终的模 型 在很多集成学习模型中,对基学习器的要求很 低 集成学习适用于机器学习的几乎所有领域 回归 分类 推荐 排序
集成学习的为何有效? 口多样( diverse)的基学习器 ■不同的模型取长补短 ■每个基学习器都犯不同的错,综合起来犯错的 可能性不大 口反例:相同的多个基学习器不会帶来任何提 升 互联网新技术在线教育领航者 9/48 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 集成学习的为何有效? 多样(diverse)的基学习器 不同的模型取长补短 每个基学习器都犯不同的错 ,综合起来犯错的 可能性不大 反例:相同的多个基学习器不会带来任何提 升 9/48
集成学习示例1:分类问题 口每个线性模型都不能成 功将该数据集分类 口3个线性模型的简单综 合即可将数据集成功分 类 口每个模型犯不同的错, 但是在综合肘能够取长 补短,使得综合后的模 型性能更好 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 集成学习示例1:分类问题 每个线性模型都不能成 功将该数据集分类 3个线性模型的简单综 合即可将数据集成功分 类 每个模型犯不同的错, 但是在综合时能够取长 补短,使得综合后的模 型性能更好
集成学习示例2:天气预测 Realit 关… exe. XX s8 x6 Combi 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 集成学习示例2:天气预测 X X X X X X X X X X X X X