数据科学论 —Python之道 第9课机器学习 本课程基于BigDataUniversity.com.cn的《Data science with Python Bootcamp》 进行了重新组织与扩充 1
数据科学引论 —— Python之道 第9课 机器学习 本课程基于BigDa瀇aU瀁i瀉e瀅瀆i瀇瀌.c瀂瀀.c瀁的《Da瀇a 瀆cie瀁ce 瀊i瀇h P瀌瀇h瀂瀁 B瀂瀂瀇ca瀀瀃》 进行了重新组织与扩充 1
Snapchat 器 0 ●●●● ●●●●●● ●●●● ●●●●● 2
Snapchat 2
XBox Kinect 公 3
XBox Kinect 3
数据科学方法学 Business Analytic Data Data Data Understanding Approach Requirements Collection Understanding Prediction Interpretation DEPLOY! Justification 和养 Testing Feedback Deployment Evaluation Modeling Data Preparation 4
B瀈瀆i瀁e瀆瀆 U瀁de瀅瀆瀇a瀁di瀁g 数据科学方法学 M瀂de濿i瀁g Da瀇a P瀅e瀃a瀅a瀇i瀂瀁 Da瀇a Re瀄瀈i瀅e瀀e瀁瀇瀆 Feedbac濾 De瀃濿瀂瀌瀀e瀁瀇 P瀅edic瀇i瀂瀁 I瀁瀇e瀅瀃瀅e瀇a瀇i瀂瀁 J瀈瀆瀇ifica瀇i瀂瀁 Te瀆瀇i瀁g Da瀇a C瀂濿濿ec瀇i瀂瀁 E瀉a濿瀈a瀇i瀂瀁 Da瀇a U瀁de瀅瀆瀇a瀁di瀁g A瀁a濿瀌瀇ic A瀃瀃瀅瀂ach 4
主要的分析方法与算法 ·关联分析Associations ·例如:频繁共现项 ·算法:Apriori关联规则 ·分类Classification ·例如:事物类别预测(prediction of item class) ·算法:决策树D3,C4.5,C5.0),分类与回归树(CART),支持向量机(SVM), 神经网络(NN),朴素贝叶斯(Naive Bayes),卡方自动交叉检验(CHAID) ·评估/预测Estimation/Prediction ·预测连续值 ·算法:回归,支持向量机(SVM),K-近邻(KNN) ·聚类Clustering ·例如:查找患者群 ·算法:k-均值,分层聚类 5
主要的分析方法与算法 • 关联分析 A瀆瀆瀂cia瀇i瀂瀁瀆 • 例如: 频繁共现项 • 算法: A瀃瀅i瀂瀅i关联规则 • 分类 C濿a瀆瀆ifica瀇i瀂瀁 • 例如: 事物类别预测(瀃瀅edic瀇i瀂瀁 瀂f i瀇e瀀 c濿a瀆瀆) • 算法: 决策树(ID3, C4.5, C5.0), 分类与回归树(CART), 支持向量机(SVM), 神经网络(NN), 朴素贝叶斯(Naï瀉e Ba瀌e瀆),卡方自动交叉检验(CHAID) • 评估/预测 E瀆瀇i瀀a瀇i瀂瀁/P瀅edic瀇i瀂瀁 • 预测连续值 • 算法: 回归, 支持向量机(SVM), K-近邻(KNN) • 聚类 C濿瀈瀆瀇e瀅i瀁g • 例如: 查找患者群 • 算法: 濾-均值, 分层聚类 5
主要的分析方法与算法 ·序列模式挖掘Sequence mining ·例如:点击流 ·算法:马尔科夫模型,隐马尔可夫模型 ·降维Dimension Reduction ·主成分分析 ·可视化Visualization ·方便人们发现与理解 ·概括Summarization ·描述数据组 ·偏差检测Deviation Detection ·查找变点 ·链接/图分析Link/Graph Analysis ·发现关系 6
主 要 的 分 析 方 法 与 算 法 • 序 列 模 式 挖 掘 Se瀄瀈e瀁ce 瀀i瀁i瀁g • 例 如 : 点 击 流 • 算 法: 马 尔 科 夫 模 型 , 隐 马 尔 可 夫 模 型 • 降 维 Di瀀e瀁瀆i瀂瀁 Red瀈c瀇i瀂瀁 • 主成分分析 • 可 视 化 Vi瀆瀈a濿i瀍a瀇i瀂瀁 • 方 便 人 们 发 现 与 理 解 • 概 括 S瀈瀀瀀a瀅i瀍a瀇i瀂瀁 • 描述数据组 • 偏 差 检 测De瀉ia瀇i瀂瀁 De瀇ec瀇i瀂瀁 • 查 找 变 点 • 链 接 / 图 分 析 Li瀁濾/G瀅a瀃h A瀁a濿瀌瀆i瀆 • 发 现 关 系 6
预测
预 测 7
CO2排放量预测 cdf=df[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB','CO2EMISSIONS'] cdf.head() ENGINESIZE CYLINDERS FUELCONSUMPTION_COMB CO2EMISSIONS 02.0 4 8.5 196 12.4 4 9.6 221 21.5 4 5.9 136 33.5 6 11.1 255 43.5 6 10.6 244 8
CO2排放量预测 8
评估/预测示例 ·问题: ·我们是否能够不经测试就可以预测C○2的排放量?假设汽车尚未被制造 出来,我们就想要知道它大致的CO2的排放量,这是否可能呢? ·肯定不容易 ·解决方案: ·汽车的CO2排放量可以基于发动机的排量、类型、模式、汽缸、油耗等 计算出来。预测用来评估预期的CO2排放量。 9
评估/预测示例 • 问题: • 我们是否能够不经测试就可以预测 CO2 的排放量? 假设汽车尚未被制造 出来,我们就想要知道它大致的 CO2 的排放量,这是否可能呢? • 肯定不容易 • 解决方案: • 汽车的 CO2 排放量可以基于发动机的排量、类型、模式、汽缸、油耗等 计算出来。预测用来评估预期的 CO2 排放量。 9
什么是预测? ·预测,就是对连续的/数值的/有序的值建模 ·例如,创建CO2排放量的模型,然后,该模型被用于预测新车型 的CO2排放量 历史数据:以往车型的发动机 的排量、类型、模式、汽缸、 油耗、C02排放量等 模型 2 New Car Expected Co2 10
什么是预测? • 预测,就是对连续的/数值的/有序的 值建模 • 例如,创建CO2排放量的模型,然后,该模型被用于预测新车型 的CO2排放量 10 历史数据:以往车型的发动机 的排量、类型、模式、汽缸、 油耗、CO2排放量等 模型