数据科学论 —Python之道 第7课数据科学方法学 本课程基于BigDataUniversity.com.cn的《Data science with Python Bootcamp》 进行了重新组织与扩充 1
数据科学引论 —— Pyth瀂瀁之道 第7课 数据科学方法学 本课程基于BigDa瀇aU瀁i瀉e瀅瀆i瀇瀌.c瀂瀀.c瀁的《Da瀇a 瀆cie瀁ce 瀊i瀇h P瀌瀇h瀂瀁 B瀂瀂瀇ca瀀瀃》 进行了重新组织与扩充 1
内容提纲 ·数据科学方法学 ·问题定义与业务理解 ·分析方法 ·数据需求 ·数据收集 ·数据理解 ·数据准备 ·建模 ·模型评估 ·部署 ·反馈 ·案例研究与Demo 2
内 容 提 纲 • 数 据 科 学 方 法 学 • 问 题 定 义 与 业 务 理 解 • 分 析 方 法 • 数 据 需 求 • 数 据 收 集 • 数 据 理 解 • 数 据 准 备 • 建 模 • 模 型 评 估 • 部 署 • 反 馈 • 案 例 研 究 与De瀀瀂 2
数据科学方法学 3
数据科学方法学 3
数据科学方法学 1.Business 2.Analytic 3.Data 4.Data 5.Data Understanding Approach Requirements Collection Understanding Prediction Interpretation DEPLOY! Justification Testing 6.Data 10.Feedback 9. 8.Evaluation 7.Modelling Deployment Preparation 4
1. B瀈瀆i瀁e瀆瀆 U瀁de瀅瀆瀇a瀁di瀁g 数据科学方法学 7. M瀂de濿濿i瀁g 6. Da瀇a P瀅e瀃a瀅a瀇i瀂瀁 3. Da瀇a Re瀄瀈i瀅e瀀e瀁瀇瀆 9. De瀃濿瀂瀌瀀e瀁瀇 10. Feedbac濾 P瀅edic瀇i瀂瀁 I瀁瀇e瀅瀃瀅e瀇a瀇i瀂瀁 J瀈瀆瀇ifica瀇i瀂瀁 Te瀆瀇i瀁g 4. Da瀇a C瀂濿濿ec瀇i瀂瀁 8. E瀉a濿瀈a瀇i瀂瀁 5. Da瀇a U瀁de瀅瀆瀇a瀁di瀁g 2. A瀁a濿瀌瀇ic A瀃瀃瀅瀂ach 4
航班延误 X San Francisco O New York "Peter will fly from San Francisco to New York for a meeting at 3:00pm on Friday,July 22." Can Peter anticipate whether his flight will be delayed? 5
“Pe瀇e瀅 瀊i濿濿 f濿瀌 f瀅瀂瀀 Sa瀁 F瀅a瀁ci瀆c瀂 瀇瀂 Ne瀊 Y瀂瀅濾 f瀂瀅 a 瀀ee瀇i瀁g a瀇 3:00瀃瀀 瀂瀁 F瀅ida瀌, J瀈濿瀌 22.” Can Peter anticipate whether his flight will be delayed? 航班延误 5 San Francisco New York
业务理解 X 航班延误:预测某天的某航班是否会延误 1.Business Understanding ·每个项目都始于业务理解 ·项目的目标是什么? ·我们正在做什么一我们的目标是什么? 1.提出明确的问题 2.定义有关问题和解决方案的需求 6
• 每个项目都始于业务理解 • 项目的目标是什么? • 我们正在做什么 – 我们的目标是什么? 1. 提出明确的问题 2. 定义有关问题和解决方案的需求 6 1. B瀈瀆i瀁e瀆瀆 U瀁de瀅瀆瀇a瀁di瀁g 航班延误: 预测某天的某航班是否会延误 业务理解
分析方法 X 通过利用航班信息,我们可能可以预测指定日期的从 空港X飞往Y的航班是否延迟: 2.Analytic 预测[DELAYED]或[NOT-DELAYED] Approach ·选择适合的统计/机器学习技术 ·线性回归 ·文本分析 逻辑回归 支持向量机/支持向 。 聚类 量回归(SVM/SVR) ·决策树 ·神经网络 ·主成分分析 7
通过利用航班信息,我们可能可以预测指定日期的从 空港X飞往Y的航班是否延迟: 预测 [DELAYED] 或 [NOT-DELAYED]. • 选择适合的统计/机器学习技术 7 2. A瀁a濿瀌瀇ic A瀃瀃瀅瀂ach • 线性回归 • 逻辑回归 • 聚类 • 决策树 • 主成分分析 • 文本分析 • 支持向量机/支持向 量回归(SVM/SVR) • 神经网络 分析方法
X 需要哪些数据? ·航班数据 3.Data 什么格式? Requirements ·有可用的开放数据 收集数据 ·每一年所有美国国内航班的数据 4.Data ·CSV格式 Collection 这些数据看起来什么样? ·哪些机场最繁忙? 初步的见解如何? 哪些航班最容易延误? 5.Data 可以可视化这些数据吗? 哪些机场最佳/最差? Understanding 是否还遗漏了什么? 8
8 3. Da瀇a Re瀄瀈i瀅e瀀e瀁瀇瀆 4. Da瀇a C瀂濿濿ec瀇i瀂瀁 5. Da瀇a U瀁de瀅瀆瀇a瀁di瀁g 需要哪些数据? 什么格式? 收集数据 这些数据看起来什么样? 初步的见解如何? 可以可视化这些数据吗? 是否还遗漏了什么? • 航班数据 • 有可用的开放数据 • 每一年所有美国国内航班的数据 • CSV 格式 • 哪些机场最繁忙? • 哪些航班最容易延误? • 哪些机场最佳/最差?
航班数据 X 这里只考察2007年的数据(700万个航班) ArrTime CRSArrTime CRSDepTime DayofWeek DayofMonth DepDelay DepTime Dest Distance Month Origin UniqueCarrier Year 。。十 十 1341 1340 1225 1 7 1232 ONT 389 1 SMF WN|2007 2043 2035 1905 1 1 3 1918 PDX 479 1| SMF WN|2007 2334 2300 2130 1 36 2206 PDX 479 1 SMF WN|2007 1356 1330 1200 1 3 1230 PDX 479 1 SMF WN|2007 957 1000 830 1 1 1 831 PDX 479 1 SMF N|2007 ↑ 出发延误(分钟) http://stat-computing.org/dataexpo/2009/the-data.html 9
航班数据 9 这里只考察2007年的数据(700万个航班) h瀇瀇瀃://瀆瀇a瀇-c瀂瀀瀃瀈瀇i瀁g.瀂瀅g/da瀇ae瀋瀃瀂/2009/瀇he-da瀇a.h瀇瀀濿 出发延误 (分钟)
哪些机场最繁忙? MSP ●● 95 DEN CVG SFO LAS LAX PHX ATL DFW ● AH 0 10
10 哪些机场最繁忙?