数据科学引论 —Python之道 第1课什么是数据科学? 本课程基于BigDataUniversity..com.cn的《Data science with Python Bootcamp.》 进行了重新组织与扩充 1
数据科学引论 —— Python之道 第1课 什么是数据科学? 本课程基于B濼濺D濴t濴U瀁濼v濸rs濼ty.濶瀂瀀.濶瀁的《D濴t濴 s濶濼濸瀁濶濸 w濼t濻 Pyt濻瀂瀁 B瀂瀂t濶濴瀀瀃》 进行了重新组织与扩充 1
内容提纲 ·数据科学简介 ·数据科学家是什么样的职业? ·数据科学的应用 ·为什么要学习数据科学? ·推动数学科学发展的技术动力 ·本课程的内容 2
内 容 提 纲 • 数 据 科 学 简 介 • 数 据 科 学 家 是 什 么 样 的 职 业 ? • 数 据 科 学 的 应 用 • 为 什 么 要 学 习 数 据 科 学 ? • 推 动 数 学 科 学 发 展 的 技 术 动 力 • 本 课 程 的 内 容 2
数据科学简介 3
数据科学简介 3
什么是数据科学? ·研究数据从中提取知识 ·由来已久的科学 观测记录 第谷-天文学家 开普勒-天文学家 从事了20多年的高精度的天文观测 研究第谷的观测数据10多年, 积累了大量行星运动的观测数据 提出了开普勒三定律 开普勒三定律 地缘日心说 4
什么是数据科学? • 研究数据从中提取知识 • 由来已久的科学 第谷-天文学家 从事了20多年的高精度的天文观测, 积累了大量行星运动的观测数据 观测记录 地缘日心说 开普勒-天文学家 研究第谷的观测数据10多年, 提出了开普勒三定律 开普勒三定律 4
什么是数据科学? ·研究数据从中提取知识 ·现代信息技术推动了数据科学的发展 00:5641 Google Deep HOUSE ofCARDS Google Tesla Netflix ALPHAGO 自动驾驶 《纸牌屋》 5
什么是数据科学? • 研究数据从中提取知识 • 现代信息技术推动了数据科学的发展 G瀂瀂濺濿濸 ALPHAGO T濸s濿濴 自动驾驶 N濸t濹濿濼x 《纸牌屋》 5
什么是数据科学? ·数据科学研究数据从中提取知识 ·这里的数据,通常是指大数据,包含了结构化和非结构化数据 ·这是一门交叉学科,至少涉及三个领域 ·计算机科学 ·数学与统计学 专业领域 6
什么是数据科学? • 数据科学研究数据从中提取知识 • 这里的数据,通常是指大数据,包含了结构化和非结构化数据 • 这是一门交叉学科,至少涉及三个领域 • 计算机科学 • 数学与统计学 • 专业领域 6
什么是数据科学? Data Science Venn Diagram v2.0 Data Science Computer Machine Math and Science Learning Statistics Unicorn Traditional Traditional Software Research Subject Matter Expertise 7
什么是数据科学? 7
什么是数据科学? ·问题驱动的数据科学 ·关键:人们需要的不是数据,而是问题的答案 Problem Data Insight I want to increase sales - Existing data - Item X sells more on Y day of the Other data sources week in Z conditions: Raspberries sell higher on a Saturday when the temperature is 20-25 C
什么是数据科学? • 问题驱动的数据科学 • 关键:人们需要的不是数据,而是问题的答案 Pr瀂濵濿濸瀀 D濴t濴 I瀁s濼濺濻t I w濴瀁t t瀂 濼瀁濶r濸濴s濸 s濴濿濸s - Ex濼st濼瀁濺 濷濴t濴 - Ot濻濸r 濷濴t濴 s瀂ur濶濸s - It濸瀀 X s濸濿濿s 瀀瀂r濸 瀂瀁 Y 濷濴y 瀂濹 t濻濸 w濸濸濾 濼瀁 Z 濶瀂瀁濷濼t濼瀂瀁s: - R濴s瀃濵濸rr濼濸s s濸濿濿 濻濼濺濻濸r 瀂瀁 濴 S濴tur濷濴y w濻濸瀁 t濻濸 t濸瀀瀃濸r濴tur濸 濼s 20-25 C 8
什么是数据科学? ·数据驱动的数据科学 Problem Data Insight I want to increase sales - Existing data - Item X sells more on Y day of the Other data sources week in Z conditions: Raspberries sell higher on a Saturday when the temperature is 20-25C
什么是数据科学? • 数据驱动的数据科学 Pr瀂濵濿濸瀀 D濴t濴 I瀁s濼濺濻t I w濴瀁t t瀂 濼瀁濶r濸濴s濸 s濴濿濸s - Ex濼st濼瀁濺 濷濴t濴 - Ot濻濸r 濷濴t濴 s瀂ur濶濸s - It濸瀀 X s濸濿濿s 瀀瀂r濸 瀂瀁 Y 濷濴y 瀂濹 t濻濸 w濸濸濾 濼瀁 Z 濶瀂瀁濷濼t濼瀂瀁s: - R濴s瀃濵濸rr濼濸s s濸濿濿 濻濼濺濻濸r 瀂瀁 濴 S濴tur濷濴y w濻濸瀁 t濻濸 t濸瀀瀃濸r濴tur濸 濼s 20-25 C 9
为什么是大数据? The Digital Universe:50-fold Growth from the Beginning of 2010 to the End of 2020 40,000 30,000 (Exabytes) 20.000 10.000 200920102011201220132014201520162017201820192020 This IDC graph predicts exponential growth of data from around 3 zettabytes in 2013 to approximately 40 zettabytes by 2020.An exabyte equals 1,000,000,000,000,000,000 bytes and 1,000 exabytes equals one zettabyte.Source:IDC's Digital Universe Study,December 2012,http://www.emc.com/collateral/analyst-reports/idc-the-digital-universe- in-2020.pdf. 10
为什么是大数据? 10