数据科学引论-Python之道 第1课什么是数据科学? 一、数据科学简介 什么是数据科学?简单地说,就是通过研究数据从中提取知识的科学。实际 上,数据科学由来已久,让我们来看一个著名的例子。天文学家第谷是一位具有 超强天文观测能力的奇才,他从事了20多年的高精度天文观测,积累了大量行 星运动的观测数据。在此基础之上,他通过研究这些数据,提出了地缘日心说。 第谷的学生,另一位伟大的天文学家开普勒,通过研究第谷的观测数据,提出了 开普勒三定律,有力地证明了日心说。 观测记录 第谷-天文学家 开普勒-天文学家 从事了20多年的高精度的天文观测 研究第谷的观测数据10多年, 积累了大量行星运动的观测数据 提出了开普勒三定律 开普物三定律 地缘日心说 这个故事告诉我们了这样几个事实: 1.无论是第谷还是开普勒,都是通过对大量的原始观测数据进行研究,从 中提取知识,才构建了自己的理论体系。 2.尽管第谷是天才的天文观测家,但是他并没有构建出正确的宇宙模型, 而开普勒却基于第谷的数据揭示了正确的行星运动规律。这说明不同知 识背景的人们,针对相同的数据会得到天差地别的分析结果。 3.第谷善于观测,开普勒善于研究,这说明在数据科学中,人们的角色可 以细分,不同角色具备的能力和素质也不尽相同。 现代T技术推动了数据科学的发展,数据科学已经渗透到了我们生活的方方
数据科学引论-Pyth瀂瀁 之道 第 1 课 什么是数据科学? 一、数据科学简介 什么是数据科学?简单地说,就是通过研究数据从中提取知识的科学。实际 上,数据科学由来已久,让我们来看一个著名的例子。天文学家第谷是一位具有 超强天文观测能力的奇才,他从事了 20 多年的高精度天文观测,积累了大量行 星运动的观测数据。在此基础之上,他通过研究这些数据,提出了地缘日心说。 第谷的学生,另一位伟大的天文学家开普勒,通过研究第谷的观测数据,提出了 开普勒三定律,有力地证明了日心说。 这个故事告诉我们了这样几个事实: 1. 无论是第谷还是开普勒,都是通过对大量的原始观测数据进行研究,从 中提取知识,才构建了自己的理论体系。 2. 尽管第谷是天才的天文观测家,但是他并没有构建出正确的宇宙模型, 而开普勒却基于第谷的数据揭示了正确的行星运动规律。这说明不同知 识背景的人们,针对相同的数据会得到天差地别的分析结果。 3. 第谷善于观测,开普勒善于研究,这说明在数据科学中,人们的角色可 以细分,不同角色具备的能力和素质也不尽相同。 现代 IT 技术推动了数据科学的发展,数据科学已经渗透到了我们生活的方方
面面。例如,Google的AlphaGO在人工智能和大数据技术的支撑下,已经达到 了在围棋界“独孤求败”的境地。特斯拉的自动驾驶技术也在数据科学的助力下 有了很大的发展。NetFlix通过大数据分析,在开拍前选择受众喜爱的导演和演 员,使得《纸牌屋》电视剧全球大热。 Google De HOUSE ofCARDS Google Tesla Netflix ALPHAGO 自动驾驶 《纸牌屋》 由于T技术的发展,我们现在生活在大数据的时代,而大数据包含了共有特 征明显的像数据表这样的结构化数据,以及共有特征不明显的像视频、音频和文 本这样的非结构化数据。无论是哪种数据,原始数据本身并不会显得很有用,只 有通过对数据的研究,去芜存菁,精华提炼,才能得出有价值的知识。这说明数 据科学是一门交叉学科,它至少涉及3个领域:计算机科学,研究如何高效地存 储和处理数据;数学与统计学,研究如何对数据进行分析;专业领域,研究如何 对业务需求建模。 Data Science Venn Diagram v2.0 Data Science Computer Math and Science Statistics Unicorn Trad tonal Traditional Software Research Subject Matter Expertise
面面。例如,G瀂瀂g濿e 的 A濿瀃haGO 在人工智能和大数据技术的支撑下,已经达到 了在围棋界“独孤求败”的境地。特斯拉的自动驾驶技术也在数据科学的助力下 有了很大的发展。NetF濿ix 通过大数据分析,在开拍前选择受众喜爱的导演和演 员,使得《纸牌屋》电视剧全球大热。 由于 IT 技术的发展,我们现在生活在大数据的时代,而大数据包含了共有特 征明显的像数据表这样的结构化数据,以及共有特征不明显的像视频、音频和文 本这样的非结构化数据。无论是哪种数据,原始数据本身并不会显得很有用,只 有通过对数据的研究,去芜存菁,精华提炼,才能得出有价值的知识。这说明数 据科学是一门交叉学科,它至少涉及 3 个领域:计算机科学,研究如何高效地存 储和处理数据;数学与统计学,研究如何对数据进行分析;专业领域,研究如何 对业务需求建模
上面这张图清晰地告诉了我们,这三个领域的关系,计算机科学与专业领域 结合,就会产生传统的计算软件,通过计算机强大的计算能力来解决业务问题; 专业领域与数学统计学结合,就会产生对各专业领域问题的理论研究;计算机科 学与数学统计学相结合,就会产生机器学习等利用计算机的计算能力来解决复杂 数学问题的新领域。而数据科学就是这三个领域的综合。 数据科学包含两种形式,第一种是问题驱动的,即人们需要的不是数据本身, 而是要利用该数据来找到问题的答案。例如,面对如何提高销量的问题,人们希 望通过积累的销售数据,能够得出类似“在满足Z条件的情况下,在每周Y,商 品X的销量最大”这样的结论。 Problem Data Insight I want to increase sales -Existing data Item X sells more on Y day of the Other data sources week in Z conditions: Raspberries sell higher on a Saturday when the temperature is 20-25 C 另一种形式是数据驱动的数据科学,即人们并不知道从数据中能够得到什么, 也没有具体的问题,但是希望通过数据分析找出数据中蕴含的知识。这两种形式 类似有监督学习与无监督学习之间的关系。 Problem Data Insight I want to increase sales Existing data Item X sells more on Y day of the -Other data sources week in Z conditions: -Raspberries sell higher on a Saturday when the temperature is 20-25 C
上面这张图清晰地告诉了我们,这三个领域的关系,计算机科学与专业领域 结合,就会产生传统的计算软件,通过计算机强大的计算能力来解决业务问题; 专业领域与数学统计学结合,就会产生对各专业领域问题的理论研究;计算机科 学与数学统计学相结合,就会产生机器学习等利用计算机的计算能力来解决复杂 数学问题的新领域。而数据科学就是这三个领域的综合。 数据科学包含两种形式,第一种是问题驱动的,即人们需要的不是数据本身, 而是要利用该数据来找到问题的答案。例如,面对如何提高销量的问题,人们希 望通过积累的销售数据,能够得出类似“在满足 Z 条件的情况下,在每周 Y,商 品 X 的销量最大”这样的结论。 另一种形式是数据驱动的数据科学,即人们并不知道从数据中能够得到什么, 也没有具体的问题,但是希望通过数据分析找出数据中蕴含的知识。这两种形式 类似有监督学习与无监督学习之间的关系
为什么数据科学与大数据总是存在不解之缘呢?下面这种图展示了数据量 增长的趋势,到2020年,世界上的数据总量将达到约40ZB,T技术的进步使得 大数据的存储和处理成为了可能,人们正式进入了大数据时代。所以数据科学的 研究对象往往是大数据。 The Digital Universe:50-fold Growth from the Beginning of 2010 to the End of 2020 40.000 30.000 (Exabytes) 20,000 10.000 200920102011201220132014201520162077201820192020 This IDC graph predicts exponential growth of data from around 3 zettabytes in 2013 to approximately 40 settabytes by 2020.An exabyte equals 1,000,000,000,000,000,000 bytes and 1,000 exabytes equals one zettabyte.Source:IDC's Digital Universe Study,December 2012,http://www.emc.com//analyst-reports/ide-the-digital-universe m-2020.pd域 二、数据科学家是什么样的职业? 数据科学在最近几年得到了蓬勃的发展,从2011年起,数据科学家的需求 量呈爆炸式增长。哈弗商业评论在2012年给出的报告中声称数据科学家是21 世纪最性感的职业,仅在北美,数据科学家的缺口就超过十万人。在2016年的 CrowdFlower给出的报告中显示,83%的数据科学家认为数据科学家十分短缺 (https://visit.crowdflower.com/data-science-report.html) 成为数据科学家可以使我们获益颇丰。顶尖的职业网站Glassdoor对位于美 国、加拿大和英国的公司的薪水和工作满意度进行了比较,其结果显示了这种的 趋势。在2015年,“医护助手”是最好的职业,而在2016年,最好的职业就变 成了数据科学家,年薪大于10万美元。2017年,数据科学家再度成为最好的职
为什么数据科学与大数据总是存在不解之缘呢?下面这种图展示了数据量 增长的趋势,到 2020 年,世界上的数据总量将达到约 40ZB,IT 技术的进步使得 大数据的存储和处理成为了可能,人们正式进入了大数据时代。所以数据科学的 研究对象往往是大数据。 二、数据科学家是什么样的职业? 数据科学在最近几年得到了蓬勃的发展,从 2011 年起,数据科学家的需求 量呈爆炸式增长。哈弗商业评论在 2012 年给出的报告中声称数据科学家是 21 世纪最性感的职业,仅在北美,数据科学家的缺口就超过十万人。在 2016 年的 Cr瀂wdF濿瀂wer 给出的报告中显示,83% 的数据科学家认为数据科学家十分短缺 (htt瀃s://visit.cr瀂wdf濿瀂wer.c瀂瀀/data-scie瀁ce-re瀃瀂rt.ht瀀濿)。 成为数据科学家可以使我们获益颇丰。顶尖的职业网站 G濿assd瀂瀂r 对位于美 国、加拿大和英国的公司的薪水和工作满意度进行了比较,其结果显示了这种的 趋势。在 2015 年,“医护助手”是最好的职业,而在 2016 年,最好的职业就变 成了数据科学家,年薪大于 10 万美元。2017 年,数据科学家再度成为最好的职
业,并且在一年间职位需求量增加了2.5倍。 在最大的或新兴的企业中,例如Facebook,Airbnb,Twitter,IBM,Tesla,和 Paypal中,在旧金山地区开出的平均年薪都超过了10万美元。因此,现在是成 为数据科学家的大好时机。 作为数据科学家,必须能够把故事讲好,能够让大家听明白,这意味着数据 科学家必须善于沟通和讲述故事。但是,更重要的是,数据科学家需要能够洞察 数据,发现知识,因此他必须具备相关的知识背景,就像下面的图所示。具体说 来,包括:数学和统计知识,编程与数据库知识、领域知识与软技能,沟通与可 视化能力。 MODERN DATA SCIENTIST scientist is hard Finding people who understand who a data scientist is,isoy hard So here is a little cheat sheet on who the modern data sciontist really is. MATH PROGRAMMING STATISTICS DATABASE 女Machineng ☆Statistc modelg Seripting language eg.Python 合Experiment design Statistical computing packageepR 合Bayesian infesence Parallel databsesalle qery processing ☆MapReduce concepts Optimization:gradient descend ☆ Hadoop and Hive/Pig anais ☆Custom reducers ☆bpe ence with xaaS like AWS DOMAIN KNOWLEDGE COMMUNICATION SOFT SKILLS VISUALIZATION Passinnate about the business 合止engg变Wths 女Curinus about data ☆Sng敛s ☆Problem solver decisions and actions ☆ Strategic.proactive,ceatie Visual art desgn innovative and collaborative ☆R packages恤3tice Knowledge of any af visualiaton toolseg Flare,D3 is Tableau tt2
业,并且在一年间职位需求量增加了 2.5 倍。 在最大的或新兴的企业中,例如 Faceb瀂瀂濾, Airb瀁b, Twitter, IBM, Tes濿a, 和 Pay瀃a濿 中,在旧金山地区开出的平均年薪都超过了 10 万美元。因此,现在是成 为数据科学家的大好时机。 作为数据科学家,必须能够把故事讲好,能够让大家听明白,这意味着数据 科学家必须善于沟通和讲述故事。但是,更重要的是,数据科学家需要能够洞察 数据,发现知识,因此他必须具备相关的知识背景,就像下面的图所示。具体说 来,包括:数学和统计知识,编程与数据库知识、领域知识与软技能,沟通与可 视化能力
三、数据科学的应用 数据科学最简单的应用之一就是数据可视化。我们可以根据表格数据绘制纽 约的犯罪地图。通过地图来可视化犯罪数据,我们就可以很容易地确定犯罪率高 的地区在哪里,向警察局推荐在哪里增加警力。当然,警力配置还与犯罪类型相 关。通过可视化,我们还可以按照犯罪类型和日期范围来过滤数据。 数据科学处理的数据并不局限于表格式的结构化数据。例如,下面这张图也 是数据。从图中我们可以看到什么?许多人高举手臂,这也许是音乐会的现场。 IBM Watson系统通过分析可以告诉我们这张图中有什么。人、一群人、人 类、人群、手。它还会为每一个标签都设置一个置信度。 在下面这个例子中,研究人员用流媒体来实时地标识人脸,并自动地将人脸 分类为高兴、普通和不高兴等
三、数据科学的应用 数据科学最简单的应用之一就是数据可视化。我们可以根据表格数据绘制纽 约的犯罪地图。通过地图来可视化犯罪数据,我们就可以很容易地确定犯罪率高 的地区在哪里,向警察局推荐在哪里增加警力。当然,警力配置还与犯罪类型相 关。通过可视化,我们还可以按照犯罪类型和日期范围来过滤数据。 数据科学处理的数据并不局限于表格式的结构化数据。例如,下面这张图也 是数据。从图中我们可以看到什么?许多人高举手臂,这也许是音乐会的现场。 IBM Wats瀂瀁 系统通过分析可以告诉我们这张图中有什么。人、一群人、人 类、人群、手。它还会为每一个标签都设置一个置信度。 在下面这个例子中,研究人员用流媒体来实时地标识人脸,并自动地将人脸 分类为高兴、普通和不高兴等
像Target这样的零售商是如何分析数据的?他们手中掌握了消费者购物时 产生的商品数据、消费模式数据和客户群体分类数据等,他们希望能够分析出来 客户喜欢什么,客户需要什么,以及什么样的优惠券最受客户喜爱等。 Target为每一位顾客都分配了一个ID,与他们的信用卡、姓名或邮箱联系起 来,作为收集数据的基础。他们分析了怀孕女性的购物数据,发现这些女性在怀 孕期间的购物模式发生了变化,她们会购买无香味的护肤液,含钙,镁和锌的保 健品,无香味肥皂,超大包装的棉球,洗手液,浴巾等。经过综合分析,数据科学 家可以让Target为每一位购物者赋予一个“怀孕预测”指数,各重要的是,数据 科学家还可以将顾客的“预产期”估算到很小的时间窗内,这样,Target就可 以在其怀孕的各个阶段“推送适合的优惠券”。这个案例被当作经典案例进行了 报到。 IBM的Watson还利用Al和大数据来为妇女诊断罕见的白血病。百度的医疗 对话机器人也利用数据科学创新了诊疗模式,帮助医生为病人诊断病情。特斯拉 无人驾驶也大量运用了数据科学的技术。说到汽车,我们会发现,在最新的动画 片《汽车人总动员3》中,也安排了一位数据科学家的角色。可见,数据科学的 应用正在改变人类的社会与生活,成为一门重要的科学。 四、为什么要学习数据科学? 为什么要学习数据科学?因为数据科学在各行各业中都发挥着重要的作用, 它几乎无处不在。例如,在汽车保险业中,每一天都收到大量的出险报告,这些 数据汇聚到保险公司总部之后,通过数据分析,就可以对险种和保费进行调整和 设计,以满足利润最大化的需求。 数据科学还可以服务于社会公益事业,例如,在联合国提出的17项可持续
像 Target 这样的零售商是如何分析数据的?他们手中掌握了消费者购物时 产生的商品数据、消费模式数据和客户群体分类数据等,他们希望能够分析出来 客户喜欢什么,客户需要什么,以及什么样的优惠券最受客户喜爱等。 Target 为每一位顾客都分配了一个 ID,与他们的信用卡、姓名或邮箱联系起 来,作为收集数据的基础。他们分析了孕女性的购物数据,发现这些女性在 孕期间的购物模式发生了变化,她们会购买无香味的护肤液,含钙, 镁和锌的保 健品,无香味肥皂, 超大包装的棉球, 洗手液, 浴巾等。经过综合分析,数据科学 家可以让 Target 为每一位购物者赋予一个“孕预测”指数,各重要的是,数据 科学家还可以将顾客的“预产期”估算到很小的时间窗内,这样, Target 就可 以在其孕的各个阶段“推送适合的优惠券”。这个案例被当作经典案例进行了 报到。 IBM 的 Wats瀂瀁 还利用 AI 和大数据来为妇女诊断罕见的白血病。百度的医疗 对话机器人也利用数据科学创新了诊疗模式,帮助医生为病人诊断病情。特斯拉 无人驾驶也大量运用了数据科学的技术。说到汽车,我们会发现,在最新的动画 片《汽车人总动员 3》中,也安排了一位数据科学家的角色。可见,数据科学的 应用正在改变人类的社会与生活,成为一门重要的科学。 四、为什么要学习数据科学? 为什么要学习数据科学?因为数据科学在各行各业中都发挥着重要的作用, 它几乎无处不在。例如,在汽车保险业中,每一天都收到大量的出险报告,这些 数据汇聚到保险公司总部之后,通过数据分析,就可以对险种和保费进行调整和 设计,以满足利润最大化的需求。 数据科学还可以服务于社会公益事业,例如,在联合国提出的 17 项可持续
发展的全球目标中,首要的就是要消灭贫困。GiveDirectly是东非的一个非盈利 组织,通过手机无条件发放现金给赤贫的人们,以期改善他们的生活。但是,对 于GiveDirectly来说,依靠人口普查数据来寻找最贫困人口并不靠谱,一方面这 些数据很稀缺,另一方面它们也不可靠,这使得这项工作变得非常困难,代价也 很高昂。人们使用卫星图像和机器学习在肯尼亚逐个村落地标识茅草屋顶和金属 屋顶房屋的比例,就可以找到最贫困的村落和最贫困的人家,因为金属屋顶相对 于茅草屋顶而言,就是一种奢侈品和地位的象征。右边的就是典型的肯尼亚茅草 屋,而左边就是一个Give Directly的受捐者的家,它重新装修了新的金属屋顶。 数据科学非常热门,各行各业都在通过数据科学来进行变革。除了前面我们 举例谈到的医疗、商业、零售和社会公益外,它在交通、心理学、运动健身、银 行和广告等领域内也大显身手。 数据科学颠覆了人们决策的方式。由公司或组织内部最高层的管理者凭借个 人观点做出决策的方式已经被由数据驱动的决策制定方式所取代,客观科学全面 的决策大大增加了成功的可能性。 五、推动数据科学发展的技术动力 数据科学由来已久,但是最近几年才得到了快速发展,是什么样的技术推动 了数据科学的发展?现代的数据科学研究的对象都是大数据,而大数据对数据科
发展的全球目标中,首要的就是要消灭贫困。GiveDirect濿y 是东非的一个非盈利 组织,通过手机无条件发放现金给赤贫的人们,以期改善他们的生活。但是,对 于 GiveDirect濿y 来说,依靠人口普查数据来寻找最贫困人口并不靠谱,一方面这 些数据很稀缺,另一方面它们也不可靠,这使得这项工作变得非常困难,代价也 很高昂。人们使用卫星图像和机器学习在肯尼亚逐个村落地标识茅草屋顶和金属 屋顶房屋的比例,就可以找到最贫困的村落和最贫困的人家,因为金属屋顶相对 于茅草屋顶而言,就是一种奢侈品和地位的象征。右边的就是典型的肯尼亚茅草 屋,而左边就是一个 GiveDirect濿y 的受捐者的家,它重新装修了新的金属屋顶。 数据科学非常热门,各行各业都在通过数据科学来进行变革。除了前面我们 举例谈到的医疗、商业、零售和社会公益外,它在交通、心理学、运动健身、银 行和广告等领域内也大显身手。 数据科学颠覆了人们决策的方式。由公司或组织内部最高层的管理者凭借个 人观点做出决策的方式已经被由数据驱动的决策制定方式所取代,客观科学全面 的决策大大增加了成功的可能性。 五、推动数据科学发展的技术动力 数据科学由来已久,但是最近几年才得到了快速发展,是什么样的技术推动 了数据科学的发展?现代的数据科学研究的对象都是大数据,而大数据对数据科
学的发展提出了挑战,首先,我们需要能够支持海量存储,并且支持快速数据检 索的存储技术;其次,我们需要具有强大的计算能力,能够快速地处理大量数据 的处理技术第三,我们需要更智能的分析方法,去发现具有更高附加值的知识。 在存储技术方面,云存储技术提供了按需分配,量入为出的存储方式,使得 数据存储系统的容量可以不断地扩展。非关系型数据库提供了更加快捷的分布式 数据存储机制,并且支持大数据中占主体的非结构化数据的存储。以固态硬盘和 氨气硬盘为代表的新型存储介质可以提高数据的读写性能。 在数据处理方面,以Hadoop、Spark和Storm为代表的并行处理框架使得 在大规模集群上执行高效的并行数据处理成为了可能,而云计算技术实现了对大 规模计算资源集群的统一管理与调度,为高性能的大数据处理提供了保障。 在数据分析方面,人工智能和机器学习的再度兴起为复杂业务问题的求解提 供了建模工具,TensorFlow和Mahout是其中的代表。而专用的新型编程语言, 例如Python和R,就像是为数据分析量身订造的,相对于其他语言可以以非常 容易的方式实现数据分析。这些技术的发展推动了数据科学在近几年的蓬勃发展, 形成了数据科学的技术支撑。 六、本课程的内容 数据科学的核心技术包括数据分析与统计、数据可视化与机器学习,本课程 的内容就是围绕着它们展开的。 本课程将介绍数据科学的基础概念、基本理论和工具方法,包括: ·数据科学的概念 Python语言基础 ·数据分析方法
学的发展提出了挑战,首先,我们需要能够支持海量存储,并且支持快速数据检 索的存储技术;其次,我们需要具有强大的计算能力,能够快速地处理大量数据 的处理技术;第三,我们需要更智能的分析方法,去发现具有更高附加值的知识。 在存储技术方面,云存储技术提供了按需分配,量入为出的存储方式,使得 数据存储系统的容量可以不断地扩展。非关系型数据库提供了更加快捷的分布式 数据存储机制,并且支持大数据中占主体的非结构化数据的存储。以固⼀硬盘和 氦气硬盘为代表的新型存储介质可以提高数据的读写性能。 在数据处理方面,以 Had瀂瀂瀃、S瀃ar濾 和 St瀂r瀀 为代表的并行处理框架使得 在大规模集群上执行高效的并行数据处理成为了可能,而云计算技术实现了对大 规模计算资源集群的统一管理与调度,为高性能的大数据处理提供了保障。 在数据分析方面,人工智能和机器学习的再度兴起为复杂业务问题的求解提 供了建模工具,Te瀁s瀂rF濿瀂w 和 Mah瀂ut 是其中的代表。而专用的新型编程语言, 例如 Pyth瀂瀁 和 R,就像是为数据分析量身订造的,相对于其他语言可以以非常 容易的方式实现数据分析。这些技术的发展推动了数据科学在近几年的蓬勃发展, 形成了数据科学的技术支撑。 六、本课程的内容 数据科学的核心技术包括数据分析与统计、数据可视化与机器学习,本课程 的内容就是围绕着它们展开的。 本课程将介绍数据科学的基础概念、基本理论和工具方法,包括: • 数据科学的概念 • Pyth瀂瀁 语言基础 • 数据分析方法
·数据可视化方法 ·机器学习和深度学习基础知识等 希望学生通过本课程的学习 ·能够了解数据科学的知识体系 ·并且初步具备使用Python语言及其工具来进行数据分析的能力 本课程为什么选择了Python语言作为授课语言呢?因为Python与R是数据 科学中两种最流行的语言,根据最新的统计Python与R是数据科学中应用得最 广的两种语言,Python的流行度与R不相上下。Python具有的优势包括: ·社区活跃,支持度高 ·Google为Python提供了大量的文档和支持工具 ·非常适用于分析数据 ·具有大量优秀的库 ·简单高效且易于理解,适合于新手 因此,本课程选择了Python。如前所述,在数据科学中,人们的角色分工不 尽相同,通过本课程的学习,希望对你选择成为下列角色提供一些帮助: ·数据分析师 ·使用算法处理小型的数据集进行建模 ·初级数据科学家 ·数据科学家 ·职责与数据分析师相同,但是: ·可以处理大数据 ·可以创造新的算法
• 数据可视化方法 • 机器学习和深度学习基础知识等 希望学生通过本课程的学习 • 能够了解数据科学的知识体系 • 并且初步具备使用 Pyth瀂瀁 语言及其工具来进行数据分析的能力 本课程为什么选择了 Pyth瀂瀁 语言作为授课语言呢?因为 Pyth瀂瀁 与 R 是数据 科学中两种最流行的语言,根据最新的统计 Pyth瀂瀁 与 R 是数据科学中应用得最 广的两种语言,Pyth瀂瀁 的流行度与 R 不相上下。Pyth瀂瀁 具有的优势包括: • 社区活跃,支持度高 • G瀂瀂g濿e 为 Pyth瀂瀁 提供了大量的文档和支持工具 • 非常适用于分析数据 • 具有大量优秀的库 • 简单高效且易于理解,适合于新手 因此,本课程选择了 Pyth瀂瀁。如前所述,在数据科学中,人们的角色分工不 尽相同,通过本课程的学习,希望对你选择成为下列角色提供一些帮助: • 数据分析师 • 使用算法处理小型的数据集进行建模 • 初级数据科学家 • 数据科学家 • 职责与数据分析师相同,但是: • 可以处理大数据 • 可以创造新的算法