《 Spark编程基础( Scala版)》 教材官网http://dblab.xmu.edu.cn/post/spark/ 湿馨提示:编幻灯片母版,可以修改每页PPT的厦大校傲和底部文字 第1章大数据技术概述 (PPT版本号:2018年7月版本) 林子雨 厦门大学计算机科学系 扫一扫访问教材官网 E-mail:ziyulin@xmu.edu.cnA 主页http://www.cs.xmu.edu.cn/linziyu 厦门大学计算机科学系 2018版
《Spark编程基础厦门大学计算机科学系 》 厦门大学计算机科学系 林子雨 2018 ziyulin@xmu.edu.cn 版 林子雨 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页:http://www.cs.xmu.edu.cn/linziyu 第1章 大数据技术概述 (PPT版本号:2018年7月版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 《Spark编程基础(Scala版)》 教材官网: http://dblab.xmu.edu.cn/post/spark/ 扫一扫访问教材官网
课程教材 本套讲义PPT属于以下教材的配套材料 《 Spark编程基础( Scala版)》 厦门大学林子雨,赖永炫,陶继平编著 Dark 披荆斩棘,在大数据丛林中开辟学习捷径 可口 编程基础 填沟削坎,为快速学习 Spark技术铺平道路 深入浅出,有效降低 Spark技术学习门槛 资源全面,构建全方位一站式在线服务体系 人民邮电出版社出版发行,ISBN978-7115-48816-9 教材官网httpdblab.xmu.edu.cn/post/spark 本书以 Scala作为开发 Spark应用程序的编程语言,系统介绍了 Spark编程的基础知识。 全书共8章,内容包括大数据技术概述、 Scala语言基础、 Spark的设计与运行原理、 Spark环境搭建和使用方法、RDD编程、SparκSQL、 Spark Streaming、 Spark MLib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌 握 Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题 源代码、软件、数据集、授课视频、上机实验指南等。 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 课程教材 本套讲义PPT属于以下教材的配套材料 《Spark编程基础(Scala版)》 厦门大学 林子雨,赖永炫,陶继平 编著 披荆斩棘,在大数据丛林中开辟学习捷径 填沟削坎,为快速学习Spark技术铺平道路 深入浅出,有效降低Spark技术学习门槛 资源全面,构建全方位一站式在线服务体系 本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。 全书共8章,内容包括大数据技术概述、Scala语言基础、Spark的设计与运行原理、 Spark环境搭建和使用方法、RDD编程、Spark SQL、Spark Streaming、Spark MLlib等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌 握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、 源代码、软件、数据集、授课视频、上机实验指南等。 人民邮电出版社出版发行,ISBN:978-7-115-48816-9 教材官网:http://dblab.xmu.edu.cn/post/spark/
提纲 1.1大数据时代 12大数据概念 13大数据的影响 14大数据关键技术 1.5大数据计算模式 1.6代表性大数据技术 G DAS 高校大数据课程 公共服务平台 百度搜索厦门大学数据库实验室网站访问平台 Spark编程基础》 厦门大学计算机科学系 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 提纲 1.1 大数据时代 1.2 大数据概念 1.3 大数据的影响 1.4 大数据关键技术 1.5 大数据计算模式 1.6 代表性大数据技术 百度搜索厦门大学数据库实验室网站访问平台
1.1大数据时代 DAtAe OGIES COMPLEX ES STORAGE2站 ? A REVOLUTI0N票删 DATABASE 大数据时代 速:是比的: Z Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.1大数据时代
1.1.1第三次信息化浪潮 根据|BM前首席执行官郭士纳的观点,T领域每隔十五年就会迎来一 次重大变革 表1三次信息化浪潮 信息化浪潮发生时间 标志 解决问题 代表企业 ntel、AMD、|BM、 第一次浪潮1980年前后个人计算机信息处理苹果、微软、联想、 戴尔、惠普等 第二次浪潮1995年前后互联网 信息传输雅虎、谷歌阿里巴 腾讯 物联网、云 将涌现出一批新的市 第三次浪潮2010年前后计算和大数信息爆炸场标杆企业 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.1.1第三次信息化浪潮 • 根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一 次重大变革 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、 苹果、微软、联想、 戴尔、惠普等 第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴 巴、百度、腾讯等 第三次浪潮 2010年前后 物联网、云 计算和大数 据 信息爆炸 将涌现出一批新的市 场标杆企业 表1 三次信息化浪潮
1.12信息科技为大数据时代提供技术支撑 1.存储设备容量不断增加 ·1990-2013价格数据点 103 1990-2010价格拟合线 10 ---2013-2020价格预测范围 10 10 1990 2000 2005 2010 2015 2020 年份 图1-1存储价格随时间变化情况 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.1.2信息科技为大数据时代提供技术支撑 图1-1 存储价格随时间变化情况 1. 存储设备容量不断增加
1.12信息科技为大数据时代提供技术支撑 2.CPU处理能力大幅提升 2.600,000,000 1,000000,000 100.000.000 家10.00000 回 100000 1971 1980 1990 2011 CPU推出日期 图CPU晶体管数目随时间变化情况 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.1.2信息科技为大数据时代提供技术支撑 图 CPU晶体管数目随时间变化情况 2. CPU处理能力大幅提升
1.12信息科技为大数据时代提供技术支撑 3.网络带宽不断增加 (百万) 10000 0每秒周转次数(百万赫兹) 前端总频率(百万赫越) 转移数据量(百万兆) 18 1990 2005 图网络带宽随时间变化情况 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.1.2信息科技为大数据时代提供技术支撑 图 网络带宽随时间变化情况 3. 网络带宽不断增加
1.13数据产生方式的变革促成大数据时代的来临 运营式系统阶段 用户原创内容阶段 感知式系统阶段 数据库的出现使得 数据爆发产生于 ·感知式系统的广泛 数据管理的复杂度 Wveb20时代,而 使用 大大降低,数据往 Web20的最重要 ·人类社会数据量第 往伴随着一定的运 标志就是用户原创 三次大的飞跃最终 营活动而产生并记 内容 导致了大数据的产 ·智能手机等移动设 生 录在数据库中,数 据的产生方式是被 备加速内容产生 动的 数据产生方式是主 动的 图数据产生方式的变革 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.1.3数据产生方式的变革促成大数据时代的来临 图 数据产生方式的变革
1.2大数据概念 OCAL BLOG 101100101001 001001101010 SMART 101011100101 METER旧BLE 010100100101 VOLUME VELOCITY VARIETY VALUE 大量化 快速化 多样化 大数据不仅仅是数据的“大量化”,而是包含“快速 化”、“多样化”和“价值化”等多重属性。 Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《Spark编程基础》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 1.2大数据概念