信息管理与信息系统专业导论 第05讲:大数据 阮晓龙 13938213680/rl@hactcmeducn http://linux.xg.hactcm.edu.cn 河南中医药大学信息管理与信息系统教研室 信息技术学院网络与信息系统科研工作室 2018.10
信息管理与信息系统专业导论 第05讲:大数据 1 阮晓龙 13938213680 / rxl@hactcm.edu.cn http://linux.xg.hactcm.edu.cn 河南中医药大学信息管理与信息系统教研室 信息技术学院网络与信息系统科研工作室 2018.10
提纲 口什么是大数据 概念/技术支持/大数据的来源 ¤大数据的关键技术 ■采集技术/存储与管理技术 ■计算模式与系统/数据分析与挖掘技术 隐私安全 口典型案例 环境云/百度迁徙/新浪舆情通/阿里云数加 我们的探索 ■网络监控分析/系统日志分析/教育评价分析 Cloud koshare providers 可南中医药大学/阮晓龙/13938213680/htp/ startxg. hactcm educn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 提纲 什么是大数据 ◼ 概念 / 技术支持 / 大数据的来源 大数据的关键技术 ◼ 采集技术 / 存储与管理技术 ◼ 计算模式与系统 / 数据分析与挖掘技术 ◼ 隐私安全 典型案例 ◼ 环境云 / 百度迁徙 / 新浪舆情通 / 阿里云数加 我们的探索 ◼ 网络监控分析 / 系统日志分析 / 教育评价分析 2
3 1什么是大数据 11大数据的概念 ¤云计算、物联网等技术的兴起,标志着我们已经逐步进入大数据时代 大数据时代的到来,已经引起了全世界各国和信息行业的广泛重视 大数据已经深入影响到人们的日常生活。 大数据的概念,最初代表着数据规模的庞大,但是随着大数据管理技 术的发展,这一简单的阐述已经不能完全概括大数据的内涵。仅仅是 数据规模上的庞大,似乎与以往的数据管理方式没有什么本质上的改 变。大数据的具体概念,要包括其数据处理的所有特点。 Cloud koshare providers 可南中医药大学/阮晓龙/13938213680/htp/ startxg. hactcm educn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 云计算、物联网等技术的兴起,标志着我们已经逐步进入大数据时代。 大数据时代的到来,已经引起了全世界各国和信息行业的广泛重视, 大数据已经深入影响到人们的日常生活。 大数据的概念,最初代表着数据规模的庞大,但是随着大数据管理技 术的发展,这一简单的阐述已经不能完全概括大数据的内涵。仅仅是 数据规模上的庞大,似乎与以往的数据管理方式没有什么本质上的改 变。大数据的具体概念,要包括其数据处理的所有特点。 3 1.1大数据的概念
4 1什么是大数据 11大数据的概念 ¤现在广为公认的大数据定义是:在数量巨大、类型复杂、价值含量高 的数据信息基础上,实现对数据高速处理的数据管理模式。 ¤ Big Data(大数据),或称巨量資料,指的是所涉及的资料量的规模巨大 到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、 并整理成为帮助企业经营决策更积极目的的资讯。 目前,对于大数据的4V定义是目前较为统一的认识。其特有的4种特 征使得大数据的概念与以往海量数据″和″超大规模数据″有着本质区别, 除了用来描述数据之“大″,还指出了大数据的意义和必要性,即如何 从体量巨大、类型繁多、生成快速的数据集中挖掘价值。 Cloud koshare providers 可南中医药大学/阮晓龙/13938213680/htp/ startxg. hactcm educn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 现在广为公认的大数据定义是:在数量巨大、类型复杂、价值含量高 的数据信息基础上,实现对数据高速处理的数据管理模式。 Big Data(大数据),或称巨量资料,指的是所涉及的资料量的规模巨大 到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、 并整理成为帮助企业经营决策更积极目的的资讯。 目前,对于大数据的4V定义是目前较为统一的认识。其特有的4种特 征使得大数据的概念与以往“海量数据”和“超大规模数据”有着本质区别, 除了用来描述数据之“大”,还指出了大数据的意义和必要性,即如何 从体量巨大、类型繁多、生成快速的数据集中挖掘价值。 4 1.1大数据的概念
5 1什么是大数据 11大数据的概念 价值高( Value) 体量大( Volume) 大数据有巨大的潜在价值,但同其呈几 从2013年至2020年,人类的数据规模 何指数爆发式增长相比,某一对象或模 将扩大50倍,每年产生的数据量将增 块数据的价值密度较低,这无疑给我们 长到44万亿GB,相当于美国国家图书 开发海量数据增加了难度和成本。 馆数据量的数百万倍,且每18个月翻 -番。 速度快( Velocity) 特征 种类多( Variety) 随着现代感测、互联网、计算机技术 大数据与传统数据相比,数据来源广、 的发展,数据生成、储存、分析、处 维度多、类型杂,各种机器仪表在自动 理的速度远远超出人们的想象力, 产生数据的同时,太自身的生活行为也 是大数据区别于传统数据或小数据的 在不断创造数据不仅有企业组织内部习 显著特征。 的业务数据,还有海量相关外部数据。8 可南中医药大学/阮晓龙/13938213680/htp/ startxg. hactcm educn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 5 1.1大数据的概念 4V 速度快(Ve l o c it y) 特征 种类多(Va r i et y) 价值高(Va l u e) 体量大(Vo l um e) 大数据与传统数据相比,数据来源广、 维度多、类型杂,各种机器仪表在自动 产生数据的同时,人自身的生活行为也 在不断创造数据;不仅有企业组织内部 的业务数据,还有海量相关外部数据。 随着现代感测、互联网、计算机技术 的发展,数据生成、储存、分析、处 理的速度远远超出人们的想象力,这 是大数据区别于传统数据或小数据的 显著特征。 大数据有巨大的潜在价值,但同其呈几 何指数爆发式增长相比,某一对象或模 块数据的价值密度较低,这无疑给我们 开发海量数据增加了难度和成本。 从2013年至2020年,人类的数据规模 将扩大50倍,每年产生的数据量将增 长到44万亿GB,相当于美国国家图书 馆数据量的数百万倍,且每18个月翻 一番
6 1什么是大数据 1.2大数据的技术支持 ¤大数据的快速发展主要依赖于云计算基础的迅速发展,大数据技术的 发展需要存储、计算和智能这三大技术支持。 计算 存储 智能 运行速度加 硬件性价比 信息解放脑 快和计算能 的提高,存 力,机器拥 力迅速提升 储成本下降 有智慧 Cloud koshare providers 可南中医药大学/阮晓龙/13938213680/htp/ startxg. hactcm educn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 大数据的快速发展主要依赖于云计算基础的迅速发展,大数据技术的 发展需要存储、计算和智能这三大技术支持。 6 1.2大数据的技术支持 计算 运行速度加 快和计算能 力迅速提升 存储 硬件性价比 的提高,存 储成本下降 智能 信息解放脑 力,机器拥 有智慧
1什么是大数据 1.2大数据的技术支持 ¤存储成本的下降 在云计算岀现之前,数据存储的成本是非常高的。例如,公司要建设网站 需要购置和部署服务器,安排技术人员维护服务器,保证数据存储的安全 性和数据传输的畅通性,还会定期清理数据,腾岀空间以便存储新的数据 机房整体的人力和管理成本都很高。云计算岀现后,数据存储服务衍生出 了新的商业模式,数据中心的岀现降低了公司的计算和存储成本。例如, 公司现在要建设网站,不需要去购买服务器,不需要去雇用技术人员维护 服务器,可以通过租用硬件设备的方式解决问题。 ■存储成本的下降,也改变了大家对数据的看法,更加愿意把1年、2年甚至 更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发 现数据之间的关联和价值。正是由于存储成本的下降,才能为大数据搭建 最好的基础设施。 Cloud koshare providers 可南中医药大学/阮晓龙/13938213680/htp/ startxg. hactcm educn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 存储成本的下降 ◼ 在云计算出现之前,数据存储的成本是非常高的。例如,公司要建设网站, 需要购置和部署服务器,安排技术人员维护服务器,保证数据存储的安全 性和数据传输的畅通性,还会定期清理数据,腾出空间以便存储新的数据, 机房整体的人力和管理成本都很高。云计算出现后,数据存储服务衍生出 了新的商业模式,数据中心的出现降低了公司的计算和存储成本。例如, 公司现在要建设网站,不需要去购买服务器,不需要去雇用技术人员维护 服务器,可以通过租用硬件设备的方式解决问题。 ◼ 存储成本的下降,也改变了大家对数据的看法,更加愿意把1年、2年甚至 更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发 现数据之间的关联和价值。正是由于存储成本的下降,才能为大数据搭建 最好的基础设施。 7 1.2大数据的技术支持
8 1什么是大数据 1.2大数据的技术支持 口运算速度的快速提升 海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析 等多个环节,如果计算速度不够快,很多事情是无法实现的。所以,在大 数据的发展过程中,计算速度是非常关键的因素。 ¤机器拥有理解数据的能力 大数据带来的最大价值就是“智慧,大数据让机器变得有智慧,同时人工 智能进一步提升了处理和理解数据的能力。例如,谷歌 AlphaGo大胜世界 围棋冠军李世石,阿里云小A成功预测出《我是歌手》的总决赛歌王等。 Cloud koshare providers 可南中医药大学/阮晓龙/13938213680/htp/ startxg. hactcm educn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 运算速度的快速提升 ◼ 海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析 等多个环节,如果计算速度不够快,很多事情是无法实现的。所以,在大 数据的发展过程中,计算速度是非常关键的因素。 机器拥有理解数据的能力 ◼ 大数据带来的最大价值就是“智慧”,大数据让机器变得有智慧,同时人工 智能进一步提升了处理和理解数据的能力。例如,谷歌AlphaGo大胜世界 围棋冠军李世石,阿里云小Ai成功预测出《我是歌手》的总决赛歌王等。 8 1.2大数据的技术支持
9 1什么是大数据 13大数据的来源 全球每秒发送290万封电子邮 互联网每天产生的全部内容可 件,一分钟读一篇的话,足够 以刻满64亿张DVD 个人昼夜不停地读5.5年 MBG位/A 每天会有288万个小时的 Google每天需要处 见频上传到 You tube,足 理24PB的数据 够一个人昼夜不停地观看 33年 网民每天在 Facebook上要花费 witter上每天发布5000万条消息,假 234亿分钟,被移动互联网使用 设10秒就浏览一条消息,足够一个人昼 者发送和接收数据达44PB 夜不停地浏览16年 share providers 可南中医药大学/阮晓龙/13938213680/htp/ startxg. hactcm educn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 9 1.3大数据的来源 互联网每天产生的全部内容可 以刻满6.4亿张DVD Google每天需要处 理24PB的数据 网民每天在Facebook上要花费 234亿分钟,被移动互联网使用 者发送和接收数据达44PB 全球每秒发送290万封电子邮 件,一分钟读一篇的话,足够 一个人昼夜不停地读5.5年 每天会有2.88万个小时的 视频上传到YouTube,足 够一个人昼夜不停地观看 3.3年 Twitter上每天发布5000万条消息,假 设10秒就浏览一条消息,足够一个人昼 夜不停地浏览16年
10 1什么是大数据 13大数据的来源 智能终端拍照、拍 视频 66回 淘宝网地圆 Taobao. com 来自大人群泛互联网数据 来自大量传感器的机器数据科学研究及行业多结构专业数据 share 可南中医药大学/阮晓龙/13938213680/htp/ startxg. hactcm educn
河南中医药大学 / 阮晓龙 / 13938213680 / http://start.xg.hactcm.edu.cn 1.什么是大数据 10 1.3大数据的来源 来自“大人群”泛互联网数据 来自大量传感器的机器数据 科学研究及行业多结构专业数据 智能终端拍照、拍 视频 发微博、发微信 其他互联网数据