1 信息管理与信息系统专业导论 第05讲:大数据 阮跷龙 13938213680/ nxlwhactcm.edu.cn http://linuxxg.hactcm.edu.cn 问南中医药大字信息管理与信息系统教研室 信息技术字院网络与信息系统料研工作 2018.10
2 提纲 口什么是大数据 ■概念/技术支持/大数据的来源 ¤大数据的关键技术 采集技术/存储与管理技术 计算模式与系统/数据分析与挖掘技术 隐私安全 口典型案例 ■环境云/百度迁徙/新浪舆情通/阿里云数加 口我们的探索 网络监控分析/系统日志分析/教育评价分析 cloudi share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
3 1什么是大数据 11大数据的概念 口云计算、物联网等技术的兴起,标志着我们已经逐步进入大数据时代。 大数据时代的到来,已经引起了全世界各国和信息行业的广泛重视, 大数据已经深入影响到人们的日常生活。 ¤大数据的概念,最初代表着数据规模的庞大,但是随着大数据管理技 术的发展,这一简单的阐述已经不能完全概括大数据的内涵。仅仅是 数据规模上的庞大,似乎与以往的数据管理方式没有什么本质上的改 变。大数据的具体概念,要包括其数据处理的所有特点。 cloudi share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
4 1什么是大数据 11大数据的概念 ¤现在广为公认的大数据定义是:在数量巨大、类型复杂、价值含量高 的数据信息基础上,实现对数据高速处理的数据管理模式。 Big Data(大数据),或称巨量资料,指的是所涉及的资料量的规模巨大 到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、 并整理成为帮助企业经营决策更积极目的的资讯 ¤目前,对于大数据的4∨定义是目前较为统一的认识。其特有的4种特 征使得大数据的概念与以往"海量数据"和"超大规模数据有着本质区别, 除了用来描述数据之“大”,还指出了大数据的意义和必要性,即如何 从体量巨大、类型繁多、生成快速的数据集中挖掘价值。 cloudi share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
5 1什么是大数据 11大数据的概念 价值高( Value) 体量大( Volume) 大数据有巨大的潜在价值,但同其呈几 从2013年至2020年,人类的数据规模 何指数爆发式增长相比,某一对象或模 将扩大50倍,每年产生的数据量将增 块数据的价值密度较低,这无疑给我们 长到44万亿GB,相当于美国国家图书 开发海量数据增加了难度和成本。 4V 馆数据量的数百万倍,且每18个月翻 一番 速度快( Velocity) 特征 种类多( Variety) 随着现代感测、互联网、计算机技术 大数据与传统数据相比,数据来源广、 的发展,数据生成、储存、分析、处 维度多、类型杂,各种机器仪表在自动 理的速度远远超出人们的想象力,这 产生数据的同时,人自身的生活行为也 是大数据区别于传统数据或小数据的 在不断创造数据;不仪有企M组织内部 显著特征。 的业务数据,还有海量相关外部数据。 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
6 1什么是大数据 12大数据的技术支持 ¤大数据的快速发展主要依赖于云计算基础的迅速发展,大数据技术的 发展需要存储、计算和智能这三大技术支持。 计算 存储 智能 运行速度加 硬件性价比 信息解放脑 快和计算能 的提高,存 力,机器拥 力迅速提升 储成本下降 有智慧 cloudi share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
1什么是大数据 12大数据的技术支持 口存储成本的下降 在云计算出现之前,数据存储的成本是非常高的。例如,公司要建设网站, 需要购置和部署服务器,安排技术人员维护服务器,保证数据存储的安全 性和数据传输的畅通性,还会定期淸理数据,腾岀空间以便存储新的数据, 机房整体的人力和管理成本都很高。云计算岀现后,数据存储服务衍生出 了新的商业模式,数据中心的岀现降低了公司的计算和存储成本。例如, 公司现在要建设网站,不需要去购买服务器,不需要去雇用技术人员维护 服务器,可以通过租用硬件设备的方式解决问题。 ■存储成本的下降,也改变了大家对数据的看法,更加愿意把1年、2年甚至 更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发 现数据之间的关联和价值。正是由于存储成本的下降,才能为大数据搭建 最好的基础设施。 Cloud share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
8 1什么是大数据 12大数据的技术支持 口运算速度的快速提升 海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析 等多个环节,如果计算速度不够快,很多事情是无法实现的。所以,在大 数据的发展过程中,计算速度是非常关键的因素。 ¤机器拥有理解数据的能力 ■大数据带来的最大价值就是"智慧″,大数据让机器变得有智慧,同时人工 智能进一步提升了处理和理解数据的能力。例如,谷歌 AlphaGo大胜世界 围棋冠军李世石,阿里云小A成功预测出《我是歌手》的总决赛歌王等。 cloudi share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
9 1什么是大数据 13大数据的来源 全球每秒发送290万封电子邮 互联网每天产生的全部内容可 件,一分钟读一篇的话,足够 以刻满6.4亿张DVD 个人昼夜不停地读5.5年 MhBG位A 每天会有288万个小时的 Google每天需要处 视频上传到 ou Tube,足 理24PB的数据 够一个人昼夜不停地观看 3.3年 网民每天在 Facebook上要花费 Twitter上每天发布5000万条消息,假 234亿分钟,被移动互联网使用 设0秒就浏览一条消息,足够一个人昼 者发送和接收数据达44PB 夜不停地浏览16年 share 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn
10 1什么是大数据 13大数据的来源 智能终端拍照、拍 视频 启A 的a 发微博、发微信 淘宝网其他互联网数据 Taobao. com 来自大人群泛互联网数据 来自大量传感器的机器数据科学究及行业多结构专业数据 可南中医药大学/阮晓龙/13938213680/ht// tartxg. hactcm.edu.cn