第5讲大数据 1什么是大数据 1.1大数据的概念 计算、物联网等技术的兴起,标志着我们已经逐步进入大数据时代。大数 据时代的到来,已经引起了全世界各国和信息行业的广泛重视;联合国在2015 年5月发布了关于大数据的专题报告,详细阐述了大数据时代给世界各国带来的 基于和挑战;全球各大媒体也对大数据展开宣传和报道。这些都说明了大数据已 经深入影响到人们的日常生活。但是在这种火热景象的背后,普通人民对大数据 并没有足够的认识,大数据的发展还面临着一些挑战,技术需要进一步的完善 大数据的概念,最初代表着数据规模的庞大,但是随着大数据管理技术的发 展,这一简单的阐述已经不能完全概括大数据的内涵。仅仅是数据规模上的庞大 似乎与以往的数据管理方式没有什么本质上的改变。大数据的具体概念,要包括 其数据处理的所有特点。现在广为公认的大数据定义是:在数量巨大、类型复杂 价值含量高的数据信息基础上,实现对数据高速处理的数据管理模式 Big data(大数据),或称巨量资料,指的是所涉及的资料量的规模巨大到无 法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮 助企业经营决策更积极目的的资讯。 大数据通常具有4V特征: (1) Volume(体量浩大)。在数据爆炸时代,数据单位已无法用传统的TB来 衡量,而是用PB、EP或者ZB作为大数据的计量单位。导致数据激增的原因很 多,主要是互联网络的广泛使用使人类快速进入信息时代,数据疯狂增长,必然 使得数据处理量显著增多。 (2) Variety(类型繁多)。以往的数据尽管体量巨大,但一般都是比较容 易处理的结构化数据。当前,随着互联网络与传感器的飞速发展,不仅包含传统 的结构化数据,还包括音频、视频、网页、文本等半结构和非结构化数据 (3) Velocity(生成快速)。数据量的疯狂增长,使得数据处理的速度加快, 这也是大数据区别于以往海量数据处理的重要特征。面临各种信息,如何把握数 据的时效性,快速地从各种数据类型中获取高价值的信息,是大数据时代处理的 基本要求。 (4) Value(价值巨大但密度很低)。大数据为了获得事物的全部细节,会 直接采用原始数据,导致存在大量的无用信息,使得人们获取有用信息的难度加 大,就像沙子淘金 目前,对于大数据的4V定义是目前较为统一的认识。其特有的4种特征使 得大数据的概念与以往“海量数据”和“超大规模数据”有着本质区别,除了用 来描述数据之“大”,还指出了大数据的意义和必要性,即如何从体量巨大、类
第 5 讲 大数据 1 什么是大数据 1.1 大数据的概念 云计算、物联网等技术的兴起,标志着我们已经逐步进入大数据时代。大数 据时代的到来,已经引起了全世界各国和信息行业的广泛重视;联合国在 2015 年 5 月发布了关于大数据的专题报告,详细阐述了大数据时代给世界各国带来的 基于和挑战;全球各大媒体也对大数据展开宣传和报道。这些都说明了大数据已 经深入影响到人们的日常生活。但是在这种火热景象的背后,普通人民对大数据 并没有足够的认识,大数据的发展还面临着一些挑战,技术需要进一步的完善。 大数据的概念,最初代表着数据规模的庞大,但是随着大数据管理技术的发 展,这一简单的阐述已经不能完全概括大数据的内涵。仅仅是数据规模上的庞大, 似乎与以往的数据管理方式没有什么本质上的改变。大数据的具体概念,要包括 其数据处理的所有特点。现在广为公认的大数据定义是:在数量巨大、类型复杂、 价值含量高的数据信息基础上,实现对数据高速处理的数据管理模式。 Big Data(大数据),或称巨量资料,指的是所涉及的资料量的规模巨大到无 法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮 助企业经营决策更积极目的的资讯。 大数据通常具有 4V 特征: (1)Volume(体量浩大)。在数据爆炸时代,数据单位已无法用传统的 TB 来 衡量,而是用 PB、EP 或者 ZB 作为大数据的计量单位。导致数据激增的原因很 多,主要是互联网络的广泛使用使人类快速进入信息时代,数据疯狂增长,必然 使得数据处理量显著增多。 (2)Variety(类型繁多)。以往的数据尽管体量巨大,但一般都是比较容 易处理的结构化数据。当前,随着互联网络与传感器的飞速发展,不仅包含传统 的结构化数据,还包括音频、视频、网页、文本等半结构和非结构化数据。 (3)Velocity(生成快速)。数据量的疯狂增长,使得数据处理的速度加快, 这也是大数据区别于以往海量数据处理的重要特征。面临各种信息,如何把握数 据的时效性,快速地从各种数据类型中获取高价值的信息,是大数据时代处理的 基本要求。 (4)Value(价值巨大但密度很低)。大数据为了获得事物的全部细节,会 直接采用原始数据,导致存在大量的无用信息,使得人们获取有用信息的难度加 大,就像沙子淘金。 目前,对于大数据的 4V 定义是目前较为统一的认识。其特有的4种特征使 得大数据的概念与以往“海量数据”和“超大规模数据”有着本质区别,除了用 来描述数据之“大”,还指出了大数据的意义和必要性,即如何从体量巨大、类
型繁多、生成快速的数据集中挖掘价值。 1.2大数据的技术支持 大数据的快速发展主要依赖于云计算基础的迅速发展,大数据技术的发展需 要存储、计算和智能这三大技术支持。 (1)存储成本的下降 在云计算出现之前,数据存储的成本是非常高的。例如,公司要建设网站 需要购置和部署服务器,安排技术人员维护服务器,保证数据存储的安全性和数 据传输的畅通性,还会定期清理数据,腾出空间以便存储新的数据,机房整体的 人力和管理成本都很高。云计算出现后,数据存储服务衍生出了新的商业模式, 数据中心的出现降低了公司的计算和存储成本。例如,公司现在要建设网站,不 需要去购买服务器,不需要去雇用技术人员维护服务器,可以通过租用硬件设备 的方式解决问题。 存储成本的下降,也改变了大家对数据的看法,更加愿意把1年、2年甚至 更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发现数据 之间的关联和价值。正是由于存储成本的下降,才能为大数据搭建最好的基础设 施 (2)运算速度的快速提升 海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析等 多个环节,如果计算速度不够快,很多事情是无法实现的。所以,在大数据的发 展过程中,计算速度是非常关键的因素。 (3)机器拥有理解数据的能力 大数据带来的最大价值就是“智慧”,大数据让机器变得有智慧,同时人工 智能进一步提升了处理和理解数据的能力。例如,谷歌 AlphaL大胜世界围棋冠 军李世石,阿里云小Ai成功预测出《我是歌手》的总决赛歌王等 1.3大数据的来源 随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售 餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来 越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理 模式的能力范围,于是“大数据”这样一个概念才会应运而生。 按产生数据的主体划分 (1)少量企业应用产生的数据 如关系型数据库中的数据和数据仓库中的数据等。 (2)大量人产生的数据 如推特、微博、通信软件、移动通信数据、电子商务在线交易日志数据、企 业应用的相关评论数据等
型繁多、生成快速的数据集中挖掘价值。 1.2 大数据的技术支持 大数据的快速发展主要依赖于云计算基础的迅速发展,大数据技术的发展需 要存储、计算和智能这三大技术支持。 (1)存储成本的下降 在云计算出现之前,数据存储的成本是非常高的。例如,公司要建设网站, 需要购置和部署服务器,安排技术人员维护服务器,保证数据存储的安全性和数 据传输的畅通性,还会定期清理数据,腾出空间以便存储新的数据,机房整体的 人力和管理成本都很高。云计算出现后,数据存储服务衍生出了新的商业模式, 数据中心的出现降低了公司的计算和存储成本。例如,公司现在要建设网站,不 需要去购买服务器,不需要去雇用技术人员维护服务器,可以通过租用硬件设备 的方式解决问题。 存储成本的下降,也改变了大家对数据的看法,更加愿意把 1 年、2 年甚至 更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发现数据 之间的关联和价值。正是由于存储成本的下降,才能为大数据搭建最好的基础设 施。 (2)运算速度的快速提升 海量数据从原始数据源到产生价值,期间会经过存储、清洗、挖掘、分析等 多个环节,如果计算速度不够快,很多事情是无法实现的。所以,在大数据的发 展过程中,计算速度是非常关键的因素。 (3)机器拥有理解数据的能力 大数据带来的最大价值就是“智慧”,大数据让机器变得有智慧,同时人工 智能进一步提升了处理和理解数据的能力。例如,谷歌 AlphaGo 大胜世界围棋冠 军李世石,阿里云小 Ai 成功预测出《我是歌手》的总决赛歌王等。 1.3 大数据的来源 随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、 餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来 越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理 模式的能力范围,于是“大数据”这样一个概念才会应运而生。 1、按产生数据的主体划分 (1)少量企业应用产生的数据 如关系型数据库中的数据和数据仓库中的数据等。 (2)大量人产生的数据 如推特、微博、通信软件、移动通信数据、电子商务在线交易日志数据、企 业应用的相关评论数据等
(3)巨量机器产生的数据 如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形 码(条码)扫描数据等。 2、按数据来源的行业划分 (1)以BAT为代表的互联网公司 百度公司数据总量超过了千PB级别,阿里巴巴公司保存的数据量超过了百 PB级别,拥有90%以上的电商数据,腾讯公司总存储数据量经压缩处理以后仍然 超过了百PB级别,数据量月增加达到10%。 (2)电信、金融、保险、电力、石化系统 电信行业数据年度用户数据增长超过10%,金融每年产生的数据超过数十PB, 保险系统的数据量也超过了PB级别,电力与石化方面,仅国家电网采集获得的 数据总量就达到了数十PB,石油化工领域每年产生和保存下来的数据量也将近 百PB级别。 (3)公共安全、医疗、交通领域 个中、大型城市,一个月的交通卡口记录数可以达到3亿条;整个医疗卫 生行业一年能够保存下来的数据就可达到数百PB级别;航班往返一次产生的数 据就达到TB级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存 下来的也达到数十PB。 (4)气象、地理、政务等领域 中国气象局保存的数据将近10PB,每年约增数百TB;各种地图和地理位置 信息每年约数十PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且 多为结构化数据。 (5)制造业和其他传统行业 制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控 数据为主。其中产品设计数据以文件为主,非结构化,共享要求较高,保存时间 较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则数 据量非常大。在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食 品、科研、物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都 不算大,多则达到PB级别,少则数十TB或数百TB级别 3、按数据存储的形式划分 大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中, 仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网 电子商务等领域的非结构化数据 (1)结构化数据 简单来说就是数据库,如企业ERP、财务系统、医疗HIS数据库、教育一卡 通、政府行政审批、其他核心数据库等数据。 (2)非结构化数据
(3)巨量机器产生的数据 如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形 码(条码)扫描数据等。 2、按数据来源的行业划分 (1)以 BAT 为代表的互联网公司 百度公司数据总量超过了千 PB 级别,阿里巴巴公司保存的数据量超过了百 PB 级别,拥有 90%以上的电商数据,腾讯公司总存储数据量经压缩处理以后仍然 超过了百 PB 级别,数据量月增加达到 10%。 (2)电信、金融、保险、电力、石化系统 电信行业数据年度用户数据增长超过 10%,金融每年产生的数据超过数十 PB, 保险系统的数据量也超过了 PB 级别,电力与石化方面,仅国家电网采集获得的 数据总量就达到了数十 PB,石油化工领域每年产生和保存下来的数据量也将近 百 PB 级别。 (3)公共安全、医疗、交通领域 一个中、大型城市,一个月的交通卡口记录数可以达到 3 亿条;整个医疗卫 生行业一年能够保存下来的数据就可达到数百 PB 级别;航班往返一次产生的数 据就达到 TB 级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存 下来的也达到数十 PB。 (4)气象、地理、政务等领域 中国气象局保存的数据将近 10PB,每年约增数百 TB;各种地图和地理位置 信息每年约数十 PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且 多为结构化数据。 (5)制造业和其他传统行业 制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控 数据为主。其中产品设计数据以文件为主,非结构化,共享要求较高,保存时间 较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则数 据量非常大。在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食 品、科研、物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都 不算大,多则达到 PB 级别,少则数十 TB 或数百 TB 级别。 3、按数据存储的形式划分 大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中, 仅有 20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、 电子商务等领域的非结构化数据。 (1)结构化数据 简单来说就是数据库,如企业 ERP、财务系统、医疗 HIS 数据库、教育一卡 通、政府行政审批、其他核心数据库等数据。 (2)非结构化数据
包括所有格式的办公文档、文本、图片、ⅫM、HTML、各类报表、图像和音 频、视频信息等数据。 4、常用的大数据获取途径 (1)系统日志采集 可以使用海量数据采集工具,用于系统日志采集,如 Hadoop的 Chukwa Cloudera的 Flume、 Facebook的 Scribe等,这些工具均采用分布式架构,能满 足大数据的日志数据采集和传输需求。 (2)互联网数据采集 通过网络爬虫或网站公开API等方式从网站上获取数据信息,该方法可以数 据从网页中抽取出来,将其存储为统一的本地数据文件,它支持图片、音频、视 频等文件或附件的采集,附件与正文可以自动关联。除了网站中包含的内容之外, 还可以使用DPI或DFⅠ等带宽管理技术实现对网络流量的采集。 (3)APP移动端数据采集 APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可以将用户 使用APP的信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端 的相关信息,包括安装应用的数量和类型等。单个APP用户规模有限,数据量有 限;但数十万APP用户,获取的用户终端数据和部分行为数据也会达到数亿的量 (4)与数据服务机构进行合作 数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速 明确地获取自己所需要的数据。而对于企业生产经营数据或学科研究数据等保密 性要求较高的数据,也可以通过与企业或研究机构合作,使用特定系统接口等相 关方式采集数据。 2大数据的关键技术 为了高效实时地处理巨大的数据问题,大数据技术的发展应运而生。所谓大 数据技术,即针对数据集合来进行一系列收集、存储、管理、处理、分析、共享 和可视化等操作的技术。目前,大数据技术涉及大数据釆集、大数据存储与管理 大数据计算模式与系统、大数据分析与挖掘和大数据隐私与安全等方面 2.1大数据采集技术 大数据具有规模大和数据源多样化等特点,为获取高质量数据,可将大数据 釆集过程分为数据清洗、数据转换和数据集成3个环节。数据清洗是指通过检测 除去数据中的明显错误和不一致来达到减少人工干预和用户编程量的目的;数据 转换是指按照已经设计好的规则对清洗后的数据进行转换来达到统一异构数据 格式的目的;数据集成是指为后继流程提供统一且高质量的数据集合来达到解决 “信息孤岛”现象的目的
包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音 频、视频信息等数据。 4、常用的大数据获取途径 (1)系统日志采集 可以使用海量数据采集工具,用于系统日志采集,如 Hadoop 的 Chukwa、 Cloudera 的 Flume、Facebook 的 Scribe 等,这些工具均采用分布式架构,能满 足大数据的日志数据采集和传输需求。 (2)互联网数据采集 通过网络爬虫或网站公开 API 等方式从网站上获取数据信息,该方法可以数 据从网页中抽取出来,将其存储为统一的本地数据文件,它支持图片、音频、视 频等文件或附件的采集,附件与正文可以自动关联。除了网站中包含的内容之外, 还可以使用 DPI 或 DFI 等带宽管理技术实现对网络流量的采集。 (3)APP 移动端数据采集 APP 是获取用户移动端数据的一种有效方法,APP 中的 SDK 插件可以将用户 使用 APP 的信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端 的相关信息,包括安装应用的数量和类型等。单个 APP 用户规模有限,数据量有 限;但数十万 APP 用户,获取的用户终端数据和部分行为数据也会达到数亿的量 级。 (4)与数据服务机构进行合作 数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速、 明确地获取自己所需要的数据。而对于企业生产经营数据或学科研究数据等保密 性要求较高的数据,也可以通过与企业或研究机构合作,使用特定系统接口等相 关方式采集数据。 2 大数据的关键技术 为了高效实时地处理巨大的数据问题,大数据技术的发展应运而生。所谓大 数据技术,即针对数据集合来进行一系列收集、存储、管理、处理、分析、共享 和可视化等操作的技术。目前,大数据技术涉及大数据采集、大数据存储与管理、 大数据计算模式与系统、大数据分析与挖掘和大数据隐私与安全等方面。 2.1 大数据采集技术 大数据具有规模大和数据源多样化等特点,为获取高质量数据,可将大数据 采集过程分为数据清洗、数据转换和数据集成3个环节。数据清洗是指通过检测 除去数据中的明显错误和不一致来达到减少人工干预和用户编程量的目的;数据 转换是指按照已经设计好的规则对清洗后的数据进行转换来达到统一异构数据 格式的目的;数据集成是指为后继流程提供统一且高质量的数据集合来达到解决 “信息孤岛”现象的目的
目前常用的数据采集方法有传感器收取、手机电子渠道、传统搜索引擎如百 度和谷歌等,以及条形码技术等 2.2大数据存储与管理技术 针对大数据的规模性,为了降低存储成本,并行地处理数据,提高数据处理 能力,采用分布式数据存储管理技术,主要存储模式为冗余存储模式,即将文件 块复制存储在几个不同的存储节点上 比较有名的分布式存储技术是 Google的GFS( Google File System)和 Hadoop的HDFS( Hadoop Distributed File System),其中,HDFS是GFS的开 源实现 为了达到方便管理数据的目的,大数据不再采用传统的单表数据存储结构, 而是采用由多维表组成的按列存储的分布式实时数据管理系统来组织和管理数 据,比较有代表性的是 Google的 Big table和 Hadoop的 HBase,其中,Big Table基于GFS, HBase基于HDFS。 2.3大数据计算模式与系统 大数据计算模式指根据大数据的不同数据特征和计算特征,从多样性的大数 据计算问题和需求中提炼并建立的各种高层抽象或模型。大数据计算模式多而复 杂,比如流式计算、批处理计算、迭代计算和图计算等,其中,由于批处理计算 的 MapReuce技术具有扩展性和可用性,适合海量且多种类型数据的混合处理, 因此,大数据计算通常采用此技术。 MapReduce采用“分而治之”的思想,首先将一个大而重的数据任务分解为 系列小而轻且相互独立的子任务,然后将这些子任务分发到平台的各节点并行 执行,最后将各节点的执行结果汇总得到最终结果,完成对海量数据的并行计算。 2.4大数据分析与挖掘技术 为了从体量巨大、类型繁多、生成快速的大数据集中寻找出更高的价值,需 要大数据分析与挖掘技术帮助理解数据的语义,来提高数据的质量和可信度。由 于大数据时代数据的复杂特征,传统的数据分析技术如数据挖掘、机器学习、统 计分析已无法满足大数据分析需求,有待进一步研究改进 目前,关键的大数据分析和挖掘技术是云计算技术和可视化技术。云计算技 术中的分布式文件系统为大数据底层存储架构提供支撑,基于分布式文件系统构 建的分布式数据库通过快捷管理数据的方式来提高数据的访问速度,同时,通过 各种并行分析技术在一个开源平台上处理复杂数据,最终通过采用各种可视化技 术将数据处理结果直观清晰地呈现出来,帮助用户更简单方便地从复杂的数据中 得到新的发现和收获。 2.5大数据与隐私安全
目前常用的数据采集方法有传感器收取、手机电子渠道、传统搜索引擎如百 度和谷歌等,以及条形码技术等。 2.2 大数据存储与管理技术 针对大数据的规模性,为了降低存储成本,并行地处理数据,提高数据处理 能力,采用分布式数据存储管理技术,主要存储模式为冗余存储模式,即将文件 块复制存储在几个不同的存储节点上。 比较有名的分布式存储技术是 Google 的 GFS(Google File System)和 Hadoop 的 HDFS(Hadoop Distributed File System),其中,HDFS 是 GFS 的开 源实现。 为了达到方便管理数据的目的,大数据不再采用传统的单表数据存储结构, 而是采用由多维表组成的按列存储的分布式实时数据管理系统来组织和管理数 据,比较有代表性的是 Google 的 Big Table 和 Hadoop 的 HBase,其中,Big Table 基于 GFS,HBase 基于 HDFS。 2.3 大数据计算模式与系统 大数据计算模式指根据大数据的不同数据特征和计算特征,从多样性的大数 据计算问题和需求中提炼并建立的各种高层抽象或模型。大数据计算模式多而复 杂,比如流式计算、批处理计算、迭代计算和图计算等,其中,由于批处理计算 的 MapReuce 技术具有扩展性和可用性,适合海量且多种类型数据的混合处理, 因此,大数据计算通常采用此技术。 MapReduce 采用“分而治之”的思想,首先将一个大而重的数据任务分解为 一系列小而轻且相互独立的子任务,然后将这些子任务分发到平台的各节点并行 执行,最后将各节点的执行结果汇总得到最终结果,完成对海量数据的并行计算。 2.4 大数据分析与挖掘技术 为了从体量巨大、类型繁多、生成快速的大数据集中寻找出更高的价值,需 要大数据分析与挖掘技术帮助理解数据的语义,来提高数据的质量和可信度。由 于大数据时代数据的复杂特征,传统的数据分析技术如数据挖掘、机器学习、统 计分析已无法满足大数据分析需求,有待进一步研究改进。 目前,关键的大数据分析和挖掘技术是云计算技术和可视化技术。云计算技 术中的分布式文件系统为大数据底层存储架构提供支撑,基于分布式文件系统构 建的分布式数据库通过快捷管理数据的方式来提高数据的访问速度,同时,通过 各种并行分析技术在一个开源平台上处理复杂数据,最终通过采用各种可视化技 术将数据处理结果直观清晰地呈现出来,帮助用户更简单方便地从复杂的数据中 得到新的发现和收获。 2.5 大数据与隐私安全
大数据潜在的巨大价值,吸引着无数潜在的攻击者,同时在社交网络的快速 发展下,人们的隐私安全更是受到威胁,甚至影响到国家安全。鉴于此,各界人 士着手大数据安全与隐私保护技术研究并取得了一定成果。 现有的大数据安全与隐私保护技术有能对数据所有者进行匿名化的数据发 布匿名保护技术、能隐藏用户信息和用户间关系的社交网络匿名保护技术、能确 定数据来源的数据溯源技术、能够实现用户授权和简化权限管理的角色挖掘技术 和将标识信息嵌入数据载体内部的数据水印技术等。 3大数据的应用 美国著名管理学家爱德华·戴明所言:“我们信靠上帝。除了上帝,任何人 都必须用数据来说话。”用数据说话、让数据发声,已成为人类认知世界的一种 全新方法。在大数据时代,“万物皆数”,“量化一切”,“一切都将被数据化”。大 数据中的“数据”真实可靠,它实质上是表征事物现象的一种符号语言和逻辑关 系,其可靠性的数理哲学基础是世界同构原理。这意味着任何事物的属性和规律, 只要通过适当编码,均可以通过统一的数字信号表达出来 大数据将给各行各业带来变革性机会,但真正的大数据应用仍处于发展初级 阶段。结合目前大数据在电子政务、网络通信行业、医疗行业、能源等行业的应 用进行简单介绍 3.1大数据在电子政务中的应用 大数据的发展,将极大改变政府现有管理模式和服务模式。具体而言,就是 依托大数据的发展,节约政府投入、及时有效进行社会监管和治理,提升公共服 务能力。以大数据应用支撑政务活动为例,美国积极运用大数据推动政府管理方 式变革和管理能力提升,越来越多的政府部门依托数据及数据分析进行决策,将 之用于公共政策、舆情监控、犯罪预测、反恐等活动。 借助大数据,还能逐步实现立体化、多层次、全方位的电子政务公共服务体 系,推进信息公开,促进网上电子政务开展,创新社会管理和服务应用,增强政 府和社会、百姓的双向交流、互动 3.2大数据在网络通信业的应用 大数据与云计算相结合所释放出的巨大能量,几乎波及到所有的行业,而信 息、互联网和通信产业将首当其冲,特别是通信业,在传统话音业务低值化、增 值业务互联网化的趋势中,大数据与云计算有望成为其加速转型的动力和途径。 对于大数据而言,信息已经成为企业战略资产,市场竞争要求越来越多的数据被 长期保存,每天都会从管道、业务平台、支撑系统中产生海量有价值的数据,基 于这些大数据的商业智能应用将为通信运营商带来巨大机遇和丰厚利润。 例如,电信业者可通过数以千万计的客户资料,分析出多种使用者行为和趋 势,卖给需要的企业,这是全新的资料经济。中国移动通过大数据分析,对企业
大数据潜在的巨大价值,吸引着无数潜在的攻击者,同时在社交网络的快速 发展下,人们的隐私安全更是受到威胁,甚至影响到国家安全。鉴于此,各界人 士着手大数据安全与隐私保护技术研究并取得了一定成果。 现有的大数据安全与隐私保护技术有能对数据所有者进行匿名化的数据发 布匿名保护技术、能隐藏用户信息和用户间关系的社交网络匿名保护技术、能确 定数据来源的数据溯源技术、能够实现用户授权和简化权限管理的角色挖掘技术 和将标识信息嵌入数据载体内部的数据水印技术等。 3 大数据的应用 美国著名管理学家爱德华·戴明所言:“我们信靠上帝。除了上帝,任何人 都必须用数据来说话。”用数据说话、让数据发声,已成为人类认知世界的一种 全新方法。在大数据时代,“万物皆数”,“量化一切”,“一切都将被数据化”。大 数据中的“数据”真实可靠,它实质上是表征事物现象的一种符号语言和逻辑关 系,其可靠性的数理哲学基础是世界同构原理。这意味着任何事物的属性和规律, 只要通过适当编码,均可以通过统一的数字信号表达出来。 大数据将给各行各业带来变革性机会,但真正的大数据应用仍处于发展初级 阶段。结合目前大数据在电子政务、网络通信行业、医疗行业、能源等行业的应 用进行简单介绍。 3.1 大数据在电子政务中的应用 大数据的发展,将极大改变政府现有管理模式和服务模式。具体而言,就是 依托大数据的发展,节约政府投入、及时有效进行社会监管和治理,提升公共服 务能力。以大数据应用支撑政务活动为例,美国积极运用大数据推动政府管理方 式变革和管理能力提升,越来越多的政府部门依托数据及数据分析进行决策,将 之用于公共政策、舆情监控、犯罪预测、反恐等活动。 借助大数据,还能逐步实现立体化、多层次、全方位的电子政务公共服务体 系,推进信息公开,促进网上电子政务开展,创新社会管理和服务应用,增强政 府和社会、百姓的双向交流、互动。 3.2 大数据在网络通信业的应用 大数据与云计算相结合所释放出的巨大能量,几乎波及到所有的行业,而信 息、互联网和通信产业将首当其冲,特别是通信业,在传统话音业务低值化、增 值业务互联网化的趋势中,大数据与云计算有望成为其加速转型的动力和途径。 对于大数据而言,信息已经成为企业战略资产,市场竞争要求越来越多的数据被 长期保存,每天都会从管道、业务平台、支撑系统中产生海量有价值的数据,基 于这些大数据的商业智能应用将为通信运营商带来巨大机遇和丰厚利润。 例如,电信业者可通过数以千万计的客户资料,分析出多种使用者行为和趋 势,卖给需要的企业,这是全新的资料经济。中国移动通过大数据分析,对企业
运营的全业务进行针对性的监控、预警、跟踪,系统在第一时间自动捕捉市场变 化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。 3.3大数据在医疗行业的应用 伴随医疗卫生行业信息化进程的发展,在医疗业务活动、健康体检、公共卫 生、传染病监测、人类基因分析等医疗卫生服务过程中将产生海量高价值的数据。 数据内容主要包括医院的PACS影像、B超、病理分析、大量电子病历、区域卫生 信息平台采集的居民健康档案、疾病监控系统实时采集的数据等 面对大数据,医疗行业遇到前所未有的挑战和机遇。例如, Seton healthcare 公司采用 IBM Watson技术针对医疗保健内容分析预测,找到大量病人相关的临 床医疗信息,通过大数据处理,更好地分析病人的信息。在加拿大多伦多的一家 医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析, 医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿 天折。 大数据让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的 健康类APP。也许在数年后,它们搜集的数据能让医生给你的诊断变得更为精确 比方说不是通用的成人每日3次,1次1片,而是检测到你的血液中药剂已经代 谢完成会自动提醒你再次服药。 社交网络为许多慢性病患者提供临床症状交流和诊治经验分享平台,医生借 此可获得在医院通常得不到的临床效果统计数据。基于对人体基因的大数据分析, 可以实现对症下药的个性化治疗 对于公共卫生部门,可以通过全国联网的患者电子病历库,快速检测传染病 进行全面疫情监测,并通过集成的疾病监测和响应程序,快速进行响应。 3.4大数据在零售行业的应用 从商业价值来看,大数据究竟能往哪些方面挖掘出巨大的商业价值呢?根据 IDC和麦肯锡的大数据研究结果的总结,大数据主要能在以下4个方面挖掘出巨 大的商业价值:对顾客群体细分,然后对每个群体量体裁衣般地采取独特的行动 运用大数据模拟实境,发掘新的需求和提高投入的回报率;提升大数据成果在各 相关部门的分享程度,提高整个管理链条和产业链条的投入回报率;进行商业模 式、产品和服务的创新。 在商业领域,沃尔玛公司每天通过6000多个商店,向全球客户销售超过2.67 亿件商品,为了对这些数据进行分析,HP公司为沃尔玛公司建造了大型数据仓 库系统,数据规模达到4PB,并且仍在不断扩大。沃尔玛公司通过分析销售数据, 了解顾客购物习惯,得出适合搭配在一起出售的商品,还可从中细分顾客群体, 提供个性化服务。 在金融领域,华尔街德温特资本市场公司通过分析3.4亿微博账户留言,判 断民众情绪,依据人们高兴时买股票、焦虑时抛售股票的规律,决定公司股票的
运营的全业务进行针对性的监控、预警、跟踪,系统在第一时间自动捕捉市场变 化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。 3.3 大数据在医疗行业的应用 伴随医疗卫生行业信息化进程的发展,在医疗业务活动、健康体检、公共卫 生、传染病监测、人类基因分析等医疗卫生服务过程中将产生海量高价值的数据。 数据内容主要包括医院的 PACS 影像、B 超、病理分析、大量电子病历、区域卫生 信息平台采集的居民健康档案、疾病监控系统实时采集的数据等。 面对大数据,医疗行业遇到前所未有的挑战和机遇。例如,Seton Healthcare 公司采用 IBM Watson 技术针对医疗保健内容分析预测,找到大量病人相关的临 床医疗信息,通过大数据处理,更好地分析病人的信息。在加拿大多伦多的一家 医院,针对早产婴儿,每秒钟有超过 3000 次的数据读取。通过这些数据分析, 医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿 夭折。 大数据让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的 健康类 APP。也许在数年后,它们搜集的数据能让医生给你的诊断变得更为精确, 比方说不是通用的成人每日 3 次,1 次 1 片,而是检测到你的血液中药剂已经代 谢完成会自动提醒你再次服药。 社交网络为许多慢性病患者提供临床症状交流和诊治经验分享平台,医生借 此可获得在医院通常得不到的临床效果统计数据。基于对人体基因的大数据分析, 可以实现对症下药的个性化治疗。 对于公共卫生部门,可以通过全国联网的患者电子病历库,快速检测传染病, 进行全面疫情监测,并通过集成的疾病监测和响应程序,快速进行响应。 3.4 大数据在零售行业的应用 从商业价值来看,大数据究竟能往哪些方面挖掘出巨大的商业价值呢?根据 IDC 和麦肯锡的大数据研究结果的总结,大数据主要能在以下 4 个方面挖掘出巨 大的商业价值:对顾客群体细分,然后对每个群体量体裁衣般地采取独特的行动; 运用大数据模拟实境,发掘新的需求和提高投入的回报率;提升大数据成果在各 相关部门的分享程度,提高整个管理链条和产业链条的投入回报率;进行商业模 式、产品和服务的创新。 在商业领域,沃尔玛公司每天通过 6000 多个商店,向全球客户销售超过 2.67 亿件商品,为了对这些数据进行分析,HP 公司为沃尔玛公司建造了大型数据仓 库系统,数据规模达到 4PB,并且仍在不断扩大。沃尔玛公司通过分析销售数据, 了解顾客购物习惯,得出适合搭配在一起出售的商品,还可从中细分顾客群体, 提供个性化服务。 在金融领域,华尔街德温特资本市场公司通过分析 3.4 亿微博账户留言,判 断民众情绪,依据人们高兴时买股票、焦虑时抛售股票的规律,决定公司股票的
买入或卖出。阿里巴巴公司根据在淘宝网上中小企业的交易状况筛选出财务健康 和讲究诚信的企业,对他们发放无需担保的贷款。 当我们去购物时,我们的数据会结合历史购买记录和社交媒体数据来为我们 提供优惠券、折扣和个性化优惠。零售企业也监控客户的店内走动情况以及与商 品的互动,它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、 如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业 减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商 品的比例。 美国维克托在《大数据时代》一书中提到:“未来,数据将会像土地、石油 和资本一样,成为经济运行中的根本性资源。”总之,未来信息世界是:三分技 术,七分数据,得数据者得天下 4典型案例 4.1案例分析:环境云 环境云由南京云创大数据科技股份有限公司开发并提供支持,是一个专注于 提供稳定、便捷的综合环境数据服务的平台,收录专业数据源(中央气象台、国 家环保部数据中心、美国全球地震信息中心等)所发布的各类环境数据,接收云 创自主布建的各类环境监控传感器网络(包括空气质量指标,土壤环境质量指标 检测网络)所釆集的数据,结合相关数据预测模型生成的预报数据,依托数据托 管服务平台万物云所提供的数据存储服务,推出了一系列功能丰富、便捷易用的 综合环境数据 REST API,配合详尽的接口使用帮助,为环境应用开发者提供丰 富可靠的气象、环境、灾害以及地理数据服务。此外,环境云还为环境硏究人员 提供了历史数据报表下载,并向公众展示环境实况。 地址:htp:/ww. envicloud.cn 演示讨论 (1)应用开发的数据接口 (2)环境地图 4.2案例分析:百度迁徙 “百度地图春节人口迁徙大数据”(简称“百度迁徙”)是百度在春运期间推 出的技术品牌项目,为业界首个以“人群迁徙”为主题的大数据可视化项目。 “百度迁徙”利用百度地图LBS开放平台、百度天眼,对其拥有的LBS(基 于地理位置的服务)大数据进行计算分析,并采用创新的可视化呈现方式,在业 界首次实现了全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与 特征。 地址http://gianxi.baidu.com 演示讨论 (1)热门目的地与热门出发地
买入或卖出。阿里巴巴公司根据在淘宝网上中小企业的交易状况筛选出财务健康 和讲究诚信的企业,对他们发放无需担保的贷款。 当我们去购物时,我们的数据会结合历史购买记录和社交媒体数据来为我们 提供优惠券、折扣和个性化优惠。零售企业也监控客户的店内走动情况以及与商 品的互动,它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、 如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业 减少了 17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商 品的比例。 美国维克托在《大数据时代》一书中提到:“未来,数据将会像土地、石油 和资本一样,成为经济运行中的根本性资源。”总之,未来信息世界是:三分技 术,七分数据,得数据者得天下。 4 典型案例 4.1 案例分析:环境云 环境云由南京云创大数据科技股份有限公司开发并提供支持,是一个专注于 提供稳定、便捷的综合环境数据服务的平台,收录专业数据源(中央气象台、国 家环保部数据中心、美国全球地震信息中心等)所发布的各类环境数据,接收云 创自主布建的各类环境监控传感器网络(包括空气质量指标,土壤环境质量指标 检测网络)所采集的数据,结合相关数据预测模型生成的预报数据,依托数据托 管服务平台万物云所提供的数据存储服务,推出了一系列功能丰富、便捷易用的 综合环境数据 REST API,配合详尽的接口使用帮助,为环境应用开发者提供丰 富可靠的气象、环境、灾害以及地理数据服务。此外,环境云还为环境研究人员 提供了历史数据报表下载,并向公众展示环境实况。 地址:http://www.envicloud.cn 演示讨论: (1)应用开发的数据接口 (2)环境地图 4.2 案例分析:百度迁徙 “百度地图春节人口迁徙大数据”(简称“百度迁徙”)是百度在春运期间推 出的技术品牌项目,为业界首个以“人群迁徙”为主题的大数据可视化项目。 “百度迁徙”利用百度地图 LBS 开放平台、百度天眼,对其拥有的 LBS(基 于地理位置的服务)大数据进行计算分析,并采用创新的可视化呈现方式,在业 界首次实现了全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与 特征。 地址:http://qianxi.baidu.com 演示讨论: (1)热门目的地与热门出发地
(2)蒿山国家风景名胜区实时客流热度 4.3案例分析:新浪舆情通 舆情通是上海蜜度信息技术有限公司研发的政务舆情大数据服务平台。 舆情通以中文互联网大数据及新浪微博的独家官方数据为基础,7*24小时 不间断采集新闻、报刊、政务、外媒、微博、微信、博客、论坛、视频、网站 客户端等全网11大信息来源,每天采集超过9000万条数据。自上线以来,舆情 通已经为3000+政府机构提供着包含信息监测、全网事件分析、微博事件分析 竞品分析、定制简报、大屏指挥系统等在内的全方位舆情服务,帮助政府机构对 社会热点话题、突发事件的快速发现、及时处置和正面引导 地址https://www.yqt365.com 演示讨论 (1)大数据分析 (2)舆情智库,阅读一个事件的分析。 44案例分析:阿里云数加大数据 阿里云大数据平台,简称数加,是阿里云为企业大数据实施提供的一套完整 的一站式大数据解决方案,覆盖了企业数仓、商业智能、机器学习、数据可视化 等领域,助力企业在DT时代更敏捷、更智能、更具洞察力 地址https://data.aliyun.com 演示讨论 (1)快速搭建一个B1销售数据分析系统 (2)轻松搞定日志实时分析及监控大屏 5我们的探索 5.1网络监控分析:业务画像 地址http://qianniuhua.online 5.2系统日志分析:金石 地址http://bd.hactcm.edu.cn 5.3教育评价分析:毕业设计分析 地址http://jxfx.ithactcm.edu.cn
(2)嵩山国家风景名胜区实时客流热度 4.3 案例分析:新浪舆情通 舆情通是上海蜜度信息技术有限公司研发的政务舆情大数据服务平台。 舆情通以中文互联网大数据及新浪微博的独家官方数据为基础,7*24 小时 不间断采集新闻、报刊、政务、外媒、微博、微信、博客、论坛、视频、网站、 客户端等全网 11 大信息来源,每天采集超过 9000 万条数据。自上线以来,舆情 通已经为 3000+政府机构提供着包含信息监测、全网事件分析、微博事件分析、 竞品分析、定制简报、大屏指挥系统等在内的全方位舆情服务,帮助政府机构对 社会热点话题、突发事件的快速发现、及时处置和正面引导。 地址:https://www.yqt365.com 演示讨论: (1)大数据分析 (2)舆情智库,阅读一个事件的分析。 4.4 案例分析:阿里云数加大数据 阿里云大数据平台,简称数加,是阿里云为企业大数据实施提供的一套完整 的一站式大数据解决方案,覆盖了企业数仓、商业智能、机器学习、数据可视化 等领域,助力企业在 DT 时代更敏捷、更智能、更具洞察力。 地址:https://data.aliyun.com 演示讨论: (1)快速搭建一个 BI 销售数据分析系统 (2)轻松搞定日志实时分析及监控大屏 5 我们的探索 5.1 网络监控分析:业务画像 地址:http://qianniuhua.online 5.2 系统日志分析:金石 地址:http://bd.hactcm.edu.cn 5.3 教育评价分析:毕业设计分析 地址:http://jxfx.it.hactcm.edu.cn