正在加载图片...
第6期 马世龙,等:大数据与深度学习综述 .729. 1.1大数据特点和界定 特点,但最早的3个V仍被视作大数据应具备的3 从21世纪初开始,产业界开始意识到数据产生的 个特征,贯穿于大数据生命周期中的各个阶段[) 规模和速度可能会对基础设施特别是存储设备造成压 从而也形成了学术界和产业界认同趋于一致的大数 力)。根据Martin Hilbert的一项统计人类信息总量的 据定义,如表2所示。 研究,在2000年,数字存储信息只占全球数据量的 表2大数据定义 1/4,其他75%的信息尚都存储在报纸、胶片、黑胶唱片 Table 2 Big data definitions 和盒式磁带这类媒介上:但经过短短的几年时间,到了 机构 定义 2007年,人类大约存储了300EB的数据,其中只有7% 需要新处理模式才能具有更强的决策力、 是存储在报纸、书籍、图片等媒介上的模拟数据,其余 Gartner 洞察发现力和流程优化能力的海量、 全部是数字数据。数字数据的总量以每40个月翻一 高增长率和多样化的信息资产( 番的速度积累。注:PB(PetaBytes拍字节)=1024TB= 种规模大到在获取、存储、管理、分析方面大 20字节,EB(ExaBytes艾字节)=1024PB=20字节,ZB 大超出了传统数据库软件工具能力范围的数据 麦肯锡 (ZettaBytes泽字节)=1024EB=2"字节,YB(Yotta- 集合,具有海量数据规模、快速数据流转、多样 Bytes尧字节)=1024ZB=20字节。 数据类型和价值密度低等四大特征 大数据是指利用常用软件工具捕获,管理和处 然而有了规模和速度就是大数据吗?研究人员在 Wiki 理数据所耗时间超过可容忍时间的数据集[) 不同时期对大数据的特点进行了总结。首当其冲的是 1.2大数据存储与处理现状 2O01年,META集团分析师Doug Laney给出大数据的 3V特征),分别为规模性(Volume)、多样性(Variety) 早在2000年,美国斯隆数字巡天项目启动,其 位于新墨西哥州的望远镜,在短短几周内收集到的 和高速性(Velocity)。10年后,DC在此基础上又提出 第4个特征,即数据的价值(Value)[o。2012年BM则 数据比天文学历史上总共收集的数据还要多。云平 认为大数据的第4个特征是指真实性(Veracity)[-】。 台D0M0公司从2010年开始做过一份有趣的统 后来,有人将上述所有特征合起来称为大数据的5V特 计一“数据从不休息”,将不同社交网络每分钟产 征,也有人从不同的应用视角和需求出发,又提出了粘 生的数据进行比较,并形象地给出了它们的数据总 性(Viscosity)、邻近性(Vicinity)、模糊性(Vague)等多 量[)。据统计,某社交网络产生的评论数在 种不同的特征,形成了3+xV的大数据特征[)。这些特 2010一2011年期间为每分钟60余万条,而在 征的具体含义,如表1。 2013一2015期间迅速增长为每分钟410余万条。 表1大数据特征 据另一个统计,2015年美国股市每天的成交量可高 Table 1 Big data characteristics 达70亿股。Google每天要处理超过24PB的数据, 名称 含义 这个数据处理量是美国国家图书馆所有纸质出版物 规模可从数百TB到数十数百PB、 所含数据量的千倍之多4。由此说明,除了互联网 规模性(Volume) 甚至到EB规模 之外,物联网、移动终端乃至传统的产业都在迅速产 包括各种格式和形态的数据, 生大量的数据。研究人员对大数据的产生方式进行 多样性(Variety) 如文本、图像、音频、视频 了分类),并指出大数据产生方式经历了被动生 需要在一定的时间限度下 实效性(Velocity) 成、主动生成、自动生成3个阶段],如表3所示。 得到及时处理 表3大数据产生阶段 价值密度低,需要通过分析挖掘 价值密度(Value) Table 3 Big data generating 和利用产生商业价值 阶段 方式 特点 采集的数据的质量影响分析 真实性(Veracity) 运营式系统阶段,伴随一定的运 结果的准确性 被动 营活动数据被动产生并保存 易变性(Variability) 指数据流的格式变化多样 用户原创内容阶段,尤其是在Web2.0 粘性(Viscosity) 指数据流之间的关联性是否强 时代,社交网络的出现以及以智能手机 邻近性(Vicinity) 获取数据资源的距离 2 主动 平板电脑为代表的新型移动设备的使 传播性(Virality) 数据在网络中传播的速度 用率上升,爆炸式地、主动地产生UGC 有效性(Volatility) 数据的有效性及存储期限 (user generated content)数据 因采集手段的多样性和局限性 模糊性(Vague) 感知式系统阶段,随着带有处理 获取的数据具有模糊性 自动 功能的传感器广泛布置于社会各处, 随着应用的不同研究人员给出了众多的大数据 源源不断地、自动地产生新的数据1.1 大数据特点和界定 从 21 世纪初开始,产业界开始意识到数据产生的 规模和速度可能会对基础设施特别是存储设备造成压 力[2] 。 根据 Martin Hilbert 的一项统计人类信息总量的 研究[4] ,在 2000 年,数字存储信息只占全球数据量的 1/ 4,其他 75%的信息尚都存储在报纸、胶片、黑胶唱片 和盒式磁带这类媒介上;但经过短短的几年时间,到了 2007 年,人类大约存储了 300 EB 的数据,其中只有 7% 是存储在报纸、书籍、图片等媒介上的模拟数据,其余 全部是数字数据。 数字数据的总量以每 40 个月翻一 番的速度积累。 注:PB(PetaBytes 拍字节)= 1 024 TB= 2 50字节,EB(ExaBytes 艾字节)= 1 024PB = 2 60字节,ZB (ZettaBytes 泽字节) = 1 024 EB= 2 70 字节,YB(Yotta⁃ Bytes 尧字节)= 1 024 ZB=2 80字节。 然而有了规模和速度就是大数据吗? 研究人员在 不同时期对大数据的特点进行了总结。 首当其冲的是 2001 年,META 集团分析师 Doug Laney 给出大数据的 3V 特征[5] ,分别为规模性(Volume)、多样性(Variety) 和高速性(Velocity)。 10 年后,IDC 在此基础上又提出 第 4 个特征,即数据的价值(Value) [6] 。 2012 年 IBM 则 认为大数据的第 4 个特征是指真实性(Veracity) [7-8] 。 后来,有人将上述所有特征合起来称为大数据的 5V 特 征,也有人从不同的应用视角和需求出发,又提出了粘 性(Viscosity)、邻近性(Vicinity)、模糊性(Vague)等多 种不同的特征,形成了 3+xV 的大数据特征[9] 。 这些特 征的具体含义,如表 1。 表 1 大数据特征 Table 1 Big data characteristics 名称 含义 规模性(Volume) 规模可从数百 TB 到数十数百 PB、 甚至到 EB 规模 多样性(Variety) 包括各种格式和形态的数据, 如文本、图像、音频、视频 实效性(Velocity) 需要在一定的时间限度下 得到及时处理 价值密度(Value) 价值密度低,需要通过分析挖掘 和利用产生商业价值 真实性(Veracity) 采集的数据的质量影响分析 结果的准确性 易变性(Variability) 指数据流的格式变化多样 粘性(Viscosity) 指数据流之间的关联性是否强 邻近性(Vicinity) 获取数据资源的距离 传播性(Virality) 数据在网络中传播的速度 有效性(Volatility) 数据的有效性及存储期限 模糊性(Vague) 因采集手段的多样性和局限性, 获取的数据具有模糊性 随着应用的不同研究人员给出了众多的大数据 特点,但最早的 3 个 V 仍被视作大数据应具备的 3 个特征,贯穿于大数据生命周期中的各个阶段[9] , 从而也形成了学术界和产业界认同趋于一致的大数 据定义,如表 2 所示。 表 2 大数据定义 Table 2 Big data definitions 机构 定义 Gartner 需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力的海量、 高增长率和多样化的信息资产[10] 麦肯锡 一种规模大到在获取、存储、管理、分析方面大 大超出了传统数据库软件工具能力范围的数据 集合,具有海量数据规模、快速数据流转、多样 数据类型和价值密度低等四大特征[11] Wiki 大数据是指利用常用软件工具捕获、管理和处 理数据所耗时间超过可容忍时间的数据集[12] 1.2 大数据存储与处理现状 早在 2000 年,美国斯隆数字巡天项目启动,其 位于新墨西哥州的望远镜,在短短几周内收集到的 数据比天文学历史上总共收集的数据还要多。 云平 台 DOMO 公司从 2010 年开始做过一份有趣的统 计———“数据从不休息”,将不同社交网络每分钟产 生的数据进行比较,并形象地给出了它们的数据总 量[13] 。 据 统 计, 某 社 交 网 络 产 生 的 评 论 数 在 2010—2011 年 期 间 为 每 分 钟 60 余 万 条, 而 在 2013—2015 期间迅速增长为每分钟 410 余万条。 据另一个统计,2015 年美国股市每天的成交量可高 达 70 亿股。 Google 每天要处理超过 24 PB 的数据, 这个数据处理量是美国国家图书馆所有纸质出版物 所含数据量的千倍之多[14] 。 由此说明,除了互联网 之外,物联网、移动终端乃至传统的产业都在迅速产 生大量的数据。 研究人员对大数据的产生方式进行 了分类[15] ,并指出大数据产生方式经历了被动生 成、主动生成、自动生成 3 个阶段[15] ,如表 3 所示。 表 3 大数据产生阶段 Table 3 Big data generating 阶段 方式 特点 1 被动 运营式系统阶段,伴随一定的运 营活动数据被动产生并保存 2 主动 用户原创内容阶段,尤其是在 Web2.0 时代,社交网络的出现以及以智能手机、 平板电脑为代表的新型移动设备的使 用率上升,爆炸式地、主动地产生 UGC (user generated content)数据 3 自动 感知式系统阶段,随着带有处理 功能的传感器广泛布置于社会各处, 源源不断地、自动地产生新的数据 第 6 期 马世龙,等:大数据与深度学习综述 ·729·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有