正在加载图片...
.730 智能系统学报 第11卷 大数据产生如此之快,对存储提出更高的要求。 要进行及时、有效地分析和处理,进而挖掘其中的价 产业界纷纷投入建设规模庞大的数据存储基础设 值。M.Viktor!指出,利用大数据进行分析时,与以 施。到2012年为止,Google部署在全球的数据中心 往不同的是:1)要使用全生命周期数据,即不是样 就有36个,单个数据中心的计算机节点将达到数百 本而是全体:2)与精确的数据分析相比,更加关注 万个;微软在全球建设超过20个数据中心,仅在 对全量复杂多样数据的分析:3)与传统的因果关系 2009年底前,就在芝加哥建成当时世界最大的模块 分析相比,更加关注事物之间的相关关系:4)基于 化数据中心,包括220个集装箱,每个集装箱有 机器学习的大数据分析结果将减少传统决策中的主 1800~2500台机器不等16。DC统计显示,全球 观因素。 的数据储量仅在2011年就达到1.8ZB,2015年全球 大数据处理在一般流程上包括数据存储、数据 大数据储量达到8.61ZB,而今后10年,用于存储数 抽取与集成、数据分析、数据解释和用户等几个层 据的全球服务器总量还将增长10倍[。 次,如文献[15]中图1所示。 大数据不仅需要如此妥善的存储和监管,更需 用户 研究人员 企业 政府 数据解释 可视化 数据跟踪 人机交互 决策支持 商业智能 推荐系统 预测 数据分析 机器学习 数据挖据 统计学 海量相关数据存储 模式演化 聚合与相关性 数据质量与可信性 数据抽取与集成 关系 实体 数据集成 数据抽取 结构化 半结构化 非结构化 数据源 关系数据库管理系统 超文本 文档 ”””。。””。““”“”小。中”““ ””。+““““。““。”“4。”小。。。 图1大数据处理一般流程 Fig.1 Basic framework of big data processing 其中,数据分析是整个大数据处理流程的核心。 [18]中对上述几种大数据处理形式从所处理数据 在这一层所处理的是从异构数据源抽取和集成的数 的特征、典型应用以及相关经典处理系统等几个维 据,也称为分析的原始数据。根据应用的不同需求, 度给出了系统而全面的总结。 可以从中取舍,利用全部或部分数据进行分析。大 可以说,从大数据产生到现在的10余年里,关于 数据的价值正是产生于此处]。 大数据分析与处理的技术呈现百家争鸣、百花齐放的 大数据处理在形式上又分为三大类型,分别为 状态,也取得了显著的成绩。2003年,人类第1次破 静态数据批量处理、在线数据实时处理和图形图像 译人体基因密码时,用了10年才完成30亿对碱基对 数据综合处理。其中,对在线数据的实时处理又可 的排序,而10年后,世界范围内的基因仪15min就可 以划分为流式数据的处理和交互数据的处理。文献 以完成同样的工作。美国股市日交易量的2/3都由大数据产生如此之快,对存储提出更高的要求。 产业界纷纷投入建设规模庞大的数据存储基础设 施。 到 2012 年为止,Google 部署在全球的数据中心 就有 36 个,单个数据中心的计算机节点将达到数百 万个;微软在全球建设超过 20 个数据中心,仅在 2009 年底前,就在芝加哥建成当时世界最大的模块 化数据中心, 包括 220 个集装箱, 每个集装箱有 1 800~2 500 台机器不等[16] 。 IDC 统计显示,全球 的数据储量仅在 2011 年就达到 1.8 ZB,2015 年全球 大数据储量达到 8.61 ZB,而今后 10 年,用于存储数 据的全球服务器总量还将增长 10 倍[17] 。 大数据不仅需要如此妥善的存储和监管,更需 要进行及时、有效地分析和处理,进而挖掘其中的价 值。 M.Viktor [14]指出,利用大数据进行分析时,与以 往不同的是:1) 要使用全生命周期数据,即不是样 本而是全体;2) 与精确的数据分析相比,更加关注 对全量复杂多样数据的分析;3)与传统的因果关系 分析相比,更加关注事物之间的相关关系;4) 基于 机器学习的大数据分析结果将减少传统决策中的主 观因素。 大数据处理在一般流程上包括数据存储、数据 抽取与集成、数据分析、数据解释和用户等几个层 次,如文献[15]中图 1 所示。 图 1 大数据处理一般流程 Fig.1 Basic framework of big data processing 其中,数据分析是整个大数据处理流程的核心。 在这一层所处理的是从异构数据源抽取和集成的数 据,也称为分析的原始数据。 根据应用的不同需求, 可以从中取舍,利用全部或部分数据进行分析。 大 数据的价值正是产生于此处[15] 。 大数据处理在形式上又分为三大类型,分别为 静态数据批量处理、在线数据实时处理和图形图像 数据综合处理。 其中,对在线数据的实时处理又可 以划分为流式数据的处理和交互数据的处理。 文献 [18]中对上述几种大数据处理形式从所处理数据 的特征、典型应用以及相关经典处理系统等几个维 度给出了系统而全面的总结。 可以说,从大数据产生到现在的 10 余年里,关于 大数据分析与处理的技术呈现百家争鸣、百花齐放的 状态,也取得了显著的成绩。 2003 年,人类第 1 次破 译人体基因密码时,用了 10 年才完成 30 亿对碱基对 的排序,而 10 年后,世界范围内的基因仪 15 min 就可 以完成同样的工作。 美国股市日交易量的 2/ 3 都由 ·730· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有