正在加载图片...
l742 计算机学报 011年 文第1节分析大数据时代,数据仓库所面临的问题个层次,数据源中的数据首先通过ETL工具被抽取 及挑战;第2节列岀大数据时代的数据仓库平台需到数据仓库中进行集中存储和管理,再按照星型模 具备的几个重要特性;第3节到第5节就这几个特型或雪花模型组织数据,然后OLAP工具从数据仓 性对各类平台进行归纳分析;第6节对最新研究做库中读取数据,生成数据立方体( MOLAP)或者直 跟踪归纳;第7节介绍中国人民大学在大数据分接访问数据仓库进行数据分析( ROLA P).在大数据 析方面的研究工作;第8节对未来研究做出展望;第时代,此种计算模式存在两个问题 9节总结全文 问题1.数据移动代价过高.在数据源层和分 1.1三个变化 析层之间引入一个存储管理层,可以提升数据质量 (1)数据量.由TB级升至PB级,并仍在持续并针对查询进行优化,但也付出了较大的数据迁移 爆炸式增长.根据 Winter Corp的调查显示,最大的代价和执行时的连接代价:数据首先通过复杂且耗 数据仓库中的数据量,每两年增加3倍(年均增长时的ETL过程存储到数据仓库中,在OLAP服务 率为173‰%),其增长速度远超摩尔定律增长速度.器中转化为星型模型或者雪花模型;执行分析时,又 照此增长速度计算,2015年最大数据仓库中的数据通过连接方式将数据从数据库中取出.这些代价在 量将逼近100PB TB级时也许可以接受,但面对大数据,其执行时间 a(2)分析需求.由常规分析转向深度分析(Deep至少会增长几个数量级更为重要的是对于大量的 aly tics).数据分析日益成为企业利润必不可少的即席分析,这种数据移动的计算模式是不可取的 支撑点根据TDW1对大数据分析的报告(如图1 数据仓库 期望能对未来趋势有更多的分析和预测,以增强企 企业已经不满足于对现有数据的分析和监测,而是更 数据查询 业竞争力这些分析操作包括诸如移动平均线分析、白E 报表查询 数据关联关系分析、回归分析、市场篮分析等复杂统 OLAP分析 计分析,我们称之为深度分析.值得补充的是,本文 中的大数据分析不仅仅指基于大数据上的深度分 析,也包括常规分析 数据集市 数据源数据存储与管理OLAP服务!前端展现 图2一个典型的数据仓库架构 问题2.不能快速适应变化.传统的数据仓库 假设主题是较少变化的,其应对变化的方式是对数 据源到前端展现的整个流程中的每个部分进行修 改,然后再重新加载数据,甚至重新计算数据,导致 其适应变化的周期较长.这种模式比较适合对数据 质量和查询性能要求较高、而不太计较预处理代价 的场合.但在大数据时代,分析处在变化的业务环境 图1分析的趋势 中,这种模式将难以适应新的需求 (3)硬件平台.由高端服务器转向由中低端硬1.3一个鸿沟 件构成的大规模机群平台.由于数据量的迅速增加 在大数据时代巨量数据与系统的数据处理能 并行数据库的规模不得不随之增大,从而导致其成力之间将会产生一个鸿沟:一边是至少PB级的数 本的急剧上升.出于成本的考虑越来越多的企业将据量,另一边是面向传统数据分析能力设计的数据 应用由高端服务器转向了由中低端硬件构成的大规仓库和各种BI工具如果这些系统或工具发展缓 模机群平台. 慢,该鸿沟将会随着数据量的持续爆炸式增长而逐 12两个问题 步拉大 图2是一个典型的数据仓库架构.从图中我 虽然,传统数据仓库可以采用舍弃不重要数据 们可以看出,传统的数据食库将整个实现划分为A者建立数据集市的式来级解此问题,但毕竟尽文第 1 节分析大数据时代, 数据仓库所面临的问题 及挑战; 第 2 节列出大数据时代的数据仓库平台需 具备的几个重要特性; 第 3 节到第 5 节就这几个特 性对各类平台进行归纳分析; 第 6 节对最新研究做 一跟踪归纳; 第 7 节介绍中国人民大学在大数据分 析方面的研究工作; 第 8 节对未来研究做出展望; 第 9 节总结全文. 1. 1 三个变化 ( 1) 数据量. 由 T B 级升至 PB 级, 并仍在持续 爆炸式增长. 根据 WinterCor p 的调查显示, 最大的 数据仓库中的数据量, 每两年增加 3 倍[ 1] ( 年均增长 率为 173%) , 其增长速度远超摩尔定律增长速度. 照此增长速度计算, 2015 年最大数据仓库中的数据 量将逼近 100PB. ( 2) 分析需求. 由常规分析转向深度分析( Deep Analy tics) . 数据分析日益成为企业利润必不可少的 支撑点. 根据 T DWI 对大数据分析的报告 [2] ( 如图 1), 企业已经不满足于对现有数据的分析和监测, 而是更 期望能对未来趋势有更多的分析和预测, 以增强企 业竞争力. 这些分析操作包括诸如移动平均线分析、 数据关联关系分析、回归分析、市场篮分析等复杂统 计分析, 我们称之为深度分析. 值得补充的是, 本文 中的大数据分析不仅仅指基于大数据上的深度分 析, 也包括常规分析. 图 1 分析的趋势 ( 3) 硬件平台. 由高端服务器转向由中低端硬 件构成的大规模机群平台. 由于数据量的迅速增加, 并行数据库的规模不得不随之增大, 从而导致其成 本的急剧上升. 出于成本的考虑, 越来越多的企业将 应用由高端服务器转向了由中低端硬件构成的大规 模机群平台. 11 2 两个问题 图 2 是一个典型的数据仓库架构[ 3] . 从图中我 们可以看出, 传统的数据仓库将整个实现划分为 4 个层次, 数据源中的数据首先通过 ETL 工具被抽取 到数据仓库中进行集中存储和管理, 再按照星型模 型或雪花模型组织数据, 然后 OLAP 工具从数据仓 库中读取数据, 生成数据立方体( M OLAP) 或者直 接访问数据仓库进行数据分析( ROLA P) . 在大数据 时代, 此种计算模式存在两个问题: 问题 1. 数据移动代价过高. 在数据源层和分 析层之间引入一个存储管理层, 可以提升数据质量 并针对查询进行优化, 但也付出了较大的数据迁移 代价和执行时的连接代价: 数据首先通过复杂且耗 时的 ETL 过程存储到数据仓库中, 在 OLA P 服务 器中转化为星型模型或者雪花模型; 执行分析时, 又 通过连接方式将数据从数据库中取出. 这些代价在 T B 级时也许可以接受, 但面对大数据, 其执行时间 至少会增长几个数量级. 更为重要的是, 对于大量的 即席分析, 这种数据移动的计算模式是不可取的. 图 2 一个典型的数据仓库架构 问题 2. 不能快速适应变化. 传统的数据仓库 假设主题是较少变化的, 其应对变化的方式是对数 据源到前端展现的整个流程中的每个部分进行修 改, 然后再重新加载数据, 甚至重新计算数据, 导致 其适应变化的周期较长. 这种模式比较适合对数据 质量和查询性能要求较高、而不太计较预处理代价 的场合. 但在大数据时代, 分析处在变化的业务环境 中, 这种模式将难以适应新的需求. 1. 3 一个鸿沟 在大数据时代, 巨量数据与系统的数据处理能 力之间将会产生一个鸿沟: 一边是至少 PB 级的数 据量, 另一边是面向传统数据分析能力设计的数据 仓库和各种 BI 工具. 如果这些系统或工具发展缓 慢, 该鸿沟将会随着数据量的持续爆炸式增长而逐 步拉大. 虽然, 传统数据仓库可以采用舍弃不重要数据 或者建立数据集市的方式来缓解此问题, 但毕竟只 1742 计 算 机 学 报 2011 年
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有