正在加载图片...
10期 王珊等:架构大数据:挑战、现状与展望 1743 是权益之策,并非系统级解决方案而且,舍弃的数大量同构的计算机是不可取的,而且也会在未来添 据在未来可能会重新使用,以发掘更大的价值 置异构计算资源.此外,不少企业已经积累了一些闲 置的计算机资源,此种情况下,对异构环境的支持可 2期望特性 以有效地利用这些闲置计算资源,降低硬件成本的 投入.还需特别关注的是,在异构环境下,不同节点 本节我们列出对大数据进行分析时,数据仓库的性能是不一样的,可能出现木桶效应”,即最慢节 系统需具备的几个重要特性(表1所示) 点的性能决定整体处理性能.因此,异构的机群需要 特别关注负载均衡、任务调度等方面的设计 表1大数据分析平台需具备的特性 较低的分析延迟.分析延迟指的是分析前的数 简要说明 高度可扩展性横向大规模可扩展,大规模并行处理 据准备时间.在大数据时代,分析所处的业务环境是 高性能 快速响应复杂查询与分析 变化的,因此也要求系统能动态地适应业务分析需 高度容错性 查询失败时,只需重做部分工作 持异构环境对硬件平台一致性要求不高,适应能力强 求.在分析需求发生变化时,减少数据准备时间,系 较低的分析延迟业务需求变化时,能快速反应 统能尽可能快地做出反应,快速地进行数据分析 易用且开放接口既能方便查询,又能处理复杂分析 较低成本 较高的性价比 易用且开放的接口.SQL的优点是简单易用, 向下兼容性 支持传统的商务智能工具 但其主要用于数据的检索查询,对于大数据上的深 度分析来讲,是不够的.原因在于:(1)其提供的服 高度可扩展性。一个明显的事实是,数据库不务方式依赖于数据移动来实现将数据从数据库中 能依靠一台或少数几台机器的升级( scale-up纵向取出然后传递给应用程序,该实现方式在大数据时 扩展)满足数据量的爆炸式增长,而是希望能方便地代代价过高;(2)复杂的分析功能,如R或 M atlab 做到横向可扩展(scal-out)来实现此目标 中的分析功能SQL是难以胜任的.因此,除对SQL 普遍认为shac+ no thing无共享结构(每个节的支持外,系统还应能提供开放的接口,让用户自己 点拥有私有内存和磁盘,并且通过高速网络同其它开发需要的功能设计该接口时,除了关注其易用性 节点互连)具备较好的扩展性4.分析型操作往往涉和开放性还需要特别注意两点隐藏的要求:(1基 及大规模的并行扫描、多维聚集及星型连接操作,这于接口开发的用户自定义函数能自动在机群上并 些操作也比较适合在无共享结构的网络环境运行.行执行:(2)分析在数据库内进行,即分析尽可能靠 Terada a即采用此结构 Oracle在其新产品 Exadata近数据 中也采用了此结构 较低的成本.在满足需求的前提下,某技术成 高性能.数据量的増长并没有降低对数据库性本越低,其生命力就越强需要指出的是成本是一个 能的要求,反而有所提高.软件系统性能的提升可以综合指标不仅仅是硬件或软件的代价,还应包括日 降低企业对硬件的投入成本、节省计算资源提高系常运维成本(网络费用、电费建筑等)和管理人员成 统吞吐量.巨量数据的效率优化并行是必由之路.本等据报告,数据中心的主要成本不是硬件的购置 IPB数据在50MB/s速度下串行扫描一次,需要成本而是日常运维成本因此在设计系统时需要 230天;而在6000块磁盘上,并行扫描IPB数据只更多地关注此项内容 需要1个小时 向下兼容性.数据仓库发展的30年,产生了大 高度容错.大数据的容错性要求在查询执行过量面向客户业务的数据处理工具(如 Informatica 程中,一个参与节点失效时,不需要重做整个查询. Dat astage等)、分析软件(如SPSR、Malh等)和 而机群节点数的增加会带来节点失效概率的增加.前端展现工具(如水晶报表)等这些软件是一笔宝 在大规模机群环境下,节点的失效将不再是稀有事贵的财富,已被分析人员所熟悉,是大数据时代中小 件( Google报告,平均每个 M maPreduce数据处理任规模数据分析的必要补充因此,新的数据仓库需考 务就有L2个工作节点失效).因此在大规模机群虑同传统商务智能工具的兼容性由于这些系统往 环境下,系统不能依赖于硬件来保证容错性,要更多往提供标准驱动程序,如ODBC、JDBC等,这项需 地考虑软件级容错. 求的实际要求是对SQL的支持 支持异构环境.建设同构系统的大规模机群难 总之,以较低的成本投入、高效地进行数据分 度较木原因在于计算机硬件更新轻,次性胞罩b析,是太数据分析的基本目标hp/ vww. cnkinet是权益之策, 并非系统级解决方案. 而且, 舍弃的数 据在未来可能会重新使用, 以发掘更大的价值. 2 期望特性 本节我们列出对大数据进行分析时, 数据仓库 系统需具备的几个重要特性( 表 1 所示) . 表 1 大数据分析平台需具备的特性 特性 简要说明 高度可扩展性 横向大规模可扩展, 大规模并行处理 高性能 快速响应复杂查询与分析 高度容错性 查询失败时, 只需重做部分工作 支持异构环境 对硬件平台一致性要求不高, 适应能力强 较低的分析延迟 业务需求变化时, 能快速反应 易用且开放接口 既能方便查询, 又能处理复杂分析 较低成本 较高的性价比 向下兼容性 支持传统的商务智能工具 高度可扩展性. 一个明显的事实是, 数据库不 能依靠一台或少数几台机器的升级( scale-up 纵向 扩展) 满足数据量的爆炸式增长, 而是希望能方便地 做到横向可扩展( scale-out) 来实现此目标. 普遍认为 shared-no thing 无共享结构( 每个节 点拥有私有内存和磁盘, 并且通过高速网络同其它 节点互连) 具备较好的扩展性 [ 4] . 分析型操作往往涉 及大规模的并行扫描、多维聚集及星型连接操作, 这 些操作也比较适合在无共享结构的网络环境运行. Teradata 即采用此结构, Oracle 在其新产品 Ex adata 中也采用了此结构. 高性能. 数据量的增长并没有降低对数据库性 能的要求, 反而有所提高. 软件系统性能的提升可以 降低企业对硬件的投入成本、节省计算资源, 提高系 统吞吐量. 巨量数据的效率优化, 并行是必由之路. 1PB 数据在 50MB/ s 速度下串行扫描一次, 需要 230 天; 而在 6000 块磁盘上, 并行扫描 1PB 数据只 需要 1 个小时. 高度容错. 大数据的容错性要求在查询执行过 程中, 一个参与节点失效时, 不需要重做整个查询. 而机群节点数的增加会带来节点失效概率的增加. 在大规模机群环境下, 节点的失效将不再是稀有事 件( Goo gle 报告, 平均每个 M apReduce 数据处理任 务就有 11 2 个工作节点失效[ 5] ) . 因此在大规模机群 环境下, 系统不能依赖于硬件来保证容错性, 要更多 地考虑软件级容错. 支持异构环境. 建设同构系统的大规模机群难 度较大, 原因在于计算机硬件更新较快, 一次性购置 大量同构的计算机是不可取的, 而且也会在未来添 置异构计算资源. 此外, 不少企业已经积累了一些闲 置的计算机资源, 此种情况下, 对异构环境的支持可 以有效地利用这些闲置计算资源, 降低硬件成本的 投入. 还需特别关注的是, 在异构环境下, 不同节点 的性能是不一样的, 可能出现/ 木桶效应0, 即最慢节 点的性能决定整体处理性能. 因此, 异构的机群需要 特别关注负载均衡、任务调度等方面的设计. 较低的分析延迟. 分析延迟指的是分析前的数 据准备时间. 在大数据时代, 分析所处的业务环境是 变化的, 因此也要求系统能动态地适应业务分析需 求. 在分析需求发生变化时, 减少数据准备时间, 系 统能尽可能快地做出反应, 快速地进行数据分析. 易用且开放的接口. SQL 的优点是简单易用, 但其主要用于数据的检索查询, 对于大数据上的深 度分析来讲, 是不够的. 原因在于: ( 1) 其提供的服 务方式依赖于数据移动来实现: 将数据从数据库中 取出, 然后传递给应用程序, 该实现方式在大数据时 代代价过高; ( 2) 复杂的分析功能, 如 R 或 M atlab 中的分析功能, SQL 是难以胜任的. 因此, 除对 SQL 的支持外, 系统还应能提供开放的接口, 让用户自己 开发需要的功能. 设计该接口时, 除了关注其易用性 和开放性, 还需要特别注意两点隐藏的要求: ( 1) 基 于接口开发的用户自定义函数, 能自动在机群上并 行执行; ( 2) 分析在数据库内进行, 即分析尽可能靠 近数据. 较低的成本. 在满足需求的前提下, 某技术成 本越低, 其生命力就越强. 需要指出的是成本是一个 综合指标, 不仅仅是硬件或软件的代价, 还应包括日 常运维成本( 网络费用、电费、建筑等) 和管理人员成 本等. 据报告, 数据中心的主要成本不是硬件的购置 成本, 而是日常运维成本. 因此, 在设计系统时需要 更多地关注此项内容. 向下兼容性. 数据仓库发展的 30 年, 产生了大 量面向客户业务的数据处理工具( 如 Informactica、 DataStag e 等) 、分析软件( 如 SPSS、R、M atlab 等) 和 前端展现工具( 如水晶报表) 等. 这些软件是一笔宝 贵的财富, 已被分析人员所熟悉, 是大数据时代中小 规模数据分析的必要补充. 因此, 新的数据仓库需考 虑同传统商务智能工具的兼容性. 由于这些系统往 往提供标准驱动程序, 如 ODBC、JDBC 等, 这项需 求的实际要求是对 SQ L 的支持. 总之, 以较低的成本投入、高效地进行数据分 析, 是大数据分析的基本目标. 10 期 王 珊等: 架构大数据: 挑战、现状与展望 1743
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有