等) 得到了充分验证. M apReduce 对硬件的要求较低, 可以基

点击下载：《电子商务 E-business》参考资料（大数据）：架构大数据_挑战_现状与展望

正在加载图片...

10期王珊等:架构大数据:挑战、现状与展望 1745 等)得到了充分验证.M呷 pReduce对硬件的要求较环境下,每个查询都是直接从文件系统中读入原始低,可以基于异构的廉价硬件来搭建机群,且免费开数据文件,而非传统的从数据库中读入经处理过的源,因此其构建成本低于并行数据库.但基于文件,因此其元组解析代价远高于关系数据库对 MapReduce的应用软件相对较少,许多数据分析功数据分析领域来说,连接是关键操作(如传统的星型能需要用户自行开发,从而会导致使用成本的增加.査询和雪花查询均是依赖于连接来处理查询),但作为开源系统, MapReduce具有完全的开放 M maPreduce处理连接的性能尤其不尽如人意.原因性:其key, value存储模型具有较强的表现力,可在于 Map Reduce最初是针对单数据集设计的处理以存储仼意格式的数据;Ma和 Reduce两个基本模型,而连接操作往往涉及多个数据集.在利用的函数接口也给用户提供了足够的发挥空间,可以 M apReduce实现连接时,最直接的方式是每个任务实现各种复杂的数据处理功能但这种开放性也带来执行一个属性上的连接操作,然后将多个 MapReduce 一个问题,就是将本来应由数据库管理系统完成的工任务通过物化的中间结果串接起来这种实现方式作,诸如文件存储格式的设计、模式信息的记录、数据往往涉及中间结果的读写,从而导致大量的Ⅳ/O操处理算法的实现等,转移给了程序员,从而导致程序作和网络传输员负担过重程序员水平对系统处理性能起决定性作 M apReduce目前基本不兼容现有的B工具用在某些情况下,写 MapReduce程序的时间远大于原因在于其初衷并不是要成为数据库系统,因此它写SQL语句的时间,部分复杂的BI报表分析,可能并未提供SQL接口.但已有研究致力于SQL语句仅程序的编写和调试就要耗费几天的时间与 M apReduce任务的转换工作(例如Hive),进而基于 M maPreduce平台的分析,无需复杂的数据有可能实现 M apReduce与现存BI工具的兼容预处理和写入数据库的过程,而是可以直接基于平面文件进行分析,并且其采用的计算模式是移动计5并行数据库和 MapReduce的算而非移动数据,因此可以将分析延迟最小化. 混合架构在同等硬件条件下, MapReduce性能远低于并行数据库,这是由其最初的设计定位决定的基于以上分析,我们可以清楚地看出,基于并行 MapReduce的设计初衷是面向非结构化数据的处数据库和 Map reduce实现的数据仓库系统都不是理这些数据具有数据量大,处理复杂等特点,而且大数据分析的理想方案.针对两者哪个更适合时代往往是一次性处理.为了获得较好的扩展能力和容需求的问题,业界近年展开了激烈争论当前基本达错能力, M mapreduce采取了基于扫描的处理模式和成如下共识:并行数据库和 Map Reduce是互补关对中间结果步步物化的执行策略,从而导致较高的系,应该相互学习.基于该观点,大量研究着手 O代价.为了减少数据预处理时间, MapReduce将两者结合起来期望设计出兼具两者优点的数据没有使用模式、索引、物化视图等技术手段.其数据分析平台.这种架构又可以分为三类:并行数据库主预处理仅是一次数据加载操作,但由此导致了一个导型、 Map Reduce主导型、 M apRoduct和并行数据问题一—较高的元组解析代价.在 M mapreduce库集成型(表2对3种架构进行了对比分析) 表2混合架构型解决方案对比分析解决方案着眼点代表系统并行数据库主导型利用 MapReduce技术来增强其开放性, Greenplum规模扩展性未改变 M apReduce主导型学习关系数据库的SQL接口及模式支Hive 持等,改善其易用性性能问题未改变 H B行各自的某些优点在集成后也丧失了并行数据库和 MapReduce集成型集成两者,使两者各自做各自擅长的工作 Vertica 性能和扩展性仍不能兼得规模扩展性未变 5.1并行数据库主导型 (已被EMC收购和 Aster datal(已被 Teradata收购该种方式关注于如何利用 M maPreduce来增强并 Aster data将SQL和 MapReduce进行结合, 行数据库的数据处理能力代表性系统是 Greenplum针对大数据分析提出了 SQL MapReduce框架1 o1994-2012ChinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net等) 得到了充分验证. M apReduce 对硬件的要求较低, 可以基于异构的廉价硬件来搭建机群, 且免费开源, 因此其构建成本低于并行数据库. 但基于 MapReduce的应用软件相对较少, 许多数据分析功能需要用户自行开发, 从而会导致使用成本的增加. 作为开源系统, MapReduce 具有完全的开放性: 其〈key, v alue〉存储模型具有较强的表现力, 可以存储任意格式的数据; M ap 和 Reduce 两个基本的函数接口也给用户提供了足够的发挥空间, 可以实现各种复杂的数据处理功能. 但这种开放性也带来一个问题, 就是将本来应由数据库管理系统完成的工作, 诸如文件存储格式的设计、模式信息的记录、数据处理算法的实现等, 转移给了程序员, 从而导致程序员负担过重. 程序员水平对系统处理性能起决定性作用. 在某些情况下, 写 MapReduce 程序的时间远大于写SQL 语句的时间, 部分复杂的 BI 报表分析, 可能仅程序的编写和调试就要耗费几天的时间. 基于 M apReduce 平台的分析, 无需复杂的数据预处理和写入数据库的过程, 而是可以直接基于平面文件进行分析, 并且其采用的计算模式是移动计算而非移动数据, 因此可以将分析延迟最小化. 在同等硬件条件下, MapReduce 性能远低于并行数据库 [ 11] , 这是由其最初的设计定位决定的. MapReduce 的设计初衷是面向非结构化数据的处理. 这些数据具有数据量大, 处理复杂等特点, 而且往往是一次性处理. 为了获得较好的扩展能力和容错能力, M apReduce 采取了基于扫描的处理模式和对中间结果步步物化的执行策略, 从而导致较高的 I/ O 代价. 为了减少数据预处理时间, M apReduce 没有使用模式、索引、物化视图等技术手段. 其数据预处理仅是一次数据加载操作, 但由此导致了一个问题 ))) 较高的元组解析代价[ 12] . 在 M apReduce 环境下, 每个查询都是直接从文件系统中读入原始数据文件, 而非传统的从数据库中读入经处理过的文件, 因此其元组解析代价远高于关系数据库. 对数据分析领域来说, 连接是关键操作( 如传统的星型查询和雪花查询均是依赖于连接来处理查询) , 但 M apReduce处理连接的性能尤其不尽如人意. 原因在于 MapReduce 最初是针对单数据集设计的处理模型, 而连接操作往往涉及多个数据集. 在利用 M apReduce实现连接时, 最直接的方式是每个任务执行一个属性上的连接操作, 然后将多个 MapReduce 任务通过物化的中间结果串接起来. 这种实现方式往往涉及中间结果的读写, 从而导致大量的 I/ O 操作和网络传输. M apReduce 目前基本不兼容现有的 BI 工具. 原因在于其初衷并不是要成为数据库系统, 因此它并未提供 SQ L 接口. 但已有研究致力于 SQL 语句与 M apReduce 任务的转换工作( 例如 Hive) , 进而有可能实现 M apReduce 与现存 BI 工具的兼容. 5 并行数据库和 MapReduce 的混合架构基于以上分析, 我们可以清楚地看出, 基于并行数据库和 MapReduce 实现的数据仓库系统都不是大数据分析的理想方案. 针对两者哪个更适合时代需求的问题, 业界近年展开了激烈争论. 当前基本达成如下共识: 并行数据库和 MapReduce 是互补关系, 应该相互学习[ 13-14] . 基于该观点, 大量研究着手将两者结合起来, 期望设计出兼具两者优点的数据分析平台. 这种架构又可以分为三类: 并行数据库主导型、MapReduce 主导型、M apReduce 和并行数据库集成型( 表 2 对 3 种架构进行了对比分析) . 表 2 混合架构型解决方案对比分析解决方案着眼点代表系统缺陷并行数据库主导型利用 MapReduce 技术来增强其开放性, 以实现处理能力的可扩展 Greenplum Aster Data 规模扩展性未改变 MapReduce 主导型学习关系数据库的 SQL 接口及模式支持等, 改善其易用性 H ive Pig Latin 性能问题未改变并行数据库和MapReduce 集成型集成两者, 使两者各自做各自擅长的工作 H adoopDB 只有少数查询可以下推至数据库层执行, 各自的某些优点在集成后也丧失了 Vertica 性能和扩展性仍不能兼得 T eradata 规模扩展性未变 5. 1 并行数据库主导型该种方式关注于如何利用 M apReduce 来增强并行数据库的数据处理能力. 代表性系统是 Greenplum ( 已被 EMC 收购) 和Aster Data( 已被T eradata收购) . Aster Data 将 SQL 和 MapReduce 进行结合, 针对大数据分析提出了 SQL/ MapReduce 框架 [ 15] . 10 期王珊等: 架构大数据: 挑战、现状与展望 1745

<<向上翻页向下翻页>>

点击下载：《电子商务 E-business》参考资料（大数据）：架构大数据_挑战_现状与展望