正在加载图片...
第34卷第10期 计算机学报 Vol 34 No. 10 201l年10月 CHINESE JOURNAL OF COM PUTERS Oct. 201 1 架构大数据:挑战、现状与展望 王珊”王会举”覃雄派周烜 数据工程与知识工程教育部重点实验室中国人民大学)北京100872 2(中国人民大学信息学院北京100872) 摘要大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点为了设计适合大数据分析 的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台一—并行数据库、 M apR educe及基于两者的混合架构进行了分析归纳指出了各自的优势及不足,同时也对各个方向的研究现状及 作者在大数据分析方面的努力进行了介绍,对未来研究做了展望 关键词大数据;大规模可扩展; M maPreduce;并行数据库;深度分析 中图法分类号TP311DOI号:10.3724SP.J.1016.2011.01741 Architecting Big Data: Challenges, Studies and Forecasts WANG Shan"2 WANG HuiJu.2 QIN Xiong-Pai" ZHOU Xuan".2 u(Key Labor atory of Data Eng ineering and Know led ge Eng ineering( Renmin Unirersity f Ch ina)of Ministry of Educat ion, Bey ing 100872) '(Schod of Information, Renmin University of China. Beijing 100872) Abstract Compared w ith traditio nal dat a w arehouse applications, big data analy ties are huge and omplex. To design a favorable architecture for big dat a analy tics, this paper lists some key fear tures for big data analytics, summarizes current main implementation platforms( parallel databas es, M apReduce, and hybrid architectures based on them), and points their pros and cons. Some current resear ches are also inv stig ated, our work are introduced and some challeng ing research pro blems in the future are dis cussed Keywords big dat a; large scale; M apReduce: parallel database: deep analytics 系统实现方案(主要是并行数据库和 M ap Reduce) 1引言 进行重新审视,期望能为设计满足时代需求的数据 仓库系统提供理论参考.限于篇幅,本文主要关注不 最近几年,数据仓库又成为数据管理研究的热同数据仓库实现方案的主体架构及其缺陷在最近几 点领域主要原因是当前数据仓库系统面临的需求年的改进情况.依据研究立足点的不同,本文将该领 在数据源、需提供的数据服务和所处的硬件环境等域的研究归为三大类:并行数据库、 M apReduce、并 方面发生了根本性的变化(详见L1节),这些变化行数据库和 M maPreduce技术的混合架构其中第三 是我们必须面对的 类研究又细分为:并行数据库主导型、 MapReduce 本文在大数据的时代背景下,对现有数据仓库主导型、并行数据库和 Map Reduce集成型三种.本 收稿日期:201}012;最终修改稿收到日期:201-015.本课题得到国家重大科技专项核高基项目(2010ZX0104200-002)、国家自然 科学基金(61070054,61170013)、中国人民大学科学研究基金(中央高校基本科研业务费专项资金,10XN18)、中国人民大学研究生基 金(1XNH120资助王珊,女,1944年生,教授博士生导师中国计算机学会(CCF)高级会员,主要研究领域为高性能数据库、知识工 程、数据仓库.r- mail sw ang@ ruc. edu,m.王会举,男,1979年生,博士研究生,主要研究方向为大規模集群数据库、内存数据库. E mail: w anhui ju@rue.edu.m.覃雄派,男,1971年生,博士,讲师,中国计算机学会(CCF)会员,主要研究方向为数据库查询优化、内存数据库 c何敞据库周,男,1979年生,博种教探主翠研亮方为信检案,商性能数帮库chtsreserved.htp/www.cnki.net第 34 卷 第 10 期 2011 年 10 月 计 算 机 学 报 CHINESE JOURNA L OF COM PU TERS Vol. 34 No. 10 Oct. 2011 收稿日期: 2011-08-12; 最终修改稿收到日期: 2011-09-15. 本课题得到国家重大科技专项核高基项目( 2010ZX01042-001-002 ) 、国家自然 科学基金( 61070054, 61170013) 、中国人民大学科学研究基金( 中央高校基本科研业务费专项资金, 10XNI018 )、中国人民大学研究生基 金( 11XNH120) 资助. 王 珊, 女, 1944 年生, 教授, 博士生导师,中国计算机学会( CCF) 高级会员, 主要研究领域为高性能数据库、知识工 程、数据仓库. E-mail: sw ang@ ru c. edu . cn. 王会举, 男, 1979 年生, 博士研究生, 主要研究方向为大规模集群数据库、内存数据库. E- mail: w anghuiju@ ruc. edu. cn. 覃雄派, 男, 1971 年生, 博士, 讲师, 中国计算机学会( CCF) 会员, 主要研究方向为数据库查询优化、内存数据库、 并行数据库. 周 烜, 男, 1979 年生, 博士, 副教授,主要研究方向为信息检索、高性能数据库. 架构大数据: 挑战、现状与展望 王 珊 1) , 2) 王会举 1) , 2) 覃雄派 1) , 2) 周 烜 1) , 2) 1) ( 数据工程与知识工程教育部重点实验室( 中国人民大学) 北京 100872) 2) ( 中国人民大学信息学院 北京 100872) 摘 要 大数据分析相比于传统的数据仓库应用, 具有数据量大、查询分析复杂等特点. 为了设计适合大数据分析 的数据仓库架构, 文中列举了大数据分析平台需要具备的几个重要特性, 对当前的主流实现平台) )) 并行数据库、 MapReduce 及基于两者的混合架构进行了分析归纳, 指出了各自的优势及不足, 同时也对各个方向的研究现状及 作者在大数据分析方面的努力进行了介绍, 对未来研究做了展望. 关键词 大数据; 大规模可扩展; MapReduce; 并行数据库; 深度分析 中图法分类号 TP311 DOI 号: 10. 3724/ SP. J. 1016. 2011. 01741 Architecting Big Data: Challenges, Studies and Forecasts WANG Shan 1) , 2) WANG Hu-i Ju 1) , 2) QIN Xiong-Pai 1) , 2) ZHOU Xuan 1) , 2) 1) ( K ey L abor ator y of Data Eng ineering and K now led ge Eng ineering ( Renmin University of Ch ina) of Ministry of E ducation, B eij ing 100872) 2) ( S chool of I nf ormation , R enmin University of Ch ina , B eij ing 100872) Abstract Compar ed w ith traditio nal data w arehouse applications, big data analy tics are huge and complex . T o design a favo rable architecture for big data analy tics, this paper lists some key fea￾tures fo r big data analytics, summarizes current main implementation platfor ms( parallel databas￾es, M apReduce, and hybrid architectures based o n them) , and points their pros and cons. Some current resear ches are also inv estig ated, our w ork ar e introduced and some challeng ing resear ch pro blems in the future are discussed. Keywords big data; large scale; M apReduce; parallel database; deep analytics 1 引 言 最近几年, 数据仓库又成为数据管理研究的热 点领域, 主要原因是当前数据仓库系统面临的需求 在数据源、需提供的数据服务和所处的硬件环境等 方面发生了根本性的变化( 详见 11 1 节) , 这些变化 是我们必须面对的. 本文在大数据的时代背景下, 对现有数据仓库 系统实现方案( 主要是并行数据库和 M apReduce) 进行重新审视, 期望能为设计满足时代需求的数据 仓库系统提供理论参考. 限于篇幅, 本文主要关注不 同数据仓库实现方案的主体架构及其缺陷在最近几 年的改进情况. 依据研究立足点的不同, 本文将该领 域的研究归为三大类: 并行数据库、M apReduce、并 行数据库和 M apReduce 技术的混合架构. 其中第三 类研究又细分为: 并行数据库主导型、MapReduce 主导型、并行数据库和 MapReduce 集成型三种. 本
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有