《电子商务 E-business》参考资料（大数据）：大数据管理-概念、技术与挑战.pdf_大学文库

°柝:发2301-1007:44 大数据管理:概念、技术与挑战孟小峰慈祥 (中国人民大学信息学院北京100872) (ximeng ruc. edu. cn) Big Data Management Concepts, Techniques and Challenges Meng xiaofeng and Ci Xiang (School of In formation, Renmin University of China, Beijing 100872) Abstract Data type and amount in human society is growing in amazing speed which is caused by emerging new services such as cloud computing, internet of things and social network, the era of bi data has come. Data has been fundamental resource from simple dealing object, and how to manage and utilize big data better has attracted much attention. Evolution or revolution on database research for big data is a problem. This paper discusses the concept of big data, and surveys its state of the art. The framework of big data is described and key techniques are studied. Finally some new challenges in the future are summarized Key words big data data analysis cloud computing 摘要云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来,数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大敏据已经成为普遍关注的话題.大数据的规模效应给数据存储、管理以及敏据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生,对大数据的基本概念进行剖析,并对大数据的主要应用作简单对比在此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析.最后归纳总结大数据时代所面临的新挑战关键词大数据;数据分析;云计算中图法分类号TP31 随着以博客、社交网络、基于位置的服务 LBS and society"t2,阐述了在数据驱动的研究背景下为代表的新型信息发布方式的不断涌现,以及云计解决大数据问题所需的技术以及面临的一些挑战算、物联网等技术的兴起,数据正以前所未有的速度《 Science》在2011年2月推出专刊“ Dealing with 在不断地增长和累积,大数据时代已经来到学术Datn1,主要围绕着科学研究中大数据的问题展界、工业界甚至于政府机构都已经开始密切关注大开讨论,说明大数据对于科学研究的重要性.美国数据问题,并对其产生浓厚的兴趣.就学术界而言,一些知名的数据管理领域的专家学者则从专业的研《 Nature》早在2008年就推出了 Big data专刊.计究角度出发,联合发布了一份白皮书《 challenges 算社区联盟( Computing Community Consortium) and Opportunities with Big Data》.该白皮书从学在2008年发表了报告“ Big data computing: Creating术的角度出发介绍了大数据的产生,分析了大数据 revolutionary breakthroughs in commerce, scIence,的处理流程,并提出大数据所面临的若干挑战. 收稿日期:2012-11-30;修回日期:2012-12-04 基金项目:国家自然科学基金项目(61070055,91024032,91124001,60833005);中国人民大学科学研究基金项目(11XNL010);国家“八六三” 高技术研究发展计划基金项目(2012AA010701)

孟小峰等:大数据管理:概念、技术与挑战 147 全球知名的咨询公司麦肯锡( McKinsey)2011来看,它表示数据规模的庞大但是仅仅数量上的庞年6月份发布了一份关于大数据的详尽报告“Bg大显然无法看出大数据这一概念和以往的“海量数 data: The next frontier for innovation, competition,据”( massive data)、“超大规模数据”( very large d productivity5,对大数据的影响、关键技术和data)等概念之间有何区别.对于大数据尚未有一个应用领域等都进行了详尽的分析.进入2012年以公认的定义,不同的定义基本是从大数据的特征出来,大数据的关注度与日俱增.1月份的达沃斯世界发,通过这些特征的闸述和归纳试图给出其定义,在经济论坛上,大数据是主题之一,该次会议还特别针这些定义中,比较有代表性的是3V定义10,即认为对大数据发布了报告“ Big data, big impact:New大数据需满足3个特点:规模性( volume)、多样性 possibilities for international development",探讨( variety)和高速性( velocity).除此之外,还有提出了新的数据产生方式下,如何更好地利用数据来产4V定义的,即尝试在3V的基础上增加一个新的特生良好的社会效益.该报告重点关注了个人产生的性.关于第4个Ⅴ的说法并不统一,国际数据公司移动数据与其他数据的融合与利用.3月份美国奥 International Data Corporation,IDC)认为大数据巴马政府发布了“大数据研究和发展倡议”(Big还应当具有价值性( value),大数据的价值往往呈 data research and development initiative),投资2亿现出稀疏性的特点.而IBM认为大数据必然具有真以上美元,正式启动“大数据发展计划”计划在科实性( veracity)12].维基百科对大数据的定义[1则学研究、环境、生物医学等领域利用大数据技术进简单明了:大数据是指利用常用软件工具捕获、管理行突破.奥巴马政府的这一计划被视为美国政府和处理数据所耗时间超过可容忍时间的数据集继信息高速公路( Information Highway)计划之后眼下在大数据定义问题上很难达成一个完全的在信息科学领域的又一重大举措.与此同时,联合共识,这点和云计算的概念刚提出时的情况是相似国一个名为“ Global pulse”的倡议项目在今年5月的.在面对实际问题时,不必过度地拘泥于具体的定发布报告“ Big data for development: Challenges8.义之中,在把握3V定义的基础上适当地考虑4V特 opportunities,该报告主要阐述大数据时代各国性即可特别是发展中国家在面临数据洪流( data deluge)的1.2从数据库( database,DB)到大数据( big data, 情况下所遇到的机遇与挑战,同时还对大数据的应 BD) 用进行了初步的解读.《纽约时报》的文章“ The age 从数据库到大数据,看似只是一个简单的技术 of big data”t则通过主流媒体的宣传使普通民众开演进,但细细考究不难发现两者有着本质上的差别始意识到大数据的存在,以及大数据对于人们日常大数据的出现必将颠覆传统的数据管理方式.在数生活的影响据来源、数据处理方式和数据思维等方面都会对其大数据的火热并不意味着对于大数据的了解深带来革命性的变化入,反而表明大数据存在过度炒作的危险.大数据的如果要用简单的方式来比较传统的数据库和大基本概念、关键技术以及对其利用上均存在很多的数据的区别,我们认为“池塘捕鱼”和“大海捕鱼”是疑问和争议.本文从大数据问题背后的本质出发,对个很好的类比.“池塘捕鱼”代表着传统数据库时代现有的大数据研究资料进行全面的归纳和总结.首的数据管理方式,而“大海捕鱼”则对应着大数据时先简要介绍大数据的基本概念,阐述其同传统数据代的数据管理方式,“鱼”是待处理的数据.“捕鱼”环库的区别.在此基础上,对大数据处理框架进行详细境条件的变化导致了“捕鱼”方式的根本性差异.这解析.我们认为大数据的发展离不开云计算技术,云些差异主要体现在如下几个方面计算支撑着大数据存储、管理以及数据分析等.因此 1)数据规模.“池塘”和“大海”最容易发现的区本文展开介绍了大数据时代不可或缺的云计算技术别就是规模.“池塘”规模相对较小,即便是先前认为和工具.最后全面阐述大数据时代面临的新挑战.比较大的“池塘”,譬如ⅥLDB( very large database), 和“大海”XLDB( extremely large database)相比仍旧偏 1大数据的基本概念、来源与应用小.“池塘”的处理对象通常以MB为基本单位,而“大海”则常常以GB,甚至是TB,PB为基本处理单位 1.1大数据的基本概念 2)数据类型.过去的“池塘”中,数据的种类单大数据本身是一个比较抽象的概念,单从字面 ,往往仅仅有一种或少数几种,这些数据又以结构

148 计算机研究与发展2013,50(1 化数据为主.而在“大海”中数据的种类繁多,数以千对象,需要采取新的数据思维来应对.图灵奖获得计,而这些数据又包含着结构化、半结构化以及非结者、著名数据库专家 Jim gray博士观察并总结人类构化的数据,并且半结构化和非结构化数据所占份自古以来,在科学研究上,先后历经了实验、理论和额越来越大计算3种范式.当数据量不断增长和累积到今天,传 3)模式( schema)和数据的关系.传统的数据库统的3种范式在科学研究,特别是一些新的研究领都是先有模式,然后才会产生数据.这就好比是先选域已经无法很好地发挥作用,需要有一种全新的第好合适的“池塘”,然后才会向其中投放适合在该“池4种范式来指导新形势下的科学研究.基于这种考塘”环境生长的“鱼”.而大数据时代很多情况下难以虑, Jim gray提出了一种新的数据探索型研究方预先确定模式,模式只有在数据岀现之后才能确定,式,被他自己称之为科学研究的“第4种范式”(The 且模式随着数据量的增长处于不断的演变之中,这 Fourth Paradigm)0 就好比先有少量的鱼类,随着时间推移,鱼的种类和 4种范式的比较如表11所示.第4种范式的数量都在不断地增长.鱼的变化会使大海的成分和实质就是从以计算为中心转变到以数据处理为中环境处于不断的变化之中心,也就是我们所说的数据思维这种方式需要我们 4)处理对象.在“池塘”中捕鱼,“鱼”仅仅是其从根本上转变思维.正如前面提到的“捕鱼”,在大数捕捞对象.而在“大海”中,“鱼”除了是捕捞对象之据时代,数据不再仅仅是“捕捞”的对象,而应当转变外,还可以通过某些“鱼”的存在来判断其他种类的成一种基础资源,用数据这种资源来协同解决其他 “鱼”是否存在.也就是说传统数据库中数据仅作为诸多领域的问题.计算社会科学( computational social 处理对象.而在大数据时代,要将数据作为一种资源 cience)基于特定社会需求,在特定的社会理论来辅助解决其他诸多领域的问题指导下,收集、整理和分析数据足迹( data print),以 5)处理工具.捕捞“池塘”中的“鱼”,一种渔网便进行社会解释、监控、预测与规划的过程和活动或少数几种基本就可以应对,也就是所谓的One计算社会科学是一种典型的需要采用第4种范式来 size fits all但是在“大海”中,不可能存在一种渔网作指导的科学研究领域. Watts在《 Nature》杂志上的能够捕获所有的鱼类,也就是说 No size fits all 文章“ A twenty-first century science”也指出,借从“池塘”到“大海”不仅仅是规模的变大.传统助于社交网络和计算机分析技术,21世纪的社会科的数据库代表着数据工程( data engineering)的处理学有可能实现定量化的研究,从而成为一门真正的方式,大数据时代的数据已不仅仅只是工程处理的自然科学 Table 1 Four Science Paradigms 表1科学发现的4种范式 Science paradigms Methodology Empirical Thousand years ago Describing natural phenomena Last few hundred years Using models, generalizations Last few decades Simulating complex phenomena Data Exploratio Data captured by instruments or generated by simulator: Processed by software: Today (escience) Information stored in computer: Scientist analyzes database 1.3大数据的产生和应用理的复杂度大大降低,实际中数据库大都为运营系人类历史上从未有哪个时代和今天一样产生如统所采用,作为运营系统的数据管理子系统,比如超此海量的数据数据的产生已经完全不受时间、地点市的销售记录系统、银行的交易记录系统、医院病人的限制.从开始采用数据库作为数据管理的主要方的医疗记录等.人类社会数据量第1次大的飞跃正式开始,人类社会的数据产生方式大致经历了3个是建立在运营式系统开始广泛使用数据库.这个阶阶段,而正是数据产生方式的巨大变化才最终导致段最主要特点是数据往往伴随着一定的运营活动而大数据的产生产生并记录在数据库中,比如超市每销售出一件产 1)运营式系统阶段.数据库的出现使得数据管品就会在数据库中产生相应的一条销售记录.这种

äefR²Kn&6 '3efOùéýn$eEþ !$9®ef?ÿ!Dvä("väE^#v äOef$$"vär#väefi%È &'x'6K ("Y!;)öefK9!óx* !ÇÔO&æç'$,>)ö+3/,ÔÇnÌ&æ ç'45qO&è'K6efuSmnGH§ÉE -x.¤Y$Y×knef]ô>)/.¤$ $YCDefOpqÑLZ[OØãô3K9 !xkúOèé$CDu¢($èOùér enZ[opqKèOãäöW6 OÊÏr 45ÑLZ[Oãäô3K B"ÑÀKn&æç'3Âè$&è'ó Â0Kn&6 '3$&è'®óÂ0ô ¯$øEQR1®&è'O\nx2[)ùéO &è'ó3\nK4ó¸Vzef{3effR ÑÀKn6efuS$³ÛeffRù0Þ x56¨©)7nÁÂOK A"ÑÀ{KÂ0&æç'3O&è'$ù8J ú e ð ù / i E å $4 ó i 9 O X29 ;MP95M8;344Kón&6 '3$Z/\nù8J /:ÂÃikOèé$4ó¸ #/;MP95M8;344K Å&æç'y&6 'ZóOã6KVz Oef{STDef{Ó!>38392JM2991M2J"OÑÀ XY$6efuSOefvZ×ó{ÓÑÀO $ª³;Ã? Ã(@¾ef{*.M6 [13NFABCuv4é +DEx$n-.$%ò$x>Ew¼F(À·r !"(ùGYK´efZ[pqrstyDH$V zO(ùGYn-.$%$ùúó®UO$%Á Âvwm!o'Ifæ$ª³kù×UO² BùGYx¿ìUJK§O-.$%K/L9ùÕ Ö$.M6 [13NÔ ù U O e f ü L V $ % X Y$:)+MNôR-.$%O&²BùGY'!,=9 V/018=-313>MJ6"+$B, K BùGYOýT$+$B,iK²BùGYO ¼qóÅE!"R3OPãyEefÑÀR3 O$4ó]i¸Oefß½K9ùXYª³] ÅîiòPãß½Kgýh«ÔyO&Âè'$n6e fuS$efZQó&Â0'O$å´Pã Êù/|0Þ$æef9ù0ÞxRC¨©) 7nÁÂOK!"Hö-.!38371M28"$E óçèHö¨W(XY(-Z&=ORÓr_¤K !"Hö-.óù[VOª³;æ²BùGYx f¿ìO-.$%ÁÂK^388;n)#38019*\]òO OP&H8O928N&5M1;8MJ6; ,M69 L98=/>/4/JN T67M1MN931;3J/ ?9;19>N931; _;M2J6/>94;$J929134MP38M/2; */670838M/234 G3;859O>99; "M60438M2J3N ?383QNM2;8106928;/1J9291389>QN;M60438/1%-1/QN;/58O319% !25/1638M/2;8/19>M2383Q3;9 <=C +,-BSTUFG 4éEaòÅjkb'uSrDHý B OefKefOvwË×Zcu¢(o& OdeKÅ;æef{fRef¿ÀO²³X Y$4éHöOefXY6íwE(' fg$góefXYOh6ãä)iìí 6efOK $"jkY(zfgKef{O]W?ef¿ ÀOl\m66mn$¼³3ef{6Rjk( zi;æ$fRjk(zOef¿Ào(z$ý¡ pOqrst(z(uèOIñst(z(6@v4 O6wstbK4éHöef²$õ6Oxyg óz{njkY(z|}Wæef{K9'f g²³ù&óef~CD¤Ojk_¤ stnef{3$ý¡pqrÁ önef{3ÎåOëqrstK9ù $BE !"#$%&'( '%$($A%!$"

孟小峰等:大数据管理:概念、技术与挑战 149 数据的产生方式是被动的广泛使用.随着技术的发展,人们已经有能力制造极 2)用户原创内容阶段.互联网的诞生促使人类其微小的带有处理功能的传感器,并开始将这些设社会数据量出现第2次大的飞跃.但是真正的数据备广泛地布置于社会的各个角落,通过这些设备来爆发产生于Web2.0时代,而web2.0的最重要标对整个社会的运转进行监控.这些设备会源源不断志就是用户原创内容( user generated content,UGC).地产生新数据,这种数据的产生方式是自动的这类数据近几年一直呈现爆炸性的增长,主要有两简单来说,数据产生经历了被动、主动和自动3 方面的原因:首先是以博客、微博为代表的新型社交个阶段.这些被动、主动和自动的数据共同构成了大网络的出现和快速发展,使得用户产生数据的意愿数据的数据来源,但其中自动式的数据才是大数据更加强烈;其次就是以智能手机、平板电脑为代表的产生的最根本原因新型移动设备的出现,这些易携带、全天候接入网络正如 Google的首席经济学家 Hal varian所的移动设备使得人们在网上发表自己意见的途径更说[n,数据是广泛可用的,所缺乏的是从中提取出为便捷,这个阶段数据的产生方式是主动的知识的能力.数据收集的根本目的是根据需求从数 3)感知式系统阶段.人类社会数据量第3次大据中提取有用的知识,并将其应用到具体的领域之的飞跃最终导致了大数据的产生,今天我们正处于中.不同领域的大数据应用有不同的特点,表2列举这个阶段.这次飞跃的根本原因在于感知式系统的了若干具有代表性的大数据应用及其特征 Table 2 Comparison between Typical Big Data Application 表2典型大数据应用的比较 Application Number of Users Response Time Data Scale Reliability Accuracy Scientific Computing Bioinformatics Small Moderate High-frequeney trading Very Fast Very High Very High Social network Mobile data Internet of Things Sensor network Large Web data News website Multimedia Video site Fast 正是由于大数据的广泛存在才使得大数据问题网页点击数的实时统计、传感器网络、金融中的高频的解决很具挑战性.而它的广泛应用则促使越来越交易等多的人开始关注和研究大数据问题流处理的处理模式将数据视为流,源源不断的数据组成了数据流,当新的数据到来时就立刻处理 2大数据处理框架并返回所需的结果.图1是流处理中基本的数据流模型 2.1大数据处理模式大数据的应用类型有很多,主要的处理模式可以分为流处理( stream processing)和批处理( batch processIng)两种[1s1.批处理是先存储后处理 ( store- then-process),而流处理则是直接处理 Memor CPU (straight-through processing) 2.1.1流处理 Fig. 1 Basic data stream model. 流处理的基本理念是数据的价值会随着时间的图1基本的数据流模型流逝而不断减少,因此尽可能快地对最新的数据作数据的实时处理是一个很有挑战性的工作,数出分析并给出结果是所有流数据处理模式的共同目据流本身具有持续达到、速度快且规模巨大等特点标.需要采用流数据处理的大数据应用场景主要有因此通常不会对所有的数据进行永久化存储,而且

150 计算机研究与发展2013,50(1 数据环境处在不断的变化之中,系统很难准确掌握数据流的理论及技术研究已经有十几年的历整个数据的全貌史,目前仍旧是研究热点.与此同时很多实际系统也由于响应时间的要求,流处理的过程基本在内已开发和得到广泛的应用,比较代表性的开源系统存中完成,其处理方式更多地依赖于在内存中设计如 Twitter的 Stormi2、 Yahoo的Sft以及 Linkedin 巧妙的概要数据结构( synopsis data structure),内的 Kafka2等存容量是限制流处理模型的一个主要瓶颈.以PCM2.1.2批处理 (相变存储器)为代表的储存级内存( storage class Google公司在2004年提出的 MapReduce2 memory,SCM)设备的出现或许可以使内存未来不编程模型是最具代表性的批处理模式.一个完整的再成为流处理模型的制约 MapReduce过程如图2所示: 、(1)fork (2)Assign (2)Assig Reduce Split O (6)Write o Split (5)Remote Split 2(3)Read Read Worker (4)Loc File 1 termediate Files (on local disks) Phase Fig. 2 Execution overview of Map Reduce 图2 MapReduce执行流程图 MapReduce模型首先将用户的原始数据源进理中,常常并不是简单地只使用其中的某一种,而是行分块,然后分别交给不同的Map任务区处理.Map将二者结合起来.互联网是大数据最重要的来源之任务从输入中解析出链/值(Key/ Value)对集合,然,很多互联网公司根据处理时间的要求将自己的后对这些集合执行用户自行定义的Map函数得到业务划分为在线( online)、近线( nearline)和离线中间结果,并将该结果写入本地硬盘. Reduce任务( offline),比如著名的职业社交网站 Linkedin24,这从硬盘上读取数据之后会根据key值进行排序,将种划分方式是按处理所耗时间来划分的,其中在线具有相同Key值的组织在一起.最后用户自定义的的处理时间一般在秒级甚至是毫秒级,因此通常采用 Reduce函数会作用于这些排好序的结果并输出最上面所说的流处理.离线的处理时间可以以天为基终结果本单位,基本采用批处理方式,这种方式可以最大限从 MapReduce的处理过程我们可以看出,度地利用系统ⅣO.近线的处理时间一般在分钟级或 MapReduce的核心设计思想在于:1)将问题分而治者是小时级,对其处理模型并没有特别的要求,可以之;2)把计算推到数据而不是把数据推到计算,有效根据需求灵活选择,但在实际中多采用批处理模式地避免数据传输过程中产生的大量通信开销.2.2大数据处理的基本流程 MapReduce模型简单,且现实中很多问题都可用大数据的数据来源广泛,应用需求和数据类型 MapReduce模型来表示.因此该模型公开后立刻受都不尽相同,但是最基本的处理流程一致.海量Web 到极大的关注,并在生物信息学、文本挖掘等领域得数据的处理是一类非常典型的大数据应用,从中可以到广泛的应用归纳出大数据处理的最基本流程. Scholarspacel21 无论是流处理还是批处理都是大数据处理的可由中国人民大学网络与移动数据管理实验室行思路.大数据的应用类型很多,在实际的大数据处( WAMDM)开发,目标是建立一个“以人为本”,即

孟小峰等:大数据管理:概念、技术与挑战 151 以作者为中心来展示多学科中文文献的集成数据库取和集成,一直到最终的结果展示, ScholarSpace完系统.该系统已经从最初的计算机领域扩展到包括整地体现出大数据处理的一般流程.在其基础上我经济、法律等人文社会科学在内的多领域,从数据抽们归纳出大数据的基本流程,如图3所示 Visualization ata provenance Interaction Recommendation Analysis ----1 (Data Mining)(Statistics ociated Data Schema and Integration Data Integration Data Extraction Semi-Structured Unstructured L Fig, 3 Basic framework of big data processing 图3大数据处理基本流程整个大数据的处理流程可以定义为在合适工具数据抽取和集成技术不是一项全新的技术,传的辅助下,对广泛异构的数据源进行抽取和集成,结统数据库领域已对此问题有了比较成熟的研究.随果按照一定的标准统一存储.利用合适的数据分析着新的数据源的涌现,数据集成方法也在不断的发技术对存储的数据进行分析,从中提取有益的知识展之中从数据集成模型来看,现有的数据抽取与集并利用恰当的方式将结果展现给终端用户.具体来说成方式可以大致分为以下4种类型:基于物化或可以分为数据抽取与集成、数据分析以及数据解释.ETL方法的引擎( materialization or ETL engine)、基 2.2.1数据抽取与集成于联邦数据库或中间件方法的引擎( federation engine 大数据的一个重要特点就是多样性,这就意味 or mediator)、基于数据流方法的引擎( stream engine) 着数据来源极其广泛,数据类型极为繁杂,这种复杂及基于搜索引擎的方法( search engine) 的数据环境给大数据的处理带来极大的挑战.要想2.2.2数据分析处理大数据,首先必须对所需数据源的数据进行抽数据分析是整个大数据处理流程的核心,因为取和集成,从中提取出关系和实体,经过关联和聚合大数据的价值产生于分析过程.从异构数据源抽取之后采用统一定义的结构来存储这些数据.在数据和集成的数据构成了数据分析的原始数据.根据不集成和提取时需要对数据进行清洗,保证数据质量同应用的需求可以从这些数据中选择全部或部分进及可信性.同时还要特别注意前面提及的大数据时行分析.传统的分析技术如数据挖掘、机器学习、统代模式和数据的关系,大数据时代的数据往往是先有计分析等在大数据时代需要作出调整,因为这些技数据再有模式,且模式是在不断的动态演化之中的.术在大数据时代面临着一些新的挑战,主要有

152 计算机研究与发展2013,50(1 1)数据量大并不一定意味着数据价值的增加,( history flow)、空间信息流( spatial information 相反这往往意味着数据噪音的增多.因此在数据分flow)等.可以根据具体的应用需要选择合适的可视析之前必须进行数据清洗等预处理工作,但是预处化技术理如此大量的数据对于机器硬件以及算法都是严峻 2)让用户能够在一定程度上了解和参与具体的考验的分析过程.这个既可以采用人机交互技术,利用交 2)大数据时代的算法需要进行调整.首先大数互式的数据分析过程来引导用户逐步地进行分析据的应用常常具有实时性的特点,算法的准确率不使得用户在得到结果的同时更好地理解分析结果的再是大数据应用的最主要指标.很多场景中算法需由来.也可以采用数据起源技术2,通过该技术可要在处理的实时性和准确率之间取得一个平衡,比以帮助追溯整个数据分析的过程,有助于用户理解如在线的机器学习算法( online machine learning);结果其次云计算是进行大数据处理的有力工具,这就要求很多算法必须作出调整以适应云计算的框架,算3关键技术分析法需要变得具有可扩展性;最后在选择算法处理大数据时必须谨慎,当数据量增长到一定规模以后,可大数据价值的完整体现需要多种技术的协同以从小量数据中挖掘出有效信息的算法并一定适用文件系统提供最底层存储能力的支持.为了便于数于大数据.统计学中的邦弗朗尼原理( Bonferroni's据管理,需要在文件系统之上建立数据库系统.通过 principle)2就是一个典型的例子索引等的构建,对外提供高效的数据查询等常用功 3)数据结果好坏的衡量.得到分析结果并不能.最终通过数据分析技术从数据库中的大数据提难,但是结果好坏的衡量却是大数据时代数据分析取出有益的知识的新挑战.大数据时代的数据量大、类型庞杂,进行3.1云计算:大数据的基础平台与支撑技术分析时往往对整个数据的分布特点掌握的不太清如果将各种大数据的应用比作一辆辆“汽车” 楚,这会导致最后在设计衡量的方法以及指标时遇支撑起这些“汽车”运行的“高速公路”就是云计算到诸多困难正是云计算技术在数据存储、管理与分析等方面的大数据分析已被广泛应用于诸多领域,典型的支撑,才使得大数据有用武之地有推荐系统、商业智能、决策支持等在所有的“高速公路”中, Google无疑是技术最 2.2.3数据解释为先进的一个需求推动创新,面对海量的Web数数据分析是大数据处理的核心,但是用户往往据, Google于2006年首先提出了云计算的概念,支更关心结果的展示.如果分析的结果正确但是没有撑 Google内部各种大数据应用的正是其自行研发采用适当的解释方法,则所得到的结果很可能让用的一系列云计算技术和工具.难能可贵的是 Google 户难以理解,极端情况下甚至会误导用户.数据解释并未将这些技术完全封闭,而是以论文的形式逐步的方法很多,比较传统的就是以文本形式输出结果公开其实现.正是这些公开的论文,使得以GFS 或者直接在电脑终端上显示结果.这种方法在面对 MapReduce, Bigtable为代表的一系列大数据处理小数据量时是一种很好的选择.但是大数据时代的技术被广泛了解并得到应用,同时还催生出以数据分析结果往往也是海量的,同时结果之间的关 Hadoop【为代表的一系列云计算开源工具.云计联关系极其复杂,采用传统的解释方法基本不可行.算所涉及到的技术很多,但是通过 Google云计算技可以考虑从下面两个方面提升数据解释能力. 术的介绍能够快速、完整地把握云计算技术的核心 1)引入可视化技术.可视化作为解释大量数据和精髓.本节以 Google的相关技术介绍为主线,详最有效的手段之一率先被科学与工程计算领域采细介绍 Google以及其他众多学者和研究机构在大用.通过对分析结果的可视化用形象的方式向用户数据技术方面已有的一些工作.根据 Google已公开展示结果,而且图形化的方式比文字更易理解和接的论文及相关资料结合大数据处理的需求,我们对受.常见的可视化技术有标签云( tag cloud)、历史流 Google的技术演化进行了整理,如图4所示: ①邦弗朗尼原理表明并非给定数据集和挖掘任务就背定能挖掘出合理的结果。具体内容见文献[27] ②上面所列的系统绝大部分都已经有论文公布其大致实现,虽然 Colossus和 Caffeine系统并没有论文公开,但是可以确定其存在.图4中所列时间如无特别标明,均为论文发表时间,并不代表其在 Google内部的正式部署和使用时间

孟小峰等:大数据管理:概念、技术与挑战 153 File System Colossus 2006 Megastore 2010 Deployment in 2010 Based on MapRed Percolator Caffeine [门[[Dod[o Fig. 4 Technology evolution in google 图 le技术演化图 3.1.1文件系统地解决了 Facebook海量图片存储问题.淘宝推出了文件系统是支撑上层应用的基础.在 Google之类似的文件系统TFs( Tao file system),通过将前,尚未有哪个公司面对过如此多的海量数据.因此小文件合并成大文件、文件名隐含部分元数据等方对于 google而言并没有完全成熟的存储方案可以式实现了海量小文件的高效存储. FastDFSl针对直接使用. Google认为系统组件失败是一种常态而小文件的优化类似于TFS 不是异常,基于此思想 Google自行设计开发了3.1.2数据库系统 Google文件系统 GFSL3o(Google file system).GFS 原始的数据存储在文件系统之中,但是用户习是构建在大量廉价服务器之上的一个可扩展的分布惯通过数据库系统来存取文件.因为这样会屏蔽掉式文件系统,GFS主要针对文件较大,且读远大于底层的细节,且方便数据管理.直接采用关系模型的写的应用场景,采用主从( Master-slave)结构.通过分布式数据库并不能适应大数据时代的数据存储数据分块、追加更新( append-only)等方式实现了海主要因为: 量数据的高效存储.随着时间推移,GFS的架构逐 1)规模效应所带来的压力.大数据时代的数据渐开始无法适应需求. google对GFS进行了重新量远远超过单机所能容纳的数据量,因此必须采用的设计,该系统正式的名称为 Colosuss,具体实现尚分布式存储的方式,这就需要系统具有很好的扩展未公开,但是从ACM对GFS团队核心工程师的访性,但这恰恰是传统数据库的弱势之一.因为传统的谈可以了解其一些新的特性.其中GFS的单点数据库产品对于性能的扩展更倾向于 scale-up(纵故障(指仅有一个主节点容易成为系统的瓶颈)、海向扩展)的方式,而这种方式对于性能的增加速度远量小文件的存储等问题在 Colosuss中均得到了低于需要处理数据的增长速度,且性能提升存在上解决. 限.适应大数据的数据库系统应当具有良好的除了 Google,众多企业和学者也从不同方面对 scale-out(横向扩展)能力,而这种性能扩展方式恰满足大数据存储需求的文件系统进行了详尽的研恰是传统数据库所不具备的.即便是性能最好的并究微软自行开发的 Cosmos32]支撑着其搜索、广告行数据库产品其 scale-out能力也相对有限等业务.HDFS3和 CloudStorel3都是模仿GFS 2)数据类型的多样化.传统的数据库比较适合的开源实现GFS类的文件系统主要是针对较大文结构化数据的存储,但是数据的多样性是大数据时件设计的,而在图片存储等应用场景,文件系统主要代的显著特征之一,这也就是意味着除了结构化数存储海量小文件,此时GFS等文件系统因为频繁读据,半结构化和非结构化数据也将是大数据时代的取元数据等原因,效率很低.针对这种情况,重要数据类型组成部分.如何高效地处理多种数据类 Facebook推出了专门针对海量小文件的文件系统型是大数据时代数据库技术面临的重要挑战之 Haystack3,通过多个逻辑文件共享同一个物理文 3)设计理念的冲突.关系数据库追求的是“One 件、增加缓存层、部分元数据加载到内存等方式有效 ze fits al的目标,希望将用户从繁杂的数据管理

154 计算机研究与发展2013,50(1 中解脱出来,在面对不同的问题时不需要重新考虑司纷纷推出了自己的解决方案. Bigtable是 Google 数据管理问题,从而可以将重心转向其他的部分.但早期开发的数据库系统,它是一个多维稀疏排序表, 在大数据时代不同的应用领域在数据类型、数据处由行和列组成,每个存储单元都有一个时间戳,形成理方式以及数据处理时间的要求上有极大的差异.三维结构.不同的时间对同一个数据单元的多个在实际的处理中几乎不可能有一种统一的数据存储操作形成数据的多个版本之间由时间戳来区分方式能够应对所有场景.比如对于海量Web数据的除了 Bigtable, Amazon的 Dynamo和 Yahoo的处理就不可能和天文图像数据采取同样的处理方 PNUTS也都是非常具有代表性的系统. Dynamo 式.在这种情况下,很多公司开始尝试从“ One size综合使用了键/值存储、改进的分布式哈希表(DHT)、 fits one”和“ One size fits domain”的设计理念出发向量时钟( vector clock)等技术实现了一个完全的来研究新的数据管理方式,并产生了一系列非常有分布式、去中心化的高可用系统. PNUTS是一个分代表性的工作布式的数据库,在设计上使用弱一致性来达到高可 4)数据库事务特性.众所周知关系数据库中事用性的目标,主要的服务对象是相对较小的记录,比务的正确执行必须满足ACID特性,即原子性如在线的大量单个记录或者小范围记录集合的读和 ( atomicity)、一致性( consistency)、隔离性( isolation)写访问.不适合存储大文件、流媒体等. Bigtable, 和持久性( durability).对于数据强一致性的严格要 Dynamo, PNUTS等的成功促使人们开始对关系数求使其在很多大数据场景中无法应用.这种情况下据库进行反思,由此产生了一批未采用关系模型的出现了新的BASE特性,即只要求满足 basically数据库,这些方案现在被统一称为 NOSQL( not only available(基本可用), soft state(柔性状态)和QL). NoSQL并没有一个准确的定义,但一般认为 eventually consistent(最终一致).从分布式领域著 NOSQL数据库应当具有以下的特征[4:模式自由名的CAP理论[3J的角度来看,ACID追求一致性( schema-fre)、支持简易备份( easy replication C,而BASE更加关注可用性A.正是在事务处理过 support)、简单的应用程序接口( simple API)、最终程中对于ACID特性的严格要求,使得关系型数据致性(或者说支持BASE特性,不支持ACID)、支库的可扩展性极其有限持海量数据( huge amount of data). NOSQL和关系面对这些挑战,以 google为代表的一批技术公型数据库的简单比较如表3所示 Table 3 Comparison between NoSQL Database and RDBMS 表3 NoSQL数据库和关系数据库的对比 Objects of Comparison RDBMS NoSQL Perfect Imperfect RDBMS is based on mathematical model; NosQL has no such mo Performance of RDBMS will degrade as the data increase, so it's usually Data Scal Large Extremely Large appropriate for extremely large data: No sQL can increase the volume of torage by adding more devices. Flexible RDBMS must define schema at first: NosQL is schemafree Simple query RDBMS will build index. so it can well support point query and range query ast NosQL has no index, although the query processing can be accelerated by MapReduce, it is still less efficient Consistency Strong consistency Weak consistency RDBMS obey ACID; NosQL obey BASE. Scalability Moderate RDBMS is difficult to scale: NoSQL can easily scale out by adding new nodes Availability of rdbms is relatively weak when the volume of data is very Very Good rge because of its limitation of strong consistency NosQL can achieve better availability by relaxing ACID RDBMS has standard(SQL): NosQL has no such standard. Technical Support Technical support for RDBMs is high: Technical support for NosQL is low. Maintenance Complex Complex RDBMS should be maintained by DBA: NosQL is not sophisticated now, so its maintenance is also difficult ①CAP理论指出:一个分布式系统不可能同时满足一致性、可用性( availability)和分区容错性( partition tolerance),最多只能同时满足其中两个

孟小峰等:大数据管理:概念、技术与挑战 155 典型的 NOSQL数据库分类如表4所示 Table 4 Typical NoSQL Databases 表4典型 NoSQI数据库 Matching Databases Performance Scalability Flexibility Advantages HBase Colum High High Moderate Query is efficient CouchDB Little limits on Performance of Document Variable MongoDB data structure query is low Graph Variable Variable Graph algorithms Data scale is High Orient DB relatively low Bigtable的模型简单,但是相较传统的关系数SQL, NoSQI之外的新思路.这种融合了一致性和据库其支持的功能非常有限,不支持ACID特性.因可用性的 New SQL或许会是未来大数据存储新的此 Google开发了 Megastore4系统,虽然其底层数发展方向据存储依赖 Bigtable,但是它实现了类似 RDBMS3.1.3索引与查询技术的数据模型,同时提供数据的强一致性解决方案数据查询是数据库最重要的应用之一,而索引 Megastore将数据进行细粒度的分区,数据更新会则是解决数据查询问题的有效方案.就 Google自身在机房间进行同步复制. Spanner4是已知的而言,索引的构建是提供搜索服务的关键部分 Google的最新的数据库系统, Google在OSDl2012 Google最早的索引系统是利用 MapReduce来更新上公开了 Spanner的实现. Spanner是第1个可以的.根据更新频率进行层次划分,不同的层次对应不实现全球规模扩展( global scale)并且支持外部一致同的更新频率.每次需要批量更新索引,即使有些数的事务( support externally-consistent distributed据并未改变也需要处理掉.这种索引更新方式效率较 transactions)的数据库.通过GPS和原子时钟低.随后 Google提出了 Percolator!,这是一种增量 ( atomic clocks)技术, Spanner实现了一个时间式的索引更新器,每次更新不需要替换所有的索引数 APL借助该API,数据中心之间的时间同步能够精据,效率大大提高.虽然不是所有的大数据应用都需确到10ms以内. Spanner类似于 Bigtable,但是它要索引,但是这种增量计算的思想非常值得我们借具有层次性的目录结构以及细粒度的数据复制.对鉴. google当前正在使用的索引系统为 Caffeine, 于数据中心之间不同操作会分别支持强一致性或弱其具体实现尚未公布.但是可以确定 Caffeine是构致性,且支持更多的自动操作, Spanner的目标是建在 Spanner之上,采用 Percolator更新索引.效率控制100万到1000万台服务器,最多包含大约10相较上一代索引系统而言有大幅度提高万亿目录和1000万亿字节的存储空间.另外在关系数据库也是利用对数据构建索引的方式较 SIGMOD2012上, Google公开了用于其广告系统的好地解决了数据查询的问题.不同的索引方案使得新数据库产品F1,作为一种混合型数据库F1融关系数据库可以满足不同场景的要求.索引的建立合兼有 Bigtable的高扩展性以及SQL数据库的可以及更新都会耗费较多的时间,在面对传统数据库用性和功能性.该产品的底层存储正是采用的小数据量时这些时间和其所带来的查询便利性相 Spanner,具有很多新的特性,包括全局分布式、同步比是可以接受的,但是这些复杂的索引方案基本无跨数据中心复制、可视分片和数据移动、常规事务等.法直接应用到大数据之上.表5是对一些索引方有些比较激进的观点认为“关系数据库已死”,案直接应用在 Facebook上的性能估计我们认为关系数据库和 NosQI并不是矛盾的对立从表5可以看出不太可能将已有的成熟索引方体,而是可以相互补充的、适用于不同应用场景的技案直接应用于大数据. NosQI数据库针对主键的查术.例如实际的互联网系统往往都是ACID和询效率一般较高,因此有关的研究集中在 NOSQL BASE两种系统的结合.近些年来,以 Spanner为代数据库的多值查询优化上.针对 NosQI数据库上表的若干新型数据库的出现,给数据存储带来了的查询优化研究主要有两种思路