°柝:发2301-1007:44 大数据管理:概念、技术与挑战 孟小峰慈祥 (中国人民大学信息学院北京100872) (ximeng ruc. edu. cn) Big Data Management Concepts, Techniques and Challenges Meng xiaofeng and Ci Xiang (School of In formation, Renmin University of China, Beijing 100872) Abstract Data type and amount in human society is growing in amazing speed which is caused by emerging new services such as cloud computing, internet of things and social network, the era of bi data has come. Data has been fundamental resource from simple dealing object, and how to manage and utilize big data better has attracted much attention. Evolution or revolution on database research for big data is a problem. This paper discusses the concept of big data, and surveys its state of the art. The framework of big data is described and key techniques are studied. Finally some new challenges in the future are summarized Key words big data data analysis cloud computing 摘要云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增 长,大数据时代正式到来,数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用 大敏据已经成为普遍关注的话題.大数据的规模效应给数据存储、管理以及敏据分析带来了极大的挑 战,数据管理方式上的变革正在酝酿和发生,对大数据的基本概念进行剖析,并对大数据的主要应用作 简单对比在此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生 的作用进行分析.最后归纳总结大数据时代所面临的新挑战 关键词大数据;数据分析;云计算 中图法分类号TP31 随着以博客、社交网络、基于位置的服务 LBS and society"t2,阐述了在数据驱动的研究背景下 为代表的新型信息发布方式的不断涌现,以及云计解决大数据问题所需的技术以及面临的一些挑战 算、物联网等技术的兴起,数据正以前所未有的速度《 Science》在2011年2月推出专刊“ Dealing with 在不断地增长和累积,大数据时代已经来到学术Datn1,主要围绕着科学研究中大数据的问题展 界、工业界甚至于政府机构都已经开始密切关注大开讨论,说明大数据对于科学研究的重要性.美国 数据问题,并对其产生浓厚的兴趣.就学术界而言,一些知名的数据管理领域的专家学者则从专业的研 《 Nature》早在2008年就推出了 Big data专刊.计究角度出发,联合发布了一份白皮书《 challenges 算社区联盟( Computing Community Consortium) and Opportunities with Big Data》.该白皮书从学 在2008年发表了报告“ Big data computing: Creating术的角度出发介绍了大数据的产生,分析了大数据 revolutionary breakthroughs in commerce, scIence,的处理流程,并提出大数据所面临的若干挑战. 收稿日期:2012-11-30;修回日期:2012-12-04 基金项目:国家自然科学基金项目(61070055,91024032,91124001,60833005);中国人民大学科学研究基金项目(11XNL010);国家“八六三” 高技术研究发展计划基金项目(2012AA010701)
书 ! " # $ % & ' ( !""#$%%%&$'()!*#$$&$+++!,- ./01234/5*/670891:9;931?9@94/76928 A%!$"#$BC$C)$'%$( !"#$#'%$'D$$D(%%%&#$#'%$'D$'D%B '()*#)*+,-./012!C$%+%%AA$)$%'B%('$)$$'B%%$$C%E((%%A"%3)456.-.$%/012!$$F#G%$%"%)*&789' :;?.@ AB $%%E+'" !I5692J"100K*MFM32J !!"#$$%$&'(&$)*+,-$($./(*-(0(-1/)2-,3$&4#-(+$5/-6-(7$%%E+'" 67/&8%-& ?3838N7932>36/028M2=0632;/O=MQN 9691JM2J29O;91@M;/383=3;369283419;/01934M2J/QS9=/O8/6323J9 32>08M4MP9QMJ>383Q98891=3;3881360383Q3;919;931383M;371/Q496K,=M;73791>M;383$32>;01@9N;M8;;8389/58=9 318K,=951369O/1R/5QMJ>383M;>9;32>R9N89M9>KVM2344N;/6929O K 9):;,84/ QMJ>383%>3833234N;M;%?@4ABC D"E56FG;HIJK56KLM4NOPQRSTUVW7XYZ[\"]^_`abO8cd E56efgVhijk4lmKE5649:nop56qr!bO 4dtuKE56FG>4+yzK 9:; E56#56tu#!"# ?@A ,-($$ CDEFG(HIJK(/LMNOPQ GW" RSTOUV>?'WXYOZ[\]$E^_! "(`aJb;383;/X77/1802M8M9;OM8=WMJ?383*+B, KÌÉÊËÅ. <OÆm'ÍÎ6efO$ÏÐ6ef OÑÀÒÓ$Ô6efi«¬OÕÖ¯°K 网络出版时间:2013-01-10 07:44 网络出版地址:http://www.cnki.net/kcms/detail/11.1777.TP.20130110.0744.001.html
孟小峰等:大数据管理:概念、技术与挑战 147 全球知名的咨询公司麦肯锡( McKinsey)2011来看,它表示数据规模的庞大但是仅仅数量上的庞 年6月份发布了一份关于大数据的详尽报告“Bg大显然无法看出大数据这一概念和以往的“海量数 data: The next frontier for innovation, competition,据”( massive data)、“超大规模数据”( very large d productivity5,对大数据的影响、关键技术和data)等概念之间有何区别.对于大数据尚未有一个 应用领域等都进行了详尽的分析.进入2012年以公认的定义,不同的定义基本是从大数据的特征出 来,大数据的关注度与日俱增.1月份的达沃斯世界发,通过这些特征的闸述和归纳试图给出其定义,在 经济论坛上,大数据是主题之一,该次会议还特别针这些定义中,比较有代表性的是3V定义10,即认为 对大数据发布了报告“ Big data, big impact:New大数据需满足3个特点:规模性( volume)、多样性 possibilities for international development",探讨( variety)和高速性( velocity).除此之外,还有提出 了新的数据产生方式下,如何更好地利用数据来产4V定义的,即尝试在3V的基础上增加一个新的特 生良好的社会效益.该报告重点关注了个人产生的性.关于第4个Ⅴ的说法并不统一,国际数据公司 移动数据与其他数据的融合与利用.3月份美国奥 International Data Corporation,IDC)认为大数据 巴马政府发布了“大数据研究和发展倡议”(Big还应当具有价值性( value),大数据的价值往往呈 data research and development initiative),投资2亿现出稀疏性的特点.而IBM认为大数据必然具有真 以上美元,正式启动“大数据发展计划”计划在科实性( veracity)12].维基百科对大数据的定义[1则 学研究、环境、生物医学等领域利用大数据技术进简单明了:大数据是指利用常用软件工具捕获、管理 行突破.奥巴马政府的这一计划被视为美国政府和处理数据所耗时间超过可容忍时间的数据集 继信息高速公路( Information Highway)计划之后 眼下在大数据定义问题上很难达成一个完全的 在信息科学领域的又一重大举措.与此同时,联合共识,这点和云计算的概念刚提出时的情况是相似 国一个名为“ Global pulse”的倡议项目在今年5月的.在面对实际问题时,不必过度地拘泥于具体的定 发布报告“ Big data for development: Challenges8.义之中,在把握3V定义的基础上适当地考虑4V特 opportunities,该报告主要阐述大数据时代各国性即可 特别是发展中国家在面临数据洪流( data deluge)的1.2从数据库( database,DB)到大数据( big data, 情况下所遇到的机遇与挑战,同时还对大数据的应 BD) 用进行了初步的解读.《纽约时报》的文章“ The age 从数据库到大数据,看似只是一个简单的技术 of big data”t则通过主流媒体的宣传使普通民众开演进,但细细考究不难发现两者有着本质上的差别 始意识到大数据的存在,以及大数据对于人们日常大数据的出现必将颠覆传统的数据管理方式.在数 生活的影响 据来源、数据处理方式和数据思维等方面都会对其 大数据的火热并不意味着对于大数据的了解深带来革命性的变化 入,反而表明大数据存在过度炒作的危险.大数据的如果要用简单的方式来比较传统的数据库和大 基本概念、关键技术以及对其利用上均存在很多的数据的区别,我们认为“池塘捕鱼”和“大海捕鱼”是 疑问和争议.本文从大数据问题背后的本质出发,对个很好的类比.“池塘捕鱼”代表着传统数据库时代 现有的大数据研究资料进行全面的归纳和总结.首的数据管理方式,而“大海捕鱼”则对应着大数据时 先简要介绍大数据的基本概念,阐述其同传统数据代的数据管理方式,“鱼”是待处理的数据.“捕鱼”环 库的区别.在此基础上,对大数据处理框架进行详细境条件的变化导致了“捕鱼”方式的根本性差异.这 解析.我们认为大数据的发展离不开云计算技术,云些差异主要体现在如下几个方面 计算支撑着大数据存储、管理以及数据分析等.因此 1)数据规模.“池塘”和“大海”最容易发现的区 本文展开介绍了大数据时代不可或缺的云计算技术别就是规模.“池塘”规模相对较小,即便是先前认为 和工具.最后全面阐述大数据时代面临的新挑战.比较大的“池塘”,譬如ⅥLDB( very large database), 和“大海”XLDB( extremely large database)相比仍旧偏 1大数据的基本概念、来源与应用 小.“池塘”的处理对象通常以MB为基本单位,而“大 海”则常常以GB,甚至是TB,PB为基本处理单位 1.1大数据的基本概念 2)数据类型.过去的“池塘”中,数据的种类单 大数据本身是一个比较抽象的概念,单从字面 ,往往仅仅有一种或少数几种,这些数据又以结构
×ؽ¾OÙÚÛÜÝÞß!L383#,=929I851/28M915/1M22/@38M/2$71/>0383$QMJM6739@94/76928'+C,$ü¶ UOefXY§$ýþÿ!o"æefx #!OHö$%KÌ º&'4O (¤ef&)efO*Ç&"æK(±È¼)+ ,-'W&6ef$%r'(.÷'++,!WMJ >38319;931>9@94/76928M2M8M38M@9"$/0'1 Eò¼2$gY3¤&6ef'(!='K!=n- .$%(45(`6.bÁÂ"æ6ef;? : l Û =!!25/1638M/2ZMJ=O3N"! = ô > n>?-.ÁÂO?º6@AK&BCu$aÇ )'¾R&[4/Q34-04;9'O.÷12nDA± 'W &WMJ>3835/1>9@94/76928#*=34492J9;\ /77/1802M8M9;'+E,$Ì ²³¡¢6efuSE) ùúó'(3)*n«¬efFÒ!>383>940J9"O GH§iIyO#I&¯°$Cuø6efOå æçèJKO¨LK)MNu*OOP&,=93J9 /5QMJ>383'+),ÄQR²ÒSTOUVWXQ5Y Z[y6efO\n$E^6efL4]ê^ _OâãK 6efO`aZZbDL6efO¨c é$dT¹6ef\nRmefOghK6efO /ijk(ä;Oiq'$ ]kO6ef$%0rçè׫OstruvKw xy³ÍÎ6efO/ijk$¡¢CVzef {OúKnB/|ò$6efÑÀ}~çèà ¨ÐK]R6efO'(Z_!";׫¡¢6efuS«¬OU¯°K 383"(&¡ 6 e f'!@91N431J9 >383"bjkô¢kþúKL6ef£jk' ÛO¤¥$ZCO¤¥/ióÅ6efOù¦ '$QR9®ù¦O¡¢rst§¨©¤¥Kn 9®¤¥3$kST»Oó(] ¤¥+$%,$ªR 6efª«¬('ù&#»!@/4069"(n» !@31M98N"r:l»!@94/ H,-I#4%&%7%/)$$!%J+,-#7"#4%&%$ !$% Åef{y6ef$Ï×ó'yO;383Q3;9"$ r&6 'FG?W!9I819694N431J9>383Q3;9"Îõö÷ òK&æç'OÑÀQ^E LWR/iM$&6 'Ä^^E [W$}~ó ,W$-WR/iÑÀMK '"eféVKRøO&æç'3$efOùé $kùúeðù$9®ef?Ev ûòüb#6ef¿À#jk(;<&¯° $B+
148 计算机研究与发展2013,50(1 化数据为主.而在“大海”中数据的种类繁多,数以千对象,需要采取新的数据思维来应对.图灵奖获得 计,而这些数据又包含着结构化、半结构化以及非结者、著名数据库专家 Jim gray博士观察并总结人类 构化的数据,并且半结构化和非结构化数据所占份自古以来,在科学研究上,先后历经了实验、理论和 额越来越大 计算3种范式.当数据量不断增长和累积到今天,传 3)模式( schema)和数据的关系.传统的数据库统的3种范式在科学研究,特别是一些新的研究领 都是先有模式,然后才会产生数据.这就好比是先选域已经无法很好地发挥作用,需要有一种全新的第 好合适的“池塘”,然后才会向其中投放适合在该“池4种范式来指导新形势下的科学研究.基于这种考 塘”环境生长的“鱼”.而大数据时代很多情况下难以虑, Jim gray提出了一种新的数据探索型研究方 预先确定模式,模式只有在数据岀现之后才能确定,式,被他自己称之为科学研究的“第4种范式”(The 且模式随着数据量的增长处于不断的演变之中,这 Fourth Paradigm)0 就好比先有少量的鱼类,随着时间推移,鱼的种类和 4种范式的比较如表11所示.第4种范式的 数量都在不断地增长.鱼的变化会使大海的成分和实质就是从以计算为中心转变到以数据处理为中 环境处于不断的变化之中 心,也就是我们所说的数据思维这种方式需要我们 4)处理对象.在“池塘”中捕鱼,“鱼”仅仅是其从根本上转变思维.正如前面提到的“捕鱼”,在大数 捕捞对象.而在“大海”中,“鱼”除了是捕捞对象之据时代,数据不再仅仅是“捕捞”的对象,而应当转变 外,还可以通过某些“鱼”的存在来判断其他种类的成一种基础资源,用数据这种资源来协同解决其他 “鱼”是否存在.也就是说传统数据库中数据仅作为诸多领域的问题.计算社会科学( computational social 处理对象.而在大数据时代,要将数据作为一种资源 cience)基于特定社会需求,在特定的社会理论 来辅助解决其他诸多领域的问题 指导下,收集、整理和分析数据足迹( data print),以 5)处理工具.捕捞“池塘”中的“鱼”,一种渔网便进行社会解释、监控、预测与规划的过程和活动 或少数几种基本就可以应对,也就是所谓的One计算社会科学是一种典型的需要采用第4种范式来 size fits all但是在“大海”中,不可能存在一种渔网作指导的科学研究领域. Watts在《 Nature》杂志上的 能够捕获所有的鱼类,也就是说 No size fits all 文章“ A twenty-first century science”也指出,借 从“池塘”到“大海”不仅仅是规模的变大.传统助于社交网络和计算机分析技术,21世纪的社会科 的数据库代表着数据工程( data engineering)的处理学有可能实现定量化的研究,从而成为一门真正的 方式,大数据时代的数据已不仅仅只是工程处理的自然科学 Table 1 Four Science Paradigms 表1科学发现的4种范式 Science paradigms Methodology Empirical Thousand years ago Describing natural phenomena Last few hundred years Using models, generalizations Last few decades Simulating complex phenomena Data Exploratio Data captured by instruments or generated by simulator: Processed by software: Today (escience) Information stored in computer: Scientist analyzes database 1.3大数据的产生和应用 理的复杂度大大降低,实际中数据库大都为运营系 人类历史上从未有哪个时代和今天一样产生如统所采用,作为运营系统的数据管理子系统,比如超 此海量的数据数据的产生已经完全不受时间、地点市的销售记录系统、银行的交易记录系统、医院病人 的限制.从开始采用数据库作为数据管理的主要方的医疗记录等.人类社会数据量第1次大的飞跃正 式开始,人类社会的数据产生方式大致经历了3个是建立在运营式系统开始广泛使用数据库.这个阶 阶段,而正是数据产生方式的巨大变化才最终导致段最主要特点是数据往往伴随着一定的运营活动而 大数据的产生 产生并记录在数据库中,比如超市每销售出一件产 1)运营式系统阶段.数据库的出现使得数据管品就会在数据库中产生相应的一条销售记录.这种
äefR²Kn&6 '3efOùéýn$eEþ !$9®ef?ÿ!Dvä("väE^#v äOef$$"vär#väefi%È &'x'6K ("Y!;)öefK9!óx* !ÇÔO&æç'$,>)ö+3/,ÔÇnÌ&æ ç'45qO&è'K6efuSmnGH§ÉE -x.¤Y$Y×knef]ô>)/.¤$ $YCDefOpqÑLZ[OØãô3K9 !xkúOèé$CDu¢($èOùér enZ[opqKèOãäöW6 OÊÏr 45ÑLZ[Oãäô3K B"ÑÀKn&æç'3Âè$&è'ó Â0Kn&6 '3$&è'®óÂ0ô ¯$øEQR1®&è'O\nx2[)ùéO &è'ó3\nK4ó¸Vzef{3effR ÑÀKn6efuS$³ÛeffRù0Þ x56¨©)7nÁÂOK A"ÑÀ{KÂ0&æç'3O&è'$ù8J ú e ð ù / i E å $4 ó i 9 O X29 ;MP95M8;344Kón&6 '3$Z/\nù8J /:ÂÃikOèé$4ó¸ #/;MP95M8;344K Å&æç'y&6 'ZóOã6KVz Oef{STDef{Ó!>38392JM2991M2J"OÑÀ XY$6efuSOefvZ×ó{ÓÑÀO $ª³;Ã? Ã(@¾ef{*.M6 [13NFABCuv4é +DEx$n-.$%ò$x>Ew¼F(À·r !"(ùGYK´efZ[pqrstyDH$V zO(ùGYn-.$%$ùúó®UO$%Á Âvwm!o'Ifæ$ª³kù×UO² BùGYx¿ìUJK§O-.$%K/L9ùÕ Ö$.M6 [13NÔ ù U O e f ü L V $ % X Y$:)+MNôR-.$%O&²BùGY'!,=9 V/018=-313>MJ6"+$B, K BùGYOýT$+$B,iK²BùGYO ¼qóÅE!"R3OPãyEefÑÀR3 O$4ó]i¸Oefß½K9ùXYª³] ÅîiòPãß½Kgýh«ÔyO&Âè'$n6e fuS$efZQó&Â0'O$å´Pã Êù/|0Þ$æef9ù0ÞxRC¨©) 7nÁÂOK!"Hö-.!38371M28"$E óçèHö¨W(XY(-Z&=ORÓr_¤K !"Hö-.óù[VOª³;æ²BùGYx f¿ìO-.$%ÁÂK^388;n)#38019*\]òO OP&H8O928N&5M1;8MJ6; ,M69 L98=/>/4/JN T67M1MN931;3J/ ?9;19>N931; _;M2J6/>94;$J929134MP38M/2; */670838M/234 G3;859O>99; "M60438M2J3N ?383QNM2;8106928;/1J9291389>QN;M60438/1%-1/QN;/58O319% !25/1638M/2;8/19>M2383Q3;9 <=C +,-BSTUFG 4éEaòÅjkb'uSrDHý B OefKefOvwË×Zcu¢(o& OdeKÅ;æef{fRef¿ÀO²³X Y$4éHöOefXY6íwE(' fg$góefXYOh6ãä)iìí 6efOK $"jkY(zfgKef{O]W?ef¿ ÀOl\m66mn$¼³3ef{6Rjk( zi;æ$fRjk(zOef¿Ào(z$ý¡ pOqrst(z(uèOIñst(z(6@v4 O6wstbK4éHöef²$õ6Oxyg óz{njkY(z|}Wæef{K9'f g²³ù&óef~CD¤Ojk_¤ stnef{3$ý¡pqrÁ önef{3ÎåOëqrstK9ù $BE !"#$%&'( '%$($A%!$"