正在加载图片...
152 计算机研究与发展2013,50(1 1)数据量大并不一定意味着数据价值的增加,( history flow)、空间信息流( spatial information 相反这往往意味着数据噪音的增多.因此在数据分flow)等.可以根据具体的应用需要选择合适的可视 析之前必须进行数据清洗等预处理工作,但是预处化技术 理如此大量的数据对于机器硬件以及算法都是严峻 2)让用户能够在一定程度上了解和参与具体 的考验 的分析过程.这个既可以采用人机交互技术,利用交 2)大数据时代的算法需要进行调整.首先大数互式的数据分析过程来引导用户逐步地进行分析 据的应用常常具有实时性的特点,算法的准确率不使得用户在得到结果的同时更好地理解分析结果的 再是大数据应用的最主要指标.很多场景中算法需由来.也可以采用数据起源技术2,通过该技术可 要在处理的实时性和准确率之间取得一个平衡,比以帮助追溯整个数据分析的过程,有助于用户理解 如在线的机器学习算法( online machine learning);结果 其次云计算是进行大数据处理的有力工具,这就要 求很多算法必须作出调整以适应云计算的框架,算3关键技术分析 法需要变得具有可扩展性;最后在选择算法处理大 数据时必须谨慎,当数据量增长到一定规模以后,可 大数据价值的完整体现需要多种技术的协同 以从小量数据中挖掘出有效信息的算法并一定适用文件系统提供最底层存储能力的支持.为了便于数 于大数据.统计学中的邦弗朗尼原理( Bonferroni's据管理,需要在文件系统之上建立数据库系统.通过 principle)2就是一个典型的例子 索引等的构建,对外提供高效的数据查询等常用功 3)数据结果好坏的衡量.得到分析结果并不能.最终通过数据分析技术从数据库中的大数据提 难,但是结果好坏的衡量却是大数据时代数据分析取出有益的知识 的新挑战.大数据时代的数据量大、类型庞杂,进行3.1云计算:大数据的基础平台与支撑技术 分析时往往对整个数据的分布特点掌握的不太清 如果将各种大数据的应用比作一辆辆“汽车” 楚,这会导致最后在设计衡量的方法以及指标时遇支撑起这些“汽车”运行的“高速公路”就是云计算 到诸多困难 正是云计算技术在数据存储、管理与分析等方面的 大数据分析已被广泛应用于诸多领域,典型的支撑,才使得大数据有用武之地 有推荐系统、商业智能、决策支持等 在所有的“高速公路”中, Google无疑是技术最 2.2.3数据解释 为先进的一个需求推动创新,面对海量的Web数 数据分析是大数据处理的核心,但是用户往往据, Google于2006年首先提出了云计算的概念,支 更关心结果的展示.如果分析的结果正确但是没有撑 Google内部各种大数据应用的正是其自行研发 采用适当的解释方法,则所得到的结果很可能让用的一系列云计算技术和工具.难能可贵的是 Google 户难以理解,极端情况下甚至会误导用户.数据解释并未将这些技术完全封闭,而是以论文的形式逐步 的方法很多,比较传统的就是以文本形式输出结果公开其实现.正是这些公开的论文,使得以GFS 或者直接在电脑终端上显示结果.这种方法在面对 MapReduce, Bigtable为代表的一系列大数据处理 小数据量时是一种很好的选择.但是大数据时代的技术被广泛了解并得到应用,同时还催生出以 数据分析结果往往也是海量的,同时结果之间的关 Hadoop【为代表的一系列云计算开源工具.云计 联关系极其复杂,采用传统的解释方法基本不可行.算所涉及到的技术很多,但是通过 Google云计算技 可以考虑从下面两个方面提升数据解释能力. 术的介绍能够快速、完整地把握云计算技术的核心 1)引入可视化技术.可视化作为解释大量数据和精髓.本节以 Google的相关技术介绍为主线,详 最有效的手段之一率先被科学与工程计算领域采细介绍 Google以及其他众多学者和研究机构在大 用.通过对分析结果的可视化用形象的方式向用户数据技术方面已有的一些工作.根据 Google已公开 展示结果,而且图形化的方式比文字更易理解和接的论文及相关资料结合大数据处理的需求,我们对 受.常见的可视化技术有标签云( tag cloud)、历史流 Google的技术演化进行了整理,如图4所示: ①邦弗朗尼原理表明并非给定数据集和挖掘任务就背定能挖掘出合理的结果。具体内容见文献[27] ②上面所列的系统绝大部分都已经有论文公布其大致实现,虽然 Colossus和 Caffeine系统并没有论文公开,但是可以确定其存在.图4中 所列时间如无特别标明,均为论文发表时间,并不代表其在 Google内部的正式部署和使用时间$"ef›6‹Z­¤ZbDefµ¶Op±$ Îd9ŸŸZbDefýþOpnK†BnefÏ Ðôhºîçèefðñb-ÑÀ{f$™ó-Ñ ÀýB6›OefŒL#¦ÏÁE^"ž‚óÿ! OÕFK '"6efuSO"žª³çèüUKwx6e fOåæ^^Šk¼u»Où&$"žO»."Z Qó6efåæO‹²³¿‰Kmn¯¦3"žª ³nÑÀO¼u»r»."ô¢<?­'#$ ýnÜO#¦.û"ž!/24M2963<=M2949312M2J"% õ_!"óçè6efÑÀOk¢{Š$9³ Smn"žºîf™üUEÔå_!"O}~$" žª³ã?Šk‡è(»%‹>n*å"žÑÀ6 efuºî$%$´ef›pqy­¤E>$‡ EÅò›ef3Ùڙk$>?O"ž‹­¤Ôæ L6efKz!.3Oø&'(‚À!W/25911/2Ma; 71M2<M749"+'+,# ó­'[VO)oK ("efvå!*O#›K?yÏÐvå‹Z É$™óvå!*O#›+ó6efuSefÏÐ OU¯°K6efuSOef›6(éV\$çè ÏÐuŸŸŒU'efOÏWù&¼ÓOZ,ð -$9öìí‹>n!#›OXžE^¿‰uI y7n.ÉK 6efÏÐv:|}åæL7nÁÂ$[VO k/(z(0|’/(©1ƒ·bK 'K'K( ef¨W efÏÐó6efÑÀOÔO$™ó恟Ÿ ÿ‡OvåO(•KýåÏÐOvåg.™óäk ;æÔ´O¨WXž$Äi?yOvåm‡/2æ ÉEÀ¨$¤íGH§}~ö3ìæKef¨W OXžmn$ŽVzOóEOiJY˙vå ˆÃ‹œniíòœ•våK9ùXžn«Œ òef›uó­ùm!O*åK™ó6efuSO efÏÐv域4ó ›O$Cuvåô¢O‡ a‡(¤l\$;æVzO¨WXž/iZ‡èK ‡EÕÖŧ«Ù'X«Ô4ef¨W/¢K $"öé‡;ä;<K‡;äfR¨W6›ef ‹k$Ogô­"x:-.&{Ó!"ÁÂ; æKQRŒÏÐvåO‡;äæJOXY+æ (•vå$$¨JäOXYO’ÿñÀ¨rœ cK^O‡;ä;<k‰5_!83J<4/0>"(EaÒ !=M;8/1N54/O"(6 ¢ > ? Ò !;738M34M25/1638M/2 54/O"bK‡EîfŠTOå檳*åÇÔO‡; ä;<K '"2æ/:n­¤Ómòš¨r7&ŠT OÏÐRÓK9'8‡E;æ4#I…;<$"æI …YOefÏÐRÓxöìæ9KoçèÏÐ$ W?æn?yvåOCuÿ!oÀ¨ÏÐvåO «xK4‡E;æefdÞ;<+'E,$QRÌ;<‡ E:6;<U'efÏÐORÓ$k6LæÀ¨ våK C 9:23?` 6efµ¶OËUT]ª³nù;<ORCK OÁ(zÔ=‹>?\…/¢Oƒ·KRšóLe f¿À$ª³nOÁ(zôòz{ef{(zKQR LöbOz$Œ¯Ô=:$Oef@Úb^æ¥ /K‹iQRefÏÐ;<Åef{3O6efÔ <™k%O½[K C=< abc!+,-B'def4gh23 ýåÛEù6efOåæf­AA&BC'$ ƒ„d9®&BC'jèO&:lÛ='ó_!"K gó_!";<nef\…(¿À&ÏÐbX«O ƒ„$)W?6efkæDôoK nikO&:lÛ='3$[//J49oó;<‹ RxçO­'KªS¤ƒU$«Œ ›O ^9Qe f$[//J49L'%%Cwxԙš_!"OjkKƒ „ [//J49„úEù6efåæOgó+è$' O­(ª_!";<r{ŠKÉ/‡EOó [//J49 ‹jÛ9®;<Ë×FG$óE·OOJY9K ۃ¼ ]Kg ó 9 ® Û ƒ O · O$W ? E [V"$ L37:9>0<9$WMJ83Q49RSTO­(ª6efÑÀ ; < : | } š ¨ ‹ ? y å æ$C u ø H  ™ E Z3>//7+'),RSTO­(ª_!"ƒÞ{ŠK_! "iI^yO;<mn$™óQR [//J49_!"; <OÍÎ/:Žl(ËUoÒÓ_!";<OÔO rJKKiLE [//J49O·;<ÍÎR²Ü$à ÍÎ [//J49E^)Yn.Ãr$%#n6 ef;<X«vkO­®{fKîf [//J49vۃ O·O^·0r$vÇ6efÑÀOªS$€]Œ [//J49O;<ØäçèšUÀ$ý¨B$ i•# # ø&'(‚ÀT¹‹#©¤efÇrÙÚÊQÞ¤/ÙڙÇÀOvå-ŠT„ŝOç+'+,K $ ò«iªO(zM6úςvwk·OÛW6í¼]$N, */4/;;0;r *3559M29(z‹äk·Oۃ$™ó‡E.¤\nK¨B3 iªu¢ýùú‰¹$lR·O'Tu¢$‹ZSTn [//J49„úOgYúOrWæu¢K $A' !"#$%&'( '%$($A%!$"
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有