正在加载图片...
150 计算机研究与发展2013,50(1 数据环境处在不断的变化之中,系统很难准确掌握 数据流的理论及技术研究已经有十几年的历 整个数据的全貌 史,目前仍旧是研究热点.与此同时很多实际系统也 由于响应时间的要求,流处理的过程基本在内已开发和得到广泛的应用,比较代表性的开源系统 存中完成,其处理方式更多地依赖于在内存中设计如 Twitter的 Stormi2、 Yahoo的Sft以及 Linkedin 巧妙的概要数据结构( synopsis data structure),内的 Kafka2等 存容量是限制流处理模型的一个主要瓶颈.以PCM2.1.2批处理 (相变存储器)为代表的储存级内存( storage class Google公司在2004年提出的 MapReduce2 memory,SCM)设备的出现或许可以使内存未来不编程模型是最具代表性的批处理模式.一个完整的 再成为流处理模型的制约 MapReduce过程如图2所示: 、(1)fork (2)Assign (2)Assig Reduce Split O (6)Write o Split (5)Remote Split 2(3)Read Read Worker (4)Loc File 1 termediate Files (on local disks) Phase Fig. 2 Execution overview of Map Reduce 图2 MapReduce执行流程图 MapReduce模型首先将用户的原始数据源进理中,常常并不是简单地只使用其中的某一种,而是 行分块,然后分别交给不同的Map任务区处理.Map将二者结合起来.互联网是大数据最重要的来源之 任务从输入中解析出链/值(Key/ Value)对集合,然,很多互联网公司根据处理时间的要求将自己的 后对这些集合执行用户自行定义的Map函数得到业务划分为在线( online)、近线( nearline)和离线 中间结果,并将该结果写入本地硬盘. Reduce任务( offline),比如著名的职业社交网站 Linkedin24,这 从硬盘上读取数据之后会根据key值进行排序,将种划分方式是按处理所耗时间来划分的,其中在线 具有相同Key值的组织在一起.最后用户自定义的的处理时间一般在秒级甚至是毫秒级,因此通常采用 Reduce函数会作用于这些排好序的结果并输出最上面所说的流处理.离线的处理时间可以以天为基 终结果 本单位,基本采用批处理方式,这种方式可以最大限 从 MapReduce的处理过程我们可以看出,度地利用系统ⅣO.近线的处理时间一般在分钟级或 MapReduce的核心设计思想在于:1)将问题分而治者是小时级,对其处理模型并没有特别的要求,可以 之;2)把计算推到数据而不是把数据推到计算,有效根据需求灵活选择,但在实际中多采用批处理模式 地避免数据传输过程中产生的大量通信开销.2.2大数据处理的基本流程 MapReduce模型简单,且现实中很多问题都可用 大数据的数据来源广泛,应用需求和数据类型 MapReduce模型来表示.因此该模型公开后立刻受都不尽相同,但是最基本的处理流程一致.海量Web 到极大的关注,并在生物信息学、文本挖掘等领域得数据的处理是一类非常典型的大数据应用,从中可以 到广泛的应用 归纳出大数据处理的最基本流程. Scholarspacel21 无论是流处理还是批处理都是大数据处理的可由中国人民大学网络与移动数据管理实验室 行思路.大数据的应用类型很多,在实际的大数据处( WAMDM)开发,目标是建立一个“以人为本”,即ef45ÑnZ[Oãäô3$(zmÉ».¼Ó U'efO×½K «Lãåu¢O³S$ÒÑÀORÓ/in„ \3ËÊ$ÑÀXYÿno¾¿Ln„\3! ÀÁOj³efv!;N2/7;M;>383;810<8019"$„ \śódeÒÑÀVO­'²³ÂÃKE -*L !Îã\…¦"RSTO…\Ą\!;8/13J9<43;; 696/1N$"*L"™O™]ˆÅ‡EW„\jxZ QÊRÒÑÀVOeNK efÒOÀ·^;<$%vwkÆðOE a$2hõöó$%a&K&BCumn¼³(z4 vƒ'r?y|}Oåæ$ŽST»OƒÞ(z ý ,OM8891O"8/16+'%,(`3=//O"B+'$,E^ GM2R9>M2 O Y35R3+'',bK 'K$K' ¬ÑÀ [//J49Û Ü n '%%B Ô ™ O L37:9>0<9+'(, ÇÓVó‹ŠST»O¬ÑÀYK­'ËUO L37:9>0<9RÓý¨'+'(,i•# VMJK' TI9<08M/2/@91@M9O/5L37:9>0<9K ¨' L37:9>0<9ÈèÒÓ¨ L37:9>0<9VwxÛæO‚„efÞç èÏÉ$,>ÏúI©ZCO L37ÊQÑÀKL37 ÊQÅËé3¨Ð™Ì!¶!Y9N!]3409"ŒÇÇ$, >Œ9®ÇÇÈèæ+褥O L37Íe?y 3¢vå$‹ÛÌvåÎéioÏÐK:9>0<9ÊQ ÅÏÐòL<efô>öîf R9N ¶çèÑÒ$Û ŠkÎC Y9N¶O³Ón­dK‹>æ+¤¥O :9>0<9ÍeöfæL9®Ñ!ÒOvå‹Ë™‹ ivåK Å L37:9>0<9 O Ñ À R Ó € ] ‡ E ™$ L37:9>0<9OÔO!ßÕnL#$"ۉŠÏÖ ô%'"Ò!"yefZóÒefy!"$k$ o × Ø e f V Ë R Ó 3 Ž  O 6 › Q > ƒ qK L37:9>0<9 V y ‘$$ ] ¼ 3 m n ‰ Š ‚ ‡ æ L37:9>0<9VxT•K†BÌVۃ>{´c y¤6O‡ˆ$‹n`>?.(OiÙÚbÁÂ? y|}OåæK ·óÒÑÀøó¬ÑÀ‚ó6efÑÀO‡ èß=K6efOåæéVmn$n¼³O6efÑ À3$^^‹Zóy‘o×Wæ3O1­ù$ó ÛÛÃvÇdxK…aJó6ef‹º³OxÞô ­$mn…aJÛÜîfÑÀu¢O³SÛ+MO |Q= Ï R n Ü !/24M29"(Š Ü !29314M29"r ‚ Ü !/554M29"$ý@¾OÝ|HIJÞ GM2R9>M2+'B,$9 ù=ÏXYóßÑÀiÄu¢x=ÏOK3nÜ OÑÀu¢­ànáÄ}~óâáÄ$†BQ^;æ ò«i¸OÒÑÀK‚ÜOÑÀu¢‡EEHR/ i‘M$/i;æ¬ÑÀXY$9ùXY‡E‹6d mo"æ(z!!XKŠÜOÑÀu¢­ànÏãĈ ÃóòuÄ$ŒÑÀV‹äkùúO³S$‡E îfªS=_*å$™n¼³3n;æ¬ÑÀYK >=> +,-Z/B'C^_ 6efOefxÞ|}$åæªSreféV ‚ZáÎC$™ó‹/iOÑÀÒÓ­íK › ^9Q efOÑÀó­é#^[VO6efåæ$Å3‡E st™6efÑÀO‹/iÒÓK"<=/431"73<9+'A, « 3 ) 4 5 6 . J K & ( ¤ e f ¿ À ¼ F æ !^HL?L"ƒ'$2‰óz{­'&E4Ri'$ª $A% !"#$%&'( '%$($A%!$"
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有