孟小峰等:大数据管理:概念、技术与挑战 153 File System Colossus 2006 Megastore 2010 Deployment in 2010 Based on MapRed Percolator Caffeine [门[[Dod[o Fig. 4 Technology evolution in google 图 le技术演化图 3.1.1文件系统 地解决了 Facebook海量图片存储问题.淘宝推出了 文件系统是支撑上层应用的基础.在 Google之类似的文件系统TFs( Tao file system),通过将 前,尚未有哪个公司面对过如此多的海量数据.因此小文件合并成大文件、文件名隐含部分元数据等方 对于 google而言并没有完全成熟的存储方案可以式实现了海量小文件的高效存储. FastDFSl针对 直接使用. Google认为系统组件失败是一种常态而小文件的优化类似于TFS 不是异常,基于此思想 Google自行设计开发了3.1.2数据库系统 Google文件系统 GFSL3o(Google file system).GFS 原始的数据存储在文件系统之中,但是用户习 是构建在大量廉价服务器之上的一个可扩展的分布惯通过数据库系统来存取文件.因为这样会屏蔽掉 式文件系统,GFS主要针对文件较大,且读远大于底层的细节,且方便数据管理.直接采用关系模型的 写的应用场景,采用主从( Master-slave)结构.通过分布式数据库并不能适应大数据时代的数据存储 数据分块、追加更新( append-only)等方式实现了海主要因为: 量数据的高效存储.随着时间推移,GFS的架构逐 1)规模效应所带来的压力.大数据时代的数据 渐开始无法适应需求. google对GFS进行了重新量远远超过单机所能容纳的数据量,因此必须采用 的设计,该系统正式的名称为 Colosuss,具体实现尚分布式存储的方式,这就需要系统具有很好的扩展 未公开,但是从ACM对GFS团队核心工程师的访性,但这恰恰是传统数据库的弱势之一.因为传统的 谈可以了解其一些新的特性.其中GFS的单点数据库产品对于性能的扩展更倾向于 scale-up(纵 故障(指仅有一个主节点容易成为系统的瓶颈)、海向扩展)的方式,而这种方式对于性能的增加速度远 量小文件的存储等问题在 Colosuss中均得到了低于需要处理数据的增长速度,且性能提升存在上 解决. 限.适应大数据的数据库系统应当具有良好的 除了 Google,众多企业和学者也从不同方面对 scale-out(横向扩展)能力,而这种性能扩展方式恰 满足大数据存储需求的文件系统进行了详尽的研恰是传统数据库所不具备的.即便是性能最好的并 究微软自行开发的 Cosmos32]支撑着其搜索、广告行数据库产品其 scale-out能力也相对有限 等业务.HDFS3和 CloudStorel3都是模仿GFS 2)数据类型的多样化.传统的数据库比较适合 的开源实现GFS类的文件系统主要是针对较大文结构化数据的存储,但是数据的多样性是大数据时 件设计的,而在图片存储等应用场景,文件系统主要代的显著特征之一,这也就是意味着除了结构化数 存储海量小文件,此时GFS等文件系统因为频繁读据,半结构化和非结构化数据也将是大数据时代的 取元数据等原因,效率很低.针对这种情况,重要数据类型组成部分.如何高效地处理多种数据类 Facebook推出了专门针对海量小文件的文件系统型是大数据时代数据库技术面临的重要挑战之 Haystack3,通过多个逻辑文件共享同一个物理文 3)设计理念的冲突.关系数据库追求的是“One 件、增加缓存层、部分元数据加载到内存等方式有效 ze fits al的目标,希望将用户从繁杂的数据管理VMJKB ,9<=2/4/JN9@/408M/2M2[//J49K ¨B [//J49;<Øä¨ (K$K$ OÁ(z OÁ(zóò?åæO/|Kn [//J49ô h$£jkb'ÛÜ«RýBnO efKB L [//J49äkË×ÊõO\
XPE WæK[//J49R(z³ÁQRóù^ô Zó ï ^$/ L B ß Õ [//J49 + è ! ' [//J49OÁ(z [V"+(%,![//J495M49;N;896"K[V" ózn6SµPQ¦ôòO'è(OÏW YOÁ(z$[V"²³ûOÁ6$$LT6L ÎOå毦$;æ²Å!L3;891&"43@9"vKQR efÏÉ(;±ÿU!37792>&/24N"bXY¼] efO:$\
KCDu¢($[V"O~9 UÔåªSK[//J49 [V"çèºU O!$Ì(zgYO¾NR */4/;0;;$T¼]£ jÛ$óÅ H*L [V"VWÔO{ÓXOY Z+($,E¨®UOù»K3 [V"O& [\!¿k'²L&ÅñÊR(zOÂÃ"( òO Á O \
b n */4/;0;; 3 l ? y ¨©K ® [//J49$Yn]|r.Ã4ÅZCX« «¬6ef\
ªSOOÁ(zçèàáO$ %KÀ+è'O */;6/;+(',DùL(| b|QKZ?V"+((,r *4/0>"8/19+(B, ó ^ [V" OÞ¼]K[V"éOOÁ(z²³óû6O Á!O$n¨_\
bå毦$OÁ(z²³ \
òOÁ$Bu [V"bOÁ(zR²ýL < 2 e f b $$ " m nKû 9 ù G H$ V3<9Q//R`û òOÁOOÁ(z Z3N;83<R+(A,$QRn'`aOÁÌbC'`ÀO Á(p±c\?(úÏ2ef±dy\bXYk$ o¨© V3<9Q//R ¨_\
Kef éÏOOÁ(z ,V"+(C,!,3/5M49;N;896"$QRÛ òOÁÇÊ6OÁ(OÁ¾g!úÏ2efbX Y¼] òOÁO:$\
KV3;8?V"+(+,û òOÁOhäéÏL ,V"K (K$K' ef{(z Oef\
nOÁ(zô3$óæû iQRef{(zx\<OÁKR9öjkl >?OL$$Xóef¿ÀK;æ(VO ÏWYef{Z/Ôå6efuSOef\
$ ²³R# $"$åiàxOm¢K6efuSOef TT¡R#i/ÅtOef$Bºî;æ ÏWY\
OXYK9ª³(zkm!Oè( »$9ììóVzef{OnKôKRVzO ef{L»/Oè(ÿo+L;<349&07!p +è("OXY$9ùXYL»/Op±lmT nLª³ÑÀefOpqlm$$»/Ô4\nò dKÔ å 6 e f O e f { ( z å ´ k # ! O ;<349&/08!q+è("/¢$9ù»/è(XYì ìóVzef{iZOKªóó»/!O èef{;<349&/08/¢4ÎkdK '"eféVOnäKVzOef{ÔÇ väefO\
$óefOn»ó6efu SO@ù¦ôK94óZbD®väe f$"vär#väef4Ûó6efuSO º³eféV³ÊúÏKýþ:$oÑÀnùefé Vó6efuSef{;<«¬Oº³¯°ôK ("!ÀkOr7K(ef{;SOó&X29 ;MP95M8;344'O2$stÛæÅý\Oef¿À ûòüb#6ef¿À#jk(;<&¯° $A(