正在加载图片...
Hadoop发展简史 Hadoop起源于 Apache Nutch,后者是一个开源的网络搜索引擎,本身也是由 Lucene项目的 部分 Nutch项目开始于2002年,一个可工作的抓取工具和搜索系统很快浮出水面。 2004年, Google发表了论文,向全世界介绍了 MapReduce 2005年初, Nutch的开发者在 Nutch上有了一个可工作的 MapReduce应用,到当年年中,所 有主要的 Nutch算法被移植到使用 Mapreduce和NDFS来运行。 Nutch中的NDFS和 MapReduce实现的应用远不只是搜索领域。 在2006年2月,他们从 Nutch转移出来成为一个独立的 Lucene子项目,成为 Hadoop 在2008年2月,雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的 Hadoop集群上 2008年4月, Hadoop打破世界纪录,成为最快排序1TB数据的系统。运行在一个910节点的 群集, Hadoop在209秒内排序了1TB的数据(还不到三分半钟),击败了前一年的297秒冠 军。同年11月,谷歌在报告中声称,它的 MapReduce实现执行TB数据的排序只用了68秒。 在2009年5月,有报道宣称 Yahoo的团队使用 Hadoop对1TB的数据进行排序只花了62秒时间 《大数据技术基础》《大数据技术基础》 Hadoop发展简史 • • • • • • • • Hadoop起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是由Lucene项目的 一部分。 Nutch项目开始于2002年,一个可工作的抓取工具和搜索系统很快浮出水面。 2004年,Google发表了论文,向全世界介绍了MapReduce。 2005年初,Nutch的开发者在Nutch上有了一个可工作的MapReduce应用,到当年年中,所 有主要的Nutch算法被移植到使用MapReduce和NDFS来运行。 Nutch中的NDFS和MapReduce实现的应用远不只是搜索领域。 在2006年2月,他们从Nutch转移出来成为一个独立的Lucene子项目,成为Hadoop。 在2008年2月,雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。 2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统。运行在一个910节点的 群集,Hadoop在209秒内排序了1TB的数据(还不到三分半钟),击败了前一年的297秒冠 军。同年11月,谷歌在报告中声称,它的MapReduce实现执行1TB数据的排序只用了68秒。 在2009年5月,有报道宣称Yahoo的团队使用Hadoop对1TB的数据进行排序只花了62秒时间
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有