《大数据技术基础》 Hadoop发展简史 • • • • • • • •

点击下载：重庆大学：《大数据技术基础》课程教学资源（课件讲稿）03 Hadoop

正在加载图片...

Hadoop发展简史 Hadoop起源于 Apache Nutch,后者是一个开源的网络搜索引擎,本身也是由 Lucene项目的部分 Nutch项目开始于2002年,一个可工作的抓取工具和搜索系统很快浮出水面。 2004年, Google发表了论文,向全世界介绍了 MapReduce 2005年初, Nutch的开发者在 Nutch上有了一个可工作的 MapReduce应用,到当年年中,所有主要的 Nutch算法被移植到使用 Mapreduce和NDFS来运行。 Nutch中的NDFS和 MapReduce实现的应用远不只是搜索领域。在2006年2月,他们从 Nutch转移出来成为一个独立的 Lucene子项目,成为 Hadoop 在2008年2月,雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的 Hadoop集群上 2008年4月, Hadoop打破世界纪录,成为最快排序1TB数据的系统。运行在一个910节点的群集, Hadoop在209秒内排序了1TB的数据(还不到三分半钟),击败了前一年的297秒冠军。同年11月,谷歌在报告中声称,它的 MapReduce实现执行TB数据的排序只用了68秒。在2009年5月,有报道宣称 Yahoo的团队使用 Hadoop对1TB的数据进行排序只花了62秒时间《大数据技术基础》《大数据技术基础》 Hadoop发展简史 • • • • • • • • Hadoop起源于Apache Nutch，后者是一个开源的网络搜索引擎，本身也是由Lucene项目的一部分。 Nutch项目开始于2002年，一个可工作的抓取工具和搜索系统很快浮出水面。 2004年，Google发表了论文，向全世界介绍了MapReduce。 2005年初，Nutch的开发者在Nutch上有了一个可工作的MapReduce应用，到当年年中，所有主要的Nutch算法被移植到使用MapReduce和NDFS来运行。 Nutch中的NDFS和MapReduce实现的应用远不只是搜索领域。在2006年2月，他们从Nutch转移出来成为一个独立的Lucene子项目，成为Hadoop。在2008年2月，雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。 2008年4月，Hadoop打破世界纪录，成为最快排序1TB数据的系统。运行在一个910节点的群集，Hadoop在209秒内排序了1TB的数据（还不到三分半钟），击败了前一年的297秒冠军。同年11月，谷歌在报告中声称，它的MapReduce实现执行1TB数据的排序只用了68秒。在2009年5月，有报道宣称Yahoo的团队使用Hadoop对1TB的数据进行排序只花了62秒时间

<<向上翻页向下翻页>>

点击下载：重庆大学：《大数据技术基础》课程教学资源（课件讲稿）03 Hadoop