《并行与分布式程序设计》课程教学参考书：分布式与云计算（美）Tom White《Hadoop权威指南》（中文第3版）

本书从Hadoop的缘起开始，由浅入深，结合理论和实践，全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章，3个附录，涉及的主题包括：Haddoop;MapReduce; Hadoop分布式文件系统；Hadoop的I/O、MapReduce应用程序开发；MapReduce的工作机制；MapReduce的类型和格式；MapReduce的特性；如何构建Hadoop集群，如何管理Hadoop;Pig:HBase;Hive;ZooKeeper;开源工具Sqoop,最后还提供了丰富的案例分析。

团购合买资源类别：文库，文档格式：PDF，文档页数：691，文件大小：138MB

例增多了，碰到问题时，可以向大量活跃的邮件列表发邮件求助。对新手而言，最大的障碍是理解Hadoop有哪些能耐，它擅长什么，它如何使用。这些问题使我萌发了写作本书的动机。 Apache Hadoop社区的发展来之不易。在过去的三年多时间里，Hadoop项目开花结果并孵化出大约半打子项目。到目前，它在性能、可靠性、可扩展性和可管理性方面都实现了巨大的飞跃。但是，为了让更多人采用 Hadoop,我认为我们要让Hadoop更好用。这需要创建更多新的工具，集成更多的系统，创建新的、改进的API。我希望我自己能够参与，同时也希望本书能够鼓励并吸引其他人也参与Hadoop项目。说明在文中讨论特定的Java类时，我常常会忽略包的名称以免啰嗦杂乱。如果想知道一个类在哪个包内，要想查阅相关子项目的Hadoop Java API文档，可以访问Apache Hadoop主页(http:/hadoop.Apache.org)。如果使用IDE编程，可以充分利用其自动补全机制（也称“自动完成机制”）。与此类似，尽管偏离传统的编码规范，但如果要导入同一个包的多个类，程序可以使用星号通配符来节省空间（例如import org.apache.hadoop.io.*)。本书中的示例代码可以从本书网站下载，网址为http:www.hadoopbook.com/。可以根据网页上的指示获取本书示例所用的数据集以及运行本书示例的详细说明、更新链接、额外的资源与我的博客。本书特色内容本书是这样组织的。第1章强调为什么需要Hadoop,然后概述项目发展历史。第2章简要介绍MapReduce。第3章深入剖析Hadoop文件系统，特别是HDFS。第4章包含Hadoop的基本I/O操作：数据完整性、压缩、序列化及基于文件的数据结构。接下来的第5章~第8章深入剖析MapReduce。第5章全景呈现了 MapReduce应用开发所涉及的具体步骤。第6章从用户的角度来看如何在 Hadoop中实现MapReduce。第7章主要包含MapReduce编程模型和 MapReduce可以使用的各种数据格式。第8章是MapReduce高级主题，包括排序和数据连接。 X 前言

示例代码的使用本书的目的是帮助读者完成工作。通常情况下，可以在你的程序或文档中使用本书中给出的代码。不必联系我们获得代码使用授权，除非你需要使用大量的代码。例如，在写程序的时候引用几段代码不需要向我们申请许可。但以光盘方式销售或重新发行O'Reilly书中的示例的确需要获得许可。引用本书或引用本书中的示例代码来回答问题也不需要申请许可。但是，如果要将本书中的大量范例代码加入你的产品文档，则需要申请许可。我们欣赏引用时注明出处的做法，但不强求。引用通常包括书名、作者、出版社和ISBN,例如“Hadoop:The Definitive Guide,Third Edition,by Tom White.Copyright 2013 Tom White,978-1-449-31152-0" 如果觉得使用示例代码的情况不属于前面列出的合理使用或许可范围，请通过电子邮件联系我们，邮箱地址为permissions@oreilly..com。 Safari Books Online Safari Safari Books Online(www,safaribooksonline.com)是一个按需定制的数字图书馆，以图书和视频的形式提供全球技术领域和经管领域内知名作者的专业作品。专业技术人员、软件开发人员、网页设计人员、商务人员和创意专家将Safari Books Online用作自己开展研究、解决问题、学习和完成资格认证培训的重要来源。 Safari Books Online为组织机构、政府部门和个人提供广泛、灵活的产品组合和定价方式。在这里，订阅者通过一个可以全文检索的数据库中就能够访问数千种图书、培训视频和正式出版之前的书稿，这些内容提供商有 O'Reilly Media,Prentice Hall Professional,Addison-Wesley Professional, Microsoft Press、Sams、Que、Peachpit Press、Focal Press、Cisco Press、 John Wiley&Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、 Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、 Jones&Bartlett、Course Technology及其他几十家出版社。欢迎访问Safari Books Online,了解更多详情。前言 xiii

Chris Douglas,Alan Gates,Lars George,Patrick Hunt,Aaron Kimball, Peter Krey,Hairong Kuang,Simon Maxen,Olga Natkovich,Benjamin Reed,Konstantin Shvachko,Allen Wittenauer,Matei Zaharia Philip Zeyliger.。Ajay Anand组织本书的评审并使其顺利完成。Philip(“flip”) Komer帮助我获得了NCDC气温数据，使本书示例很有特色。特别感谢 Owen O'Malley和Arun C.Murthy,他们为我清楚解释了MapReduce中 shuffle的复杂过程。当然，如果有任何错误，得归咎于我。对于第2版，我特别感谢Jeff Bean,Doug Cutting,Glynn Durham,Alan Gates,Jeff Hammerbacher,Alex Kozlov,Ken Krugler,Jimmy Lin,Todd Lipcon,Sarah Sproehnle,Vinithra Varadharajan和Ian Wrigley,感谢他们仔细审阅本书，并提出宝贵的建议，同时也感谢对本书第1版提出勘误建议的读者。我也想感谢Aaron Kimball对Sqoop所做的贡献和Philip (“flip”)Kromer对图处理实例分析所做的贡献。对于第3版，我想感谢Alejandro Abdelnur,Eva Andreasson,Eli Collins, Doug Cutting,Patrick Hunt,Aaron Kimball,Aaron T.Myers,Brock Noland, Arvind Prabhakar,Ahmed Radwan和Tom Wheeler,感谢他们的反馈意见和建议。Rob Weltman友善地对整本书提出了非常详细的反馈意见，这些意见和建议使得本书终稿的质量得以更上一层楼。此外，我还要向所有提交第2 版勘误的读者表达最真挚的谢意。特别感谢Doug Cutting对我的鼓励、支持、友谊以及他为本书所写的序言。我还要感谢在本书写作期间以对话和邮件方式进行交流的其他人。在本书写到一半的时候，我加入了Cloudera,我想感谢我的同事，他们为我提供了大量的帮助和支持，使我有充足的时间写书，并能及时交稿。非常感谢我的编辑Mike Loukides及其O'Reilly Media的同事，他们在本书的准备阶段为我提供了很多帮助。Mik一直为我答疑解惑、审读我的初稿并帮助我如期完稿。最后，写作是一项艰巨的任务，如果没有家庭一如既往地支持，我是不可能完成的。我的妻子Eliane,她不仅操持着整个家庭，还协助我，参与本书的审稿、编辑和跟进案例学习。还有我的女儿Emilia和Lottie,一直都非常善解人意，期待我有更多时间好好陪陪她们。前言 XV

点击下载完整版文档（PDF格式）

共691页，可试读40页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录