本书主要分析 Hadoop 3.2.0 的新特性和新功能,共5章。
首先简单介绍 Hadoop,帮助刚接触 Hadoop 的读者对它有个基本了解。
接着介绍目前使用比较多的分布式文件系统 HDFS,内容涉及 NameNode 的原理、HA、HDFS Federation 和 HDFS 3.0 中新增的特性。
然后从应用管理和资源调度这两个方面介绍一个通用的资源管理平台 YARN
再后讨论如何在 YARN 平台中运行应用,比如如何将应用迁移到 YARN 平台,以及非 Hadoop 的应用是如何兼容 YARN 模式的。
最后,书中给出了一些工作实战指南,包括如何搭建一个生产可用的 Hadoop 3.0 集群;如何将现有 Hadoop 2.0 集群升级到 Hadoop 3.0,及其在升级过程中遇到的问题;如何针对 Hadoop 进行二次开发,并参与社区,向社区贡献代码;一个大数据平台应具备哪些必备组件等。
作者简介:
孙志伟 金山云数据平台架构师,专注于 Hadoop 生态和数据平台建设,曾就职于网易、转转等互联网公司。对大数据处理、分布式计算与数据采集有着浓厚的兴趣。一直从事 Hadoop 研发与运维工作,努力钻研技术并坚持分享。有着丰富的一线研发与运维经验,是多个社区的 Contributor,积极活跃于开源社区。
目录:
第1章 Hadoop 1
第2章 HDFS 14
第3章 YARN 56
第4章 Application on YARN 105
第5章 实战指南 130
点击下载