本书可以作为大数据开发工程师实用手册,以完整项目案例开发为主线,结合具体技术理论讲解和实际操作,详细讲解了大数据项目开发过程中开发人员应该具备的能力。共包含7个章节内容,1至3章主要学习大数据集群搭建,解决大数据项目开发环境和运行环境问题,第4章主要学习HBase数据库和Kafka消息队列,解决了大数据的存储和交换问题,第5、6章主要学习大数据项目离线分析和实时分析,解决了大数据的计算问题,第7章主要学习Web技术开发,解决了大数据可视化问题。 本书主要读者对象为大数据开发工程师、Hadoop工程师、Spark工程师、ETL工程师、大数据分析工程师,并可以作为大数据相关岗位培训的教程。
目录:
第1章 大数据技术概述1
1.1 什么是大数据1
1.2 大数据平台架构1
1.3 大数据工程师的技能树4
1.4 大数据项目需求分析与设计6
1.5 本章小结9
第2章 搭建IDEA开发环境及Linux虚拟机10
2.1 搭建IDEA开发环境10
2.2 搭建Linux虚拟机19
2.3 本章小结22
第3章 基于Hadoop构建大数据平台23
3.1 Zookeeper分布式协调服务23
3.2 HDFS分布式文件系统34
3.3 YARN资源管理系统44
3.4 Hadoop分布式集群的构建53
3.5 MapReduce分布式计算框架64
3.6 本章小结72
第4章 基于HBase和Kafka构建海量数据存储与交换系统73
4.1 构建HBase分布式实时数据库73
4.2 搭建Kafka分布式消息系统86
4.3 本章小结94
第5章 用户行为离线分析——构建日志采集和分析平台95
5.1 搭建Flume日志采集系统95
5.2 使用Flume采集用户行为数据102
5.3 基于Hive的离线大数据分析112
5.4 基于Hive 的用户行为数据离线分析122
5.5 本章小结126
第6章 基于Spark的用户行为实时分析127
6.1 Spark快速入门127
6.2 Spark Core的核心功能131
6.3 Spark分布式集群的构建135
6.4 基于Spark Streaming的新闻项目实时分析140
6.5 基于Spark SQL的新闻项目离线分析157
6.6 基于Spark Structured Streaming的新闻项目实时分析167
6.7 本章小结173
第7章 基于Flink的用户行为实时分析174
7.1 Flink快速入门174
7.2 Flink分布式集群的构建181
7.3 基于Flink DataStream的新闻项目实时分析187
7.4 基于Flink DataSet的新闻项目离线分析198
7.5 本章小结205
第8章 用户行为数据可视化206
8.1 构建Java Web系统查询用户行为206
8.2 用户行为数据展示与分析229
8.3 本章小结236
点击下载