大数据系统构建:可扩展实时数据系统构建原理与最佳实践pdf百度网盘下载地址?
随着社交网络、网络分析和智能型电子商务的兴起,传统的数据库系统显然已无法满足海量数据的管理需求。 作为一种新的处理模式,大数据系统应运而生,它使用多台机器并行工作,能够对海量数据进行存储、处理、分析,进而帮助用户从中提取对优化流程、实现高增长率的有用信息,做更为精准有效的决策。 但不可忽略的是,它也引入了大多数开发者并不熟悉的、困扰传统架构的复杂性问题。
本书将教你充分利用集群硬件优势的Lambda架构,以及专门用来捕获和分析网络规模数据的新工具,来创建这些系统。它将描述一个可扩展的、易于理解大数据系统的方法——可以由小团队构建并运行。本书共18章,除了介绍基本概念,其他章节采用“理论+示例”的方式来阐释相关概念,并使用现实世界中的工具加以论证。其中,第1章介绍了数据系统的原理,给出了Lambda架构的概述,并概述了构建任何数据系统的广义方法。第2~9章集中阐述Lambda架构的批处理层。第10章和第11章集中阐述服务层,让读者了解只批量写入的特定数据库——这些数据库比传统数据库更简单,它们具有出色的性能,并具备可操作性、稳健性等特点。第12~17章集中阐述速度层,让读者更明确地了解NoSQL数据库、流处理和管理增量计算的复杂性。 第18章通过综合回顾Lambda架构的相关知识,帮助读者了解增量批处理、基本Lambda架构的变种,以及如何充分利用资源。
作者简介:
作者简介 Nathan Marz Cascalog和Storm的创始人。在2011年Twitter收购社交媒体数据分析公司BackType前,他是BackType首席工程师。在Twitter,他建立了流计算团队,提供和开发共享基础设施,为整个公司的关键实时应用提供支持。他目前是Stealth startup的创始人。 James Warren Storm8的分析架构师,精通大数据处理、机器学习和科学计算。 译者简介 马延辉,资深Hadoop技术专家,对Hadoop生态系统相关技术有着深刻的理解,在Hadoop开发和运维方面积累了丰富的经验。曾就职于阿里、Answers.com、暴风等互联网公司,从事Hadoop相关的研发和运维工作,对大数据技术的企业级落地、研发、运维和管理有着深刻的理解和丰富的实战经验。开源HBase监控工具Ella作者。现在致力于... 作者简介 Nathan Marz Cascalog和Storm的创始人。在2011年Twitter收购社交媒体数据分析公司BackType前,他是BackType首席工程师。在Twitter,他建立了流计算团队,提供和开发共享基础设施,为整个公司的关键实时应用提供支持。他目前是Stealth startup的创始人。 James Warren Storm8的分析架构师,精通大数据处理、机器学习和科学计算。 译者简介 马延辉,资深Hadoop技术专家,对Hadoop生态系统相关技术有着深刻的理解,在Hadoop开发和运维方面积累了丰富的经验。曾就职于阿里、Answers.com、暴风等互联网公司,从事Hadoop相关的研发和运维工作,对大数据技术的企业级落地、研发、运维和管理有着深刻的理解和丰富的实战经验。开源HBase监控工具Ella作者。现在致力于大数据技术在传统行业的落地和大数据技术的普及和推广。 向磊,前暴风影音数据平台架构师,目前在某垂直电商平台担任技术总监,惠普中国Hadoop相关课程讲师。开源项目EasyHadoop、phpHiveAdmin作者,对Hadoop及其周边生态系统的底层运维及开发、集群自动化运维、网络架构设计、集群安全、性能优化、嵌入式编程方面有较深入了解。 魏东琦,博士,长期从事软件研发工作,现就职于中国地质调查局西安地质调查中心,参加、承担过多项科研项目。现致力于地质行业与大数据技术融合的相关研究工作。
目录:
第1章 大数据的新范式1
第2章 大数据的数据模型24
第3章 大数据的数据模型:示例44
第4章 批处理层的数据存储51
第5章 批处理层的数据存储:示例62
第6章 批处理层79
第7章 批处理层:示例104
第8章 批处理层示例:架构和算法131
第9章 批处理层示例:实现147
第10章 服务层概述168
第11章 服务层:示例184
第12章 实时视图194
第13章 实时视图:示例206
第14章 队列和流处理211
第15章 队列和流处理:示例227
第16章 微批量流处理239
第17章 微批量流处理:示例253
第18章 深入Lambda架构268
点击下载