共计 2792 个字符,预计需要花费 7 分钟才能阅读完成。
如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。
今年来大数据、人工智能获得了 IT 界大量的关注。如果一个企业不玩大数据,都不好意思说自己是在 IT 圈混的。我敢打赌,你在中关村西二旗地铁站溜一圈,保准你会听到如下名词:Hadoop、Spark、MapReduce、NoSQL、离线计算、实时计算、实时推送等等一大串名称。
程序猿们就是有这么实在,坐在地铁上还能那么投入的讨论技术问题。那么,这些听起来高大上的技术,究竟都是干什么用的呢?他们之间的有什么区别和联系?
通常,一个技术的兴起,都是由现实需求驱动的。了解了我们面临的问题,就能更好的理解各个大数据技术的使用场景,各类大数据技术的区别也就显而易见了。
今天这一份书单,我们就将从 Hadoop 生态圈开始入手,推荐几本关于 Hadoop 生态圈的优质书籍!
Hadoop 技术栈系列书单
Hadoop 权威指南:大数据的存储与分析(第 4 版)
本书结合理论和实践,由浅入深,全方位介绍了 Hadoop 这一高性能的海量数据处理和分析平台。
全书 5 部分 24 章,第Ⅰ部分介绍 Hadoop 基础知识,主题涉及 Hadoop、MapReduce、Hadoop 分布式文件系统、YARN、Hadoop 的 I / O 操作。第Ⅱ部分介绍 MapReduce, 主题包括 MapReduce 应用开发;MapReduce 的工作机制、MapReduce 的类型与格式、MapReduce 的特性。第Ⅲ部分介绍 Hadoop 的运维,主题涉及构建 Hadoop 集群、管理 Hadoop。第Ⅳ部分介绍 Hadoop 相关开源项目,主题涉及 Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳 (Cerner)、微软的人工智能项目 ADAM(一种大规模分布式深度学习框架) 和开源项目 Cascading(一个新的针对 MapReduce 的数据处理 API)。
本书是一本专业、全面的 Hadoop 参考书和工具书,阐述了 Hadoop 生态圈的新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解 Hadoop 集群的安装和运维。
作者简介
TomWhite 是杰出的 Hadoop 专家之一。自 2007 年 2 月以来,TomWhite 一直是 ApacheHadoop 的提交者(committer),也是 Apache 软件基金会的成员。Tom 是 Cloudera 的软件工程师,他是 Cloudera 的首批员工,对 Apache 和 Cloudera 做出了举足轻重的贡献。
译者简介
王海博士,解放军理工大学通信工程学院教授,博导,教研中心主任,长期从事无线自组网网络的设计与研发工作,主持国家自然科学基金、国家 863 计划课题等多项课题,近 5 年获军队科技进步二等奖 1 项,三等奖 6 项,作为 di 一发明人申请国家发明专利十余项,发表学术论文 50 余篇。
刘喻博士,长期从事软件开发、软件测试和软件工程化管理工作,目前任教于清华大学软件所。
吕粤海,长期从事军事通信网络技术研究与软件开发工作,先后通过华为光网络高级工程师认证、思科网络工程师认证。
深度剖析 Hadoop HDFS
本书基于 Hadoop 2.7.1 版本进行分析,全面描述了 HDFS 2.X 的核心技术与解决方案,书中描述了 HDFS 内存存储、异构存储等几大核心设计,包括源码细节层面的分析,对于 HDFS 中比较特殊的几个场景过程也做了细粒度的分析。
阅读本书可以帮助读者从架构设计与功能实现角度了解 HDFS 2.X,同时还能学习 HDFS 2.X 框架中优秀的设计思想、设计模式、Java 语言技巧等。这些对于读者全面提高自己分布式技术水平有很大的帮助。
本书分为三大部分:核心设计篇、细节实现篇、解决方案篇,“核心设计篇”包括 HDFS 的数据存储原理、HDFS 的数据管理与策略选择机制、HDFS 的新颖功能特性;“细节实现篇”包括 HDFS 的块处理、流量处理等细节,以及部分结构分析;“解决方案篇”包括 HDFS 的数据管理、HDFS 的数据读写、HDFS 的异常场景等。本书适合于云计算相关领域研发人员、云计算相关运维工程师、高年级研究生或本科、热衷于分布式计算研究的人。
作者简介
林意群,唯品会上海研发中心数据应用部研发工程师,Apache Hadoop Committer,主要专注于 HDFS 模块的研究。对大数据处理、分布式计算兴趣浓厚,在实际工作中努力钻研,分享了大量技术文章,贡献了很多实践经验。
HBase 不睡觉书
HBase 是 Apache 旗下一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用 HBase 技术可在廉价的 PC 服务器上搭建大规模的存储化集群,使用 HBase 可以对数十亿级别的大数据进行实时性的高性能读写,在满足高性能的同时还保证了数据存取的原子性。
本书共分为 9 章,由浅入深地讲解 HBase 概念、安装、配置、部署,让读者对 HBase 先有一个感性认识,再从应用角度介绍了高级用法、监控和性能调优。既兼顾了初学者,也适用于想要深入学习 HBase 的读者。
本书适合于以前没有接触过 HBase,或者了解 HBase,并希望能够深入掌握的读者,适合 HBase 应用开发人员和系统管理人员学习使用。
作者简介
杨曦,就职于硅谷某上市公司,对大数据、云计算等技术有较深研究以及丰富的项目实践经验。热衷编写开源项目、撰写技术博客以及折腾各种技术项目。
Hive 实战
Hive“出身名门”,是最初由 Facebook 公司开发的数据仓库工具。它简单且容易上手,是深入学习 Hadoop 技术的一个很好的切入点。
本书由数据库专家和大数据专家共同撰写,具体内容包括:Hive 的安装和配置,其核心组件和架构,Hive 数据操作语言,如何加载、查询和分析数据,Hive 的性能调优以及安全性,等等。本书旨在为读者打牢基础,从而踏上专业的大数据处理之旅。
作者简介
斯科特·肖(Scott Shaw)
Hortonworks 公司解决方案工程师,曾为微软公司的商业智能项目担任顾问,拥有近 20 年的数据管理经验。作为演讲者和培训师,他致力于普及分布式计算、大数据概念、商业智能、Hive 和 Hadoop。
安德烈亚斯·弗朗索瓦·弗穆尔恩(Andreas Fran?ois Vermeulen)
集数据科学家、数据仓库架构师、博士研究员、企业顾问等角色于一身,曾获“英国数据科学技术先锋”称号,广泛涉足数据工程、商业智能、云架构、深度学习等多个领域。
安库尔·古普塔(Ankur Gupta)
Hortonworks 公司解决方案工程师,曾在 Oracle 公司担任顾问,有多年从事数据架构师和 Oracle 数据库管理员的经验,著有 Oracle GoldenGate 11g Complete Cookbook。