1 概述

Hadoop在大数据技术体系中极为重要，被誉为是扭转世界的7个Java我的项目之一（剩下6个是Junit、Eclipse、Spring、Solr、HudsonAndJenkins、Android），本篇文章以Hadoop 3.3.0官网文档为根底，首先会介绍Hadoop相干术语，包含HDFS，MapReduce等，接着会残缺形容Hadoop的搭建过程，包含本地以及分布式集群的搭建。

2 术语介绍

Hadoop：Hadoop是Apache开发的分布式系统基础架构，用户能够在不理解分布式底层细节的状况下，开发分布式程序，充分利用集群的威力进行高速运算和存储
HDFS：全称Hadoop Distributed File System，Hadoop分布式文件系统，被设计成适宜运行在通用硬件上的分布式文件系统，具备高度容错性的特点，能提供高吞吐量的数据拜访
MapReduce：一个编程模型，用于大规模数据集的并行运算，是面向大数据并行处理的计算模型、架构以及平台。平台指的是容许应用一般商用服务器形成一个蕴含数十甚至数千个节点的散布和并行计算集群。架构指的是MapReduce提供了一个宏大但设计精良的并行计算软件框架，能主动实现计算工作的并行化解决，主动划分计算数据和计算工作。模型指的是借助于函数式编程语言的设计思维，提供了一种简便的并行程序设计办法
YARN：YARN是Hadoop的一种资源管理器，一个通用的资源管理零碎，能够为下层利用提供对立的资源管理以及调度，根本思维是将JobTracker的两个次要性能（资源管理和作业调度/监控）拆散

3 环境

操作环境：Manjaro 20.0.3
虚拟机环境：VirtualBox 6.1.10+CentOS-8.2.2004-x86_64-minimal × 3
Hadoop 3.3.0（aarch64+x86_64）
OpenJDK 11（aarch64+x86_64）
服务器：CentOS 8 × 3（aarch64 × 1 + x86_64 × 2）

4 `Hadoop`部署模式

首先来看一下Hadoop反对的部署模式，Hadoop集群搭建反对以下三种模式：

本地模式：默认模式，运行在繁多Java过程中
伪分布模式：运行在一个节点中然而在不同的Java过程中
齐全分布模式：运行在不同机器上的规范集群模式，利用多台主机部署Hadoop

5 装置前筹备

5.1 `Hadoop`

官网下载戳这里，本文采纳目前最新的3.3.0版本，留神如果服务器的架构为aarch64须要下载对应版本。

5.2 `JDK`

对于JDK的抉择，参考文末的链接：

3.3版本在运行时反对Java11，3.2（包含3.2）以下只反对Java8，另外也提到了当初Hadoop应用OpenJDK作为构建/测试以及公布的JDK，因而这里应用OpenJDK11，戳这里下载，如果服务器架构为aarch64能够应用yum install装置。

5.3 虚拟机

虚拟机用的是Virtual Box，6.1.10版本。

应用虚拟机是为了模仿搭建集群，就算有实在服务器也倡议先在虚拟机上跑一遍大略流程。

5.4 服务器

部署Hadoop的实在服务器，这里应用了三台服务器进行搭建集群。

6 入手吧！

筹备工作做好后就开始入手吧！

因为篇幅略长所以分成了四篇文章不便查看：

（一）本地模式
（二）伪分布模式
（三）齐全分布模式（虚拟机）
（四）齐全分布模式（服务器）

7 结语

本文讲述了搭建Hadoop集群的三种形式，如无意外就能够搭建一个根本的Hadoop集群了。

然而，一般来说，并不能间接投入生产环境中应用，因为须要配合ZooKeeper搭建HA（高可用）集群，本文限于篇幅就不再叙述了。本文的初衷是教会读者如何搭建，至于ZooKeeper，网上有不少文章能够参考。最初心愿读者看完之后可能对Hadoop有一个大略的意识，理解Hadoop的组成部分以及根本工作原理。

8 参考

Hadoop3.3.0官网文档
Hadoop-Java版本

如果感觉文章难看，欢送点赞。

同时欢送关注微信公众号：氷泠之路。