1 概述
Hadoop
在大数据技术体系中极为重要,被誉为是扭转世界的 7 个 Java 我的项目之一(剩下 6 个是 Junit
、Eclipse
、Spring
、Solr
、HudsonAndJenkins
、Android
),本篇文章以Hadoop 3.3.0
官网文档为根底,首先会介绍 Hadoop
相干术语,包含 HDFS
,MapReduce
等,接着会残缺形容 Hadoop
的搭建过程,包含本地以及分布式集群的搭建。
2 术语介绍
Hadoop
:Hadoop
是Apache
开发的分布式系统基础架构,用户能够在不理解分布式底层细节的状况下,开发分布式程序,充分利用集群的威力进行高速运算和存储HDFS
:全称Hadoop Distributed File System
,Hadoop
分布式文件系统,被设计成适宜运行在通用硬件上的分布式文件系统,具备高度容错性的特点,能提供高吞吐量的数据拜访MapReduce
:一个编程模型,用于大规模数据集的并行运算,是面向大数据并行处理的计算模型、架构以及平台。平台指的是容许应用一般商用服务器形成一个蕴含数十甚至数千个节点的散布和并行计算集群。架构指的是MapReduce
提供了一个宏大但设计精良的并行计算软件框架,能主动实现计算工作的并行化解决,主动划分计算数据和计算工作。模型指的是借助于函数式编程语言的设计思维,提供了一种简便的并行程序设计办法YARN
:YARN
是Hadoop
的一种资源管理器,一个通用的资源管理零碎,能够为下层利用提供对立的资源管理以及调度,根本思维是将JobTracker
的两个次要性能(资源管理和作业调度 / 监控
)拆散
3 环境
- 操作环境:
Manjaro 20.0.3
- 虚拟机环境:
VirtualBox 6.1.10
+CentOS-8.2.2004-x86_64-minimal
× 3 Hadoop 3.3.0
(aarch64
+x86_64
)OpenJDK 11
(aarch64
+x86_64
)- 服务器:
CentOS 8
× 3(aarch64
× 1 +x86_64
× 2)
4 Hadoop
部署模式
首先来看一下 Hadoop
反对的部署模式,Hadoop
集群搭建反对以下三种模式:
- 本地模式:默认模式,运行在繁多 Java 过程中
- 伪分布模式:运行在一个节点中然而在不同的 Java 过程中
- 齐全分布模式:运行在不同机器上的规范集群模式,利用多台主机部署
Hadoop
5 装置前筹备
5.1 Hadoop
官网下载戳这里,本文采纳目前最新的 3.3.0
版本,留神如果服务器的架构为 aarch64
须要下载对应版本。
5.2 JDK
对于 JDK
的抉择,参考文末的链接:
3.3
版本在运行时反对 Java11
,3.2
(包含3.2
)以下只反对Java8
,另外也提到了当初Hadoop
应用 OpenJDK
作为构建 / 测试以及公布的 JDK
,因而这里应用OpenJDK11
,戳这里下载,如果服务器架构为aarch64
能够应用 yum install
装置。
5.3 虚拟机
虚拟机用的是 Virtual Box
,6.1.10
版本。
应用虚拟机是为了模仿搭建集群,就算有实在服务器也倡议先在虚拟机上跑一遍大略流程。
5.4 服务器
部署 Hadoop
的实在服务器,这里应用了三台服务器进行搭建集群。
6 入手吧!
筹备工作做好后就开始入手吧!
因为篇幅略长所以分成了四篇文章不便查看:
- (一)本地模式
- (二)伪分布模式
- (三)齐全分布模式(虚拟机)
- (四)齐全分布模式(服务器)
7 结语
本文讲述了搭建 Hadoop
集群的三种形式,如无意外就能够搭建一个根本的 Hadoop
集群了。
然而,一般来说,并不能间接投入生产环境中应用,因为须要配合 ZooKeeper
搭建 HA(高可用)
集群,本文限于篇幅就不再叙述了。本文的初衷是教会读者如何搭建,至于 ZooKeeper
,网上有不少文章能够参考。最初心愿读者看完之后可能对Hadoop
有一个大略的意识,理解 Hadoop
的组成部分以及根本工作原理。
8 参考
- Hadoop3.3.0 官网文档
- Hadoop-Java 版本
如果感觉文章难看,欢送点赞。
同时欢送关注微信公众号:氷泠之路。