关于hadoop:hadoop集群搭建

60次阅读

共计 782 个字符，预计需要花费 2 分钟才能阅读完成。

HADOOP 集群具体来说蕴含两个集群：HDFS 集群和 YARN 集群，两者逻辑上拆散，但物理上常在一起。
HDFS 集群负责海量数据的存储，集群中的角色次要有：NameNode、DataNode、SecondaryNameNode。
YARN 集群负责海量数据运算时的资源调度，集群中的角色次要有：ResourceManager、NodeManager。
那 mapreduce 是什么呢？它其实是一个分布式运算编程框架，是利用程序开发包，由用户依照编程标准进行程序开发，后打包运行在 HDFS 集群上，并且受到 YARN 集群的资源调度治理。

Hadoop 部署形式分三种：
1、Standalone mode（独立模式）
独立模式又称为单机模式，仅 1 个机器运行 1 个 java 过程，次要用于调试。

2、Pseudo-Distributed mode（伪分布式模式）
伪分布模式也是在 1 个机器上运行 HDFS 的 NameNode 和 DataNode、YARN 的 ResourceManger 和 NodeManager，但别离启动独自的 java 过程，次要用于调试。

3、Cluster mode（群集模式）- 单节点模式 - 高可用 HA 模式
集群模式次要用于生产环境部署。会应用 N 台主机组成一个 Hadoop 集群。这种部署模式下，主节点和从节点会离开部署在不同的机器上。

本搭建的是集群模式，以三台主机为例，以下是集群布局: