1 前言

在讲述Hadoop集群搭建之前，首先要理解Hadoop和集群两个名词，Hadoop是由Apache基金会开发的分布式系统基础架构，简略了解就是大数据技术利用的根底。集群能够了解为多台装有hadoop的服务器。搭建Hadoop集群的目标就是为了治理多台服务器，使多台服务器之间可能协调工作。本文抉择了3台阿里云服务器。从下图中能够对整个大数据架构有了大体的理解。

Hadoop次要有HDFS（分布式文件存储系统）、Yarn（集群资源管理与调度）和MapReduce（分布式计算框架）组成。Hadoop集群中分为主机（master）和从机（slave），本文配置一台阿里云服务器为主机和从机。其余两台为从机。HDFS（分布式文件存储系统）在主机上称为Namenode节点，在从机上称为Datanode节点。Namenode保护HDFS的文件系统树以及文件树中所有的文件和文件夹的元数据。能够了解为win零碎中文件夹属性中的那些信息，Datanode是存储和检索数据的中央。能够了解为win零碎中文件夹中理论数据。

Yarn（集群资源管理与调度）在主机上称为ResourceManager节点，在从机上称为NodeManager。ResourceManager是全局的资源管理器,负责整个零碎的资源管理和调配，NodeManager是节点上的资源和工作管理器。定时地向ResourceManager汇报本节点的资源应用状况。

MapReduce（分布式计算框架）顾名思义就是计算框架，有啥特点呢，就是分布式，能够把大型数据处理工作分解成很多单个简略的工作，而后再把各个处理结果合在一起。计算过程能够百度理解。

2 Hadoop集群搭建

2.1 服务器零碎设置

网上教程多采纳虚拟机创立多个linux零碎来搭建Hadoop集群，我感觉虚拟机有弊病就采纳了阿里云服务器。阿里云服务器购买选配过程后续再介绍。

hosts文件批改

hosts是一个没有扩展名的系统文件，其根本作用就是将一些罕用的网址域名与其对应的 IP 地址建设一个关联“ 数据库 ”。当用户在浏览器中输出一个须要登录的网址时，零碎会首先主动从hosts文件中寻找对应的 IP 地址，一旦找到，零碎就会立刻关上对应网页，如果没有找到，则零碎会将网址提交 DNS 域名解析服务器进行 IP 地址的解析。就如你拜访本地的时候，你输出127.0.0.1和localhost是统一的。hosts文件批改就是在增加三台服务器IP和域名的映射。
vi /etc/hosts
增加一下映射
172.27.66.8 master172.27.66.10 slave1172.27.66.9 slave2

后续拜访域名和拜访IP的成果是一样的。

依照IP地址批改三台服务器的主机名

hostnamectl set-hostname masterhostnamectl set-hostname slave1hostnamectl set-hostname slave2

SSH免密登录

SSH免密登录是为了各个服务器之间拜访不在须要明码。三台服务器别离执行一遍如下命令。执行完该命令会在root/.ssh下生成密钥。

ssh-keygen -t rsa#在slave1和slave2下别离把id_rsa.pub发送到主机上，并从新命令scp id_rsa.pub root@master:~/.ssh/id_rsa.pub.slave1scp id_rsa.pub root@master:~/.ssh/id_rsa.pub.slave2

在主机root/.ssh下把id_rsa.pub、id_rsa.pub.slave1、id_rsa.pub.slave2追加到authorized_keys中。

cat id_rsa.pub >> authorized_keys cat id_rsa.pub.slave1 >> authorized_keys cat id_rsa.pub.slave2 >> authorized_keys

而后把authorized_keys传回到slave1和slave2中

scp authorized_keys root@slave1:~/.ssh scp authorized_keys root@slave2:~/.ssh

最初批改文件权限。

chmod 755 ~chmod 700 ~/.sshchmod 600 ~/.ssh/authorized_keys

2.2 Hadoop装置

hadoop各组件软件下载地址：

清华镜像：https://mirrors.tuna.tsinghua...

各模块配置文件批改

Hadoop的版本为3.2.1，软件包hadoop-3.2.1.tar.gz解压到/usr/local下，

tar -zxvf hadoop-3.2.1.tar.gz

装置实现后进入/usr/local/hadoop-3.2.1/etc/hadoop，批改配置文件为：core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、workers,

#关上文件的命令vi core-site.xml

core-site.xml在<configuration> ----</configuration>之间增加如下配置，留神批改hadoop.tmp.dir门路（依照本人零碎的门路）

<configuration>    <property>        <name>fs.default.name</name>        <value>hdfs://master:9000</value>    </property>    <property>        <name>hadoop.tmp.dir</name>        <value>file:/usr/local/hadoop-3.2.1/tmp</value>    </property>    <property>        <name>io.file.buffer.size</name>        <value>131072</value>    </property></configuration>

hdfs-site.xml在<configuration> ----</configuration>之间增加如下配置，留神批改dfs.datanode.data.dir和dfs.namenode.name.dir门路。dfs.replication正本参数。同datanode个数。

<configuration>    <property>        <name>dfs.namenode.name.dir</name>        <value>file:/usr/local/hadoop-3.2.1/hdfs/namenode</value>    </property>    <property>        <name>dfs.datanode.data.dir</name>        <value>file:/usr/local/hadoop-3.2.1/hdfs/datanode</value>    </property>    <property>        <name>dfs.replication</name>        <value>2</value>    </property>    <property>      <name>dfs.permissions</name>      <value>false</value>      <description>need not permissions</description>    </property>    <property>        <name>dfs.namenode.http-address</name>        <value>master:50070</value>    </property></configuration>

yarn-site.xml在<configuration> ----</configuration>之间增加如下配置。

<configuration><!-- Site specific YARN configuration properties -->    <property>        <name>yarn.resourcemanager.hostname</name>        <value>master</value>    </property>    <property>        <description>The address of the applications manager interface in the RM.</description>        <name>yarn.resourcemanager.address</name>        <value>${yarn.resourcemanager.hostname}:8032</value>    </property>    <property>        <description>The address of the scheduler interface.</description>        <name>yarn.resourcemanager.scheduler.address</name>        <value>${yarn.resourcemanager.hostname}:8030</value>    </property>   <property>        <description>The http address of the RM web application.</description>        <name>yarn.resourcemanager.webapp.address</name>        <value>${yarn.resourcemanager.hostname}:18088</value>   </property>   <property>        <description>The https adddress of the RM web application.</description>        <name>yarn.resourcemanager.webapp.https.address</name>        <value>${yarn.resourcemanager.hostname}:18090</value>   </property>   <property>        <name>yarn.resourcemanager.resource-tracker.address</name>        <value>${yarn.resourcemanager.hostname}:8031</value>   </property>   <property>        <description>The address of the RM admin interface.</description>        <name>yarn.resourcemanager.admin.address</name>        <value>${yarn.resourcemanager.hostname}:8033</value>   </property>   <property>        <name>yarn.nodemanager.aux-services</name>        <value>mapreduce_shuffle</value>    </property></configuration>

mapred-site.xml在<configuration> ----</configuration>之间增加如下配置。

<configuration>    <property>        <name>mapreduce.framework.name</name>        <value>yarn</value>    </property>     <property>      <name>mapred.job.tracker</name>      <value>master:9001</value>    </property></configuration>

workers下增加如下内容。

slave1slave2

环境变量设置

hadoop-env.sh、yarn-env.sh两个文件下，增加java的地址，环境变量的目标就是为了便于拜访。

export JAVA_HOME=/usr/local/jdk1.8.0_261

2.3 JDK8装置

java的版本为jdk-8u261-linux-x64.tar.gz，解压到/usr/local下

tar -zxvf jdk-8u261-linux-x64.tar.gz -C /usr/local

设置环境变量

vi /etc/profile#增加如下内容JAVA_HOME=/usr/local/jdk1.8.0_261CLASSPATH=$JAVA_HOME/lib/PATH=$PATH:$JAVA_HOME/binexport PATH JAVA_HOME CLASSPATH#立刻失效环境变量source /etc/profile

2.4 hadoop集群测试

#将主机下配置好的hadoop文件整体发送到两个从机上scp -r /usr/local/hadoop-3.2.1 root@slave1:/usr/localscp -r /usr/local/hadoop-3.2.1 root@slave2:/usr/local#增加hadoop的环境变量export HADOOP_HOME=/usr/local/hadoop-3.2.1export PATH="$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH"export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop#在主机下格式化namenode/usr/local/hadoop-3.1.1/bin/hdfs namenode -format#启动和敞开HDFSstart-dfs.shstop-dfs.sh#启动和敞开yarnstart-yarn.shstop-yarn.sh#启动全副start-all.shstop-all.sh

启动集群后在主机上输出jps显示

在从机上输出jps显示

输出hdfs dfsadmin -report显示

总结

Hadoop集群搭建，依照步骤一步一步搭建，难度不大。

不求点赞只求有用

本文由微信公众号《大数据分析师常识分享》公布