关于大数据:12-Apache-Hadoop完全分布式集群搭建

本系列文章次要记录了在拉勾大数据课程中的学习心得

1.虚拟机环境筹备

应用vmware虚拟机虚构三台linux节点，应用Centos7

1.1 虚拟机硬盘调配

内存：2G
硬盘：20G
/boot 调配200M
swap 调配2G
/ 调配所有残余空间

1.2 配置动态IP

最好在关机状态下，批改网络。
点击编辑，抉择倒数第⼆个选项“虚构网络编辑器”,呈现上面的“虚构网络编辑器”窗⼝口。抉择NAT模式，留神子网IP前三位与NAT设置的网关IP、DHCP网段统一。

虚拟机设置实现后，进入零碎应用命令：

vi /etc/sysconfig/network-scripts/ifcfg-ens33

关上ifcfg-ens33文件，批改配置：

ONBOOT改为yes开启主动启用网络连接
BOOTPROTO改为动态static
IPADDR改为你⾃自⼰己设置的ip (ip能够通过命令 ip addr来取得)

GATEWAY设置网关
设置DNS1作为主DNS，也能够加个DNS2作为备用。
常见的DNS1=8.8.8.8 DNS2=8.8.4.4
按esc退出编辑模式后 :wq! 强制退出并保留；
此时，运⽤用命令ping baidu.com
即可看出曾经连通。

1.3 敞开防火墙与selinux

1.3.1 敞开防火墙

systemctl status firewalld.service 查看firewall状态
systemctl stop firewalld.service 停⽌止firewall
systemctl disable firewalld.service 禁⽌止firewall开机启动

1.3.2 敞开selinux

vi /etc/selinux/config

1.4 设置hostname并配置与IP的映射

设置hostname

[root@linux121 ~]其中的linux121就是hostname
能够通过 vi /etc/sysconfig/network 关上network编辑

保留退出后输出hostname,即可显示出linux121。
留神：改变配置文件后要进行网络重启
或重启init 6 从而使配置文件失效
命令为service network restart
设置hostname与IP映射

	IP地址	主机名
第一台机器	192.168.80.121	linux121
第一台机器	192.168.80.122	linux122
第一台机器	192.168.80.123	linux123

vi /etc/hosts

此时曾经配置了了三台机器的IP与hostname映射，从而能够达到，在本机ping hostname可通，如果没有配此映射，需用ping IP地址可通。如果是三台机器相互用hostname来ping，那么三台机器必须同时配好三个IP和hostname的映射。

1.5 配置免密登录

参见1.4配置hostname与IP映射
在所有主机上创立目录并赋予权限
```
mkdir /root/.ssh chmod 700 /root/.ssh
```

在三台机器执行以下命令，生成公钥与私钥

cd ~ #进入用户⽬目录
ssh-keygen -t rsa -P "" 是生成ssh明码的命令，-t 参数示意⽣生成算法，有rsa和dsa两种；-P示意应用的明码，这里应用""空字
符串示意无明码。
cd ~/.ssh 进⼊入.ssh
cat id_rsa.pub >> authorized_keys
#这个命令将id_rsa.pub的内容追加到了了authorized_keys的内容后⾯面

4.复制第一台机器的认证到其余机器

scp authorized_keys linux121:/root/.ssh/
scp authorized_keys linux123:/root/.ssh/

明码传输过程中只应用一次，当前再应用ssh linux121或ssh linux123即不再须要明码，实现免密钥登录。

1.6 集群工夫同步

工夫同步的形式：在集群中找一台机器器，作为工夫服务器。

通过网络连接外网进行时钟同步,必须保障虚拟机连上外网
ntpdate us.pool.ntp.org
阿里云时钟同步服务器
ntpdate ntp4.aliyun.com

集群中其余机器与这台机器定时的同步工夫，⽐如，每隔十分钟，同步一次工夫。
工夫服务器配置（必须root用户）

确定是否装置了了ntpd的服务

如果没有装置,能够进行在线装置
yum -y install ntp
启动ntpd的服务
service ntpd start
设置ntpd的服务开机启动
chkconfig ntpd on第一步:确定是否装置了了ntpd的服务
rpm -qa | grep ntpd

编辑/etc/ntp.conf

编辑第一台机器的/etc/ntp.conf
vim /etc/ntp.conf
在⽂件中增加如下内容
restrict 192.168.80.0 mask 255.255.255.0 nomodify notrap
正文⼀下四行内容
#server 0.centos.pool.ntp.org
#server 1.centos.pool.ntp.org
#server 2.centos.pool.ntp.org
#server 3.centos.pool.ntp.org
去掉以下内容的正文，如果没有这两行正文，那就⾃己增加上
server 127.127.1.0 # local clock
fudge 127.127.1.0 stratum 10

配置以下内容，保障BIOS与零碎工夫同步

vim /etc/sysconfig/ntpd

增加一行内容

SYNC_HWLOCK=yes

重新启动ntpd
```
service ntpd status
```
ntpd 已停
```
service ntpd start
```
使NTP服务能够在零碎疏导的时候主动启动：
```
chkconfig ntpd on
```

其余机器配置（必须root用户）

在其余机器配置10分钟与工夫服务器同步⼀次
```
crontab -e
```
编写脚本
另外两台机器器与192.168.80.121进⾏行行时钟同步
```
*/10 * * * * /usr/sbin/ntpdate 192.168.80.121
```
批改任意机器工夫，进行测试
```
date -s "2021-05-24 23:00:00"
```
十分钟后查看机器是否与工夫服务器同步
```
date
```

2.装置Hadoop

集群布局

框架	linux121	linux122	linux123
HDFS	NameNode、DataNode	DataNode	SecondaryNameNode、DataNode
YARN	NodeManager	NodeManager	NodeManager、ResourceManager

2.1 装置java和Hadoop并配置环境变量

在/opt目录下创立文件夹

mkdir -p /opt/lagou/software --软件安装包寄存目录
mkdir -p /opt/lagou/servers --软件装置目录

下载jdk和Hadoop安装文件，上传到/opt/lagou/software，文章应用的jdk版本为java8，Hadoop版本为2.9.2
java官网：https://www.oracle.com/java/
Hadoop官网：http://hadoop.apache.org/

解压

tar -zxvf jdk-8u231-linux-x64.tar.gz -C /opt/lagou/servers/
tar -zxvf hadoop-2.9.2.tar.gz -C /opt/lagou/servers

增加环境变量

vi /etc/profile

## JAVA_HOME
export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231
export PATH=:$JAVA_HOME/bin:$PATH
## HADOOP_HOME
export HADOOP_HOME=/opt/lagou/servers/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

使环境变量失效
```
source /etc/profile
```
验证hadoop
```
hadoop version
```

hadoop目录

drwxr-xr-x. 2 root root 194 Nov 13 2018 bin
drwxr-xr-x. 3 root root 20 Nov 13 2018 etc
drwxr-xr-x. 2 root root 106 Nov 13 2018 include
drwxr-xr-x. 3 root root 20 Nov 13 2018 lib
drwxr-xr-x. 2 root root 239 Nov 13 2018 libexec
-rw-r--r--. 1 root root 106210 Nov 13 2018 LICENSE.txt
-rw-r--r--. 1 root root 15917 Nov 13 2018 NOTICE.txt
-rw-r--r--. 1 root root 1366 Nov 13 2018 README.txt
drwxr-xr-x. 3 root root 4096 Nov 13 2018 sbin
drwxr-xr-x. 4 root root 31 Nov 13 2018 share

1.bin目录:对Hadoop进行操作的相干命令，如hadoop,hdfs等
2.etc目录：Hadoop的配置文件目录，入hdfs-site.xml,core-site.xml等
3.lib目录：Hadoop本地库（解压缩的依赖）
4.sbin目录：寄存的是Hadoop集群启动进行相干脚本，命令
5.share目录：Hadoop的一些jar,官网案例jar，文档等

2.2 集群配置

Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置

留神：Hadoop装置目录所属用户和所属用户组信息，默认是501 dialout，而咱们操作Hadoop集群的用户应用的是虚拟机的root用户，所以为了避免出现信息凌乱，批改Hadoop装置目录所属用户和用户组!

chown -R root:root /opt/lagou/servers/hadoop-2.9.2

进入 /opt/lagou/servers/hadoop-2.9.2/etc/hadoop 目录进行集群配置：

2.2.1 HDFS集群配置

指定HDFS应用的JDK门路（批改hadoop-env.sh）

vim hadoop-env.sh

export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231

指定NameNode节点以及数据存储目录（批改core-site.xml）

vim core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://linux121:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/lagou/servers/hadoop-2.9.2/data/tmp</value>
</property>

官网默认配置：https://hadoop.apache.org/doc…

指定secondarynamenode节点(批改hdfs-site.xml)

vim hdfs-site.xml

<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>linux123:50090</value>
</property>
<!--正本数量 -->
<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>

官网默认配置:https://hadoop.apache.org/doc…

指定datanode从节点(批改slaves文件，每个节点配置信息占一行)
```
vim slaves

linux121
linux122
linux123
```
留神：该文件中增加的内容结尾不容许有空格，文件中不容许有空行。

2.2.2 MapReduce集群配置

指定MapReduce应用的jdk门路（批改mapred-env.sh）

vim mapred-env.sh

export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231

指定MapReduce计算框架运行Yarn资源调度框架(批改mapred-site.xml)

mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<!-- 指定MR运行在Yarn上 -->
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

官网默认配置：https://hadoop.apache.org/doc…

2.2.3 Yarn集群配置

指定Yarn应用的JDK门路（批改yarn-env.sh）

vim yarn-env.sh

export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231

指定ResourceMnager的master节点信息(批改yarn-site.xml)

vim yarn-site.xml

<!-- 指定YARN的ResourceManager的地址 -->
<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>linux123</value>
</property>
<!-- Reducer获取数据的形式 -->
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>

官网默认配置：https://hadoop.apache.org/doc…

指定NodeManager节点（slaves文件已批改）

2.3 应用rsync散发配置

rsync次要用于备份和镜像。具备速度快、防止复制雷同内容和反对符号链接的长处。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差别文件做更新。scp是把所有文件都复制过来。
根本语法

命令   选项参数   要拷贝的文件门路/名称   目标用户@主机:目标门路/名称
rsync  -rvl      $pdir/$fname          $user@$host:$pdir/$fname

参数阐明

参数	性能
-r	递归
-v	显示复制过程
-l	拷贝合乎链接

散发脚本
需要：循环复制文件到集权所有节点的雷同目录下

装置rsync
```
[root@linux121 ~]# yum install -y rsync
```

脚本实现
/usr/local/bin目录下创立文件rsync-script，脚本内容如下：

#!/bin/bash
#1 获取命令输出参数的个数，如果个数为0，间接退出命令
paramnum=$#
if((paramnum==0)); then
echo no params;
exit;
fi
#2 依据传入参数获取文件名称
p1=$1
file_name=`basename $p1`
echo fname=$file_name
#3 获取输出参数的绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取用户名称
user=`whoami`
#5 循环执行rsync
host_name=`hostname`
echo hostname=$host_name
for((host=121; host<124; host++)); do
if [ "linux$host" != "$host_name" ];then
echo ------------------- linux$host --------------
rsync -rvl $pdir/$file_name $user@linux$host:$pdir
fi
done

批改脚本 rsync-script 具备执行权限

[root@linux121 bin]$ chmod 777 rsync-script

调用脚本模式：rsync-script 文件名称

[root@linux121 bin]$ rsync-script /home/root/bin

调用脚本散发Hadoop装置目录到其它节点

[root@linux121 bin]$ rsync-script /opt/lagou/servers/hadoop-2.9.2

3.集群启动与测试

3.1 集群启动

留神：如果集群是第一次启动，须要在Namenode所在节点格式化NameNode，非第一次不必执行格式化Namenode操作！！

[root@linux121 hadoop-2.9.2]$ hadoop namenode -format

格式化命令执行成果：

格式化后创立的文件：/opt/lagou/servers/hadoop-2.9.2/data/tmp/dfs/name/current

3.1.1 单节点启动

在linux121上启动HDFS的NameNode和DataNode,在linux122启动DataNode，在linux123上启动NameNode和SecondaryNameNode

[root@linux121 hadoop-2.9.2]$ hadoop-daemon.sh start namenode
[root@linux121 hadoop-2.9.2]$ hadoop-daemon.sh start 
datanode
[root@linux121 hadoop-2.9.2]$ jps
3461 NameNode
3608 Jps
3561 DataNode

[root@linux122 hadoop-2.9.2]$ hadoop-daemon.sh start 
datanode
[root@linux122 hadoop-2.9.2]$ jps
3190 DataNode
3279 Jps

[root@linux123 hadoop-2.9.2]$ hadoop-daemon.sh start datanode
[root@linux123 hadoop-2.9.2]$ hadoop-daemon.sh start 
secondaryNameNode
[root@linux123 hadoop-2.9.2]$ jps
3237 Jps
3163 DataNode
3283 SecondaryNameNode

web端查看HDFS界面：http://linux121:50070/dfsheal…
留神：如果想间接应用linux121，须要在win主机配置对应的hostname

查看HDFS集群失常节点：

在linux123上启动Yarn的ResourceManager,在linux121和linux122上别离启动NodeManager

[root@linux123 servers]# yarn-daemon.sh start resourcemanager
[root@linux123 servers]# jps
7881 ResourceManager
8094 Jps

[root@linux122 servers]# yarn-daemon.sh start nodemanager
[root@linux122 servers]# jps
8166 NodeManager
8223 Jps

[root@linux121 servers]# yarn-daemon.sh start nodemanager
[root@linux121 servers]# jps
8166 NodeManager
8223 Jps

3.1.2 集群群启

启动/敞开HDFS

[root@linux121 hadoop-2.9.2]$ sbin/start-dfs.sh
[root@linux121 hadoop-2.9.2]$ sbin/stop-dfs.sh

启动/敞开Yarn

[root@linux123 hadoop-2.9.2]$ sbin/start-yarn.sh
[root@linux123 hadoop-2.9.2]$ sbin/stop-yarn.sh

3.2 集群测试

3.2.1 存储测试

hdfs dfs -mkdir -p /test/input
#本地hoome目录创立一个文件
cd /root
vim test.txt
hello hdfs
#上传linxu文件到Hdfs
hdfs dfs -put /root/test.txt /test/input
#从Hdfs下载文件到linux本地
hdfs dfs -get /test/input/test.txt

3.2.2 计算测试

调用MapReduce自带的wordcount统计文本单词数量

在HDFS文件系统根目录上面创立一个wcinput文件夹
```
[root@linux121 hadoop-2.9.2]$ hdfs dfs -mkdir /wcinput
```

在/root/目录下创立一个wc.txt文件(本地文件系统)

[root@linux121 hadoop-2.9.2]$ cd /root/
[root@linux121 wcinput]$ touch wc.txt
[root@linux121 wcinput]$ vim wc.txt

hadoop mapreduce yarn
hdfs hadoop mapreduce
mapreduce yarn lagou
lagou
lagou

上传wc.txt到Hdfs目录/wcinput下
```
hdfs dfs -put wc.txt /wcinput
```

回到Hadoop目录/opt/lagou/servers/hadoop-2.9.2，执行程序

[root@linux121 hadoop-2.9.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /wcinput
/wcoutput

查看后果

[root@linux121 hadoop-2.9.2]$ hdfs dfs -cat /wcoutput/part-r-00000
hadoop 2
hdfs 1
lagou 3
mapreduce 3
yarn 2

4 配置历史服务器

4.1 配置历史服务器

在Yarn中运行的工作产生的日志数据不能查看，为了查看程序的历史运行状况，须要配置一下历史日志服务器。具体配置步骤如下：

配置 mapred-site.xml

[root@linux121 hadoop]$ vi mapred-site.xml

在该文件外面减少如下配置：

<!-- 历史服务器端地址 -->
<property>
 <name>mapreduce.jobhistory.address</name>
 <value>linux121:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>linux121:19888</value>
</property>

散发mapred-site.xml到其它节点
```
rsync-script mapred-site.xml
```

启动历史服务器

[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh start historyserver

查看JobHistory：http://linux121:19888/jobhistory

4.2 配置日志的汇集

日志汇集：利用(Job)运行实现当前，将利用运行日志信息从各个task汇总上传到HDFS零碎上。
日志汇集性能益处：能够不便的查看到程序运行详情，不便开发调试。
留神：开启日志汇集性能，须要重新启动NodeManager 、ResourceManager和HistoryManager。
开启日志汇集性能具体步骤如下：

配置yarn-site.xml

[root@linux121 hadoop]$ vi yarn-site.xml

在该文件外面减少如下配置:

<!-- 日志汇集性能使能 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>
<!-- 日志保留工夫设置7天 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>

散发yarn-site.xml到集群其它节点
```
rsync-script yarn-site.xml
```

敞开NodeManager 、ResourceManager和HistoryManager

[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh stop resourcemanager
[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh stop nodemanager
[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh stop historyserver

启动NodeManager 、ResourceManager和HistoryManager

[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh start resourcemanager
[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh start nodemanager
[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh start historyserver

删除HDFS上曾经存在的输入文件

[root@linux121 hadoop-2.9.2]$ bin/hdfs dfs -rm -R /wcoutput

执行WordCount程序

[root@linux121 hadoop-2.9.2]$ hadoop jar share/hadoop/mapreduce/hadoopmapreduce-
examples-2.9.2.jar wordcount /wcinput /wcoutput

查看日志：http://linux121:19888/jobhistory

关于大数据:12-Apache-Hadoop完全分布式集群搭建

1.虚拟机环境筹备

1.1 虚拟机硬盘调配

1.2 配置动态IP

1.3 敞开防火墙与selinux

1.3.1 敞开防火墙

1.3.2 敞开selinux

1.4 设置hostname并配置与IP的映射

1.5 配置免密登录

1.6 集群工夫同步

2.装置Hadoop

2.1 装置java和Hadoop并配置环境变量

2.2 集群配置

2.2.1 HDFS集群配置

2.2.2 MapReduce集群配置

2.2.3 Yarn集群配置

2.3 应用rsync散发配置

3.集群启动与测试

3.1 集群启动

3.1.1 单节点启动

3.1.2 集群群启

3.2 集群测试

3.2.1 存储测试

3.2.2 计算测试

4 配置历史服务器

4.1 配置历史服务器

4.2 配置日志的汇集

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:12-Apache-Hadoop完全分布式集群搭建

1.虚拟机环境筹备

1.1 虚拟机硬盘调配

1.2 配置动态IP

1.3 敞开防火墙与selinux

1.3.1 敞开防火墙

1.3.2 敞开selinux

1.4 设置hostname并配置与IP的映射

1.5 配置免密登录

1.6 集群工夫同步

2.装置Hadoop

2.1 装置java和Hadoop并配置环境变量

2.2 集群配置

2.2.1 HDFS集群配置

2.2.2 MapReduce集群配置

2.2.3 Yarn集群配置

2.3 应用rsync散发配置

3.集群启动与测试

3.1 集群启动

3.1.1 单节点启动

3.1.2 集群群启

3.2 集群测试

3.2.1 存储测试

3.2.2 计算测试

4 配置历史服务器

4.1 配置历史服务器

4.2 配置日志的汇集

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复