关于hadoop:Hadoop实战篇1

作者 | WenasWei

在后面介绍过了 Hadoop- 离线批处理技术的整体架构，接下来便开始学习装置配置并应用 Hadoop ; 将从以下几点介绍:

Linux 环境的配置与装置 Hadoop
Hadoop 的三种装置模式介绍
本地模式装置
伪集群模式装置

Hadoop 须要应用到 Linux 环境上的一些根本的配置须要，Hadoop 用户组和用户增加，免密登录操作，JDK 装置

在应用 VMWare 装置 Ubuntu18.04-Linux 操作系统下时产生系统配置问题能够通过分享的博文进行配置，CSDN 跳转链接: VMWare 中 Ubuntu 网络配置

其中蕴含了以下几个重要操作步骤:

buntu 零碎信息与批改主机名
Windows 设置 VMWare 的 NAT 网络
Linux 网关设置与配置动态 IP
Linux 批改 hosts 文件
Linux 免明码登录

1.2.1 增加 Hadoop 用户组和用户

以 root 用户登录 Linux-Ubuntu 18.04 虚拟机，执行命令:

$ groupadd hadoop
$ useradd -r -g hadoop hadoop

1.2.2 赋予 Hadoop 用户目录权限

将 /usr/local 目录权限赋予 Hadoop 用户，命令如下:

$ chown -R hadoop.hadoop /usr/local/
$ chown -R hadoop.hadoop /tmp/
$ chown -R hadoop.hadoop /home/

1.2.3 赋予 Hadoop 用户 sodu 权限

编辑 /etc/sudoers 文件，在 root ALL=(ALL:ALL) ALL 下增加hadoop ALL=(ALL:ALL) ALL

$ vi /etc/sudoers

Defaults        env_reset
Defaults        mail_badpass
Defaults        secure_path="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/snap/bin"
root    ALL=(ALL:ALL) ALL
hadoop  ALL=(ALL:ALL) ALL
%admin ALL=(ALL) ALL
%sudo   ALL=(ALL:ALL) ALL

1.2.4 赋予 Hadoop 用户登录明码

$ passwd hadoop

Enter new UNIX password: 输出新密码
Retype new UNIX password: 确认新密码
passwd: password updated successfully

Linux 装置 JDK 能够参照分享的博文《Logstash- 数据流引擎》-< 第三节：Logstash 装置 >–(第二大节: 3.2 Linux 装置 JDK 进行)装置配置到每一台主机上，CSDN 跳转链接: Logstash- 数据流引擎

官网下载：https://hadoop.apache.org/rel… Binary download

应用 wget 命名下载（下载目录是当前目录）：

例如：version3.3.0 https://mirrors.bfsu.edu.cn/a…

$ wget https://mirrors.bfsu.edu.cn/apache/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz

解压、挪动到你想要搁置的文件夹: /usr/local

$ mv ./hadoop-3.3.0.tar.gz /usr/local

$ cd /usr/local

$ tar -zvxf hadoop-3.3.0.tar.gz

批改配置文件/etc/profile:

$ vi /etc/profile

# 类同 JDK 配置增加
export JAVA_HOME=/usr/local/java/jdk1.8.0_152
export JRE_HOME=/usr/local/java/jdk1.8.0_152/jre
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export HADOOP_HOME=/usr/local/hadoop-3.3.0
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

使配置文件失效
```
$ source /etc/profile 
```

查看 Hadoop 配置是否胜利

$ hadoop version

Hadoop 3.3.0
Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r aa96f1871bfd858f9bac59cf2a81ec470da649af
Compiled by brahma on 2020-07-06T18:44Z
Compiled with protoc 3.7.1
From source with checksum 5dc29b802d6ccd77b262ef9d04d19c4
This command was run using /usr/local/hadoop-3.3.0/share/hadoop/common/hadoop-common-3.3.0.jar

从后果能够看出，Hadoop 版本为 Hadoop 3.3.0, 阐明 Hadoop 环境装置并配置胜利。

Hadoop 提供了 3 种不同失去装置模式，别离为单机模式、伪集群模式和集群模式。

单机模式(本地模式)：Hadoop 默认模式、即非分布式模式、无需进行其余配置即可运行非分布式，即 java 单过程，不便进行调试、跟踪和排除问题, 只须要在 Hadoop 的 hadoop-env.sh 文件中配置 JAVA_HOME 即可。

本地单机模式以 Hadoop Jar 命令运行 Hadoop 程序，并将运行后果间接输入到本地磁盘。

Hadoop 在单节点 (单点故障问题) 上以伪分布式的形式运行，Hadoop 过程以拆散的 java 过程来运行，节点既作为 NameNode 也作为 DataNode，同时读取的是 HDFS 中的文件。可能在逻辑上提供与集群模式一样的运行环境，在物理上伪集群模式部署在单台服务器上: 而集群模式须要部署在多台服务器上，以实现物理上的齐全集群散布。

伪集群模式中须要在 Hadoop 的 hadoop-env.sh 文件中配置 JAVA HOME 外，还要配置 Hadoop 所应用的文件系统、HDFS 的正本数量和 YARN 地址，以及服务器的 SSH 免明码登录等。
伪集群模式以 HadopJar 命令运行 Hadoop 程序，并将运行后果输入到 HDFS 中。

集群模式也称齐全集群模式，它与伪集群模式有着实质的区别: 集群模式是在物理服务器上实现的齐全分布式集群，部署在多台物理服务器上; 而伪集群模式在逻辑上是集群模式，但它是部署在单台物理服务器上的。

对于生产环境，要求 Hadoop 环境的高可靠性和高可用性，往往某个节点故障就会导致整个集群不可用; 同时，要求生产环境的数据必须牢靠，某个数据节点呈现故障或者数据产生失落后，数据必须可复原。这就要求生产环境上必须部署 Hadoop 的集群模式，以应答生产环境的各种要求。

集群模式的部署是 3 种装置模式中最简单的，它须要部署在多台物理服务器上，要提前将服务器环境规划好，除了要配置 Hadoop 所应用的文件系统、HDFS 的正本数量和 YARN 地址外。还要配置各台服务器之间的 SSH 免明码登录、各 Hadoop 节点之间的 RPC 通信、NameNode 失败主动切换机制、HA 高可用等。另外，还须要装置配置分布式应用协调服务 –Zookeeper。

集群模式以 Hadoop Jar 命令运行 Hadoop 程序，并将运行后果输入到 HDFS 中。

单机模式下批改 Hadoop 配置文件 hadoop-env.sh, 增加上 Java 环境配置门路

$ vi /usr/local/hadoop-3.3.0/etc/hadoop/hadoop-env.sh

# 查找到 JAVA_HOME 并增加 JAVA_HOME 地址
export JAVA_HOME=/usr/local/java/jdk1.8.0_152

创立目录/home/hadoop/input:
```
$mkdir -p /home/hadoop/input
```

创立测试数据文件data.input:

$ cd /home/hadoop/input/

$ vi data.input

# 写入数据内容
hadoop  mapreduce hive flume
hbase spark storm flume
sqoop  hadoop  hive  kafka
spark  hadoop  storm

运行 Hadoop 自带的 MapReduce 示例程序，统计指定文件中的单词个数。

运行 Hadoop 自带的 MapReduce 程序命令:

$ hadoop jar /usr/local/hadoop-3.3.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount /home/hadoop/input/data.input /home/hadoop/output

通用格局阐明如下:
- hadoop jar: 以 Hadoop 命令行的模式运行 MapReduce 程序;
- /usr/local/hadoop-3.3.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar: Hadoop 自带的 MapReduce 程序所在 Jar 包的残缺门路;
- wordcount: 标识应用的是单词计数的 MapReduce 程序，因为 hadoop-mapreduce-examples-3.3.0.jar 文件中存在多个 MapReduce 程序。
参数阐明如下。
- /home/hadoop/input/data.input: 输出 data.input 文件所在的本地残缺门路名称;
- /home/hadoop/output: 本地后果数据输入目录，不能手动创立，须要 Hadoop 程序创立。

执行胜利后果：

2021-06-02 01:08:40,374 INFO mapreduce.Job:  map 100% reduce 100%
2021-06-02 01:08:40,375 INFO mapreduce.Job: Job job_local794874982_0001 completed successfully

查看文件后果

查看 /home/hadoop/output 文件夹和生成文件如下:

$ cd /home/hadoop/output
$ /home/hadoop/output# ll
total 20
drwxr-xr-x 2 root root 4096 Jun  2 01:08 ./
drwxr-xr-x 4 root root 4096 Jun  2 01:08 ../
-rw-r--r-- 1 root root   76 Jun  2 01:08 part-r-00000
-rw-r--r-- 1 root root   12 Jun  2 01:08 .part-r-00000.crc
-rw-r--r-- 1 root root    0 Jun  2 01:08 _SUCCESS
-rw-r--r-- 1 root root    8 Jun  2 01:08 ._SUCCESS.crc

查看统计数据文件part-r-00000:

$ cat part-r-00000

# 统计单词个数后果
flume    2
hadoop    3
hbase    1
hive    2
kafka    1
mapreduce    1
spark    2
sqoop    1
storm    2

Hadoop 在单节点上以伪分布式的形式运行、Hadoop 过程以拆散的 Java 过程来运行，节点即为 NameNode 也作为 DataNode，同时、读取的是 HDFS 中的文件。
须要批改的配置文件：core-site.xml 和 hdfs-site.xml、mapred-site.xml, 每个配置以申明 property 的 name 和 value 的形式实现。

对于 Hadoop 伪集群模式的配置，除了须要配置 hadoop-env.sh 文件外，还须要配置以下 4 个文件:core site.xml、hdfs-site.xml、mapred-site.xml 和 yarn-site.xml，每个文件与 hadoop-env.sh 文件在同一个目录下，各文件的作用如下:

4.1.1 core-site.xml

指定 NameNode 的地位，hadoop.tmp.dir 是 Hadoop 文件系统依赖的根底配置，很多门路都依赖它。如果 hdfs-site.xml 中不配置 Namenode 和 DataNode 的寄存
地位，则默认就放在这个门路中。

core-site.xml 配置文件如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop-3.3.0/tmp</value>
    <description>Abase for other temporary directories.</description>
  </property>
      <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop1:9000</value>
   </property>
</configuration>

留神: 其中的 hadoop1 为配置的主机名

4.1.2 hdfs-site.xml

配置 NameNode 和 DataNode 寄存文件的具体门路，配置正本的数量。

hdfs-site.xml 配置文件如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
         <property>
           <name>dfs.replication</name>
           <value>1</value>
      </property>
      <property>
           <name>dfs.namenode.name.dir</name>
           <value>/usr/local/hadoop-3.3.0/tmp/dfs/name</value>
      </property>
      <property>
           <name>dfs.datanode.data.dir</name>
           <value>/usr/local/hadoop-3.3.0/tmp/dfs/data</value>
      </property>
</configuration>

留神: 伪分布式只有一个节点，所以 dfs.replication 须要配置成 1 , 在集群模式下至多配置 3 个节点; 此外还配置了 datanode 和 namenode 的节点地位。

4.1.3 mapred-site.xml

在之前版本的 Hadoop 中是没有此文件的，须要将 mapred-site.xml.template 重命名: 配置 MapReduce 作业是提交到 YARN 集群还是应用本地作业执行器在本地执行, 其中须要配置 Hadoop 的环境配置: HADOOP_HOME。

mapred-site.xml 配置文件如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
 </property>
 <property>
     <name>yarn.app.mapreduce.am.env</name>
     <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
 </property>
 <property>
     <name>mapreduce.map.env</name>
     <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
 </property>
 <property>
     <name>mapreduce.reduce.env</name>
     <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
 </property>
</configuration>

4.1.4 yarn-site.xml

配置 ResourceManager 所在节点的主机名; 配置辅助服务列表，这些服务由 NodeManager 执行。

yarn-site.xml 配置文件如下:

<?xml version="1.0"?>
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>hadoop1</value>
</property>
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>
</configuration>

4.2.1 赋予脚本 root 账户运行权限

脚本目录: /usr/local/hadoop-3.3.0/sbin, 须要赋予脚本 root 账户运行权限的有：start-dfs.sh、start-yarn.sh、stop-dfs.sh 和 stop-yarn.sh。

(1)start-dfs.sh 和 stop-dfs.sh 别离为启动和进行 HDFS 过程节点, 脚本顶部须要增加 root 运行权限如下:
```
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
```
(2)start-yarn.ss 和 stop-yarn.sh 别离为启动和进行 yarn 过程节点, 脚本顶部须要增加 root 运行权限如下:
```
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
```

4.2.2 格式化 NameNode

格式化 NameNode 执行命令:
```
$ hdfs namenode -format 
```

当输入后果中有如下信息是，阐明格式化 NameNode 胜利:

INFO common.Storage: Storage directory /usr/local/hadoop-3.3.0/tmp/dfs/name has been successfully formatted.

4.2.3 启动 Hadoop

(1)启动 HDFS

在命令行执行脚本启动 HDFS：

$ sh start-dfs.sh

jps 查看过程

$ jps 
13800 Jps
9489 NameNode
9961 SecondaryNameNode
9707 DataNode

(2)启动 YARN

在命令行执行脚本启动 YARN：

$ sh start-yarn.sh

jps 查看过程

$ jps 
5152 ResourceManager
5525 NodeManager
13821 Jps

4.2.4 查看 Hadoop 节点信息

验证 Hadoop 伪集群模式启动胜利的两种形式: 一种在浏览器通过 Hadoop 裸露的接口查看 NameNode 的状态是否为 ” 活动状态 ”, 另一种是执行 MapReduce 程序来验证是否装置并启动胜利。

在浏览器中输出地址进行拜访:

http://192.168.254.130:9870/

登录界面如图所示，节点为 ” 沉闷状态 ”:

运行 MapReduce 程序验证环境搭建步骤分为以下四步:

在 HDFS 上创立输出文件目录
上传数据文件到 HDFS 中
执行 MapReduce 程序

4.3.1 在 HDFS 上创立输出文件目录

在 HDFS 上新建 /data/input目录，具体操作如下:

$ hadoop fs -mkdir /data
$ hadoop fs -mkdir /data/input
$ hadoop fs -ls /data/

Found 1 items
drwxr-xr-x   - root supergroup          0 2021-06-05 11:11 /data/input

4.3.2 上传数据文件到 HDFS 中

上传本地模式下的数据文件 “data.input” 到 HDFS 中目录: /data/input

$ hadoop fs -put /home/hadoop/input/data.input /data/input
$ hadoop fs -ls /data/input

Found 1 items
-rw-r--r--   1 root supergroup        101 2021-06-05 11:11 /data/input/data.input

# 查看文件中的数据
$ hadoop fs -cat /data/input/data.input

hadoop  mapreduce hive flume
hbase spark storm flume
sqoop  hadoop  hive  kafka
spark  hadoop  storm

4.3.3 执行 MapReduce 程序

运行 Hadoop 自带的 wordcount 计数程序，具体命令如下:

$ hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /data/input/data.input /data/output

查看执行后果
在 wordcount 计数程序执行过程中，会主动创立 /data/output目录，先查看 HDFS 上创立的 /data/output目录，命令如下:
```
$ hadoop fs -ls /data/output

Found 2 items
-rw-r--r--   1 root supergroup          0 2021-06-05 11:19 /data/output/_SUCCESS
-rw-r--r--   1 root supergroup         76 2021-06-05 11:19 /data/output/part-r-00000

$ hadoop fs -cat /data/output/part-r-00000

flume    2
hadoop    3
hbase    1
hive    2
kafka    1
mapreduce    1
spark    2
sqoop    1
storm    2
```
能够从 part-r-00000 文件中正确的输入了每个单词以及该单词在测试数据文件中的数量，阐明 Hadoop 的伪集群模式正确的将 MapReduce 的后果输入到了 HDFS 中。

本文次要是为了后续部署 hadoop 等大数据组件的网络策略解决，其中最次要的设置网络动态 ip、主机名批改、设置免密登录等操作，下一篇将介绍 Hadoop 的集群模式装置，欢送关注微信公众号: 进击的梦清 ; 我是一名在互联网浪潮下的打工人，心愿和你独特学习提高，秉承信念: 你晓得的越多，不晓得的就越多。

[1] RongT. 博客园: https://www.cnblogs.com/tanro… ,2019-04-02.
[2] Hadoop 官网: https://hadoop.apache.org/
[3] 冰河. 海量数据处理与大数据技术实站 [M]. 第 1 版. 北京: 北京大学出版社,2020-09

关于hadoop:Hadoop实战篇1

Hadoop 实战篇（1）

前言

一 Linux 环境的配置与装置 Hadoop

1.1 VMWare 中 Ubuntu 网络配置

1.2 Hadoop 用户组和用户增加

1.2.1 增加 Hadoop 用户组和用户

1.2.2 赋予 Hadoop 用户目录权限

1.2.3 赋予 Hadoop 用户 sodu 权限

1.2.4 赋予 Hadoop 用户登录明码

1.3 JDK 装置

1.4 Hadoop 官网下载

1.5 配置 Hadoop 环境

二 Hadoop 的三种装置模式介绍

2.1 单机模式

2.2 伪集群模式

2.3 集群模式

三单机模式

3.1 批改 Hadoop 配置文件

3.2 创立测试数据文件

3.3 运行 Hadoop 测试用例

四伪集群模式装置

4.1 伪集群文件配置

4.1.1 core-site.xml

4.1.2 hdfs-site.xml

4.1.3 mapred-site.xml

4.1.4 yarn-site.xml

4.2 格式化 NameNode 和启动 Hadoop

4.2.1 赋予脚本 root 账户运行权限

4.2.2 格式化 NameNode

4.2.3 启动 Hadoop

4.2.4 查看 Hadoop 节点信息

4.3 运行 MapReduce 程序验证环境搭建

4.3.1 在 HDFS 上创立输出文件目录

4.3.2 上传数据文件到 HDFS 中

4.3.3 执行 MapReduce 程序

END

参考文档:

Hadoop 实战篇（1）

前言

一 Linux 环境的配置与装置 Hadoop

1.1 VMWare 中 Ubuntu 网络配置

1.2 Hadoop 用户组和用户增加

1.2.1 增加 Hadoop 用户组和用户

1.2.2 赋予 Hadoop 用户目录权限

1.2.3 赋予 Hadoop 用户 sodu 权限

1.2.4 赋予 Hadoop 用户登录明码

1.3 JDK 装置

1.4 Hadoop 官网下载

1.5 配置 Hadoop 环境

二 Hadoop 的三种装置模式介绍

2.1 单机模式

2.2 伪集群模式

2.3 集群模式

三 单机模式

3.1 批改 Hadoop 配置文件

3.2 创立测试数据文件

3.3 运行 Hadoop 测试用例

四 伪集群模式装置

4.1 伪集群文件配置

4.1.1 core-site.xml

4.1.2 hdfs-site.xml

4.1.3 mapred-site.xml

4.1.4 yarn-site.xml

4.2 格式化 NameNode 和启动 Hadoop

4.2.1 赋予脚本 root 账户运行权限

4.2.2 格式化 NameNode

4.2.3 启动 Hadoop

4.2.4 查看 Hadoop 节点信息

4.3 运行 MapReduce 程序验证环境搭建

4.3.1 在 HDFS 上创立输出文件目录

4.3.2 上传数据文件到 HDFS 中

4.3.3 执行 MapReduce 程序

END

参考文档:

三单机模式

四伪集群模式装置