关于hadoop:Hadoop-集群安装

我这里筹备四个虚拟机，ip 别离为：

# bigdata01
192.168.11.100
# bigdata02
192.168.11.101
# bigdata03
192.168.11.102
# bigdata04
192.168.11.103

主机名批改为 bigdata01、bigdata02、bigdata03、bigdata04。

# 进入文件
vi /etc/hostname
# 批改文件，这里依据不同的服务器批改
bigdata01

新建账户为 bigdata，并设置明码，设置权限，bigdata 的权限等同于 root

# 进入文件
vi /etc/sudoers
# 新增配置
bigdata ALL=(ALL) ALL

# 敞开防火墙
systemctl disable firewalld

敞开 selinux

# 进入文件
vi /etc/selinux/config
# 批改配置
SELINUX=disabled

# 进入文件
vi /etc/hosts
# 新增配置
192.168.11.100 bigdata01 
192.168.11.101 bigdata02 
192.168.11.102 bigdata03 
192.168.11.103 bigdata04

bigdata 用户登录，在每个虚拟机执行 ssh-keygen 命令，始终 enter 上来，直至 id_rsa.pub 和 id_rsa 两个文件生成。
生成后，每个虚拟机执行以下命令发送公钥文件：

ssh-copy-id bigdata01
ssh-copy-id bigdata02
ssh-copy-id bigdata03
ssh-copy-id bigdata04

发送后通过 ssh 验证，比方以后在 bigdata01 服务器，ssh bigdata02 看看能不能免密登录到 bigdata02 服务器，如果能够，就阐明设置胜利。
如果设置了还不行，就须要留神设置文件夹和文件的权限。因为 sshd 为了平安，对属主的目录和文件权限有所要求。如果权限不对，则 ssh 的免明码登陆不失效。

chmod 700 /home/bigdata
chmod 700 /home/bigdata/.ssh
chmod 600 /home/bigdata/.ssh/authorized_keys

我这边装置的是 2.7.7 版本。
编译之前除了下载相应版本的源码包，还须要查看官网的 BUILDING.txt 文件，这个文件形容了以后版本的编译须要的依赖项，以及依赖项的装置、配置。
上面是官网的截图，比方 Unix 零碎，须要 JDK1.7+、Maven3.0 等。

以上软件都装置实现后，就能够通过 maven 对源码进行编译，编译后，咱们就能够在 target 生成一个 hadoop-2.7.7.tar.gz 文件，至此编译实现。

编译后把生成的文件解压到制订目录，比方我这里是 /home/bigdata/apps/hadoop-2.7.7。

参考官网
配置之前，咱们的布局是这样的,4 个节点，3 个正本：

节点名称	HDFS	YARN
bigdata01	NameNode	NodeManager
bigdata02	DataNode + SecondaryNamenode	NodeManager
bigdata03	DataNode	NodeManager
bigdata04	DataNode	ResourceManager

配置 Hadoop 守护过程环境，门路：etc/hadoop/hadoop-env.sh。

参数	形容	必选
JAVA_HOME	JAVA_HOME 的门路	是
HADOOP_PID_DIR	HADOOP 的 PID 文件门路	否
HADOOP_LOG_DIR	HADOOP 的日志文件门路	否
HADOOP_HEAPSIZE	应用的最大堆大小，以 MB 为单位，默认 1000M	否

门路：etc/hadoop/core-site.xml。这个是 xml 文件，配置在 configuration 节点上面。

参数	形容	参数值
fs.defaultFS	NameNode 的 URL	hdfs://bigdata01:9000
io.file.buffer.size	equenceFiles 中应用的读 / 写缓冲区的大小。	131072
hadoop.tmp.dir	集群相干的数据存储目录	/home/bigdata/data/hadoopdata

配置 NameNode 和 DataNode 信息，门路：etc/hadoop/hdfs-site.xml。这个是 xml 文件，配置在 configuration 节点上面。

参数	形容	参数值
dfs.namenode.name.dir	本地文件系统上的门路，NameNode 在其中长久化存储命名空间和事务日志，如果用逗号隔开，那每个目录都冗余存储	/home/bigdata/data/hadoopdata/name
dfs.blocksize	HDFS 块大小	比方 268435456，即 256MB
dfs.datanode.data.dir	datanode 的数据存储目录，如果用逗号隔开，那每个目录都冗余存储	/home/bigdata/data/hadoopdata/data
dfs.replication	正本个数	3
dfs.secondary.http.address	secondarynamenode 运行节点的信息	bigdata02:50090

配置 yarn 的 ResourceManager 和 NodeManager 信息。门路：etc/hadoop/yarn-site.xml。这个是 xml 文件，配置在 configuration 节点上面。

参数	形容	参数值
yarn.resourcemanager.hostname	主节点的地位	bigdata04
yarn.nodemanager.aux-services	MapReduce 利用须要的 shuffle 服务	mapreduce_shuffle

配置 MapReduce 利用。门路：etc/hadoop/mapred-site.xml。这个是 xml 文件，配置在 configuration 节点上面。

参数	形容	参数值
mapreduce.framework.name	执行框架设置为 Hadoop YARN	yarn

配置 slave 节点，门路：etc/hadoop/slaves。内容如下：

bigdata01
bigdata02
bigdata03
bigdata04

scp -r hadoop-2.7.7 bigdata02
scp -r hadoop-2.7.7 bigdata03
scp -r hadoop-2.7.7 bigdata04

每个环境都执行以下命令

# 进入文件
vim ~/.bashrc
# 新增配置
export HADOOP_HOME=/home/bigdata/apps/hadoop-2.7.7 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

集群初始化，执行以下命令，留神仅第一次的时候须要。

# 仅第一次
hadoop namenode -format

启动 HDFS 集群，能够在任意节点

# 能够在任意节点
start-dfs.sh

启动 YARN 集群，在 YARN 节点上执行

# 在 YARN 节点上执行
start-yarn.sh

启动胜利验证：
网址输出 http://bigdata01:50070，界面 …

输出 http://bigdata04:8088，界面如 …

集群装置实现。

关于hadoop:Hadoop-集群安装

环境筹备

主机命批改

新建账户

敞开防火墙 / 敞开 Selinux

域名映射

置 SSH 免密登录

编译

配置文件

hadoop-env.sh

core-site.xml

hdfs-site.xml

yarn-site.xml

/mapred-site.xml

Slaves 文件

散发各环境

环境变量

运行