浅谈HDFS三之DataNote

jiezi

5 年前

一个数据块在 DataNode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
DataNode 启动后向 NameNode 注册，通过后，周期性（1 小时）的向 NameNode 上报所有的块信息。
DataNode 与 NameNode 之间有一个 心跳事件，心跳是每 3 秒一次，心跳返回结果带有 NameNode 给该 DataNode 的命令，如果超过 10 分钟没有收到某个 DataNode 的心跳，则认为该节点不可用。
集群运行中可以安全加入和退出一些机器

思考：如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号（1）和绿灯信号（0），但是存储该数据的磁盘坏了，一直显示是绿灯，是否很危险？

同理，DataNode 节点上的数据损坏了，却没有发现，是否也很危险，那么如何解决呢？

保证数据完整性的方法

当 DataNode 读取 Block 的时候，它会计算 CheckSum（校验和）
如果计算后的 CheckSum，与 Block 创建时值不一样，说明 Block 已经损坏
Client 读取其他 DataNode 上的 Block
DataNode 在其文件创建后周期验证 CheckSum，如下图：

DataNode 进程死亡或者网络故障造成 DataNode 无法与 NameNode 通信时的 TimeOut 参数设置

NameNode 不会立即把该节点判断为死亡，要经过一段时间，这段时间称作 超时时长
HDFS 默认的超时时长为 10 分钟 +30 秒
超时时长的计算公式为：

# dfs.namenode.heartbeat.recheck-interval 默认为 300000ms，dfs.heartbeat.interval 默认为 5s
TimeOut = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval

实际开发的时候，可以根据自己服务器的情况进行调整，比如服务器性能比较低，那么可以适当的把时间调长；如果服务器性能很好，那么可以适当缩短。

需求：随着公司业务的增长或者重大活动（例如双 11），数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。

步骤：

克隆一台虚拟机
修改 IP 地址和主机名称
删除原来 HDFS 文件系统中留存的 data 和 logs 文件
直接单点启动节点即可

退役旧数据节点有两种方式：添加白名单和黑名单退役

步骤：

在 NameNode 的 hadoop 安装目录 /etc/hadoop 目录下创建 dfs.hosts 文件
添加白名单主机名称
在 NameNode 的 hdfs-site.xml 配置文件中增加 dfs.hosts 属性

<property>
    <name>dfs.hosts</name>
    # dfs.hosts 文件所在路径
    <value>/opt/module/hadoop-2.7.2/etc/hadoop/dfs.hosts</value>
</property>

配置文件同步到集群其它节点
刷新 NameNode

[kocdaniel@hadoop102 hadoop-2.7.2]$ hdfs dfsadmin -refreshNodes
Refresh nodes successful

更新 ResourceManager 节点

[kocdaniel@hadoop102 hadoop-2.7.2]$ yarn rmadmin -refreshNodes

如果数据不均衡，可以用命令实现集群的再平衡

[kocdaniel@hadoop102 sbin]$ ./start-balancer.sh

步骤：

在 NameNode 的 hadoop 安装目录 /etc/hadoop 目录下创建 dfs.hosts.exclude 文件
添加要退役的主机名称
在 NameNode 的 hdfs-site.xml 配置文件中增加 dfs.hosts.exclude 属性

<property>
    <name>dfs.hosts.exclude</name>
     <value>/opt/module/hadoop-2.7.2/etc/hadoop/dfs.hosts.exclude</value>
</property>

配置文件同步到集群其它节点
刷新 NameNode、刷新 ResourceManager

[kocdaniel@hadoop102 hadoop-2.7.2]$ hdfs dfsadmin -refreshNodes
Refresh nodes successful
[kocdaniel@hadoop102 hadoop-2.7.2]$ yarn rmadmin -refreshNodes

检查 Web 浏览器，退役节点的状态为 decommission in progress（退役中），说明数据节点正在复制块到其他节点
等待退役节点状态为 decommissioned（所有块已经复制完成），停止该节点及节点资源管理器。

注意：如果副本数是 3，服役的节点小于等于 3，是不能退役成功的，需要修改副本数后才能退役
注意：不允许白名单和黑名单中同时出现同一个主机名称。

添加白名单比较暴躁，会直接把要退役的节点服务关掉，不复制数据
黑名单退役，会将要退役的节点服务器的数据复制到其它节点上，不会直接关闭节点服务，比较慢

DataNode 也可以配置成多个目录，每个目录存储的 数据不一样。即：数据不是副本，与 NameNode 多目录不同
作用：保证所有磁盘都被利用均衡，类似于 windows 中的磁盘分区

退出移动版