HDFS（Hadoop Distributed File System）分布式文件存储系统，次要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务，同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个对立的形象目录树，客户端可通过门路来拜访文件。HDFS集群分为两大角色：Namenode、Datanode（非HA模式会存在Secondary Namenode）
Namenode
Namenode是HDFS集群主节点，负责管理整个文件系统的元数据，所有的读写申请都要通过Namenode。
元数据管理
Namenode对元数据的治理采纳了三种模式：
1) 内存元数据：基于内存存储元数据，元数据比拟残缺
2) fsimage文件：磁盘元数据镜像文件，在NameNode工作目录中，它不蕴含block所在的Datanode 信息
3) edits文件：数据操作日志文件，用于连接内存元数据和fsimage之间的操作日志，可通过日志运算出元数据
fsimage + edits = 内存元数据
留神：当客户端对hdfs中的文件进行新增或批改时，操作记录首先被记入edit日志文件，当客户端操作胜利后，相应的元数据会更新到内存元数据中

能够通过hdfs的一个工具来查看edits中的信息
bin/hdfs oev -i edits -o edits.xml
查看fsimage
bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml

元数据的checkpoint（非HA模式）
Secondary Namenode每隔一段时间会查看Namenode上的fsimage和edits文件是否须要合并，如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地，并加载到内存中进行合并，而后将合并之后取得的新的fsimage上传到Namenode。checkpoint操作的触发条件次要配置参数：

dfs.namenode.checkpoint.check.period=60 #查看触发条件是否满足的频率，单位秒
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}

以上两个参数做checkpoint操作时，secondary namenode的本地工作目录，次要解决fsimage和edits文件的

dfs.namenode.checkpoint.max-retries=3 #最大重试次数
dfs.namenode.checkpoint.period=3600 #两次checkpoint之间的工夫距离3600秒
dfs.namenode.checkpoint.txns=1000000 #两次checkpoint之间最大的操作记录

checkpoint作用

放慢Namenode启动
Namenode启动时，会合并磁盘上的fsimage文件和edits文件，失去残缺的元数据信息，但如果fsimage和edits文件十分大，这个合并过程就会十分慢，导致HDFS长时间处于平安模式中而无奈失常提供服务。SecondaryNamenode的checkpoint机制能够缓解这一问题
数据恢复
Namenode和SecondaryNamenode的工作目录存储构造完全相同，当Namenode故障退出须要从新复原时，能够从SecondaryNamenode的工作目录中将fsimage拷贝到Namenode的工作目录，以复原Namenode的元数据。然而SecondaryNamenode最初一次合并之后的更新操作的元数据将会失落，最好Namenode元数据的文件夹放在多个磁盘下面进行冗余，升高数据失落的可能性。
注意事项：
SecondaryNamenode只有在第一次进行元数据合并时须要从Namenode下载fsimage到本地。SecondaryNamenode在第一次元数据合并实现并上传到Namenode后，所持有的fsimage已是最新的fsimage，无需再从Namenode处获取，而只须要获取edits文件即可。
SecondaryNamenode从Namenode上将要合并的edits和fsimage拷贝到本人以后服务器上，而后将fsimage和edits反序列化到SecondaryNamenode的内存中，进行计算合并。因而个别须要把Namenode和SecondaryNamenode别离部署到不同的机器下面，且SecondaryNamenode服务器配置要求个别不低于Namenode。
SecondaryNamenode不是充当Namenode的“备服务器”，它的次要作用是进行元数据的checkpoint
Datanode
Datanode作为HDFS集群从节点，大数据培训负责存储管理用户的文件块数据，并定期向Namenode汇报本身所持有的block信息（这点很重要，因为，当集群中产生某些block正本生效时，集群如何复原block初始正本数量的问题）。
对于Datanode两个重要的参数：
通过心跳信息上报参数

<property>
<name>dfs.blockreport.intervalMsec</name>
<value>3600000</value>
<description>Determines block reporting interval in milliseconds.</description>
</property>

Datanode掉线判断时限参数
Datanode过程死亡或者网络故障造成Datanode无奈与Namenode通信时，Namenode不会立刻把该Datanode断定为死亡，要通过一段时间，这段时间称作超时时长。HDFS默认的超时时长为10分钟30秒。如果定义超时工夫为timeout，则超时时长的计算公式为：
timeout = 2 heartbeat.recheck.interval（默认5分钟） + 10 dfs.heartbeat.interval（默认3秒）。
<property>
<name>heartbeat.recheck.interval</name>
单位毫秒
<value>2000</value>
</property>
<property>
<name>dfs.heartbeat.interval</name>
单位秒
<value>1</value>
</property>

HDFS读写数据流程
理解了Namenode和Datanode的作用后，就很容易了解HDFS读写数据流程，这个也是面试中常常问的问题。
HDFS写数据流程

留神：
1.文件block块切分和上传是在客户端进行的操作
2.Datanode之间自身是建设了一个RPC通信建设pipeline
3.客户端先从磁盘读取数据放到一个本地内存缓存，开始往Datanode1上传第一个block，以packet为单位，Datanode1收到一个packet就会传给Datanode2，Datanode2传给Datanode3；Datanode1每传一个packet会放入一个应答队列期待应答
4.当一个block传输实现之后，客户端会告诉Namenode存储块结束，Namenode将元数据同步到内存中

Datanode之间pipeline传输文件时，个别依照就近可用准则
a) 首先就近筛选一台机器
b) 优先选择另一个机架上的Datanode
c) 在本机架上再随机筛选一台
HDFS读数据流程

留神：
Datanode发送数据，是从磁盘外面读取数据放入流，以packet为单位来做校验
客户端以packet为单位接管，先在本地缓存，而后写入指标文件
客户端将要读取的文件门路发送给namenode，namenode获取文件的元信息（次要是block的寄存地位信息）返回给客户端，客户端依据返回的信息找到相应datanode一一获取文件的block并在客户端本地进行数据追加合并从而取得整个文件
HDFSHA机制
HA：高可用，通过双Namenode打消单点故障。

双Namenode协调工作的要点：
元数据管理形式须要扭转
a) 内存中各自保留一份元数据
b) edits日志只能有一份，只有active状态的Namenode节点能够做写操作
c) 两个Namenode都能够读取edits
d) 共享的edits放在一个共享存储中治理（qjournal和NFS两个支流实现，图中以放在一个共享存储中治理（qjournal和为例）
须要一个状态治理功能模块
a) 实现了一个zk failover，常驻在每一个Namenode所在的节点
b) 每一个zk failover负责监控本人所在Namenode节点，利用zk进行状态标识，当须要进行状态切换时，由zk failover来负责切换，切换时须要避免brain split景象的产生

以上两个参数做checkpoint操作时，secondary namenode的本地工作目录，次要解决fsimage和edits文件的

单位毫秒

单位秒