关于大数据:Hadoop-入门笔记核心组件-HDFS

作者：幻好

起源：恒生 LIGHT 云社区

HDFS (Hadoop Distributed File System) 是 Hadoop 下的分布式文件系统，具备高容错、高吞吐量等个性，能够部署在低成本的硬件上。

首先，通过名字就能很分明的明确 HDFS 在 Hadoop 中是应该文件存储的组件。

HDFS 的设计之初，次要是思考到在数据量的一直增长的环境下，因为受制单机资源无限，为了保证系统可能提供高可用、高可靠性以及高扩大等要求，于是通过分布式架构，以达到响应的需要。

HDFS 的次要架构分为三个局部：NameNode（nn）、DataNode(dn)、Secondary NameNode(2nn)。

NameNode（nn）

能够了解零碎的文件资源管理器，不便咱们查问文件存储地位以及相干属性信息。

DataNode(dn)

能够了解为通过 NameNode 是存储一些文件根本属性信息不便咱们查问，而 DataNode 则是存储文件数据的。

Secondary NameNode(2nn)

Secondary NameNode 能够了解为 NameNode 的备份，如果 NameNode 都挂了，Secondary NameNode 的备份还能持续提供服务

一个 HDFS 集群由一个 NameNode 和一些 DataNode 组成，NameNode 相当于控制中心，负责管理文件系统的名字空间、数据块与数据节点的映射以及数据节点的调度。DataNode 则负责解决理论的客户端读写的申请，存储数据。

HDFS 的设计保障了零碎的高可用、高扩大等要求，尽管也有弊病，然而咱们应该依据切实的业务需要，抉择最合适的技术计划。

HDFS 通过其良好的跨平台移植性，使得其余大数据计算框架都将其作为数据长久化存储的首选计划。