共计 750 个字符,预计需要花费 2 分钟才能阅读完成。
Hadoop = HDFS(分布式文件系统) + MapReduce(分布式计算框架) + Yarn(资源协调框架) + Common 模块
HDFS
Hadoop Distribute File System 一个高牢靠, 高吞量的分布式文件系统
“ 分而治之 ”
NameNode
(nn): 存储文件的 元数据. 比方文件名, 文件目录构造, 文件属性(生成工夫, 正本数, 文件权限), 以及每个文件的块列表和块所在的 DataNode 等SecondaryNameNode
(2nn): 辅助 NameNode 更好地工作, 用来 监控 HDFS 状态 的辅助后台程序, 每隔一段时间 获取 HDFS 元数据快照DataNode
(dn): 在本地文件系统 存储 文件块数据, 以及块数据的 校验
NN, 2NN, DN 这些既是角色名称, 也是过程名称, 更是代指电脑节点名称
MapReduce
MapReduce 计算 = Map 阶段 + Reduce 阶段
Map 阶段就是 分的阶段, 并行处理输出数据
Reduce 阶段就是 合的阶段, 对 Map 阶段后果进行汇总
Yarn
作业调度与集群资源管理的框架
ResourceManager
(rm): 解决客户端申请 , 启动 / 监控 ApplicationMaster, 监控 NodeManager, 资源分配与调度NodeManager
(nm): 单个节点 上的资源管理, 解决来自 ResourceManager 的命令, 解决来自 ApplicationMaster 的命令ApplicationMaster
(am): 数据切分 , 为应用程序 申请资源并调配 给外部工作, 工作监控 与容错Container
: 对工作运行环境的形象, 封装了 CPU, 内存等多维资源以及环境变量, 启动命令等 工作运行相干的信息
ResourceManager 是老大, NodeManager 是小弟, ApplicationMaster 是计算工作专员
正文完