新手入门大数据-Hadoop基础与电商行为日志分析三

10次阅读

共计 312 个字符,预计需要花费 1 分钟才能阅读完成。

HDFS:
1. 分布式
2.commdity hardware 通用硬件上面
3. 高容错
4.high throughput 高吞吐
5.large data set
普通文件系统 VS 分布式的文件系统
单机 横跨 N 个机器
前提和设计目标:
hardware failure 硬件错误
崩溃后的快速恢复
Streaming Data Access HDFS 更适合批处理,对延迟的要求不高
关注的是吞吐量,而不是低延迟
Large Data Set 大规模数据集
Moving Computation is cheaper than moving data 移动计算比移动数据更划算

HDFS 架构
1)Namenode(master)和 Datanodes(slave)
2)master 和 slave 主从关系

正文完
 0