新手入门大数据-Hadoop基础与电商行为日志分析三

作者：

在

HDFS：
1.分布式
2.commdity hardware 通用硬件上面
3.高容错
4.high throughput 高吞吐
5.large data set
普通文件系统 VS 分布式的文件系统
单机横跨N个机器
前提和设计目标：
hardware failure硬件错误
崩溃后的快速恢复
Streaming Data Access HDFS更适合批处理，对延迟的要求不高
关注的是吞吐量，而不是低延迟
Large Data Set 大规模数据集
Moving Computation is cheaper than moving data移动计算比移动数据更划算

HDFS架构
1）Namenode（master）和Datanodes（slave）
2)master和slave 主从关系

评论

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

更多文章