新手入门大数据-Hadoop基础与电商行为日志分析三

HDFS:
1.分布式
2.commdity hardware 通用硬件上面
3.高容错
4.high throughput 高吞吐
5.large data set
普通文件系统 VS 分布式的文件系统
单机 横跨N个机器
前提和设计目标:
hardware failure硬件错误
崩溃后的快速恢复
Streaming Data Access HDFS更适合批处理,对延迟的要求不高
关注的是吞吐量,而不是低延迟
Large Data Set 大规模数据集
Moving Computation is cheaper than moving data移动计算比移动数据更划算

HDFS架构
1)Namenode(master)和Datanodes(slave)
2)master和slave 主从关系

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理