hadoop解决什么问题
1.海量数据如何存储(hdfs)
2.海量数据如何计算(mapreduce)
1.HDFS
两个外围 namenode与datanode
namenode:治理datanode,相似仓库管理员,治理元数据信息,有单点故障问题
datanode:存储数据的节点,数据寄存具备备份。
1.保留具体的block数据,
2.负责数据的读写操作和复制操作
3.DataNode启动会想NameNode报告以后存储的block信息,
4.DataNode之间会进行通信(RPC),保证数据的冗余性
SecondaryNameNode不是热备,它的职责是合并NameNode 的edit log,到 fsiamge这个文件中。
tip:hdfs不适宜存储海量小文件
起因:20kB放在128M的block里,他只占用了20Kb,然而须要一个装128M的袋子装,这个袋子不能再装其余货色了。
假如我有1000w * 1Kb,则namenode须要这么多元数据信息,导致NameNode 瘫痪。
hdfs是磁盘,也就是波及两个问题:写与读。