关于hadoop:hadoop概念分析

hadoop概念

分布式：
整个业务拆解多个业务由不同机器实现
集群：
- 多个机器通过网络连接，每台机器做一样的工作
怎么跟小白讲呢：从前有个餐厅只有一个厨师，做买菜，洗菜，炒菜
- 客户多了，招多了一个厨师做一样的事，两个厨师就是集群
- 随着客户减少招多了几个厨师就分为了几局部，1个做买菜，1个做洗菜，1个做炒菜，分布式
- 而炒菜1个不够，招多了1个，2个炒菜徒弟就是分布式中的集群
负载平衡
- 正当分配任务，让所有机器在一个正当范畴内实现，若呈现某些机子实现迟缓要及时批改任务分配
hadoop
- 1.hdfs 海量数据存储
- 2.mapreduce 分布式计算框架，剖析解决
- 3.yarn 对立的资源调度平台，集群资源进行治理(spark)
性质
- 扩容能力，集群可扩大到上万台
- 成本低，对服务器单台性能要求不高
- 高效率，节点数量多，能够独特承载并发操作
- 可靠性，在hadoop中数据都是存在备份的
元数据：形容数据的数据，如地位，名字，大小等

hdfs
- namenode 能够有两个，主备构造namenode(active) namenode(standby),与zookeeper的连贯称为zkfc,借助zookeeper进行主节点确定与宕机治理，没有snn
  - 当两个namenode存储的元数据信息不统一就呈现脑裂问题，因而诞生了journalnode(多台形成集群)，用于同步元数据，（为什么不必zookeeeper同步呢？）答：因为zookeeper有只反对体积很小的文件系统，不适用于大体积信息的同步，zookeeper真正的作用是检测active主节点的状态，宕机则代替
yarn
- rescourceManager可有多个，对外提供服务的仅一台active，与zookeeper的连贯称为zkfc
- journalnode 文件系统元数据信息管理，个别是奇数个

hdfs
- namenode 能够有多个
- 3.0以前每份数据存份，3.0引入纠错编码0.5冗余校验数据存储形式+源文件
- 扭转最大的是hdfs 通过最近block块计算，依据最近计算准则，本地block块，退出到内存，先计算，通过IO，共享内存计算区域，最初疾速造成计算结果，比Spark快10倍