关于后端:MapReduce的基础知识

Hadoop MapReduce 是一个 分布式计算框架，用于轻松编写分布式应用程序，这些应用程序以牢靠，容错的形式并行处理大型硬件集群（数千个节点）上的大量数据（多 TB 数据集）
MapReduce 是一种 面向海量数据 解决的一种指导思想，也是一种用于对大规模数据进行分布式计算的编程模型。

MapReduce 易于编程： 它简略的实现一些接口，就能够实现一个分布式程序
良好的扩展性： 当你的计算资源不能失去满足的时候，你能够通过简略的减少机器来扩大它的计算能力。
高容错性： MapReduce 设计的初衷就是使程序可能部署在便宜的 PC 机器上，这就要求它具备很高的容错性。比方其中一台机器挂了，它能够把下面的计算工作转移到另外一个节点上运行，不至于这个工作运行失败，而且这个过程不须要人工参加，而齐全是由 Hadoop 外部实现的。
适宜 PB 级以上海量数据的离线解决： 能够实现上千台服务器集群并发工作，提供数据处理能力。

2.2 毛病
实时计算性能差： MapReduce 次要利用于离线作业，无奈做到秒级或者是亚秒级别的数据响应。
不能进行流式计算： 流式计算的输出数据是动静的，而 MapReduce 的输出数据集是动态的，不能动态变化。这是因为 MapReduce 本身的设计特点决定了数据源必须是动态的。
不善于 DAG（有向无环图）计算
多个应用程序存在依赖关系，后一个应用程序的输出为前一个的输入。在这种状况下，MapReduce 并不是不能做，而是应用后，每个 MapReduce 作业的输入后果都会写入到磁盘，会造成大量的磁盘 IO，导致性能十分的低下。

一个残缺的 MapReduce 程序在分布式运行时有三类实例过程：
（1）MrAppMaster：负责整个程序的过程调度及状态协调。
（2）MapTask：负责 Map 阶段的整个数据处理流程。
（3）ReduceTask：负责 Reduce 阶段的整个数据处理流程。

Mapper 阶段：

Reducer 阶段：

Driver：形容的是提交 Job 对象须要的各种必要的信息。

MapReduce 内置了很多默认属性，比方：排序（key 的字典序 ）、分组(reduce 阶段 key 雷同的为一组，一组调用一次 reduce 解决) 等，这些都和数据的 K 无关，所以说 kv 的类型数据确定是及其重要的。

1、什么是 MapReduce