关于hadoop:Hadoop框架MapReduce基本原理和入门案例

40次阅读

共计 5049 个字符，预计需要花费 13 分钟才能阅读完成。

本文源码：GitHub·点这里 || GitEE·点这里

Hadoop 外围组件之一：分布式计算的计划 MapReduce，是一种编程模型，用于大规模数据集的并行运算，其中 Map（映射）和 Reduce（归约）。

MapReduce 既是一个编程模型，也是一个计算组件，解决的过程分为两个阶段，Map 阶段：负责把工作合成为多个小工作，Reduce 负责把多个小工作的处理结果进行汇总。其中 Map 阶段次要输出是一对 Key-Value，通过 map 计算后输入一对 Key-Value 值；而后将雷同 Key 合并，造成 Key-Value 汇合；再将这个 Key-Value 汇合转入 Reduce 阶段，通过计算输入最终 Key-Value 后果集。

MapReduce 能够实现基于上千台服务器并发工作，提供很弱小的数据处理能力，如果其中单台服务挂掉，计算工作会主动本义到另外节点执行，保障高容错性；然而 MapReduce 不适应于实时计算与流式计算，计算的数据是动态的。

数据文件个别以 CSV 格局居多，数据行通常以空格分隔，这里须要思考数据内容特点；

文件通过切片调配在不同的 MapTask 工作中并发执行；

MapTask 工作执行结束之后，执行 ReduceTask 工作，依赖 Map 阶段的数据；

ReduceTask 工作执行结束后，输入文件后果。

hadoop:
  # 读取的文件源
  inputPath: hdfs://hop01:9000/hopdir/javaNew.txt
  # 该门路必须是程序运行前不存在的
  outputPath: /wordOut

public class WordMapper extends Mapper<LongWritable, Text, Text, IntWritable> {Text mapKey = new Text();
    IntWritable mapValue = new IntWritable(1);

    @Override
    protected void map (LongWritable key, Text value, Context context)
                        throws IOException, InterruptedException {
        // 1、读取行
        String line = value.toString();
        // 2、行内容切割，依据文件中分隔符
        String[] words = line.split(" ");
        // 3、存储
        for (String word : words) {mapKey.set(word);
            context.write(mapKey, mapValue);
        }
    }
}

public class WordReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    int sum ;
    IntWritable value = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values,Context context)
                        throws IOException, InterruptedException {
        // 1、累加求和统计
        sum = 0;
        for (IntWritable count : values) {sum += count.get();
        }
        // 2、输入后果
        value.set(sum);
        context.write(key,value);
    }
}

@RestController
public class WordWeb {

    @Resource
    private MapReduceConfig mapReduceConfig ;

    @GetMapping("/getWord")
    public String getWord () throws IOException, ClassNotFoundException, InterruptedException {
        // 申明配置
        Configuration hadoopConfig = new Configuration();
        hadoopConfig.set("fs.hdfs.impl",
                org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
        hadoopConfig.set("fs.file.impl",
                org.apache.hadoop.fs.LocalFileSystem.class.getName());
        Job job = Job.getInstance(hadoopConfig);

        // Job 执行作业 输出门路
        FileInputFormat.addInputPath(job, new Path(mapReduceConfig.getInputPath()));
        // Job 执行作业 输入门路
        FileOutputFormat.setOutputPath(job, new Path(mapReduceConfig.getOutputPath()));

        // 自定义 Mapper 和 Reducer 两个阶段的工作解决类
        job.setMapperClass(WordMapper.class);
        job.setReducerClass(WordReducer.class);

        // 设置输入后果的 Key 和 Value 的类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 执行 Job 直到实现
        job.waitForCompletion(true);
        return "success" ;
    }
}

将应用程序打包放到 hop01 服务上执行；

java -jar map-reduce-case01.jar

Java 数据类型与对应的 Hadoop 数据序列化类型；

Java 类型	Writable 类型	Java 类型	Writable 类型
String	Text	float	FloatWritable
int	IntWritable	long	LongWritable
boolean	BooleanWritable	double	DoubleWritable
byte	ByteWritable	array	DoubleWritable
map	MapWritable

Mapper 模块 ：解决输出的数据，业务逻辑在 map() 办法中实现，输入的数据也是 KV 格局；

Reducer 模块 ：解决 Map 程序输入的 KV 数据，业务逻辑在 reduce() 办法中；

Driver 模块：将程序提交到 yarn 进行调度，提交封装了运行参数的 job 对象；

序列化：将内存中对象转换为二进制的字节序列，能够通过输入流长久化存储或者网络传输；

反序列化：接管输出字节流或者读取磁盘长久化的数据，加载到内存的对象过程；

Hadoop 序列化相干接口：Writable 实现的序列化机制、Comparable 治理 Key 的排序问题；

案例形容：读取文件，并对文件雷同的行做数据累加计算，输入计算结果；该案例演示在本地执行，不把 Jar 包上传的 hadoop 服务器，驱动配置统一。

实体对象属性

public class AddEntity implements Writable {

    private long addNum01;
    private long addNum02;
    private long resNum;

    // 构造方法
    public AddEntity() {super();
    }
    public AddEntity(long addNum01, long addNum02) {super();
        this.addNum01 = addNum01;
        this.addNum02 = addNum02;
        this.resNum = addNum01 + addNum02;
    }

    // 序列化
    @Override
    public void write(DataOutput dataOutput) throws IOException {dataOutput.writeLong(addNum01);
        dataOutput.writeLong(addNum02);
        dataOutput.writeLong(resNum);
    }
    // 反序列化
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        // 留神：反序列化程序和写序列化程序统一
        this.addNum01  = dataInput.readLong();
        this.addNum02 = dataInput.readLong();
        this.resNum = dataInput.readLong();}
    // 省略 Get 和 Set 办法
}

Mapper 机制

public class AddMapper extends Mapper<LongWritable, Text, Text, AddEntity> {Text myKey = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {

        // 读取行
        String line = value.toString();

        // 行内容切割
        String[] lineArr = line.split(",");

        // 内容格局解决
        String lineNum = lineArr[0];
        long addNum01 = Long.parseLong(lineArr[1]);
        long addNum02 = Long.parseLong(lineArr[2]);

        myKey.set(lineNum);
        AddEntity myValue = new AddEntity(addNum01,addNum02);

        // 输入
        context.write(myKey, myValue);
    }
}

Reducer 机制

public class AddReducer extends Reducer<Text, AddEntity, Text, AddEntity> {

    @Override
    protected void reduce(Text key, Iterable<AddEntity> values, Context context)
            throws IOException, InterruptedException {

        long addNum01Sum = 0;
        long addNum02Sum = 0;

        // 解决 Key 雷同
        for (AddEntity addEntity : values) {addNum01Sum += addEntity.getAddNum01();
            addNum02Sum += addEntity.getAddNum02();}

        // 最终输入
        AddEntity addRes = new AddEntity(addNum01Sum, addNum02Sum);
        context.write(key, addRes);
    }
}

案例最终后果：

GitHub·地址
https://github.com/cicadasmile/big-data-parent
GitEE·地址
https://gitee.com/cicadasmile/big-data-parent

举荐浏览：编程体系整顿

序号	项目名称	GitHub 地址	GitEE 地址	举荐指数
01	Java 形容设计模式, 算法, 数据结构	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
02	Java 根底、并发、面向对象、Web 开发	GitHub·点这里	GitEE·点这里	☆☆☆☆
03	SpringCloud 微服务根底组件案例详解	GitHub·点这里	GitEE·点这里	☆☆☆
04	SpringCloud 微服务架构实战综合案例	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
05	SpringBoot 框架根底利用入门到进阶	GitHub·点这里	GitEE·点这里	☆☆☆☆
06	SpringBoot 框架整合开发罕用中间件	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
07	数据管理、分布式、架构设计根底案例	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
08	大数据系列、存储、组件、计算等框架	GitHub·点这里	GitEE·点这里	☆☆☆☆☆

正文完

hadoop

发表至： hadoop

2020-11-22

0

关于hadoop:Apache-Hadoop的重要组成

关于hadoop:本文将大数据学习门槛降到了地平线

关于hadoop:Hadoop完整搭建过程二伪分布模式

Ambari环境搭建离线搭建

关于latex:Latex笔记

关于hadoop:Hadoop框架MapReduce基本原理和入门案例

一、MapReduce 概述

1、基本概念

2、特点形容

二、操作案例

1、流程形容

2、根底配置

3、Mapper 程序

4、Reducer 程序

5、执行程序

6、执行后果查看

三、案例剖析

1、数据类型

2、外围模块

四、序列化操作

1、序列化简介

2、案例实现

五、源代码地址

Just My Socks（注册教程内含优惠码）

关于hadoop:Hadoop框架MapReduce基本原理和入门案例

一、MapReduce 概述

1、基本概念

2、特点形容

二、操作案例

1、流程形容

2、根底配置

3、Mapper 程序

4、Reducer 程序

5、执行程序

6、执行后果查看

三、案例剖析

1、数据类型

2、外围模块

四、序列化操作

1、序列化简介

2、案例实现

五、源代码地址

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）