关于flink:Flink之体系Task-ExecutionTasksParallelism

Flink 并行度：

优先级：算子层面>环境层面>客户端层面>零碎层面

Operator Level（操作算子层面）

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

DataStream<String> text = [...]
DataStream<Tuple2<String, Integer>> wordCounts = text
    .flatMap(new LineSplitter())
    .keyBy(0)
    .timeWindow(Time.seconds(5))
    .sum(1).setParallelism(5);

wordCounts.print();

env.execute("Word Count Example");
复制代码

operators、data sources、data sinks都能够调用setParallelism()办法来设置parallelism

Execution Environment Level（执行环境层面）

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(3);

DataStream<String> text = [...]
DataStream<Tuple2<String, Integer>> wordCounts = [...]
wordCounts.print();

env.execute("Word Count Example");
复制代码

在ExecutionEnvironment外头能够通过setParallelism来给operators、data sources、data sinks设置默认的parallelism；如果operators、data sources、data sinks本人有设置parallelism则会笼罩ExecutionEnvironment设置的parallelism

Client Level（客户端层面）

./bin/flink run -p 10 ../examples/*WordCount-java*.jar
复制代码

或者

try {
    PackagedProgram program = new PackagedProgram(file, args);
    InetSocketAddress jobManagerAddress = RemoteExecutor.getInetFromHostport("localhost:6123");
    Configuration config = new Configuration();

    Client client = new Client(jobManagerAddress, config, program.getUserCodeClassLoader());

    // set the parallelism to 10 here
    client.run(program, 10, true);

} catch (ProgramInvocationException e) {
    e.printStackTrace();
}
复制代码

应用CLI client，能够在命令行调用是用-p来指定，或者Java/Scala调用时在Client.run的参数中指定parallelism

System Level（零碎层面）

# The parallelism used for programs that did not specify and other parallelism.

parallelism.default: 1
复制代码

能够在flink-conf.yaml中通过parallelism.default配置项给所有execution environments指定零碎级的默认parallelism

Flink数据流图简介

1.1 Flink作业的逻辑视图

在大数据畛域，词频统计（WordCount）程序就像是一个编程语言的HelloWorld程序，它展现了一个大数据引擎的根本标准。麻雀虽小，五脏俱全，从这个样例中，咱们能够一窥Flink设计和运行原理。

如图1所示，程序分为三大部分，第一局部读取数据源（Source），第二局部对数据做转换操作（Transformation），最初将转换后果输入到一个目的地（Sink）。代码中的办法被称为算子（Operator），是Flink提供给程序员的接口，程序员须要通过这些算子对数据进行操作。Source算子读取数据源中的数据，数据源能够是数据流、也能够存储在文件系统中的文件。Transformation算子对数据进行必要的计算解决。Sink算子将处理结果输入，数据个别被输入到数据库、文件系统或下一个数据流程序。

咱们能够把算子了解为1 + 2 运算中的加号，加号（+）是这个算子的一个符号示意，它示意对数字1和数字2做加法运算。同样，在Flink或Spark这样的大数据引擎中，算子对数据进行某种操作，程序员能够依据本人的需要调用适合的算子，实现所需计算工作。罕用的算子有map、flatMap、keyBy、timeWindow等，它们别离对数据流执行不同类型的操作。

在程序理论运行前，Flink会将用户编写的代码做一个简略解决，生成一个如图2所示的逻辑视图。图 2展现了WordCount程序中，数据从不同算子间流动的状况。图中，圆圈代表算子，圆圈间的箭头代表数据流，数据流在Flink程序中通过不同算子的计算，最终生成为指标数据。其中，keyBy、timeWindow和sum独特组成了一个工夫窗口上的聚合操作，被归结为一个算子。咱们能够在Flink的Web UI中，点击一个作业，查看这个作业的逻辑视图。

对于词频统计这个案例，逻辑上来讲无非是对数据流中的单词做提取，而后应用一个Key-Value构造对单词做词频计数，最初输入后果即可，这样的逻辑本能够用几行代码实现，改成应用算子模式，反而让新人看着一头雾水，为什么肯定要用算子的模式来写程序呢？实际上，算子进化成以后这个状态，就像人类从石块计数，到手指计数，到算盘计数，再到计算机计数这样的进化过程一样，只管更低级的形式能够实现肯定的计算工作，然而随着计算规模的增长，古老的计数形式存在着低效的弊病，无奈实现更高级别和更大规模的计算需要。试想，如果咱们不应用大数据引擎提供的算子，而是本人实现一套上述的计算逻辑，只管咱们能够疾速实现以后的词频统计的工作，然而当面临一个新计算工作时，咱们须要从新编写程序，实现一整套计算工作。咱们本人编写代码的横向扩展性可能很低，当输出数据暴增时，咱们须要做很大改变，以部署在更多机器上。

大数据引擎的算子对计算做了一些形象，对于新人来说有肯定学习老本，而一旦把握这门技术，人们所能解决的数据规模将成倍增加。大数据引擎的算子呈现，正是针对数据分布在多个节点的大数据场景下，须要一种对立的计算描述语言来对数据做计算而进化出的新计算状态。基于Flink的算子，咱们能够定义一个数据流的逻辑视图，以此实现对大数据的计算。剩下那些数据交换、横向扩大、故障复原等问题全交由大数据引擎来解决。

1.2 从逻辑视图到物理执行

在绝大多数的大数据处理场景下，一台机器节点无奈解决所有数据，数据被切分到多台节点上。在大数据畛域，当数据量大到超过单台机器解决能力时，须要将一份数据切分到多个分区（Partition）上，每个分区散布在一台虚拟机或物理机上。

前一大节曾经提到，大数据引擎的算子提供了编程接口，咱们能够应用算子构建数据流的逻辑视图。思考到数据分布在多个节点的状况，逻辑视图只是一种形象，须要将逻辑视图转化为物理执行图，能力在分布式环境下执行。

图 3为WordCount程序的物理执行图，这里数据流散布在2个分区上。箭头局部示意数据流分区，圆圈局部示意算子在分区上的算子子工作（Operator Subtask）。从逻辑视图变为物理执行图后，FlatMap算子在每个分区都有一个算子子工作，以解决该分区上的数据：FlatMap[1/2]算子子工作解决第一个数据流分区上的数据，以此类推。

算子子工作又被称为算子实例，一个算子在并行执行时，会有多个算子实例。即便输出数据增多，咱们也能够通过部署更多的算子实例来进行横向扩大。从图 3中能够看到，除去Sink外的算子都被分成了2个算子实例，他们的并行度（Parallelism）为2，Sink算子的并行度为1。并行度是能够被设置的，当设置某个算子的并行度为2时，也就意味着有这个算子有2个算子子工作（或者说2个算子实例）并行执行。理论利用中个别依据输出数据量的大小，计算资源的多少等多方面的因素来设置并行度。

留神，在本例中，为了演示，咱们把所有算子的并行度设置为了2：env.setParallelism(2);，把最初输入的并行度设置成了1：wordCount.print().setParallelism(1);。如果不独自设置print的并行度的话，它的并行度也是2。

算子子工作是Flink物理执行的根本单元，算子子工作之间是互相独立的，某个算子子工作有本人的线程，不同算子子工作可能散布在不同的节点上。后文在Flink的资源分配局部咱们还会重点介绍算子子工作。

再谈逻辑视图到物理执行图

理解了Flink的分布式架构和外围组件，这里咱们从更细粒度上来介绍从逻辑视图转化为物理执行图过程，该过程能够分成四层：StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图。

StreamGraph：是依据用户编写的代码生成的最后的图，用来示意一个Flink作业的拓扑构造。在StreamGraph中，节点StreamNode就是算子。
JobGraph：JobGraph是提交给 JobManager 的数据结构。StreamGraph通过优化后生成了JobGraph，次要的优化为，将多个符合条件的节点链接在一起作为一个JobVertex节点，这样能够缩小数据交换所须要的传输开销。这个链接的过程叫做算子链（Operator Chain），会在下一大节持续介绍。JobVertex通过算子链后，会蕴含一到多个算子，它输入是IntermediateDataSet，是通过算子解决产生的数据集。
ExecutionGraph：JobManager将 JobGraph转化为ExecutionGraph。ExecutionGraph是JobGraph的并行化版本：如果某个JobVertex的并行度是2，那么它将被划分为2个ExecutionVertex，ExecutionVertex示意一个算子子工作，它监控着单个子工作的执行状况。每个ExecutionVertex会输入一个IntermediateResultPartition，这是单个子工作的输入，再通过ExecutionEdge输入到上游节点。ExecutionJobVertex是这些并行子工作的合集，它监控着整个算子的运行状况。ExecutionGraph是调度层十分外围的数据结构。
物理执行图：JobManager依据ExecutionGraph对作业进行调度后，在各个TaskManager上部署具体的工作，物理执行图并不是一个具体的数据结构。

能够看到，Flink在数据流图上堪称殚精竭虑，仅各类图就有四种之多。对于新人来说，能够不必太关怀这些十分细节的底层实现，只须要理解以下几个外围概念：

Flink采纳主从架构，Master起着治理协调作用，TaskManager负责物理执行，在执行过程中会产生一些数据交换、生命周期治理等事件。
用户调用Flink API，结构逻辑视图，Flink会对逻辑视图优化，并转化为并行化的物理执行图，最初被执行的是物理执行图。

工作、算子子工作与算子链

在结构物理执行图的过程中，Flink会将一些算子子工作链接在一起，组成算子链。链接后以工作(Task)的模式被TaskManager调度执行。应用算子链是一个十分无效的优化，它能够无效升高算子子工作之间的传输开销。链接之后造成的Task是TaskManager中的一个线程。

例如，数据从Source前向流传到FlatMap，这两头没有产生跨分区的数据交换，因而，咱们齐全能够将Source、FlatMap这两个子工作组合在一起，造成一个Task。数据通过keyBy产生了数据交换，数据会逾越分区，因而无奈将keyBy以及其前面的窗口聚合链接到一起。因为WindowAggregation的并行度是2，Sink的并行度为1，数据再次发生了替换，咱们不能把WindowAggregation和Sink两局部链接到一起。1.2节中提到，Sink的并行度是人为设置为1，如果咱们把Sink的并行度也设置为2，那么是能够让这两个算子链接到一起的。

默认状况下，Flink会尽量将更多的子工作链接在一起，这样能缩小一些不必要的数据传输开销。但一个子工作有超过一个输出或产生数据交换时，链接就无奈建设。两个算子可能链接到一起是有一些规定的，感兴趣的读者能够浏览Flink源码中org.apache.flink.streaming.api.graph.StreamingJobGraphGenerator中的isChainable办法。StreamingJobGraphGenerator类的作用是将StreamGraph转换为JobGraph。

只管将算子链接到一起会升高一些传输开销，然而也有一些状况并不需要太多链接。比方，有时候咱们须要将一个十分长的算子链拆开，这样咱们就能够将原来集中在一个线程中的计算拆分到多个线程中来并行计算。Flink容许开发者手动配置是否启用算子链，或者对哪些算子应用算子链。

工作槽位与计算资源

工作槽位

依据前文的介绍，咱们曾经理解到TaskManager负责具体的工作执行。TaskManager是一个JVM过程，在TaskManager中能够并行运行多个Task。在程序执行之前，通过优化，局部子工作被链接在一起，组成一个Task。每个Task是一个线程，须要TaskManager为其调配相应的资源，TaskManager应用工作槽位给Task分配资源。

在解释Flink工作槽位的概念前，咱们先回顾一下过程与线程的概念。在操作系统层面，过程（Process）是进行资源分配和调度的一个独立单位，线程（Thread）是CPU调度的根本单位。比方，咱们罕用的Office Word软件，在启动后就占用操作系统的一个过程。Windows上能够应用工作管理器来查看以后沉闷的过程，Linux上能够应用top命令来查看。线程是过程的一个子集，一个线程个别专一于解决一些特定工作，不独立领有系统资源，只领有一些运行中必要的资源，如程序计数器。一个过程至多有一个线程，也能够有多个线程。多线程场景下，每个线程都解决一小个工作，多个线程以高并发的形式同时解决多个小工作，能够进步解决能力。

回到Flink的槽位分配机制上，一个TaskManager是一个过程，TaskManager能够治理一至多个Task，每个Task是一个线程，占用一个槽位。每个槽位的资源是整个TaskManager资源的子集，比方这里的TaskManager下有3个槽位，每个槽位占用TaskManager所治理的1/3的内存，第一个槽位中的Task不会与第二个槽位中的Task相互争抢内存资源。留神，在分配资源时，Flink并没有将CPU资源明确调配给各个槽位。

假如咱们给WordCount程序调配两个TaskManager，每个TaskManager又调配3个槽位，所以总共是6个槽位。联合图 7中对这个作业的并行度设置，整个作业被划分为5个Task，应用5个线程，这5个线程能够依照图 8所示的形式调配到6个槽位中。

Flink容许用户设置TaskManager中槽位的数目，这样用户就能够确定以怎么的粒度将工作做互相隔离。如果每个TaskManager只蕴含一个槽位，那么运行在该槽位内的工作将独享JVM。如果TaskManager蕴含多个槽位，那么多个槽位内的工作能够共享JVM资源，比方共享TCP连贯、心跳信息、局部数据结构等。官网倡议将槽位数目设置为TaskManager下可用的CPU外围数，那么均匀下来，每个槽位都能均匀取得1个CPU外围。

关于flink:Flink之体系Task-ExecutionTasksParallelism

Flink 并行度：

Operator Level（操作算子层面）

Execution Environment Level（执行环境层面）

Client Level（客户端层面）

System Level（零碎层面）

Flink数据流图简介

1.1 Flink作业的逻辑视图

1.2 从逻辑视图到物理执行

再谈逻辑视图到物理执行图

工作、算子子工作与算子链

工作槽位与计算资源

工作槽位

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于flink:Flink之体系Task-ExecutionTasksParallelism

Flink 并行度：

Operator Level（操作算子层面）

Execution Environment Level（执行环境层面）

Client Level（客户端层面）

System Level（零碎层面）

Flink数据流图简介

1.1 Flink作业的逻辑视图

1.2 从逻辑视图到物理执行

再谈逻辑视图到物理执行图

工作、算子子工作与算子链

工作槽位与计算资源

工作槽位

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复