关于flink:带你认识Flink容错机制的两大方面作业执行和守护进程

67次阅读

共计 3676 个字符,预计需要花费 10 分钟才能阅读完成。

摘要:Flink 容错机制次要有作业执行的容错以及守护过程的容错两方面,前者包含 Flink runtime 的 ExecutionGraph 和 Execution 的容错,后者则包含 JobManager 和 TaskManager 的容错。

本文分享自华为云社区《Flink 容错机制》,原文作者:yangxiao_mrs。

Flink 容错机制次要有作业执行的容错以及守护过程的容错两方面,前者包含 Flink runtime 的 ExecutionGraph 和 Execution 的容错,后者则包含 JobManager 和 TaskManager 的容错。

一、作业执行容错

Flink 的谬误复原机制分为多个级别,即 Execution 级别的 Failover 策略和 ExecutionGraph 级别的 Job Restart 策略。当呈现谬误时,Flink 会先尝试触发范畴小的谬误复原机制,如果仍解决不了才会降级为更大范畴的谬误复原机制,具体能够看上面的序列图。

当 Task 产生谬误,TaskManager 会通过 RPC 告诉 JobManager,后者将对应 Execution 的状态转为 failed 并触发 Failover 策略。如果合乎 Failover 策略,JobManager 会重启 Execution,否则降级为 ExecutionGraph 的失败。ExecutionGraph 失败则进入 failing 的状态,由 Restart 策略决定其重启(restarting 状态)还是异样退出(failed 状态)。

1.1 Task Failover 策略

Task Failover 策略目前有三个,别离是:RestartAll、RestartIndividualStrategy 和 RestartPipelinedRegionStrategy。

RestartAll: 重启全副 Task,是复原作业一致性的最安全策略,会在其余 Failover 策略失败时作为保底策略应用。目前是默认的 Task Failover 策略。

RestartPipelinedRegionStrategy: 重启谬误 Task 所在 Region 的全副 Task。Task Region 是由 Task 的数据传输决定的,有数据传输的 Task 会被放在同一个 Region,而不同 Region 之间没有数据交换。

RestartIndividualStrategy: 复原单个 Task。因为如果该 Task 没有蕴含数据源,这会导致它不能重流数据而导致一部分数据失落。思考到至多提供精确一次的投递语义,这个策略的应用范畴比拟无限,只利用于 Task 间没有数据传输的作业。

1.2 Job Restart 策略

如果 Task 谬误最终触发了 Full Restart,此时 Job Restart 策略将会管制是否须要复原作业。Flink 提供三种 Job 具体的 Restart Strategy。

FixedDelayRestartStrategy: 容许指定次数内的 Execution 失败,如果超过该次数则导致 Job 失败。FixedDelayRestartStrategy 重启能够设置肯定的提早,以缩小频繁重试对外部零碎带来的负载和不必要的谬误日志。

FailureRateRestartStrategy: 容许在指定工夫窗口内的指定次数内的 Execution 失败,如果超过这个频率则导致 Job 失败。同样地,FailureRateRestartStrategy 也能够设置肯定的重启提早。

NoRestartStrategy: 在 Execution 失败时间接让 Job 失败。

二、守护过程容错

Flink on YARN 的部署模式,要害的守护过程有 JobManager 和 TaskManager 两个,其中 JobManager 的主要职责协调资源和治理作业的执行别离为 ResourceManager 和 JobMaster 两个守护线程承当,三者之间的关系如下图所示。

2.1 TaskManager 的容错

如果 ResouceManager 通过心跳超时检测到或者通过集群管理器的告诉理解到 TaskManager 故障,它会告诉对应的 JobMaster 并启动一个新的 TaskManager 以做代替。留神 ResouceManager 并不关怀 Flink 作业的状况,这是 JobMaster 的职责去治理 Flink 作业要做何种反馈。

如果 JobMaster 通过 ResouceManager 的告诉理解到或者通过心跳超时检测到 TaskManager 故障,它首先会从本人的 slot pool 中移除该 TaskManager,并将该 TaskManager 上运行的所有 Tasks 标记为失败,从而触发 Flink 作业执行的容错机制以复原作业。

TaskManager 的状态曾经写入 checkpoint 并会在重启后主动复原,因而不会造成数据不统一的问题。

2.2 ResourceManager 的容错

如果 TaskManager 通过心跳超时检测到 ResourceManager 故障,或者收到 zookeeper 的对于 ResourceManager 失去 leadership 告诉,TaskManager 会寻找新的 leader,ResourceManager 并将本人重启注册到其上,期间并不会中断 Task 的执行。

如果 JobMaster 通过心跳超时检测到 ResourceManager 故障,或者收到 zookeeper 的对于 ResourceManager 失去 leadership 告诉,JobMaster 同样会期待新的 ResourceManager 变成 leader,而后从新申请所有的 TaskManager。思考到 TaskManager 也可能胜利复原,这样的话 JobMaster 新申请的 TaskManager 会在闲暇一段时间后被开释。

ResourceManager 上放弃了很多状态信息,包含沉闷的 container、可用的 TaskManager、TaskManager 和 JobMaster 的映射关系等等信息,不过这些信息并不是 ground truth,能够从与 JobMaster 及 TaskManager 的状态同步中再从新取得,所以这些信息并不需要长久化。

2.3 JobMaster 的容错

如果 TaskManager 通过心跳超时检测到 JobMaster 故障,或者收到 zookeeper 的对于 JobMaster 失去 leadership 告诉,TaskManager 会触发本人的谬误复原,而后期待新的 JobMaster。如果新的 JobMaster 在肯定工夫后仍未呈现,TaskManager 会将其 slot 标记为闲暇并告知 ResourceManager。

如果 ResourceManager 通过心跳超时检测到 JobMaster 故障,或者收到 zookeeper 的对于 JobMaster 失去 leadership 告诉,ResourceManager 会将其告知 TaskManager,其余不作解决。

JobMaster 保留了很多对作业执行至关重要的状态,其中 JobGraph 和用户代码会从新从 HDFS 等长久化存储中获取,checkpoint 信息会从 zookeeper 取得,Task 的执行信息能够不复原因为整个作业会从新调度,而持有的 slot 则从 ResourceManager 的 TaskManager 的同步信息中复原。

2.4 并发故障

Flink on YARN 部署模式下,因为 JobMaster 和 ResourceManager 都在 JobManager 过程内,如果 JobManager 过程出问题,通常是 JobMaster 和 ResourceManager 并发故障,那么 TaskManager 会按以下步骤解决:

  • 依照一般的 JobMaster 故障解决。
  • 在一段时间内一直尝试将 slot 提供给新的 JobMaster。
  • 一直尝试将本人注册到 ResourceManager 上。

值得注意的是,新 JobManager 的拉起是依附 YARN 的 Application attempt 重试机制来主动实现的,而依据 Flink 配置的 YARN Application:keep-containers-across-application-attempts 行为,TaskManager 不会被清理,因而能够从新注册到新启动的 Flink ResourceManager 和 JobMaster 中。

三、总结

Flink 容错机制确保了 Flink 的可靠性和持久性,具体来说它包含作业执行的容错和守护过程的容错两个方面。在作业执行容错方面,Flink 提供 Task 级别的 Failover 策略和 Job 级别的 Restart 策略来进行故障状况下的主动重试。在守护过程的容错方面,在 on YARN 模式下,Flink 通过外部组件的心跳和 YARN 的监控进行故障检测。TaskManager 的故障会通过申请新的 TaskManager 并重启 Task 或 Job 来复原,JobManager 的故障会通过集群管理器的主动拉起新 JobManager 和 TaskManager 的从新注册到新 leader JobManager 来复原。

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0