关于程序员:华为云DLI-Flink作业生产环境推荐配置指导

34次阅读

共计 1031 个字符,预计需要花费 3 分钟才能阅读完成。

1. 首先客户须要在音讯告诉服务(SMN)中提前创立一个【主题】,并将客户指定的邮箱或者手机号增加到主题订阅中。这时候指定的邮箱或者手机会收到申请订阅的告诉,点击链接确认订阅即可。


2. 创立 Flink SQL 作业,编写作业 SQL 实现后,配置【运行参数】。

2.1 配置作业的【CU 数量】、【治理单元】与【最大并行数】,根据如下公式:

CU 数量 = 治理单元 + (算子总并行数 / 单 TM Slot 数) * 单 TM 所占 CU 数 

例如:CU 数量为 9CU,治理单元为 1CU,最大并行数为 16,则计算单元为 8CU。

如果不手动配置 TaskManager 资源,则单 TM 所占 CU 数默认为 1,单 TM slot 数显示值为 0,理论值根据上述公式计算结果为 16÷(9-1)=2。

2.2 勾选【保留作业日志】按钮,抉择一个 OBS 桶。如该桶未受权,需点击【立刻受权】。此项配置能够在作业异样失败后将作业日志保留到客户的 OBS 桶下,不便客户定位故障起因。

2.3 勾选【作业异样告警】选项,抉择前述步骤创立的【SMN 主题】。此项配置能够在作业异常情况下,向客户指定邮箱或者手机发送音讯告诉,不便客户及时感知异样。

2.4 勾选【开启 Checkpoint】选项,根据本身业务状况调整 Checkpoint 距离和模式。Flink checkpoint 机制能够保障 Flink 工作忽然失败时,可能从最近的 Checkpoint 进行状态复原重启。

阐明:

  • 此处的 Checkpoint 距离为两次触发 Checkpoint 的距离,执行 checkpoint 会影响实时计算性能,配置间隔时间需衡量对业务的性能影响及复原时长,最好大于 Checkpoint 的实现工夫,倡议设置为 5min。
  • Exactly Once 模式保障每条数据只被生产一次,At Least Once 模式每条数据至多被生产一次,请根据业务状况抉择。

2.5 勾选【异样主动复原】与【从 Checkpoint 复原】,依据本身业务状况抉择重试次数。

2.6 配置【脏数据策略】,根据本身的业务逻辑和数据特征选择疏忽、抛出异样或者保留脏数据。

抉择【运行队列】,提交并运行作业。

Flink Jar 作业可靠性配置与 SQL 作业雷同,不再另行阐明。

3. 登录【云监控服务 CES】,在【云服务监控】列表中找到【数据湖摸索】服务,在 Flink 作业中找到指标作业,点击【创立告警规定】。



DLI 为 Flink 作业提供了丰盛的监控指标,客户能够根据本身需要应用不同的监控指标定义告警规定,实现更细粒度的作业监控。

监控指标阐明见链接

本文由华为云公布

正文完
 0