关于程序员:华为云DLI-Flink作业生产环境推荐配置指导

1. 首先客户须要在音讯告诉服务（SMN）中提前创立一个【主题】，并将客户指定的邮箱或者手机号增加到主题订阅中。这时候指定的邮箱或者手机会收到申请订阅的告诉，点击链接确认订阅即可。

2. 创立Flink SQL作业，编写作业SQL实现后，配置【运行参数】。

2.1 配置作业的【CU数量】、【治理单元】与【最大并行数】，根据如下公式：

CU数量 = 治理单元 + (算子总并行数 / 单TM Slot数) * 单TM所占CU数

例如：CU数量为9CU，治理单元为1CU，最大并行数为16，则计算单元为8CU。

如果不手动配置TaskManager资源，则单TM所占CU数默认为1，单TM slot数显示值为0，理论值根据上述公式计算结果为 16÷(9-1)=2。

2.2 勾选【保留作业日志】按钮，抉择一个OBS桶。如该桶未受权，需点击【立刻受权】。此项配置能够在作业异样失败后将作业日志保留到客户的OBS桶下，不便客户定位故障起因。

2.3 勾选【作业异样告警】选项，抉择前述步骤创立的【SMN主题】。此项配置能够在作业异常情况下，向客户指定邮箱或者手机发送音讯告诉，不便客户及时感知异样。

2.4 勾选【开启Checkpoint】选项，根据本身业务状况调整Checkpoint距离和模式。Flink checkpoint机制能够保障Flink工作忽然失败时，可能从最近的Checkpoint进行状态复原重启。

阐明：

此处的Checkpoint距离为两次触发Checkpoint的距离，执行checkpoint会影响实时计算性能，配置间隔时间需衡量对业务的性能影响及复原时长，最好大于Checkpoint的实现工夫，倡议设置为5min。
Exactly Once模式保障每条数据只被生产一次，At Least Once模式每条数据至多被生产一次，请根据业务状况抉择。

2.5 勾选【异样主动复原】与【从Checkpoint复原】，依据本身业务状况抉择重试次数。

2.6 配置【脏数据策略】，根据本身的业务逻辑和数据特征选择疏忽、抛出异样或者保留脏数据。

抉择【运行队列】，提交并运行作业。

Flink Jar作业可靠性配置与SQL作业雷同，不再另行阐明。

3. 登录【云监控服务CES】，在【云服务监控】列表中找到【数据湖摸索】服务，在Flink作业中找到指标作业，点击【创立告警规定】。

DLI 为Flink作业提供了丰盛的监控指标，客户能够根据本身需要应用不同的监控指标定义告警规定，实现更细粒度的作业监控。

监控指标阐明见链接

本文由华为云公布