1. 首先客户须要在音讯告诉服务(SMN)中提前创立一个【主题】,并将客户指定的邮箱或者手机号增加到主题订阅中。这时候指定的邮箱或者手机会收到申请订阅的告诉,点击链接确认订阅即可。


2. 创立Flink SQL作业,编写作业SQL实现后,配置【运行参数】。

2.1 配置作业的【CU数量】、【治理单元】与【最大并行数】,根据如下公式:

CU数量 = 治理单元 + (算子总并行数 / 单TM Slot数) * 单TM所占CU数

例如:CU数量为9CU,治理单元为1CU,最大并行数为16,则计算单元为8CU。

如果不手动配置TaskManager资源,则单TM所占CU数默认为1,单TM slot数显示值为0,理论值根据上述公式计算结果为 16÷(9-1)=2。

2.2 勾选【保留作业日志】按钮,抉择一个OBS桶。如该桶未受权,需点击【立刻受权】。此项配置能够在作业异样失败后将作业日志保留到客户的OBS桶下,不便客户定位故障起因。

2.3 勾选【作业异样告警】选项,抉择前述步骤创立的【SMN主题】。此项配置能够在作业异常情况下,向客户指定邮箱或者手机发送音讯告诉,不便客户及时感知异样。

2.4 勾选【开启Checkpoint】选项,根据本身业务状况调整Checkpoint距离和模式。Flink checkpoint机制能够保障Flink工作忽然失败时,可能从最近的Checkpoint进行状态复原重启。

阐明:

  • 此处的Checkpoint距离为两次触发Checkpoint的距离,执行checkpoint会影响实时计算性能,配置间隔时间需衡量对业务的性能影响及复原时长,最好大于Checkpoint的实现工夫,倡议设置为5min。
  • Exactly Once模式保障每条数据只被生产一次,At Least Once模式每条数据至多被生产一次,请根据业务状况抉择。

2.5 勾选【异样主动复原】与【从Checkpoint复原】,依据本身业务状况抉择重试次数。

2.6 配置【脏数据策略】,根据本身的业务逻辑和数据特征选择疏忽、抛出异样或者保留脏数据。

抉择【运行队列】,提交并运行作业。

Flink Jar作业可靠性配置与SQL作业雷同,不再另行阐明。

3. 登录【云监控服务CES】,在【云服务监控】列表中找到【数据湖摸索】服务,在Flink作业中找到指标作业,点击【创立告警规定】。



DLI 为Flink作业提供了丰盛的监控指标,客户能够根据本身需要应用不同的监控指标定义告警规定,实现更细粒度的作业监控。

监控指标阐明见链接

本文由华为云公布