关于阿里云:深度揭秘阿里云函数计算异步任务能力

39次阅读

共计 3538 个字符,预计需要花费 9 分钟才能阅读完成。

作者:渐意

在上篇文章《解密函数计算异步工作能力之「工作的状态及生命周期治理」》中,咱们介绍了工作零碎的状态治理,并介绍了用户应如何依据需要,对工作状态信息进行实时的查问等操作。在本篇中咱们将会进一步走进函数计算异步工作,介绍异步工作的调度计划以及零碎在可观测性方面所反对的各项性能。

任务调度

任务调度多指零碎依据以后负载状况,将不同工作放到适合的计算资源中去执行的相干操作。一个欠缺的调度零碎往往须要均衡不同特点的工作间的隔离以及效率最优这两个需要。函数计算异步工作采纳了独立队列模型及主动负载平衡策略,具备在不影响解决性能的前提下进行多租隔离的能力。

Serverless Task 任务调度模型

当用户提交一次工作后,零碎会将该工作转换为一条音讯,并通过异步下发的形式放入到外部队列中。一条音讯的解决流程如下图所示:

图 1

整个零碎在任务调度方面的多租隔离及音讯积压管制方面次要依赖的是 Scheduler 对于队列的生产及管制。咱们当时会为每一位用户划分一个账号级别的队列,该用户的所有函数的异步调用(包含工作调用)会共享该队列。

这样的模型构造会保障每个用户的异步执行申请(包含工作调用)均不会受到其余用户的调用状况的影响。然而在一些大规模利用场景,如一个用户的函数很多,并且每个函数的调用量都很大的状况下,所有的异步音讯共用一个队列不免造成调用间的相互影响。局部长尾调用可能会过多的耗费队列的资源,导致其余函数的执行呈现饥饿的景象。

为了防止这种状况影响重要函数的执行,函数计算提供了更细力度的队列 – 函数级别的队列。能够通过对每个不同函数设置独自的队列,确保高优先级函数的生产状况不会受同账号下的其余函数执行的影响。队列间的关系如下图所示:

图 2

典型的利用场景

假如某用户 A 具备 2 个不同的工作函数。其中一个工作 A 因为上游服务的限度,须要一个音讯一个音讯的执行;而另外一个工作 B 是大并发工作,并且心愿尽快执行完。在默认模式下,工作 A 和 B 共享同一个用户队列;这时会呈现如下场景:工作 A 因为具备并发度限度,函数计算侧会对整个工作队列进行出队速率管制。这就导致了工作 B 的工作迟迟无奈出队。而当工作 A 执行完后,工作 B 失去了出队机会,此时并发度升高,工作 B 的音讯抢占了资源池进行执行,工作 A 又变得难以出队,很长时间也无奈开始一次执行。这样的后果就是无论 A 还是 B 都受到了对方业务的重大烦扰。

当进行队列调整后,工作 A 和 B 别离独占队列。在这种状况下工作 A 和 B 的生产速度不受对方影响,都能够达到本身的诉求。

目前 Serverless Task 提供了工作积压大盘,您能够在工作界面获取目前曾经积压的工作数,综合剖析是否须要开启函数的独占队列。

Serverless Task 工作队列负载平衡模型

下面介绍了如何通过函数级别队列来避免出现“Noisy Neighbour”问题。然而在一些场景下,如果工作的并发量级过大,即使对该工作划分了单队列,也会导致工作的积压。这个问题的解决须要引入 Serverless Task 的负载平衡策略。

函数计算的工作解决模块具备 Partition 的概念。每个用户默认属于一个 Partition,负责该 Partition 的 Scheduler 会监听用户对应的工作队列。当呈现重大积压时,咱们会为用户依照负载状况调配多个 Partition,并交由不同的 Scheduler 负责生产,来晋升工作整体的生产速度。

图 3

能够看到,阿里云函数计算在工作队列治理方面默认做到了 多租 隔离 的能力,能够实用于绝大多数场景。针对一些重负载、长执行、并发量大的场景,函数计算还反对横向扩容,放慢生产速度。在工作隔离方面,函数计算反对针对不同优先级的函数进行独自隔离,避免出现 Noisy Neighbour 的问题。

可观测性

工作的可观测能力是工作零碎必不可少的能力之一。弱小的可观测性将有助于业务方缩小在工作运行的各个阶段所须要额定进行的工作量。

  1. 开发阶段:工作的在线调试能力、运行后果的 Debug 能力将间接影响业务上线进度;
  2. 业务惯例运行阶段:各种监控、流量状况的统计以及运行时日志将帮助用户疾速理解业务的倒退、变动,以及呈现故障时的疾速定位 & 解决;
  3. 阶段性审计:工作的历史记录存储及保留将为用户提供良好的可追溯能力,能够依据历史信息进行后续的业务布局。

ServerlessTask 可观测性反对 – 开发测试阶段

业务的开发阶段最次要的诉求就是疾速调试并定位问题。在对该阶段的反对中,ServerlessTask 提供了登录实例及实时日志的能力。当代码开发并上传后,测试 – debug – 批改代码 – 再次测试的流程能够全副在控制台实现,极大的进步了研发效率。如果有须要性能调试、第三方 Binary 调试(如音视频解决畛域的 FFmpeg 调试)等能够借助登录实例性能实现。操作流程如下所示:

抉择想登录实例的工作,点击实例链接。

会进入到实例监控页面,点击右上角的登录实例性能,即可登录到对应的实例上。

ServerlessTask 可观测性反对 – 业务上线后运行阶段

当业务上线后,常常容易呈现因容量预估有余导致上游零碎无奈承载压力,导致故障。因而 ServerlessTask 提供了运行时指标,即一段时间内的工作提交数、实现数及执行状况。用户能够依据这张指标图疾速理解以后业务的负载状况。当用户工作的上游生产较慢,可能造成工作积压,这种状况也很容易在指标图中反映出,进而疾速做出相应的反馈。目前 ServerlessTask 所提供的相干指标如下:

工作监控大盘提供以下工作监控数据:

在疾速定位问题方面,函数计算反对实时查看函数日志及实例指标。您能够进入到工作的列表页面,找到理论执行失败的工作,进入日志页面及实例页面进行问题定位:

ServerlessTask 可观测性反对 – 阶段性审计

当线上工作运行一段时间后,往往须要进行一系列的阶段性审计工作,比方上一周的执行总任务数,执行失败的工作数及执行失败的工夫。目前除了控制台以外,函数计算提供了丰盛的 API 能力来进行工作的审计工作。次要包含以下几方面能力:

  1. 依据状态进行过滤,只查问某一个状态的执行;
  2. 依据触发工夫进行过滤,如查问过来某一段时间内发动的工作;
  3. 依据工作名称查问。如果您的工作具备业务上下游的 TraceID,您能够在触发工作时指定一个有意义的工作 ID。后续能够依据 ID 前缀进行范畴查问;

下面的几个过滤形式能够组合,达到更便捷的需要。控制台所反对的过滤条件如下图所示:

更多参数内容可参考:

https://help.aliyun.com/docum…

ServerlessTask 可观测性反对 – 死信队列及业务弥补

在音讯畛域,有一个十分重要的概念 – 死信队列。当一些音讯无奈被生产时,这些音讯往往须要存储到一个中央,以便后续人为的染指解决,防止因未进行解决而造成业务损失。Serverless Task 也反对了这样一类性能。您能够对 Serverless Task 设置指标性能;当工作执行失败后,函数计算反对主动将执行失败的上下文信息推送到音讯队列等音讯服务中,以便后续解决。如果您的解决逻辑反对自动化,函数计算还反对将失败工作的上下文信息推送回函数计算,执行一段您的自定义业务逻辑来实现业务弥补。

您能够在异步调用配置页面配置胜利及失败指标。

更多配置内容请参考:

https://help.aliyun.com/docum…。

综上所述,Serverless Task 所提供的可观测能力能够无效反对工作全生命周期的监测需要。所有控制台能力均能够应用凋谢 API 进行定制化开发,来满足更多的需要。Serverless Task 的指标性能除了能够做到工作失败弥补以外,还能够作为 Event-Driven 模式的数据源,主动的将解决后的事件投递到上游服务中。

往期文章

1、异步工作解决零碎,如何解决业务长耗时、高并发难题?

2、函数计算异步工作能力介绍 - 工作触发去重

3、解密函数计算异步工作能力之 - 工作的状态及生命周期治理


Servereless 近期热门流动举荐

Serverless 函数计算评测征文活动来啦,6 月 28 日 -7 月 31 日期间,参加产品评测投稿公布文章,即有机会取得 Beats 耳机、机械键盘、千元天猫超市卡、优酷会员季卡诸多好礼等你赢取!投稿方向可参考(但不限于):

  • 您对函数计算 FC 产品能力的体验和倡议,帮忙其余用户选用 Serverless 服务。
  • 应用函数计算 FC 创立利用的场景评测,如基于函数计算 FC 搭建云上博客、搭建弹性高可用 Serverless Web 利用、构建基于 Serverless 架构的弹性高可用视频解决零碎等。

更多流动详情,请扫码移步官网理解:

https://developer.aliyun.com/…

点击此处,一起投稿吧!

正文完
 0