近日,阿里云容器服务团队与达摩院数据决策团队单干的论文《RobustScaler: QoS-Aware Autoscaling for Complex Workloads》被数据管理与数据库国内顶级会议 ICDE 2022 长文录用。ICDE 和 SIGMOD、VLDB 并称为数据库畛域的三大国内顶尖学术会议,入选中国计算机学会(CCF)举荐 A 类国内会议列表。
阿里云容器服务 ACK 治理着海量的 Kubernetes 集群,在集群治理、集群运维等畛域积攒了丰盛的教训,并构建了智能运维平台 CIS(Container Intelligence Service),旨在通过智能化伎俩解决运维难题。达摩院数据决策团队在工夫序列剖析 / 预测 / 异样监测 /AIOps 方向深耕多年,数十篇文章发表在 KDD, SIGMOD, ICDE, AAAI 等顶会和多篇中美专利,取得 2022 ICASSP AIOps Challenge 冠军等多个国内奖项。
现在,企业业务流量往往呈现出显著的波峰、波谷状态,如果采纳固定实例数会存在极大的资源节约。为利用配置弹性伸缩是晋升资源利用率的无效形式。
Kubernetes 中现有的弹性伸缩策略如 HPA、CronHPA 等都存在弹性触发滞后的问题,导致利用的服务质量降落。如何在保障利用服务质量的前提下,依据利用的历史数据,基于时序算法提前进行扩缩容呢?
为解决该问题,咱们在论文中提出了一种基于非齐次柏松过程(NHPP)和随机束缚优化的智能弹性框架 RobustScaler。此外,研发了一种专门的交替方向乘子法 (ADMM) 来无效地训练 NHPP 模型,并证实了基于优化的被动策略能够保障利用的服务质量。大量试验表明,RobustScaler 在各种理论场景中优于常见的主动伸缩策略,并且在具备简单周期性的利用中也体现优异。
RobustScaler 算法曾经利用于智能运维平台 CIS 的 AHPA 组件中。智能运维平台 CIS 由异样发现、异样定位、异样修复、异样预测四大模块组成,蕴含定时巡检、网络诊断、运行时诊断、CVE 破绽修复、利用配置优化等泛滥性能。AHPA 是 CIS 的外围组件之一,组件架构如下图所示,AHPA 弹性策略可分为被动预测和被动预测。被动预测从历史数据中辨认周期性趋势,被动预测下个周期利用的实例数量;被动预测基于利用实时数据设定实例数量,能够很好的应答突发流量。此外,AHPA 还减少了兜底爱护策略,用户能够设置实例数量的上下界。AHPA 算法中最终失效的实例数是被动预测、被动预测及兜底策略中的最大值。
AHPA 组件正在公测中,点击 申请白名单[1],欢送大家试用并提宝贵意见。
点击此处查看阿里云容器服务 AHPA 弹性预测产品文档详情。以后 AHPA 已开启用户邀测,欢送感兴趣的用户点击文档中“提交工单”地位申请白名单,期待您的试用及反馈。
相干链接
[1]申请白名单 https://help.aliyun.com/docum…