开篇
近日,由阿里云计算平台大数据根底工程技术团队主导,与计算平台 MaxCompute 团队、华东师范大学数据迷信与工程学院、达摩院单干,基于预测的云计算平台资源弹性伸缩框架论文《MagicScaler: Uncertainty-aware, Predictive Autoscaling》被数据库畛域顶会 VLDB 2023 接管。
MagicScaler 论文提出了一种翻新的基于预测的云资源被动弹性伸缩框架 MagicScaler,该框架次要蕴含一个基于多尺度注意力高斯过程的预测模型和一个思考需要不确定性的弹性伸缩优化决策器。论文在阿里云云原生大数据计算服务 MaxCompute 3 个集群的实在数据集上进行了试验,综合老本和 QoS 两个层面,MagicScaler 要显著优于其余经典的弹性伸缩算法,实现了“高 QoS(Quality of Service),低成本”的双丰收。
背景
云计算需要的日益倒退,基于用户需要正当地进行云资源分配是保障稳定性和管制老本的重要因素。图 1 所示是三种易于了解的扩缩容策略,激进(Conservative)策略会提供“激进、虚高”的 ECS 供应量,但会造成较高的资源节约;被动(Passive)策略是用户的需要达到后才执行扩缩容决策,会因为资源“冷启动”问题导致 QoS 守约的危险;为集成这两种策略的长处,预测式主动扩缩容(Predictive Autoscaling)策略能够了解为“提前晓得用户需要”后执行扩缩容决策,这将最有可能作为实现图 1 中现实境况的路径。
$$
图 1:三种易于了解的 AutoScaling 策略:a) 激进策略:高老本,低 QoS 危险;b) 被动策略:较低成本,高 QoS 危险;c) 现实策略:低成本,低 QoS 危险。
$$
现有的主动扩缩框架次要基于管制实践、强化学习、排队实践或基于规定生成扩所容决策,这些办法要么仅应用了较为简单的预测算法,如历史一段时间的均匀需要,并未思考需要可能存在的周期性以及需要的不确定性,使得预测精度不高,且难以应答需要的多变性。局部现有钻研仅以启发式办法解决需要的不确定性,难以失去持重的扩缩容决策。现实的扩缩容框架须要在预测和扩缩容决策阶段都充分考虑需要的不确定性。此外,现有的主动扩缩容框架并未思考云资源弹性伸缩场景中的一些业务属性和实在束缚,例如弹性资源在扩缩容阶段会经验的冷启动、退回老本,云平台场景下 QoS 和老本之间的衡量束缚等,因而现有的这些主动扩缩容框架难以间接利用于阿里云计算平台的弹性伸缩场景中。
挑战
云计算需要的日益倒退,基于用户需要正当地进行云资源分配是保障稳定性和管制老本的重要因素。图 2 展现了阿里云云原生大数据计算服务某个集群在不同数据粒度下的资源申请状况(数据已作脱敏解决),能够看出云上用户需要往往具备高度复杂性、不确定性和粒度敏感的工夫依赖性,这给将来需要的精确预测带来了肯定艰难,也使得被动弹性伸缩更具挑战性。一个好的被动弹性伸缩策略须要在思考需要不确定性的同时,放弃云平台低运行老本和高 QoS 之间的正当均衡。
$$
图 2 某集群不同数据粒度下的资源申请状况
$$
破局
本文提出了一种翻新的基于预测的云资源弹性伸缩框架 MagicScaler。该框架次要蕴含一个基于多尺度注意力高斯过程的预测模型和一个思考需要不确定性的弹性扩缩容优化决策器,以实现“高 QoS(Quality of Service),低成本”双丰收的指标。图 3 形容了 MagicScaler 的整体框架,蕴含预测器和调度器两局部。
$$
图 3 MagicScaler 整体框架
$$
(1)预测器:预测器局部次要构建了基于多尺度注意力机制的高斯回归预测模型。该预测模型设计有机交融了两种高效的预测策略:一是多尺度注意力机制,可能捕获简单的多尺度特色;二是随机过程回归,以量化预测后果不确定性。这使得预测模型能够实现准确的需求预测,联合量化的不确定性为后续的弹性伸缩打下基础。图 4 形容了预测器的整体框架,预测器的输出为 时刻回看的历史需要序列。通过 MAFE(多尺度特征提取)组件提取这个工夫序列特色,记为。将 输出至 GPR(高斯过程回归)模型,并以此预测将来 步工夫的需求量。
$$
图 4 预测器流程
$$
(2)调度器:调度器局部设计了基于预测后果和量化不确定性的弹性扩缩容优化决策器。将简单业务场景建模为马尔可夫决策(MDP)过程,并利用滚动时域优化的办法近似求解最优策略,实现了资源老本与 QoS 违规危险之间的灵便均衡。图 5 展现了调度器流程,包含马尔可夫决策过程(MDP)、优化器和弹性伸缩决策执行器。咱们的弹性伸缩器以概率需求预测散布作为输出,将弹性伸缩问题建模为马尔可夫决策过程。因为思考到 MDP 优化是一个有限域贝尔曼方程优化问题,咱们应用滚动时域优化策略,将贝尔曼方程在有限时域内的求解转换为无限时域内的随机布局,从而使得可能找到最佳策略来近似贝尔曼方程的最优解。
$$
图 5 调度器流程
$$
论文在阿里云云原生大数据计算服务 MaxCompute 3 个集群的实在数据集上进行了试验,综合老本和 QoS 两个层面,MagicScaler 要显著优于其余经典的弹性伸缩算法,更多试验后果请参阅咱们的论文原文。
利用
后续将进一步钻研如何将 MagicScaler 技术与 MaxCompute 现有调度策略联合。
- 论文题目:MagicScaler: Uncertainty-aware, Predictive Autoscaling
- 论文作者:潘志诚,王益杭,张颖莹,杨斌,程云爻,陈鹏,郭晨娟,文青松,田西夺,窦云亮,周志强,杨程程,周傲英,杨彬
- 论文链接:https://www.vldb.org/pvldb/vol16/p3808-yang.pdf
点击立刻收费试用云产品 开启云上实际之旅!
原文链接
本文为阿里云原创内容,未经容许不得转载。