关于云计算:技术抉择阿里云13年后重构全部核心调度系统

简介：在阿里云十三年的倒退历史上，从新设计调度零碎算得上是一个重要的技术抉择。

在阿里云十三年的倒退历史上，从新设计调度零碎算得上是一个重要的技术抉择。

云计算是一个宏大的技术工程。2009 年，阿里云从 0 到 1 自建国产云计算零碎“飞天”，为了确保对每一行代码都有控制力，阿里云抉择了一条艰巨的路线：自主研发。伏羲调度零碎是“飞天”三大服务之一。调度零碎作为云计算的核心技术，无论是对亚马逊、谷歌还是其余云计算企业来说，都是他们最激进的机密，而伏羲凭借自研与优异的性能，与 YARN、Mesos 等技术一起成为了调度零碎的典型代表之一。

这么多年倒退下来，很多人认为阿里云策略上最不同凡响之处，就是保持自研核心技术。作为寰球集群规模最大的云计算平台之一，阿里云在技术未然成熟、稳固运行着数量宏大的业务状况下，抉择了用云原生的规范从新设计和构建云计算的调度零碎，并在 2021 年“双十一”大促之前将寰球几十个数据中心、数百万容器、数千万核的资源通通搬到了新的调度零碎之上。

阿里云为什么在十三年之后重构调度零碎？在不影响业务运行的状况下，阿里云是如何更换“引擎”的？这种技术思路给咱们带来什么启发？新调度零碎有开源打算吗？InfoQ 采访了几位调度零碎负责人，为大家一一解惑。

资源调度零碎堪称是云计算的大脑，负责在泛滥集群内的机器里，抉择一台最合适的，以最佳的资源应用姿态，做到起码的互相烦扰来运行用户提交的计算作业。云计算最终目标之一是升高 IT 老本，最大限度地利用单台 PC 的 CPU 解决能力，而调度零碎恰好就决定着基础设施的利用率和整体运作老本。

无论是亚马逊、谷歌、微软还是阿里，某种程度上，“大脑”代表的是企业技术竞争力。核心技术的重要性显而易见，像谷歌的调度零碎 Borg，在很长一段时间内，始终是谷歌最激进的机密之一。

2008 年，阿里巴巴确定了“云计算”策略，决定自主研发大规模分布式计算操作系统“飞天”，指标是将几千台乃至上万台一般 PC 服务器连贯到一起，使其像一台多功能的超级计算机，实现超强计算性能。

2009 年 2 月，飞天团队在北京写下了第一行代码，“飞天”零碎也从此成为阿里云的奠基技术平台。伏羲调度零碎是十年前飞天成立时创立的三大服务之一，另两个是飞天分布式存储盘古和分布式计算 MaxCompute。

2011 年 7 月，阿里云作为中国第一个私有云正式对外开放。这之后的十多年里，伏羲能调度的单集群规模，也从最后的几百台物理机，倒退到了 10 万台机器。咱们晓得，规模每放大十倍，就意味着很多架构设计点都须要从新调整，当横向扩大遭逢不可逾越的瓶颈，就代表着零碎重构的开始，伏羲就因而经验了两次重构。

2013 年，伏羲在飞天“5K”我的项目中对系统架构进行了第一次大重构。“5K”顾名思义，就是能让调度零碎反对单集群 5000 节点，并解决大规模单集群下的性能、利用率、容错等问题。

不断扩大单集群的规模，到当初仍然是业界不同调度零碎在做的事件。

如果依附晚期的 Hadoop 开源调度器技术，以过后的实践经验来看，并不是容易的事件，因而伏羲团队抉择了架构和代码都是本人构建的自研形式。这个我的项目，在阿里云历史上也是一次十分有里程碑意义的“攻坚战”。

（阿里飞天 5K 我的项目纪念碑）

随后历经一年半工夫，阿里巴巴和蚂蚁金服实现“登月打算”，将所有数据存储、计算工作全副迁徙至飞天平台。在 2015 年 Sort Benchmark 排序比赛中，飞天用 377 秒实现 100TB 的数据排序，突破四项世界纪录。随着阿里云的业务需要变动，伏羲的外延也在不断扩大。最开始是作为一款对标开源 YARN 的繁多资源调度器，而后扩大成了笼罩数据调度、资源调度、计算调度、单机调度等的外围调度零碎，伏羲也于 2019 年经验了第二次重构，并将单集群规模扩大到了十万台。

伏羲是负责阿里离线业务的调度零碎，而于 2015 年正式立项的 ASI 调度器则撑持着阿里搜寻、电商等宏大的在线业务。在线调度历史也比拟悠久，最早起源于 2011 年上线的 T4 零碎，即阿里晚期基于 LXC 和 Linux Kernel 定制的容器调度器。T4 的技术理念与现在云原生畛域的核心技术——容器，一模一样。

在线调度最开始是一个简略的资源分配零碎，而后逐步演进为 Sigma 调度器、ASI 调度器，在倒退过程中又进一步排汇并交融了伏羲离线调度零碎、搜寻团队基于 YARN 的 Hippo 零碎的先进经验。

（0 层调度器负责全局资源视图和治理，并对 1 层调度器 Sigma、伏羲进行仲裁）

据称寰球服务器均匀利用率不到 20%，因而晋升服务器的资源利用率是很多大厂一直追赶的指标。

2014 年左右，阿里巴巴开始鼎力摸索混部技术，通过将在线业务和离线大数据计算的负载混部运行在共享的集群中，以期能够显著进步数据中心资源利用率。与离线调度不一样的是，相似双十一流动中的零点峰值场景，它对在线调度 CPU 的集群化编排要求十分高，对提早和抖动敏感；离线业务正好相同，平时资源应用压力较高，业务资源应用较为固定，对时延不敏感。所以，只有两类负载能跑在共享的集群中应用“分时复用”的策略，就能够达到晋升利用率的目标。

正是因为在线离线混部对于进步集群利用率十分有意义，所以无论是在学术界，还是在各大厂商理论落地中，都对混部做了深刻的钻研，各大企业中最早做混部实际的是谷歌 Borg。尽管有 Borg、Omega 先例存在，但谷歌很少对外分享本人的混部实际，仅在 2015 年、2019 年对外公布过两篇论文。这也意味着，如果想做好“混部”调度，企业都得靠本人去摸索。阿里的混部实际也于 2015 年正式立项，并于当年的双十一经验了一次资源调度能力的“考验”。据公开材料显示，混部能将阿里云的 CPU 资源利用率从 10% 晋升到 40%。

作为自研的调度零碎，伏羲和 Sigma 运行在一起，这种混部零碎模式曾存在很多烦扰和影响，一方面是两个零碎之间节点状态不统一造成的烦扰，另一方面是两个零碎所调配的容器相互之间的烦扰。然而“混部”带来的收益又不可漠视，因而阿里于 2016 年开始重点研发了 Sigma 1.0，基于 Docker Swarm 通道创立容器，并将演进中的各种语言技术栈对立为 Golang，同时在实际层面做了很多隔离、协同的优化工作，也将不同等级的任务调度做得更精细化。

整个演进过程中，调度团队也曾将实际成绩分享为数篇顶会论文，失去了学术界和工业界的认可。有意思的是，谷歌曾在 2019 年 11 月分享了 Borg 集群运行数据，在对应的论文中谷歌顺便指出其零碎很少在集群中应用超过 50% 的内存，但据报道竞争对手阿里巴巴达到了 80% 的利用率。

大船难调头，阿里的调度零碎倒退了十多年，成绩斐然，性能优异，运行的业务规模也是数千万级别了，但 2021 年，阿里云还是决定将伏羲、Sigma 双调度协同零碎重构为基于 ACK 的“对立调度零碎”。

咱们在技术上达到了一个新的临界点。

2020 年 6 月，阿里云集结了 100 多位调度团队外围技术人员，开始了重构的过程。

通过一年多的研发，赶在双十一之前，将数千万量级的业务切换到了新一代的“对立调度零碎”上。新框架基于阿里云容器服务 Kubernetes 版（简称容器服务 ACK），通过一套调度协定、一套零碎架构，对立治理底层的计算、存储、网络资源。ACK 自身提供了一个全托管的 Kubernetes 集群的调度能力，对于 IaaS 层不同类型的计算、存储、网络等能力都能够对立调度，是对立调度大资源池化生产运行的基座。

2021 年双十一，新零碎买通并对立了阿里巴巴电商、搜推广、MaxCompute 大数据和蚂蚁业务，全面撑持了寰球数十个数据中心、数百万容器、数千万核的大规模资源调度。

Kubernetes 我的项目始于 2014 年，源自谷歌外部的 Borg，排汇了 Borg 我的项目多年的实践经验，它超前引入了 Pod 概念将容器分组，大量应用了 Sidecar 设计模式，为容器化利用提供了自动化的资源调度，并具备动静扩容、滚动降级、负载平衡、服务发现等性能，受到大厂的鼎力推崇。

在接下来的两年里，与其对应的 Mesos、Docker Swarm 等相比，Kubernetes 作为容器编排引擎的采纳迟缓却很稳固，当先的科技巨头如亚马逊、阿里巴巴、微软 Azure、红帽都开始启动了基于 Kubernetes 的新解决方案。

2019 年，Sigma 全面迁徙到了基于 ACK 的调度零碎。同时，在这几年里，阿里的技术体系也逐步全面切向云原生技术，去年 9 月，阿里云容器服务全面降级为 ACK Anywhere。

据在线调度零碎负责人智清回顾，在线调度零碎最后是齐全自研的，云原生衰亡之后，在线调度团队于 2017 年决定将这套技术框架迁徙到 Kubernetes，打消两者之间的差别并跑在阿里云容器服务 ACK 上。“刚开始是比拟艰巨的，尝试过好多版本，包含 Sigma on Kubernetes、Kubernetes on Sigma 等形式，最初还是决定用最规范、最原生的、齐全基于 Kubernetes 的形式。”前面启动的 ASI 我的项目，它做的事件就是将整个调度框架以十分原生的规范形式搬到 Kubernetes 上，在 Kubernetes 根底上做到在线、离线调度的真正交融。而且在业务侧，阿里也专门组织了一支云原生团队来推动容器化，最终造成一个整体的云原生资源池。

云原生对立调度架构师懿川将这些年调度零碎的倒退过程总结为三个阶段：

第一个阶段是非容器阶段，仅有调度的需要，并且基础设施还没有欠缺，属于调度的最初期阶段。在这个阶段，无论是伏羲还是 T4，根本都是借助一些比较简单的隔离概念，以及一些内核的能力，靠本身的演进来实现对调度的最奢侈的需要。

第二个阶段是开始进入容器阶段。容器技术应用场景变多，规模变大，Sigma 以容器为主进行了革新。在这个阶段，须要调度零碎既能承接业务的需要，又能同时深耕容器技术。

第三个阶段是云原生化，调度零碎齐全基于新一代的容器技术，蕴含阿里本人的平安容器、RunC 以及其余的虚拟化技术，同时调度器的实现框架上也需适应整个 Kubernetes 生态。也就是将电商、搜寻和大促这种发明洪峰型的业务，以及十多年调度零碎技术积攒，再联合 Kubernetes 开源架构的劣势，整合到一起进行大规模利用。

总而言之，阿里重建调度零碎的决策，是基于业务演进的须要，也是心愿能有一个全局资源池，对立撑持所有业务状态。

云计算的实质，是将小的计算碎片变成更大的资源池，充沛削峰填谷，提供极致的能效比。混部技术突破了多资源池的割裂，不同计算畛域的多调度大脑协同共用资源，让业务间峰谷互补的劣势施展到最大，但两个调度器，因为彼此间无奈高效地交互细粒度信息，妨碍了混部成果的进一步晋升。

另外调度老本、资源的调度效率和业务独占资源池有很大的关系。从过来的调度零碎演进教训来推断，建设对立资源池是最好的晋升效率的办法：业务上有很多共同性的调度需要是能够互相配合和优化借鉴的，各自演进并不利于倒退。无论是搜寻还是电商，在线还是离线，如果作业类型越来越相近的话，就能够通过单干和共建，作为同一种调度类型去建设和演进，集中力量将云原生终态计划一起做到极致，并心愿最初能做到自研、商用、开源三位一体。

双调度零碎协同的形式跟谷歌的 Borg 或微软的零碎相比，在集群管理模式上有肯定的区别，那是否是因为双调度零碎协同模式存在缺点才会导致重构？回复 InfoQ 的采访时，懿川认为调度零碎的倒退和业务状态密切相关。国内很多企业的确会存在领有多种调度零碎的状况，起因是在线业务和离线业务特点有很大的不同，性能、吞吐量、工作长短类型等，以及对调度业务的需要决定了调度器的架构设计。

“反倒是做成一个对立的调度零碎是比拟难的，做成多种调度零碎绝对来讲更容易。而且相似谷歌的 Borg 或微软的 Apollo 零碎一开始也不是所有的调度策略、逻辑以及场景都能反对，也有一个在演进过程中逐渐减少性能的过程。”

新调度零碎须要反对在线离线、低频高频各种调度类型和泛滥业务品种，且要齐全兼容 Kubernetes 生态，还须要是模块化、组件化，造成一个可插拔式的机制。

对立调度团队针对 Kubernetes 社区版在 Pod 和资源平安上做了很多优化，围绕 API Server、ETCD、Kubelet 做了不少性能优化和代码批改。对立调度在 Pod 和接口调用上也做了很多平安进攻方面的事件，例如 ETCD 错配或呈现其它问题时如何进行防护，从而保障底座平台的平安。但最重要的两方面革新在单集群规模、调度频次性能上。

Kubernetes 晚期版本仅反对几百节点的单集群规模，与 Mesos 反对的节点数量相去甚远，各大厂汇合力量一起大幅晋升了 Kubernetes 的集群治理规模，到 1.9 版本就已能够稳固反对 5000 个节点，但远达不到阿里原来调度零碎单集群上万节点的性能要求。并且 Kubernetes 以 API Server 为核心的音讯同步机制，更实用于调度频度较低的在线服务场景，对于阿里零碎中的大数据计算场景，可达每秒 10 万次的调度频度。所以“只管 Kubernetes 曾经演进很久了，然而在咱们的调度器上依然须要投入大量的工作来革新，才可能满足咱们的要求。”

如果要问哪些历史教训有助于新零碎重构的话，集群治理规模的冲破必然是其中之一。

2013 年的飞天 5K 我的项目，曾经早早冲破了单集群 5000 节点的规模。在前面的演进中，伏羲再次经验了第二次重构，据伏羲散布式调度负责人李超回顾说，过后次要思考到“当初集群的规模可能动不动就过万台，不光是物理节点在减少，CPU 的解决能力也在一直加强。5 年前一台物理机上个别二三十个 CPU core，当初一台物理机节点里曾经变成了一百多个 CPU core 了。相当于即使物理机节点不减少，可调度的总资源扩充了五六倍，甚至扩充了一个数量级，这对调度的挑战是很大的。”

“如果规模有限扩大上来，在架构和设计上也要有一个应答的计划。随着规模持续变大，咱们也要 Hold 得住。”

在伏羲 2.0 资源调度的重构里，伏羲团队提出了一些比拟新鲜的观点，在混部中引入去中心化的多调度器架构，基于乐观锁这种 Partition 策略，解决调度之间的抵触，保障调度 latency 性能达到与小规模下的零碎雷同的程度。

但 Kubernetes 单集群规模无限，远不能满足明天的诉求。对立调度团队通过对 API Server 和 ETCD 的算法优化、在服务端进行数据压缩以及链路治理的形式，将集群规模从 8 千台（2020 年）扩大到 1.2 万台（2021 年）节点，而业界个别达到 8 千台就曾经是超大规模。

此外，因为 Kubernetes 容器拉起的工夫在几秒甚至几十秒，如果须要做到一秒钟有十万次的调度，也必须对其进行大量革新。

对立调度团队参考了 Kubernetes 社区 scheduler framework 插件化和多调度机制，通过灵便的调度框架让不同的调度团队能够定制各自的调度需要，从而让 Kubernetes 可能很好的去反对一些场景下的大规模高并发的调度需要。比方在阿里大数据场景下，对调度零碎的要求是每秒钟能产生十万次调度。

2021 年双十一之前，伏羲和 ASI 调度零碎中的机器和计算资源已迁徙到了对立调度零碎，仅伏羲就蕴含几万台机器、数百万核计算资源，迁徙过程需全程对业务和用户通明无感。

同时这个零碎自身是一个波及十分多人的协同我的项目，两头波及到一次残缺的零碎从新设计和实现，还要将原有积攒的伏羲、Sigma、ASI 以及 Hippo 的设计教训交融进来，且放弃对业务的兼容性和对开源框架的兼容性。

能够说，整体设计非常复杂，代码开发波及的耦合也很高，各个系统之间还存在各种对接。

以伏羲为例，在阿里 MaxCompute 技术体系中，伏羲一方面是分布式系统的资源管理和调度组件，须要与下层作业执行引擎进行资源交互，另一方面也是各种运维管控的数据源，简单的模块依赖决定了系统升级是一件十分艰巨的事件。如果将 MaxCompute 比作一架高速航行的飞机，对立调度降级就是要给这架航行中的飞机更换引擎，难度可想而知。

“留给咱们上线的工夫窗口很小，但整体的业务要求却很高。双十一的工夫点是摆在那里的一个硬性指标，咱们不可能错过。”懿川介绍我的项目背景时讲到。

在这种状况下，要让新零碎在“双十一”大促中体现得更有保障，李超示意次要有两大技术动作：

第一是灰度上线之前，有专门的风洞测试机制，它能把历史上实在生产的一些需要、申请在测试环境去做回放（Replay），从而验证通过新一轮的批改或者新的性能后零碎是否能稳固上线。

第二是在稳定性上，在状态的可复原上，传统的形式是基于 Kubernetes ETCD 的长久化机制，然而因为大数据的调度频率达到每秒十万次的调度，这种状态要做长久化保障是比拟艰难的。新零碎引入了软硬状态 fail over 机制，简略来说是基于这个状态的从新收集，而不是齐全依赖于状态的长久化。在不同的角色下来收集状态，重建调度器过后的状态。

另外在工程上也须要一套很严格的施行和上线机制：

保障代码高质量和低缺陷率，并做好全面的单元测试，平时基本功扎实能力保障最终的工程质量。
上线之前，用靠近实在生产的环境进行测试和验证，确保可能跑通，如果呈现问题及时解决和解决，合乎整体的上线进度。“咱们最初上伏羲集群的过程中，呈现的问题都是日清日结，让问题疾速收敛，保障整个集群的交付能够符合要求。”
分阶段灰度测试。第一阶段用小规模的迁徙，“过后只是用几十台节点机器对立调度跑起来，再到前面就逐步放大规模”，而且还须要先从重要水平绝对低的业务开始切换，并保障足够长的灰度工夫，最初才在线全面铺开，没问题后再将更简单的离线调度引入混部运行。
保障每天有肯定的切换量，最终将零碎按时切完。“当然这也有肯定运气成分在：咱们没有呈现特地重大的问题，这也十分考验整个我的项目成员的设计和实现的功底。当然也须要咱们有整体的机制和流程的保障。”
零碎须要一个欠缺的监控机制。“上线一个零碎之前，咱们先得想好怎么去监测它。观测方方面面的上百个维度的元数据是不是失常，通过欠缺的监测，零碎一旦呈现问题，咱们能第一工夫发现，做一些回滚动作，或者提前准备好一些解决机制，来保障用户受到影响之前零碎可能复原到一个失常的状态。”

每个技术都有本人的生命周期，十多年前大家很难想到 Kubernetes 会成为当今技术界的扛把子，而技术演进过程中，开发者的使命就是用最合适的技术来构建咱们的零碎。应用新技术不代表过来的教训和成绩不再有价值，对立调度零碎也是汲取了伏羲和 Sigma 零碎构建中的精髓。

开源技术影响着调度零碎的演进，而部署在大型企业生产环境中的零碎，无论是谷歌的 Borg、微软的 Apollo 还是脸书的 Twine，反过来也在影响开源我的项目的零碎演进。对立调度团队示意，将来会进一步晋升和欠缺整个调度器的性能和能力，持续往 2.0 推动；另一方面，要实现自研、商用、开源三位一体的指标，作为策略打算推动我的项目的开源，包含开源要害能力和规范、框架。建设这样一个超级零碎，投入和挑战都十分大，而开源可能将更多的人汇集起来，一起把这套零碎做得更好。

采访嘉宾简介：

懿川，阿里巴巴研究员，云原生对立调度架构师。全面负责对立调度我的项目，在分布式畛域和资源管理畛域有多年的教训积攒。

李超，阿里云智能计算平台事业部资深技术专家，飞天平台伏羲散布式调度负责人，领有十多年分布式系统与大数据研发教训。

智清，阿里云智能容器服务资深技术专家，ASI 调度零碎负责人，负责了阿里巴巴在线调度从 Sigma、ASI、到全面对立调度的迭代演进。

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于云计算:技术抉择阿里云13年后重构全部核心调度系统

倒退十三年，成绩斐然的老调度零碎

艰巨起步，从 0 到 1 自研伏羲调度零碎

双调度零碎混部实际

基于阿里云容器服务 ACK 的调度零碎

为什么要重建？

新调度系统对 Kubernetes 的改良和加强

航行中更换引擎

将来布局