关于腾讯云:云原生下离在线混部实践系列深入浅出-Google-Borg

Google Borg 是资源调度治理和离在线混部畛域的鼻祖，同时也是 Kubernetes 的起源与参照，已成为从业人员首要学习的榜样。本文尝试管中窥豹，简略从《Large-scale cluster management at Google with Borg》一文中分析 Google Borg 的设计理念和性能特点，用以抛砖引玉。

Google Borg 是 Google 外部自研的一套资源管理零碎，用于集群资源管控、调配和调度等。在 Borg 中，资源的单位是 Job 和 Task。Job 蕴含一组 Task。Task 是 Borg 治理和调度的最小单元，它对应一组 Linux 过程。相熟 Kubernetes 的读者，能够将 Job 和 Task 大抵对应为 Kubernetes 的 Service 和 Pod。

在架构上，Borg 和 Kubernetes 相似，由 BorgMaster、Scheduler 和 Borglet 组成。

Borg Alloc 代表一组可用于运行 Task 的资源 ，如 CPU、内存、IO 和磁盘空间。它实际上是集群对物理资源的形象。Alloc set 相似 Job，是一堆 Alloc 的汇合。当一个 Alloc set 被创立时，一个或多个 Job 就能够运行在下面了。

每个 Job 都能够设置 Priority。Priority 可用于标识 Job 的重要水平，并影响一些资源分配、调度和 Preemption 策略。 比方在生产中，咱们会将作业分为 Routine Job 和 Batch Job。Routine Job 为生产级的例行作业，优先级最高，它占用对应理论物理资源的 Alloc set。Batch Job 代表一些长期作业，优先级最低。当资源缓和时，集群会优先 Preempt Batch Job，将资源提供给 Routine Job 应用。这时 Preempted Batch Job 会回到调度队列期待从新调度。

Quota 代表资源配额，它束缚 Job 的可用资源，比方 CPU、内存或磁盘 。Quota 个别在调度之前进行查看。Job 若不满足，会立刻在提交时被回绝。生产中，咱们个别根据理论物理资源配置 Routine Job Quota。这种形式能够确保 Routine Job 在 Quota 内肯定有可用的资源。为了充沛晋升集群资源使用率，咱们会将 Batch Job Quota 设置为有限，让它尽量去占用 Routine Job 的闲置资源，从而实现超卖。这方面内容前面会在再次详述。

调度是资源管理零碎的外围性能，它间接决定了零碎的“好坏”。 在 Borg 中，Job 被提交后，Borgmaster 会将其放入一个 Pending Queue。Scheduler 异步地扫描队列，将 Task 调度到有短缺资源的机器上。

通常状况下，调度过程分为两个步骤：Filter 和 Score。

Filter，或是 Feasibility Checking，用于判断机器是否满足 Task 的束缚和限度，比方 Schedule Preference、Affinity 或 Resource Limit。
Filter 完结后，就须要 Score 符合要求的机器，或称为 Weight。上述两个步骤实现后，Scheduler 就会筛选相应数量的机器调度给 Task 运行。实际上，抉择适合的调度策略尤为重要。

这里能够拿一个咱们生产遇到的调度问题举例。

生产初期，咱们的调度零碎采纳的 Score 策略相似 Borg E-PVM，它的作用是将 Task 尽量平均的调度到整个集群上。从侧面成果上讲，这种策略扩散了 Task 负载，并在肯定水平上放大了故障域。但从背面看，它也引发了资源碎片化的问题。因为咱们底层环境是异构的，机器配置并不对立，并且 Task 配置和物理配置并无对应关系。 这就造成一些配置过大的 Task 无奈运行，由此在肯定水平上升高了资源的分配率和使用率。

为了应酬此类问题，咱们自研了新的 Score 策略，称之为“Best Fillup”。 它的原理是在调度 Task 时抉择可用资源起码的机器，也就是尽量填满。不过这种策略的毛病不言而喻：单台机器的负载会升高，从而减少 Bursty Load 的危险；不利于 Batch Job 运行；故障域会减少。

本篇论文作者采纳了一种被称为 hybrid 的形式，据称比第一种策略减少 3-5% 的效率。

资源管理零碎的首要指标是进步资源使用率 ，Borg 亦是如此。不过因为过多的前置条件，诸如 Job 搁置束缚、负载尖峰、多样的机器配置和 Batch Job，导致不能仅抉择“average utilization”作为策略指标。在 Borg 中，应用 Cell Compaction 作为评判基准。简述之就是：能承载给定负载的最小 Cell。

Borg 提供了一些进步 utilization 的思路和实际办法，有些是咱们在生产中曾经采纳的，有些则十分值得咱们学习和借鉴。

Borg 发现，将各种优先级的 Task，比方 prod 和 non-prod 运行在共享的 Cell 中能够大幅度的晋升资源利用率。

下面（a）图表明，采纳 Task 隔离的部署形式会减少对机器的需要。图（b）是对额定机器需要的散布函数。图（a）和图（b）都分明的表明了将 prod Job 和 non-prod Job 离开部署会耗费更多的物理资源。Borg 的教训是大概会新增 20-30% 左右。

个中原理也很好了解：prod Job 通常会为应答负载尖峰申请较大资源，实际上这部分资源在少数工夫里是闲置的。Borg 会定时回收这部分资源，并将之调配给 non-prod Job 应用。在 Kubernetes 中，对应的概念是 request limit 和 limit。咱们在生产中，个别设置 Prod Job 的 Request limit 等于 limit，这样它就具备了最高的 Guaranteed Qos。该 QoS 使得 pod 在机器负载高时不至于被驱赶和 OOM。non-prod Job 则不设置 request limit 和 limit，这使得它具备 BestEffort 级别的 QoS。kubelet 会在资源负载高时优先驱赶此类 Pod。这样也达到了和 Borg 相似的成果。

Borg 通过试验数据表明，小容量的 cell 通常比大容量的更占用物理资源。

这点对咱们有很重要的指导意义。通常状况下，咱们会在设计集群时对容量问题感到当机立断。

不言而喻，小集群能够带来更高的隔离性、更小的故障域以及潜在危险。但随之带来的则是治理和架构复杂度的减少，以及更多的故障点。

大集群的优缺点正好相同。在资源利用率这个指标上，咱们凭直觉认为是大集群更优，但苦于无松软的理论依据。Borg 的钻研表明，大集群有利于减少资源利用率，这点对咱们的决策很有帮忙。

Borg 对资源细粒度调配的办法，目前已是支流，在此就不再赘述。

理解 Kubernetes 的读者，应该对 resource request 和 limit，在 Google Borg 中概念相似。Job 在提交时须要指定 resource limit，它能确保外部的 Task 有足够资源能够运行。

有些用户会为 Task 申请过大的资源，以应答可能的申请或计算的突增。但实际上，局部资源在少数工夫内是闲置的。与其资源节约，不如利用起来。这须要零碎有较准确的预测机制，能够评估 Task 对理论资源的需要，并将闲置资源回收以调配给低 priority 的工作，比方 Batch Job。

上述过程在 Borg 中被称为 resource reclamation，对应用资源的评估则被称为 reservation。Borgmaster 会定期从 Borglet 收集 resource consumption，并执行 reservation。在初始阶段，reservation 等于 resource limit。随着 Task 的运行，reservation 就变为了资源的理论使用量，外加 safety margin。

在 Borg 调度时，Scheduler 应用 resource limit 为 prod Task 过滤和抉择主机，这个过程并不依赖 reclaimed resource。从这个角度看，并不反对对 prod Task 的资源超卖。但 non-prod Task 则不同，它是占用已有 Task 的 resource reservation。所以 non-prod Task 会被调度到领有 reclaimed resource 的机器上。

这种做法当然也是有肯定危险的。若资源评估呈现偏差，机器上的可用资源可能会被耗尽。在这种状况下，Borg 会杀死或者降级 non-prod Task，prod Task 则不会受到任何影响。

上图证实了这种策略的有效性。参照 Week 1 和 4 的 baseline，Week 2 和 3 在调整了 estimation algorithm 后，理论资源的 usage 与 reservation 的 gap 在显著放大。在 Borg 的一个 median cell 中，有 20% 的负载是运行在 reclaimed resource 上。

相较于 Borg，Kubernetes 尽管有 resource limit 和 capacity 的概念，但却短少动静 reclaim 机制。这会使得系统对低 priority Task 的资源短少卓有成效的评估机制，从而引发零碎负载问题。这个性能对资源调度和晋升资源使用率影响微小。

因为 Google Borg 天生就思考混部场景，所以资源隔离对其尤为重要。在外部场景，Google Borg 多应用 Linux 隔离，比方 chroot、cgroup 等，相似容器隔离机制。私有云侧，Google Borg 则通过 VM 或沙箱技术实现 Task 间的强隔离。

在性能隔离方面，Google Borg 通过辨别利用优先级的形式保障服务质量。latency-sensitive（LS）高优工作领有高的资源保障，Batch 低优工作占用资源则会依据须要被克制。

在集群资源方面，Google Borg 将之分为可压缩和不可压缩资源。与流速相干的资源，诸如 CPU、磁盘 IO 等，被定义为可压缩资源。这部分资源若被耗尽，Borglet 会首先降级解决低优工作，而不是间接杀死。这种做法能最大水平保障低优工作服务质量。不可压缩资源，包含内存、磁盘空间等，在资源缓和时，工作会被依照优先级从低到高杀死，直到缓和状况缓解。

在内核层面，Google Borg 同样有策略保障资源隔离与复用。比方 LS 工作可独享物理 CPU 外围，其余 LS 工作不可复用。Batch 工作能共用这部分 CPU，通过设置低 cpus_share 的形式与 LS 工作隔离。Borget 也会周期性的调整 LS 工作，以防止 Batch 工作被饿死。为了反对高敏工作，Google Borg 对 CFS 做了加强，使之可依据 cgroup 负载预测提前抢占 Batch 工作，从而升高 CFS 调度提早。

离在线混合部署是一套简单的零碎和技术，须要从方法论、业务、利用、资源调度零碎、操作系统等多个层面的实现和配合，并且也须要长期的实战和教训积攒。Google Borg 作为 Google 外部的教训结晶，零碎的论述了混部应有的根本状态，很有启发意义。 目前咱们在腾讯外部也开发和上线了一套基于 Kubernetes 的离在线混合部署零碎，反对动静资源预测、资源回收和内核级隔离。 后续会继续分享混部相干的实践和实战经验。

Large-scale cluster management at Google with Borg：https://iwiki.oa.tencent.com/…
evolution of cluster scheduler architecture：http://www.firmament.io/blog/…
poseidon：https://github.com/kubernetes…
design：https://docs.google.com/docum…
firemament：https://github.com/camsas/fir…

【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯，扫码关注同名公众号，及时获取更多干货！！

关于腾讯云:云原生下离在线混部实践系列深入浅出-Google-Borg

Google Borg 是什么？

Borg Allocs

Priority 和 Quota

Schedule

Utilization

Cell Sharing

Large cells

Fine-grained resource requests

Resource reclamation

Isolation

总结

参考资料

Just My Socks（注册教程内含优惠码）

关于腾讯云:云原生下离在线混部实践系列深入浅出-Google-Borg

Google Borg 是什么？

Borg Allocs

Priority 和 Quota

Schedule

Utilization

Cell Sharing

Large cells

Fine-grained resource requests

Resource reclamation

Isolation

总结

参考资料

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）