关于云原生:将云原生进行到底腾讯百万级别容器云平台实践揭秘

导读|基于 K8s 的云原生容器化曾经在腾讯外部海量业务中大范畴落地实际。业务从传统的虚拟机部署状态无缝切换到容器部署状态，运行在 K8s 上的利用从无状态服务扩大到有状态服务，这个过程经验了哪些革新？同时，K8s 如何禁受住业务状态简单多样、模块数量宏大的考验？遇到哪些新的挑战？如何优化？成果怎么样？腾讯云高级工程师林沐将为你解答。

在线业务资源容器化部署的问题与优化计划

腾讯平台的业务根本都属于在线业务。这些业务以前在虚拟机部署时，是通过物理机操办的形式生产出很多虚拟机，对于业务来说是不感知的。当业务发现虚拟机负载较低时，可将多个在线业务混部来进步资源利用率。

这种资源管理形式到容器化部署时产生了一些变动，次要有四方面的内容。

容器交付 。每个 Pod 在交付的同时须要申明规格大小，规格大小要扭转时 Pod 必须销毁重建，无奈通过混部来新增业务。 节点平衡 。K8s 每个节点上部署多个 Pod，每个节点上的 Pod 类型、数量也都不雷同，要保障节点平衡是一个挑战。K8s 的云原生个性，也就是弹性，是否可能合乎在线业务在生产环境中的需要？ 集群池化。K8s 是按集群维度治理，而平台有上万个业务，这么多业务如何映射到不同的集群实现条带化治理？

针对上述问题，腾讯采取的优化伎俩是：

第一，资源利用率晋升——动静压缩和超卖。咱们面临一个痛点是用户配置的容器规模不合理，广泛偏大，这样节点装箱率和负载比拟低。所以第一个优化形式就是 Pod 资源动静压缩，Pod 申请双核处理器 4G 内存，在调度时压缩成单核 4G 内存。因为 CPU 属于可压缩资源，内存属于不可压缩资源。这里批改的只是 Request 大小，并不批改 Limit，所以不影响容器理论能应用的上限值。这样能进步节点的装箱率。接下来是 Node 资源动静超卖，依据负载状况超卖更多 CPU 外围。

第二，节点负载平衡——动静调度和重调度。资源压缩超卖能进步节点的装箱率和负载使用率，但 Pod 是共享 Node 的，压缩和超卖会加剧它们之间的烦扰。于是咱们开发了动静调度器，当每一个 Pod 调度时，可能感知存量 Node 以后的实时负载状况，从而对增量 Pod 在 Node 当中平衡解决，掉到一个低负载的节点上。存量 Pod 在节点上也有可能产生高负载，这时咱们在节点上部署 Pod-Problem-Detecor、NodeProblem-Detecor，检测出哪个 Pod 会导致节点高负载，哪些 Pod 属于敏感 Pod，通过事件上报通知 API Server，让调度器将异样 Pod、敏感 Pod 从新调度到闲暇节点。

第三，K8s 业务弹性伸缩——协同弹性。在线业务最关怀业务稳定性。有时业务负载超出预期时，因为最大负载数配置过低，导致业务雪崩。所以咱们对 HPA 进行优化，退出 HPAPlus-Controller，除了反对弹性最大正本策略之外，还可能反对业务自定义配置进行伸缩。第二个是 VPAPlus-Controller，能够 Pod 突发高负载进行疾速扩容，对有状态的服务也能够进行无感知扩缩容。

第四，集群资源管理——动静配额和资源腾挪。从平台的角度，K8s 集群也是一个重要的保护对象。平台通过动静 Operator 的形式管制业务对集群的可见性以及配额大小，使得各个集群的业务是散布平均的。集群自身也有规模大小，有节点伸缩，叫做 HNA。HNA 可能依据集群负载状况主动补充资源或开释资源。生产环境中一种状况是，有时候突发流动，在公共资源池里没有特定资源，须要从其余零碎里腾挪资源。所以咱们开发了弹性资源打算 Operator，它会给每个节点、每个集群下发工作，要求每个集群开释一些 Node 进去。这批节点的数量要尽可能合乎业务的数量要求，同时要对存量业务的负载品质不产生影响。咱们的形式是通过动静布局的形式解决问题，从而在业务做流动，或者紧急情况下，可能使集群之间的资源也可能流转。

容器化对动静路由同步的挑战与解决方案

每一个 Pod 在销毁重建的时候会动静增加或提取路由。一般来说，生产环节中的路由是第三方零碎负责，当 Pod 失常的时候零碎给它转发流量，或者做名词解析，当它摘除时就从名词服务里剔除。

但咱们的平台在生产环节中会遇到一些非凡状况。第一个状况就是容器化之后容器的变更更加频繁。第二个变动在于业务规模十分宏大，单个负载的 Pod 可能成千上万。第三是业务层面的变动，云原生的形式是一个集群对一个路由入口，但在生产环节又是第三方路由零碎，容许云上云下混合部署，跨集群多路由服务共享路由。动静路由是容器化的要害门路，是要解决的外围问题。

在宏观层面，业务对容器运行阶段有非凡需要，包含容器分级、路由和过程的运行状态统一、大批量探针失败时要实现路由熔断。

生产环节中路由零碎是十分多的，每个路由零碎会对应一种管制组件。所以咱们须要路由同步 Controller 的对立框架。这个框架实践上是一个旁路 Controller，因而存在不牢靠的问题。例如在 Pod 下线前，销毁的时候不保障曾经剔除路由；又比方在滚动更新时，可能上一批还没有增加路由，下一批就开始销毁重建。因为有些业务又比拟敏感，必须要求相对保障线下和滚动的时候路由的正确性，于是咱们利用了 K8s 云原生的删除爱护、滚动更新机制来实现这一需要。当业务在销毁之前先剔除路由，业务在滚动更新的时候先保

证上一批增加。通过这种形式将路由融入到 Pod 生命周期里，来实现业务的可靠性。

对于运行阶段，例如容器异样主动重启，或者 Pod 其中一个容器通过原地生成的形式启动，这些场景就会绕过后面提到的滚动更新和删除爱护。所以还要在运行阶段保障业务之间的疾速同步。业务大批量变更又会产生大量事件，导致 Controller 积压问题。

对此咱们第一个优化形式是应用 Service 粒度事件合并，将事件数量成数量级缩小来进步速度。第二个是双队列模型。K8s 的 Controller 里有定时历史对账机制，会将所有的 Pod 对象全副入队列。咱们须要将实时和定时的事件离开，这样既可能解决定时对账，又能解决实时处理需要。

这外面有一个细节问题，两个不同队列可能在同一个时刻会有同一个事件要解决，这就须要互相感知的能力防止这种状况产生。

下一个 Controller 框架的外围点在于反对共享路由。但云原生的 K8s 机制里是一个集群对应一个路由入口，所以咱们在 Controller 框架里减少一个路由同步记录，也是依照 Service 的粒度去记录的。如果业务零碎产生脏数据，例如触发一个剔除操作，然而路由零碎返回胜利了，实际上没有剔除，那么下一次它去同步解决这个事件的时候发现它没有被剔除，那么还是会再从新剔除一遍。也就是说路由操作等于期望值去 Diff 以后值，而它的期望值就等于 Endpoint 和 Pod 生命周期的交加，以后值就是路由零碎外面的状况加上路由记录，二者再取差积就是要做的路由操作。

旁路 Controller 作为一个组件会有异样的时候，尽管 K8s 提供 Leader 机制，但这个机制被 Controller 拉起时须要预加载存量 service 数据，如果数据量十分大须要很久工夫。咱们的解决形式是，每一个 Controller 运行的时候属于主备模式，这样当主容器挂掉的时候，备容器取得锁，之间的距离就是整个 Controller 同步中断的最长工夫，之后备容器就能够疾速接管路由通路服务。中断期间可能产生事件失落问题，咱们通过定时历史对账机制解决这个问题。

咱们还有非凡需要，是业务为了兼容虚拟机部署的一种治理形式，次要针对容器的运行阶段以及非凡解决。这里的需要包含容器分级、流量均衡、路由熔断。这些需要对传统的 Endpoint Controller 而言是不感知的，原来只保护 Ready 和 Not Ready 的状态，没有感知更细分的状态去保护容器的角色和状态。如果这是由路由 Controller 来实现，那么对这些非凡场景来说是牵一发而动全身的，每一个组件都得同时开发，批改一遍，保护老本是很高的。所以咱们提供了一种解决方案——Endpoint-Plus Controller。它将保护容器角色和状态的能力下沉到 Endpoint 来实现。它与 Endpoint 和路由同步 Controller 之间建设一种交互协定，就是 Endpoint Ready 时增加路由，Not Ready 时禁用路由，不在 Endpoint 里删除路由。这样所有组件都是对立的，而且每次业务的新需要只有批改 Endpoint 就对全副失效，这样实现了动静路由同步的桥梁作用。

一种全新的容器销毁失败自愈机制摸索

最初一个话题是对于容器销毁失败自愈的。后面提到了动静调度、弹性伸缩、容灾迁徙、流水线公布，这些操作都有一个前提，就是容器销毁重建时老的容器要销毁，新的容器能创立进去。但实际上在生产环境中这并不是 100% 能保障的。因为容器是共享的，多个容器在同一个节点上，卡住的时候会波及到很多起因：

调用链很长，只有其中任何软件呈现 BUG 都会卡住；治理容器对业务容器有侵入，造成卡顿；业务容器之间相互烦扰；共享内核、Cgroup、Namespace，并不保障所有资源相对齐全隔离；共享节点资源，当 CPU、磁盘 IO 高负载时会影响整个节点上的所有 Pod。

K8s 倒退到当初曾经有了一套很欠缺的自愈机制。对容器异样来说，云原生 K8s 提供一个暴力解决方案就是强删机制。该机制只是删除这个数据对象的数据，并不是销毁这个容器。这样导致一个问题，如果进行强制销毁，可能老容器会残留，新容器又起来了，这时老的容器会影响节点。

所以容器销毁阶段卡住会影响容器销毁重建这个根本需要，而且它的起因是简单多样的，在大规模零碎环境中更容易呈现，而已有的自愈机制是没有涵盖这种场景的，所以咱们就须要提供一种全新的自愈机制。传统的解决方案是通过脚本扫描到它，对于定位到的问题，没有解决方案的须要长期隔离，已有解决方案的就要明确修复。但这并不是一个闭环计划，因为还有很多未知问题，对未知问题来说业务关怀的是尽可能复原，而对平台来说为了保障稳定性，须要尽可能晓得这些根因，去收敛这类问题。

所以咱们兼顾这两个需要，要放大定位范畴、缩短定位周期，进步定位效率。对定位到根因的咱们要去评估它的影响面，避免增量产生。而曾经有解决方案的，咱们须要有全网修复能力，出现异常的时候要告警，从而实现闭环解决方案。

咱们想到了是智能运维的办法，它依附大规模训练样本，关注相关性。而故障解决个别是小样本量，强调业余和因果性，所以它并不很适宜这种场景。但在智能运维的决策树模型里有些概念能够拿来参考，譬如基尼系数、信息熵、剪枝等。

最初简略介绍一下 决策树模型 的实现。

第一步须要 建设模型，是对于信息熵的衡量，要均衡自愈机制和定位效率。咱们在抉择信息熵的时候是自顶向下的推导门路，从节点异样再到容器调用链异样，再到具体系统日志。

第二步是 特色选取，基尼系数越小特色越明确，所以咱们抉择独特特色作为一个特征值。同时抉择一些已知问题或者根因比拟明确的作为叶子节点。

最初一步是 模型优化，例如剪枝优化，通过后剪枝的形式解决过拟合景象。同时简化模型。通过这种形式，

当容器产生销毁失败时，可能触发自愈门路。同时，对于新增问题，咱们能够缩短问题范畴，进步定位效率。

通过以上三步，最终咱们摸索出了这样一种全新的容器销毁失败自愈机制。冀望本文思路对你有帮忙～

⛳️公众号粉丝专享：点击文末“浏览原文”，参加调研抽 BANQ 防水 U 盘

腾讯工程师技术干货中转：

1、手把手教你搭建 Hexo 博客

2、如何不改一行代码，让 Hippy 启动速度晋升 50%？

3、内存泄露？腾讯工程师 2 个压箱底的办法和工具

4、一文读懂 Go 函数调用