关于devops:Seal梁胜近水楼台先得月IT人员应充分利用AI解决问题

2023年9月2日，由平台工程技术社区与数澈软件Seal联结举办的⌈AIGC时代下的平台工程⌋——2023平台工程技术大会在北京圆满收官。吸引了近300名平台工程爱好者现场参会，超过3000名观众在线上直播平台观看了本届大会。
数澈软件 Seal 联结创始人梁胜博士和江鹏受邀缺席此次大会并发表题为《AI时代的IT技术创新》的演讲，本文为演讲实录。

AI 正以不可逆转之势倒退

这周二我去旧金山加入了谷歌一年一度的云计算大会（Google Cloud Next 23），这大概是我第8次加入这个流动，但往年与往届齐全不同。在往年的大会上很少谈及云计算的底层根底技术，也没有介绍 Kubernetes 的停顿，在近2个小时的主题演讲中简直 100% 的工夫都在议论 AI 技术。从这里，咱们能够看出 AI 技术给整个 IT 行业以及云计算带来了微小的影响。

为什么会有这么大的影响呢？从我集体过来十几年从事云计算畛域的体验来看，云计算基本上解决的是资源的问题。在没有云计算之前，如果须要资源，那么要购买机器、搭建机房，但云计算呈现之后，就不须要干这样的事件了。取而代之的是，呈现了 DevOps、Infrastructure as Code（IaC），这些新技术的呈现大大增加了企业对人力资源的需要。在这样的状况下，将来的 IT 行业可能会面临的挑战不再是优化机器资源，而是优化人力资源，包含 IT 的人力资源或 IT 以外的人力资源。因而，AI 成为了一个恰到好处的主题。

当初技术畛域的人力资源次要集中在两个方向：研发和运维。人员需要的方向定义了古代软件开发到部署、到运维、到降级的整个生命周期流程。我在上图的右侧列出了两个云厂商，但即使不部署在云上，部署在本地机器或者边缘设施上，整套软件开发流程并没有太大变动。

在过来十年中，甚至寰球经济不景气的当下，对 IT 人员的需求量仍旧十分大。这样的增长会不会持续呢？当初 AI 技术的呈现对这个增长会有什么影响呢？

咱们先从研发的角度来看这个问题。各位当初最为感同身受的可能是国内外的企业都在进行裁员，为什么会如此？

大家认真想想过来的业界倒退态势，比方挪动互联网，大家每天都在手机端上应用各种 App，那么认真回顾一下上次用到的新利用是什么时候？对我来讲，是有相当长的一段时间以前了。然而如果把工夫拨回5年前、10年前，那可能每过几天、几个星期可能就会下载一个新的利用，过后新的货色源源不断地呈现。但当初大家可能次要应用的只是各自畛域里的支流App，比方抖音、微信、B站以及各种网银之类的。

只管当初开发利用比以前容易得多，但长尾效应在缓缓削弱。

那么真正的研发当初去哪里了呢？从狭义来说，现阶段的研发是那些在各种大平台一直生产内容的网红，他们能够吸引很多用户。那未来的研发又会往哪个方向走呢？从当初生成式 AI 的角度来看，研发的方向会越来越多。无论是 AI 会帮忙研发，还是会间接被 AI 代替，AI 的倒退是不可避免的。

接下来，我来讲讲软件 2.0，这个概念是由一个从事人工智能开发的程序员提出来的，是指世界上越来越多的事件是由软件来实现的。

现阶段，大家能够用 AI 助手来帮忙生成一段代码，而后检查一下代码是否存在谬误，如果没有问题就能够用了。咱们大胆猜测：那么之后是不是能够用一个神经网或者一个 AI 模块来实现？可能你间接通知 AI 你要做什么，神经网就间接把性能实现了，甚至不须要看到代码。

AI 在将来5年、10年的倒退，会让很多设想的货色都成为事实，这对研发来说会造成很大的冲击。那么，未来研发人员的数量是否还会持续增长？我感觉毫无疑问，必定会持续增长，然而方向可能和当初有很大的差异。

DevOps 遇瓶颈，AI 来破局

我集体对 DevOps 行业十分有领会，因为之前我做过 CloudStack、做过 Rancher，这些产品都是为 DevOps 服务的，过来十年随同着云计算的疾速倒退，能够说是 DevOps 的飞速成长期，咱们正好赶上了 DevOps 的热潮。

正如我后面提到的，在没有云计算之前应用资源须要购买机器、购买网络设备，这些设施须要有专门的人进行编程和配置，那些人就是思科认证的或者华为认证的工程师。

在 DevOps 时代，曾经不依赖手动配置了，可能是 DevOps 工程师来写脚本，或者更多时候就间接写程序，所以能够说 DevOps 工程师其实是新一代的思科认证工程师。

但有些零碎十分复杂，比方 Kubernetes，那么这给诸如 Rancher、HashiCorp、GitLab、DataDog 之类的公司发明很大的机会，这些翻新公司都曾经成长为大型企业。只管是红利受益者，但咱们也在反思：为什么企业对 DevOps 的需求量无奈克制地增长？

最早 DevOps 刚刚呈现的时候，失常的人员配比应该是 10 个研发人员，配 1 个 DevOps 工程师。但倒退到起初就发现这样的人员配比导致 DevOps 人员的压力好大，于是变成 5:1。再到起初，那些倒退迅速的互联网企业外部的配比曾经变成 3:1，甚至 2:1。这通常意味着这个零碎曾经过于简单了。

以后，在 DevOps 畛域曾经呈现了很多工具，但这些工具也并不能齐全加重这些人的压力。那么在当初的 AI 时代，可能还会须要更多的运维人员对大模型、利用进行运维，状况兴许会变得更加蹩脚。

基于此，咱们思考是否能够把 DevOps 的复杂度管制下来，那么“平台工程”的概念就呈现了。不同企业的外部环境差别极大，那么怎么可能真正把外部的 DevOps 流程变得更加无效，而不是机械地反复？AI 的呈现将会带来一个全新的机会。

AI时代中非常明显的景象是，无论是私有云、公有云还是混合云，未来在云上运行的大模型将会占据越来越高的比例。所以云须要针对大模型的运行进行优化，真正把它们给运行好。稍后咱们也会演示如何疾速部署大模型。

另外，AI 不应该仅仅服务于终端用户，咱们既然是 IT 从业者，应该“近水楼台先得月”，充分利用 AI 技术来解决咱们本人的问题，比方 AI 能够加重 DevOps 工程师的工作量。这样研发与 DevOps 的比例就能够一直降落，最终达到现实状态。

绝大部分 AI 利用的实质是云利用，并且当初 Kubernetes 实际上曾经成为大模型平台的运行规范。上图截取自 OpenAI 的官网，过后 GPT3 曾经推出，但 ChatGPT 尚未诞生。值得注意的是，Kubernetes 官网举荐应用的最大节点数是5000，但 OpenAI 因为需求量大，曾经把 Kubernetes 用到极致——扩大到7500个节点。

据我理解，他们当初依然在应用 Kubernetes，但目前的具体应用情况内部也不是很分明。我置信，在他们迎来爆发式增长的这段时间，应该是把 Kubernetes 扩大得更大了。OpenAI、微软 Azure 这些公司都在大量购入 Nvidia 的图像处理器，而后放在服务器里，由 Kubernetes 等技术进行治理，最初再在下层运行大语言模型。

总而言之，AI 时代下的整个利用架构基本上曾经建设了，这也是目前业界都比拟认可的规范：最底层是私有云、公有云，再往上是 Kubernetes，而后是治理 AI 自身的一些工具，比方 Pytorch、Tensorflow，再往下层是大模型，顶层是利用。

AI开释开源力量，开源赋能AI倒退

数澈软件Seal 自身是一家开源的公司，咱们这个团队投身开源畛域曾经有十几年了，咱们始终认为开源是十分好的方向。但直到 AI 呈现之后，咱们才真正领会到开源的力量。

上图中，红色的线示意 Kubernetes star 数量的增长趋势，到往年刚刚超过 10 万颗 star。家喻户晓，Kubernetes 早已成为业界认可的容器编排的事实标准。然而 AI 相干的开源我的项目 star 数量能在几个月之内就超过 Kubernetes，这令人惊叹。所以能够看出开源界对 AI 的器重水平，另外一方面，开源也可能为 AI 带来一些真正的机会。

在现阶段，闭源软件的守业曾经很难胜利了，所以在软件畛域开源是必须的。因为开源社区是跨国界的，不受地缘政治的限度。比方，在中国完结了疫情管控之后，目前最风行的开源组织之一，云计算基金会 CNCF，就立马到上海来举办 KubeCon，齐全没有受到政治方面的影响。

换言之，中国企业能够通过开源把真正世界级的技术推向寰球，成为寰球技术的引领者，并从中取得很多倒退的机会。

上文提到 AI 必须可能帮忙 DevOps 工程师晋升效率，在传统 DevOps 畛域也曾有相似的需要，那时候叫自动化（Automation），通过脚本把手工工作变为主动。

然而自动化倒退到肯定水平之后，依然对人有微小的需要。因为很多须要判断力的事件，无奈通过简略的脚本规定来规定分明，次要还得依附人进行判断。所以自动化的下一步应该是 AI。

上方左侧的图片是波音747刚刚推出时的驾驶舱配置，过后（上世纪60年代）大概须要3、4个驾驶员，2个驾驶飞机，剩下的观测仪表盘。通过自动化的改良，当初基本上2集体就能够开飞机了，简单的仪表也隐没了。那要再往下前进一步，能不能既缩小开飞机的人数，同时还能晋升安全性？这时候光靠自动化曾经不够了。

那么咱们心愿通过 AI 可能真正把运维工作自动化，一会儿江鹏会对咱们目前曾经实现的工作进行演示。目前咱们只是刚刚开始，咱们心愿通过开源让大家可能尝试、应用并且可能给咱们提意见。

平台工程为 AI 提供护栏（Guardrail）

大家在用 ChatGPT 的时候可能会发现，它只管能答复你的问题，但并不一定是对的，因为大模型不是 100% 牢靠。这个缺点对于简略的工作来说举足轻重，但如果是在生产环境上运行的利用，在接管到谬误的命令之后间接运行，可能会造成难以估计的结果。

因而咱们在思考可能升高大模型出错的概率的计划，这在业界有一个规范的做法——Guardrail，即通过给 AI 零碎设置规定来对其进行限度，比方预计限度让 AI 只管制阿里云、腾讯云、AWS。

因而咱们在两头增加一层机制进行审核，如果呈现显著的谬误，那么审核不通过。在审核通过之后，再让 AI 的指令上手实现工作。而这些是能够平台工程实现的。这相似于咱们经常提到的主动驾驶汽车，因为路况太简单，所以主动驾驶汽车的实现是很艰难的。然而如果说咱们要做主动驾驶火车，那就简略很多。因为火车被限度在轨道上运行，路况相对来说简略很多。

所以平台工程不仅应该为工程师提供工具，还应该为 AI 提供护栏（Guardrail）。

数澈软件Seal 正在借助 Guardrail 机制开发 AI 时代的 DevOps 平台，心愿可能给 DevOps 工程师加重工作量并成为他们的 AI 助手。接下来，我将介绍咱们目前曾经实现的工作，而后邀请江鹏进行产品演示。

对于平台工程，业界曾经造成了根本的认知：平台工程的呈现次要是为了解决 DevOps 复杂度的问题。

首先，平台工程能够解决 DevOps 团队和研发团队之间的沟通合作问题。因为研发团队平时通常通过 IDE 来实现工作，他们兴许能清晰地理解业务需要、程序设计语言和框架、包含以后的 AI 技术，然而他们可能齐全不理解 DevOps 工具，比方 Terraform 能够做什么，怎么样部署 Kubernetes ，于是这些成为了 DevOps 团队的工作。那么这两个团队之间的合作成为一个问题，无论是通过邮件还是发工单进行沟通，都十分繁琐，且易出错，因而须要平台工程。

在过来两三年间，咱们和至多几百家企业交换过，发现大家都有相似的需要。最终就造成了企业外部的平台，它为研发人员提供UI、CLI以及服务目录（Catalog），研发人员能够间接调用现成的工具来实现利用开发工作。

然而咱们发现，因为没有现成的解决方案，每个团队在搭建平台过程中都对两头的一层破费了大量的精力，咱们把它称之为“利用治理”。

为什么叫利用治理呢？因为它关怀的是利用配置、部署可靠性以及多环境治理，甚至包含利用老本。通过利用管理层，企业能够分明地理解各类环境信息，利用开发资源的老本治理，包含生产环境中的实例老本、研发团队老本、测试团队老本等，不便企业进行优化。

之前提到，咱们与上百家公司交换过，每家公司外部都在构建本人的一套利用治理，并且再和开发者门户进行集成。实际上开发利用治理工作量是很大的，并且非常繁琐，于是咱们构建了这样一个开源利用治理平台 Walrus。

Walrus 是一款 100% 开源的基于平台工程理念构建的利用治理平台，开源地址是：github.com/seal-io/walrus。除了根底的利用部署、服务模板等性能，咱们把 AI 技术列为了开发重点。所以在 Walrus 平台外部整合了丰盛的 AI 技术，咱们还提供一个 AI 助手 Appilot（预计本月中下旬开源，敬请期待），帮忙用户运维。那接下来有请江鹏来进行演示。

点击下方视频，空降至 35:45 即可查看 Seal联结创始人及COO 江鹏的产品演示，包含在 Walrus 上借助其服务模板的个性疾速部署 Meta 开源大模型 Llama 2 和 Stable Diffusion，并引入 Seal AI 助手 Appilot，通过输出自然语言，借助 AI 大模型的推理能力实现资源调度、服务查问、利用部署等工作。

https://www.bilibili.com/video/BV158411B7Mn/?spm_id_from=333....

参考链接：https://mp.weixin.qq.com/s/4FHYX1Vlm__nCBX300moJg
作者：Seal 软件