关于后端:Faas在哈啰AI平台的落地实践

78次阅读

共计 2145 个字符，预计需要花费 6 分钟才能阅读完成。

一是运维简单问题，AI 平台有多种不同语言的模型推理服务，如 python、C++（tf-serving）、Java 等，各自治理上百个不同类型的模型；架构也很简单，存在大型单体利用、多 container 利用、小型 GPU 利用等多种服务组织形式；同时，手动运维无余，自动化工具有余。

二是稳定性问题，成千盈百模型集中式部署，存在显著热点问题，在应答一些突发流量的时候，主动伸缩速度也存在问题。同时，模型 cpu、gpu 资源竞争问题也困扰了咱们。

三是 IDC 老本问题，存在资源利用率低的问题，有很大的晋升空间。

Al 平台分为在线服务域（决策、特色）和模型训练域（模型、训练），模型平台是模型训练域的一个子域。

咱们心愿 Al 平台在应答突发流量时，能够疾速响应，保持稳定的服务；对于低频的模型，能够实现缩容到 0；对于疾速迭代的模型，能够不便进行 AB 灰度。同时咱们心愿老本可控、易于运维、易于部署。

Faas 能给咱们带来极致弹性，可缩容至 0；运维老本更低，带来更低的开发复杂度和更好的运维效率。这与 AI 平台的特点也是分不开的。模型是无状态的，生命周期短，冷启动工夫短，业务需要变动快，开发周期短，流量零散而难预测，突发流量多。

通过调研，最终花落 Knative。Knative 反对多元触发，如 Eventing/http/grpc 触发；同时带来弹性扩缩容的能力，能够缩容到 0；在 AI 平台能带来版本治理和流量调配的能力。

模型平台 Faas 化具备很大的价值。一是是平台能力降级，反对大模型、GPU 模型及更多模型类型；二是稳定性收益，通过热点模型隔离，防止多模型混布，来更好的应答突发流量；三是人效收益，GPU 模型、大模型全程算法自助公布；四是 IDC 降本收益，升高模型在线服务老本。

咱们的模型平台是一个十分齐备的平台，无论是算法同学还是工程同学，都能够模型平台上不便的去上传模型，治理模型的入参出参、模型的版本。咱们要兼容模型治理的能力，底层有很多异构，如 python 集群、gpu 集群、pmml 集群和 TF 集群等。针对这些异构，咱们要用分集群的形式把它变成 faas 同构的框架。下面有了模型的治理平台，上面有了 faas 集群，两头的外围是平台路由的革新。当算法和工程同学评估了模型的 QPS，能够在平台上勾选 faas 的一键部署，就能不便的部署到 faas 集群里，这样就能升高运维老本。

Faas 部署很大水平上依赖服务自身的资源设置 & 弹性伸缩设置，适当的设置将极大的缩小启动工夫、平滑弹性伸缩、最大水平节俭资源。咱们与压测平台单干，打造主动压测能力，评估模型 Pod 资源和规格标准化，再调用云原生 Faas 接口进行 Faas 部署。

Faas 通用的痛点是冷启动速度，咱们在思考模型的启动，是否有持续提速的空间。于是就有了模型散发服务，它能够把一些模型资源预下载下来，从原来的 150 毫秒升高到 10 毫秒左右的单模型的启动。

深度大模型存在预热不充沛导致 RT 突增问题，咱们基于 Knative 的版本治理、流量调配、蓝绿部署等能力，联合自研 GraySDK 提供了优雅解决方案。

智能调度是是两轮畛域的外围场景之一。咱们每次去做调度的时候，会进行调度收益的核算，用调入收益减去调出损失，再减去调度老本。业务的峰谷稳定显著，计算量大，并且每个城市用的模型不一样，模型十分多，适宜 Faas 的落地。这里咱们做了定时预测的 Faas 化，特色能力的 Faas 化和模型能力的 Faas 化。通过成果回收，咱们发现 IDC 老本降落了 35%，整体性能回升了 20%。

咱们的调度业务通过无感切换到 Serverless，无效利用 Serverless 免运维、强隔离、按量计费的个性，既实现了得集群不必再为定时工作预留机器资源，同时在高峰期能够迅速大量扩容，进步了零碎计算能力，让业务的稳定性也有了很大的晋升。

一是特色平台 Faas 化，特色的冷热散布非常不平均，当热点特色高峰期时须要整个服务扩容，存在资源节约、扩容速度慢、资源抢占等危险。二是外部治理后盾，很多后盾每天只有个别时段会有经营用户应用，但机器却 7 *24 小时提供服务，能够用 Faas 的按需分配、缩容到 0 来进步资源利用率。三是定时能力，定时预测能力在某些工夫点存在突增流量，且 QPS 能打到十分高，如果服务维度部署下，存在闲暇期资源的极大节约。

一是智能客服——聊天机器，智能客服业务存在很多突发流量，比方用户进入客服问答的随机性很大，当舆情来长期的客服流量激增，也非常适合 Faas 解决方案。二是智能营销——大促等突发流量，互联网业务的倒退离不开智能化营销伎俩，以电商为例，往往半月一小促，一月一大促，须要更灵便的资源调度形式反对营销业务倒退。三是 IoT 传感器信息处理——各种语音精灵，IOT 交互设施绝大部分工夫都处于待唤醒状态，联合 Faas 缩容到 0 且能疾速扩容的能力能够大幅提高资源利用率。

正文完

后端

发表至：后端

2023-04-18

0

关于后端:1024节快乐955-不加班的公司名单分享给大家

关于后端:阿里云丁宇以领先的云原生技术激活应用构建新范式

关于后端:COSC1076技术讨论

关于后端:付费版-VS-Code脑瓜子嗡嗡的吧

关于challenge:MMLab-AI-实战营从新手到大佬的修炼场

关于后端:Faas在哈啰AI平台的落地实践

为什么哈啰 AI 平台须要 Faas

Al 平台以后的痛点

Al 平台对新架构的诉求

云原生演进与 Faas 选型

从 K8s 到 Faas

Faas 技术选型

Faas 在模型平台的落地实际

模型平台 Faas 化

模型 Faas 部署

模型主动压测 & 规格标准化

Faas 冷启动优化

Faas 模型优雅预热

案例：哈啰智能调度 Faas 革新

Faas 与 AI 平台的将来瞻望

Faas 在更多利用场景落地

Faas 在更多业务畛域落地

Just My Socks（注册教程内含优惠码）

关于后端:Faas在哈啰AI平台的落地实践

为什么哈啰 AI 平台须要 Faas

Al 平台以后的痛点

Al 平台对新架构的诉求

云原生演进与 Faas 选型

从 K8s 到 Faas

Faas 技术选型

Faas 在模型平台的落地实际

模型平台 Faas 化

模型 Faas 部署

模型主动压测 & 规格标准化

Faas 冷启动优化

Faas 模型优雅预热

案例：哈啰智能调度 Faas 革新

Faas 与 AI 平台的将来瞻望

Faas 在更多利用场景落地

Faas 在更多业务畛域落地

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）