关于后端:Faas在哈啰AI平台的落地实践

51次阅读

共计 2145 个字符,预计需要花费 6 分钟才能阅读完成。

为什么哈啰 AI 平台须要 Faas

Al 平台以后的痛点

一是运维简单问题,AI 平台有多种不同语言的模型推理服务,如 python、C++(tf-serving)、Java 等,各自治理上百个不同类型的模型;架构也很简单,存在大型单体利用、多 container 利用、小型 GPU 利用等多种服务组织形式;同时,手动运维无余,自动化工具有余。

二是稳定性问题,成千盈百模型集中式部署,存在显著热点问题,在应答一些突发流量的时候,主动伸缩速度也存在问题。同时,模型 cpu、gpu 资源竞争问题也困扰了咱们。

三是 IDC 老本问题,存在资源利用率低的问题,有很大的晋升空间。

Al 平台对新架构的诉求

Al 平台分为在线服务域(决策、特色)和模型训练域(模型、训练),模型平台是模型训练域的一个子域。

咱们心愿 Al 平台在应答突发流量时,能够疾速响应,保持稳定的服务;对于低频的模型,能够实现缩容到 0;对于疾速迭代的模型,能够不便进行 AB 灰度。同时咱们心愿老本可控、易于运维、易于部署。

云原生演进与 Faas 选型

从 K8s 到 Faas

Faas 能给咱们带来极致弹性,可缩容至 0;运维老本更低,带来更低的开发复杂度和更好的运维效率。这与 AI 平台的特点也是分不开的。模型是无状态的,生命周期短,冷启动工夫短,业务需要变动快,开发周期短,流量零散而难预测,突发流量多。

Faas 技术选型

通过调研,最终花落 Knative。Knative 反对多元触发,如 Eventing/http/grpc 触发;同时带来弹性扩缩容的能力,能够缩容到 0;在 AI 平台能带来版本治理和流量调配的能力。

Faas 在模型平台的落地实际

模型平台 Faas 化

模型平台 Faas 化具备很大的价值。一是是平台能力降级,反对大模型、GPU 模型及更多模型类型;二是稳定性收益,通过热点模型隔离,防止多模型混布,来更好的应答突发流量;三是人效收益,GPU 模型、大模型全程算法自助公布;四是 IDC 降本收益,升高模型在线服务老本。

模型 Faas 部署

咱们的模型平台是一个十分齐备的平台,无论是算法同学还是工程同学,都能够模型平台上不便的去上传模型,治理模型的入参出参、模型的版本。咱们要兼容模型治理的能力,底层有很多异构,如 python 集群、gpu 集群、pmml 集群和 TF 集群等。针对这些异构,咱们要用分集群的形式把它变成 faas 同构的框架。下面有了模型的治理平台,上面有了 faas 集群,两头的外围是平台路由的革新。当算法和工程同学评估了模型的 QPS,能够在平台上勾选 faas 的一键部署,就能不便的部署到 faas 集群里,这样就能升高运维老本。

模型主动压测 & 规格标准化

Faas 部署很大水平上依赖服务自身的资源设置 & 弹性伸缩设置,适当的设置将极大的缩小启动工夫、平滑弹性伸缩、最大水平节俭资源。咱们与压测平台单干,打造主动压测能力,评估模型 Pod 资源和规格标准化,再调用云原生 Faas 接口进行 Faas 部署。

Faas 冷启动优化

Faas 通用的痛点是冷启动速度,咱们在思考模型的启动,是否有持续提速的空间。于是就有了模型散发服务,它能够把一些模型资源预下载下来,从原来的 150 毫秒升高到 10 毫秒左右的单模型的启动。

Faas 模型优雅预热

深度大模型存在预热不充沛导致 RT 突增问题,咱们基于 Knative 的版本治理、流量调配、蓝绿部署等能力,联合自研 GraySDK 提供了优雅解决方案。

案例:哈啰智能调度 Faas 革新

智能调度是是两轮畛域的外围场景之一。咱们每次去做调度的时候,会进行调度收益的核算,用调入收益减去调出损失,再减去调度老本。业务的峰谷稳定显著,计算量大,并且每个城市用的模型不一样,模型十分多,适宜 Faas 的落地。这里咱们做了定时预测的 Faas 化,特色能力的 Faas 化和模型能力的 Faas 化。通过成果回收,咱们发现 IDC 老本降落了 35%,整体性能回升了 20%。

咱们的调度业务通过无感切换到 Serverless,无效利用 Serverless 免运维、强隔离、按量计费的个性,既实现了得集群不必再为定时工作预留机器资源,同时在高峰期能够迅速大量扩容,进步了零碎计算能力,让业务的稳定性也有了很大的晋升。

Faas 与 AI 平台的将来瞻望

Faas 在更多利用场景落地

一是特色平台 Faas 化,特色的冷热散布非常不平均,当热点特色高峰期时须要整个服务扩容,存在资源节约、扩容速度慢、资源抢占等危险。二是外部治理后盾,很多后盾每天只有个别时段会有经营用户应用,但机器却 7 *24 小时提供服务,能够用 Faas 的按需分配、缩容到 0 来进步资源利用率。三是定时能力,定时预测能力在某些工夫点存在突增流量,且 QPS 能打到十分高,如果服务维度部署下,存在闲暇期资源的极大节约。

Faas 在更多业务畛域落地

一是智能客服——聊天机器,智能客服业务存在很多突发流量,比方用户进入客服问答的随机性很大,当舆情来长期的客服流量激增,也非常适合 Faas 解决方案。二是智能营销——大促等突发流量,互联网业务的倒退离不开智能化营销伎俩,以电商为例,往往半月一小促,一月一大促,须要更灵便的资源调度形式反对营销业务倒退。三是 IoT 传感器信息处理——各种语音精灵,IOT 交互设施绝大部分工夫都处于待唤醒状态,联合 Faas 缩容到 0 且能疾速扩容的能力能够大幅提高资源利用率。

正文完
 0