关于阿里云:数禾科技-AI-模型服务-Serverless-容器化之旅

3次阅读

共计 2080 个字符,预计需要花费 6 分钟才能阅读完成。

作者:周伟鹏、魏文哲、元毅

“应用阿里云容器服务 Knative 和 ECI 虚构节点配合部署,在保障线上模型应答突发流量的稳定性大幅晋升的同时,又使资源利用效率取得了显著的进步,极大的节约了资源老本。”

— 数禾科技 AI 实验室

AI 平台负责人 周伟鹏

“数禾 DevOps 平台 BetterCDS 集成了阿里云容器服务 Knative,反对模型服务的多版本运行和弹性伸缩,在升高运行老本的同时,也晋升了服务的可用性,极大中央便了运维人员和开发人员。”

— 数禾科技基础架构研发部

工程效率组负责人 邓志

背景

数禾科技以大数据和技术为驱动,为金融机构提供高效的智能批发金融解决方案,服务银行、信托、生产金融公司、保险、小贷公司等持牌金融机构,业务涵盖消费信贷、小微企业信贷、场景分期等多个畛域,提供营销获客、危险防控、经营治理等服务。数禾科技通过自主开发的消费信贷产品,连贯金融机构与普罗公众,赋能金融机构数字化转型,迎接中国生产降级的大潮。

遇到问题

在风险管理业务中,依据公司的危险容忍度、危险偏好稳定以及阶段性业务指标须要针对公司客户进行危险属性的调整,这其中包含用户额度、定价、可借期限等相干因素。那么这不可避免的须要利用批量数据处理能力通过计算规定来对大量用户做调额、调价等,当然,模型作为风险管理的重要组成部分也必不可少的会被使用至批量解决的动作中来。因而对于模型的计算能力就提出了很高的要求,包含计算速度、计算结果准确性、计算数据实时性等。

而以后的困扰所在是撑持模型计算的底层利用资源无奈灵便且疾速的依据申请量来智能化调整机器资源反对运算能力,这也是以后业务疾速倒退过程中亟待解决的痛点。同时,随着模型在线推理服务数量的减少,数禾的模型服务也变得越来越宏大、臃肿,难以治理。这种情况不仅导致了资源节约,还减少了保护和降级的老本。

基于以上的各种状况,咱们开始寻求新的技术架构计划,心愿新计划能够具备随流量高效应用资源,升高模型服务老本,同时最好具备版本治理性能,能够实现多版本同时提供服务,较小响应的运维老本。

解决方案

通过外部的沟通与调研,咱们最终抉择了基于 Knative 的 Serverless 服务计划,它具备依据申请的扩缩容能力、容许 pod 缩容到 0 的冷启动能力以及多版本的治理能力。与此同时,因为数禾自身的技术架构都是部署在阿里云的底层资源上,而 阿里云 ACK 又对 Knative 做了组件集成,能够反对一键部署,极大的减小了咱们部署调试的工夫老本

客户价值

通过对外部模型部署的 pipeline 进行革新后,目前数禾的所有新增模型均已通过 ACK + Knative 形式部署在线上提供服务,得益于 Knative 的多版本治理能力,咱们疾速解决了模型的灰度公布和多版本并存的问题。同时加之基于申请的主动扩缩容能力,在多个版本并存的状况下,并没有对资源产生额定的耗费,而且对早晨的谷时资源持续了很好的节约。

下图是咱们一个模型服务的资源耗费与申请量的比照图,上图为 Pod 资源数量,下图为服务申请量。由下图比照能够看出,整个服务资源的应用状况于服务申请量放弃高度一致,应用效率十分高。

查看大图:

https://img.alicdn.com/imgextra/i4/O1CN01uHrVr51sc2SJ76y4x_!!…

对于上文提到的批量作业工作,尽管咱们曾经具备了 Knative 的扩缩容能力,但仍然须要在底层筹备好足够的资源池来供模型进行扩容。然而在一天的大部分场景中这部分资源又是节约的,对于这个问题,咱们通过在 Knative 中应用 ECI 虚构节点来失去了很好的解决。

咱们对上线之后的模型服务进行了继续监控,比照应用之前的计划,模型服务在应答突发批量流量的稳定性取得大幅晋升,同时资源的应用效率也取得了显著进步,节约老本约 60%。

对于 Serverless

家喻户晓,Serverless 是一种云原生的开发模型,客户只需构建和运行利用、而无需治理托管利用所在的服务器。在理论实现上,IT 架构里还是有服务器的,只是对从客户利用研发不可见了,服务器由云厂商托管和保护,用户只须要将代码打包成容器即可。随着云原生技术的演进,以利用为核心,资源按需应用的 Serverless 技术逐步成为支流。Gartner 预测,2025 年将有 50% 以上的寰球企业部署 Serverless。

Knative 是基于 Kubernetes 之上提供的一款开源 Serverless 利用框架,其指标就是制订云原生、跨平台的 Serverless 容器编排规范,帮忙您部署和治理现代化的 Serverless 工作负载,打造企业级 Serverless 容器平台。Knative 于 2021 年 11 月 2 日正式公布 1.0 版本,达到了一个重要的里程碑,随着 2022 年 3 月 2 日退出到 CNCF,越来越多的开发者拥抱 Knative。

阿里云容器服务从 Knative 晚期版本开始产品化集成,继续跟进 Knative 社区性能迭代,并与容器服务 ACK、音讯、存储、网络等云产品进行了全方位的交融,提供了生产级别的 Knative 能力。

点击此处理解更多阿里云 Knative 产品相干信息

正文完
 0