随着生成式 AI 模型一直拓宽 AI 利用的场景边界,模型在线服务的数量级快速增长,AI 推理环节亟需精细化的资源管理。
近日,阿里云机器学习平台 PAI 发表全面降级模型服务平台 PAI-EAS,面向文图生成、大语言模型等各类模型提供弹性稳固的推理服务,并推出全新规格 GU30,与传统规格相比价格均匀优惠 45%。
全新推理规格 GU30 问世,开释技术红利
在 AI 工程化链路中,推理服务是买通“模型到利用最初一公里”的重要环节,并继续随同业务成长。
PAI-EAS 是 PAI 推出的弹性推理服务平台,提供异构硬件 (CPU/GPU) 模型加载和服务部署,撑持达摩院、淘宝、高德等业务大量级模型服务,并宽泛服务阿里云上企业客户。联合推理优化技术和云原生生态,PAI-EAS 进一步晋升异构资源集群整体利用率,规模化地实现服务效率与性能晋升,扩充让利空间。
新推出的 PAI-EAS GU30 系列规格,专用于深度学习异构推理场景,较 PAI-EAS 等同性能的传统规格价格下降 45%。
GU30 可适配不同复杂程度的模型,撑持文图生成、大语言模型、多模态模型、NLP、CV、ASR 等的推理需要。付费模式上,EAS 同时反对预付费和灵便的按量付费,用户能够通过弹性扩缩容、弹性资源池等能力精细化地按需管控推理资源。
Serverless 化笼罩多样推理场景
作为云上 AI 推理服务平台,PAI-EAS 在基础设施层、容器调度层、模型部署层都提供丰盛的产品性能,贴合不同场景的个性化需要。
- 实时同步推理场景,例如个性化举荐或类 ChatGPT 对话利用等,用户可通过一键压测失去服务的 QPS 和时延阈值,并联合灰度公布和蓝绿部署性能,在不影响线上业务的状况下进行性能验证并顺滑切换。
- 近实时异步推理场景,例如文图生成或视频解决等,波及较为简单模型的推理,单次推理工夫从十几秒到几十分钟不等,PAI-EAS 在推理服务外部集成服务维度的音讯队列,并反对面向队列长度实现推理的主动弹性扩缩容,满足资源利用率晋升及免运维需要。
- 离线批量推理场景,例如语音数据批量文本转换等时延不敏感的场景,PAI-EAS 可通过抢占型资源实例的形式帮忙用户管制批量推理老本。
PAI-EAS 最新流动
从 2023 年 4 月中旬起,阿里云产品试用核心将正式凋谢 PAI-EAS 等同算力的试用规格,提供最长 3 个月的模型在线服务收费体验包。点击 PAI-EAS 产品页官网(链接:https://www.aliyun.com/activity/bigdata/pai/eas),可在 PAI-EAS 产品官网取得最新流动信息。