关于人工智能:AI推理服务平台升级阿里云机器学习PAI推出新规格

随着生成式 AI 模型一直拓宽 AI 利用的场景边界，模型在线服务的数量级快速增长，AI 推理环节亟需精细化的资源管理。

近日，阿里云机器学习平台 PAI 发表全面降级模型服务平台 PAI-EAS，面向文图生成、大语言模型等各类模型提供弹性稳固的推理服务，并推出全新规格 GU30，与传统规格相比价格均匀优惠 45%。

在 AI 工程化链路中，推理服务是买通“模型到利用最初一公里”的重要环节，并继续随同业务成长。

PAI-EAS 是 PAI 推出的弹性推理服务平台，提供异构硬件 (CPU/GPU) 模型加载和服务部署，撑持达摩院、淘宝、高德等业务大量级模型服务，并宽泛服务阿里云上企业客户。联合推理优化技术和云原生生态，PAI-EAS 进一步晋升异构资源集群整体利用率，规模化地实现服务效率与性能晋升，扩充让利空间。

新推出的 PAI-EAS GU30 系列规格，专用于深度学习异构推理场景，较 PAI-EAS 等同性能的传统规格价格下降 45%。

GU30 可适配不同复杂程度的模型，撑持文图生成、大语言模型、多模态模型、NLP、CV、ASR 等的推理需要。付费模式上，EAS 同时反对预付费和灵便的按量付费，用户能够通过弹性扩缩容、弹性资源池等能力精细化地按需管控推理资源。

作为云上 AI 推理服务平台，PAI-EAS 在基础设施层、容器调度层、模型部署层都提供丰盛的产品性能，贴合不同场景的个性化需要。

实时同步推理场景，例如个性化举荐或类 ChatGPT 对话利用等，用户可通过一键压测失去服务的 QPS 和时延阈值，并联合灰度公布和蓝绿部署性能，在不影响线上业务的状况下进行性能验证并顺滑切换。
近实时异步推理场景，例如文图生成或视频解决等，波及较为简单模型的推理，单次推理工夫从十几秒到几十分钟不等，PAI-EAS 在推理服务外部集成服务维度的音讯队列，并反对面向队列长度实现推理的主动弹性扩缩容，满足资源利用率晋升及免运维需要。
离线批量推理场景，例如语音数据批量文本转换等时延不敏感的场景，PAI-EAS 可通过抢占型资源实例的形式帮忙用户管制批量推理老本。

从 2023 年 4 月中旬起，阿里云产品试用核心将正式凋谢 PAI-EAS 等同算力的试用规格，提供最长 3 个月的模型在线服务收费体验包。点击 PAI-EAS 产品页官网（链接：https://www.aliyun.com/activity/bigdata/pai/eas），可在 PAI-EAS 产品官网取得最新流动信息。

关于人工智能:AI推理服务平台升级阿里云机器学习PAI推出新规格

全新推理规格 GU30 问世，开释技术红利

Serverless 化笼罩多样推理场景

PAI-EAS 最新流动