关于人工智能:Hugging-Face-提供的推理Inference解决方案

每天，开发人员和组织都在应用 Hugging Face 平台上托管的模型，将想法变成用作概念验证（proof-of-concept）的 demo，再将 demo 变成生产级的利用。

Transformer 模型已成为宽泛的机器学习（ML）利用的风行模型构造，包含自然语言解决、计算机视觉、语音等；
扩散模型（Diffusers）也已成为 text-to-image、image-to-image 类生成模型的风行模型构造；
其余模型构造在其余工作中也很受欢迎，而咱们在 Hugging Face Hub 上提供了这些模型构造的所有信息。

在 Hugging Face，咱们致力于在保障品质的前提下，尽可能简化 ML 的相干开发和经营。让开发者在一个 ML 我的项目的整个生命周期中，能够丝滑地测试和部署最新模型。并放弃最极致的优化性价比，所以咱们要感激英特尔的敌人，他们向咱们资助了收费的基于 CPU 的推理解决方案，这不仅是咱们的单干关系中的另一个重要步骤，而且是咱们的用户社区的一个「福利」，大家当初能够零老本享受英特尔 Xeon Ice Lake 模型构造带来的速度晋升。

当初，让咱们介绍一下你能够抉择的 “Hugging Face” 的推理相干解决方案：

推理组件（收费）

在 HuggingFace Hub，我最喜爱的性能之一是推理组件，微微点击一下位于模型页面上的推理组件，便能够主动上传样本数据并应用模型进行预测。

比方这里有一个句子相似性的例子，咱们采纳了 sentence-transformers/all-MiniLM-L6-v2 模型:

如果想疾速理解一个模型的作用、它的输入，以及它在你数据集的几个样本上的体现，这是一个十分好的办法。当收到 request 时，模型会收费从咱们的服务器上主动加载，完结后主动开释，这个过程中无需任何代码。

推理 API（免费版）

推理 API 是为推理组件提供能源的引擎。通过一个简略的 HTTP 申请，你能够加载 hub 上的任何模型，并在几秒钟内用它预测你的数据，只须要你提供模型的 URL 和一个无效的 hub token。上面的例子中，咱们用一行代码加载 xlm-roberta-base 模型并进行数据预测的案例：

curl https://api-inference.huggingface.co/models/xlm-roberta-base \
    -X POST \
    -d '{"inputs": "The answer to the universe is <mask>."}' \
    -H "Authorization: Bearer HF_TOKEN"

推理 API 是建设预测服务的最简略办法，你能够在开发和测试期间实时地在应用程序中调用，不须要一个定制的 API ，也不须要一个模型服务器。你也能够立刻从一个模型切换到另一个，并在你的应用程序中比拟它们的性能。但因为速率限度，咱们不倡议在理论生产中应用推理API，你应该思考推理 Endpoints。

在生产环境中应用推理 Endpoints

一旦你对你的 ML 模型的性能感到称心，就该把它部署到生产环境中了。但问题是：来到沙盒，平安、扩大、监控等等都变成了问题，所以咱们建设了推理 Endpoints 来解决些挑战。

只需点击几下，推理 Endpoints 就能够让你将 Hub 上的任何模型部署在平安和可扩大的基础设施上，将它托管在你抉择的地区的 AWS 或 Azure 云服务器上。CPU 和 GPU 托管，内置主动扩大等其余设置，使咱们领有更好的性价比，定价低至0.06美元每小时。

推理 Endpoints 反对三个安全级别：

Pubulic：Endpoints 运行在公共的 Hugging Face 子网中，互联网上的任何人都能够拜访，无需任何认证。
Protected：Endpoints 运行在公共的 Hugging Face 子网，互联网上任何领有适合 Hugging Face Token 的人都能够拜访它。
Privacy：Endpoints 运行在公有的 Hugging Face 子网，不能通过互联网拜访，只能通过你的 AWS 或 Azure 账户中的一个公有连贯来应用，能够满足最严格的合规要求。

要理解更多对于推理 Endpoints 的信息，请浏览本教程和文档。

推理 Spaces

最初，如果你期待部署模型用于生产，推理 Spaces 是另一个很好的选项，你能够将你的模型部署在一个简略的 UI 框架（例如Gradio）之上进行推理，而且咱们还反对硬件的降级，比方让你采纳更先进的英特尔 CPU 和英伟达 GPU ，没有比这更好的形式来展现你的模型 demo 了!

要理解更多对于 Spaces 的信息，请浏览文档，或者在咱们的论坛上浏览帖子或提出问题。

上手尝试

登录到 Hugging Face Hub，浏览咱们的模型，一旦找到一个你喜爱的，你能够间接在页面上尝试推理小组件。点击 “Deploy” 按钮，你能够拿到主动生成的代码，而后将模型部署在收费的推理 API 上进行评估，以及一个间接链接，你能够将模型部署到生产中的推理 Endpoints 或 Spaces。

快试一试，让咱们晓得你的想法，咱们很期待在 Hugging Face 论坛上看到你的反馈。

谢谢你的浏览! (*同时祝咱们的管理员路哥早日阳康 *)

注释局部译者:

丁继峥 Johnson，微信号：ZJUer\_0817 拾象 DAO 成员，浙江大学机器人工程业余，次要关注 AI 模型与交互的前沿停顿，专用机器人的产业落地，通用机器人的有限可能。

博客原网址：https://huggingface.co/blog/i…

关于人工智能:Hugging-Face-提供的推理Inference解决方案

推理组件（收费）

推理 API（免费版）

在生产环境中应用推理 Endpoints

推理 Spaces

上手尝试

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:Hugging-Face-提供的推理Inference解决方案

推理组件（收费）

推理 API（免费版）

在生产环境中应用 推理 Endpoints

推理 Spaces

上手尝试

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

在生产环境中应用推理 Endpoints

发表回复取消回复