共计 2211 个字符,预计需要花费 6 分钟才能阅读完成。
每天,开发人员和组织都在应用 Hugging Face 平台上托管的模型,将想法变成用作概念验证(proof-of-concept)的 demo,再将 demo 变成生产级的利用。
- Transformer 模型已成为宽泛的机器学习(ML)利用的风行模型构造,包含自然语言解决、计算机视觉、语音等;
- 扩散模型(Diffusers)也已成为 text-to-image、image-to-image 类生成模型的风行模型构造;
- 其余模型构造在其余工作中也很受欢迎,而咱们在 Hugging Face Hub 上提供了这些模型构造的所有信息。
在 Hugging Face,咱们致力于在保障品质的前提下,尽可能简化 ML 的相干开发和经营。让开发者在一个 ML 我的项目的整个生命周期中,能够丝滑地测试和部署最新模型。并放弃最极致的优化性价比,所以咱们要感激英特尔的敌人,他们向咱们资助了收费的基于 CPU 的推理解决方案,这不仅是咱们的单干关系中的另一个重要步骤,而且是咱们的用户社区的一个「福利」,大家当初能够零老本享受英特尔 Xeon Ice Lake 模型构造带来的速度晋升。
当初,让咱们介绍一下你能够抉择的 “Hugging Face” 的推理相干解决方案:
推理组件(收费)
在 HuggingFace Hub,我最喜爱的性能之一是推理组件,微微点击一下位于模型页面上的 推理组件,便能够主动上传样本数据并应用模型进行预测。
比方这里有一个句子相似性的例子,咱们采纳了 sentence-transformers/all-MiniLM-L6-v2 模型:
如果想疾速理解一个模型的作用、它的输入,以及它在你数据集的几个样本上的体现,这是一个十分好的办法。当收到 request 时,模型会收费从咱们的服务器上主动加载,完结后主动开释,这个过程中无需任何代码。
推理 API(免费版)
推理 API 是为推理组件提供能源的引擎。通过一个简略的 HTTP 申请,你能够加载 hub 上的任何模型,并在几秒钟内用它预测你的数据,只须要你提供模型的 URL 和一个无效的 hub token。上面的例子中,咱们用一行代码加载 xlm-roberta-base 模型 并进行数据预测的案例:
curl https://api-inference.huggingface.co/models/xlm-roberta-base \ | |
-X POST \ | |
-d '{"inputs":"The answer to the universe is <mask>."}' \ | |
-H "Authorization: Bearer HF_TOKEN" |
推理 API 是建设预测服务的最简略办法,你能够在开发和测试期间实时地在应用程序中调用,不须要一个定制的 API,也不须要一个模型服务器。你也能够立刻从一个模型切换到另一个,并在你的应用程序中比拟它们的性能。但因为速率限度,咱们不倡议在理论生产中应用推理 API,你应该思考 推理 Endpoints。
在生产环境中应用 推理 Endpoints
一旦你对你的 ML 模型的性能感到称心,就该把它部署到生产环境中了。但问题是:来到沙盒,平安、扩大、监控等等都变成了问题,所以咱们建设了推理 Endpoints 来解决些挑战。
只需点击几下,推理 Endpoints 就能够让你将 Hub 上的任何模型部署在平安和可扩大的基础设施上,将它托管在你抉择的地区的 AWS 或 Azure 云服务器上。CPU 和 GPU 托管,内置主动扩大等其余设置,使咱们领有更好的性价比,定价 低至 0.06 美元每小时。
推理 Endpoints 反对三个安全级别:
- Pubulic:Endpoints 运行在公共的 Hugging Face 子网中,互联网上的任何人都能够拜访,无需任何认证。
- Protected:Endpoints 运行在公共的 Hugging Face 子网,互联网上任何领有适合 Hugging Face Token 的人都能够拜访它。
- Privacy:Endpoints 运行在公有的 Hugging Face 子网,不能通过互联网拜访,只能通过你的 AWS 或 Azure 账户中的一个公有连贯来应用,能够满足最严格的合规要求。
要理解更多对于 推理 Endpoints 的信息,请浏览本 教程 和 文档。
推理 Spaces
最初,如果你期待部署模型用于生产,推理 Spaces 是另一个很好的选项,你能够将你的模型部署在一个简略的 UI 框架(例如 Gradio)之上进行 推理,而且咱们还反对硬件的降级,比方让你采纳更先进的英特尔 CPU 和英伟达 GPU,没有比这更好的形式来展现你的模型 demo 了!
要理解更多对于 Spaces 的信息,请浏览 文档,或者在咱们的论坛上浏览帖子或提出问题。
上手尝试
登录到 Hugging Face Hub,浏览咱们的模型,一旦找到一个你喜爱的,你能够间接在页面上尝试推理 小组件。点击 “Deploy” 按钮,你能够拿到主动生成的代码,而后将模型部署在收费的推理 API 上进行评估,以及一个间接链接,你能够将模型部署到生产中的推理 Endpoints 或 Spaces。
快试一试,让咱们晓得你的想法,咱们很期待在 Hugging Face 论坛上看到你的反馈。
谢谢你的浏览! (* 同时祝咱们的管理员路哥早日阳康 *)
注释局部译者:
丁继峥 Johnson,微信号:ZJUer\_0817 拾象 DAO 成员,浙江大学机器人工程业余,次要关注 AI 模型与交互的前沿停顿,专用机器人的产业落地,通用机器人的有限可能。
博客原网址:https://huggingface.co/blog/i…