每一周,咱们的共事都会向社区的成员们公布一些对于 Hugging Face 相干的更新,包含咱们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,咱们将其称之为「Hugging News」,本期 Hugging News 有哪些乏味的音讯,快来看看吧!
产品更新
Paper Pages 大更新
咱们正在持续加深与预印本平台 (arXiv.org) 的单干和集成,除了能够在论文页面间接找到 Hugging Face 上的 Space 利用以外,咱们又为 Hugging Face Hub 上线了一个论文页面,比方: https://hf.co/papers/2211.05100
你还能够通过论文编号查问模型、数据集和 Space 利用,也能够在模型和数据集页面间接拜访到论文页面:
与此同时,如果你是某个论文的作者之一,你还能够在 Hugging Face 的论文页面来“认领”和关联你的 Hugging Face 账号。
用户的集体页面也会显示本人的论文:
快来试试看吧!
Docker ❤️ HuggingFace
你能够在 Spaces 中应用 Docker SDK 来构建你的机器学习利用。上一周,咱们还公布了一项与 Docker 的单干,当初你能够将你的 Space 利用一键应用 Docker 部署到其余环境中啦!
Hub 对 ipynb 文件 (Jupyter Notebook) 的两个重要更新
Hub 的页面当初能够间接渲染 .ipynb 文件 (Jupyter Notebook) 啦,除此之外,咱们还与 Google Colab 团队单干,当初 Colab 能够间接关上托管在 Hugging Face Hub 上的 .ipynb 文件啦:
Zapier 平台退出对 Hugging Face 的集成反对
Zapier 是一个自动化工作平台,而无需编写任何代码即可疾速自动化很多业务流程。通过与 Hugging Face 的集成,你能够应用将任意其余工作流程与 Hugging Face 提供的 AI 模型能力联合。快来试试看吧:
https://zapier.com/apps/hugging-face/integrations
社区活动
Gradio 创意主题构建大赛
Gradio 团队发动了一个主题构建黑客松流动,快来参加吧!本次和黑客松流动为期两周,你能够施展创意和脑洞任意构建有意思的 Gradio 主题。上面有一个视频来简略介绍如何上手制作一个主题:
https://www.bilibili.com/video/BV1Xv4y1H7it/
如果你想参加,请在这个页面查看参加办法:
https://hf.co/Gradio-Themes
也能够在这个 Space 利用里查看他人做的主题:
https://hf.co/spaces/gradio/theme-gallery
开源库更新
bloomz.cpp 让你在 Mac 和手机上运行 BLOOM 模型
bloomz.cpp 是一个用纯 C/C++ 实现 Hugging Face 的 BLOOM 系列模型推理的代码库。它建设在 @ggerganov 的 llama.cpp 库之上,反对应用 BloomForCausalLM.from_pretrained()
加载的所有模型。库还反对高级用法,能够进行更具体的设置和自定义操作。
GitHub 地址: https://github.com/NouamaneTazi/bloomz.cpp
The Stack 数据集 v1.2 正式版公布
The Stack 是 BigCode 我的项目的一部分,这是一个蕴含了 300 种编程语言的开源代码数据集。
数据集页面: https://hf.co/datasets/bigcode/the-stack
Common Voice 13 数据集现已「登陆」Hugging Face
Common Voice 的多语言数据集是最大的公开语音数据集,Mozilla 置信,一组大型、可公开应用的语音数据集,将可促成基于机器学习的语音技术的翻新,与衰弱的商业竞争。目前,Common Voice 13 数据集曾经在 Hugging Face Hub 上公布,借助 Datasets 库,你只须要几行代码就能够应用它。
数据集页面: https://hf.co/datasets/mozilla-foundation/common_voice_13_0
TRL v0.4.1 公布
TRL (Transformer Reinforcement Learning) 是一个用于训练具备加强学习的 Transformer 语言模型的库,可与🤗transformers 集成。它反对应用 Proximal Policy Optimization(PPO)优化解码器模型,例如 GPT-2、BLOOM、GPT-Neo。
0.4.1 版本更新包含反对大型模型训练、繁难 pipeline 并行、peft 数据并行反对,以及分布式训练的谬误修复。繁难管道并行反对大规模模型在训练设置中进行拟合,以便在这些模型上利用 RLHF。此性能应用 peft 训练适配器,同时利用 bitsandbytes 来缩小流动模型的内存占用。通过修复与 peft 集成和 DP 相干的谬误,反对多 GPU 训练。此外,对于 PyTorch 2.0 的公布,本次更新还包含一些小的修复。
GitHub 地址: https://github.com/lvwerra/trl
祝大家有一个欢快的周末,咱们下周见!