共计 1624 个字符,预计需要花费 5 分钟才能阅读完成。
过来一周,AI 大模型的疾速演进依然在持续演出。明天持续介绍 GitHub 上的一些实用的大模型开源我的项目。
1. ChatGLM-6B:Open Source ChatGPT Alternative
ChatGLM-6B 是一个基于 GLM 架构的开源对话语言模型,反对中英双语,有 62 亿参数。联合模型量化技术,能够在生产级显卡上本地部署,成果堪比 ChatGPT。2023 年 3 月开源,3 周工夫曾经积攒超过 100 万次下载,目前寰球靠近 300 万次下载量。
2. CodeGeeX:Open Source Github Copilot Alternative
CodeGeeX 是一个基于 AI 大模型的代码生成神器,领有 130 亿参数,反对 23 种编程语言。CodeGeeX 能够依据自然语言或代码片段生成残缺的代码,“Ask CodeGeeX”性能能够在 IDE 中通过对话的形式间接操作代码,开发者普遍认为 是 Github Copilot 的平替产品。CodeGeeX 是开源收费的,反对 VS Code 和 IDEAs 平台,目前寰球装置应用的用户量超过 100,000+。
3. Meta open source AI generative music model
这是 Meta 在 GitHub 上开源的名为 Audiocraft 的 Python 库,能够间接用人工智能生成音乐。其中次要应用了一个名为 MusicGen 的音乐生成模型。MusicGen 是一个基于单阶自回归 Transformer 的预训练模型,应用 32kHz EnCodec tokenizer,并以 50Hz 采样的形式生成了 4 个 codebooks。
与现有的办法(如 MusicLM)不同,MusicGen 不须要自监督语义学习,而是一次性生成了所有 4 个 codebooks。在文本生成和文生图之后,看看用文本生成音乐的成果如何。
4. Diffusers 公布重要更新
Diffusers v0.17.0 正式公布,改良了 LoRA、Kandinsky 2.1、Torch 编译减速等性能。Diffusers 是一个在 GitHub 上的 Diffusion Model 预训练模型罕用库,广受欢迎,可用于生成图像、音频,甚至是分子的 3D 构造。
无论是寻找简略的推理解决方案还是训练本人的 Diffusion Models,Diffusers 作为一个模块化工具包提供反对。
库的设计更重视易用性和可定制性,次要提供以下三个外围组件:
- 先进的 Diffusion pipeline,只需几行代码即可进行推理;
- 可调换的 noise schedulers,用于不同的 Diffusion 速度和输入品质;
- 预训练模型可用作构建模块,并与 schedulers 联合应用,创立本人的端到端 Diffusion Systems。
这个我的项目是由 Hugging Face 收费开源的,能够应用它来疾速训练 ControlNet,进一步提高 AI 绘画的成果和品质。
5. Everything is identifiable
Meta 之前在 GitHub 上开源了一个名为 Segment Anything Model 的图像宰割模型,能够主动实现图像宰割。然而,该模型在图像定位方面体现良好,但在图像识别方面的体现却个别。
为此,复旦大学与 OPPO 的钻研人员以及 International School of Digital Economy, 独特在 GitHub 上开源了一个根底图像标注模型:Recognize Anything Model (RAM)。采纳了一种新的图像标注范式,能够辨认各种常见类别。而且用来训练的数据,是通过大规模的图像主动生成文原本进行标注,取代了手动标注。
通过基准评估,RAM 的标记能力体现优良,成果显著优于 CLIP 和 BLIP。有用户认为 RAM 甚至超过了齐全监督的办法,与 Google API 相当。同时,我的项目中还蕴含一个名为 Tag2Text 的工具,能够批量间接为图像中的指定对象生成标签。如果与 Meta 的开源 SAM 模型联合应用,咱们能够批量删除图像中的指定对象,进一步提高图像处理效率。