关于visual-studio-code:5-Amazing-AI-Projects-Open-Source

过来一周，AI 大模型的疾速演进依然在持续演出。明天持续介绍 GitHub 上的一些实用的大模型开源我的项目。

1. ChatGLM-6B：Open Source ChatGPT Alternative
ChatGLM-6B 是一个基于 GLM 架构的开源对话语言模型，反对中英双语，有 62 亿参数。联合模型量化技术，能够在生产级显卡上本地部署，成果堪比 ChatGPT。2023 年 3 月开源，3 周工夫曾经积攒超过 100 万次下载，目前寰球靠近 300 万次下载量。

2. CodeGeeX：Open Source Github Copilot Alternative
CodeGeeX 是一个基于 AI 大模型的代码生成神器，领有 130 亿参数，反对 23 种编程语言。CodeGeeX 能够依据自然语言或代码片段生成残缺的代码，“Ask CodeGeeX”性能能够在 IDE 中通过对话的形式间接操作代码，开发者普遍认为 是 Github Copilot 的平替产品。CodeGeeX 是开源收费的，反对 VS Code 和 IDEAs 平台，目前寰球装置应用的用户量超过 100,000+。

3. Meta open source AI generative music model
这是 Meta 在 GitHub 上开源的名为 Audiocraft 的 Python 库，能够间接用人工智能生成音乐。其中次要应用了一个名为 MusicGen 的音乐生成模型。MusicGen 是一个基于单阶自回归 Transformer 的预训练模型，应用 32kHz EnCodec tokenizer，并以 50Hz 采样的形式生成了 4 个 codebooks。

与现有的办法（如 MusicLM）不同，MusicGen 不须要自监督语义学习，而是一次性生成了所有 4 个 codebooks。在文本生成和文生图之后，看看用文本生成音乐的成果如何。

4. Diffusers 公布重要更新

Diffusers v0.17.0 正式公布，改良了 LoRA、Kandinsky 2.1、Torch 编译减速等性能。Diffusers 是一个在 GitHub 上的 Diffusion Model 预训练模型罕用库，广受欢迎，可用于生成图像、音频，甚至是分子的 3D 构造。

无论是寻找简略的推理解决方案还是训练本人的 Diffusion Models，Diffusers 作为一个模块化工具包提供反对。
库的设计更重视易用性和可定制性，次要提供以下三个外围组件：

先进的 Diffusion pipeline，只需几行代码即可进行推理；
可调换的 noise schedulers，用于不同的 Diffusion 速度和输入品质；
预训练模型可用作构建模块，并与 schedulers 联合应用，创立本人的端到端 Diffusion Systems。

这个我的项目是由 Hugging Face 收费开源的，能够应用它来疾速训练 ControlNet，进一步提高 AI 绘画的成果和品质。

5. Everything is identifiable

Meta 之前在 GitHub 上开源了一个名为 Segment Anything Model 的图像宰割模型，能够主动实现图像宰割。然而，该模型在图像定位方面体现良好，但在图像识别方面的体现却个别。

为此，复旦大学与 OPPO 的钻研人员以及 International School of Digital Economy, 独特在 GitHub 上开源了一个根底图像标注模型：Recognize Anything Model (RAM)。采纳了一种新的图像标注范式，能够辨认各种常见类别。而且用来训练的数据，是通过大规模的图像主动生成文原本进行标注，取代了手动标注。

通过基准评估，RAM 的标记能力体现优良，成果显著优于 CLIP 和 BLIP。有用户认为 RAM 甚至超过了齐全监督的办法，与 Google API 相当。同时，我的项目中还蕴含一个名为 Tag2Text 的工具，能够批量间接为图像中的指定对象生成标签。如果与 Meta 的开源 SAM 模型联合应用，咱们能够批量删除图像中的指定对象，进一步提高图像处理效率。