关于llm:开源代码生成模型-StarCoder-2-全新上线

BigCode 正式推出 StarCoder2 —— 一系列新一代的凋谢源代码大语言模型 (LLMs)。这些模型全副基于一个全新、大规模且高品质的代码数据集 The Stack v2 进行训练。咱们不仅公开了所有的模型和数据集，还包含了数据处理和训练代码的详细信息，详情请参阅相干论文。

StarCoder2 是什么?

StarCoder2 是一套面向代码的开放式大语言模型系列，提供 3 种规模的模型，别离包含 30 亿 (3B)、70 亿 (7B) 和 150 亿 (15B) 参数。特地地，StarCoder2-15B 模型通过了超过 4 万亿 token 和 600 多种编程语言的训练，基于 The Stack v2 数据集。所有模型均采纳分组查问注意力机制 (Grouped Query Attention)，具备 16,384 个 token 的上下文窗口和 4,096 个令牌的滑动窗口注意力，并通过“填充两头” (Fill-in-the-Middle) 技术进行训练。

StarCoder2 蕴含三种规模的模型: ServiceNow 训练的 30 亿参数模型、Hugging Face 训练的 70 亿参数模型以及 NVIDIA 利用 NVIDIA NeMo 在 NVIDIA 减速基础架构上训练的 150 亿参数模型:

StarCoder2-3B 基于 The Stack v2 的 17 种编程语言训练，解决了超过 3 万亿 token。
StarCoder2-7B 基于 The Stack v2 的 17 种编程语言训练，解决了超过 3.5 万亿 token。
StarCoder2-15B 基于 The Stack v2 的 600 多种编程语言训练，解决了超过 4 万亿 token。

StarCoder2-15B 模型在其级别中表现出色，与 33 亿以上参数的模型在多项评估中并驾齐驱。StarCoder2-3B 的性能达到了 StarCoder1-15B 的程度:

The Stack v2 是什么?

The Stack v2 是迄今为止最大的凋谢代码数据集，非常适合进行大语言模型的预训练。与 The Stack v1 相比，The Stack v2 领有更大的数据规模，采纳了更先进的语言和许可证检测流程以及更优的过滤机制。此外，训练数据集依照仓库进行了分组，使得模型训练可能取得仓库上下文的反对。

数据集比照	The Stack v1	The Stack v2
全副数据量	6.4TB	67.5TB
去重后数据量	2.9TB	32.1TB
训练数据集大小	约 2000 亿 token	约 9000 亿 token

该数据集源自软件遗产档案 (Software Heritage archive)，这是一个蕴含了丰盛软件源代码及其开发历史的公共档案库。作为一个凋谢和非盈利的我的项目，软件遗产由 Inria 与 UNESCO 单干发动，旨在收集、保留并共享所有公开可用的软件源代码。咱们对软件遗产提供这一无价资源表示感谢。欲了解更多信息，请拜访软件遗产网站。

您能够通过 Hugging Face Hub 拜访 The Stack v2 数据集。

对于 BigCode

BigCode 是由 Hugging Face 和 ServiceNow 联结领导的一个凋谢科研合作项目，致力于负责任地开发代码用大语言模型。

相干链接

模型资源

钻研论文: 具体介绍 StarCoder2 和 The Stack v2 的技术报告。
GitHub 仓库: 提供应用或微调 StarCoder2 的残缺指南。
StarCoder2-3B: 规模较小的 StarCoder2 模型。
StarCoder2-7B: 规模中等的 StarCoder2 模型。
StarCoder2-15B: 规模较大的 StarCoder2 模型。

数据及治理

StarCoder2 许可协定: 模型基于 BigCode OpenRAIL-M v1 许可协定受权。
StarCoder2 代码搜寻: 对预训练数据集中的代码进行全文搜寻。
StarCoder2 成员资格测试: 疾速验证代码是否蕴含在预训练数据集中。

其余资源

VSCode 扩大: 应用 StarCoder 进行编码的插件！
大型代码模型排行榜: 比拟不同模型的性能。
所有资源和链接均可在 huggingface.co/bigcode 查阅！

英文原文: https://hf.co/blog/starcoder2

原文作者: Leandro von Werra, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi

译者: AdinaY

关于llm:开源代码生成模型-StarCoder-2-全新上线

StarCoder2 是什么?

The Stack v2 是什么?

对于 BigCode

相干链接

模型资源

数据及治理

其余资源

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于llm:开源代码生成模型-StarCoder-2-全新上线

StarCoder2 是什么?

The Stack v2 是什么?

对于 BigCode

相干链接

模型资源

数据及治理

其余资源

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复