关于人工智能:介绍-SafeCoder-解决方案服务

明天这篇推文，咱们打算给本人打一波“广告”，向大家隆重介绍 SafeCoder—— 一款专为企业打造的代码助手解决方案。

SafeCoder 旨在成为你齐全合规且自托管的结对编程工程师，从而开释企业的软件开发生产力。用营销话术来讲就是：“你本人的本地 GitHub Copilot”。

在深入探讨之前，咱们先简略理解一下 SafeCoder：

SafeCoder 不是一个模型，而是一个残缺的端到端商业解决方案
SafeCoder 以平安及隐衷为外围准则 – 代码在训练或推理过程中永远不会来到 VPC（Virtual Private Cloud，虚构公有云）
SafeCoder 专为客户在本人的基础设施上自行托管而设计
SafeCoder 旨在让客户真正领有本人的代码大语言模型

基于 LLM 的代码助理解决方案（如 GitHub Copilot）正在掀起微小的生产力晋升浪潮。对于企业来说，这使得它们可能用公司本人的代码库去调整代码大模型从而创立出专属于本人的代码大模型以进步代码补全的可靠性及相关性，从而进一步提高生产力。一个例子是，据 Google 报告，其外部的 LLM 代码助理在基于外部代码库训练后，代码补全承受率进步到了 25-34%。

然而，依附闭源代码大模型来创立外部代码助理会让公司面临合规及平安问题。首先，在训练期间，在外部代码库上微调闭源代码大模型须要将此代码库向第三方公开。其次，在推理过程中，通过微调的代码大模型可能会在推理过程中“透露”其训练数据集中的代码。为了合规，企业须要在本人的基础设施上部署微调过的代码大模型 – 这对于闭源 LLM 来说是不可能的。

借助 SafeCoder，Hugging Face 能够帮忙客户构建本人的代码大模型，使得客户能够最先进的库，在其公有代码库上微调最先进的凋谢模型，而无需与 Hugging Face 或任何其余第三方共享数据。通过 SafeCoder，Hugging Face 会提供容器化、硬件加速的代码大模型推理解决方案，由客户间接在其信赖的、平安的基础设施上部署，从而使得整个代码输出和补全过程无需来到客户本人的平安 IT 环境。

SafeCoder 解决方案的外围是 BigCode 我的项目训进去的 StarCoder 系列代码大模型。BigCode 我的项目是一个由 Hugging Face、ServiceNow 及开源社区独特单干实现的开源我的项目。

StarCoder 模型是企业自托管解决方案的现实抉择，其劣势如下：

最先进的代码补全成果 – 详情可参阅论文及多语言代码评估排行榜。
为推理性能而生：代码级优化的 15B 模型、能够缩小内存占用的多查问注意力（Multi-Query Attention，MQA）以及可将上下文扩大至 8192 个词元的 Flash 注意力。
基于 The Stack 数据集训练，这是一个起源合乎道德准则的开源代码数据集，其中仅蕴含可商用的许可代码，且从一开始就蕴含了容许开发人员自主将其代码库退出的机制，此外咱们还对其进行了大量的 PII 删除和代码去重工作。

留神：尽管 StarCoder 是 SafeCoder 的灵感起源和首个根底模型。但基于开源模型构建 LLM 解决方案的一个重要益处是它能够用上最新最好的开源模型，因而，未来 SafeCoder 不排除会基于其余相似的、可商用的、开源的、起源合乎道德准则的公开通明的开源代码数据集的根底 LLM 进行微调。

对于任何公司而言，外部代码库都是其最重要、最有价值的知识产权。SafeCoder 的一个外围准则是，在训练和推理过程中，任何第三方（包含 Hugging Face）永远不会拜访到客户外部代码库。

当客户开始搭建 SafeCoder 计划时，Hugging Face 团队会提供容器、脚本和示例，并与客户携手单干以对外部代码库数据进行抉择、提取、筹备、复制、脱敏，最终生成训练数据集，而后客户就能够配置好 Hugging Face 提供的训练容器并将其部署至自管基础设施上。

到了部署阶段，客户会在自管基础设施上部署 Hugging Face 提供的容器，并在其 VPC 内公布外部公有推理终端。这些容器可依据客户本人的硬件环境进行相应配置，目前次要反对的硬件有：英伟达 GPU、AMD Instinct GPU、英特尔至强 CPU、AWS Inferentia2 以及 Habana Gaudi。

因为目前在全世界范畴内，围绕机器学习模型和数据集的监管框架仍在制订中，跨国公司须要确保其应用的解决方案可能最大限度地升高法律危险。

数据源、数据治理、版权数据管理是其中最重要的几个需考量的合规畛域。在这些问题失去人工智能欧盟法案草案的宽泛认可之前，BigCode 的老表和灵感起源 BigScience 已在其在工作组中解决了这些问题，并因而在斯坦福 CRFM 钻研中被评为最合规的根底模型提供商。

BigCode 发挥了 BigScience 的工作，其以合规为外围准则构建 The Stack 数据集并围绕这个数据集施行了一系列新技术。例如对可商用许可证进行过滤、批准机制（开发人员能够轻松地查到他们的代码是否在数据集中并要求将其代码从数据集中剔除）、大量的用于审查源代码数据的文档和工具，以及数据集改良计划（如数据去重、PII 删除）。

所有这些致力都大大降低了 StarCoder 模型用户和 SafeCoder 客户的法律危险。对于 SafeCoder 用户来说，这些工作最终还造成了一个合规性性能：当软件开发人员用 SafeCoder 进行代码补全时，可将其与 The Stack 数据集进行比对，以便晓得生成的代码是否与源数据集中的某些现有代码匹配，以及对应代码的许可证是什么。客户甚至能够指定许可证白名单并向用户展现在白名单内的代码。

SafeCoder 是一个残缺的商业解决方案，包含服务、软件及相应的反对。

StarCoder 的训练数据中有 80 多种编程语言，其在多个测试基准上名落孙山。为了使 SafeCoder 客户能失去更好、更有针对性的代码倡议，用户能够抉择让咱们从训练阶段开始参加，此时 Hugging Face 团队间接与客户团队单干，领导他们筹备并构建训练代码数据集，并微调出他们本人的代码生成模型，而无需将其代码库裸露给第三方或上传到互联网上。

最终生成的是一个适宜客户的编程语言、规范及实际的模型。通过这个过程，SafeCoder 客户能够学习该流程并构建一个用于创立和更新自有模型的流水线，确保不被供应商锁定，并放弃对其 AI 性能的控制力。

在部署阶段，SafeCoder 客户和 Hugging Face 一起设计并组建能反对所需并发性的最佳基础设施，从而提供杰出的开发者体验。而后，Hugging Face 据此构建出 SafeCoder 推理容器，这些容器通过硬件加速并针对吞吐进行了优化。最初，由客户部署在本人的基础设施上。

SafeCoder 推理反对各种硬件，为客户提供宽泛的抉择：英伟达 Ampere GPU、AMD Instinct GPU、Habana Gaudi2、AWS Inferentia 2、英特尔至强 Sapphire Rapids CPU 等。

一旦部署了 SafeCoder 并在客户 VPC 中上线了其推理端点，开发人员就能够装置兼容的 SafeCoder IDE 插件，以便在工作时获取代码倡议。以后，SafeCoder 反对风行的 IDE，包含 VSCode、IntelliJ，同时咱们的合作伙伴还在开发更多插件，尽请期待。

咱们在 VMware Explore 大会上发表与 VMware 单干推出了 SafeCoder，并向 VMware 企业客户提供 SafeCoder。与 VMware 单干有助于确保 SafeCoder 在客户的 VMware Cloud 基础设施上胜利部署 – 无论客户更青眼云、本地还是混合基础设施。除了 SafeCoder 自身外，VMware 还公布了一个参考架构，其中蕴含了一些示例代码，能够帮忙用户用最短时间在 VMware 基础设施上部署和经营 SafeCoder 从而发明价值。VMware 的公有 AI 参考架构使组织可能轻松疾速地利用风行的开源我的项目（例如 Ray 和 kubeflow）围绕其公有数据集部署 AI 服务。同时，通过与 Hugging Face 单干，组织还能放弃利用最新技术及以及最佳开源模型的灵活性。这所有都无需在总领有老本或性能上进行衡量。

咱们与 Hugging Face 围绕 SafeCoder 进行的单干与 VMware 的指标完满符合，即让客户可能抉择解决方案，同时保护其隐衷及其对业务数据的管制。事实上，咱们曾经在外部运行 SafeCoder 几个月了，并且曾经看到了杰出的后果。最重要的是，咱们与 Hugging Face 的单干才刚刚开始，我很快乐可能将咱们的解决方案带给寰球数十万客户。”
VMware AI 研究院副总裁 Chris Wolf 如是说，点击此处可具体理解公有 AI 和 VMware 在这一新兴畛域的差异化性能。

如果你对在贵公司部署 SafeCoder 感兴趣，请通过电子邮件分割咱们 api-enterprise@huggingface.co 请在邮件题目里退出 SafeCoder 关键字。咱们的团队将分割你并与你探讨需要！

英文原文: https://huggingface.co/blog/safecoder
原文作者：Jeff Boudier，Philipp Schmid
译者: Matrix Yao (姚伟峰)，英特尔深度学习工程师，工作方向为 transformer-family 模型在各模态数据上的利用及大规模模型的训练推理。

关于人工智能:介绍-SafeCoder-解决方案服务

为何抉择 SafeCoder？

从 StarCoder 到 SafeCoder

外围准则之隐衷和平安

外围准则之合规

产品阐明

训练你本人的 SafeCoder 模型

部署 SafeCoder

应用 SafeCoder

如何获取 SafeCoder 解决方案？

Just My Socks（注册教程内含优惠码）

关于人工智能:介绍-SafeCoder-解决方案服务

为何抉择 SafeCoder？

从 StarCoder 到 SafeCoder

外围准则之隐衷和平安

外围准则之合规

产品阐明

训练你本人的 SafeCoder 模型

部署 SafeCoder

应用 SafeCoder

如何获取 SafeCoder 解决方案？

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）