关于人工智能:对标ChatGPT新AI助手Claude来了

导语｜ ChatGPT 自11月30日公布后，其令人惊艳的对话能力，引发业界对通用人工智能的探讨热潮。截至发文， OpenAI 始终放弃遥遥领先，且并未走漏更多的技术细节。近日新的 AI 助手 Claude 公布， ChatGPT 迎来强有力的竞争对手。来自腾讯的肖求根和杨帆将介绍 Claude 背地的技术，欢送各位开发者一起探讨~

1 背景

2 Claude 的技术亮点

2.1 RLAIF 的长处

2.2 RLAIF 的前提

3 Claude 比照 ChatGPT

3.1 实现差别

3.2 成果差别

4 RLAIF 训练过程

4.1 监督学习阶段

4.2 强化学习阶段

5 RLAIF 数据标注

5.1 有效性标注平台

5.2 无害性标注平台

6 RLAIF 试验细节

6.1 强化学习办法 PK

6.2 Critique 是否必要

6.3 AI Feedback 的准确性

6.4 个性示例：有害性 VS 回避性

7 总结

01、背景

Claude 是 Anthropic 新推出的一款相似于 ChatGPT 的 AI 助手，Anthropic 是从 OpenAI 出奔的前员工们个体创立的 AI 初创公司。尽管目前 Claude 尚未凋谢公测，但从其被曝光的内测比照后果来看，Claude 曾经能够和 ChatGPT 掰掰手段：在逻辑和计算方面， Claude 体现出了旗鼓相当的实力，只管在代码生成和推理问题上存在差距，但在有害性方面体现突出。具体表现为可能更清晰的回绝不失当的申请，当面对超出能力范畴的问题，可能被动坦率，而不是像 ChatGPT 那样回避答复。

同时 Anthropic 也公布了 Claude 对应的论文 _Constitutional AI: Harmlessness from AI Feedback_。论文作者列表中蕴含较多有 OpenAI 工作背景的核心成员。在所有现有公开资料中，这篇22年12月15日公布的论文，成为从技术背景和时鲜性两方面最贴近 ChatGPT 的文章。

这篇论文不仅提供了一种稍低成本的新技术思路，也对 ChatGPT 的技术复现有十分大的借鉴价值（模型参数、训练样本、标注平台、训练细节、人力分工等)。下文将围绕这篇论文，介绍 Claude 背地的技术。

02、Claude的技术亮点

Claude 开创性地引入了 Constitutional AI ( CAI ) 的概念。以 ChatGPT 为代表，现有办法次要是：通过人类反馈来强化学习（RL by Human Feedback，RLHF）的算法。即在强化学习阶段通过拟合大量的人工标注的偏好数据，来对齐大规模语言模型和人类偏好，从而给出令人满意的有用（Helpful）、牢靠（Honest）和有害（Harmless）的答复。

Claude 在有用性（有用和牢靠）方面沿用人类反馈，但在有害方面创始了一条更低成本且无效的门路。仅须要大量的自然语言准则或指令，AI 零碎会主动输入偏好判断，领导模型对齐 AI 了解的无害化偏好，从而训练出危害更小的零碎。因而这种技术也叫以 AI 反馈强化学习（RL from AI Feedback，RLAIF）的算法。

2.1 RLAIF 的长处

RLAIF不仅能够显著升高开发 AI 助手对人类反馈标注数据的依赖，更能够减少利用 AI 助手的透明度和简洁性。假如咱们在应用基于 RLHF 的 ChatGPT，这样的 AI 零碎通常很少公开他们辛苦标注的偏好数据。即使公开了数据，也很难从大量标注中整顿绝对形象的标注指标和领导用意。而 Constitutional AI 零碎的条令（也能够了解成标准、法令）能够公开通明。其次，当领导指标须要调整时，也能够省略从新标注的工夫，这无疑进一步升高了利用门槛。

2.2 RLAIF 的前提

语言模型在参数规模放大到肯定规模后，体现出了某种程度的突现能力（Emergent Ability）。显著加强的自然语言理解能力，使得人类能够更加高效地领导AI零碎：退出条令中的自然语言准则，输入高质量的 AI 反馈信号。

论文中将这种能力称作规模监督（Scaling Supervision）。这种自动化决策过程自身存在肯定的危险，因而对模型理解能力和条令设计的合理性提出了要求。论文中也提到通过思维链（Chain of Though, CoT）和偏好集成来晋升反馈的品质，并通过试验证实了AI反馈信号的准确性。

上面章节讲述比照两种办法的差别。

03、Claude 比照 ChatGPT

如前所述，有别于 ChatGPT 的 RLHF 算法，Claude 模型提出了 RLAIF 算法。

3.1 实现差别

咱们能够通过上面这张图疾速理解。

3.2 成果差别

二者在成果上也有很大差别。一个弱小的 AI 助手须要在有用性（Helpfulness）和有害性（Harmlessness）上做好衡量。RLAIF 算法能够提供模型中显著更强的有害性能力。此外，它在有用性上就义很小。整体来看，性价比很高。

上图是不同训练方法中模型成果的比照（52B）。评估形式是人工对凋谢对话中的模型输入进行偏好打分，模型越靠右示意后果越无效，越靠上示意后果越有害。4 条不同色彩的线别离代表不同的强化训练办法，线上从左到右的点代表不同训练阶段（checkpoint），能够看出 RLAIF 绝对于 RLHF 而言，在靠近的有效性程度下，体现出显著更强的有害性。

蓝色线（Helpful RLHF）：仅用有效性数据训练，以人类反馈来强化学习。有效性最强，然而有害性很差；
橙色线（HH RLHF）：同时用有效性（Helpful）和有害性（Harmless）数据训练，以人类反馈来强化学习。有效性削弱，有害性有余；
浅灰色线（RLAIF）：通过 AI 反馈的强化学习，有效性削弱，有害性最强；
深灰色线（RLAIF w/ CoT）：通过 AI 反馈的强化学习 + 思维链（Chain-of-Thought, CoT），有效性略弱，有害性显著强。

这里提到的 Chain-of-Thought 也叫思维链（ CoT ）。通过相似减少 Let's think step by step 的激励提醒文字，来晋升 AI 的推理性能。

值得注意的是，因为有效性（helpful）数据标注时，同时笼罩了有效性（helpful）和牢靠（honest）规范，因而Helpful RLHF笼罩 helpful & honest ，HH RLHF笼罩helpful & honest & harmless。Helpful RLHF 在训练监督模型和打分模型的无害化数据生成阶段都有用到。

04、RLAIF训练过程

RLAIF 由监督学习和强化学习两阶段组成。这里咱们会重点关注监督模型和打分模型的训练过程，特地关注这两处条令是如何帮忙生成输入的。

4.1 监督学习阶段

4.1.1 筹备工作

Helpful-Only的AI助手：即上节中的 Helpful RLHF 模型。通过 RLHF 算法仅应用有效性数据训练失去；
无害申请汇合：能够诱导对话模型输入不好的后果，蕴含人工标注 4.25 万的 Red-Teaming 攻打数据，和通过 few-shot prompting 生成 14 万额定数据。共计 18 万个无害 Prompt；
有害性改正条例：共 16 条改正准则，能够细化为无害、不道德、种族歧视、性别歧视、危险和非法等方面，每个改正准则蕴含一对 <Critique , Revision>。

4.1.2 条令改正过程

4.1.3 监督学习训练：失去监督模型（SL-CAI）

有害性数据：以 18 万无害 Prompt 为输出，每个 Prompt 采样的 4 个 Revision 后的无害化 Response 作为标签；
有效性数据：人工标注 13.5 万有效性 Prompt & Response 数据，每个 Prompt 间接通过 Helpful-RLHF 模型采样两个后果作为补充 Response；

SL- CAI 训练参数：学习率为预训练学习率的 50%，batch size 1024；

4.2 强化学习阶段

强化学习阶段相似于 RLHF，都是基于监督学习模型（SL）和偏好打分模型（PM），应用强化学习算法 PPO 进行训练。

区别在于，RLHF 的偏好模型采纳了人工标注的 Red Teaming 的排序标签，来间接拟合人类的有害性偏好，而 RL-CAI 则是借助于抉择条令来主动生成偏好数据，来拟合 AI 了解的无害化偏好。

具体做法是：应用 helpful RLHF 模型，和无害申请（Red teaming）生成多个答复，从而组成一个多选题，并且让预训练语言模型依据抉择准则，去筛选最好的后果。

4.2.1 筹备工作

Helpful-Only 的 AI 助手：同上节中的 Helpful RLHF 模型。

无害申请汇合：能够诱导对话模型输入不好的后果，蕴含人工标注 4.25 万的 Red-Teaming 攻打数据，和通过 Few-shot Prompting 生成 14 万额定数据，共计 18 万个无害 Prompt。

有害性抉择条例：共 16 条抉择准则，能够细化为无害、不道德、种族歧视、性别歧视、危险和非法等方面，每个抉择准则仅蕴含一条选择性疏导。

4.2.2 条令抉择过程

生成答案对→组合多选题→有害偏好分，能够通过思维链（Chain of Though, CoT）晋升单次判断能力。每次判断都须要采样一个抉择准则，因而能够多采样几个抉择准则，而后对后果进行集成。

可应用AI助手生成答案对

采样一条选择性准则，组成多选题模式，能够间接组装

也能够加上思维链（CoT）和few-shotting，例子是one-shotting

有害偏好打分

输出多选题到 Helpful RLHF 模型，应用生成（A）和（B）的归一化对数概率作为校准的有害偏好打分。

训练偏好模型（PM）模型的偏好数据（Prompt + Response 偏好对）

有害性数据是基于抉择条令、应用 AI 生成的有害性偏好数据，共计 18.2 万。有效性数据是指人工标注的、 13.5 万的有效性偏好数据。

训练强化（RL-CAI ）模型数据量（Prompt）

训练数据：除训练监督（SL-CAI ）模型的全副 Prompt，额定机器生成 Prompt：无害性 49 万，有效性 47.4 万。

这里提到的 Red Teaminng 是有目的性地诱惑 AI 答复无害问题。

05、RLAIF数据标注

5.1 有效性标注平台

下图是有效性标注平台的操作页面截图。标注人员和模型对话，抉择无效后果（Helpful and Honest Prompt & Response 偏好对）。

5.2 无害性标注平台

下图是无害性标注平台的操作页面截图。标注人员精心设计的 Prompt，诱导对话模型输入无害后果（Harmful Prompt & Response 偏好对），留神此处的无害性偏好标签，仅用于强化学习比照试验中的基线 RLHF，新办法 RLAIF 仅应用无害性的 Prompt。

06、RLAIF试验细节

6.1 强化学习办法 PK

在雷同的数据和训练配置下，比照多种强化学习办法，试验发现，RL-CAI (RLAIF) 优于 RLHF的两种计划，而减少了思维链（CoT）的 RL-CAI 在有用性维度中稍负于RLCAI，但在有害性维度晋升显著。

留神，因为减少了思维链（CoT）的归一化概率，模型偏好偏向适度自信，导致偏好打分比拟极其（凑近0 %或者 100 %），依据尝试后果，最终将概率限度在 40 %- 60% 区间成果最佳。

蓝色线（Helpful RLHF）：仅用有效性数据训练，人类反馈强化学习。有效性最强，然而有害性很差。
橙色线（HH RLHF）：同时用有效性（Helpful）和有害性（Harmless）数据训练，人类反馈强化学习。有效性削弱，有害性有余。
灰色线（RL-CAI）：RLAIF 模型，通过 AI 反馈的强化学习，有效性削弱，有害性最强。
彩色线（RL-CAI w/ CoT）：RLAIF模型，通过AI反馈的强化学习 + 思维链（Chain-of-Thought, CoT），有效性略弱，有害性显著强。

6.2 Critique 的必要性

RLAIF 在监督学习阶段，通过多轮条令改正 Critique → Revision 形式生成绝对有害的答复 Critique 过程的必要性进行试验，看是否简化为仅 Revision 的形式。

上图纵坐标为 52B 的偏好模型的有害性打分，分数越高阐明 Revision 后生成的答复越好。能够看出在不同模型参数量和不同 Revision 轮数下， Critique 都能晋升模型的无害化得分，在小模型上体现更显著。

6.3 AI Feedback 的准确性

RLAIF绝对于RLHF的最大区别在于强化学习流程中的反馈信号。前者来源于标注样本中的人类偏好，后者来源于大规模语言模型了解无害化准则后，提供的AI Feedback，因而须要评估后者的信号品质。

上图阐明了比照偏好模型的准确率，测试汇合为 438 个单选问题对，评估的 HHH 规范示意有效性（Helpful）、牢靠（Honest）和有害性（Harmless）。试验显示，通过应用思维链 prompting，晋升了 AI 的推理能力；随着参数量增大，思维链能够将准确率成果晋升到媲美人工语料训练的成果。

蓝色线：原始预训练语言模型
橙色线：拟合人工标注的偏好数据
灰色线：拟合思维链 + 单个抉择准则的 AI 偏好数据
彩色线：拟合思维链 + 多个抉择准则集成的 AI 偏好数据

6.4 个性示例：有害性 VS 回避性

RLHF 在遇到无害性 prompt 时，常常回避性地回绝答复，这在 ChatGPT 上也有所体现。基于 RLAIF 办法的 Claude 能够给出更加踊跃的回复。例如：

最初咱们关注一下其我的项目人力投入。全文 51 个参与者，细分如下：预训练相干11 人；强化学习6 人；采样和评估14 人；集群8 人；钻研4 人；写作2 人为主；其余奉献11 人（局部研发人员有多方向同时投入的状况）。

07、总结

从工夫线、翻新点、试验细节、开源数据上看， _Constitutional AI: Harmlessness from AI Feedback_ 论文为业界贴近 ChatGPT 实在实现的一篇文章。通过启发式地使用 AI 本身的推理学习能力，展现了解决通用 AI 某种特定维度问题的技术思路，进一步升高了人工标注老本和晋升了基于大规模人工标注的模型导向可控 / 可解释能力。它为 ChatGPT 的开源复现提供了更间接的技术细节反对。以上是本篇全部内容，欢送各位读者在评论区分享交换。

参考资料

ChatGPT 官网介绍
Anthropic 官网
GPT-3 核心成员出奔打造 ChatGPT 最强竞品！12 项工作 8 项更强，最新估值 50 亿美元-量子位
Youtube__Is AnthropicAI Claude LLM better than ChatGPT?
与 ChatGPT 测试比照：__Meet Claude: Anthropic’s Rival to ChatGPT
Constitutional AI 论文__Constitutional AI: Harmlessness from AI Feedback
HH-RHLF论文__Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Red Teaming 论文__Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
局部数据开源：

github/anthropics/ConstitutionalHarmlessnessPaper

-End-

原创作者｜肖求根、杨帆

技术责编｜肖求根、杨帆

👨‍👩‍👧‍👦有奖凋谢麦👨‍👩‍👧‍👦

🗣AI 创想：

你还能想到 ChatGPT / Claude 哪些用处？它有什么利用价值？

🗣程序员 vs AI：

AI 机器人助手层出叠见，对开发者而言是喜是忧？

程序员如何晋升不可替代性？

欢送在公众号评论区聊一聊你的认识。咱们将选取点赞量最高的3位敌人，送出腾讯云定制礼品一份。2月17日中午12点开奖。快邀请你的开发者敌人们一起来参加吧！

你可能感兴趣的腾讯工程师作品

| 算法工程师深度解构ChatGPT技术

| 3小时！开发ChatGPT微信小程序

| 7天DAU超亿级，《羊了个羊》技术架构降级实战

| 国民利用QQ如何实现高可用的订阅推送零碎

技术盲盒：前端｜后端｜AI与算法｜运维｜工程师文化

关于人工智能:对标ChatGPT新AI助手Claude来了

01、背景

02、Claude的技术亮点

03、Claude 比照 ChatGPT

04、RLAIF训练过程

05、RLAIF数据标注

06、RLAIF试验细节

07、总结

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于人工智能:对标ChatGPT新AI助手Claude来了

01、背景

02、Claude的技术亮点

03、Claude 比照 ChatGPT

04、RLAIF训练过程

05、RLAIF数据标注

06、RLAIF试验细节

07、总结

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复