关于人工智能:DPO-直接偏好优化跳过复杂的对抗学习语言模型本来就会奖励算法

大语言模型（LLM）在掀起“全民”热潮的同时，也将人类反馈强化学习（RLHF）和处分模型（Reward Model）带进了大家的眼帘。

大语言模型目前的调优策略个别是在大规模的无监督训练之后，通过人类偏好的策略将冀望的行为融入到语言模型中。尽管最间接的偏好学习办法是基于高质量的示范进行监督微调，但最胜利的办法类别是通过人类（或 AI）反馈进行强化学习，即 RLHF。

RLHF 办法将处分模型适应到人类偏好的数据集上，而后应用强化学习优化语言模型策略，以产生被调配高处分的回应，同时不适度偏离原始模型。RLHF 和处分模型的迭代训练，语言模型能够不断改进本人的文本生成能力。然而，RLHF 的流程远比监督学习简单得多，其中波及到训练多个语言模型。同时，该办法还须要相当大的计算成本，用来在训练过程中从语言模型策略中抽样。此外，RLHF 次要受到了数据的限度。它须要大量的人工反馈和偏好数据，不仅会耗费大量的人力资源，还可能会引入人为的偏见。

|RLHF vs DPO optimizing for human preferences

为了寻求更简略无效的大语言模型优化策略，斯坦福大学的团队提出了一种新的算法 Direct Preference Optimization（DPO）。该办法能够通过间接优化语言模型来实现对其行为的准确管制，而无需应用简单的强化学习。DPO 将处分函数和最优策略之间的映射分割起来，从而把束缚处分最大化问题转化为一个单阶段的策略训练问题。这种算法不仅不必拟合处分模型，还防止了在微调过程中从语言模型中采样或调整重要超参数的须要。试验结果表明，DPO 算法能够与现有 RLHF 办法一样无效地从人类偏好中学习，甚至在某些工作中体现更好，比方情感调节、摘要和单轮对话。

DPO 是一种隐式优化策略，与现有的 RLHF 办法具备雷同的指标，但更容易实现且易于训练。DPO 尽管减少了首选回复与其余回复之间的绝对对数概率，但单纯的绝对概率作为指标会引发模型进化。为了解决这个问题，DPO 应用了一个动静的权重示意每个示例回复的重要性。与现有的算法一样，DPO 同样依赖一个实践上的偏好模型，用于掂量给定的处分函数和理论的偏好数据之间的对齐水平。然而与其余算法不同的是，DPO 应用变量的变动将偏好损失间接定义为一个策略函数。因而，DPO 能依据给定的偏好数据和模型回复，用简略的二进制穿插熵作为指标进行策略优化。

DPO 针对人类偏好进行了优化，同时防止了强化学习。在大语言模型微调中，现有的基于人类反馈的办法都会首先将处分模型拟合到一个蕴含提醒和人类偏好的数据集上，而后应用比照学习来找到一个策略最大化学习到的处分。相比之下，DPO 只通过简略的分类指标，就能间接针对最满足人类偏好的策略进行优化，无需明确的处分函数或者强化学习。

相干材料 ：

论文地址：Direct Preference Optimization: Your Language Model is Secretly a Reward Model

🌟摸索国内 Zilliz Cloud 云服务可点击拜访 https://zilliz.com.cn，海内官网和云服务入口为 https://zilliz.com。

如果在应用 Milvus 或 Zilliz 产品有任何问题，可增加小助手微信“zilliz-tech”退出交换群。
欢送关注微信公众号“Zilliz”，理解最新资讯。

本文由 mdnice 多平台公布