关于人工智能:大模型的三大法宝Finetune-Prompt-Engineering-Reward

编者按：基于根底通用模型构建畛域或企业特有模型是目前趋势。本文扼要介绍了最大化开掘语言模型后劲的三大法宝——Finetune, Prompt Engineering和RLHF——的基本概念，并指出了大模型微调面临的工具层面的挑战。

以下是译文，Enjoy!

作者 | Ben Lorica

编译 | 岳扬

随着语言模型越来越风行，采纳一套通用的办法和工具来充沛开释语言模型的后劲就变得至关重要。这些办法中最重要的是提醒工程（prompt engineering），其波及到如何在提醒（prompt）或查问（query）中抉择和组合词语来申请模型产生所需的回复（response）。如果可能从ChatGPT或Stable Diffusion中取得所需的输入（output），那么你就离成为一名纯熟的提醒工程师（prompt engineer）又近了一步。

在tuning spectrum的背地是基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF），当模型须要在多种输出和准确率要求极高的状况下训练时，这种办法是最无效的。 RLHF被宽泛用于微调通用模型，如ChatGPT、谷歌的Bard、Anthropic的Claude或DeepMind的Sparrow。

下图中，咱们总结了Finetune，Prompt Engineering, RLHF的外围特点和实用场景。

帮忙咱们充分利用根底模型的策略(中文图片由Baihai IDP翻译）

对于大多数团队来说，最佳抉择是应用一个已初步训练好的模型，并将其Fine-tune以适应特定的工作或数据集。 这个过程须要从大型语言模型（LLM）开始，这种模型曾经在大量文本数据上进行了训练。尽管许多LLM目前是专有的（proprietary），只能通过API拜访，但开源数据集、学术论文甚至开源模型代码的呈现使技术团队可能用在他们特定的畛域和应用程序。

另一个乏味的趋势是呈现了更易于私有化部署和治理的根底模型，例如LLaMA和Chinchilla，这为未来呈现更多的中型模型提供了可能性。抉择适合的模型进行微调须要团队不仅思考特定畛域中可用数据的数量，还要评估模型的（开源）许可证与其具体要求的兼容性。

微调根底模型的简略手册

随着咱们对根底模型理论利用的了解一直拓展，呈现了很多定制化的工具（bespoke tools），可能不便在模型部署前欠缺这些模型。这里有一些用于微调和定制语言模型的资源：

Hugging Face的微调教程[[1]](#)[[2]](#)）。
OpenAI的微调指南[[3]](#)
co:here编写的对于如何创立自定义模型的指南[[4]](#)[](#)
AI21 Labs编写的对于创立自定义模型的教程[[5]](#)

[](#)在NLP（John Snow Labs[[6]](#)）和CV（Matroid[[7]](#)）畛域中，曾经有了无代码工具开发的实例，能够无代码创立自定义模型 。在大模型畛域，我期待相似的工具的呈现，以欠缺根底模型的微调和利用。

只管RLHF在训练顶尖语言模型的团队中取得了必定，但因为不足可用的工具，其可及性（ accessibility ）依然有余。此外，RLHF须要开发一个容易受misalignment（即呈现了统计散布不统一景象）和其余问题影响的处分函数（reward function），并且RLHF依然是一种只有多数团队把握的专有技术。

尽管提醒工程有用，但在生成针对特定工作和畛域优化的牢靠根底模型方面依然有余。只管有些团队可能会抉择从头开始构建本人的模型，但因为从头开始训练模型的老本，这些团队不太可能总是这样做。因而，当初的趋势是偏向于微调预训练模型。

这就会导致，技术团队须要简略而多功能的工具，使他们可能应用各种技术[[8]](#)来创立自定义模型。

只管微调（fine-tuning）能够产生最佳模型（optimal models），但在部署模型之前，还须要进一步应用RHLF进行调整。此外，Anthropic最近进行的一项钻研表明[[9]](#)，提醒办法（prompting methods）能够帮忙应用RLHF训练的LLMs产生更少无害内容。

微调预训练模型比提醒工程，或从头开始训练模型更有劣势

END

小编注：须要大语言模型微调和训练工具平台的小伙伴，欢送体验IDP。咱们也基于平台，疾速搭建了多模态模型IDPChat，欢送关注和奉献。https://github.com/BaihaiAI/IDPChat

参考资料

[1]https://huggingface.co/docs/transformers/training

[2]https://huggingface.co/blog/trl-peft

[3]https://platform.openai.com/docs/guides/fine-tuning

[4]https://dashboard.cohere.ai/models/create

[5]https://docs.ai21.com/docs/custom-models

[6]https://nlp.johnsnowlabs.com/docs/en/alab/training_configurat…

[7]https://www.matroid.com/detector-creation/

[8]https://powerml.co/?utm_source=newsletter&utm_id=gradientflow

[9]https://arxiv.org/abs/2302.07459

本文经原作者受权，由Baihai IDP编译。如需转载译文，请分割获取受权。

原文链接：

https://gradientflow.com/llm-triad-tune-prompt-reward/

关于人工智能:大模型的三大法宝Finetune-Prompt-Engineering-Reward

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:大模型的三大法宝Finetune-Prompt-Engineering-Reward

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复