关于人工智能:落地领域大模型应知必会2-轻量化微调

编者按：在理论部署大模型的过程中可能会面临资源限度的问题。通过轻量化大模型微调技术，能够将大型预训练语言模型适配到特定畛域、特定工作，并减小其模型尺寸和计算量需要，进步性能和效率。
在上一篇文章中，咱们分享了大语言模型的次要微调技术总览。接下来，本文将介绍轻量化大模型微调技术，重点关注Prompt Tuning和Prefix Tuning。
以下是译文，Enjoy!

本文经原作者受权，由Baihai IDP编译。如需转载译文，请分割获取受权。

原文链接：

https://magazine.sebastianraschka.com/p/understanding-paramet...

作者 | SEBASTIAN RASCHKA, PHD

编译 | 岳扬

01 Prompt Tuning

Prompt Tuning是一种通过扭转输出提醒语（input prompt）以取得更优模型成果的技术。举个例子，如果咱们想将一条英语句子翻译成德语，能够采纳多种不同的形式向模型发问，如下图所示：

这是一个hard prompt tuning示例，通过尝试多种输出提醒来取得更好的输入成果。

这个案例采纳的是硬提醒调优（hard prompt tuning） 办法，因为它间接批改了离散的输出标记（input tokens），而这些标记是不可再分的。

译者注：在自然语言解决畛域，个别将文本进行分词解决，将一个句子拆分为一个个离散的单词或标点符号作为input token。每个token代表一个离散的语义单位，模型能够依据这些token进行语义了解和生成回复。
例如，对于句子 "你好，很快乐见到你！"，能够将其合成为以下离散的input token：
[ "你", "好", "，", "很", "快乐", "见到", "你", "！" ]
这些离散的token能够作为模型的输出，用于训练或生成对话回复。留神，在应用离散的input token时须要将其转换为对应的向量示意（如词嵌入示意），以便模型可能对其进行解决和学习。

与硬提醒调优（hard prompt tuning）相同，软提醒调优（soft prompt tuning）办法（Lester等人，2021年[1]）将输出标记（input tokens）的嵌入（embeddings）与可通过反向流传算法（backpropagation）进行优化的可训练张量（tensor）连接起来，以进步模型在指标工作上的性能。

伪代码如下所示：

阐明soft prompting相干概念的伪代码

与离散的文本prompt不同，软提醒（soft prompts）是通过反向流传算法（back-propagation）取得的，因而能够依据已标注数据集的损失函数反馈（loss feedback）进行调整。

相较于全参数微调（full-finetuning），软提醒调优（soft prompt tuning）具备更高的参数效率（more parameter-efficient），但应用软提醒调优的模型性能可能稍逊一筹，如下图所示。

该图来自提出soft prompting的论文，https://arxiv.org/abs/2104.08691

另一方面，如果模型参数为11B，则依据上图所示，软提醒调优（soft prompt tuning）能够达到全参数微调（full fine tuning）的性能程度（须要留神的是，LLaMA模型的最小参数规模为7B，最大参数规模为65B）。

存储效率

如果咱们想要将大模型利用于特定工作，并因而须要微调预训练模型，通常须要为每个工作保留整个模型的正本。然而，如果应用prompt tuning，咱们只须要为每个工作保留一个小小的task-specific soft prompt。例如，对于T5 "XXL"模型，每个微调模型正本须要110亿个参数。相比之下，假如prompt长度为5个tokens，嵌入的size为4096维（4096-dimensional），对于每个每个工作，通过prompt tuning只须要20480个参数，这相当于缩小了五个数量级以上的参数量。

02 从Prompt Tuning到Prefix Tuning

目前，有一种非凡的、被独立开发的prompt tuning形式被称为前缀调优（prefix tuning） (Li & Liang 2021[2])。其思维是将可训练的张量（trainable tensors）增加到每个Transformer块中，而非像soft prompt tuning中那样只增加输出嵌入(input embeddings)。同时，通过全连贯层（fully connected layers，两层并且具备非线性激活函数的小型多层感知机）获取soft prompt embedding。

译者注： 在应用深度学习模型进行自然语言解决工作时，input embeddings常作为模型的第一层进行应用，将离散的input token转换为间断的向量示意，从而实现对文本的无效建模和解决。
前缀调优技术将预约义的prompt嵌入到模型中，以影响模型的生成行为。这项技术能够扭转模型对输出的解释形式，使得模型可能更好地依据prompt生成相应的输入。

下图阐明了惯例Transformer块和通过前缀（prefix）批改的Transformer块之间的区别。

Illustration of prefix tuning

请留神，在上图中，“全连贯层”是指一个小型多层感知机（由两个全连贯层和一个非线性激活函数组成）。这些全连贯层将soft prompt嵌入到一个与transformer块输出具备雷同维度的特色空间（feature space）中，以确保两层连贯时的兼容性。

应用Python伪代码，能够阐明惯例Transformer块和通过前缀（prefix）批改的Transformer块之间的区别：

prefix tuning的伪代码图示

依据提出prefix tuning的论文，该办法在仅训练0.1%的参数的状况下，实现了与微调所有层相当的模型性能（该试验基于GPT-2模型）。此外，在大多数状况下，prefix tuning的体现甚至优于微调所有层，可能是因为该办法波及的参数较少，有助于缩小对较小指标数据集的过拟合问题。

由Li and Liang发表的Prefix Tuning相干论文中的正文图

最初，为了廓清推理过程中soft prompts的应用形式，请留神以下几点：在学习了soft prompts后，在咱们针对特定工作对模型进行微调时，咱们必须将其（soft prompts）作为前缀（prefix）提供。这样做能够使模型依据特定工作自定义其答复。此外，咱们能够领有多个soft prompts，每个对应于不同的工作，并且在推理过程可能提供相应的前缀，以最好地去解决特定工作。

03 Prefix与Prompt Tuning

在性能方面，soft prompt tuning和prefix tuning孰强孰弱？可怜的是，就性能而言，目前尚无间接比拟soft prompt tuning和prefix tuning的钻研后果，因为这它们是独立开发并同时公布的办法，各自的论文中未进行间接的比拟。此外，在我查阅参数高效型大语言模型（parameter-efficient LLM）的最新文献中，并没有找到同时蕴含这两种办法的基准测试（benchmark） 。

在prefix tuning这种办法中，通过向输出序列（input sequence）插入特定工作的前缀（a task-specific prefix）来批改模型的更多层、，因而须要微调更多的参数。另一方面，soft prompt tuning仅波及对input prompt embeddings进行微调，因而更新的参数较少。这使得soft prompt tuning可能比prefix tuning更轻量化（parameter-efficient），但也可能限度了其适应更宽泛指标工作的能力。

就性能方面而言，咱们能够正当地冀望prefix tuning可能体现得更好，因为它可能调整更多的模型参数以便适应更宽泛的新工作。然而，这可能是以减少计算资源的耗费和进步模型呈现过拟合的危险为代价的。另一方面，soft prompt tuning可能具备更高的计算效率，但因为微调的参数较少，可能会导限度模型的性能。

04 总结

该文章介绍了两种轻量化微调技术：soft prompt tuning 和 prefix tuning。与全参数微调（full finetuning）相比，这两种办法仅需调整很少的参数。

对于开发者来说，soft prompt tuning能够更具备吸引力，因为他们只须要批改input embeddings，而不需像prefix tuning那样批改外部transformer块。

在你开始尝试应用这些技术微调大模型之前，我倡议你继续关注其余更乏味的轻量化微调（parameter-efficient finetuning）技术：Adapters，LLaMA-Adapter（与惯例的Adapter无关但也有所不同）以及Low-Rank Adaptation（LoRA） 等等。这些技术可能会提供更多抉择，并且能够依据你的具体需要进行更好的调整。

END

参考资料

1. https://arxiv.org/abs/2104.08691

2. https://arxiv.org/abs/2101.00190

本文经原作者受权，由Baihai IDP编译。如需转载译文，请分割获取受权。

原文链接：

https://magazine.sebastianraschka.com/p/understanding-paramet...

相干文章举荐
落地畛域大模型应知必会 (1) ：次要微调办法总览

大模型的三大法宝：Finetune, Prompt Engineering, Reward

Prompt Learning: ChatGPT也在用的NLP新范式