关于后端:优刻得大模型技术实践四｜参数高效微调技术解析及AdaLoRA的应用

在上一期的大模型技术实际中，咱们为大家介绍了基于“LangChain+LLM”框架疾速搭建常识加强后的问答机器人，并探讨了晋升模型内容了解和执行能力的潜在优化方向。
本期内容UCloud将为您解析参数高效微调技术（PEFT），即对已预训练好的模型，固定住其大部分参数，而仅调整其中小局部或额定的参数，以达到与全副参数微调相近的成果。
参数高效微调办法，可大抵分为三个类别：减少式办法、抉择式办法和从新参数化式办法[1]。
1 减少式办法（Additive methods）
减少式办法通过减少额定的参数或层来扩大现有的预训练模型，且仅训练新减少的参数。目前，这是PEFT办法中被利用最宽泛的类别。
在减少式办法中，大抵分为Adapter类办法和软提醒（Soft Prompts）。2019年1月至2022年3月期间，Adapter类的办法Adapter Tuning，软提醒类的办法Prefix Tuning、P-Tuning、Prompt Tuning、P-Tuning v2相继呈现。
1.1 Adapter Tuning[2]
Adapter的架构如下：

在每一个Transformer层中的每个子层之后插入两个串行的Adapter。在Adapter微调期间，绿色层是依据上游数据进行训练的，而预训练模型的原参数放弃不变。
1.1.1 Adapter的特点
Adapter 模块次要由两个前馈（Feed-forward）子层组成。

第一个前馈子层将原始特色的维度d投影到一个更小的维度m，利用非线性函数，再投影回维度d的特色（作为Adapter模块的输入）。
总参数量为2md + d + m。通过设置m < d，咱们限度了每个工作增加的参数数量。
当投影层的参数初始化靠近零时，依据一个skip-connection，将该模块就初始化为近似恒等函数，以确保微调的有效性。
1.1.2 Adapter的试验后果
应用公开的预训练BERT作为根底模型。Adapter微调具备高参数效率，能够生成性能强劲的紧凑模型，与齐全微调相比体现相当。Adapter通过应用原始模型0.5-5%大小的参数量来微调，性能与BERT-LARGE上具备竞争力的后果相差不到1%。
1.2 Soft Prompts
晚期的提醒微调通过批改输出文原本管制语言模型的行为，称为硬提醒（Hard Prompts）微调。这些办法很难优化，且受到最大模型输出长度的限度。下图为离散的人工设计的Prompt示例：

比方扭转输出模式去询问模型：

软提醒（Soft Prompts）将离散的“提醒”问题转为间断的“提醒”问题，通过过反向流传和梯度降落更新参数来学习Prompts，而不是人工设计Prompts。有仅对输出层进行训练，也有对所有层进行训练的类型。上面将介绍几种热门的Soft Prompts微调办法。
1.2.1 Prefix Tuning
其构造如下：

只优化前缀（红色前缀块），该前缀增加到每一个Transformer Block中。
1.2.1.1 Prefix Tuning的特点
解冻预训练语言模型的参数，为每个工作存储特定的间断可微的前缀，节俭空间。
2.训练间减少MLP层以达到稳固。
对于不同模型结构不同的Prefix。
1.2.1.2 Prefix Tuning的试验后果
对于表格到文本工作，应用GPT-2MEDIUM和GPT-2LARGE模型。在表格到文本工作上，Prefix Tuning优于Fine-Tuning（全量微调）和Adapter-Tuning。对于摘要工作，应用BART-LARGE模型。在摘要工作上，Prefix Tuning比全量微调弱。
1.2.2 P-Tuning
其构造如下：

1.2.2.1 P-Tuning的特点

P-Tuning只在输出层退出可微的Virtual Token，其会主动插入到文本提醒的离散Token嵌入中。
Virtual Token不肯定作为前缀，其插入地位是可选的。
1.2.2.2 P-Tuning的试验后果
应用的是GPT系列和BERT系列的模型。P-Tuning与全参数成果相当，且在一些工作上优于全参数微调，能够显著进步GPT模型在自然语言了解方面的性能，并且BERT格调的模型也能够取得较小的增益.
1.2.3 Prompt Tuning
其构造如下：

上图中，仅Virtual Token局部会由梯度降落法去更新参数。
1.2.3.1 Prompt Tuning的特点
只在输出层退出Prompt，并且不须要退出MLP进行调整来解决难训练的问题。
提出了Prompt Ensembling，即通过在同一工作上训练N个提醒，也就是在同一个批次中，对同一个问题增加不同的Prompt，相当于为工作创立了N个独立的“模型”，同时依然共享外围语言建模参数。
1.2.3.2 Prompt Tuning的试验后果
应用的是预训练的各种T5模型。在风行的SuperGLUE基准测试中，Prompt Tuning的工作性能与传统的模型调优相当，且随着模型规模的减少，差距逐步减小。在零样本畛域迁徙中，Prompt Tuning能够改善泛化性能。
1.2.4 P-Tuning v2
其构造如下：

1.2.4.1 P-Tuning v2的特点
P-Tuning v2每一层的输出都退出了Tokens，容许更高的工作容量同时放弃参数效率；且增加到更深层的提醒对模型的预测有更间接的影响。
1.2.4.2 P-Tuning v2的试验后果
应用的是BERT系列和GLM系列模型。P-Tuning v2是一种在不同规模和工作中都可与微调相媲美的提醒办法。在NLU工作中，整体上P-Tuning v2与全量微调的性能相差很小。
2 抉择式办法
选择性办法对模型的现有参数进行微调，能够依据层的深度、层类型或者甚至是个别参数进行抉择。
2.1 BitFit
2022年9月5日，BitFit呈现，这是一种稠密微调办法，仅批改模型的Bias（偏置项）或其中的子集。
2.1.1 BitFit的特点

解冻大部分Transformer编码器的参数，只训练偏置项和工作特定的分类层。
优化的偏置项参数包含Attention模块中计算Query、Key、Value时，计算MLP层时，计算Layernormalization层时遇到的偏置项参数。
每个新工作只须要存储偏置项参数向量（占总参数数量的不到0.1%）和工作特定的最终线性分类器层。
2.1.2 BitFit的试验后果
应用公开可用的预训练BERTBASE、BERTLARGE和RoBERTaBA模型。BitFit微调后果不迭全量参数微调，但在极少数参数可更新的状况下，远超Frozen（解冻模型参数）形式。
3 从新参数化办法
基于从新参数化的高效微调办法利用低秩示意来最小化可训练参数的数量，其中包含2021年10月到2023年3月间呈现的LoRA和AdaRoLA办法。3.1 LoRA该办法认为模型权重矩阵在特定微调后具备较低的本征秩，故基于秩合成的概念，将预训练模型的现有权重矩阵分成两个较小的矩阵。

3.1.1 LoRA的特点
将矩阵乘积BA加到原模型参数矩阵W上能够防止推理提早。
可插拔的低秩合成矩阵模块，不便切换到不同的工作。
3.1.2 LoRA的试验后果**
应用的模型是RoBERTa、DeBERTa、GPT-2、GPT-3 175B。在多个数据集上，LoRA在性能上能和全量微调相近，且在某些工作上优于全量微调。
**3.2 AdaLoRA
3.2.1 AdaLoRA的特点**
该办法基于权重矩阵的重要性而自适应调整不同模块的秩，节俭计算量，可了解为LoRA的升级版。

AdaLoRA的做法是让模型学习SVD合成的近似。在损失函数中减少了惩办项，避免矩阵P和Q偏离正交性太远，以实现稳固训练。
3.2.2 AdaLoRA的试验后果
应用的模型是DeBERTaV3-base 和BART-large模型。AdaLoRA的性能通常高于参数量更高的办法。其中，AdaLoRA在0.32M微调参数时，在CoLA数据集上达到了70.04的Mcc分数。
4 参数微调办法小结
以上几类参数高效微调办法，各有千秋。Adapter办法在预训练模型的层中插入可训练模块的模式简略，但减少推理延时。Soft Prompts办法防止了人工“硬提醒”的局限性，却可能难收敛。
Soft Prompts办法中，Prefix Tuning率先提出可用梯度降落法优化的的Tokens，而 P-Tuning、Prompt Tuning、P-Tuning v2相继作出不同的扭转，比方：
退出的Tokens：P-Tuning仅限于输出层，而Prefix-Tuning在每一层都加。
P-Tuning和Prompt Tuning仅将间断提醒插入到输出嵌入序列中，而Prefix Tuning的“软提醒”增加在每一个Transformer Block中。
Prompt Tuning不须要额定的MLP来解决难训练的问题，P-Tuning v2移除了重参数化的编码器。
BitFit办法只更新模型外部偏置项参数所以训练参数量很渺小，但整体成果比LoRA、Adapter等办法弱。LoRA办法不存在推理延时，但无奈动静更新增量矩阵的秩，不过改进版AdaLoRA解决了这个问题。
**5 AdaLoRA办法的试验
5.1 试验模型为ChatGLM2-6B**
官网代码在Git Clone https://github.com/THUDM/ChatGLM2-6B，可去Hugging Face下载其模型文件。利用AdaLoRA之后的模型训练参数仅占总参数的0.0468%。

5.2 试验数据为中文医疗问答数据
下载链接为https://github.com/Toyhom/Chinese-medical-dialogue-data，包含儿科、内科等问答数据，数据中会有倡议去医院看病之类的文字。此处选取儿科和内科的数据别离10000条数据作为训练数据集，将文件保留为json格局。
5.2.1 结构数据集
文件为dataset.py。

5.2.2 训练代码
文件为FT.py。
配置文件config_accelerate.yml
执行文件run.sh

5.2.3 测试代码

后果为：

6 结语
除了以上3大类办法之外，还有混合参数高效微调办法，其是综合了多种PEFT类别思维的办法。比方MAM Adapter同时联合了Adapter和Prompt-Tuning的思维，UniPELT综合了LoRA、Prefix Tuning和Adapter的思维。混合参数高效微调办法大概率优于单个高效微调办法，但训练参数和推理延时的都减少了。下次将会对大模型的减速并行框架进行探讨，欢送大家继续关注！
相干文章
[1]《Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning》
[2]《Parameter-Efficient Transfer Learning for NLP》
[3]《Prefix-Tuning: Optimizing Continuous Prompts for Generation》
[4]《GPT Understands, Too》
[5]《The Power of Scale for Parameter-Efficient Prompt Tuning》
[6]《P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks》
[7]《BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models》
[8]《LoRA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》
[9]《ADAPTIVE BUDGET ALLOCATION FOR PARAMETEREFFICIENT FINE-TUNING》