关于深度学习:LoRA大模型的低秩自适应微调模型

对于大型模型来说，从新训练所有模型参数的全微调变得不可行。比方GPT-3 175B，模型蕴含175B个参数吗，无论是微调训练和模型部署，都是不可能的事。所以Microsoft 提出了低秩自适应(Low-Rank Adaptation, LoRA)，它解冻了事后训练好的模型权重，并将可训练的秩的合成矩阵注入到Transformer体系结构的每一层，从而大大减少了上游工作的可训练参数数量。

LoRA

对于预训练的权重矩阵W0，能够让其更新受到用低秩合成示意后者的束缚:

在训练过程中，W0被解冻，不承受梯度更新，而A和B蕴含可训练参数。当h=W0x时，修改后的正向流传变为:

对A应用随机高斯初始化，对B应用零初始化，因而W=BA在训练开始时为零（这点须要留神）。

这种办法的一个长处是，当部署到生产环境中时，只须要计算和存储W=W0+BA，并像平常一样执行推理。与其余办法相比，没有额定的提早，因为不须要附加更多的层。

在Transformer体系结构中，自关注模块中有四个权重矩阵(Wq、Wk、Wv、Wo)， MLP模块中有两个权重矩阵。LoRA只对上游工作调整关注权重，并解冻MLP模块。所以对于大型Transformer，应用LoRA可缩小高达2/3的VRAM使用量。比方在GPT-3 175B上，应用LoRA能够将训练期间的VRAM耗费从1.2TB缩小到350GB。

后果展现

采纳HuggingFace Transformers库中的预训练RoBERTa base (125M)和RoBERTa large (355M)还有DeBERTa XXL (1.5B)进行了评估。它们通过不同的微调办法进行微调。

在大多数状况下，应用LoRA能够在GLUE上获得最佳性能。

GPT-3 175B在WikiSQL和mnli匹配的几种自适应办法的可训练参数数的比拟

能够看到应用GPT-3, LoRA匹配或超过所有三个数据集的微调基线。

Stable Diffusion

Lora首先被利用在大语言模型上，然而可能被更多人晓得的还是他在SD上的利用：

在Stable Diffusion微调的状况下，LoRA能够利用于将图像示意与形容它们的提醒分割起来的穿插注意力层。下图的细节并不重要，只需晓得黄色块是负责构建图像和文本示意之间关系的块。

所以能够看到这样训练进去的自定义Lora模型会十分的小。

我集体试验：Stable Diffusion进行全面的微调须要起码24G的显存。然而应用Lora，批处理大小为2的单过程训练能够在单个12GB GPU上实现(不应用xformer的10GB，应用xformer的6GB)。

所以Lora在图像生成畛域也是十分好的一个微调模型的形式。如果你想理解更多，这里是论文地址：

https://avoid.overfit.cn/post/407a85d672384969848f8bc5cb9bc5fe