关于人工智能:你应该了解的-NLP发展新趋势实现方法总结

云智慧 AIOps 社区是由云智慧发动，针对运维业务场景，提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术，旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题，推动 AIOps 技术在企业中落地，建设衰弱共赢的 AIOps 开发者生态。

本期咱们有幸邀请到南加州大学硕士生、云智慧智能研究院算法实习生蔺同学，为咱们介绍 NLP 是如何走向了 prompt 与 adapter，在讲述 prompt 与 adapter 的原理、具体实现办法及长处后，还对它们进行了辨别比照。上面让咱们一起来学习吧~

模型训练的倒退

NLP（自然语言解决）模型通常用监督学习的办法训练。监督学习指模型仅在标注好的指标工作数据集上进行训练，因为带标记的样本数量不足以撑持模型学习到高质量的潜在特色，晚期的 NLP 模型依赖于特色工程。特色工程指人们依据畛域先验常识事后定义特色，这些特色帮忙模型具备肯定水平的演绎偏置（inductive biases），如下图中 a 所示。

深度神经网络模型的呈现，推动特色学习与模型训练独特进行，因而钻研的焦点转移到模型的构造上，模型具备的演绎偏置由其构造决定，例如 RNN 与 CNN 依据演绎偏置的不同，别离实用于文本与图像畛域（下图 b）

BERT（Bidirectional Encoder Representations from Transformers）的呈现，令 NLP 模型的学习形式产生了巨大变化，全监督的办法不再风行，取而代之的办法是预训练（pre-train）与微调（fine-tuning）。

预训练是用一个固定的模型构造作为语言模型 (Language Model, LM) 并进行预训练，训练形式是对句子中的一部分词语进行遮掩（mask）或替换，再用模型预测正确的词语（BERT）。预训练是一种无监督的办法，可间接在没有标注的数据集上训练并建模语言的通用特色。通过预训练失去的语言模型会进一步适配到不同上游工作，依据工作特定的指标函数进行微调。在预训练与微调的办法下，钻研的重点转为如何设计一个正当的指标函数，使得模型在预训练阶段和微调阶段可能更好地学习到语言的通用特色（下图 c）。

预训练语言模型的局限性

只管在预训练语言模型上以微调的形式适应上游工作，曾经是一种十分风行且成果十分好的办法，然而这种办法在微调阶段须要更新并存储所有语言模型的参数。当咱们构建并理论应用预训练语言模型的 NLP 零碎时，每一个上游工作都须要存储一份原语言模型微调过后的参数。思考到预训练语言模型的参数都十分大，例如 GPT-2 有 774M 参数，BERT-base 也有 110M 参数，为每个上游工作都保留一个模型将须要不小的空间开销（如下图所示）。

受 GPT 模型启发，学者们提出了 prompt 办法，防止不同上游工作都对预训练语言模型中参数进行调整。具体来说，通过对上游工作的输出进行批改造成对立模式的 prompt，prompt 再作为预训练语言模型输出，使得不同上游工作能够共用一个固定不变的参数预训练语言模型。其思路是，通过构建适宜上游工作与语言模型的 prompt，尽可能施展语言模型在预训练过程中学习到的常识。例如，BERT 在预训练过程中学习到的常识是正当补全不残缺句子的能力，GPT-3 学习到的常识是依据已有句子进行正当续写的能力。

上面以一个具体例子来阐明 prompt 是如何实现的。如上图所示，当进行情感分类工作时，输出是”I Love Paris”，通过在输出的前面增加”I am ____”形成一个 prompt，再将其输出到预训练语言模型中，因为 prompt 的模式与模型预训练输出的模式雷同，这就要求模型实现预训练任务——补全句子或续写句子，这里的 prompt 要求模型抉择可能性最大的词（通常是情感类的词，例如 good）补全句子，之后能够依据模型填充的词进一步进行分类。

通过抉择适合的 prompt，就能管制模型的行为，即管制模型对于可能性最大的词的判断。一个正当的 prompt 是失去正确后果的前提，如下图所示，三种不同的 prompt 尽管语义类似，然而第一个却不能失去正确的后果。通过 prompt，预训练语言模型本身就能够实现上游工作的预测，从而不同上游工作能够共用一个预训练语言模型的参数。

同时，prompt 还能更好地适应 few-shot（小样本），甚至 zero-shot（零样本）的状况。当咱们仅给模型输出以自然语言模式的工作形容和示例时，模型仍然能够进行预测，而这一过程没有梯度的更新，如下图所示。

prompt 尽管在参数共享和 few-shot 方面有着很好的体现，但其在上游工作的体现上较差。对于 SuperGLUE 工作，应用 prompt 办法的 GPT-3 模型得分是 71.8，而参数量仅是其十分之一的 T5-XXL 模型却能获得 89.3 的得分。归根到底，不对预训练语言模型中的参数进行调整只能获得绝对不错的问题，而无奈使模型齐全学习到不同上游工作。那么，有没有什么方法是 prompt 和微调两个办法的折中呢？

为了在 prompt 与 fine-tuning（微调）办法之间找到一个均衡，adapter 被提了进去。adapter 次要通过在预训练语言模型中增加额定参数的形式适配上游工作，不须要为每一个上游工作都训练一个全新的模型。具体来说，如果咱们心愿用 BERT 适配一个工作，首先在 BERT 的每一层中增加 adapter，作为特定上游工作的可训练参数，而后将本来 BERT 的参数解冻不进行训练。这样，在具体上游工作微调过程中，只有 adapter 的参数进行了批改，本来属于 BERT 的参数则放弃不变。

adapter 的构造有很多，最简略的构造由一个下采样层和一个上采样层组成。为了限度参数量，通常下采样的维度很小，如果将模型本来 d 维的特色下采样为 m 维，则每个 adapter 中的参数量为 2md+d+m。如果 m<<d，< span=””> 则 adapter 的参数量仅为原模型的 0.5%-8%。咱们还能够通过调整 m 的大小，对模型体现和性能进行取舍。

adapter 的具体模式与增加地位能够有多个变种，这里抉择最简略的一种进行介绍。如上图所示，adapter 只蕴含两层全连贯层，首先对输出进行下采样，再对下采样后的数据上采样回原始维度，须要留神的是这里还应用了残差连贯。BERT 中每层 transformer encoder 增加两个 adapter，别离位于自注意力机制前面与 FFN（feedforward network）前面。这样就形成了一个蕴含 adapter 的 BERT 模型，能够用于上游工作的微调了。试验证实，adapter 中的参数十分高效：只须要 adapter 中大量的可训练参数，就能够达到 fine-tuning 形式中训练大量参数的成果，如下图所示。

adapter 的劣势在于，因为只有大量参数被批改，adapter-based tuning 失去的模型参数与原预训练语言模型的参数很类似，防止了适配上游工作过程中的过拟合和泛化性差两个问题。固定原 BERT 的参数还极大的缓解了忘记问题，试验表明，adapter-based tuning 失去的模型相比于 fine-tuning 失去的模型，每层的输入都更靠近于原始 BERT 中对应层的输入，从而更好地规则化（regularization）数据。

除了成果好外，adapter-based tuning 过程更加稳固，对学习率的变动不敏感。下图比照了不同学习率下模型最终成果的散布，能够看到 adapter 办法的后果更加稳固，方差更小。

prompt 与 adapter 的外围都在于将预训练语言模型适配到不同上游工作的同时，尽量减少预训练参数的批改，毕竟预训练语言模型的参数量都十分大。两者的区别次要在于如何扭转模型本来的行为。

prompt 形式将模型视为一个黑盒，不对模型进行批改，而是通过构建新的输出，将原始输出蕴含起来作为其子序列，通过模型的自注意力机制扭转模型对于原始输出的示意，能够形象的了解为，prompt 不扭转模型，而是通知模型一些额定信息，让模型的行为发生变化。

adapter 形式则将模型拆开来，为其增加新的组件，新的组件只针对一个特定的上游工作，而其余局部则能够共享。能够形象的了解为，BERT 是吸尘器的主机，更换不同的吸头就如同更换不同的 adapter，以此实现不同的性能。

尽管 BERT 的呈现开启了 NLP 的新时代，但微小的参数量使其难以扩大到不同的上游工作。在这样的背景下，prompt 与 adapter 的呈现了适应倒退的要求，同时，prompt 还展示了预训练语言模型的惊人后劲，极有可能成为后 BERT 时代一个新的倒退方向。

云智慧已开源数据可视化编排平台 FlyFish。通过配置数据模型为用户提供上百种可视化图形组件，零编码即可实现合乎本人业务需要的炫酷可视化大屏。同时，飞鱼也提供了灵便的拓展能力，反对组件开发、自定义函数与全局事件等配置，面向简单需要场景可能保障高效开发与交付。

点击下方地址链接，欢送大家给 FlyFish 点赞送 Star。参加组件开发，更有万元现金等你来拿。

GitHub 地址：https://github.com/CloudWise-…

Gitee 地址：https://gitee.com/CloudWise/f…

万元现金福利： http://bbs.aiops.cloudwise.co…

微信扫描辨认下方二维码，备注【飞鱼】退出 AIOps 社区飞鱼开发者交换群，与 FlyFish 我的项目 PMC 面对面交换～

关于人工智能:你应该了解的-NLP发展新趋势实现方法总结

一、NLP 如何倒退走向了 prompt 与 adapter

模型训练的倒退

预训练语言模型的局限性

二、prompt 的原理与实现办法

三、adapter 的原理与实现办法

四、prompt 与 adapter 的辨别

五、总结

开源福利