关于美团:美团获得小样本学习榜单FewCLUE第一Prompt-Learning自训练实战

近日，美团搜寻与 NLP 部 NLP 核心语义了解团队的小样本学习模型 FSL++ 在中文小样本语言了解权威评测基准 FewCLUE 榜单登顶，在自然语言推理（OCNLI）单任务中获得第一，并在极少数样本（一个类别仅 100 余个）的条件下，在新闻分类(TNEWS)、迷信文献学科分类（CSLDCP）工作上超过了人类辨认精确度。

CLUE(Chinese Language Understanding Evaluation)^[1]是中文语言了解权威测评榜单，蕴含了文本分类、句间关系、浏览了解等泛滥语义剖析和语义了解类子工作，对学术界和工业界都产生了较大的影响。

FewCLUE^[2,3]是 CLUE 中专门用于中文小样本学习评测的一个子榜，旨在联合预训练语言模型通用和弱小的泛化能力，摸索小样本学习最佳模型和在中文上的实际。FewCLUE 的局部数据集只有一百多条有标签样本，能够掂量模型在极少有标签样本下的泛化性能，公布后吸引了包含网易、微信 AI、阿里巴巴、IDEA 研究院、浪潮人工智能研究院等多家企业与研究院的参加。不久前，美团平台搜寻与 NLP 部 NLP 核心语义了解团队的小样本学习模型 FSL++ 以优越的性能在 FewCLUE 榜单上获得第一名，达到 SOTA 程度。

大规模预训练模型尽管在各大工作外面获得十分好的成果，然而在特定的工作上，还是须要许多标注数据。美团的各个业务中，有着丰盛的 NLP 场景，往往须要较高的人工标注老本。在业务倒退晚期或者新的业务需要须要疾速上线时，往往会呈现标注样本有余的景象，应用传统 Pretrain（预训练）+ Fine-Tune（微调）的深度学习训练方法往往达不到现实的指标要求，因而钻研小样本场景的模型训练问题就变得十分必要。

本文提出了一套大模型 + 小样本的联结训练计划 FSL++，综合了模型构造优选、大规模预训练、样本加强、集成学习以及自训练等模型优化策略，最终在中文语言了解权威评测基准下的 FewCLUE 榜单获得了优异的问题，并且在局部工作上性能超过了人类程度，而在局部工作上（如 CLUEWSC）还有肯定的晋升空间。

FewCLUE 公布后，网易伏羲应用自研的 EET 模型 ^[4]，并通过二次训练加强模型的语义理解能力，再退出模版进行多任务学习；IDEA 研究院的二郎神模型^[5] 在 BERT 模型的根底上应用更先进的预训练技术训练大模型，在上游工作微调的过程中用退出动静 Mask 策略的 Masked Language Model(MLM)作为辅助工作。这些办法都应用 Prompt Learning 作为根本的工作架构，跟这些自研的大模型相比，咱们的办法次要在 Prompt Learning 框架的根底上退出了样本加强、集成学习以及自学习等模型优化策略，极大地提高模型的工作体现和鲁棒性，同时这套办法能够实用于各种预训练模型，更加灵便便捷。

FSL++ 整体模型构造如下图 2 所示。FewCLUE 数据集为每个工作提供 160 条有标签数据以及靠近两万条无标签数据。本次 FewCLUE 实际中，咱们先在 Fine-Tune 阶段结构多模板 Prompt Learning，并对有标签数据采纳反抗训练、比照学习、Mixup 等加强策略。因为这些数据加强策略采纳不同的加强原理，能够认为这些模型之间差异性比较显著，通过集成学习之后会有比拟好的成果。所以在采纳数据加强策略进行训练当前，咱们领有了多个弱监督模型，并且用这些弱监督模型在无标签数据上进行预测，失去无标签数据的伪标签散布。之后，咱们将多个通过不同的数据加强模型预测失去的无标签数据的伪标签散布整合起来，失去一份总的无标签数据的伪标签散布，接着从新结构多模板 Prompt Learning，并再次应用数据加强策略，抉择最优策略。目前，咱们的试验只进行一轮迭代，也能够尝试多轮迭代，不过随着迭代次数减少，晋升也不再显著。

预训练语言模型是在宏大的无标签语料库上进行训练的。例如，RoBERTa^[6]在 160GB 以上的文本进行训练，包含百科全书、新闻文章、文学作品和 Web 内容。通过这些模型学习到的示意，在蕴含多种起源的各种大小的数据集的工作中实现杰出的性能。

FSL++ 模型应用 RoBERTa-large 模型作为根底模型，并且采纳融入畛域常识的 Domain-Adaptive Pretraining (DAPT)^[7]预训练方法和融入工作常识的 Task-Adaptive Pretraining (TAPT)^[7]。DAPT 旨在预训练模型的根底上，减少大量畛域内无标签文本持续训练语言模型，之后再在指定工作的数据集上进行微调。

对指标文本畛域进行持续预训练，能够进步语言模型的性能，尤其是在与指标文本畛域相干的上游工作上的性能。并且，预训练文本与工作畛域的相关度越高，带来的晋升越大。在本次实际中，咱们最终应用了在 100G 蕴含娱乐节目、体育、衰弱、国际事务、电影、名人等各个领域的语料的 CLUE Vocab^[8]上预训练失去的 RoBERTa Large 模型。TAPT 指在预训练模型的根底上，减少数量较少但与工作间接相干的无标签语料进行预训练。针对 TAPT 工作，咱们抉择应用的预训练数据是 FewCLUE 榜单为每个工作提供的无标签数据。

除此之外，在针对句间关系工作，如中文自然语言推理工作 OCNLI、中文对话短文本匹配工作 BUSTM 的实际中，咱们应用在其余句间关系工作如中文自然语言推理数据集 CMNLI、中文短文本类似度数据集 LCQMC 上进行预训练的模型参数作为初始参数，相比间接用原始模型实现工作，也能晋升肯定的成果。

FewCLUE 蕴含多种工作模式，咱们为每种工作抉择了适合的模型构造。文本分类工作和机器浏览了解（MRC）工作自身的类别词就携带了信息，因而更适宜建模为 Masked Language Model(MLM)模式；而句间关系工作判断两个句子的相关性，更相似于 Next Sentence Prediction(NSP)^[9]工作模式。因而，咱们为分类工作和浏览了解工作抉择 PET^[10]模型，为句间关系工作抉择 EFL^[11]模型，EFL 办法能够通过全局采样结构负样本，学习到更鲁棒的分类器。

Prompt Learning 的次要指标是尽可能减小预训练指标与上游微调指标的差距。通常现有的预训练任务均蕴含 MLM 损失函数，然而上游的工作则并未采纳 MLM，而是引入新的分类器，使得预训练任务和上游工作呈现了不统一。Prompt Learning 不引入额定的分类器或其余参数，而是通过拼接模板（Template，即为输出数据拼接语言片段，从而革新工作为 MLM 模式）和标签词映射（Verbalizer，即为每个标签在词表中找到对应的词，从而为 MLM 工作设定预测指标），使得模型能够在大量样本的条件下在上游工作中应用。

以图 3 展现的电商评估情感剖析工作 EPRSTMT 为例。给定文本“这个电影真不错，值得第二次观看!”，传统的文本分类则是在 CLS 局部的 Embedding 接上分类器，并映射到 0 - 1 分类上（0：负向，1：正向）。这种办法在小样本场景下须要训练新的分类器，比拟难取得好的成果。而基于 Prompt Learning 的办法则是创立模板“这是一条 [MASK] 评。”，再将模板与原文进行拼接，训练时通过语言模型预测 [MASK] 地位的词，再将其映射到对应的类别上（好：正向，差：负向）。

因为不足足够数据，有时很难确定体现最好的模板和标签词映射。因而，也能够采纳多模板与多标签词映射的设计。通过设计多个模板，最终的后果采纳多个模板的后果的整合，或设计一对多的标签词映射，让一个标签对应多个词。同上述例子，能够设计如下模板组合（左：同一个句子的多模板，右：多标签映射）。

工作样例

EFL 模型将两个句子拼接在一起，用输入层的 [CLS] 地位处的 Embedding 后接一个分类器实现预测。EFL 的训练过程中，除了训练集的样本，还会进行负样本结构，训练过程中，在每个 Batch 里随机抉择其余数据中的句子作为负样本，通过结构负样本进行数据加强。尽管 EFL 模型须要训练新的分类器，但目前有很多公开的文本蕴含 / 句间关系数据集，如 CMNLI、LCQMC 等，能够通过在这些样本上进行继续学习(continue-train)，再将学习到的参数迁徙到小样本场景中，用 FewCLUE 的工作数据集进行进一步微调。

工作样例

数据加强办法次要有样本加强和 Embedding 加强。NLP 畛域中，数据加强的目标是在不扭转语义的前提下裁减文本数据。次要的办法包含简略文本替换、应用语言模型生成类似句子等，咱们尝试过 EDA 等裁减文本数据的办法，然而一个词的变动就可能导致整个句子的意思产生翻转，通过替换的文本携带大量乐音，所以很难用简略的规定样本变动产生足够的加强数据。而 Embedding 加强，则不再对输出进行操作，转而在 Embedding 层面进行操作，能够通过对 Embedding 减少扰动或者插值等形式晋升模型的鲁棒性。

因而，本次实际中咱们次要进行 Embedding 加强。咱们用的数据加强策略别离有 Mixup^[12]、Manifold-Mixup^[13]、反抗训练 (Adversarial training, AT) ^[14] 和比照学习 R -drop^[15]。数据加强策略的具体介绍见之前的技术博客小样本学习及其在美团场景中的利用。

Mixup 通过对输出数据进行简略的线性变换，结构新的组合样本和组合标签，能够加强模型的泛化能力。在各种有监督工作或者半监督工作上，应用 Mixup 都能极大进步模型的泛化能力。Mixup 办法能够视为正则化操作，它要求模型在特色层面生成的组合特色满足线性束缚，并且利用这种束缚对模型施加正则化。直观来看，当模型的输出为另外两个输出的线性组合时，其输入也是这两个数据独自输出模型后所得输入的线性组合，其实就是要求模型近似为一个线性系统。

Manifold Mixup 将上述的 Mixup 操作泛化到特色上。因为特色具备更高阶的语义信息，所以在其维度上插值可能会产生更有意义的样本。在相似于 BERT^[9]、RoBERTa^[6]的模型中，随机抉择层数 k，对该层的特色示意进行 Mixup 插值。一般的 Mixup 的插值产生在输入层 Embedding 局部，而 Manifold Mixup 相当于把这一系列插值操作退出到语言模型外部的 Transformers 构造的随机某层中。

反抗训练通过在输出样本上减少渺小的扰动来显著进步模型 Loss。反抗训练就是训练一个能无效辨认原始样本和反抗样本的模型。基本原理就是通过增加扰动结构一些反抗样本，交给模型去训练，进步模型在遇到反抗样本时的鲁棒性，同时也能进步模型的体现和泛化能力。反抗样本须要具备两个特点，别离是：

绝对于原始输出，所增加的扰动是渺小的。
能使模型犯错。反抗训练有两个作用，别离是进步模型对歹意攻打的鲁棒性和进步模型的泛化能力。

R-Drop 对同一个句子做两次 Dropout，并且强制由 Dropout 生成的不同子模型的输入概率保持一致。Dropout 的引入尽管成果很好，然而它会导致训练和推理过程的不一致性问题。为缓解这种训练推理过程的不一致性，R-Drop 对 Dropout 进行正则化解决，在两个子模型产生的输入中减少对输入数据分布的限度，引入数据分布度量的 KL 散度损失，使得 Batch 内同一个样本生成的两个数据分布尽量靠近，具备散布一致性。具体来说，对于每个训练样本，R-Drop 最小化了由不同 Dropout 生成的子模型的输入概率之间的 KL 散度。R-Drop 作为一种训练思维，能够用到大部分有监督或半监督的训练中，通用性强。

咱们应用的三种数据加强策略，Mixup 是在语言模型的输入层 Embedding 和语言模型的外部随机某层 Transformers 的输入层中做两个样本的线性变动，反抗训练是在样本上减少渺小的扰动，而比照学习是对同一个句子做两次 Dropout 造成正样本对，再用 KL 散度限度两个子模型保持一致。三种策略都是通过在 Embedding 实现一些操作来加强模型的泛化性，通过不同策略失去的模型别离都具备不同的偏好，这就为下一步的集成学习提供了条件。

集成学习能够组合多个弱监督模型，以期失去一个更好更全面的强监督模型。集成学习潜在的思维是即使某一个弱分类器失去了谬误的预测，其余的弱分类器也能够将谬误纠正回来。如果待组合的各个模型之间差异性比较显著，那么集成学习之后通常会有一个较好的后果。

自训练应用大量的标记数据和大量的未标记数据对模型进行联结训练，首先应用经过训练的分类器来预测所有未标记数据的标签，而后抉择置信度较高的标签作为伪标签数据，将伪标记数据与人工标记的训练数据联结起来从新训练分类器。

集成学习 + 自训练是一套能够利用多个模型以及无标签数据的计划。这其中，集成学习的个别步骤为：训练多个不同的弱监督模型，别离用每个模型预测无标签数据的标签概率分布，计算标签概率分布的加权和，失去无标签数据的伪标签概率分布。自训练指训练一个模型用于组合其余各个模型，其个别步骤为：训练多个 Teacher 模型，Student 模型学习伪标签概率分布中高置信度样本的 Soft Prediction，Student 模型作为最初的强学习器。

在本次 FewCLUE 实际中，咱们先在 Fine-Tune 阶段结构多模板 Prompt Learning，并对有标注数据采纳反抗训练、比照学习、Mixup 等加强策略。因为这些数据加强策略采纳不同的加强原理，能够认为这些模型之间差异性比较显著，通过集成学习之后会有比拟好的成果。

在采纳数据加强策略进行训练当前，咱们领有了多个弱监督模型，并且用这些弱监督模型在无标签数据上进行预测，失去无标签数据的伪标签散布。之后，咱们将多个通过不同的数据加强模型预测失去的无标签数据的伪标签散布整合起来，失去一份总的无标签数据的伪标签散布。筛选伪标签数据的过程中，咱们不肯定会抉择置信度最高的样本，因为如果每个数据加强模型给出的置信度都很高，阐明这个样本可能是容易学习的样本，不肯定有很大价值。

咱们综合多个数据加强模型给出的置信度，尽量抉择置信度较高，然而又不容易学习的样本（比方多个模型预测不全副统一）。接着用标注数据和伪标注数据的汇合从新结构多模板 Prompt Learning，再次应用数据加强策略，并抉择最好的策略。目前，咱们的试验目前只进行一轮迭代，也能够尝试多轮迭代，不过随着迭代次数减少，晋升也会缩小，不再显著。

FewCLUE 榜单提供了 9 个工作，其中别离为 4 个文本分类工作，2 个句间关系工作和 3 个浏览了解工作。文本分类工作有电商评估情感剖析、迷信文献分类、新闻分类和 App 利用形容主题分类工作。次要归类为短文本二分类、短文本多分类和长文本多分类。其中有的工作类别泛滥，超过 100 类，并且呈现了类别不平衡问题。句间关系工作有自然语言推理和短文本匹配工作。浏览了解工作则有成语浏览了解抉择填空，摘要判断关键词判断和代词消歧工作。每个工作大体提供了 160 条有标签数据和两万条左右的无标签数据。因为长文本分类工作类别泛滥，过于艰难，也提供了更多的有标签数据。具体的工作数据状况如表 4 所示：

表 5 展现了不同模型和参数量的试验后果的比照。在 RoBERTa Base 试验中，应用 PET/EFL 模型会超过传统的间接 Fine-Tune 模型后果 2 -28PP。以 PET/EFL 模型为根底，为了摸索大模型在小样本场景中的成果，咱们在 RoBERTa Large 上进行了试验，绝对于 RoBERTa Base，大模型能够晋升模型 0.5-13PP；为了更好地利用畛域常识，咱们进一步在通过 CLUE 数据集上加强预训练的 RoBERTa Large Clue 模型上进行试验，融入了畛域常识的大模型进一步晋升后果 0.1-9pp。基于此，在之后的试验中，咱们都在 RoBERTa Large Clue 上进行试验。

表 6 展现了在 PET/EFL 模型上进行数据加强和集成学习试验后果，能够发现即便是在大模型上应用数据加强策略，模型也能带来 0.8-9PP 的晋升，而进一步进行集成学习 & 自训练当前，模型体现会持续晋升 0.4-4PP。

其中集成学习 + 自训练步骤中，咱们尝试了几种筛选策略：

抉择置信度最高的样本，这种策略带来的晋升在 1PP 以内，置信度最高的伪标签样本中很多是多个模型预测统一且置信度都比拟高的样本，这部分样本比拟容易学习，融入这部分样本带来的收益无限。
抉择置信度高且具备争议性的样本（存在至多一个模型和其余模型预测后果不统一，但多个模型总体置信度超过阈值 1），这种策略躲避了特地容易学习的样本，又通过设置阈值防止带来过多脏数据，能够带来 0 -3PP 的晋升；
交融下面的两种策略，若多个模型对于一个样本的预测后果是统一的，咱们抉择置信度小于阈值 2 的样本；对于存在至多一个模型和其余模型预测后果不统一的，咱们抉择置信度大于阈值 3 的样本。这种形式同时抉择了置信度较高的样本保障输入的可信度，又抉择了较有争议的样本保障筛选进去的伪标签样本具备较大学习难度，能够带来 0.4-4PP 的晋升。

在美团的各个业务中，有着丰盛的 NLP 场景，局部工作能够归类为文本分类工作和句间关系工作，以上提到的小样本学习策略曾经利用于美团点评的各种场景，冀望在数据资源稀少的状况下训练出比拟好的模型。此外，小样本学习策略曾经广泛应用于美团外部自然语言解决 (NLP) 平台的各个 NLP 算法能力中，在泛滥业务场景着落地并获得显著收益，美团外部的工程师可通过该平台来体验 NLP 核心相干的能力。

文本分类工作

医美题材分类：对美团和点评的笔记内容按题材分为 8 类：好奇、探店、测评、真人案例、医治过程、避坑、成果比照、科普。用户点击某一种题材时，返回对应的笔记内容，上线至美团和点评 App 医疗美容频道的百科页、计划页教训分享，小样本学习利用 2,989 条训练数据准确率晋升 1.8PP，达到了 89.24%。

攻略辨认：从 UGC 和笔记中开掘游览攻略，提供游览攻略的内容供应，利用于景点精搜下的攻略模块，召回内容为形容游览攻略的笔记，小样本学习利用 384 条训练数据准确率晋升 2PP，达到了 87%。

学城文本分类：学城（美团外部知识库）有大量的用户文本，经演绎将文本分为 17 品种别，已有模型在 700 条数据上训练，通过小样本学习，在已有模型上晋升模型精度 2.5PP，达到 84%。

我的项目筛选：LE 生存服务 / 丽人等业务目前的评估列表页混排评估的形式不便让用户疾速找到决策信息，因而须要更有结构化的分类标签来满足用户的需要，小样本学习在这两个业务上利用 300-500 条数据上准确率均达到 95%+（多个数据集别离晋升 1.5-4PP）。

句间关系工作

医美效用打标：对美团和公众点评的笔记内容按效用进行召回，效用的类型有：补水、美白、瘦脸、除皱等，上线至医美频道页，有 110 种效用类型须要打标，小样本学习仅用 2909 条训练数据准确率达到了 91.88%（晋升 2.8PP）。

医美品牌打标：品牌上游企业有针对旗下产品进行品牌宣传和营销的诉求，而内容营销是以后支流、无效的营销形式之一。品牌打标就是为每种品牌如“伊肤泉”、“术唯可”召回具体介绍该品牌的笔记内容，共有 103 种品牌，已上线至医美品牌馆，小样本学习仅用 1676 条训练数据准确率达到了 88.59%（晋升 2.9PP）。

在本次榜单提交中，咱们构建了一种基于 RoBERTa 的语义了解模型，并通过加强预训练、PET/EFL 模型、数据加强和集成学习 & 自训练来晋升模型的成果。该模型能实现文本分类、句间关系推理工作和几种浏览了解工作。

通过加入本次测评工作，咱们对小样本场景下的自然语言了解畛域的算法和钻研有了更深的意识，也借此对前沿算法的中文落地能力进行了摸底测试，为后续进一步算法钻研、算法落地打下了根底。此外，本次数据集中的工作场景与美团搜寻与 NLP 部的业务场景存在很大相似性，该模型的很多策略也间接利用在理论业务中，间接为业务赋能。

骆颖、徐俊、谢睿、武威，均来自美团搜寻与 NLP 部 /NLP 核心。

[1] FewCLUE Github 我的项目地址
[2] FewCLUE 榜单地址
[3] CLUE Github 我的项目地址
[4] https://github.com/NetEase-Fu…
[5]https://github.com/IDEA-CCNL/…
[6] Liu, Yinhan, et al. “Roberta: A robustly optimized bert pretraining approach.” arXiv preprint arXiv:1907.11692 (2019).
[7] Gururangan, Suchin, et al. “Don’t stop pretraining: adapt language models to domains and tasks.” arXiv preprint arXiv:2004.10964 (2020).
[8] Xu, Liang, Xuanwei Zhang, and Qianqian Dong. “CLUECorpus2020: A large-scale Chinese corpus for pre-training language model.” arXiv preprint arXiv:2003.01355 (2020).
[9] Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” arXiv preprint arXiv:1810.04805 (2018).
[10] Schick, Timo, and Hinrich Schütze. “It’s not just size that matters: Small language models are also few-shot learners.” arXiv preprint arXiv:2009.07118 (2020).
[11] Wang, Sinong, et al. “Entailment as few-shot learner.” arXiv preprint arXiv:2104.14690 (2021).
[12] Zhang, Hongyi, et al. “mixup: Beyond empirical risk minimization.” arXiv preprint arXiv:1710.09412 (2017).
[13] Verma, Vikas, et al. “Manifold mixup: Better representations by interpolating hidden states.” International Conference on Machine Learning. PMLR, 2019.
[14] Verma, Vikas, et al. “Manifold mixup: Better representations by interpolating hidden states.” International Conference on Machine Learning. PMLR, 2019.
[15] Wu, Lijun, et al. “R-drop: regularized dropout for neural networks.” Advances in Neural Information Processing Systems 34 (2021).
[16] 小样本学习及其在美团场景中的利用

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2021 年货】、【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者应用。任何商用行为，请发送邮件至 tech@meituan.com 申请受权。

关于美团:美团获得小样本学习榜单FewCLUE第一Prompt-Learning自训练实战

1 概述

2 办法介绍

2.1 加强预训练

2.2 模型构造

2.2.1 Prompt Learning

2.2.2 EFL

2.3 数据加强

2.4 集成学习 & 自训练

3 试验后果

3.1 数据集介绍

3.2 试验比照

4 小样本学习策略在美团场景的利用

5 总结

本文作者

参考文献

Just My Socks（注册教程内含优惠码）

关于美团:美团获得小样本学习榜单FewCLUE第一Prompt-Learning自训练实战

1 概述

2 办法介绍

2.1 加强预训练

2.2 模型构造

2.2.1 Prompt Learning

2.2.2 EFL

2.3 数据加强

2.4 集成学习 & 自训练

3 试验后果

3.1 数据集介绍

3.2 试验比照

4 小样本学习策略在美团场景的利用

5 总结

本文作者

参考文献

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）