文章起源 | 恒源云社区

原文地址 | 简略到令人丧气的代替MLM的预训练任务？

原文作者 | Mathor

看了这么多篇社区大佬Mathor的文章，就在刚刚，我竟然发现大佬竟然、大略、可能、兴许在diss某个训练说法！

哇哦，amazing！这么神奇的吗？

我这小八卦之心，熊熊燃起了啊！这到底是个啥子神奇的模型训练方法？

大伙也别急惹，让我残缺的copy大佬的文章，而后一起一睹到底！

注释开始

EMNLP2021有一篇论文题目名为Frustratingly Simple Pretraining Alternatives to Masked Language Modeling，翻译过去就是「简略到令人丧气的代替MLM的预训练任务」。但我给它加了个问号，因为我感觉首先作者提出的这些办法，对于模型来说太难了，即使是让我去做他所提出的这些预训练任务，我都不肯定做得进去。其次是从后果来看成果仿佛一般般

如下图所示，具体来说作者提出了4中用于代替MLM的预训练任务，别离是Shuffle、Random、Shuffle+Random、Token Type、First Char

PRETRAINING TASKS

Shuffle

作者提到这个办法的灵感来源于ELECTRA。具体来说，一个句子中有15%的token将会被随机调换程序，而后模型须要做一个token级别的2分类问题，对于每一个地位预测该token是否被调换了地位。这个预训练任务的益处是，模型能够通过学习辨别上下文中是否有token被打乱，从而取得句法和语义常识

对于Shuffle工作来说，其损失函数为简略的Cross-Entropy Loss：

其中\( N \)示意一个样本的token数量，\( y_i \)和\( p(x_i) \)都是向量，并且\( p(x_i) \)示意第\( i \)个token被预测是否打乱的概率

Random Word Detection (Random)

从词汇表（Vocabulary）中随机筛选一些词，替换输出句子中15%的token，即使替换后整个句子语法不连贯也无所谓。它实质上同样是一个2分类问题，对于每一个地位预测该token是否被替换过，损失函数同公式(1)

Manipulated Word Detection (Shuffle + Random)

这个工作其实就是将Shuffle和Random工作联合起来，组成了一个更艰难的工作。这里我是真的蚌埠住了，Shuffle、Random工作别离让我去判断我可能分辨进去，然而他俩相结合之后我真的就不肯定能做出精确的判断了。作者可能也思考到了这一点，因而别离将Shuffle和Random的比例调低至10%，同时要留神的是这两个工作是不重叠的，也就是不会存在某个token曾经被Shuffle之后又被Random。当初这个工作是一个3分类问题。它的损失函数同样基于Cross-Entropy Loss

其中\( j \)遍历Shuffle(\( j=1 \))、Random(\( j=2 \))、orignal(\( j=3 \))这三个标签，\( p_{ij} \)示意第\( i \)个token对于第\( j \)个标签的概率，\( y_{ij} \)和\( p_{ij} \)都是具体的实数，\( p_{i} \)是一个三维的向量

Masked Token Type Classification (Token Type)

这个工作是一个4分类问题，判断以后地位的token是否为停用词（stop word）、数字、标点符号或注释内容。具体来说，作者应用NLTK工具来判断一个token是否为停用词，并且只有不属于前三种类别，那么以后token就属于注释内容类别。特地地，选取15%的token，将它们替换为[MASK]这个非凡token，至于为什么这么做，我想应该是：间接对某个token进行预测，切实是太容易了，为了加大难度，咱们应该让模型先预测出这里是什么token，而后再预测其属于什么类别。它的损失函数同样是Cross-Entropy Loss

Masked First Character Prediction (First Char)

最初，作者提出了一个简略版的MLM工作。本来MLM工作对于某个地位须要做一个∣V∣|V|∣V∣分类问题，也就是说你须要对一个Vocabulary大小的向量进行Softmax，这个工作实际上是很艰难的，因为候选汇合切实是太大了，而且还可能存在过拟合的危险。作者提出的最初一个工作，只须要预测以后地位所对应token的第一个字符，这样工作就转变为了29分类问题。具体来说，26个英文字母、一个代表数字的标记、一个代表标签符号的标记、一个代表其余类别的标记，加起来总共有29品种别。同样，有15%的token会被替换为[MASK]，而后进行预测

RESULTS

后果如上图，大家间接看就行了。实际上他们的后果有些一言难尽，不过作者也提到，如果训练工夫和Baseline一样长，他们是有信念超过Baseline的。那我就有疑难了，为什么你不多训练一会儿呢，是为了赶EMNLP的DDL吗？

集体总结

本文次要翻新点是作者提出了能够代替MLM的5个新的预训练任务，因为MLM是token级别的，所以这5个工作也是token级别的。明年EMNLP会不会有人提出sentence级别的，用于代替NSP/SOP的预训练任务呢？另外有一点要吐槽的是这篇论文的题目：Frustratingly Simple xxxx，简略到令人丧气的xxxx，这种题目在我印象中曾经看到好几次了，有一种题目党的感觉

哈哈哈哈，我心中的大佬发话了，题目党不能够。

关于自然语言处理:恒源云替代MLM的预训练任务真的超简单吗

注释开始

PRETRAINING TASKS

Shuffle

Random Word Detection (Random)

Manipulated Word Detection (Shuffle + Random)

Masked Token Type Classification (Token Type)

Masked First Character Prediction (First Char)

RESULTS

集体总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于自然语言处理:恒源云替代MLM的预训练任务真的超简单吗

注释开始

PRETRAINING TASKS

Shuffle

Random Word Detection (Random)

Manipulated Word Detection (Shuffle + Random)

Masked Token Type Classification (Token Type)

Masked First Character Prediction (First Char)

RESULTS

集体总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复