共计 2276 个字符,预计需要花费 6 分钟才能阅读完成。
文章起源 | 恒源云社区
原文地址 | 简略到令人丧气的代替 MLM 的预训练任务?
原文作者 | Mathor
看了这么多篇社区大佬 Mathor 的文章,就在刚刚,我竟然发现大佬竟然、大略、可能、兴许在 diss 某个训练说法!
哇哦,amazing!这么神奇的吗?
我这小八卦之心,熊熊燃起了啊!这到底是个啥子神奇的模型训练方法?
大伙也别急惹,让我残缺的 copy 大佬的文章,而后一起一睹到底!
注释开始
EMNLP2021 有一篇论文题目名为 Frustratingly Simple Pretraining Alternatives to Masked Language Modeling,翻译过去就是「简略到令人丧气的代替 MLM 的预训练任务」。但我给它加了个问号,因为我感觉首先作者提出的这些办法,对于模型来说太难了,即使是让我去做他所提出的这些预训练任务,我都不肯定做得进去。其次是从后果来看成果仿佛一般般
如下图所示,具体来说作者提出了 4 中用于代替 MLM 的预训练任务,别离是Shuffle、Random、Shuffle+Random、Token Type、First Char
PRETRAINING TASKS
Shuffle
作者提到这个办法的灵感来源于 ELECTRA。具体来说,一个句子中有 15% 的 token 将会被随机调换程序,而后模型须要做一个 token 级别的 2 分类问题,对于每一个地位预测该 token 是否被调换了地位。这个预训练任务的益处是,模型能够通过学习辨别上下文中是否有 token 被打乱,从而取得句法和语义常识
对于 Shuffle 工作来说,其损失函数为简略的 Cross-Entropy Loss:
其中 \(N \)示意一个样本的 token 数量,\(y_i \)和 \(p(x_i) \)都是向量,并且 \(p(x_i) \)示意第 \(i \)个 token 被预测是否打乱的概率
Random Word Detection (Random)
从词汇表(Vocabulary)中随机筛选一些词,替换输出句子中 15% 的 token,即使替换后整个句子语法不连贯也无所谓。它实质上同样是一个 2 分类问题,对于每一个地位预测该 token 是否被替换过,损失函数同公式(1)
Manipulated Word Detection (Shuffle + Random)
这个工作其实就是将 Shuffle 和 Random 工作联合起来,组成了一个更艰难的工作。这里我是真的蚌埠住了,Shuffle、Random 工作别离让我去判断我可能分辨进去,然而他俩相结合之后我真的就不肯定能做出精确的判断了。作者可能也思考到了这一点,因而别离将 Shuffle 和 Random 的比例调低至 10%,同时要留神的是这两个工作是不重叠的,也就是不会存在某个 token 曾经被 Shuffle 之后又被 Random。当初这个工作是一个 3 分类问题。它的损失函数同样基于 Cross-Entropy Loss
其中 \(j \)遍历 Shuffle(\( j=1 \))、Random(\( j=2 \))、orignal(\( j=3 \))这三个标签,\(p_{ij} \)示意第 \(i \)个 token 对于第 \(j \)个标签的概率,\(y_{ij} \)和 \(p_{ij} \)都是具体的实数,\(p_{i} \)是一个三维的向量
Masked Token Type Classification (Token Type)
这个工作是一个 4 分类问题,判断以后地位的 token 是否为停用词(stop word)、数字、标点符号或注释内容。具体来说,作者应用 NLTK 工具来判断一个 token 是否为停用词,并且只有不属于前三种类别,那么以后 token 就属于注释内容类别。特地地,选取 15% 的 token,将它们替换为 [MASK]
这个非凡 token,至于为什么这么做,我想应该是:间接对某个 token 进行预测,切实是太容易了,为了加大难度,咱们应该让模型先预测出这里是什么 token,而后再预测其属于什么类别。它的损失函数同样是 Cross-Entropy Loss
Masked First Character Prediction (First Char)
最初,作者提出了一个简略版的 MLM 工作。本来 MLM 工作对于某个地位须要做一个∣V∣|V|∣V∣分类问题,也就是说你须要对一个 Vocabulary 大小的向量进行 Softmax,这个工作实际上是很艰难的,因为候选汇合切实是太大了,而且还可能存在过拟合的危险。作者提出的最初一个工作,只须要预测以后地位所对应 token 的第一个字符,这样工作就转变为了 29 分类问题。具体来说,26 个英文字母、一个代表数字的标记、一个代表标签符号的标记、一个代表其余类别的标记,加起来总共有 29 品种别。同样,有 15% 的 token 会被替换为[MASK]
,而后进行预测
RESULTS
后果如上图,大家间接看就行了。实际上他们的后果有些一言难尽,不过作者也提到,如果训练工夫和 Baseline 一样长,他们是有信念超过 Baseline 的。那我就有疑难了,为什么你不多训练一会儿呢,是为了赶 EMNLP 的 DDL 吗?
集体总结
本文次要翻新点是作者提出了能够代替 MLM 的 5 个新的预训练任务,因为 MLM 是 token 级别的,所以这 5 个工作也是 token 级别的。明年 EMNLP 会不会有人提出 sentence 级别的,用于代替 NSP/SOP 的预训练任务呢?另外有一点要吐槽的是这篇论文的题目:Frustratingly Simple xxxx,简略到令人丧气的 xxxx,这种题目在我印象中曾经看到好几次了,有一种题目党的感觉
哈哈哈哈,我心中的大佬发话了,题目党不能够。