共计 1819 个字符,预计需要花费 5 分钟才能阅读完成。
本文不是 NLP 钻研的残缺列表,因为太多了无奈总结的这么残缺!然而本文对影响 NLP 钻研的一些重要的模型进行总结,并尽量让它简洁而不是简略,如果你刚刚进入 NLP 畛域,本文能够作为深入研究该畛域的终点。
Bag of Words (BOW) [1954]:计算文档中每个单词的呈现次数并将其用作特色。
TF-IDF [1972]:批改 BOW 分数,使罕见词得分高,一般词得分低。
Word2Vec [2013]:每个单词都映射到一个称为单词嵌入的高维向量,该向量捕捉其语义。词嵌入是通过神经网络在大型语料库上寻找词相关性来学习的。
RNN [1986]:RNNs 利用句子中的单词上下文计算文档嵌入。起初演变为 LSTM [1997] 以捕捉长期依赖关系,并演变为 Bidirectional RNN [1997] 以捕捉从左到右和从右到左的依赖关系。最初 Encoder-Decoder RNNs [2014] 呈现了,其中一个 RNN 创立文档嵌入(即编码器),另一个 RNN 将其解码为文本(即解码器)。
Transformer [2017]:一种编码器 - 解码器模型,它利用注意力机制来计算更好的嵌入并更好地将输入与输出对齐。
BERT [2018]:双向 Transformer 应用掩蔽语言建模和下一句预测指标的组合进行预训练。它应用寰球关注。
GPT [2018]:第一个基于 Transformer 架构的自回归模型。起初演变成 GPT-2 [2019],这是在 WebText 上预训练的更大和优化的 GPT 版本,以及 GPT-3 [2020],在 Common Crawl 上预训练的更大和优化的 GPT-2 版本。
CTRL [2019]:相似于 GPT,但带有用于条件文本生成的控制代码。
Transformer-XL [2019]:它是一个自回归 Transformer,能够重用先前计算的暗藏状态来解决更长的上下文。
ALBERT [2019]:BERT 的轻量级版本,其中(1)下一句预测被句子程序预测取代,(2)参数缩小技术用于升高内存耗费和更快的训练。
RoBERTa [2019]:BERT 的更好版本,其中 (1) Masked Language Modeling 指标是动静的,(2) Next Sentence Prediction 指标被删除,(3) 应用 BPE 标记器 (4) 应用更好的超参数.
XLM [2019]:应用因果语言建模、掩码遮蔽语言建模和翻译语言建模等指标在多种语言的语料库上进行预训练的 Transformer。
XLNet [2019]:Transformer-XL 具备狭义的自回归预训练方法,能够学习双向依赖。
PEGASUS [2019]:一个双向编码器和一个从左到右的解码器,预训练了掩码掩蔽语言建模和距离句生成指标。
DistilBERT [2019]:与 BERT 雷同,但更小更快,同时保留了 BERT 95% 以上的性能。通过蒸馏预训练的 BERT 模型进行训练。
XLM-RoBERTa [2019]:RoBERTa 应用 Masked Language Modeling 指标在多语言语料库上进行训练。
BART [2019]:双向编码器和从左到右的解码器,通过应用任意噪声函数毁坏文本并学习模型来重建原始文本进行训练。
ConvBERT [2019]:BERT 的更好版本,其中自注意力块被替换为利用卷积更好地模仿全局和部分上下文的新块。
Funnel Transformer[2020]:一种 Transformer,它逐步将暗藏状态序列压缩到更短的序列,从而升高计算成本。
Reformer [2020]:因为部分敏感散列注意力、轴向地位编码和其余优化,更高效的 Transformer。
T5 [2020]:双向编码器和从左到右的解码器,在无监督和监督工作的混合上进行了预训练。
Longformer [2020]:一种 Transformer 模型,用稠密矩阵替换注意力矩阵,以进步训练效率。
ProphetNet [2020]:应用 Future N-gram 预测指标和新鲜的自留神机制训练的 Transformer 模型。
ELECTRA [2020]:与 BERT 雷同,但更轻、更好。该模型应用 Replaced Token Detection 指标进行训练。
Switch Transformers [2021]:一种稠密激活的专家 Transformer 模型,旨在简化和改良混合专家。
https://www.overfit.cn/post/28e65563957f49f2ad9d7ddbbc331f4c