关于深度学习:5分钟-NLP系列-11-个词嵌入模型总结

26次阅读

共计 1356 个字符,预计需要花费 4 分钟才能阅读完成。

TF-IDF, Word2Vec, GloVe, FastText, ELMO, CoVe, BERT, RoBERTa

词嵌入在深度模型中的作用是为上游工作 (如序列标记和文本分类) 提供输出特色。在过来的十年中,曾经提出了很多种词嵌入办法,本片文章将对这些词嵌入的模型做一个残缺的总结

与上下文无关

这类模型学习到的表征的特点是,在不思考单词上下文的状况下,每个单词都是独特的和不同的。

不须要学习

Bag-of-words(词袋): 一个文本(如一个句子或一个文档)被示意为它的词袋,不思考语法、词序。

TF-IDF: 通过获取词的频率 (TF) 并乘以词的逆文档频率 (IDF) 来失去这个分数。

须要进行学习

Word2Vec:经过训练以重建单词的语言上下文的浅层(两层)神经网络。Word2vec 能够利用两种模型架构中的任何一种:间断词袋 (CBOW) 或间断 skip-gram。在 CBOW 架构中,模型从四周上下文词的窗口中预测以后词。在间断 skip-gram 架构中,模型应用以后词来预测上下文的四周窗口。

GloVe(Global Vectors for Word Representation):训练是在语料库中汇总的全局单词 - 单词共现统计数据上执行的,后果示意显示了单词向量空间的线性子结构。

FastText:与 GloVe 不同,它通过将每个单词视为由字符 n-gram 组成而不是整个单词来嵌入单词。此性能使其不仅能够学习生僻词,还能够学习词汇表外的词。

上下文相干

与上下文无关的词嵌入不同,上下文相干的办法依据其上下文为同一个词学习不同的嵌入示意。

基于 RNN

ELMO(Embeddings from Language Model):应用基于字符的编码层和两个 BiLSTM 层的神经语言模型来学习高低文化的词示意,能够学习情景化的单词示意。

CoVe(Contextualized Word Vectors):应用深度 LSTM 编码器,该编码器来自通过机器翻译训练的注意力 seq2seq 模型,将单词向量高低文化。

基于 Transformers

BERT(Bidirectional Encoder Representations from Transformers):在大型跨域语料库上训练的基于 Transformers 的语言示意模型。并应用掩码语言模型来预测序列中随机被遮蔽的单词,还通过下一句预测工作,用于学习句子之间的关联。

XLM(Cross-lingual Language Model):一种基于单语言语种的非监督办法来学习跨语种示意的跨语言模型,通过将不同语言放在一起采纳新的训练指标进行训练,从而让模型可能把握更多的跨语言信息。

RoBERTa (Robustly Optimized BERT Pretraining Approach):它建设在 BERT 之上并批改了要害超参数,移除了下一句预训练指标,并以更大的小批量和学习率进行训练。

ALBERT(A Lite BERT for Self-supervised Learning of Language Representations):它提出了参数缩小技术,以升高内存耗费并进步 BERT 的训练速度。

https://www.overfit.cn/post/041316bd8f654eb38ce4731509e9ba15

作者:Fabio Chiusano

正文完
 0