关于自然语言处理:自然语言处理词嵌入简介

40次阅读

共计 1598 个字符,预计需要花费 4 分钟才能阅读完成。

动动发财的小手,点个赞吧!

Word Embeddings

机器学习模型“查看”数据的形式与咱们(人类)的形式不同。例如,咱们能够轻松了解“我看到一只猫”这一文本,但咱们的模型却不能——它们须要特征向量。此类向量或词嵌入是能够输出模型的词的示意。

工作原理:查找表(词汇)

在实践中,你有一个容许单词的词汇表;你提前抉择这个词汇。对于每个词汇单词,查找表蕴含它的嵌入。能够应用词汇表中的单词索引找到该嵌入(即,您能够应用单词索引在表中查找嵌入)。

为了解释未知词(那些不在词汇表中的词),通常一个词汇表蕴含一个非凡的标记 UNK。或者,未知标记能够被疏忽或调配一个零向量。

本讲的次要问题是:咱们如何失去这些词向量?

示意为离散符号:One-hot 向量

最简略的办法是将单词示意为 One-hot 向量:对于词汇表中的第 i 个单词,向量在第 i 个维度上为 1,在其余维度上为 0。在机器学习中,这是示意分类特色的最简略办法。

您可能会猜到为什么 One-hot 向量不是示意单词的最佳形式。问题之一是对于大词汇表,这些向量会很长:向量维数等于词汇表大小。这在实践中是不可取的,但这不是最要害的问题。

真正重要的是,这些向量对它们所代表的词无所不知。例如,One-hot 向量“认为”猫和狗的间隔和桌子的间隔一样近!咱们能够说 one-hot 向量不捕捉意义

然而咱们怎么晓得什么是意义呢?

散布语义

为了在向量中捕获单词的含意,咱们首先须要定义能够在实践中应用的含意概念。为此,让咱们尝试理解咱们人类如何晓得哪些词具备类似的含意。

一旦您看到了未知词在不同上下文中的应用形式,您就可能了解它的含意。你是怎么做到的?

假如是你的大脑搜寻了能够在雷同上下文中应用的其余词,找到了一些(例如,葡萄酒),并得出了 tezgüino 与其余词具备类似含意的论断。这是散布假如:

经常出现在类似上下文中的词具备类似的含意。

这是一个十分有价值的想法:它能够在实践中应用,让词向量捕捉到它们的含意。依据散布假如,“捕获意义”和“捕获上下文”在实质上是雷同的。因而,咱们须要做的就是将无关单词上下文的信息放入单词示意中。

次要思维:咱们须要将无关单词上下文的信息放入单词示意中。

基于计数的办法

基于计数的办法从字面上了解了这个想法:

如何:依据寰球语料库统计信息手动搁置此信息。

个别过程如上图所示,包含两个步骤:(1) 构建词上下文矩阵,(2) 升高其维数。降维有两个起因。首先,原始矩阵十分大。其次,因为很多单词只呈现在少数几种可能的上下文中,因而该矩阵可能蕴含很多无信息的元素(例如,零)。

要预计词 / 上下文之间的相似性,通常须要评估归一化词 / 上下文向量的点积(即余弦相似性)。

要定义基于计数的办法,咱们须要定义两件事:

  1. 可能的上下文(包含一个词呈现在上下文中意味着什么)
  2. 关联的概念,即计算矩阵元素的公式

Co-Occurence Counts

最简略的办法是将上下文定义为 L 大小窗口中的每个单词。词 - 上下文对 (w, c) 的矩阵元素是 w 在上下文 c 中呈现的次数。这是获取嵌入的十分根本(而且十分十分古老)的办法。

Positive Pointwise Mutual Information (PPMI)

这里上下文的定义和之前一样,然而单词和上下文之间关联的度量更加奇妙:positive PMI(或简称 PPMI)。PPMI 度量被宽泛认为是前神经散布相似性模型的最新技术。

潜在语义剖析 (LSA):了解文档

潜在语义剖析 (LSA) 剖析一组文档。尽管在之前的办法中上下文仅用于获取词向量并随后被抛弃,但在这里咱们也对上下文感兴趣,或者在本例中是文档向量。LSA 是最简略的主题模型之一:文档向量之间的余弦类似度能够用来掂量文档之间的类似度。

术语“LSA”有时指的是将 SVD 利用于术语文档矩阵的更通用办法,其中术语文档元素能够用不同的形式计算(例如,简略的共现、tf-idf 或其余一些权重)

本文由 mdnice 多平台公布

正文完
 0