关于自然语言处理:自然语言处理词嵌入简介

40次阅读

共计 1598 个字符，预计需要花费 4 分钟才能阅读完成。

动动发财的小手，点个赞吧！

机器学习模型“查看”数据的形式与咱们（人类）的形式不同。例如，咱们能够轻松了解“我看到一只猫”这一文本，但咱们的模型却不能——它们须要特征向量。此类向量或词嵌入是能够输出模型的词的示意。

工作原理：查找表（词汇）

在实践中，你有一个容许单词的词汇表；你提前抉择这个词汇。对于每个词汇单词，查找表蕴含它的嵌入。能够应用词汇表中的单词索引找到该嵌入（即，您能够应用单词索引在表中查找嵌入）。

为了解释未知词（那些不在词汇表中的词），通常一个词汇表蕴含一个非凡的标记 UNK。或者，未知标记能够被疏忽或调配一个零向量。

本讲的次要问题是：咱们如何失去这些词向量？

最简略的办法是将单词示意为 One-hot 向量：对于词汇表中的第 i 个单词，向量在第 i 个维度上为 1，在其余维度上为 0。在机器学习中，这是示意分类特色的最简略办法。

您可能会猜到为什么 One-hot 向量不是示意单词的最佳形式。问题之一是对于大词汇表，这些向量会很长：向量维数等于词汇表大小。这在实践中是不可取的，但这不是最要害的问题。

真正重要的是，这些向量对它们所代表的词无所不知。例如，One-hot 向量“认为”猫和狗的间隔和桌子的间隔一样近！咱们能够说 one-hot 向量不捕捉意义 。

然而咱们怎么晓得什么是意义呢？

为了在向量中捕获单词的含意，咱们首先须要定义能够在实践中应用的含意概念。为此，让咱们尝试理解咱们人类如何晓得哪些词具备类似的含意。

一旦您看到了未知词在不同上下文中的应用形式，您就可能了解它的含意。你是怎么做到的？

假如是你的大脑搜寻了能够在雷同上下文中应用的其余词，找到了一些（例如，葡萄酒），并得出了 tezgüino 与其余词具备类似含意的论断。这是散布假如：

经常出现在类似上下文中的词具备类似的含意。

这是一个十分有价值的想法：它能够在实践中应用，让词向量捕捉到它们的含意。依据散布假如，“捕获意义”和“捕获上下文”在实质上是雷同的。因而，咱们须要做的就是将无关单词上下文的信息放入单词示意中。

次要思维：咱们须要将无关单词上下文的信息放入单词示意中。

基于计数的办法从字面上了解了这个想法：

如何：依据寰球语料库统计信息手动搁置此信息。

个别过程如上图所示，包含两个步骤：(1) 构建词上下文矩阵，(2) 升高其维数。降维有两个起因。首先，原始矩阵十分大。其次，因为很多单词只呈现在少数几种可能的上下文中，因而该矩阵可能蕴含很多无信息的元素（例如，零）。

要预计词 / 上下文之间的相似性，通常须要评估归一化词 / 上下文向量的点积（即余弦相似性）。

要定义基于计数的办法，咱们须要定义两件事：

可能的上下文（包含一个词呈现在上下文中意味着什么）
关联的概念，即计算矩阵元素的公式

最简略的办法是将上下文定义为 L 大小窗口中的每个单词。词 - 上下文对 (w, c) 的矩阵元素是 w 在上下文 c 中呈现的次数。这是获取嵌入的十分根本（而且十分十分古老）的办法。

这里上下文的定义和之前一样，然而单词和上下文之间关联的度量更加奇妙：positive PMI（或简称 PPMI）。PPMI 度量被宽泛认为是前神经散布相似性模型的最新技术。

潜在语义剖析 (LSA) 剖析一组文档。尽管在之前的办法中上下文仅用于获取词向量并随后被抛弃，但在这里咱们也对上下文感兴趣，或者在本例中是文档向量。LSA 是最简略的主题模型之一：文档向量之间的余弦类似度能够用来掂量文档之间的类似度。

术语“LSA”有时指的是将 SVD 利用于术语文档矩阵的更通用办法，其中术语文档元素能够用不同的形式计算（例如，简略的共现、tf-idf 或其余一些权重）

本文由 mdnice 多平台公布

正文完

自然语言处理

发表至：自然语言处理

2023-04-18

0

关于自然语言处理:斯坦福NLP课程-第12讲-NLP子词模型

关于自然语言处理:军事领域关系抽取UIE-Slim最新升级版含数据标注serving部署模型蒸馏等教学助力工业应用场景快速落地

关于自然语言处理:Prompt-learning-教学最终篇Chatgpt使用场景推荐优秀学习资料推荐AI工具推荐

关于自然语言处理:搜索-电商行业模版驱动业务增长实践

关于go:何必去卷-AI对于普通人简单好用的智能软件

关于自然语言处理:自然语言处理词嵌入简介

Word Embeddings

示意为离散符号：One-hot 向量

散布语义

基于计数的办法

Co-Occurence Counts

Positive Pointwise Mutual Information (PPMI)

潜在语义剖析 (LSA)：了解文档

Just My Socks（注册教程内含优惠码）

关于自然语言处理:自然语言处理词嵌入简介

Word Embeddings

示意为离散符号：One-hot 向量

散布语义

基于计数的办法

Co-Occurence Counts

Positive Pointwise Mutual Information (PPMI)

潜在语义剖析 (LSA)：了解文档

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）