关于人工智能:词袋模型和TFIDF

作者|PURVA HUILGOL
编译|VK
起源|Analytics Vidhya

机器了解文本的挑战

“语言是一种极好的交换媒介”

你和我很快就会明确那句话。但机器根本无法解决原始模式的文本数据。他们须要咱们将文本分解成一种易于机器浏览的数字格局（自然语言解决背地的理念！）。

这就引入“词袋”（BoW）和TF-IDF。BoW和TF-IDF都是帮忙咱们将文本句子转换为向量的技术。

在这篇文章中，我将探讨“词袋”和TF-IDF。咱们将应用一个直观和个别的例子来具体了解每个概念。

示例

我将用一个风行的例子来解释本文中的Bag of Words（BoW）和TF-IDF。

咱们都喜爱看电影（不同水平）。在我决定看一部电影之前，我总是先看它的影评。我晓得你们很多人也这么做！所以，我在这里用这个例子。

以下是对于某部恐怖电影的评论示例：

点评一：This movie is very scary and long
点评二：This movie is not scary and is slow
点评三：This movie is spooky and good

你能够看到对于这部电影的一些比照评论，以及电影的长度和节奏。设想一下看一千篇这样的评论是如许干燥。显然，咱们能够从中吸取很多乏味的货色，并以此为根底来掂量电影的体现。

然而，正如咱们在下面看到的，咱们不能简略地把这些句子交给机器学习模型，让它通知咱们一篇评论是侧面的还是负面的。咱们须要执行某些文本预处理步骤。

“词袋”和TF-IDF就是两个这样做的例子。让咱们具体理解一下。

从文本创立向量

你能想出一些咱们能够在一开始就把一个句子向量化的技巧吗？根本要求是：

它不应该导致稠密矩阵，因为稠密矩阵会导致高计算成本
咱们应该可能保留句子中的大部分语言信息

词嵌入是一种利用向量示意文本的技术。还有2种单词嵌入模式是：

Bow，代表词袋
TF-IDF，代表词频-逆文本频率

当初，让咱们看看如何将上述电影评论示意为嵌入，并为机器学习模型做好筹备。

词袋（BoW）模型

词袋（BoW）模型是数字文本示意的最简略模式。像单词自身一样，咱们能够将一个句子示意为一个词向量包（一个数字串）。

让咱们回顾一下咱们之前看到的三种类型的电影评论：

点评一：This movie is very scary and long
点评二：This movie is not scary and is slow
点评三：This movie is spooky and good

咱们将首先从以上三篇评论中所有的独特词汇中构建一个词汇表。词汇表由这11个单词组成：“This”、“movie”、“is”、“very”、“stear”、“and”、“long”、“not”、“slow”、“spooky”、“good”。

当初，咱们能够将这些单词中的每一个用1和0标记在下面的三个电影评论中。这将为咱们提供三个用于三个评论的向量：

点评向量1:[1 1 1 1 1 1 0 0 0 0]

点评向量2:[1 1 2 0 0 1 0 1 0 0 0]

点评向量3:[1 1 1 0 0 0 1 0 1 1 1 1]

这就是“词袋”（BoW）模型背地的核心思想。

应用单词包（BoW）模型的毛病

在下面的例子中，咱们能够失去长度为11的向量。然而，当咱们遇到新的句子时，咱们开始面临一些问题：

如果新句子蕴含新词，那么咱们的词汇量就会减少，因而向量的长度也会减少。
此外，向量还蕴含许多0，从而产生稠密矩阵（这是咱们心愿防止的）
咱们没有保留任何对于句子语法和文本中单词程序的信息。

词频-逆文本频率（TF-IDF）

咱们先对TF-IDF下一个正式定义。百科是这样说的：

“TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的罕用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)”

术语频率（TF）

首先让咱们了解术语频繁（TF）。它是掂量一个术语t在文档d中呈现的频率：

这里，在分子中，n是术语“t”呈现在文档“d”中的次数。因而，每个文档和术语都有本人的TF值。

咱们再次应用咱们在词袋模型中构建的雷同词汇表来演示如何计算电影点评2：

点评 2: This movie is not scary and is slow

这里

词汇：“This”，“movie”，“is”，“very”，“stear”，“and”，“long”，“not”，“slow”，“spooky”，“good”
点评2的单词数=8
单词“this”的TF=（点评2中呈现“this”的次数）/（点评2中的单词数）=1/8

同样地

TF(‘movie’) = 1/8
TF(‘is’) = 2/8 = 1/4
TF(‘very’) = 0/8 = 0
TF(‘scary’) = 1/8
TF(‘and’) = 1/8
TF(‘long’) = 0/8 = 0
TF(‘not’) = 1/8
TF(‘slow’) = 1/8
TF( ‘spooky’) = 0/8 = 0
TF(‘good’) = 0/8 = 0

咱们能够这样计算所有点评的词频：

逆文本频率（IDF）

IDF是掂量一个术语有多重要的指标。咱们须要IDF值，因为仅计算TF不足以了解单词的重要性：

咱们能够计算点评2中所有单词的IDF值：

IDF（’this’）=log（文档数/蕴含“this”一词的文档数）=log（3/3）=log（1）=0

同样地，

IDF(‘movie’, ) = log(3/3) = 0
IDF(‘is’) = log(3/3) = 0
IDF(‘not’) = log(3/1) = log(3) = 0.48
IDF(‘scary’) = log(3/2) = 0.18
IDF(‘and’) = log(3/3) = 0
IDF(‘slow’) = log(3/1) = 0.48

咱们能够计算每个单词的IDF值。因而，整个词汇表的IDF值为：

因而，咱们看到“is”、“this”、“and”等词被降为0，代表重要性很小；而“scary”、“long”、“good”等词则更为重要，因此具备更高的权值。

咱们当初能够计算语料库中每个单词的TF-IDF分数。分数越高的单词越重要，分数越低的单词越不重要：

当初，咱们能够计算点评2中每个单词的TF-IDF分数：

TF-IDF(‘this’, Review 2) = TF(‘this’, Review 2) IDF(‘this’) = 1/8 0 = 0

同样地

TF-IDF(‘movie’, Review 2) = 1/8 * 0 = 0
TF-IDF(‘is’, Review 2) = 1/4 * 0 = 0
TF-IDF(‘not’, Review 2) = 1/8 * 0.48 = 0.06
TF-IDF(‘scary’, Review 2) = 1/8 * 0.18 = 0.023
TF-IDF(‘and’, Review 2) = 1/8 * 0 = 0
TF-IDF(‘slow’, Review 2) = 1/8 * 0.48 = 0.06

同样地，咱们能够计算出对于所有评论的所有单词的TF-IDF分数：

咱们当初曾经取得了咱们词汇的TF-IDF分数。TF-IDF还为频率较低的单词提供较大的值，并且当IDF和TF值都较高时，该值较高。TF-IDF分值高代表该单词在所有文档中都很少见，但在单个文档中很常见。

结尾

让我总结一下咱们在文章中所探讨的内容：

词袋只创立一组向量，其中蕴含文档中的单词呈现次数，而TF-IDF模型还蕴含对于更重要的单词和不重要的单词的信息。
词袋向量很容易解释。然而，在机器学习模型中，TF-IDF通常体现得更好。

尽管“词袋”和“TF-IDF”在各自方面都很受欢迎，但在了解文字背景方面依然存在空白。检测单词“spooky”和“scary之间的相似性，或者将给定的文档翻译成另一种语言，须要更多对于文档的信息。

这就有对于Word2Vec、CBOW、Skip-gram等词嵌入技术的由来。

原文链接：https://www.analyticsvidhya.c…

欢送关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官网文档：
http://sklearn123.com/

欢送关注磐创博客资源汇总站：
http://docs.panchuang.net/

关于人工智能:词袋模型和TFIDF

机器了解文本的挑战

示例

从文本创立向量

词袋（BoW）模型

应用单词包（BoW）模型的毛病

词频-逆文本频率（TF-IDF）

逆文本频率（IDF）

结尾

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:词袋模型和TFIDF

机器了解文本的挑战

示例

从文本创立向量

词袋（BoW）模型

应用单词包（BoW）模型的毛病

词频-逆文本频率（TF-IDF）

逆文本频率（IDF）

结尾

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复