关于visual-studio:R语言文本挖掘tfidf主题建模情感分析ngram建模研究附代码数据

38次阅读

共计 2798 个字符,预计需要花费 7 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=6864

咱们围绕文本开掘技术进行一些征询,帮忙客户解决独特的业务问题。
咱们对 20 个 Usenet 布告板的 20,000 条音讯进行剖析 点击文末“浏览原文”获取残缺 代码数据 )。

此数据集中的 Usenet 布告板包含新汽车,体育和密码学等主题。

预处理

咱们首先浏览 20news-bydate 文件夹中的所有音讯,这些音讯组织在子文件夹中,每个音讯都有一个文件。

raw_text
## # A tibble: 511,655 x 3
##    newsgroup   id    text                                                              
##    <chr>       <chr> <chr>                                                             
##  1 alt.atheism 49960 From: mathew <mathew@mantis.co.uk>                                
##  2 alt.atheism 49960 Subject: Alt.Atheism FAQ: Atheist Resources                       
##  3 alt.atheism 49960 Summary: Books, addresses, music -- anything related to atheism   
##  4 alt.atheism 49960 Keywords: FAQ, atheism, books, music, fiction, addres
## # … with 511,645 more rows

请留神该 newsgroup 列形容了每条音讯来自哪 20 个新闻组,以及 id 列,用于标识该新闻组中的音讯。

tf-idf

TF 是词频(Term Frequency),IDF 是逆文本频率指数(Inverse Document Frequency)。咱们心愿新闻组在主题和内容方面有所不同,因而,它们之间的词语频率也不同。

newsgroup_cors
## # A tibble: 380 x 3
##    item1                    item2                    correlation
##    <chr>                    <chr>                          <dbl>
##  1 talk.religion.misc       soc.religion.christian         0.835
##  2 soc.religion.christian   talk.religion.misc             0.835
##  3 alt.atheism              talk.religion.misc             0.779
##  4 talk.religion.misc       alt.atheism                    0.779
##  5 alt.atheism              soc.religion.christian         0.751
##  6 soc.religion.christian   alt.atheism                    0.751
##  7 comp.sys.mac.hardware    comp.sys.ibm.pc.hardware       0.680
##  8 comp.sys.ibm.pc.hardware comp.sys.mac.hardware          0.680
##  9 rec.sport.baseball       rec.sport.hockey               0.577
## 10 rec.sport.hockey         rec.sport.baseball             0.577
## # … with 370 more rows

主题建模

LDA 能够整顿来自不同新闻组的 Usenet 音讯吗?

主题 1 当然代表 sci.space 新闻组(因而最常见的词是“空间”),主题 2 可能来自密码学,应用诸如“密钥”和“加密”之类的术语。

情绪剖析

咱们能够应用咱们 探讨的情绪剖析技术来查看这些 Usenet 帖子中呈现的侧面和负面词的频率。哪些新闻组总体上最踊跃或最消极?

在这个例子中,咱们将应用 AFINN 情感词典,它为每个单词提供积极性分数,并用条形图可视化

用语言剖析情绪

值得深刻理解_为什么_有些新闻组比其余新闻组更踊跃或更消极。为此,咱们能够查看每个单词的总踊跃和消极贡献度。

N-gram 剖析

Usenet 数据集是一个古代文本语料库,因而咱们会对本文中的情绪剖析感兴趣.


点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R 语言文本开掘 tf-idf, 主题建模,情感剖析,n-gram 建模钻研》。

点击题目查阅往期内容

NLP 自然语言解决—主题模型 LDA 案例:开掘人民网留言板文本数据
Python 主题建模 LDA 模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集
自然语言解决 NLP:主题 LDA、情感剖析疫情下的新闻文本数据
R 语言对 NASA 元数据进行文本开掘的主题建模剖析
R 语言文本开掘、情感剖析和可视化哈利波特小说文本数据
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例
用于 NLP 的 Python:应用 Keras 进行深度学习文本生成
长短期记忆网络 LSTM 在工夫序列预测和文本分类中的利用
用 Rapidminer 做文本开掘的利用:情感剖析
R 语言文本开掘 tf-idf, 主题建模,情感剖析,n-gram 建模钻研
R 语言对推特 twitter 数据进行文本情感剖析
Python 应用神经网络进行简略文本分类
用于 NLP 的 Python:应用 Keras 的多标签文本 LSTM 神经网络分类
R 语言文本开掘应用 tf-idf 剖析 NASA 元数据的关键字
R 语言 NLP 案例:LDA 主题文本开掘优惠券举荐网站数据
Python 应用神经网络进行简略文本分类
R 语言自然语言解决(NLP):情感剖析新闻文本数据
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例
R 语言对推特 twitter 数据进行文本情感剖析
R 语言中的 LDA 模型:对文本数据进行主题模型 topic modeling 剖析
R 语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation)

正文完
 0