原文链接:http://tecdat.cn/?p=6864
咱们围绕文本开掘技术进行一些征询,帮忙客户解决独特的业务问题。
咱们对20个Usenet布告板的20,000条音讯进行剖析 ( 点击文末“浏览原文”获取残缺代码数据 )。
此数据集中的Usenet布告板包含新汽车,体育和密码学等主题。
预处理
咱们首先浏览20news-bydate
文件夹中的所有音讯,这些音讯组织在子文件夹中,每个音讯都有一个文件。
raw_text
## # A tibble: 511,655 x 3## newsgroup id text ## <chr> <chr> <chr> ## 1 alt.atheism 49960 From: mathew <mathew@mantis.co.uk> ## 2 alt.atheism 49960 Subject: Alt.Atheism FAQ: Atheist Resources ## 3 alt.atheism 49960 Summary: Books, addresses, music -- anything related to atheism ## 4 alt.atheism 49960 Keywords: FAQ, atheism, books, music, fiction, addres
## # … with 511,645 more rows
请留神该newsgroup
列形容了每条音讯来自哪20个新闻组,以及id
列,用于标识该新闻组中的音讯。
tf-idf
TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。咱们心愿新闻组在主题和内容方面有所不同,因而,它们之间的词语频率也不同。
newsgroup_cors
## # A tibble: 380 x 3## item1 item2 correlation## <chr> <chr> <dbl>## 1 talk.religion.misc soc.religion.christian 0.835## 2 soc.religion.christian talk.religion.misc 0.835## 3 alt.atheism talk.religion.misc 0.779## 4 talk.religion.misc alt.atheism 0.779## 5 alt.atheism soc.religion.christian 0.751## 6 soc.religion.christian alt.atheism 0.751## 7 comp.sys.mac.hardware comp.sys.ibm.pc.hardware 0.680## 8 comp.sys.ibm.pc.hardware comp.sys.mac.hardware 0.680## 9 rec.sport.baseball rec.sport.hockey 0.577## 10 rec.sport.hockey rec.sport.baseball 0.577## # … with 370 more rows
主题建模
LDA能够整顿来自不同新闻组的Usenet音讯吗?
主题1当然代表sci.space新闻组(因而最常见的词是“空间”),主题2可能来自密码学,应用诸如“密钥”和“加密”之类的术语。
情绪剖析
咱们能够应用咱们 探讨的情绪剖析技术来查看这些Usenet帖子中呈现的侧面和负面词的频率。哪些新闻组总体上最踊跃或最消极?
在这个例子中,咱们将应用AFINN情感词典,它为每个单词提供积极性分数,并用条形图可视化
用语言剖析情绪
值得深刻理解_为什么_有些新闻组比其余新闻组更踊跃或更消极。为此,咱们能够查看每个单词的总踊跃和消极贡献度。
N-gram剖析
Usenet数据集是一个古代文本语料库,因而咱们会对本文中的情绪剖析感兴趣.
点击文末 “浏览原文”
获取全文残缺代码数据资料。
本文选自《R语言文本开掘tf-idf,主题建模,情感剖析,n-gram建模钻研》。
点击题目查阅往期内容
NLP自然语言解决—主题模型LDA案例:开掘人民网留言板文本数据
Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集
自然语言解决NLP:主题LDA、情感剖析疫情下的新闻文本数据
R语言对NASA元数据进行文本开掘的主题建模剖析
R语言文本开掘、情感剖析和可视化哈利波特小说文本数据
Python、R对小说进行文本开掘和档次聚类可视化剖析案例
用于NLP的Python:应用Keras进行深度学习文本生成
长短期记忆网络LSTM在工夫序列预测和文本分类中的利用
用Rapidminer做文本开掘的利用:情感剖析
R语言文本开掘tf-idf,主题建模,情感剖析,n-gram建模钻研
R语言对推特twitter数据进行文本情感剖析
Python应用神经网络进行简略文本分类
用于NLP的Python:应用Keras的多标签文本LSTM神经网络分类
R语言文本开掘应用tf-idf剖析NASA元数据的关键字
R语言NLP案例:LDA主题文本开掘优惠券举荐网站数据
Python应用神经网络进行简略文本分类
R语言自然语言解决(NLP):情感剖析新闻文本数据
Python、R对小说进行文本开掘和档次聚类可视化剖析案例
R语言对推特twitter数据进行文本情感剖析
R语言中的LDA模型:对文本数据进行主题模型topic modeling剖析
R语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation)