原文链接:http://tecdat.cn/?p=6864

咱们对20个Usenet布告板的20,000条音讯进行剖析。此数据集中的Usenet布告板包含新汽车,体育和密码学等主题。

预处理

咱们首先浏览20news-bydate文件夹中的所有音讯,这些音讯组织在子文件夹中,每个音讯都有一个文件。

raw_text
## # A tibble: 511,655 x 3##    newsgroup   id    text                                                              ##    <chr>       <chr> <chr>                                                             ##  1 alt.atheism 49960 From: mathew <mathew@mantis.co.uk>                                ##  2 alt.atheism 49960 Subject: Alt.Atheism FAQ: Atheist Resources                       ##  3 alt.atheism 49960 Summary: Books, addresses, music -- anything related to atheism   ##  4 alt.atheism 49960 Keywords: FAQ, atheism, books, music, fiction, addres
## # … with 511,645 more rows

请留神该newsgroup列形容了每条音讯来自哪20个新闻组,以及id列,用于标识该新闻组中的音讯。

tf-idf

TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。咱们心愿新闻组在主题和内容方面有所不同,因而,它们之间的词语频率也不同。

newsgroup_cors
## # A tibble: 380 x 3##    item1                    item2                    correlation##    <chr>                    <chr>                          <dbl>##  1 talk.religion.misc       soc.religion.christian         0.835##  2 soc.religion.christian   talk.religion.misc             0.835##  3 alt.atheism              talk.religion.misc             0.779##  4 talk.religion.misc       alt.atheism                    0.779##  5 alt.atheism              soc.religion.christian         0.751##  6 soc.religion.christian   alt.atheism                    0.751##  7 comp.sys.mac.hardware    comp.sys.ibm.pc.hardware       0.680##  8 comp.sys.ibm.pc.hardware comp.sys.mac.hardware          0.680##  9 rec.sport.baseball       rec.sport.hockey               0.577## 10 rec.sport.hockey         rec.sport.baseball             0.577## # … with 370 more rows

主题建模

 LDA能够整顿来自不同新闻组的Usenet音讯吗?

主题1当然代表sci.space新闻组(因而最常见的词是“空间”),主题2可能来自密码学,应用诸如“密钥”和“加密”之类的术语。

   

情绪剖析

咱们能够应用咱们 探讨的情绪剖析技术来查看这些Usenet帖子中呈现的侧面和负面词的频率。哪些新闻组总体上最踊跃或最消极?

在这个例子中,咱们将应用AFINN情感词典,它为每个单词提供积极性分数,并用条形图可视化

用语言剖析情绪

值得深刻理解_为什么_有些新闻组比其余新闻组更踊跃或更消极。为此,咱们能够查看每个单词的总踊跃和消极贡献度。

N-gram剖析

Usenet数据集是一个古代文本语料库,因而咱们会对本文中的情绪剖析感兴趣.