关于数据挖掘:R语言文本挖掘NASA数据网络分析tfidf和主题建模附代码数据

全文链接：http://tecdat.cn/?p=6763

最近咱们被客户要求撰写对于文本开掘的钻研报告，包含一些图形和统计输入。

NASA托管和/或保护了超过32,000个数据集; 这些数据集涵盖了从地球科学到航空航天工程到NASA自身治理的主题。咱们能够应用这些数据集的元数据来了解它们之间的分割

1 NASA如何组织数据

首先，让咱们下载JSON文件，并查看元数据中存储的名称。

metadata <- fromJSON("https://data.nasa.gov/data.json")
names(metadata$dataset)

咱们在这里看到，咱们能够从公布每个数据集的人那里获取信息，以获取他们公布的许可证。

class(metadata$dataset$title)

相干视频

拓端

，赞3

1.1 整顿数据

让咱们为题目，形容和关键字设置独自的数据框，保留每个数据集的数据集ID，以便咱们能够在前面的剖析中将它们连接起来。

1.2 初步的简略摸索

NASA数据集中最常见的单词是什么？

nasa_title %>%
  count(word, sort = TRUE)

最常见的关键字是什么？

nasa_keyword %>% 
  group_by(keyword) %>% 
  count(sort = TRUE)

## # A tibble: 1,774 x 2
## # Groups:   keyword [1,774]
##    keyword                     n
##    <chr>                   <int>
##  1 EARTH SCIENCE           14362
##  2 Project                  7452
##  3 ATMOSPHERE               7321
##  4 Ocean Color              7268
##  5 Ocean Optics             7268
##  6 Oceans                   7268
##  7 completed                6452

2.1形容和题目词的网络

咱们能够应用pairwise_count 来计算每对单词在题目或形容字段中呈现的次数。

这些是最常呈现在descripton字段中的单词对。

咱们在这个题目词网络中看到了一些清晰的聚类; 国家航空航天局数据集题目中的单词大部分被组织成几个词汇系列，这些词汇聚类一起。

点击题目查阅往期内容

Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集

左右滑动查看更多

关键词网络

接下来，让咱们建设一个关键字网络，以查看哪些关键字通常在同一数据集中一起呈现。

## # A tibble: 13,390 x 3
##    item1         item2                       n
##    <chr>         <chr>                   <dbl>
##  1 OCEANS        OCEAN OPTICS             7324
##  2 EARTH SCIENCE ATMOSPHERE               7318
##  3 OCEANS        OCEAN COLOR              7270
##  4 OCEAN OPTICS  OCEAN COLOR              7270

此排序顶部的这些关键字的相关系数等于1; 他们总是一起呈现。

让咱们可视化关键字相关性网络，也就是关键字共现网络。

3计算形容字段的tf-idf

网络图向咱们展现了形容字段由一些常用词来管制，如“数据”，“全局”; 能够应用tf-idf作为统计数据来查找各个形容字段的特征词。

4主题建模

应用tf-idf作为统计数据曾经让咱们深刻理解NASA形容字段的内容，但让咱们尝试另外一种办法来解决NASA形容字段的内容。

每个主题是对于什么的？让咱们来看看每个主题的前10个关键词。

## # A tibble: 240 x 3
##    topic term          beta
##    <int> <chr>        <dbl>
##  1     1 data        0.0449
##  2     1 soil        0.0368
##  3     1 moisture    0.0295
##  4     1 amsr        0.0244

##  5     1 sst         0.0168
##  6     1 validation  0.0132
##  7     1 temperature 0.0132
##  8     1 surface     0.0129
##  9     1 accuracy    0.0123
## 10     1 set         0.0116

首先留神y轴是以对数刻度绘制的; 否则很难弄清楚图中的细节。

该散布表明文档被很好地区分为属于某个主题。咱们还能够看看每个主题中概率的散布状况。

点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R语言文本开掘NASA数据网络剖析，tf-idf和主题建模》。

点击题目查阅往期内容

【视频】文本开掘：主题模型（LDA）及R语言实现剖析游记数据
NLP自然语言解决—主题模型LDA案例：开掘人民网留言板文本数据
Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集
自然语言解决NLP：主题LDA、情感剖析疫情下的新闻文本数据
R语言对NASA元数据进行文本开掘的主题建模剖析
R语言文本开掘、情感剖析和可视化哈利波特小说文本数据
Python、R对小说进行文本开掘和档次聚类可视化剖析案例
用于NLP的Python：应用Keras进行深度学习文本生成
长短期记忆网络LSTM在工夫序列预测和文本分类中的利用
用Rapidminer做文本开掘的利用：情感剖析
R语言文本开掘tf-idf,主题建模，情感剖析,n-gram建模钻研
R语言对推特twitter数据进行文本情感剖析
Python应用神经网络进行简略文本分类
用于NLP的Python：应用Keras的多标签文本LSTM神经网络分类
R语言文本开掘应用tf-idf剖析NASA元数据的关键字
R语言NLP案例：LDA主题文本开掘优惠券举荐网站数据
Python应用神经网络进行简略文本分类
R语言自然语言解决（NLP）：情感剖析新闻文本数据
Python、R对小说进行文本开掘和档次聚类可视化剖析案例
R语言对推特twitter数据进行文本情感剖析
R语言中的LDA模型：对文本数据进行主题模型topic modeling剖析
R语言文本主题模型之潜在语义剖析（LDA:Latent Dirichlet Allocation）

关于数据挖掘:R语言文本挖掘NASA数据网络分析tfidf和主题建模附代码数据

全文链接：http://tecdat.cn/?p=6763

1 NASA如何组织数据

1.1 整顿数据

1.2 初步的简略摸索

2.1形容和题目词的网络

关键词网络

3计算形容字段的tf-idf

4主题建模

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:R语言文本挖掘NASA数据网络分析tfidf和主题建模附代码数据

全文链接：http://tecdat.cn/?p=6763

1 NASA如何组织数据

1.1 整顿数据

1.2 初步的简略摸索

2.1形容和题目词的网络

关键词网络

3计算形容字段的tf-idf

4主题建模

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复