全文链接:http://tecdat.cn/?p=6763
最近咱们被客户要求撰写对于文本开掘的钻研报告,包含一些图形和统计输入。
NASA 托管和 / 或保护了超过 32,000 个数据集; 这些数据集涵盖了从地球科学到航空航天工程到 NASA 自身治理的主题。咱们能够应用这些数据集的元数据来了解它们之间的分割
1 NASA 如何组织数据
首先,让咱们下载 JSON 文件,并查看元数据中存储的名称。
metadata <- fromJSON("https://data.nasa.gov/data.json")
names(metadata$dataset)
咱们在这里看到,咱们能够从公布每个数据集的人那里获取信息,以获取他们公布的许可证。
class(metadata$dataset$title)
相干视频
**
拓端
,赞 3
1.1 整顿数据
让咱们为题目,形容和关键字设置独自的数据框,保留每个数据集的数据集 ID,以便咱们能够在前面的剖析中将它们连接起来。
1.2 初步的简略摸索
NASA 数据集中最常见的单词是什么?
nasa_title %>%
count(word, sort = TRUE)
最常见的关键字是什么?
nasa_keyword %>%
group_by(keyword) %>%
count(sort = TRUE)
## # A tibble: 1,774 x 2
## # Groups: keyword [1,774]
## keyword n
## <chr> <int>
## 1 EARTH SCIENCE 14362
## 2 Project 7452
## 3 ATMOSPHERE 7321
## 4 Ocean Color 7268
## 5 Ocean Optics 7268
## 6 Oceans 7268
## 7 completed 6452
2.1 形容和题目词的网络
咱们能够应用 pairwise_count
来计算每对单词在题目或形容字段中呈现的次数。
这些是最常呈现在 descripton 字段中的单词对。
咱们在这个题目词网络中看到了一些清晰的聚类; 国家航空航天局数据集题目中的单词大部分被组织成几个词汇系列,这些词汇聚类一起。
点击题目查阅往期内容
Python 主题建模 LDA 模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集
左右滑动查看更多
01
02
03
04
关键词网络
接下来,让咱们建设一个 关键字网络,以查看哪些关键字通常在同一数据集中一起呈现。
## # A tibble: 13,390 x 3
## item1 item2 n
## <chr> <chr> <dbl>
## 1 OCEANS OCEAN OPTICS 7324
## 2 EARTH SCIENCE ATMOSPHERE 7318
## 3 OCEANS OCEAN COLOR 7270
## 4 OCEAN OPTICS OCEAN COLOR 7270
此排序顶部的这些关键字的相关系数等于 1; 他们总是一起呈现。
让咱们可视化关键字相关性网络,也就是关键字共现网络。
3 计算形容字段的 tf-idf
网络图向咱们展现了形容字段由一些常用词来管制,如“数据”,“全局”; 能够应用 tf-idf 作为统计数据来查找各个形容字段的特征词。
4 主题建模
应用 tf-idf 作为统计数据曾经让咱们深刻理解 NASA 形容字段的内容,但让咱们尝试另外一种办法来解决 NASA 形容字段的内容。
每个主题是对于什么的?让咱们来看看每个主题的前 10 个关键词。
## # A tibble: 240 x 3
## topic term beta
## <int> <chr> <dbl>
## 1 1 data 0.0449
## 2 1 soil 0.0368
## 3 1 moisture 0.0295
## 4 1 amsr 0.0244
## 5 1 sst 0.0168
## 6 1 validation 0.0132
## 7 1 temperature 0.0132
## 8 1 surface 0.0129
## 9 1 accuracy 0.0123
## 10 1 set 0.0116
首先留神 y 轴是以对数刻度绘制的; 否则很难弄清楚图中的细节。
该散布表明文档被很好地区分为属于某个主题。咱们还能够看看每个主题中概率的散布状况。
点击文末 “浏览原文”
获取全文残缺代码数据资料。
本文选自《R 语言文本开掘 NASA 数据网络剖析,tf-idf 和主题建模》。
点击题目查阅往期内容
【视频】文本开掘:主题模型(LDA)及 R 语言实现剖析游记数据
NLP 自然语言解决—主题模型 LDA 案例:开掘人民网留言板文本数据
Python 主题建模 LDA 模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集
自然语言解决 NLP:主题 LDA、情感剖析疫情下的新闻文本数据
R 语言对 NASA 元数据进行文本开掘的主题建模剖析
R 语言文本开掘、情感剖析和可视化哈利波特小说文本数据
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例
用于 NLP 的 Python:应用 Keras 进行深度学习文本生成
长短期记忆网络 LSTM 在工夫序列预测和文本分类中的利用
用 Rapidminer 做文本开掘的利用:情感剖析
R 语言文本开掘 tf-idf, 主题建模,情感剖析,n-gram 建模钻研
R 语言对推特 twitter 数据进行文本情感剖析
Python 应用神经网络进行简略文本分类
用于 NLP 的 Python:应用 Keras 的多标签文本 LSTM 神经网络分类
R 语言文本开掘应用 tf-idf 剖析 NASA 元数据的关键字
R 语言 NLP 案例:LDA 主题文本开掘优惠券举荐网站数据
Python 应用神经网络进行简略文本分类
R 语言自然语言解决(NLP):情感剖析新闻文本数据
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例
R 语言对推特 twitter 数据进行文本情感剖析
R 语言中的 LDA 模型:对文本数据进行主题模型 topic modeling 剖析
R 语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation)