关于数据挖掘:自然语言处理NLP情感分析疫情下的新闻数据附代码数据

53次阅读

共计 1582 个字符,预计需要花费 4 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=11583

新冠肺炎的暴发让往年的春节与平常不同。与此同时,新闻记录下了这场疫情倒退的时间轴 点击文末“浏览原文”获取残缺 代码数据 )。

为此咱们剖析了疫情相干的新闻内容、公布期间以及公布内容的主题和情感偏向这些方面的数据,心愿通过这些数据,能对这场疫情有更多的理解。

新闻对疫情相干主题的情感偏向

通过对疫情相干的新闻进行主题剖析和情感剖析,咱们能够失去每个主题的关键词以及情感散布。

图表 1

症状检测主题的新闻内容表白出最多踊跃情感,该话题下探讨的是医院中检测患者的症状,其次是城市服务以及学校相干的新闻内容,探讨了商店敞开,社区隔离和学校提早开学等话题,生存主题也表白出较多的踊跃情感(关键词:工夫、家庭),疫情减少了家人相处的工夫(图 1)。

新闻表白的情感偏向随工夫变动

思考到新闻公布的工夫、新闻相干的话题因素,图 2 显示了通过情感穿插剖析失去的后果。

图表 2

从话题排名来看,不同时间段的新闻中最热门的话题都有经济、出行和政治。从情感散布来看,1 月份的经济主题新闻表白出较多的负面情绪(如股市因对冠状病毒的日益关注而上涨)。3 月份随着疫情逐步恶化,城市主题新闻(如疫情期间保障商店服务和生产经营)的热度排名超过防护主题(关键词:口罩,洗手,衰弱等)。从 1 月到 3 月,各个主题下的踊跃情感比例都在一直减少。


点击题目查阅往期内容

【视频】文本开掘:主题模型(LDA)及 R 语言实现剖析游记数据

左右滑动查看更多

01

02

03

04

新闻对不同主题关键词的关注度

思考到不同话题的关注度,图 3 显示了高频关键词的散布。

图表 3


从中咱们能够看到疫情相干的新闻中最关注的方面,首先是衰弱,家庭和隔离和出行,其中衰弱呈现的频率最高。而后关注的话题,蕴含冠状病毒、疫情期间的工作和病毒检测。其次关注的话题蕴含辨别衰弱和感化的症状。其余关注的热门关键词蕴含学校、商业、旅行和经济等。

本文章中的所有信息(包含但不限于剖析、预测、倡议、数据、图表等内容)仅供参考,拓端数据(tecdat)不因文章的全副或局部内容产生的或因本文章而引致的任何损失承当任何责任。


点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《自然语言解决 NLP:情感剖析疫情下的新闻数据》。

点击题目查阅往期内容

【视频】文本开掘:主题模型(LDA)及 R 语言实现剖析游记数据

NLP 自然语言解决—主题模型 LDA 案例:开掘人民网留言板文本数据

Python 主题建模 LDA 模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集

自然语言解决 NLP:主题 LDA、情感剖析疫情下的新闻文本数据

R 语言对 NASA 元数据进行文本开掘的主题建模剖析

R 语言文本开掘、情感剖析和可视化哈利波特小说文本数据

Python、R 对小说进行文本开掘和档次聚类可视化剖析案例

用于 NLP 的 Python:应用 Keras 进行深度学习文本生成

长短期记忆网络 LSTM 在工夫序列预测和文本分类中的利用

用 Rapidminer 做文本开掘的利用:情感剖析

R 语言文本开掘 tf-idf, 主题建模,情感剖析,n-gram 建模钻研

R 语言对推特 twitter 数据进行文本情感剖析

Python 应用神经网络进行简略文本分类

用于 NLP 的 Python:应用 Keras 的多标签文本 LSTM 神经网络分类

R 语言文本开掘应用 tf-idf 剖析 NASA 元数据的关键字

R 语言 NLP 案例:LDA 主题文本开掘优惠券举荐网站数据

Python 应用神经网络进行简略文本分类

R 语言自然语言解决(NLP):情感剖析新闻文本数据

Python、R 对小说进行文本开掘和档次聚类可视化剖析案例

R 语言对推特 twitter 数据进行文本情感剖析

R 语言中的 LDA 模型:对文本数据进行主题模型 topic modeling 剖析

R 语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation)

正文完
 0