关于数据挖掘:NLP自然语言处理主题模型LDA案例挖掘人民网留言板文本数据附代码数据

2次阅读

共计 2016 个字符,预计需要花费 6 分钟才能阅读完成。

全文链接:tecdat.cn/?p=2155

最近咱们被客户要求撰写对于 NLP 自然语言解决的钻研报告,包含一些图形和统计输入。

随着网民规模的不断扩大,互联网不仅是传统媒体和生存形式的补充,也是民心凸显的地带。领导干部参加网络问政的制度化正在成为一种发展趋势,这种趋势与互联网倒退的时代需要是分不开的

人民网《中央领导留言板》是备受百姓注目的民生栏目, 也是人民网品牌栏目, 被称为“社情民意的集散地、亲民爱民的回音壁”。

基于以上背景,tecdat 钻研人员对北京留言板外面的留言数据进行剖析,摸索网民们在呐喊什么。

数量与情感

朝阳区大众最沉闷

图表

从上图能够看出不同地区留言板的情感偏向散布,总的来说,负面情感留言数目和踊跃情感相差不多,负面情感留言较多,占比 46%,踊跃情感留言占比 42%,中立情感的留言占比 11%。

从地区来看,沉闷在各大媒体的“朝阳区大众”留言数目也是最多的,其次是海淀区,昌平区。因而,从情感散布来看大部分留言还是在反馈存在的问题,而不是一味赞美或者灌水。


点击题目查阅往期内容

python 主题建模可视化 LDA 和 T -SNE 交互式可视化

左右滑动查看更多

01

02

03

04

主题剖析

当地户口问题呼声最高

接下来,咱们对于语料进行 LDA 建模,就是从语料库中挖掘出不同主题并进行剖析,换言之,LDA 提供了一种较为不便地量化钻研主题的机器学习办法。

咱们应用最大似然预计进行最优化主题个数的选取。当主题个数定为 20 的时候,似然估计数最大,即留言板数据分为 20 个主题的可能性比拟大。将模型生成的 20 个主题中的前五个高频词取出,如下表所示。

图表

而后咱们将占比最高的前六个主题与它们的情感偏向进行剖析。

图表

从上图能够看出大家对于 6 大主题的探讨:

主题 1 反馈孩子,当地户口办理的问题是最多的,反馈了当地落户北京相干的难题(e.g. 父母在京工作 20 多年,儿女上学却因户口问题不能进入好的高校就读)。

主题 2 是反馈环境革新及棚户革新(e.g. 棚户屋宇破旧、墙面湿润、上下水管道老化腐烂景象重大常常造成跑冒滴漏,遇到雨雪天气,路线积水、泥泞不堪,大院居民尤其是老人小孩出行十分不便)。

主题 3 是反馈高考和医保(e.g. 外地人衷心的心愿政府能关注一下孩子在北京的高考问题)。

主题 4 是汽车摇号政策(e.g. 现行的摇号计划是不可行, 治标不治本. 有的摇号是一个人摇不上, 全家人都出动; 有的是想买车基本摇不号; 有的是不想买车就摇上了)。

主题 5 是反馈工资和租房问题(e.g. 我是当地退休老师。因为孩子在北京工作,故到北京帮忙孩子操持家务,以反对孩子工作。因为北京房价低廉,咱们买不起大房,三代人只能挤着住。我想问问市长,咱们是否也能住公租房)。

主题 6 是守法修建(e.g.XX 雅苑许多一层业主私搭乱建成风, 且物业能干, 造成极大的安全隐患)。

地区、主题与情感得分

**\
**

接下来咱们剖析了不同主题和地区的情感偏向散布。从下图能够看出,主题 3 高考和医保、主题 6 守法修建、主题 13 教育拆迁的留言内容中踊跃情感占较大比例。

图表

咱们发现在不同主题中情感得分最高的地区中海淀区最多,其次是朝阳区和大兴区。同时也能够发现,情感得分最高的是在主题 11 居民生存下的朝阳区留言内容。总的来说,依据踊跃情感的内容散布来看,主题 3 高考和医保、主题 6 守法修建、主题 13 教育拆迁的留言内容中体现出较好的反馈。


本文摘选 数据凝听人民网留言板的那些网事 ,点击“ 浏览原文”获取全文残缺材料。


点击题目查阅往期内容

Python 主题建模 LDA 模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集 \
自然语言解决 NLP:主题 LDA、情感剖析疫情下的新闻文本数据 \
R 语言对 NASA 元数据进行文本开掘的主题建模剖析 \
R 语言文本开掘、情感剖析和可视化哈利波特小说文本数据 \
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例 \
用于 NLP 的 Python:应用 Keras 进行深度学习文本生成 \
长短期记忆网络 LSTM 在工夫序列预测和文本分类中的利用 \
用 Rapidminer 做文本开掘的利用:情感剖析 \
R 语言文本开掘 tf-idf, 主题建模,情感剖析,n-gram 建模钻研 \
R 语言对推特 twitter 数据进行文本情感剖析 \
Python 应用神经网络进行简略文本分类 \
用于 NLP 的 Python:应用 Keras 的多标签文本 LSTM 神经网络分类 \
R 语言文本开掘应用 tf-idf 剖析 NASA 元数据的关键字 \
R 语言 NLP 案例:LDA 主题文本开掘优惠券举荐网站数据 \
Python 应用神经网络进行简略文本分类 \
R 语言自然语言解决(NLP):情感剖析新闻文本数据 \
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例 \
R 语言对推特 twitter 数据进行文本情感剖析 \
R 语言中的 LDA 模型:对文本数据进行主题模型 topic modeling 剖析 \
R 语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation)

正文完
 0