关于数据挖掘:实现LDA主题模型分析网购满意度数据附代码数据

6次阅读

共计 2385 个字符,预计需要花费 6 分钟才能阅读完成。

全文下载链接:http://tecdat.cn/?p=2175

最近咱们被客户要求撰写对于 LDA 主题模型的钻研报告,包含一些图形和统计输入。

钻研人员对各大电商平台海量用户的评估数据进行剖析,得出智能门锁剁手攻略

语义透镜

顾客满意度和关注点

咱们对于评估数据进行 LDA 建模,就是从语料库中挖掘出不同主题并进行剖析,换言之,LDA 提供了一种较为不便地量化钻研主题的机器学习办法。

咱们应用最大似然预计进行最优化主题个数的选取。当主题个数定为 20 的时候,似然估计数最大,即留言板数据分为 20 个主题的可能性比拟大。将模型生成的 20 个主题中的高频词取出。

图表 1

 

依据各个主题的高频关键词,大略能够将顾客关注点分成 5 个局部:商家品牌、价格品质、客服徒弟、应用便捷性和包装物流。从上图,咱们发现用户关注的点次要集中在客服对商品问题的急躁解答,徒弟对门锁装置的领导以及包装和物流上。

咱们也发现不少顾客的评论反映出智能门锁的便捷性 (e.g. 不必带钥匙) 和先进(e.g. 指纹识别度高)。同时咱们没有发现安全性相干的高频词汇。

顾客埋怨

品质、客服服务和物流

接下来,咱们对不同价格和主题的顾客埋怨率进行比拟。

图表 2

 

从价格方面咱们发现价格低于 2000 的智能门锁购买量最多,同时埋怨率也较高,依据关注点来看,顾客埋怨点次要集中在商品质量和客服的急躁水平。购买量位于第二的价格是高于 4000 的区间,整体埋怨率最低。购买量位于第三的是 2000-3000 区间,该区间顾客埋怨点次要集中在商家品牌与物流。最初是 3000-4000 区间,该区间顾客埋怨点次要集中在价格品质与物流。同时反映出顾客对智能门锁价格有较高心理预期,次要埋怨点在品质、客服服务和物流上。

自营非自营

价格和满意度

图表 3

 

从左图能够看出自营和非自营商品在顾客满意度上相差不大,非自营商品的满意度要略高于自营商品。同时能够看到大于 4000 区间的顾客满意度最高,且都是非自营商品。

从右图中,咱们能够看到满意度对于价格的回归预测后果。图中红线示意的是自营商品,在 3000 以下的区间,价格越高,满意度反而降落,高于 3000 的区间中,价格越高,满意度越高。在非自营商品中,3000 以下的价格区间中,价格和满意度关系不显著,高于 3000 的价格区间中,价格越高,满意度越高。

从前文中,咱们发现价格低于 3000 的商品埋怨率最低的点在于便捷和应用高效,因而给人的感觉性价高,满意度较高,而价格靠近 3000 时,顾客对客服、物流、品质等预期更高,因而容易成为埋怨的重灾区。当价格靠近和高于 4000 时,商品的品牌、品质往往又失去保障,因而满意度又回升。


点击文末 “浏览原文”

获取全文残缺 代码和数据 材料。

本文选自《智能门锁“剁手”数据攻略》。

点击题目查阅往期内容

R 语言中的 LDA 模型:对文本数据进行主题模型 topic modeling 剖析 \
自然语言解决 NLP:主题 LDA、情感剖析疫情下的新闻文本数据 \
【视频】文本开掘:主题模型(LDA)及 R 语言实现剖析游记数据 \
NLP 自然语言解决—主题模型 LDA 案例:开掘人民网留言板文本数据 \
Python 主题建模 LDA 模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集 \
自然语言解决 NLP:主题 LDA、情感剖析疫情下的新闻文本数据 \
R 语言对 NASA 元数据进行文本开掘的主题建模剖析 \
R 语言文本开掘、情感剖析和可视化哈利波特小说文本数据 \
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例 \
用于 NLP 的 Python:应用 Keras 进行深度学习文本生成 \
长短期记忆网络 LSTM 在工夫序列预测和文本分类中的利用 \
用 Rapidminer 做文本开掘的利用:情感剖析 \
R 语言文本开掘 tf-idf, 主题建模,情感剖析,n-gram 建模钻研 \
R 语言对推特 twitter 数据进行文本情感剖析 \
Python 应用神经网络进行简略文本分类 \
用于 NLP 的 Python:应用 Keras 的多标签文本 LSTM 神经网络分类 \
R 语言文本开掘应用 tf-idf 剖析 NASA 元数据的关键字 \
R 语言 NLP 案例:LDA 主题文本开掘优惠券举荐网站数据 \
Python 应用神经网络进行简略文本分类 \
R 语言自然语言解决(NLP):情感剖析新闻文本数据 \
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例 \
R 语言对推特 twitter 数据进行文本情感剖析 \
R 语言中的 LDA 模型:对文本数据进行主题模型 topic modeling 剖析 \
R 语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation)R 语言对 NASA 元数据进行文本开掘的主题建模剖析 \
R 语言文本开掘、情感剖析和可视化哈利波特小说文本数据 \
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例 \
用于 NLP 的 Python:应用 Keras 进行深度学习文本生成 \
长短期记忆网络 LSTM 在工夫序列预测和文本分类中的利用 \
用 Rapidminer 做文本开掘的利用:情感剖析 \
R 语言文本开掘 tf-idf, 主题建模,情感剖析,n-gram 建模钻研 \
R 语言对推特 twitter 数据进行文本情感剖析 \
Python 应用神经网络进行简略文本分类 \
用于 NLP 的 Python:应用 Keras 的多标签文本 LSTM 神经网络分类 \
R 语言文本开掘应用 tf-idf 剖析 NASA 元数据的关键字 \
R 语言 NLP 案例:LDA 主题文本开掘优惠券举荐网站数据 \
Python 应用神经网络进行简略文本分类 \
R 语言自然语言解决(NLP):情感剖析新闻文本数据 \
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例 \
R 语言对推特 twitter 数据进行文本情感剖析 \
R 语言中的 LDA 模型:对文本数据进行主题模型 topic modeling 剖析 \
R 语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation)

正文完
 0