关于数据挖掘:R语言618电商大数据文本分析LDA主题模型可视化报告附代码数据

3次阅读

共计 2106 个字符,预计需要花费 6 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=1078

最近咱们被客户要求撰写对于文本剖析 LDA 主题模型的钻研报告,包含一些图形和统计输入。

618 购物狂欢节前后,网民较常搜寻的关键词在微博、微信、新闻三大渠道的互联网数据体现,同时通过剖析平台采集 618 相干媒体报道和消费者提及数据

社交媒体指数趋势察看

平台数据显示,5 月 30 日起,网上对于 618 的探讨显著热烈起来。5 月 30 日网上声量相干探讨的主贴有 3130 条,其中提及最多的是对于“零点,天猫打响 618 大战第一枪“、”天猫 618 掀价格战:大家电比京东贵我就赔!“内容的转发,从媒体源数据比照中可见,此话题在微信的传播速度稍快于微博。

数据显示,5 月 30 日至 6 月 6 日期间,消费者探讨最多的关键词、声量第一的是”天猫“,天猫以声量数 12275 位居 618 关键词搜寻榜首。而在 618 的网络声量中,天猫的相干探讨均占据了 40% 以上内容。

以微博为例,察看其用户沉闷群体以女性较多,次要来自一 / 二线城市,他们关注的话题大多为购物等话题,日常分享女装化妆品等话题偏多,品牌通过与微博的单干,更易匹配到指标人群。

洞察销售数据

不仅买家们剁手不可开交,卖家们也是八仙过海,花样百出。狂欢过后,感性的卖家逐步发现,在电商平台上,并不是俺们家所有的商品都能搭上六一八的便车。那么,六一八销量与哪些因素无关?商家应抉择怎么的促销策略?

为此,咱们采集了线上电商平台的销售数据。从销量来看,这些产品有的成为爆款,有的却无人问津,甚至约有 35.8% 的产品销量为零。另外,从价格来看,大部分卖家通过历年六一八曾经成为“老司机”,只管也采取促销流动,然而提价甚微(约有 84.9% 的产品提价不超过 10 元)。

从品类销售上来看,女士类产品销售较好,其中女鞋、女装都晋升显著。看来,剁手主力还是以女性消费者为主。


点击题目查阅往期内容

NLP 自然语言解决—主题模型 LDA 案例:开掘人民网留言板文本数据

左右滑动查看更多

01

02

03

04

另外,从价格来看,大部分卖家通过历年双十一曾经成为“老司机”,只管也采取促销流动,然而提价很少(约有 20% 的产品没有提价),从销量和提价的关系来看,通过提价来促销的成果甚微。

从不同维度的评分来看,消费者对卖家的服务态度称心水平最高,然而提价的幅度显然没有达到他们的预期。

女性消费者都喜爱买什么货色呢?通过简略的分词、词频统计,咱们可能发现,在双十一期间销售量 >0 的商品中,呈现了“冬季”、“清凉”这样的季节性词汇;同时,也有“新款”、“韩版”、“时尚”这样的样式热词。

机器学习促销策略 –LDA 主题模型

主题模型(topic modeling)是一种常见的机器学习利用,次要用于对文本进行分类。形象来说,主题就是一个桶,外面装了呈现概率较高的单词,这些单词与这个主题有很强的相关性。

如果机器能了解这个隐含语义,就能展现相应的广告——这样点击率会更高。在广告、搜寻和举荐中,最重要的问题之一就是了解用户趣味以及页面、广告、商品等的隐含语义。

通过对商品关键词应用 LDA 建模,咱们失去模型有 3 个主题,主题 1 对于材质(次要的词为麝皮、山羊绒等),主题 2 对于格调(次要的词为商务、韩版等),主题 3 对于色彩(次要的词为咖啡色、蓝色等)。通过机器了解的隐含语义,咱们就能展现相应的广告,从而进步点击率。

结语

不论是近期的“天猫 618”还是“京东 618 节”,泛滥电商巨头及品牌齐聚,正如马爸爸提出的,咱们都处在一个全新的批发时代,正在逐渐预感着生产需要的变动,在同质化重大的当下,如何走进消费者并博得关注是每个品牌都十分重要的课题。


点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《618 电商大数据分析可视化报告》。

点击题目查阅往期内容

Python 主题建模 LDA 模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集
自然语言解决 NLP:主题 LDA、情感剖析疫情下的新闻文本数据
R 语言对 NASA 元数据进行文本开掘的主题建模剖析
R 语言文本开掘、情感剖析和可视化哈利波特小说文本数据
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例
用于 NLP 的 Python:应用 Keras 进行深度学习文本生成
长短期记忆网络 LSTM 在工夫序列预测和文本分类中的利用
用 Rapidminer 做文本开掘的利用:情感剖析
R 语言文本开掘 tf-idf, 主题建模,情感剖析,n-gram 建模钻研
R 语言对推特 twitter 数据进行文本情感剖析
Python 应用神经网络进行简略文本分类
用于 NLP 的 Python:应用 Keras 的多标签文本 LSTM 神经网络分类
R 语言文本开掘应用 tf-idf 剖析 NASA 元数据的关键字
R 语言 NLP 案例:LDA 主题文本开掘优惠券举荐网站数据
Python 应用神经网络进行简略文本分类
R 语言自然语言解决(NLP):情感剖析新闻文本数据
Python、R 对小说进行文本开掘和档次聚类可视化剖析案例
R 语言对推特 twitter 数据进行文本情感剖析
R 语言中的 LDA 模型:对文本数据进行主题模型 topic modeling 剖析
R 语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation)

正文完
 0