全文链接:http://tecdat.cn/?p=30360

最近咱们被客户要求撰写对于网络购物的钻研报告,包含一些图形和统计输入。

随着网络的迅速倒退,依靠于网络的购物作为一种新型的生产形式,在全国乃至寰球范畴内飞速发展

电子商务成为越来越多消费者购物的重要途径。咱们被客户要求撰写对于网络购物行为的钻研报告。

我的项目打算应用数据挖掘的办法,以京东商城网购用户的网络购物数据为根底,对网络购物行为的三个因素:行为过程、行为后果、行为主体进行剖析。

(1)应用关联规定分析方法剖析网络购物用户的行为过程,别离探析信誉度、搜寻排名对网购用户购买决策的影响水平;

(2)应用聚类分析办法,对网购用户的行为后果进行探讨,发现不同网购群体的网购习惯和特色;

(3)应用分类/预测分析方法,对网购行为主体进行钻研。本我的项目还将援用其它钻研的数据及观点对本数据分析所得论断进行比拟验证。

本我的项目的论断为以京东商城为代表的网购平台运营商、商家提供网站治理、网店经营方面的参考,为商家制订网络营销策略提供决策反对。

关联规定开掘

  data1[,i]=as.factor(data1[,i])##将每个变量转成因子模式}inspect(frequentsets[1:10])#查看频繁项集

 从下面的表 能够看到局部频繁呈现的一些选项规定,抽取的10个频繁项集的反对度在0.3左右。

而后查看反对度最高的前10个规定

能够看到反对度最高的前十个选项汇合(称为频繁项集)的反对度在0.9左右,因而在上面应用apriori模型对数据进行剖析时,选取最小反对度为0.9左右,以便发现适合数量的规定。

set of 47 rules rule length distribution (lhs + rhs):sizes 1  2  311 24 12    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.  1.000   2.000   2.000   2.021   2.500   3.000 summary of quality measures:    support         confidence          lift       Min.   :0.9000   Min.   :0.9000   Min.   :0.9977  1st Qu.:0.9050   1st Qu.:0.9400   1st Qu.:1.0000  Median :0.9150   Median :0.9585   Median :1.0043  Mean   :0.9191   Mean   :0.9572   Mean   :1.0043  3rd Qu.:0.9300   3rd Qu.:0.9846   3rd Qu.:1.0083  Max.   :0.9850   Max.   :0.9945   Max.   :1.0141  mining info:  data ntransactions support confidence trans           200     0.9        0.3

咱们失去规定的概述,能够看到他们的反对度在0.9到0.98之间,置信度也十分高,阐明这些规定具备较高的的可预测度(Predictability)。因而从这些规定能够失去比拟牢靠的推断论断。置信度太低的规定在理论利用中也不会有多大用处。

从规定中剔除掉其余选项的规定后,咱们失去以上的规定,从以上规定,咱们能够看出网购用户大多通过论坛或者社区的弹窗信息进入网购的页面,他们在论坛中看到了某些用户的评论,并且通过弹窗信息进入购买,而他们抉择网购的起因也是因为评论真实性,看到了其余网购的用户教训从而影响他们的购买决策。

对规定进行可视化

plot(rules, method="grouped")

上图示意反对度和置信度的二维散点图,从上图来看,规定的置信度和反对度较高,大部分规定位于左上方,阐明规定大多有较高的置信度,具备较好的可信性。

上图示意规定前项和规定后项的分割,图中的点越大示意规定的反对度越高,能够看到规定中社区论坛进入购买页面和抉择网购起因是评论实在之间有较高的反对度。

上图是一个规定的网络图示意,箭头示意规定之间的递推关系。从上图咱们也能够直观地看到咱们失去的规定。


点击题目查阅往期内容

实现LDA主题模型剖析网购满意度数据

左右滑动查看更多

01

02

03

04

d=dist(data2)#对数据的样本求欧几里得间隔 hmod=hclust(d)#应用欧几里得间隔对样本进行档次聚类

从树状图的后果来看,应用高度为60左右对树状图进行横截,所有样本大抵能够分成4类。

cent <- rbind(cent, colMeans(data2[memb == k, , drop = FALSE]))#筛选出第4档次以上的样本}hc1 <- hclust(dist(cent)^2, method = "cen", members = table(memb))#从新对新样本进行档次聚类opar <- par(mfrow = c(1, 2))

上图是对树从新进行档次聚类的后果与原来树的比照,从右边 咱们能够i看到,树具备4个分支,因而能够认为样本大抵能够聚成4类。

kmeans聚类

fitted(kc);  #查看具体聚类状况  #聚类后果可视化  plot(data2[,c(1:20)], col = kc$cluster);  #不同的色彩代表不同的聚类后果。

上图示意不同问题选项之间样本的聚类状况,不同的色彩代表不同的样本,能够看到不同色彩的类别别离聚到了不同的类中,因而类别之间的辨别成果良好。

能够看到红色类用户的Q2,Q7,Q11得分较高Q4得分较低,Q21得分较高,蓝色用户Q10Q23的得分较高,彩色用户的得分散布比拟广泛,在每个问题中不同选项均有散布。绿色用户Q2,Q19得分较低,Q10的得分较高。

能够看到红色用户大多是年龄较大,4线城市的用户,接触网购不多,因而也不会应用手机电脑网络等形式进入网购页面。蓝色用户代表接触网购工夫较长的用户,他们进入网络页面的形式大多是搜索引擎,他们大多相熟网购操作,对本人须要的商品也比拟相熟,然而个别对网购不进行评论,除非对商品十分称心。绿色是年龄较小的用户,然而他们接触网络的工夫也较长,大多是青少年,因而接触新兴事物的趣味较大,因而他们的网购破费较低,然而网购的频率较高。

决策树

将Q30_总体而言,您对网购是否称心?的答案作为网购用户分类的分类指标属性,应用其余属性作为分类属性,对数据进行分类

draw.tree(CARTmodel)## 穿插验证的预计误差(“xerror”列),以及标准误差(“xstd”列),均匀相对误差=xerror±xstd printcp(CARTmodel)

> CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"][1] 0.04938272

依据最小误差的最小变异系数来对树进行剪枝。

失去剪枝后的决策树。

从决策树图来看 ,咱们能够发现问题的选项作为决策树的分支,别离将年龄,网购历史,网站购物次要看重的因素,喜爱的促销形式和网购破费作为决策条件,将样本分成了8个类别。

并应用决策树进行对样本的预测。

> table(pre,data2$Q30)#混同矩阵  pre  3  4  5  6  3 20  9  2  0  4  9 74  9  1  5  6 13 34  0  6  0  0  0  0

从混同矩阵的后果来看,对4个类别的预测成果较好,阐明模型的拟合成果良好。


点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R语言Apriori关联规定、kmeans聚类、决策树开掘钻研京东商城网络购物用户行为数据可视化》。

点击题目查阅往期内容

数据分享|Spss Modeler关联规定Apriori模型、Carma算法剖析超市顾客购买商品数据挖掘实例
数据分享|Python用Apriori算法关联规定剖析亚马逊购买书籍关联举荐客户和网络图可视化
【视频】关联规定模型、Apriori算法及R语言开掘商店交易数据与交互可视化|数据分享
R语言用关联规定和聚类模型开掘处方数据摸索药物配伍中的法则
用SPSS Modeler的Web简单网络对所有腧穴进行关联规定剖析
PYTHON在线批发数据关联规定开掘APRIORI算法数据可视化
R语言关联规定模型(Apriori算法)开掘杂货店的交易数据与交互可视化
R语言关联开掘实例(购物篮剖析)
python关联规则学习:FP-Growth算法对药品进行“菜篮子”剖析
基于R的FP树fp growth 关联数据挖掘技术在煤矿隐患治理
python关联规则学习:FP-Growth算法对药品进行“菜篮子”剖析
通过Python中的Apriori算法进行关联规定开掘
Python中的Apriori关联算法-市场购物篮剖析
R语言用关联规定和聚类模型开掘处方数据摸索药物配伍中的法则
在R语言中轻松创立关联网络
python主题建模可视化LDA和T-SNE交互式可视化
R语言工夫序列数据指数平滑法分析交互式动静可视化
用R语言制作交互式图表和地图
如何用r语言制作交互可视化报告图表