全文链接:http://tecdat.cn/?p=30360
最近咱们被客户要求撰写对于网络购物的钻研报告,包含一些图形和统计输入。
随着网络的迅速倒退,依靠于网络的购物作为一种新型的生产形式,在全国乃至寰球范畴内飞速发展
电子商务成为越来越多消费者购物的重要途径。咱们被客户要求撰写对于网络购物行为的钻研报告。
我的项目打算应用数据挖掘的办法, 以京东商城网购用户的网络购物数据为根底, 对网络购物行为的三个因素:行为过程、行为后果、行为主体进行剖析。
(1)应用关联规定分析方法剖析网络购物用户的行为过程, 别离探析信誉度、搜寻排名对网购用户购买决策的影响水平;
(2)应用聚类分析办法, 对网购用户的行为后果进行探讨, 发现不同网购群体的网购习惯和特色;
(3)应用分类 / 预测分析方法, 对网购行为主体进行钻研。本我的项目还将援用其它钻研的数据及观点对本数据分析所得论断进行比拟验证。
本我的项目的论断为以京东商城为代表的网购平台运营商、商家提供网站治理、网店经营方面的参考, 为商家制订网络营销策略提供决策反对。
关联规定开掘
data1[,i]=as.factor(data1[,i])## 将每个变量转成因子模式
}
inspect(frequentsets[1:10])# 查看频繁项集
从下面的表 能够看到局部频繁呈现的一些选项规定,抽取的 10 个频繁项集的反对度在 0.3 左右。
而后查看反对度最高的前 10 个规定
能够看到反对度最高的前十个选项汇合(称为频繁项集)的反对度在 0.9 左右,因而在上面应用 apriori 模型对数据进行剖析时,选取最小反对度为 0.9 左右,以便发现适合数量的规定。
set of 47 rules
rule length distribution (lhs + rhs):sizes
1 2 3
11 24 12
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 2.000 2.000 2.021 2.500 3.000
summary of quality measures:
support confidence lift
Min. :0.9000 Min. :0.9000 Min. :0.9977
1st Qu.:0.9050 1st Qu.:0.9400 1st Qu.:1.0000
Median :0.9150 Median :0.9585 Median :1.0043
Mean :0.9191 Mean :0.9572 Mean :1.0043
3rd Qu.:0.9300 3rd Qu.:0.9846 3rd Qu.:1.0083
Max. :0.9850 Max. :0.9945 Max. :1.0141
mining info:
data ntransactions support confidence
trans 200 0.9 0.3
咱们失去规定的概述,能够看到他们的反对度在 0.9 到 0.98 之间,置信度也十分高,阐明这些规定具备较高的的可预测度(Predictability)。因而从这些规定能够失去比拟牢靠的推断论断。置信度太低的规定在理论利用中也不会有多大用处。
从规定中剔除掉其余选项的规定后,咱们失去以上的规定,从以上规定,咱们能够看出网购用户大多通过论坛或者社区的弹窗信息进入网购的页面,他们在论坛中看到了某些用户的评论,并且通过弹窗信息进入购买,而他们抉择网购的起因也是因为评论真实性,看到了其余网购的用户教训从而影响他们的购买决策。
对规定进行可视化
plot(rules, method="grouped")
上图示意反对度和置信度的二维散点图,从上图来看,规定的置信度和反对度较高,大部分规定位于左上方,阐明规定大多有较高的置信度,具备较好的可信性。
上图示意规定前项和规定后项的分割,图中的点越大示意规定的反对度越高,能够看到规定中社区论坛进入购买页面和抉择网购起因是评论实在之间有较高的反对度。
上图是一个规定的网络图示意,箭头示意规定之间的递推关系。从上图咱们也能够直观地看到咱们失去的规定。
点击题目查阅往期内容
实现 LDA 主题模型剖析网购满意度数据
左右滑动查看更多
01
02
03
04
d=dist(data2)# 对数据的样本求欧几里得间隔
hmod=hclust(d)# 应用欧几里得间隔对样本进行档次聚类
从树状图的后果来看,应用高度为 60 左右对树状图进行横截,所有样本大抵能够分成 4 类。
cent <- rbind(cent, colMeans(data2[memb == k, , drop = FALSE]))# 筛选出第 4 档次以上的样本
}
hc1 <- hclust(dist(cent)^2, method = "cen", members = table(memb))# 从新对新样本进行档次聚类
opar <- par(mfrow = c(1, 2))
上图是对树从新进行档次聚类的后果与原来树的比照,从右边 咱们能够 i 看到,树具备 4 个分支,因而能够认为样本大抵能够聚成 4 类。
kmeans 聚类
fitted(kc); #查看具体聚类状况
#聚类后果可视化
plot(data2[,c(1:20)], col = kc$cluster); #不同的色彩代表不同的聚类后果。
上图示意不同问题选项之间样本的聚类状况,不同的色彩代表不同的样本,能够看到不同色彩的类别别离聚到了不同的类中,因而类别之间的辨别成果良好。
能够看到红色类用户的 Q2,Q7,Q11 得分较高 Q4 得分较低,Q21 得分较高,蓝色用户 Q10Q23 的得分较高,彩色用户的得分散布比拟广泛,在每个问题中不同选项均有散布。绿色用户 Q2,Q19 得分较低,Q10 的得分较高。
能够看到红色用户大多是年龄较大,4 线城市的用户,接触网购不多,因而也不会应用手机电脑网络等形式进入网购页面。蓝色用户代表接触网购工夫较长的用户,他们进入网络页面的形式大多是搜索引擎,他们大多相熟网购操作,对本人须要的商品也比拟相熟,然而个别对网购不进行评论,除非对商品十分称心。绿色是年龄较小的用户,然而他们接触网络的工夫也较长,大多是青少年,因而接触新兴事物的趣味较大,因而他们的网购破费较低,然而网购的频率较高。
决策树
将 Q30_总体而言,您对网购是否称心?的答案作为网购用户分类的分类指标属性,应用其余属性作为分类属性,对数据进行分类
draw.tree(CARTmodel)
## 穿插验证的预计误差(“xerror”列),以及标准误差(“xstd”列),均匀相对误差 =xerror±xstd
printcp(CARTmodel)
> CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"]
[1] 0.04938272
依据最小误差的最小变异系数来对树进行剪枝。
失去剪枝后的决策树。
从决策树图来看,咱们能够发现问题的选项作为决策树的分支,别离将年龄,网购历史,网站购物次要看重的因素,喜爱的促销形式和网购破费作为决策条件,将样本分成了 8 个类别。
并应用决策树进行对样本的预测。
> table(pre,data2$Q30)# 混同矩阵
pre 3 4 5 6
3 20 9 2 0
4 9 74 9 1
5 6 13 34 0
6 0 0 0 0
从混同矩阵的后果来看,对 4 个类别的预测成果较好,阐明模型的拟合成果良好。
点击文末 “浏览原文”
获取全文残缺代码数据资料。
本文选自《R 语言 Apriori 关联规定、kmeans 聚类、决策树开掘钻研京东商城网络购物用户行为数据可视化》。
点击题目查阅往期内容
数据分享 |Spss Modeler 关联规定 Apriori 模型、Carma 算法剖析超市顾客购买商品数据挖掘实例
数据分享 |Python 用 Apriori 算法关联规定剖析亚马逊购买书籍关联举荐客户和网络图可视化
【视频】关联规定模型、Apriori 算法及 R 语言开掘商店交易数据与交互可视化 | 数据分享
R 语言用关联规定和聚类模型开掘处方数据摸索药物配伍中的法则
用 SPSS Modeler 的 Web 简单网络对所有腧穴进行关联规定剖析
PYTHON 在线批发数据关联规定开掘 APRIORI 算法数据可视化
R 语言关联规定模型 (Apriori 算法) 开掘杂货店的交易数据与交互可视化
R 语言关联开掘实例(购物篮剖析)
python 关联规则学习:FP-Growth 算法对药品进行“菜篮子”剖析
基于 R 的 FP 树 fp growth 关联数据挖掘技术在煤矿隐患治理
python 关联规则学习:FP-Growth 算法对药品进行“菜篮子”剖析
通过 Python 中的 Apriori 算法进行关联规定开掘
Python 中的 Apriori 关联算法 - 市场购物篮剖析
R 语言用关联规定和聚类模型开掘处方数据摸索药物配伍中的法则
在 R 语言中轻松创立关联网络
python 主题建模可视化 LDA 和 T -SNE 交互式可视化
R 语言工夫序列数据指数平滑法分析交互式动静可视化
用 R 语言制作交互式图表和地图
如何用 r 语言制作交互可视化报告图表