关于数据挖掘:Weka数据挖掘Apriori关联规则算法分析用户网购数据

全文链接：http://tecdat.cn/?p=32150

原文出处：拓端数据部落公众号

随着大数据时代的降临，如何从海量的存储数据中发现有价值的信息或常识帮忙用户更好决策是一项十分艰巨的工作。数据挖掘正是为了满足此种需要而迅速倒退起来的，它是从大量的、不齐全的、有噪声的、含糊的、随机的数据中，提取隐含在其中的、人们当时不晓得的、但又是潜在的有用信息和常识的过程。因为大数据技术的倒退，批发企业能够利用互联网收集大量的销售数据，这些数据是一条条的购买事务信息，每条信息存储了销售事务的解决工夫，顾客所购买的商品、各种商品的数量以及价格等。如果对这些历史数据进行剖析，则能够对了解剖析顾客的购买行为提供有价值的信息。

数据建模

数据起源

本次剖析的数据来自电商网站交易数据文件。

指标选取

本次剖析一共选取了17个指标600个样本，别离是：ID号、均匀购物额度、购物总次数、交易胜利次数、信用等级、购物积分。

指标介绍

（1）ID号：购网网站上的网购客户ID ；

（2）均匀购物额度：网购客户均匀的网购服务的金额；

（3）购物总次数：网购客户的每个月购物次数；

（4）交易胜利次数：网购客户的交易胜利次数；

（5）信用等级：网购客户的购物信用等级；

（6）购物积分：网购客户购物的积分；

（7）Pincome：集体年收入（万元）

（8）Hincome：家庭年收入（万元）

（9）Age：年龄

（10）Gender：性别（0：女；1：男）

（11）Car：家庭领有汽车的数量

（12）Education：教育程度（1：初中及以下；2：高中；3：专科；4：本科；5：研究生）

（13）Job：工作类型（1：公司职员；2：工厂工人；3：公务员；4：个体；5：事业单位；6：其余）

（14）People：家里人口数量

（15）Children：家里未成年人数量

（16）Housing：屋宇领有类型（0：租房；1：买房）

（17）Area：屋宇居住面积（平方米）

数据审核

由上表，可得：本次剖析的数据都是无效的，不存在缺失值。

描述性统计量

由上表，可得：月服务、年龄、寓居工夫、支出、工作工夫、家庭人数、短途间隔、收费通信这8个变量的均值别离为：35.526、41.684、11.551、77.535、10.987、2.331、11.723、13.274，能够看出这8个连续性变量不存在量纲上的差别，因而在前面的剖析中，不须要进行标准化解决。同时，这8个变量之间存在较强的线性相关性，阐明变量之间存在重大的多重共线性，能够思考对变量进行降维后在进行剖析。

数据归一化

在进行分类之前，为打消量纲的差异，首先对属性进行归一化解决。

Weka数据挖掘流程

数据挖掘个别是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平庸过程，是一种决策反对过程。它实现的过程大抵可分为：问题定义、数据收集和预处理、数据挖掘、算法执行，以及后果的剖析和评估。

（1）问题定义

数据挖掘的目标是从海里数据中开掘无效信息，帮忙用户更好决策。因而，在数据挖掘之前需定义明确的开掘指标，明确数据挖掘目标。

（2）数据收集和数据预处理

数据筹备又可分为三个子步骤：数据收集、数据预处理和数据变换。数据收集是指收集所有与开掘业务对象相干的内部和外部数据，从获取的原始数据中，抉择出须要开掘的信息数据，建设开掘原始数据库。在建设的开掘原始数据库中，其数据可能是不齐全的、有噪声的、随机的、简单的，数据预处理数据就要对数据进行过滤，荡涤掉不齐全的、有噪声的数据，为下一步的剖析工作做筹备。数据转换是指格式化数据，并将其加载到适宜剖析的存储环境中，造成最终的开掘数据库。

（3）数据挖掘

算法执行阶段次要依据对问题的定义明确开掘的工作或目标，数据挖掘是指抉择适合的开掘算法，对转换过的数据库进行无效开掘，此阶段选好开掘算法是要害。

（4）后果剖析和评估

数据挖掘阶段发现的模式，通过评估，可能存在冗余或无关的模式，这时须要剔除；模式也有可能不满足用户要求，这时则须要整个发现过程回退到前一个阶段，如从新选取数据、采纳新的数据变换办法、设定新的参数值，甚至换一种算法等。

模型的理论利用

钻研数据阐明

本文数据来源于平台后盾数据库中历史交易信息，包含网购相干信息以及网购用户信息等。

通过数据筛选梳理，最终钻研的样本包含999条网购列表。其中，248审核未通过的有条；209条是网购放弃；542条成功网购，169条已还完网购。胜利交易总额达3090.93万元。

网购用户关联规定算法剖析设计

本文别离用Apriori算法对数据进行解决开掘，具体后果如下所示。

（1）Apriori算法

尽管 Apriori 算法能够间接开掘生成表中的交易数据集，然而为了关联开掘其余算法的须要先把交易数据集转换成剖析数据集，构建的数据流程图如图 1 所示。

图 1 商品关联规定 Apriori 算法开掘流图

关联规定模型Apriori模型参数设置

通过格局转换，设最低条件反对度为15%，最小规定置信度为30%，最大前项数为5，抉择专家模式，挖掘出最有价值的10条关联规定，如图所示。生成的10条规定如下所示：

 1. 交易胜利次数=1 469 ==> 购物总次数=1 465    <conf:(0.99)> lift:(1.06) lev:(0.05) [27] conv:(6.25) 2. 交易胜利次数=1 屋宇情况=1 423 ==> 购物总次数=1 419    <conf:(0.99)> lift:(1.06) lev:(0.04) [24] conv:(5.64) 3. 是否有小孩=1 屋宇情况=1 365 ==> 购物总次数=1 345    <conf:(0.95)> lift:(1.01) lev:(0.01) [4] conv:(1.16) 4. 是否有小孩=1 397 ==> 购物总次数=1 375    <conf:(0.94)> lift:(1.01) lev:(0.01) [4] conv:(1.15) 5. 屋宇情况=1 545 ==> 购物总次数=1 508    <conf:(0.93)> lift:(1) lev:(0) [0] conv:(0.96) 6. 购物总次数=1 是否有小孩=1 375 ==> 屋宇情况=1 345    <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.11) 7. 是否有小孩=1 397 ==> 屋宇情况=1 365    <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.1) 8. 购物总次数=1 560 ==> 屋宇情况=1 508    <conf:(0.91)> lift:(1) lev:(0) [0] conv:(0.97) 9. 交易胜利次数=1 469 ==> 屋宇情况=1 423    <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)10. 购物总次数=1 交易胜利次数=1 465 ==> 屋宇情况=1 419    <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)

剖析及倡议: 通过后果能够清晰的看到交易次数较多的顾客购物胜利次数比拟多，另外是否有小孩、是否有屋宇对顾客是否购物胜利次数也有关联，倡议网站能够加大对这些用户的举荐购买力度，由上述后果可知，同时购物且胜利的用户占总用户的的90%，有屋宇的用户胜利购物别离占总订单数的91%，有小孩的人有91%会网购，屋宇面积越大，网购次数越高，由此可见，屋宇、网购、是否有小孩、网购胜利次数这几个变量关联度较高，能够对这些用户进行广告策略投放，从而减少用户网购的成功率。

    Associator Model         Apriori    =======         Minimum support: 0.55 (330 instances)    Minimum metric <confidence>: 0.9    Number of cycles performed: 9         Generated sets of large itemsets:         Size of set of large itemsets L(1): 4         Size of set of large itemsets L(2): 5         Size of set of large itemsets L(3): 2

论断与瞻望

论断

数据挖掘中的关联规定侧重于不同对象之间的分割，本文探讨了关联规定开掘在用户网购策略中的利用。利用WEKA软件，通过实例剖析了频繁项集及关联规定生成的过程，采纳Apriori算法对数据别离进行了解析开掘，针对开掘后果提出了相应的倡议，对电商网站的倒退有着到重要的事实的意义。

最受欢迎的见解

1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%...)Python中的Apriori关联算法-市场购物篮剖析

2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)[](http://tecdat.cn/%e9%80%9a%e8%bf%87%e5%85%b3%e8%81%94%e8%a7%8...)R语言绘制生存曲线预计|生存剖析|如何R作生存曲线图

3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%...)[](http://tecdat.cn/%e5%9f%ba%e4%ba%8er%e7%9a%84fp%e6%a0%91fp-gr...)用关联规定数据挖掘摸索药物配伍中的法则

4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%...)通过Python中的Apriori算法进行关联规定开掘

5.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)用关联规定数据挖掘摸索药物配伍中的法则

6.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%ae...)采纳SPSS Modeler的Web简单网络对所有腧穴进行剖析

7.[](http://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8a...)R语言如何在生存剖析与COX回归中计算IDI，NRI指标

8.R语言如何找到患者数据中具备差别的指标？（PLS—DA剖析）

9.R语言中的生存剖析Survival analysis早期肺癌患者4例