全文链接:http://tecdat.cn/?p=32118
原文出处:拓端数据部落公众号
如果你有一个购物类的网站,那么你如何给你的客户来举荐产品呢?这个性能在很多电商类网站都有,那么,通过 SQL Server Analysis Services 的数据挖掘性能,你也能够轻松的来构建相似的性能。
将分为三个局部来演示如何实现这个性能。
此篇文章演示了如何帮忙客户应用 SQL Server Analysis Services 基于此问题来构建简略的开掘模型。
步骤
筹备工作:数据.xls 数据导入数据库中。
筹备工作:数据.xls 数据导入数据库中。
在相应数据库中找到对应的数据
(1)关上 visual studio,新建我的项目,抉择商业智能我的项目,analysis services 我的项目
将 data-mining 数据库中的数据导入数据源
在可用对象中,将要剖析数据所在表增加到蕴含的对象中,持续下一步
在解决方案资源管理器中,右键单击开掘构造,抉择新建开掘构造
抉择 microsoft 决策树,持续下一步
设置测试集和训练集
勾选容许钻取,实现
而后对模型进行部署,继而进行开掘(点击运行)
决策树模型
以下咱们对电商购物网站的用户的信用等级进行预测,应用其余用户的特色属性对其进行预测分类。建设如下的决策树模型。
从决策树模型的后果来看,
树一共有 5 个分支。其中重要节点别离为购物积分、家里人口数、居住面积、居住面积等。
从图中能够看到购物积分越高的用户,决策树失去的用户信用等级越高。同时家里人口数越多,则信用等级也越高。阐明购物积分间接影响着信用等级。个别购物次数越多则买家的信用越高。同时家里人口数越多,则该用户在网上购物的开销越多。因而会导致网上购物越多,最初导致信用减少。
而后能够看到依赖网络。依赖网络图是指预测变量和其余变量间接的依赖性。从图中能够看到在用户属性中,几个属性会影响信用等级,包含购物积分、次数、居住面积以及人口数量。
聚类
从聚类后果能够看到,聚类将所有用户分成了 10 个信用级别。
从不同类别的依赖图能够看到,类别 10、4、8、5 之间具备较强的相干关系。阐明这几个类别中的信用级别是相似的。上面能够具体看下每个类别中的各个属性的散布的比例。
从上图能够看到不同类别的购物积分是不同的。
总的来看,相对来说,第 4 和 7 类别的购物积分最小的,其余几个类别中积分较高,因而能够认为这些类别中的用户的信用级别较高。同时能够看到这些类别的其余信息,这类用户的月支出较低,购物次数也较小。同时能够看到,这类用户大多的交易胜利也较少。另一方面,能够看到低购物积分用户中,家庭人口数也较小。
从每个类别的偏向水平来看,购物总次数多的用户交易胜利次数也高。从另一方面来看,月支出较高的用户,偏向于是非分类 1 的用户,也就是它们的信用等级较好。同时能够看到,户交易胜利次数多喝购物积分高的用户偏向于非分类 1 的用户。阐明用户的信用等级绝对较高。另一方面,能够看到领有屋宇的用户的交易胜利次数 电商网站购物次数反而低于没有屋宇的用户,可能是因为没有屋宇的用户年龄段较低,因而更偏向于网络购物。
而后建设关联规定开掘模型
运行关联规定 失去以下重要的关联规定
关联规定就是发现数据集中互相有关联的我的项目。它曾经成为数据挖掘畛域中具备重要影响的一种算法。也是数据挖掘畛域的一个重要分支。最近几年曾经被宽泛的利用。在电子商务畛域,关联规定技术次要用于物品链接页面等的举荐,它只须要购物记录的数据即可,而不须要过多的商品信息,通过关联规定能够发现用户的一些常见的购物模式和购物法则。找出用户通常会一起购买的商品。从而对用户进行举荐和开掘
最受欢迎的见解
1.PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和 KMEANS 聚类用户画像
2. R 语言基于树的办法:决策树,随机森林
3.python 中应用 scikit-learn 和 pandas 决策树
4. 机器学习:在 SAS 中运行随机森林数据分析报告
5. R 语言用随机森林和文本开掘进步航空公司客户满意度
6. 机器学习助推快时尚精准销售工夫序列
7. 用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用
8.python 机器学习:举荐零碎实现(以矩阵合成来协同过滤)
9.python 中用 pytorch 机器学习分类预测银行客户散失