关于数据挖掘:数据建模实战Smartbi带你玩转购物篮分析

44次阅读

共计 1317 个字符,预计需要花费 4 分钟才能阅读完成。

​购物篮剖析是一个十分重要的模型,对于啤酒与尿布的故事,这个故事很好地解释了商品关联性的作用,时至今日,仍有很强的事实指导意义。这种数据,将不同商品关联起来,并开掘二者之间分割的分析方法,就叫作“购物篮剖析”。购物篮剖析的实现办法有很多,上面教一下大家如何去制作一个残缺的购物篮分析模型。

一、前言:

在开始制作前,先来了解一下它的价值在哪。购物篮剖析的实质是钻研商品与商品间的关联关系,比方剖析 A 商品和哪个商品搭配会卖的更好,或者剖析客户在购买了 A 商品之后,对 B 商品会产生什么影响等等。通过这种穿插剖析,咱们便能够对客户感兴趣的商品组合去做出相应的调整,或者据此去深入研究更高层次的举荐算法。

先来了解以下三个概念,反对度指同时被购买的概率,用公式则示意反对度 = 同时购买 A 和 B 订单数 / 总购买订单数;置信度是指购买 A 之后又购买 B 的条件概率,用公式示意就是置信度;晋升度指的是先购买 A 对购买 B 的晋升作用,用公式示意就是晋升度 ((购买 A 次数)*(购买 B 次数))。可看下图阐明,加深了解:

二、购物篮剖析步骤:

需先筹备对于批发行业的数据源,蕴含单据编码、商品名称等信息,能够在文末进行获取。如果用 Excel 做购物篮剖析,难度会很大,倡议用其余工具进行制作,本文抉择用 SQL 语句的形式去制作:

第一步,新建长期表,进行穿插关联,为每一组穿插商品减少一列总订单数的字段,表命名为 t1:

执行语句后,可得出以下 4 个字段:

第二步,新建长期表 t2,再次进行穿插关联,算出同时购买 A 商品与 B 商品的订单数:

执行后,可得出:

第三步,把 t1 与 t2 两个长期表的字段进行关联:

执行语句后,可得出以下 4 个字段:

第四步,新建 t4,算出 A 订单数:

执行语句后,可得出以下 2 个字段:

第五步,新建长期表 t5,算出 B 订单数:

执行语句后,可得出以下 2 个字段:

最初一步,依据反对度、置信度与晋升度的公式,以及咱们得出的数据,便可运算了。依据 t3 表里‘’同时购买 A 和 B 订单数‘’与‘’总订单数‘’这两个字段,咱们能够算出反对度的数据。依据 t3 表里‘’同时购买 A 和 B 订单数‘’与 t4 表里‘’A 商品订单数‘’这两个字段,咱们能够算出置信度的数据。同理,利用‘’同时购买 A 和 B 订单数‘’、‘’购买 A 订单数‘’、‘’购买 B 订单数‘’与‘’总订单数‘’这几个字段,咱们最初就能够得出晋升度的数据了。

最初得出的后果如下:

三、后续倡议:

从下面的过程来看,咱们可得出制作购物篮的过程很简单。为了对数据建模以及多维分析有更深的意识,小编举荐大家利用智剖析的数据模型去制作购物篮剖析,智剖析的数据模型具备十分弱小的多维分析能力,不仅反对自助取数,还反对 SQL、MDX 等高阶的查问语法。智剖析的数据源接口同样也很丰盛,能够连贯各种数据库,也能够以 Excel 文件导入的形式进行导入:

进入数据模型的界面后,便能够开始搭建购物篮剖析的数据模型了,这里仍然是抉择旧办法,新建一个 SQL 查问,依照步骤便可得出数据:

数据模型搭建后,便可对购物篮剖析的数据更为清晰地出现进去,仪表盘便可进行高级操作,非常适合展现购物篮剖析、RFM 剖析、ABC 剖析等数据模型:

PS:上方提及的材料,关注公众号【思迈特 Smartbi】后私信便可获取。

正文完
 0