关于数据分析:基于-Oracle-的淘宝用户行为数据分析

11次阅读

共计 5037 个字符,预计需要花费 13 分钟才能阅读完成。

一、剖析背景

随着互联网时代下电商行业的一直倒退,电商市场日趋饱和,各电商平台的竞争进入了白热化阶段,针对用户行为的数据分析由此成为平台经营的重中之重。本文基于淘宝用户行为数据集,进行隐式反馈问题的钻研,从用户行为中获取用户需要,剖析用户情感,旨在用数据驱动产品优化。

二、数据起源

本文应用的数据来源于阿里云天池淘宝用户行为数据集

该数据集蕴含了 2017 年 11 月 25 日至 2017 年 12 月 3 日之间,有行为的约一百万随机用户的所有行为(行为包含点击、购买、加购、喜爱)。数据集的组织模式和 MovieLens-20M 相似,即数据集的每一行示意一条用户行为,由用户 ID、商品 ID、商品类目 ID、行为类型和工夫戳组成,并以逗号分隔。对于数据集中每一列的详细描述如下:

列名称 阐明
用户 ID 整数类型,序列化后的用户 ID
商品 ID 整数类型,序列化后的商品 ID
商品类目 ID 整数类型,序列化后的商品所属类目 ID
行为类型 字符串,枚举类型,包含(‘pv’, ‘buy’, ‘cart’, ‘fav’)
工夫戳 行为产生的工夫戳

其中,4 中行为类型别离代表:

行为类型 阐明
pv 商品详情页 pv,等价于点击
buy 商品购买
cart 将商品退出购物车
fav 珍藏商品

数据集蕴含近百万名用户(987994),波及超 416 万件商品(4162024),近万商品类别(9439),以及超 1 亿条用户行为(100150807)。

注:此局部内容援用自数据集介绍信息

三、剖析指标

本文目标是通过对淘宝用户行为数据进行剖析,发现用户的生产偏好,从而更好的领导商家进行获客和盈利,实现精细化经营。剖析思路如下:

四、数据荡涤

1. 数据导入

将下载的.csv 格式文件通过 PL/SQL 导入到数据库中,察看可得源数据 File Data 短少列名,在此为数据增加字段名称,并与提前创立好的表格 USER_BEHAVIOR 相匹配。

此处应留神将表格的工夫戳 TIME_STAMP 类型设置为 varchar,该数据是指从 1970 年 01 月 01 日 00 时 00 秒到用户行为产生那一秒的总秒数。在数据导入后,为不便接下来的剖析,利用 SQL 语句进行解决,别离转换成工夫格局的日期与准确时分秒,并存储在 CREATE_DATE、CREATE_TIME 两个栏位中。此时查问表中数据,展现如下图:

2. 反复值解决

在数据导入阶段,曾经疏忽掉了反复的数据,因而并不存在反复值。

3. 缺失值解决

利用 SQL 语句查问表中各字段值为空的数据,执行后结果显示为 0 条,因而不存在缺失值。

4. 异样值解决

依据数据集阐明,该表中数据均应处于 2017 年 11 月 25 日至 2017 年 12 月 3 日之间,利用 SQL 语句查问表中 CREATE_DATE 字段值在该范畴之外的数据,执行后结果显示为 257110 条,将这些异样数据删除。

5. 数据整合

通过以上几步的数据处理,失去最终用于剖析的数据集,利用 SQL 语句进行初步的统计,可知最新的数据集有 26061808 条数据,蕴含 257134 名用户在 9 天工夫里的 4 种行为类型(点击,加购物车,珍藏,购买),其中共波及 2467928 件商品与 8713 种商品类型。

五、用户剖析

1. 活跃度剖析

别离从日期和工夫两个方向,获取 PV、UV 指标进行活跃度剖析。利用 SQL 语句,筛选得出所需的 PV、UV 值,并利用 echarts 将数据以图表模式展示。

(1) 日期

思考到日期的周期性,将数据每 7 天分为 1 个周期,以便比照剖析。

这 9 天中,12 月 2 日与 3 日的 PV 和 UV 值相比于前 7 天,有显著的大幅度上涨。思考到这两日为周末,用户的空闲工夫较比工作日更多,应用人数会有肯定的减少。进一步剖析发现,同为周末的 11 月 25 日与 26 日,虽比照同一周期内工作日的 PV、UV 有轻微上涨,但仍远不迭 12 月 2 日与 3 日。因而认为 12 月 2 - 3 日的上涨可能与过后的营销流动无关,如店铺双十二的预热流动和商品预售。

(2) 工夫

思考到工夫的周期性,将数据依照 24h 制进行筛选,以便比照剖析。先利用 SQL 语句将工夫格式化,取得用户行为产生工夫的准确小时值,再依据小时进行 PV、UV 值的计算。

PV 的平均值为 1085908.67,UV 的平均值为 116351.88,在图片中以红色程度虚线进行标注。为不便进一步剖析,依据数据别离计算出各时间段较前一小时的环比增长速度如下图。


① 察看 PV、UV 值的柱形图,发现 9 点当前的 PV 和 UV 均在各自的平均值以上,可知绝大多数用户的睡眠工夫完结在早 9 点之前,并在此之后开始应用 APP。由此倡议,签到等工夫方面有规定的上午流动,应尽量布局在 9 点当前完结,从而取得更多的参加用户。

② 察看 PV、UV 值的柱形图,从 10 点到 18 点,UV 值大抵处于一个较高的安稳阶段,阐明大部分用户在此时间段内均有 APP 应用行为。但依据程度绝对较低的 PV 值可得,在该时间段内,用户受工作、学习影响,人均商品浏览量不高。通过观察该时间段内 PV、UV 环比的稳定幅度也能得出,在工作与学习时间段内,APP 用户数量放弃在较平缓状态,但 PV 值所能反映出的人均商品浏览量会随着午休的开始与完结等产生较大的稳定。

③ 察看 PV、UV 值的柱形图,从 19 点到 22 点是用户的应用高峰期,PV 与 UV 值都处于 24h 内的较高水平,可知,绝大多数用户的休闲娱乐工夫在 19 点至 22 点。由此倡议,APP 内的次要流动应尽量布局在此时间段内,从而取得更多的参加用户。

④ 察看 PV、UV 值的柱形图,23 点的 PV、UV 值呈现显著的降落,阐明较多用户抉择在 23 点前进入劳动状态。察看该时间段内 PV、UV 环比增长速率值,发现在 22 点最先呈现 PV、UV 环比的负增长状态,并从 23 点开始更为显著的降落,在凌晨 1 点达到环比负增长速率的峰值,阐明大部分用户抉择在凌晨 1 点前进入劳动状态。这样的负增长继续到凌晨 4 点,此时的 PV、UV 值也升高至最低点。

2. 用户行为剖析

利用 SQL 语句,创立用户行为视图,依据用户 id,别离统计其在数据集提供的 9 天之内的 4 种用户行为数量(点击、珍藏、加购物车、购买),创立好的视图构造如下图所示:

统计用户 4 种行为的总数并制作漏斗图,发现从点击到购买的转化率只有 2.24%,散失重大。
为此进行用户行为的路径分析,确定用户从点击到购买 / 散失的流程数据。
依据数据集提供参数,得出以下 4 种用户购买门路:

① pv -> buy
② pv -> fav -> buy
③ pv -> cart -> buy
④ pv -> fav,cart -> buy

利用 SQL 语句,统计出不同行为门路波及到的对应具体数据:

创立用户购物门路视图,创立好的视图构造如下图所示,并在创立好的视图内按条件进行查找。

依据获取到的数据,绘制出对应的漏斗图:




察看发现,在购买转化率上,点击后间接购买的转化率仅为 1.329%,显著低于其余三种购买门路,珍藏后购买的转化率为 7.513%,加购后购买的转化率为 9.692%,而既加购又珍藏的购买转化率更是达到了 15.881%。阐明,比照珍藏这一行为,更多用户喜爱将购物车作为最终购买的商品池,通过将商品放入购物车,能够防止在想要购买时从新搜查,使得用户购买志愿进步。由此倡议,更多进行跨店满减、珍藏加购送赠品、提前加购享折扣等流动,疏导用户的珍藏加购行为,从而进步购买转化率。

察看点击的非跳出转化率,发现更多的人抉择加购行为,达到最高的 3.724%,其次是珍藏,达到了 1.674%。从总体上来看,跳出率过高,反映出淘宝用户尽管 pv 值高,人均商品浏览量可观,但转化率较低,有很大的晋升空间,能够通过欠缺商品详情页、做好售后减少好评等形式,进步用户的购买志愿。

3. 用户价值剖析

依据数据集提供的参数,进行用户的 RFM 模型剖析,进行用户的价值剖析。
最近一次生产工夫 (Recency):本文定义为用户最近一次购买工夫到 12 月 3 日的差值。
肯定工夫内生产频率 (Frequency):本文定义为用户在 9 天内的购物次数。
肯定工夫内累计生产金额 (Monetary):因为数据集并未提供该数据,疏忽此参数。
创立用户机制剖析视图,创立好的视图构造如下图所示,失去计算出的 R、F 值。

依据构建的表格,失去 max(R)为 8,min(R)为 0,max(F)为 159,min(F)为 1,以此进行评分体系构建。首先绘制不同购物频次(F)、不同最近生产工夫人数折线图如下图。(事实业务中,对于用户下单频次过低等购买行为,应需进行异样检测,此处忽略不计)


由图表可知,在 9 天之内,购物频次 F 为 1 的用户数量最多,达到了 59724 人,随后出现急速降落趋势,从 F=10 开始趋于平缓,可知,绝大多数用户的 F 值在 10 以内,评分标准应在此范畴内做具体划分。而 R 值则绝对更为平缓,用户的最近一次购物工夫,受到上文所揣测的流动影响,更多散布在 12 月 1 日至 12 月 3 日。因而设计评分细则如下表所示:

分数 最近一次生产工夫距离 R 生产频率 F
1 7-8 1- 3 次
2 5-6 4- 6 次
3 3-4 7- 9 次
4 1-2 10-20 次
5 1 天以内 20 次以上

依照上述打分规范,给与用户进行评分,创立用户得分视图,创立好的视图构造如下图所示。进而利用语句 avg(R_score)、avg(F_score),计算出 R 值均匀得分为 3.515,F 值均匀得分为 1.391。

将用户的 F、R 两个维度得分与计算失去的均值进行比照,进而分出 4 类价值用户:① F、R 都超过均值的重要价值用户 ② 只有 R 值超过均值的重要倒退用户 ③ 只有 F 值超过均值的重要放弃用户 ④ F、R 值都没有超过均值的重要挽留用户。依据条件,进行用户价值类别筛选,后果如下:

依据用户分类筛选后果,绘制饼图如下,重要价值用户有 37173 人,占比 21.24%,重要倒退用户有 63596 人,占比 36.33%,重要放弃用户有 10823 人,占比 6.18%,重要挽留用户有 63451 人,占比 36.25%。用户次要集中在重要倒退和重要挽留两个类别。针对不同价值类型的用户,能够采取不同的营销措施。

六、总结

1. 用户活跃度剖析:

① 用户在周末的活跃度比工作日要高,从周五开始,PV、UV 值逐步攀升,并在周一后骤降。

② 大多数用户的睡眠工夫完结在早 9 点之前,并在此之后开始应用 APP。由此倡议,签到等工夫方面有规定的上午流动,应尽量布局在 9 点当前完结,从而取得更多的参加用户。

③ 19 点到 22 点是用户的活跃度高峰期。由此倡议,APP 内的次要流动应尽量布局在此时间段内,从而取得更多的参加用户。

④ 较多用户抉择在 23 点前进入劳动状态,22 点最先呈现 PV、UV 环比的负增长状态,并从 23 点开始更为显著的降落,在凌晨 1 点达到环比负增长速率的峰值,阐明大部分用户抉择在凌晨 1 点前进入劳动状态。由此倡议,零点秒杀等夜间流动,尽量管制在 1 点前完结,以便维持用户的流动参加激情。

2. 用户行为剖析:

① 从点击到购买的转化率较低,只有 2.24%,散失重大。倡议优化商品详情页,在做到排版清晰、好看的同时,也要思考加载速度问题,防止上传较大的图片与视频,从而进步用户的浏览体验,升高详情页面跳出率。进步商品质量,做好售后服务,取得更多的用户好评或者被动邀请用户进行评论反馈,升高评论页面跳出率。

② 用户在点击 → 加购物车 → 购买、点击 → 珍藏 → 购买、点击 → 珍藏并加购 → 购买这三个流程的购买转化率都显著大于点击 → 购买的购买转化率。由此倡议,更多进行跨店满减、珍藏加购送赠品、提前加购享折扣等流动,疏导用户的珍藏加购行为,从而进步购买转化率。

③ 优化举荐算法和搜素关键词商品匹配,优先举荐用户的珍藏与加购商品,进步用户购买欲望。

3. 用户价值剖析:

① 重要价值用户有 37173 人,占比 21.24%,重要倒退用户有 63596 人,占比 36.33%,重要放弃用户有 10823 人,占比 6.18%,重要挽留用户有 63451 人,占比 36.25%。用户次要集中在重要倒退和重要挽留两个类别。针对不同价值类型的用户,采取不同的营销措施。

② 重要价值用户:属于用户群体中的优质用户,能够针对性进行社群经营,发放特地福利,提供更优质的服务等,持续进步顾客满意度。如近期的 88vip 会员机制。

③ 重要放弃用户:购物次数达到均值以上程度,但近期没有购买行为,能够针对性启用用户召回机制,发送 app 流动揭示与音讯慰问,发送关注商户的上新揭示,发送关注商品的提价揭示等。

④ 重要倒退用户:近期有购买行为,但总体购买次数低于均值,能够依据用户购物偏好和用户根本画像进行商品举荐,发放优惠券等,进步用户购买志愿。

⑤ 重要挽留用户:最近一次购买工夫较远,购买率低,潜在有价值顾客,应给予用户关心,保护好用户关系。

正文完
 0