一、剖析背景
随着互联网时代下电商行业的一直倒退,电商市场日趋饱和,各电商平台的竞争进入了白热化阶段,针对用户行为的数据分析由此成为平台经营的重中之重。本文基于淘宝用户行为数据集,进行隐式反馈问题的钻研,从用户行为中获取用户需要,剖析用户情感,旨在用数据驱动产品优化。
二、数据起源
本文应用的数据来源于阿里云天池淘宝用户行为数据集
该数据集蕴含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包含点击、购买、加购、喜爱)。数据集的组织模式和MovieLens-20M相似,即数据集的每一行示意一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和工夫戳组成,并以逗号分隔。对于数据集中每一列的详细描述如下:
列名称 | 阐明 |
---|---|
用户ID | 整数类型,序列化后的用户ID |
商品ID | 整数类型,序列化后的商品ID |
商品类目ID | 整数类型,序列化后的商品所属类目ID |
行为类型 | 字符串,枚举类型,包含('pv', 'buy', 'cart', 'fav') |
工夫戳 | 行为产生的工夫戳 |
其中,4中行为类型别离代表:
行为类型 | 阐明 |
---|---|
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品退出购物车 |
fav | 珍藏商品 |
数据集蕴含近百万名用户(987994),波及超416万件商品(4162024),近万商品类别(9439),以及超1亿条用户行为(100150807)。
注:此局部内容援用自数据集介绍信息
三、剖析指标
本文目标是通过对淘宝用户行为数据进行剖析,发现用户的生产偏好,从而更好的领导商家进行获客和盈利,实现精细化经营。剖析思路如下:
四、数据荡涤
1. 数据导入
将下载的.csv格式文件通过PL/SQL导入到数据库中,察看可得源数据File Data短少列名,在此为数据增加字段名称,并与提前创立好的表格USER_BEHAVIOR相匹配。
此处应留神将表格的工夫戳TIME_STAMP类型设置为varchar,该数据是指从1970年01月01日00时00秒到用户行为产生那一秒的总秒数。在数据导入后,为不便接下来的剖析,利用SQL语句进行解决,别离转换成工夫格局的日期与准确时分秒,并存储在CREATE_DATE、CREATE_TIME两个栏位中。此时查问表中数据,展现如下图:
2. 反复值解决
在数据导入阶段,曾经疏忽掉了反复的数据,因而并不存在反复值。
3. 缺失值解决
利用SQL语句查问表中各字段值为空的数据,执行后结果显示为0条,因而不存在缺失值。
4. 异样值解决
依据数据集阐明,该表中数据均应处于2017年11月25日至2017年12月3日之间,利用SQL语句查问表中CREATE_DATE字段值在该范畴之外的数据,执行后结果显示为257110条,将这些异样数据删除。
5. 数据整合
通过以上几步的数据处理,失去最终用于剖析的数据集,利用SQL语句进行初步的统计,可知最新的数据集有26061808条数据,蕴含257134名用户在9天工夫里的4种行为类型(点击,加购物车,珍藏,购买),其中共波及2467928件商品与8713种商品类型。
五、用户剖析
1. 活跃度剖析
别离从日期和工夫两个方向,获取PV、UV指标进行活跃度剖析。利用SQL语句,筛选得出所需的PV、UV值,并利用echarts将数据以图表模式展示。
(1) 日期
思考到日期的周期性,将数据每7天分为1个周期,以便比照剖析。
这9天中,12月2日与3日的PV和UV值相比于前7天,有显著的大幅度上涨。思考到这两日为周末,用户的空闲工夫较比工作日更多,应用人数会有肯定的减少。进一步剖析发现,同为周末的11月25日与26日,虽比照同一周期内工作日的PV、UV有轻微上涨,但仍远不迭12月2日与3日。因而认为12月2-3日的上涨可能与过后的营销流动无关,如店铺双十二的预热流动和商品预售。
(2) 工夫
思考到工夫的周期性,将数据依照24h制进行筛选,以便比照剖析。先利用SQL语句将工夫格式化,取得用户行为产生工夫的准确小时值,再依据小时进行PV、UV值的计算。
PV的平均值为1085908.67,UV的平均值为116351.88,在图片中以红色程度虚线进行标注。为不便进一步剖析,依据数据别离计算出各时间段较前一小时的环比增长速度如下图。
① 察看PV、UV值的柱形图,发现9点当前的PV和UV均在各自的平均值以上,可知绝大多数用户的睡眠工夫完结在早9点之前,并在此之后开始应用APP。由此倡议,签到等工夫方面有规定的上午流动,应尽量布局在9点当前完结,从而取得更多的参加用户。
② 察看PV、UV值的柱形图,从10点到18点,UV值大抵处于一个较高的安稳阶段,阐明大部分用户在此时间段内均有APP应用行为。但依据程度绝对较低的PV值可得,在该时间段内,用户受工作、学习影响,人均商品浏览量不高。通过观察该时间段内PV、UV环比的稳定幅度也能得出,在工作与学习时间段内,APP用户数量放弃在较平缓状态,但PV值所能反映出的人均商品浏览量会随着午休的开始与完结等产生较大的稳定。
③ 察看PV、UV值的柱形图,从19点到22点是用户的应用高峰期,PV与UV值都处于24h内的较高水平,可知,绝大多数用户的休闲娱乐工夫在19点至22点。由此倡议,APP内的次要流动应尽量布局在此时间段内,从而取得更多的参加用户。
④ 察看PV、UV值的柱形图,23点的PV、UV值呈现显著的降落,阐明较多用户抉择在23点前进入劳动状态。察看该时间段内PV、UV环比增长速率值,发现在22点最先呈现PV、UV环比的负增长状态,并从23点开始更为显著的降落,在凌晨1点达到环比负增长速率的峰值,阐明大部分用户抉择在凌晨1点前进入劳动状态。这样的负增长继续到凌晨4点,此时的PV、UV值也升高至最低点。
2. 用户行为剖析
利用SQL语句,创立用户行为视图,依据用户id,别离统计其在数据集提供的9天之内的4种用户行为数量(点击、珍藏、加购物车、购买),创立好的视图构造如下图所示:
统计用户4种行为的总数并制作漏斗图,发现从点击到购买的转化率只有2.24%,散失重大。
为此进行用户行为的路径分析,确定用户从点击到购买/散失的流程数据。
依据数据集提供参数,得出以下4种用户购买门路:
① pv -> buy
② pv -> fav -> buy
③ pv -> cart -> buy
④ pv -> fav,cart -> buy
利用SQL语句,统计出不同行为门路波及到的对应具体数据:
创立用户购物门路视图,创立好的视图构造如下图所示,并在创立好的视图内按条件进行查找。
依据获取到的数据,绘制出对应的漏斗图:
察看发现,在购买转化率上,点击后间接购买的转化率仅为1.329%,显著低于其余三种购买门路,珍藏后购买的转化率为7.513%,加购后购买的转化率为9.692%,而既加购又珍藏的购买转化率更是达到了15.881%。阐明,比照珍藏这一行为,更多用户喜爱将购物车作为最终购买的商品池,通过将商品放入购物车,能够防止在想要购买时从新搜查,使得用户购买志愿进步。由此倡议,更多进行跨店满减、珍藏加购送赠品、提前加购享折扣等流动,疏导用户的珍藏加购行为,从而进步购买转化率。
察看点击的非跳出转化率,发现更多的人抉择加购行为,达到最高的3.724%,其次是珍藏,达到了1.674%。从总体上来看,跳出率过高,反映出淘宝用户尽管pv值高,人均商品浏览量可观,但转化率较低,有很大的晋升空间,能够通过欠缺商品详情页、做好售后减少好评等形式,进步用户的购买志愿。
3. 用户价值剖析
依据数据集提供的参数,进行用户的RFM模型剖析,进行用户的价值剖析。
最近一次生产工夫(Recency):本文定义为用户最近一次购买工夫到12月3日的差值。
肯定工夫内生产频率(Frequency):本文定义为用户在9天内的购物次数。
肯定工夫内累计生产金额(Monetary):因为数据集并未提供该数据,疏忽此参数。
创立用户机制剖析视图,创立好的视图构造如下图所示,失去计算出的R、F值。
依据构建的表格,失去max(R)为8,min(R)为0,max(F)为159,min(F)为1,以此进行评分体系构建。首先绘制不同购物频次(F)、不同最近生产工夫人数折线图如下图。(事实业务中,对于用户下单频次过低等购买行为,应需进行异样检测,此处忽略不计)
由图表可知,在9天之内,购物频次F为1的用户数量最多,达到了59724人,随后出现急速降落趋势,从 F=10 开始趋于平缓,可知,绝大多数用户的F值在10以内,评分标准应在此范畴内做具体划分。而R值则绝对更为平缓,用户的最近一次购物工夫,受到上文所揣测的流动影响,更多散布在12月1日至12月3日。因而设计评分细则如下表所示:
分数 | 最近一次生产工夫距离R | 生产频率F |
---|---|---|
1 | 7-8 | 1-3次 |
2 | 5-6 | 4-6次 |
3 | 3-4 | 7-9次 |
4 | 1-2 | 10-20次 |
5 | 1天以内 | 20次以上 |
依照上述打分规范,给与用户进行评分,创立用户得分视图,创立好的视图构造如下图所示。进而利用语句avg(R_score)、avg(F_score),计算出R值均匀得分为3.515,F值均匀得分为1.391。
将用户的F、R两个维度得分与计算失去的均值进行比照,进而分出4类价值用户:① F、R都超过均值的重要价值用户 ② 只有R值超过均值的重要倒退用户 ③ 只有F值超过均值的重要放弃用户 ④ F、R值都没有超过均值的重要挽留用户。依据条件,进行用户价值类别筛选,后果如下:
依据用户分类筛选后果,绘制饼图如下,重要价值用户有37173人,占比21.24%,重要倒退用户有63596人,占比36.33%,重要放弃用户有10823人,占比6.18%,重要挽留用户有63451人,占比36.25%。用户次要集中在重要倒退和重要挽留两个类别。针对不同价值类型的用户,能够采取不同的营销措施。
六、总结
1.用户活跃度剖析:
① 用户在周末的活跃度比工作日要高,从周五开始,PV、UV值逐步攀升,并在周一后骤降。
② 大多数用户的睡眠工夫完结在早9点之前,并在此之后开始应用APP。由此倡议,签到等工夫方面有规定的上午流动,应尽量布局在9点当前完结,从而取得更多的参加用户。
③ 19点到22点是用户的活跃度高峰期。由此倡议,APP内的次要流动应尽量布局在此时间段内,从而取得更多的参加用户。
④ 较多用户抉择在23点前进入劳动状态,22点最先呈现PV、UV环比的负增长状态,并从23点开始更为显著的降落,在凌晨1点达到环比负增长速率的峰值,阐明大部分用户抉择在凌晨1点前进入劳动状态。由此倡议,零点秒杀等夜间流动,尽量管制在1点前完结,以便维持用户的流动参加激情。
2.用户行为剖析:
① 从点击到购买的转化率较低,只有2.24%,散失重大。倡议优化商品详情页,在做到排版清晰、好看的同时,也要思考加载速度问题,防止上传较大的图片与视频,从而进步用户的浏览体验,升高详情页面跳出率。进步商品质量,做好售后服务,取得更多的用户好评或者被动邀请用户进行评论反馈,升高评论页面跳出率。
② 用户在点击 → 加购物车 → 购买、点击 → 珍藏 → 购买、点击 → 珍藏并加购 → 购买这三个流程的购买转化率都显著大于点击 → 购买的购买转化率。由此倡议,更多进行跨店满减、珍藏加购送赠品、提前加购享折扣等流动,疏导用户的珍藏加购行为,从而进步购买转化率。
③ 优化举荐算法和搜素关键词商品匹配,优先举荐用户的珍藏与加购商品,进步用户购买欲望。
3. 用户价值剖析:
① 重要价值用户有37173人,占比21.24%,重要倒退用户有63596人,占比36.33%,重要放弃用户有10823人,占比6.18%,重要挽留用户有63451人,占比36.25%。用户次要集中在重要倒退和重要挽留两个类别。针对不同价值类型的用户,采取不同的营销措施。
② 重要价值用户:属于用户群体中的优质用户,能够针对性进行社群经营,发放特地福利,提供更优质的服务等,持续进步顾客满意度。如88vip会员机制。
③ 重要放弃用户:购物次数达到均值以上程度,但近期没有购买行为,能够针对性启用用户召回机制,发送app流动揭示与音讯慰问,发送关注商户的上新揭示,发送关注商品的提价揭示等。
④ 重要倒退用户:近期有购买行为,但总体购买次数低于均值,能够依据用户购物偏好和用户根本画像进行商品举荐,发放优惠券等,进步用户购买志愿。
⑤ 重要挽留用户:最近一次购买工夫较远,购买率低,潜在有价值顾客,应给予用户关心,保护好用户关系。