关于数据分析:干货丨如何使用时序数据库DolphinDB进行淘宝用户行为分析

DolphinDB是新一代的高性能分布式时序数据库(time-series database)，同时具备丰盛的数据分析和分布式计算性能。本教程应用DolphinDB对淘宝APP的用户行为数据进行剖析，进一步剖析业务问题。

数据起源：User Behavior Data from Taobao for Recommendation-数据集-阿里云天池

本教程中，咱们把DolphinDB以及应用的数据集封装到docker中。docker中蕴含了DolphinDB的分布式数据库dfs://user_behavior 。它蕴含一张表user，保留了2017年11月25日到2017年12月3日之间将近一百万淘宝APP用户的行为记录。咱们采纳组合分区形式，第一层依照日期分区，每天一个分区，第二层依照userID进行哈希分区，一共划分为180个分区。user表的构造如下所示：

各种用户行为类型的含意如下：

pv：浏览商品详情页
buy：商品购买
cart：将商品退出购物车
fav：珍藏商品

下载docker部署包

本教程曾经把DolphinDB以及用到的数据封装到docker容器中。应用前确保docker环境曾经部署好。docker装置教程请参考https://docs.docker.com/install/。从http://www.dolphindb.cn/downloads/bigdata.tar.gz下载部署包，到部署包所在目录执行以下代码。

解压部署包：

gunzip bigdata.tar.gz

导入容器快照作为镜像：

cat bigdata.tar | docker import - my/bigdata:v1

获取镜像my/bigdata:v1的ID:

docker images

启动容器（依据理论状况替换images id）：

docker run -dt -p 8888:8848 --name test <image id> /bin/bash ./dolphindb/start.sh

在浏览器地址栏中输出本机IP地址:8888，如localhost:8888，进入DolphinDB Notebook。以下代码均在DolphinDB Notebook中执行。

该docker中的DolphinDB license有效期到2019年9月1日，如果license文件过期，只须要到DolphinDB官网下载社区版，用社区版的license替换bigdata.tar/dolphindb/dolphindb.lic即可。

用户行为剖析

查看数据量：

login("admin","123456")user=loadTable("dfs://user_behavior","user")select count(*) from user

98914533

user表中一共有98,914,533条记录。

剖析用户从浏览到最终购买商品整个过程的行为状况：

PV=exec count(*) from user where behavior="pv"

88596903

UV=count(exec distinct userID from user)

987984

在这9天中，淘宝APP的页面访问量为88,596,903，独立访客为987,984。

下面应用到的exec是DolphinDB独有的性能，它与select相似。两者的区别是，select语句总是返回一个表，exec抉择一列时会返回一个向量，与聚合函数一起应用时会返回一个标量，与pivoy by一起应用时会返回一个矩阵，不便后续对数据的计算。

统计只浏览一次页面的用户数量：

onceUserNum=count(select count(behavior) from user group by userID having count(behavior)=1)

92

jumpRate=onceUserNumUV*100

0.009312

只有92个用户只浏览过一个页面就来到了APP，占总用户数的0.0093%，简直能够忽略不计，阐明淘宝有足够的吸引力让用户停留在APP中。

统计各个用户行为的数量：

behaviors=select count(*) as num from user group by behavior

计算从有浏览到有动向购买的转化率：

将商品退出购物车和珍藏商品都能够认为用户有动向购买。统计有动向购买的用户行为数量：

fav_cart=exec sum(num) from behaviors where behavior="fav" or behavior="cart"

8318654

intentRate=fav_cartPV*100

9.389328

从浏览到有动向购买只有9.38%的转化率。

buy=(exec num from behaviors where behavior="buy")[0]

1998976

buyRate=buyPV*100

2.256259

intent_buy=buyfav_cart*100

24.030041

从浏览到最终购买只有2.25%的转化率，从有动向购买到最终购买的转化率为24.03%，阐明大部分用户用户会把中意的商品珍藏或退出购物车，但不肯定会立刻购买。

对各种用户行为的独立访客进行统计：

userNums=select count(userID) as num from (select count(*) from user group by behavior,userID) group by behavior

pay_user_rate=(exec num from userNums where behavior="buy")[0]UV*100

67.852313

这9天中，应用淘宝APP的付费用户占67.8%，阐明大部分用户会在淘宝APP上购物。

统计每天各种用户行为的用户数量：

dailyUserNums=select sum(iif(behavior=="pv",1,0)) as pageView, sum(iif(behavior=="fav",1,0)) as favorite, sum(iif(behavior=="cart",1,0)) as shoppingCart, sum(iif(behavior=="buy",1,0)) as payment from user group by date(behaveTime) as date

周五、周六和周日（2017.11.25、2017.11.26、2017.12.02、2017.12.03）淘宝APP的访问量明显增加。

iif是DolphinDB的条件运算符，它的语法是iif(cond, trueResult, falseResult)，cond通常是布尔表达式，如果满足cond，则返回trueResult，如果不满足cond，则返回falseResult。

别离统计每天不同时间段下各种用户行为的数量。咱们提供了以下两种办法：

第一种办法是别离统计各个时间段的数据，再把各个后果合并。例如，统计工作日2017.11.29（周三）不同时间段的用户行为数量。

re1=select first(behaveTime) as time, sum(iif(behavior=="pv",1,0)) as pageView, sum(iif(behavior=="fav",1,0)) as favorite, sum(iif(behavior=="cart",1,0)) as shoppingCart, sum(iif(behavior=="buy",1,0)) as payment from user where behaveTime between 2017.11.29T00:00:00 : 2017.11.29T05:59:59re2=select first(behaveTime) as time, sum(iif(behavior=="pv",1,0)) as pageView, sum(iif(behavior=="fav",1,0)) as favorite, sum(iif(behavior=="cart",1,0)) as shoppingCart, sum(iif(behavior=="buy",1,0)) as payment from user where behaveTime between 2017.11.29T06:00:00 : 2017.11.29T08:59:59re3=select first(behaveTime) as time, sum(iif(behavior=="pv",1,0)) as pageView, sum(iif(behavior=="fav",1,0)) as favorite, sum(iif(behavior=="cart",1,0)) as shoppingCart, sum(iif(behavior=="buy",1,0)) as payment from user where behaveTime between 2017.11.29T09:00:00 : 2017.11.29T11:59:59re4=select first(behaveTime) as time, sum(iif(behavior=="pv",1,0)) as pageView, sum(iif(behavior=="fav",1,0)) as favorite, sum(iif(behavior=="cart",1,0)) as shoppingCart, sum(iif(behavior=="buy",1,0)) as payment from user where behaveTime between 2017.11.29T12:00:00 : 2017.11.29T13:59:59re5=select first(behaveTime) as time, sum(iif(behavior=="pv",1,0)) as pageView, sum(iif(behavior=="fav",1,0)) as favorite, sum(iif(behavior=="cart",1,0)) as shoppingCart, sum(iif(behavior=="buy",1,0)) as payment from user where behaveTime between 2017.11.29T14:00:00 : 2017.11.29T17:59:59re6=select first(behaveTime) as time, sum(iif(behavior=="pv",1,0)) as pageView, sum(iif(behavior=="fav",1,0)) as favorite, sum(iif(behavior=="cart",1,0)) as shoppingCart, sum(iif(behavior=="buy",1,0)) as payment from user where behaveTime between 2017.11.29T18:00:00 : 2017.11.29T21:59:59re7=select first(behaveTime) as time, sum(iif(behavior=="pv",1,0)) as pageView, sum(iif(behavior=="fav",1,0)) as favorite, sum(iif(behavior=="cart",1,0)) as shoppingCart, sum(iif(behavior=="buy",1,0)) as payment from user where behaveTime between 2017.11.29T22:00:00 : 2017.11.29T23:59:59re=unionAll([re1,re2,re3,re4,re5,re6,re7],false)

这种办法比较简单，然而须要编写大量反复代码。当然也能够把反复代码封装成函数。

def calculateBehavior(startTime,endTime){    return select first(behaveTime) as time, sum(iif(behavior=="pv",1,0)) as pageView, sum(iif(behavior=="fav",1,0)) as favorite, sum(iif(behavior=="cart",1,0)) as shoppingCart, sum(iif(behavior=="buy",1,0)) as payment from user where behaveTime between startTime : endTime}

这样只须要指定时间段的起始工夫即可。

另外一种办法是通过DolphinDB的Map-Reduce框架来实现。例如，统计工作日2017.11.29（周三）的用户行为。

def caculate(t){    return select first(behaveTime) as time, sum(iif(behavior=="pv",1,0)) as pageView, sum(iif(behavior=="fav",1,0)) as favorite, sum(iif(behavior=="cart",1,0)) as shoppingCart, sum(iif(behavior=="buy",1,0)) as payment from t    }ds1 = repartitionDS(<select * from user>, `behaveTime, RANGE,2017.11.29T00:00:00 2017.11.29T06:00:000 2017.11.29T09:00:00 2017.11.29T12:00:00 2017.11.29T14:00:00 2017.11.29T18:00:00 2017.11.29T22:00:00 2017.11.29T23:59:59)WedBehavior = mr(ds1, caculate, , unionAll{, false})

咱们应用repartitionDS函数对user表从新依照工夫范畴来分区（不扭转user表原来的分区形式），并生成多个数据源，而后通过mr函数，对数据源进行并行计算。DolphinDB会把caculate函数利用到各个数据源上，而后把各个后果合并。

工作日，凌晨（0点到6点）淘宝APP的使用率最高，其次是下午（14点到16点）。

统计周六（2017.11.25）和周日（2017.11.26）的用户行为：

ds2 = repartitionDS(<select * from user>, `behaveTime, RANGE,2017.11.25T00:00:00 2017.11.25T06:00:000 2017.11.25T09:00:00 2017.11.25T12:00:00 2017.11.25T14:00:00 2017.11.25T18:00:00 2017.11.25T22:00:00 2017.11.25T23:59:59)SatBehavior = mr(ds2, caculate, , unionAll{, false})

ds3 = repartitionDS(<select * from user>, `behaveTime, RANGE,2017.11.26T00:00:00 2017.11.26T06:00:000 2017.11.26T09:00:00 2017.11.26T12:00:00 2017.11.26T14:00:00 2017.11.26T18:00:00 2017.11.26T22:00:00 2017.11.26T23:59:59)SunBehavior = mr(ds3, caculate, , unionAll{, false})

周六和周日各个时间段淘宝APP的使用率都比工作日的使用率要高。同样地，周六日淘宝APP应用顶峰是凌晨（0点到6点）。

商品剖析

allItems=select distinct(itemID) from user

4142583

在这9天中，一共波及到4,142,583种商品。

统计每个商品的购买次数：

itemBuyTimes=select count(userID) as times from user where behavior="buy" group by itemID order by times desc

统计销量前20的商品：

salesTop=select top 20 * from itemBuyTimes order by times desc

ID为3122135的商品销量最高，一共有1,408次购买。

统计各个购买次数下商品的数量：

buyTimesItemNum=select count(itemID) as itemNums from itemBuyTimes group by times order by itemNums desc

结果显示，绝大部分（370,747种）商品在这9天中都只被购买了一次，占所有商品的8.94%。购买次数越多，波及到的商品数量越少。

统计所有商品的用户行为数量：

allItemsInfo=select sum(iif(behavior=="pv",1,0)) as pageView, sum(iif(behavior=="fav",1,0)) as favorite, sum(iif(behavior=="cart",1,0)) as shoppingCart, sum(iif(behavior=="buy",1,0)) as payment from user group by itemID

统计浏览量前20的商品：

pvTop=select top 20 itemID,pageView from allItemsInfo order by pageView desc

浏览量最高的商品ID为812879，共有29,720次浏览，然而销量仅为135，没有进入到销量前20。

统计销量前20的商品各个用户行为的数量：

select * from ej(salesTop,allItemsInfo,`itemID) order by times desc

销量最高的商品3122135的浏览量为1777，没有进入浏览量前20，从浏览到购买的转化率高达79.2%，该商品有可能是刚需用品，用户不须要太多浏览就决定购买。

扩大练习：

（1）计算2017.11.25每小时淘宝APP的购买率（购买率=购买次数/总行为次数*100%）

（2）找出购买次数最多的用户以及他购买最多的商品

（3）计算商品ID为3122135的商品在各个时间段中的购买次数

（4）统计每个类别每个行为的次数

（5）计算每个类别中销量最高的商品

本教程仅供学习应用。

应用过程中有任何问题欢送退出智臾科技：DolphinDB技术交换群，内含二维码