全文链接:http://tecdat.cn/?p=32604
原文出处:拓端数据部落公众号
分析师:Bailey Zheng和Lijie Zhang
即便是同一种动物,因为成长的地理环境的不同,它们的特色会有所差别。例如鸢尾花,可分为山鸢尾、正色鸢尾、维吉尼亚鸢尾。
假如此时您失去了一朵鸢尾花,如何判断它属于哪一类呢?
反对向量机算法原理
·其次要思维是找到空间中的一个可能将所有数据样本划开的超平面,并且使得样本集中所有数据到这个超平面的间隔最短。
·反对向量机能够分为线性和非线性两大类。
反对向量机的规范:
非线性反对向量机
·高斯核: 尺度参数 gamma
·多项式核: 阶数 degree
(线性反对向量机: 正则化参数 C)
调参
数据指标:
SL 花尊长度 (cm) ,SW 花芎宽度(cm)PL 花辨长度(cm),PW 花瓣宽度(cm) 鸢尾花品种:
Iris Setosa;
Iris Versicolour;Iris Virginica
数据数量: 共 150 个数据点
应用多项式核函数的非线性反对向量机训练分类模型
Python 用户散失数据挖掘:建设反对向量机、逻辑回归、XGboost、随机森林、决策树、奢侈贝叶斯模型和 Kmeans 用户画像
在明天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的抢夺上
“用户就是上帝”促使泛滥的企业不惜代价去抢夺尽可能多的客户。然而企业在不惜代价倒退新用户的过程中,往往会漠视或无暇顾及已有客户的散失状况,后果就导致呈现这样一种窘况:一边是新客户在源源不断地减少,而另一方面是辛辛苦苦找来的客户却在悄然无声地散失。因而对老用户的散失进行数据分析从而挖掘出重要信息帮忙企业决策者采取措施来缩小用户散失的事件至关重要,火烧眉毛。
[]()1.2 目标:
深刻理解用户画像及行为偏好,挖掘出影响用户散失的关键因素,并通过算法预测客户拜访的转化后果,从而更好地欠缺产品设计、晋升用户体验。
[]()1.3 数据阐明:
此次数据是携程用户一周的拜访数据,为爱护客户隐衷,曾经将数据通过了脱敏,和理论商品的订单量、浏览量、转化率等有一些差距,不影响问题的可解性。
2 读取数据
# 显示全副特色
df.head()
[]() 3 切分数据
# 划分训练集,测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)
[]()3.1 了解数据
能够看到变量比拟的多,先进行分类,除去指标变量 label,此数据集的字段能够分成三个类别:订单相干指标、客户行为相干指标、酒店相干指标。
4 特色工程
# 用训练集进行数据摸索
train = pd.concat([X_train,y_train],axis=1)
[]()4.1 数据预处理
[]()4.1.1 删除不必要的列
X_train.pop("sampleid")
X_test.pop("sampleid")
train.pop("sampleid")
[]()4.1.2 数据类型转换
字符串类型的特色须要解决成数值型能力建模, 将 arrival 和 d 相减失去 ” 提前预约的天数 ”, 作为新的特色
# 减少列
# 将两个日期变量由字符串转换为日期格局类型
train["arrial"] = pd.to_datimetain["arrval"])
X_tst["arival"] = d.to_daetime(X_est["arival"])
# 生成提前预约工夫列(衍生变量)X_trin["day_adanced"] = (X_rain["arival"]-Xtrain["d"]).dt.days
## 删除列
X_tran.dro(columns="d","arrivl"],inpace=True)
4.1.3 缺失值的变量生成一个批示哑变量
zsl = tain.isnll().sum()[tain.isnll(.sum()!=0].inex
[]()4.1.4 依据业务教训填补空缺值
ordernum\_oneyear 用户年订单数为 0 ,lasthtlordergap 11% 用 600000 填充 88% 用 600000 填充 一年内间隔上次下单时长,ordercanncelednum 用 0 填充 用户一年内勾销订单数,ordercanceledprecent 用 0t 填充 用户一年内勾销订 \
单率 242114 242114 - 为空 有 2 种状况 1:新用户未下订单的空 -88.42% 214097 2. 老用户 1 年以上未生产的空 减少编码列未下订单新用户和 1 年未下订单的老用户 \
price\_sensitive -0 , 中位数填充 价格敏感指数,consuming\_capacity -0 中位数填充 生产能力指数 226108 - 为空状况 1. 从未下过单的新用户 214097 2.12011 集体为空起因暂不明确 \
uv\_pre -24 小时历史浏览次数最多酒店历史 uv. cr\_pre -0, 中位数填充 -24 小时历史浏览次数最多酒店历史 cr -0, 中位数填充 29397 - 为空 1. 用户当天未登录 APP 28633 2. 刚上线的新酒店 178 586 无 uv,cr 记录 编码增加 该 APP 刚上线的新酒店 764 29397\
customereval\_pre2 用 0 填充 -24 小时历史浏览酒店客户评分均值, landhalfhours -24 小时内登陆时长 - 用 0 填充 28633 - 为空:用户当天未登录 APP 28633\
hotelcr ,hoteluv - 中位数填充 797
[]()刚上新酒店 60 #未登录 APP 118
avgprice 0 填充一部分价格填充为 0 近一年未下过订单的人数,cr 用 0 填充,
tkq = ["hstoryvsit_7ordernm","historyviit_visit_detaipagenum","frstorder_b","historyvi
# tbkq = ["hitoryvsit_7dernum","hisryvisit_isit_detailagenum"]
X_train[i].fillna(0,inplace=True)
<!—->
## 一部分用 0 填充,一部分用中位數填充
# 新用戶影響的相關屬性:ic_sniti,cosuing_cacity
n_l = picesensitive","onsmng_cpacty"]
fori in n_l
X_trini][Xra[X_trinnew_ser==1].idex]=0
X_est[i][X_test[X_test.nw_user==1].inex]=0
[]()4.1.5 异样值解决
将 customer\_value\_profit、ctrip\_profits 中的负值按 0 解决 \
将 delta\_price1、delta\_price2、lowestprice 中的负值按中位数解决
for f in flter_two:
a = X_trin[].median()
X_tran[f][X_train[f]<0]=a
X_test[f][X_est[]<0]=a
tran[f][train[f]<0]=a
[]()4.1.6 缺失值填充
趋于正态分布的字段, 应用均值填充:businessrate\_pre2、cancelrate\_pre、businessrate\_pre; 偏态散布的字段, 应用中位数填充.
def na_ill(df):
for col in df.clumns:
mean = X_trai[col].mean()
dfcol]=df[col].fillna(median)
return
<!—->
## 衍生变量年成交率
X_train["onear_dalate"]=_tain["odernum_onyear"]/X_tran"visinum_onyar"]
X_st["onyardealae"]=X_st["orernum_neyear"]/Xtest[visitumonyear"]
X_al =pd.nca([Xtin,Xtes)
<!—->
# 决策树测验
dt = Decsionr(random_state=666)
pre= dt.prdict(X_test)
pre_rob = dt.preicproa(X_test)[:,1]
pre_ob
4.2 数据标准化
scaler = MinMacaer()
#决策树测验
dt = DeonTreasifi(random_state=666)
5 特色筛选
[]()5.1 特征选择 - 删除 30% 列
X_test = X_test.iloc[:,sp.get_spport()]
#决策树测验
dt = DecisonreeClssifie(random_state=666)
dt.fit(X_trin,y_tain)
dt.score(X_tst,y_est)
pre = dt.pdict(X_test)
pe_rob = dt.redicproba(X_test)[:,1]
pr_rob
uc(pr,tpr)
5.2 共线性 / 数据相关性
# 共线性 -- 重大共线性 0.9 以上,合并或删除
d = Xtrai.crr()
d[d<0.9]=0 #赋值显示高相干的变量
pl.fufsiz=15,15,dpi200)
ssheatp(d)
6 建模与模型评估
6.1 逻辑回归
y_prob = lr.preictproba(X_test)[:,1]
y_pred = lr.predict(X_test
fpr_lr,pr_lr,teshold_lr = metris.roc_curve(y_test,y_prob)
ac_lr = metrcs.aucfpr_lr,tpr_lr)
score_lr = metrics.accuracy_score(y_est,y_pred)
prnt("模准确率为:{0},AUC 得分为{1}".fomat(score_lr,auc_lr))
prit("="*30
6.2 奢侈贝叶斯
gnb = GasinNB() # 实例化一个 LR 模型
gnb.fi(trai,ytran) # 训练模型
y_prob = gn.pic_proba(X_test)[:,1] # 预测 1 类的概率
y_pred = gnb.preict(X_est) # 模型对测试集的预测后果
fpr_gnb,tprgnbtreshold_gb = metrics.roc_crve(ytesty_pob) # 获取真阳率、伪阳率、阈值
aucgnb = meic.aucf_gnb,tr_gnb) # AUC 得分
scoe_gnb = merics.acuray_score(y_tes,y_pred) # 模型准确率
6.3 反对向量机
s =SVkernel='f',C=,max_ter=10,randomstate=66).fit(Xtrain,ytrain)
y_rob = sc.decsion_untio(X_st) # 决策边界间隔
y_ed =vc.redit(X_test) # 模型对测试集的预测后果
fpr_sv,tpr_vc,theshld_sv = mtris.rc_urv(y_esty_pob) # 获取真阳率、伪阳率、阈值
au_vc = etics.ac(fpr_sc,tpr_sv) # 模型准确率
scre_sv = metrics.ccuracy_sore(_tst,ypre)
6.4 决策树
dtc.fit(X_tran,_raiproba(X_test)[:,1] # 预测 1 类的概率
y_pred = dtc.predct(X_test # 模型对测试集的预测后果
fpr_dtc,pr_dtc,thresod_dtc= metrcs.roc_curvey_test,yprob) # 获取真阳率、伪阳率、阈值
6.5 随机森林
c = RndoForetlassiir(rand_stat=666) # 建设随机森
rfc.it(X_tain,ytrain) # 训练随机森林模型
y_rob = rfc.redict_poa(X_test)[:,1] # 预测 1 类的概率
y_pedf.pedic(_test) # 模型对测试集的预测后果
fpr_rfc,tp_rfc,hreshol_rfc = metrcs.roc_curve(y_test,_prob) # 获取真阳率、伪阳率、阈值
au_fc = meris.auc(pr_rfctpr_fc) # AUC 得分
scre_rf = metrcs.accurac_scor(y_tes,y_ped) # 模型准确率
6.6 XGboost
# 读训练数据集和测试集
dtainxgbatrx(X_rai,yrain)
dtest=g.DMrx(Xtest
# 设置 xgboost 建模参数
paras{'booser':'gbtee','objective': 'binay:ogistic','evlmetric': 'auc'
# 训练模型
watchlst = (dtain,'trai)
bs=xgb.ran(arams,dtain,n_boost_round=500eva=watchlst)
# 输出预测为正类的概率值
y_prob=bst.redict(dtet)
# 设置阈值为 0.5,失去测试集的预测后果
y_pred = (y_prob >= 0.5)*1
# 获取真阳率、伪阳率、阈值
fpr_xg,tpr_xgb,heshold_xgb = metricsroc_curv(test,y_prob)
aucxgb= metics.uc(fpr_gb,tpr_xgb # AUC 得分
score_gb = metricsaccurac_sore(y_test,y_pred) # 模型准确率
print('模型准确率为:{0},AUC 得分为:{1}'.format(score_xgb,auc_xgb))
6.7 模型比拟
plt.xlabel('伪阳率')
plt.ylabel('真阳率')
plt.title('ROC 曲线')
plt.savefig('模型比拟图.jpg',dpi=400, bbox_inches='tight')
plt.show()
[]()6.8 重要特色
ea = pd.Sries(dct(list((X_trclumsfc.eatre_imortancs_))))
ea.srt_vlues(acedig=False
fea_s = (fa.srt_vauesacnding=alse)).idex
[]()6.9 散失起因剖析
- cityuvs 和 cityorders 值较小时用户散失显著高于平均水平,阐明携程平台小城市的酒店信息不足,用户转向应用小城市酒店信息较全的竞品导致用户散失
- 拜访工夫点在 7 点 -19 点用户散失比例高与平均水平:工作日推送应该避开这些工夫点
- 酒店商务属性指数在 0.3-0.9 区间内用户散失大于平均水平,且出现递增趋势,阐明平台商务指数高的酒店和用户冀望有差距(价格太高或其余起因?),商务属性低的用户散失较少
- 一年内间隔上次下单时长越短散失越重大,受携程 2015 年 5 月 -2016 年 1 月爆出的负面新闻影响较大,企业应该更加增强本身治理,建立良好社会形象
- 生产能力指数偏低(10-40)的用户散失较重大,这部分用户占比 50% 应该引起器重
- 价格敏感指数(5-25)的人群散失高于平均水平,重视酒店品质
- 用户转化率,用户年订单数,近 1 年用户历史订单数越高,24 小时内否拜访订单填写页的人群比例越大散失越重大,须要做好用户下单后的追踪体验,邀请填写入住体验,整顿意见作出改良
- 提前预约天数越短散失越重大用户一年内勾销订单数越高散失越重大
[]()6.10 倡议:
- 思考占取三四线城市和低端酒店范畴的市场份额
- 用户易受企业负面新闻影响,倡议企业敢于承当社会责任,增强本身治理,进步公关新闻解决时效性,建立品牌良好形像
- 在节假日前 2 - 3 周开始热门景点酒店推送
- 做好酒店下单后的追踪体验,邀请填写入住体验,并整顿用户意见作出改良
7 客户画像
[]()7.1 建模用户分类
# 用户画像特色
user_feature = ["decisiohabit_user,'starprefer','lastpvgap','sid','lernum",'historyvisit_visit_detaipagenum',"onyear_dealrat]
# 散失影响特色
fea_lis = ["cityuvs",
"cityorders",
"h",
"businessrate_pre2"
# 数据标准化 Kmeans 办法对正态分布数据处理成果更好
scaler = StanardScalr()
lo_atribues = pdDatarame(scr.fittransfrm(all_cte),columns=all_ce.coluns)
# 建模分类
Kmens=Means(n_cluste=2,rndom_state=0) #333
Keans.fi(lot_attributes # 训练模型
k_char=Kmenscluster_centers_ # 失去每个分类
plt.figure(figsize=(5,10))
7.2 用户类型占比
types=['高价值用户','后劲用户']
ax.pie[1], raius=0.,colors='w')
plt.savefig(用户画像.jpg'dpi=400, box_inchs='tigh')
[]()7.3 高价值用户剖析
占比 19.02,拜访频率和预约频率都较高,消费水平高,客户价值大,谋求高品质,对酒店星级要求高,客户群体多集中在老客户中,\
倡议:\
多举荐口碑好、性价比高的商务酒店连锁酒店房源吸引用户;\
在非工作日的 11 点、17 点等日间流量小顶峰时段进行音讯推送。\
为客户提供更多差旅地酒店信息;\
减少客户散失老本:会员积分制,推出会员打折卡
[]()7.4 后劲用户剖析
占比:80.98% 拜访频率和预约频率都较低,消费水平较低,对酒店星级要求不高,客户群体多集中在新客户中,客户价值待开掘 倡议:\
因为新用户居多,属于潜在客户,倡议把握用户初期体验(如初期生产有优惠、打卡流动等),还能够定期推送实惠的酒店给此类用户,以造就用户生产惯性为主;\
推送的内容应多为大减价、大酬宾、跳楼价之类的;\
因为这部分用户占比拟多,可联合该群体散失状况剖析散失客户因素,进行该群体市场的开辟,进一步进行下沉剖析,开辟新的时长。
对于作者
在此对 Bailey Zheng 和Lijie Zhang对本文所作的奉献示意诚挚感激。Lijie Zhang 相熟机器学习 sklearn,xgboost 等库进行数据挖掘和数据建模。Bailey 善于计量经济、机器学习。
若您是集体学习者或培训负责人 ,心愿学习拓端的线上 / 线下课程,欲了解更多拓端学堂课程及信息, 请点击文末“浏览原文”征询。
最受欢迎的见解
1.PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和 KMEANS 聚类用户画像
2. R 语言基于树的办法:决策树,随机森林
3.python 中应用 scikit-learn 和 pandas 决策树
4.机器学习:在 SAS 中运行随机森林数据分析报告
5. R 语言用随机森林和文本开掘进步航空公司客户满意度
6.机器学习助推快时尚精准销售工夫序列
7.用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用
8.python 机器学习:举荐零碎实现(以矩阵合成来协同过滤)
9.python 中用 pytorch 机器学习分类预测银行客户散失