关于数据挖掘:汽车经销商客户流失预警逻辑回归LRLASSO逐步回归

13次阅读

共计 2516 个字符,预计需要花费 7 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=32016

原文出处:拓端数据部落公众号

分析师:Shufang Wei

随着社会经济的疾速倒退和交通基础设施的不断完善,我国汽车市场也失去了迅速增长。与之配套的汽车售后服务市场成为宏大的黄金市场,发展潜力惊人。在售后服务市场中,汽车 4S 店以其品牌优势,残缺和标准的服务零碎以及多种多样的增值服务受到消费者的青眼。但汽车售后市场纷繁复杂,汽车 4S 店仍 要面对竞争品牌对保有客户的强烈抢夺,还有汽车维 修团体、甚至一些小型的汽车培修店对市场的鲸吞。而忠诚度越来越低的客户,也让汽车 4S 店感到束手无 策。因而客户散失预警正成为汽车 4S 店售后服务畛域 的一个重要钻研问题。

解决方案

工作 / 指标

通过客户历史回厂培修车辆信息对客户是否散失进行预警,帮忙汽车经销商建设散失预警得分机制,以此对不同得分的客户采取针对性的措施。

数据源筹备

此次剖析的原始数据分为训练集和测试集,包含客户根底信息数据和客户回厂明细数据,客户根底信息数据中为客户的个人信息,即客户特色,蕴含雷同的 11 个分类特色、4 个间断特色和 1 个字符特色,共 16 个变量。训练集中有 51075 个样本,测试有 10122 个样本;客户回厂明细中包含客户在各记录回厂的具体信息,数据共蕴含从 2011 年到 2018 年 9 月份客户回厂信息。

特色转换

客户年龄和流失率:能够看出客户随年龄增大,呈现出流失率回升的状况。为尽量保留连续型变量其独有特色,仅对其做标准化(取对数)解决,升高连续变量量纲的影响。

车价和贷款金额:都是对于价格的形容,将贷款金额转变为贷款比例,其信息量并无缺失,同时升高了量纲的影响。

分类型变量:对每一个类别都独自提出作为一个新的虚构变量。例如:对于“车型 1”,“车型 2”和“缺失”就分为“是否车型 1”,“是否车型 2”和“是否缺失”,即对一个 N 分类变量划分为 N 个 2 分类变。以上例举的只是局部特色。最终失去得变量共 56 类,而后依据变量分组样本量和 IV 将变量“车主性质”(BUYERPART)和顾客 ID 给剔除,残余 54 个变量(53 个自变量)。

结构

以上阐明了如何抽取相干特色,咱们大抵有如下训练样本(只列举局部特色)。

建模

逻辑回归(LR)

逻辑回归是在线性回归的根底上,套用一个逻辑函数,以预计某种事物的可能性,可用于解决分类问题。

模型优化

1. 上线之前的优化:变量筛选。

因为变量数目过多,并且变量之间可能存在多重共线性,因而在建模之前咱们先对变量进行筛选比拟在不同变量筛选办法下模型的成果。在变量筛选过程中尝试以下三种不同的变量筛选办法:

(1)基于模型 AIC 值的向后逐步回归筛选;

(2)基于穿插测验 LASSO 回归的变量筛选;

(3)在 LASSO 变量压缩后再利用基于模型 AIC 值的向后逐步回归筛选。

咱们通过比拟训练集上的 AUC 值来判断各模型预测能力的强弱。这里的 AUC(Area under the Curve of ROC)是 ROC 曲线下方的面积,是判断二分类预测模型优 劣 的 标 准 之 一。ROC(Receiver Operating Characteristic Curve),称为接收者操作特色曲线,其横坐标为伪阳性率(假正类率),即预测为正而理论非真的概率;纵坐标是真阳性率(真正类率),即预测为真且理论也为真的概率。

AUC 的值越大,阐明模型可能就义更少的谬误预测换取更大的正确预测,模型的预测成果越好。

三种办法训练进去的逻辑回归模型在训练集中的 AUC 值比拟如下表:

思考到没有进行 LASSO 变量压缩的模型存在肯定的多重共线性,许多变量不显著,而基于 AIC 值的逐步回归筛选办法可能最大让变量通过显著性测验,为了保障模型的泛化能力和解释性,咱们抉择基于 LASSO 和逐步回归的变量筛选办法

我的项目后果

利用 LASSO 和逐步回归进行变量筛选,以筛选后 的变量进行逻辑回归,失去后果如下表所示。

基于以上模型后果咱们对 4S 店提出以下倡议:

(1)4S 店应适当关注车价较低的客户,对服务价格等客户比较关心的因素及时做出调整,可利用适当提价等形式吸引低收入客户;

(2)重视首次购买保险的客户,尽可能为客户留下好的印象以加深顾客的体验,计算好损失和收益,可通过收费体验及优惠活动来引起首次购买保险顾客的留神。

失去模型之后,绘制出散失预测模型在训练集与测试集中的 ROC 曲线如下。依据 ROC 图中红色曲线与对角线间隔最大点处对应的宰割作为判断是否散失的概率阈值,计算通过基于 LASSO 和逐步回归的变量筛选的逻辑回归模型在训练集和测试上预测后果的混同矩阵见下表。其中,预测准确率定义为预测后果与理论后果统一的比例,散失客户预测准确率为在所有散失客户中被预测出为散失客户的比例。

模型总的预测准确率在 65% 以上,要优于不必模型辨认的状况,并且能够反映出对客户散失的敏感性。在该模型的领导下,4S 店的店主会更加珍惜每一位客户,违心花更多的工夫精力去采取挽回措施,从而保障更少的客户流失率。

因为采纳一个宰割点对客户进行二元分类的办法未能体现出客户散失可能性之间的差别,咱们须要对客户散失偏向做进一步的辨别。在逻辑回归模型的根底上,咱们提出了基于散失胜率(odds)的评分机制设计,将客户散失得分划分为 1-5 分,以此对不同得分的客户采取针对性的措施。

在此机制下的模型预测能力监控报表如下表。

在新的得分机制下,每个得分的散失概率和客户占比拟好地失去了预期的要求。依据预警得分,4S 店的店主应该首先向占比仅 1.74% 而散失比例超过 72.16% 的失去 5 分预警的客户采取挽回措施,无效缩小了挽回老本和对散失偏向很低的客户的打搅。其次,4S 店的店主应该关注占比 6.54% 的失去 4 分预警的客户群体,此类客户中有散失比例达到一半,若店主对客户散失景象的回避偏向较高,对 4 分客户群体采取挽回措施仍有不错的针对性。总体而言,新的得分机制设计下,更好地体现了不同预警程度下客户散失偏向的区分度,店主根据此得分报表可能更有针对性地实现散失客户辨认和挽回措施的制订,预测模型根本达到了领导售后服务的要求。

对于分析师

在此对 Shufang Wei 对本文所作的奉献示意诚挚感激,她在厦门大学实现了统计系业余的硕士学位,专一数据分析、数据挖掘。善于 R 语言。

正文完
 0