乐趣区

关于数据挖掘:R语言逻辑回归预测分析付费用户

原文链接:http://tecdat.cn/?p=967

原文出处:拓端数据部落公众号


相干 视频:R 语言逻辑回归(Logistic 回归)模型分类预测病人冠心病危险

逻辑回归 Logistic 模型原理和 R 语言分类预测冠心病危险实例

,时长 06:48

对于某企业新用户,会利用大数据来剖析该用户的信息来确定是否为付费用户,弄清楚用户属性,从而针对性的进行营销,进步经营人员的办事效率。

对于付费用户预测,次要是思考支出由哪些因素推动,再对每个因素做预测,最初得出付费预测。这其实不是一个财务问题,是一个业务问题。

散失预测。这方面会偏差于大额付费用户,提取额特征向量使用到利用场景的用户散失和预测外面去。

办法

回归是一种极易了解的模型,就相当于 y =f(x),表明自变量 x 与因变量 y 的关系。最常见问题有如医生治病时的望、闻、问、切,之后断定病人是否生病或生了什么病,其中的望闻问切就是获取自变量 x,即特色数据,判断是否生病就相当于获取因变量 y,即预测分类。

问题形容

咱们尝试并预测用户是否能够依据数据中可用的人口信息变量应用逻辑回归预测月度付费是否超过 50K。

在这个过程中,咱们将:

1. 导入数据 2. 查看类别偏差 3. 创立训练和测试样本 4. 建设 logit 模型并预测测试数据 5. 模型诊断

查看类偏差

现实状况下,Y 变量中事件和非事件的比例大致相同。所以,咱们首先查看因变量 ABOVE 50K 中的类的比例。

0 1 

24720 7841

显然,不同付费人群比例 有偏差。所以咱们必须以大抵相等的比例对观测值进行抽样,以取得更好的模型。

构建 Logit 模型和预测

确定模型的最优预测概率截止值默认的截止预测概率分数为 0.5 或训练数据中 1 和 0 的比值。但有时,调整概率截止值能够进步开发和验证样本的准确性。InformationValue :: optimalCutoff 性能提供了找到最佳截止值,缩小谬误分类谬误。

optCutOff <-optimalCutoff(testData$ABOVE50K, predicted)\[1\] => 0.71

模型诊断

谬误分类谬误

谬误分类谬误是预测与理论的不匹配百分比。谬误分类谬误越低,模型越好。

misClassError(testData$ABOVE50K, predicted, threshold = optCutOff)



\[1\] 0.0892

ROC 曲线

ROC 曲线指受试者工作特色曲线 / 接收器操作个性曲线 (receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标, 是用构图法揭示敏感性和特异性的互相关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1- 特异性)为横坐标绘制成曲线, 曲线下面积越大,诊断准确性越高。在 ROC 曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

上述型号的 ROC 曲线面积为 89%,相当不错。

一致性

简略来说,在 1 -0 的所有组合中,一致性是预测对的百分比,一致性越高,模型的品质越好。

$Concordance \[1\] 0.8915107 $Discordance \[1\] 0.1084893 $Tied \[1\] -2.775558e-17 $Pairs \[1\] 45252896

上述型号的 89.2%的一致性的确是一个很好的模型。

混同矩阵

在人工智能中,混同矩阵(confusion matrix)是可视化工具,特地用于监督学习,在无监督学习个别叫做匹配矩阵。其每一列代表预测值,每一行代表的是理论的类别。这个名字来源于它能够非常容易的表明多个类别是否有混同(也就是一个 class 被预测成另一个 class)。

confusionMatrix(testData$ABOVE50K, predicted, threshold = optCutOff)



0 1 0 18849 1543 1 383 810

论断

这里仅仅介绍了模型的建设和评估。通过模型的论断,咱们能够失去一些曾经为公众所承受和熟知的景象是:付费和受教育水平、智力、年龄以及性别等相干。基于此用户规模预测模型,联合用户的人口信息,即可粗略预估产品在个别状况下的支出状况, 从而判断就失去了付费用户预测模型,如果把支出分类转换成散失用户和无效用户,就失去了散失用户预测模型。

退出移动版