乐趣区

关于数据挖掘:Python用逻辑回归决策树SVMXGBoost-算法机器学习预测用户信贷行为数据分析报告

全文链接:http://tecdat.cn/?p=31201 原文出处:拓端数据部落公众号摘要: 此报告首先将 dataset 进行数据荡涤,失去 dataset_new。再将 dataset_new 中属性分为根本信息、贷款行为 / 志愿信息和征信信息三类,并逐个进行剖析。在对根本信息的剖析中得出,在贷款未结清者中,青年群体、中等教育水平群体、中等和高支出群体的频数较高,同时已婚、受薪雇员占比高于未婚、个体经营者。在对贷款志愿与行为的信息剖析中得出,贷款志愿与行为的变动与是否可能在规定工夫内结清贷款相关性较低。在对征信信息的剖析中能够得出,征信信息中的正指标与负指标与是否能按期结清贷款有较为显著的正相干与负相关关系。最初再利用机器学习算法训练预测是否可能按期结清贷款的模型,测试后果准确度较高。1 属性分类 dataset_new 数据集中共有 6010 个样本、51 个属性。因为属性数量较多,为了便于剖析,以属性的物理含意为分类根据,联合事实业务特色,挑选出具备代表性且特色涵盖较为全面的 24 条属性,并将其分为三类: 根本信息、贷款行为 / 志愿信息和征信信息。原始数据:

如表 1 - 1 所示。表 1-1 代表性属性及其分类

2 根本信息剖析针对贷款未结清者的根本个人信息进行统计分析,能够得出贷款未结清者在年龄、受教育水平等属性上的散布特色。2.1 贷款未结清者随年龄的散布将所有贷款未结清者从 18 岁开始以 5 为区间统计,能够得出如图 2 -1- 1 所示的贷款未结清者随年龄的散布状况: 在 23-33 岁的青年群体中,贷款未结清者的频数最高,在 48 岁及以上的中老年群体中贡惑术时信者虑对这一群体进行更深刻的经济背景考察款未结清的次要群体,因而在审批贷款时应思考对这一群体进行更深刻的经济背景考察 和征信考察,以确保贷款对象具备结清贷款的能力。

图 2-1-1 贷款未结清者随年龄的散布 2.2 贷款未结清者随受教育水平的散布将贷款未结清者按受教育水平分类,能够得出如图 2-2-1 所示的后果:在未结清贷款者中,中等教育水平(12th、Graduation/Diploma)的频数最高,而低教育水平者和高教育水平者的频数均较低。

 图 2-2-1 贷款未结清者随受教育水平的散布 2.3 贷款未结清者的婚姻状况散布将贷款未结清者依照婚姻状况分类,能够失去如图 2-3-1 所示的论断:在贷款未结清者中,已婚者的比例略高于未婚者,已婚者与未婚者的占比差距并不显著。

图 2-3-1 贷款未结清者的婚姻状况散布 2.4 贷款未结清者的工作情况和支出情况散布将贷款未结清者依照工作情况进行统计,能够得出如图 2 -4- 1 的论断: 在贷款未结清者中,35.48% 为个体经营者,64.52% 为受薪雇员,受薪雇员的占比显著高于个题经营者,且两者比例约为 2:1。将贷款未结清者依照支出状优进仃,-30 00O)和高收入者 (50,000-100, 000) 清者中,中等收入者 (15,000-20,000、20,000-30,000) 和高收入者(50,000-100,000) 的频数最高,而低收入者(<10,000、>=500,000)的频数最低。由此能够思考,在贷款审批时对中等支出和高支出的群体进行跟进一步的经济背景考察和征信考察。

图 2-4-1 贷款未结清者的工作情况散布

图 2-4-2 贷款未结清者的支出情况散布 3 贷款志愿与行为信息剖析在数据集中,贷款志愿次要由装置的短期以及长期贷款类的 APP 数量表征。因为贷款行为在少数状况下是在肯定时间段内对资金的需要或者对资金需要的预期所产生的融资行为,故在思考贷款志愿与贷款行为信息剖析时可重点考查肯定时间段内装置的贷款类 APP 数量。别离将贷款未结清者(蓝色)与曾经结清者(橙色)近 3 天与 30 天内装置短期贷款 APP 数绘制成热力求, 如图 3 - 1 所示, 贷款已结清者与未结清者的热力散布十分近似,所以可认为在肯定时间段内装置的短期贷款 APP 数量与贷款是否结清的相关性较低。

图 3-1 贷款未结清者与曾经结清者近 3 天与 30 天内装置短期贷款 APP 数热力求再别离将贷款未结清者(蓝色)与曾经结清者(橙色)近 30 天与 90 天内装置长期贷款 APP 数绘制成热力求,如图 3 - 2 所示,贷款已结清者与未结清者的热力散布同样十分近似,所以也可认为在肯定时间段内装置的长期贷款 APP 数量与贷款是否结清的相关性同样较低。

图 3-2 贷款未结清者与曾经结清者近 30 天与 90 天内装置长期贷款 APP 数热力求联合以上剖析揣测,因为贷款志愿与行为多出自于业务上的主观需要,所以贷款志愿近与行为具备与外生变量类似的个性,因此贷款志愿与行为的变动与是否可能在规定工夫内结清贷款相关性不大。4 征信信息剖析将征信数据归一化之后,计算贷款未结清者与已结清者之间次要指标的差值,如图 4 -1。剖析可得,对征信分数、在贷账户数等正指标(即值越高越信用越好),未结清者显著低于已结清者。对历史逾期总金额、近 60 查问机构数等负指标(即值越高越信用越好),未结清者显著高于已结清者。由此可得,征信信息中的正指标与负指标与是否能按期结清贷款有较为显著的正相干与负相关关系。所以在审批贷款时,应该增强对征信信息的剖析与考察,以升高贷款者逾期未结清的概率。

图 4-1 未结清与结清者征信指标差(未结清 - 结清者)5 基于机器学习办法的结清情况预测因为贷款是否能按时结清受到诸多因素影响,也会因为偶尔因素产生扰动,同时思考到对每一个客户进行人工剖析的人工成本和工夫老本较高,故思考训练基于机器学习办法的结清情况预测模型,在理论利用中能够间接输出指标利用模型对是否可能结清做出预测,从而作为人工审批的根据。别离采纳 LogisticRegression、DecisionTree、SVM、XGBoost 算法,以 dataset_new 中要害属性作为样本属性,训练集: 测试集 =8:2 宰割所有样本和标签进行训练, 所得测试集准确率与训练工夫如表 5 - 1 所示。表 5-1 各算法测试集准确率与训练工夫

由表 5 - 1 可得,各算法测试集准确率均为 1.0,而在训练工夫上 DecisionTree 显著低于其余三种算法。思考到事实利用中数据集规模可能更大,所以可思考利用 DecisionTree 对是否能结清贷款进行预测以节约老本和提高效率。6 总结此报告对数据集属性进行了分类,并逐个剖析各类属性与是否可能结清贷款的关系。同时给出了一种工夫成本低、准确度高的基于机器学习预测是否可能结清贷款的办法,用于帮助贷款审批决策与剖析工作。

最受欢迎的见解 1.R 语言多元 Logistic 逻辑回归 利用案例 2. 面板平滑转移回归 (PSTR) 剖析案例实现 3.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)4.R 语言泊松 Poisson 回归模型剖析案例 5.R 语言回归中的 Hosmer-Lemeshow 拟合优度测验 6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现 7. 在 R 语言中实现 Logistic 逻辑回归 8.python 用线性回归预测股票价格 9.R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

退出移动版