乐趣区

关于数据挖掘:SAS数据挖掘EM贷款违约预测分析逐步Logistic逻辑回归决策树随机森林附代码数据

全文链接:http://tecdat.cn/?p=31745

原文出处:拓端数据部落公众号

最近咱们被客户要求撰写对于贷款守约预测的钻研报告,包含一些图形和统计输入。

近几年来,各家商业银行陆续推出多种贷款业务,如何辨认贷款守约因素曾经成为各家商业银行衰弱有序倒退贷款业务的要害。在贷款守约预测的数据的根底上,摸索是否能通过借贷者的数据判断其守约危险,从而帮忙商业银行提前做好应答。

解决方案

工作 / 指标

依据借款者的个人信息和贷款的属性,使用 SAS EM 软件,应用多种模型进行剖析。

数据源筹备

因获取数据的能力无限,并为了保障数据量足够微小且数据品质较高,咱们抉择了贷款守约预测的数据。整个数据集为有 800,000 条数据,每条数据除了 ID、是否守约 isDefault 该目标值,还包含 loanAmnt、term、interestRate、installment、grade、employmentTitle、employmentLength、homeOwnership 29 个变量,变量的具体情况在数据摸索中进行形容。

特色转换

为了进一步探索 issueDate 和 earliesCreditLine 这两个工夫 ID 的工夫长远性是否会对咱们的预测产生影响,另外减少了两个变量,别离是 interval_issueDate 和 Interval_earliesCreditLine, 都是用 2020 减去 issueDate 和 earliesCreditLine 的年份失去的。对缺失数据进行补缺,批改年份变量为区间型变量并对其进行分箱解决,对偏正态分布的变量进行对数解决,回绝单值型变量。

划分训练集和测试集

划分数据集的 50% 为训练集,50% 为验证集。

建模

应用逐渐 Logistic 回归

回归结果显示,贷款守约危险与年收入负相关,与债权支出比正相干,与利率正相干,与贷款金额正相干;对于分类变量,贷款年限 3 年的贷款守约危险显著小于贷款 5 年,2013-2015 年的贷款守约危险显著大于 2015-2017 年等等。

决策树

应用二分支和三分支决策树进行剖析,结果显示影响贷款守约的重要因素有 homeOwnership、ficoRangeHigh、dti、grade、term、issueDate 等。

随机森林

调参后设置最大树个数为 100,最大深度为 50,显著性程度为 0.05,结果显示训练误分类率为 0.1964,验证误分类率为 0.1974,依据 Gini 缩减,对分类准确度影响较大的变量为 grade、interestRate、term、dti、ficoRangeHigh 等。

模型比拟

通过比拟发现,Logistic 回归具备最小的验证误分类率,为 0.1965,其次是三分支决策树和随机森林,最差的为二分支决策树。

在累积晋升度和 ROC 曲线上,Logistic 回归和随机森林体现相近,二分支决策树和三分支决策树体现相近,然而 Logistic 回归和随机森林模型体现显著优于两个决策树模型。

逐步回归模型的验证误分类率低于决策树 1、决策树 2 和随机森林模型,这表明在这四个模型中,逐步回归模型相比其余模型对于新样本具备更强的泛化能力,在对新样本守约概率的预测上更加精确。

依据后果,就数值型变量而言,守约危险与借款人的债权支出比 dti、循环额度利用率 revolUtil、贷款利率 interestRate、贷款金额 loanAmnt、借款人信用档案中未结信用额度的数量 openAcc 显著正相干;与待业职称 employmentTitle、年收入 annualIncome、借款人在贷款发放时的 FICO 所属的上限范畴 ficoRangeLow、分期付款金额 installment、信贷周转余额共计 revolBal、借款人信用档案中以后的信用额度总数 totalAcc 显著负相关。

对于贷款发放年份 issueDate,相较于 2017 年 6 月之后发放的贷款,2013 年 6 月之前发放的贷款守约危险显著更大,贷款发放年份在 2013.6-2015.6 年的守约危险稍低,在 2015.6-2017.6 年的贷款则显著更小。

申请类型 applicationType 为 0 时,其守约危险显著小于其值为 1 时。

绝对于贷款等级 G,贷款等级为 A、B、C 时,其守约危险显著更大,贷款等级为 D、E、F 时,守约危险则显著更小。

绝对于屋宇所有权情况 homeOwnership 为 5 时,homeOwnership 为 1 时,守约危险显著更小,homeOwnership 为 0,2,3 时,守约危险减小,但其后果在统计学上不显著;homeOwnership 为 4 时,守约危险升高,但在统计学上依然不显著。

贷款用处 purpose 为 0,4,5,8,12 时,守约危险显著大于用处为 13,用处为 1,7,9 时,守约危险显著更小,用处为 2,3,6,10,11 时,其守约危险绝对于 13 没有统计学意义。

贷款期限 term 为 3 年时,其守约危险显著小于贷款期限为 5 年。

验证状态 verificationStatus 为 0 时,绝对于其值为 2 时守约危险显著更大。其值为 1 时则绝对于 2 守约危险显著更小。

因而,倡议贷款发放机构在评估借款人的守约危险时,重点关注借款人的负债支出比、待业职称、年收入、屋宇所有权情况等个人信息,并剖析借款人的借款行为,包含其申请贷款的金额、利率、分期付款金额、用处、申请类型、贷款等级、贷款期限、验证状态,考察借款人的历史借款记录,包含循环额度利用率、借款人信用档案中未结信用额度的数量、贷款发放时的 FICO 所属的上限范畴、信贷周转余额共计、信用档案中以后的信用额度总数。

对于曾经发放的贷款,如果贷款行为产生于 2013 年 6 月之前,贷款发放机构应该尽快追回并做好坏账筹备。

对于分析师

在此对 Jiasong Xue 对本文所作的奉献示意诚挚感激,他在中山大学实现了管理科学业余的学位,专一商业数据分析畛域。善于 SPSS、R 语言、Python。

退出移动版