全文链接:http://tecdat.cn/?p=31745

原文出处:拓端数据部落公众号

最近咱们被客户要求撰写对于贷款守约预测的钻研报告,包含一些图形和统计输入。

近几年来,各家商业银行陆续推出多种贷款业务,如何辨认贷款守约因素曾经成为各家商业银行衰弱有序倒退贷款业务的要害。在贷款守约预测的数据的根底上,摸索是否能通过借贷者的数据判断其守约危险,从而帮忙商业银行提前做好应答。

解决方案

工作/指标

依据借款者的个人信息和贷款的属性,使用SAS EM软件,应用多种模型进行剖析。

数据源筹备

因获取数据的能力无限,并为了保障数据量足够微小且数据品质较高,咱们抉择了贷款守约预测的数据。整个数据集为有800,000条数据,每条数据除了ID、是否守约isDefault该目标值,还包含loanAmnt、term、interestRate、installment、grade、employmentTitle、employmentLength、homeOwnership 29个变量,变量的具体情况在数据摸索中进行形容。

特色转换

为了进一步探索issueDate和earliesCreditLine这两个工夫ID的工夫长远性是否会对咱们的预测产生影响,另外减少了两个变量,别离是interval_issueDate和Interval_earliesCreditLine,都是用2020减去issueDate和earliesCreditLine的年份失去的。对缺失数据进行补缺,批改年份变量为区间型变量并对其进行分箱解决,对偏正态分布的变量进行对数解决,回绝单值型变量。

划分训练集和测试集

划分数据集的50%为训练集,50%为验证集。

建模

应用逐渐Logistic回归

回归结果显示,贷款守约危险与年收入负相关,与债权支出比正相干,与利率正相干,与贷款金额正相干;对于分类变量,贷款年限3年的贷款守约危险显著小于贷款5年,2013-2015年的贷款守约危险显著大于2015-2017年等等。

决策树

应用二分支和三分支决策树进行剖析,结果显示影响贷款守约的重要因素有homeOwnership、ficoRangeHigh、dti、grade、term、issueDate等。

随机森林

调参后设置最大树个数为100,最大深度为50,显著性程度为0.05,结果显示训练误分类率为0.1964,验证误分类率为0.1974,依据Gini缩减,对分类准确度影响较大的变量为grade、interestRate、term、dti、ficoRangeHigh等。

模型比拟

通过比拟发现,Logistic回归具备最小的验证误分类率,为0.1965,其次是三分支决策树和随机森林,最差的为二分支决策树。

在累积晋升度和ROC曲线上,Logistic回归和随机森林体现相近,二分支决策树和三分支决策树体现相近,然而Logistic回归和随机森林模型体现显著优于两个决策树模型。

逐步回归模型的验证误分类率低于决策树1、决策树2和随机森林模型,这表明在这四个模型中,逐步回归模型相比其余模型对于新样本具备更强的泛化能力,在对新样本守约概率的预测上更加精确。

依据后果,就数值型变量而言,守约危险与借款人的债权支出比dti、循环额度利用率revolUtil、贷款利率interestRate、贷款金额loanAmnt、借款人信用档案中未结信用额度的数量openAcc显著正相干;与待业职称employmentTitle、年收入annualIncome、借款人在贷款发放时的FICO所属的上限范畴ficoRangeLow、分期付款金额installment、信贷周转余额共计revolBal、借款人信用档案中以后的信用额度总数totalAcc显著负相关。

对于贷款发放年份issueDate,相较于2017年6月之后发放的贷款,2013年6月之前发放的贷款守约危险显著更大,贷款发放年份在2013.6-2015.6年的守约危险稍低,在2015.6-2017.6年的贷款则显著更小。

申请类型applicationType为0时,其守约危险显著小于其值为1时。

绝对于贷款等级G,贷款等级为A、B、C时,其守约危险显著更大,贷款等级为D、E、F时,守约危险则显著更小。

绝对于屋宇所有权情况homeOwnership为5时,homeOwnership为1时,守约危险显著更小,homeOwnership为0,2,3时,守约危险减小,但其后果在统计学上不显著;homeOwnership为4时,守约危险升高,但在统计学上依然不显著。

贷款用处purpose为0,4,5,8,12时,守约危险显著大于用处为13,用处为1,7,9时,守约危险显著更小,用处为2,3,6,10,11时,其守约危险绝对于13没有统计学意义。

贷款期限term为3年时,其守约危险显著小于贷款期限为5年。

验证状态verificationStatus为0时,绝对于其值为2时守约危险显著更大。其值为1时则绝对于2守约危险显著更小。

因而,倡议贷款发放机构在评估借款人的守约危险时,重点关注借款人的负债支出比、待业职称、年收入、屋宇所有权情况等个人信息,并剖析借款人的借款行为,包含其申请贷款的金额、利率、分期付款金额、用处、申请类型、贷款等级、贷款期限、验证状态,考察借款人的历史借款记录,包含循环额度利用率、借款人信用档案中未结信用额度的数量、贷款发放时的FICO所属的上限范畴、信贷周转余额共计、信用档案中以后的信用额度总数。

对于曾经发放的贷款,如果贷款行为产生于2013年6月之前,贷款发放机构应该尽快追回并做好坏账筹备。

对于分析师

在此对Jiasong Xue对本文所作的奉献示意诚挚感激,他在中山大学实现了管理科学业余的学位,专一商业数据分析畛域。善于SPSS、R语言、Python。