关于数据挖掘:R语言基于决策树的银行信贷风险预警模型附代码数据

原文链接：http://tecdat.cn/?p=2783

最近咱们被客户要求撰写对于信贷风险预警的钻研报告，包含一些图形和统计输入。
我国经济高速倒退，集体信贷业务也随着疾速倒退，而集体信贷业务对进步内需，促成生产也有拉动作用

引言

有正必有反，在集体信贷业务规模不断扩大的同时，信贷的守约等危险问题也日益突出，肯定水平上制约着我国的信贷市场的衰弱倒退。

挑战

近年来，个人消费贷款的类型呈现出多元化的变动与倒退，由本来的繁多贷款品种倒退到明天各式各样的贷款品种，汽车按揭贷款，教育助学贷款，耐用消费品贷款（家电，电脑，厨具等），结婚贷款等在我国陆续发展。守约危险是指债务人因为各种起因不能按时偿还贷款债权的危险，对于商业银行来说，守约危险次要是指因为贷款人得还款能力降落或者信用程度升高从而守约。

决策树

决策树（Decision Tree）是用于分类和预测的次要技术，它着眼于从一组无规则的事例推理出决策树示意模式的分类规定，采纳自顶向下的递归形式，在决策树的外部节点进行属性值的比拟，并依据不同属性判断从该节点向下分支，在决策树的叶节点失去论断。因而，从根节点到叶节点就对应着一条正当规定，整棵树就对应着一组表达式规定。决策树是数据分析中一种常常要用到且十分重要的技术，既可能用于数据分析，也可能作预测。基于决策树算法的一个最大的长处是它在学习过程中不须要使用者理解很多背景常识，只有训练事例可能用属性即论断的形式表达出来，就能应用该算法进行学习。

基于决策树的分类模型有如下几个特点：（1）决策树办法构造简略,,便于了解;（2）决策树模型效率高，对训练集数据量较大的状况较为适宜;（3）树办法通常不须要承受训练集数据外的常识;（4）决策树办法具备较高的分类精确度。

相干视频

拓端

，赞24

拓端

，赞15

预警方案设计

数据在进行操作的过程中，咱们一共分了四步，别离是数据分析和拆散数据集，建设训练数据集决策树，评估模型性能，进步模型性能。

数据分析和拆散数据集

在数据进行剖析时，能够从中晓得所有申请者的守约状况在拆散数据集这一步，咱们将数据分成两局部：用来建设决策树训练数据集和用来评估模型性能的测试数据集，依照80％训练集和20％测试集来拆散样本。总的来看，这两个数据集的比例是大致相同的，所以拆散的两个数据集是正当的。

训练数据集	测试数据集
守约	不守约	守约	不守约
0.31625	0.68375	0.235	0.765
25300	54700	4700	15300

表1

建设训练数据集决策树

图1

图1是训练数据集决策树的根本状况。

图2

图2是训练数据集的局部决策树。

因为咱们咱们的数据宏大，生成的决策树十分的大，上图的输入显示了决策树的局部分枝，咱们用简略的语言来举例解释前五行：

（1）如果支票账户余额是未知的，则归类为不太可能守约。

（2）否则，如果支票账户余额少于0，或者1〜200之间;

（3）月贷款期限少于或等于11个月的

（4）信用记录是危及，好的，优良的，差的，归类为不太可能守约。

（5）信用记录是十分优良的，就归类为很有可能守约。

括号中的数字示意合乎该决策准则的案例的数量以及依据该决策不正确分类的案例的数量。

在决策树中咱们不难发现，为什么一个申请者的信用记录十分优良，却被判成很有可能守约，而那些支票余额未知的申请者却不太可能守约呢？这些决策看似没有逻辑意义，但其实它们可能反映了数据中的一个实在模式，或者它们可能是统计中的异样值。

在决策树生成后，输入一个混同矩阵，这是一个穿插列表，示意模型对训练数据谬误分类的记录数：

家喻户晓，决策树有一种适度拟合训练数据模型的偏向，因为这个起因，训练数据中报告的错误率可能过于乐观，因而，基于测试数据集来评估决策树模型是十分重要的。

点击题目查阅往期内容

R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡守约剖析信贷数据集

左右滑动查看更多

评估模型性能

在这一步中应用测试数据集做预测，后果如图3所示。

理论值	预测值	行共计
不守约	守约
不守约	125000.625	28000.140	15300
守约	23000.115	24000.120	4700
列共计	14800	5200	20000

表2

从表2中能够得悉，在测试集样本中，理论不守约被判为不守约的数量，占比为0.625;理论不守约被判为守约的数量，占比为0.140;而理论守约被判为不守约的数量占比为0.115;理论守约被判为守约的数量，占比为0.120。

从银行角度登程，申请人理论不守约被判为守约的影响远没有理论守约被判为不守约的影响大。起因有以下几点：一，申请人理论不守约被判为守约，银行可能不会通过贷款申请，从而不发放贷款，这样银行不会蒙受贷款发放进来却收不回来的危险，只是少收局部贷款利息而已。二，申请人理论守约被判为不守约，银行可能会批准申请人的贷款申请批准发放贷款，在发放贷款后，被判为不守约的申请人可能会因为不足诚信，不恪守合约规定按时还款，这样银行不仅损失了利息的支出，连本金都有可能收不回来三，在测试数据集数据中，理论不守约的数量，占比0.183;而理论守约的数量，被判为不守约的数量，占比0.489。

由以上三点能够得出结论，基于训练测试集得出的模型，用测试数据集中的数据进行测验，最终进去的后果并不是很好。从银行角度登程，如果应用该模型援用到理论生存中，会因为申请人理论守约被误判为不守约的概率太大，而使银行做出谬误的决定，从而产生损失。

模型优化计划 – 减少迭代次数，代价矩阵

由下面的评估模型性能能够得悉，基于训练数据集得出的模型不太现实，因而咱们来进步模型的性能。

1，迭代10次

首先咱们抉择应用迭代10次的办法进行对模型性能的进步。

理论值	预测值	行共计
不守约	守约
不守约	133000.665	20000.100	15300
守约	23000.115	24000.120	4700
列共计	15600	4400	20000

表3

由表3能够晓得通过10次迭代，理论守约被判为不守约的数量占比0.115，与训练数据集的模型相比没有变动;而理论不守约被判为守约的数量，占比0.100。

从银行角度登程，这次的模型性能进步没有很大的实际意义，因为影响银行是否亏损的最次要因素是看理论守约被判为不守约的比重，而这次的性能进步并没有缩小理论守约被判为不守约的数量，所以咱们还要持续进步模型的性能。

2，迭代100次

依据下面的步骤晓得，迭代10次进去的模型成果并不是很好，所以咱们在这一步进行迭代100次的操作。

理论值	预测值	行共计
不守约	守约
不守约	129000.645	24000.120	15300
守约	24000.120	23000.115	4700
列共计	15300	4700	20000

表4

通过迭代100次的过程进去的后果由表4所示，与训练数据集的后果图相比，由此能够看出该次模型性能的晋升没有较大成果。

3，代价矩阵

因为上述两次操作均没有使得模型的性能失去较大的晋升，所以在这一步咱们决定采纳代价矩阵的形式来进行。

这里咱们假如将一个守约用户谬误的分类为不守约相比于将不守约用户谬误的分类为守约来说，前者相较于后者会给贷款方造成4倍的损失，故代价矩阵为：

上述矩阵行示意实在值，列示意预测值，第一列和第一行代表不守约，第二列和第二行代表守约。如果该算法正确分类时，则没有调配代价。图6是退出代价矩阵的模型分类后果汇总。

理论值	预测值	行共计
不守约	守约
不守约	76000.380	77000.385	15300
守约	10000.050	37000.185	4700
列共计	8600	11400	20000

表5

相较于后面的后果，在退出代价矩阵后的模型成果不错，在理论守约被判为不守约的比例上失去了较大水平的降落。

图3

图3是测试数据集的局部决策树。

倡议

现今，我国的生存程度逐渐晋升，集体的消费水平也跟着回升，但仍有很多人的工资薪酬涨幅跟不上生产的增长，就会从商业银行贷款作为经济生存维持，已晋升本人的生存程度，不仅是车辆按揭贷，房产按揭贷款，教育助学贷款，耐用消费品贷款，结婚贷款等在我国陆续发展，数量与规模也越来越宏大。商业银行要从贷款中获利，就必须增强对于贷款的风险管理，在进行繁多评估的同时从大量法则中获取教训，对于人力无奈了解的大规模数据，就需相干钻研来获取有用的法则，帮忙商业银行及其他金融机构做出决策，而决策树对银行及金融机构来说就是一种很好的决策治理办法。

通过决策树的每一个子节点能够看出哪一个自变量会对贷款守约有多大的影响，从而商业银行能够更加的关注客户的这一方面，在这方面严格把关。算法可能为影响较大的谬误分类进行误判代价值的设定，从而使模型在这类误判中的减少器重，升高这类谬误产生的概率。假如银行将实际上不守约的客户判成了守约，银行仅仅是少取得几笔贷款的利息，不至于把整笔贷款都亏掉变成坏账;但如果银行应用了这种算法，对客户的守约可能性做出更为精确的判断，便能缩小银行对理论守约的客户错判成不守约的状况，升高银行呈现贷款无奈追收的状况。

本文摘选《 R语言基于决策树的银行信贷风险预警模型 》，点击“浏览原文”获取全文残缺材料。

点击题目查阅往期内容

Python信贷风控模型：Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷守约领取|数据分享R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
Python中用PyTorch机器学习神经网络分类预测银行客户散失模型
Python中用PyTorch机器学习分类预测银行客户散失模型
银行信用数据SOM神经网络聚类实现
数据度量生产贷款—影响因素数据分析
R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林剖析心脏病患者
R语言样条曲线、决策树、Adaboost、梯度晋升(GBM)算法进行回归、分类和动静可视化
R语言用主成分PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R语言基于树的办法：决策树，随机森林，Bagging，加强树
spss modeler用决策树神经网络预测ST的股票
在RapidMiner中建设决策树模型
R语言中应用线性模型、回归决策树主动组合特色因子程度
R语言中自编基尼系数的CART回归决策树的实现
决策树算法建设电信客户散失模型
R语言用rle，svm和rpart决策树进行工夫序列预测
python在Scikit-learn中用决策树和随机森林预测NBA获胜者python中应用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和穿插验证

关于数据挖掘:R语言基于决策树的银行信贷风险预警模型附代码数据

原文链接：http://tecdat.cn/?p=2783

引言

挑战

预警方案设计

数据分析和拆散数据集

建设训练数据集决策树

评估模型性能

模型优化计划 – 减少迭代次数，代价矩阵

倡议

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:R语言基于决策树的银行信贷风险预警模型附代码数据

原文链接：http://tecdat.cn/?p=2783

引言

挑战

预警方案设计

数据分析和拆散数据集

建设训练数据集决策树

评估模型性能

模型优化计划 – 减少迭代次数，代价矩阵

倡议

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复