关于算法:大数据部落R语言基于决策树的银行信贷风险预警模型

63次阅读

共计 3524 个字符,预计需要花费 9 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=2783

引言

我国经济高速倒退,集体信贷业务也随着疾速倒退,而集体信贷业务对进步内需,促成生产也有拉动作用。有正必有反,在集体信贷业务规模不断扩大的同时,信贷的守约等危险问题也日益突出,肯定水平上制约着我国的信贷市场的衰弱倒退。

挑战

近年来,个人消费贷款的类型呈现出多元化的变动与倒退,由本来的繁多贷款品种倒退到明天各式各样的贷款品种,汽车按揭贷款,教育助学贷款,耐用消费品贷款(家电,电脑,厨具等),结婚贷款等在我国陆续发展。守约危险是指债务人因为各种起因不能按时偿还贷款债权的危险,对于商业银行来说,守约危险次要是指因为贷款人得还款能力降落或者信用程度升高从而守约。

实践相干概述

=============

决策树

决策树(Decision Tree)是用于分类和预测的次要技术,它着眼于从一组无规则的事例推理出决策树示意模式的分类规定,采纳自顶向下的递归形式,在决策树的外部节点进行属性值的比拟,并依据不同属性判断从该节点向下分支,在决策树的叶节点失去论断。因而,从根节点到叶节点就对应着一条正当规定,整棵树就对应着一组表达式规定。决策树是数据分析中一种常常要用到且十分重要的技术,既可能用于数据分析,也可能作预测。基于决策树算法的一个最大的长处是它在学习过程中不须要使用者理解很多背景常识,只有训练事例可能用属性即论断的形式表达出来,就能应用该算法进行学习。

基于决策树的分类模型有如下几个特点:(1)决策树办法构造简略,, 便于了解;(2)决策树模型效率高,对训练集数据量较大的状况较为适宜;(3)树办法通常不须要承受训练集数据外的常识;(4)决策树办法具备较高的分类精确度。

预警方案设计

数据在进行操作的过程中,咱们一共分了四步,别离是数据分析和拆散数据集,建设训练数据集决策树,评估模型性能,进步模型性能。

数据分析和拆散数据集

在数据进行剖析时,能够从中晓得所有申请者的守约状况在拆散数据集这一步,咱们将数据分成两局部:用来建设决策树训练数据集和用来评估模型性能的测试数据集,依照 80%训练集和 20%测试集来拆散样本。总的来看,这两个数据集的比例是大致相同的,所以拆散的两个数据集是正当的。

训练数据集

测试数据集

守约

不守约

守约

不守约

0.31625

0.68375

0.235

0.765

25300

54700

4700

15300

表 1

建设训练数据集决策树

图 1

图 1 是训练数据集决策树的根本状况。

图 2

图 2 是训练数据集的局部决策树。

因为咱们咱们的数据宏大,生成的决策树十分的大,上图的输入显示了决策树的局部分枝,咱们用简略的语言来举例解释前五行:

(1)如果支票账户余额是未知的,则归类为不太可能守约。

(2)否则,如果支票账户余额少于 0,或者 1〜200 之间;

(3)月贷款期限少于或等于 11 个月的

(4)信用记录是危及,好的,优良的,差的,归类为不太可能守约。

(5)信用记录是十分优良的,就归类为很有可能守约。

括号中的数字示意合乎该决策准则的案例的数量以及依据该决策不正确分类的案例的数量。

在决策树中咱们不难发现,为什么一个申请者的信用记录十分优良,却被判成很有可能守约,而那些支票余额未知的申请者却不太可能守约呢?这些决策看似没有逻辑意义,但其实它们可能反映了数据中的一个实在模式,或者它们可能是统计中的异样值。

在决策树生成后,输入一个混同矩阵,这是一个穿插列表,示意模型对训练数据谬误分类的记录数:

家喻户晓,决策树有一种适度拟合训练数据模型的偏向,因为这个起因,训练数据中报告的错误率可能过于乐观,因而,基于测试数据集来评估决策树模型是十分重要的。

评估模型性能

在这一步中应用测试数据集做预测,后果如图 3 所示。

理论值

预测值

行共计

不守约

守约

不守约

12500

0.625

2800

0.140

15300

守约

2300

0.115

2400

0.120

4700

列共计

14800

5200

20000

表 2

从表 2 中能够得悉,在测试集样本中,理论不守约被判为不守约的数量,占比为 0.625; 理论不守约被判为守约的数量,占比为 0.140; 而理论守约被判为不守约的数量占比为 0.115; 理论守约被判为守约的数量,占比为 0.120。

从银行角度登程,申请人理论不守约被判为守约的影响远没有理论守约被判为不守约的影响大。起因有以下几点:一,申请人理论不守约被判为守约,银行可能不会通过贷款申请,从而不发放贷款,这样银行不会蒙受贷款发放进来却收不回来的危险,只是少收局部贷款利息而已。二,申请人理论守约被判为不守约,银行可能会批准申请人的贷款申请批准发放贷款,在发放贷款后,被判为不守约的申请人可能会因为不足诚信,不恪守合约规定按时还款,这样银行不仅损失了利息的支出,连本金都有可能收不回来三,在测试数据集数据中,理论不守约的数量,占比 0.183; 而理论守约的数量,被判为不守约的数量,占比 0.489。

由以上三点能够得出结论,基于训练测试集得出的模型,用测试数据集中的数据进行测验,最终进去的后果并不是很好。从银行角度登程,如果应用该模型援用到理论生存中,会因为申请人理论守约被误判为不守约的概率太大,而使银行做出谬误的决定,从而产生损失。

模型优化计划 – 减少迭代次数,代价矩阵

由下面的评估模型性能能够得悉,基于训练数据集得出的模型不太现实,因而咱们来进步模型的性能。

1,迭代 10 次

首先咱们抉择应用迭代 10 次的办法进行对模型性能的进步。

理论值

预测值

行共计

不守约

守约

不守约

13300

0.665

2000

0.100

15300

守约

2300

0.115

2400

0.120

4700

列共计

15600

4400

20000

表 3

由表 3 能够晓得通过 10 次迭代,理论守约被判为不守约的数量占比 0.115,与训练数据集的模型相比没有变动; 而理论不守约被判为守约的数量,占比 0.100。

从银行角度登程,这次的模型性能进步没有很大的实际意义,因为影响银行是否亏损的最次要因素是看理论守约被判为不守约的比重,而这次的性能进步并没有缩小理论守约被判为不守约的数量,所以咱们还要持续进步模型的性能。

2,迭代 100 次

依据下面的步骤晓得,迭代 10 次进去的模型成果并不是很好,所以咱们在这一步进行迭代 100 次的操作。

理论值

预测值

行共计

不守约

守约

不守约

12900

0.645

2400

0.120

15300

守约

2400

0.120

2300

0.115

4700

列共计

15300

4700

20000

表 4

通过迭代 100 次的过程进去的后果由表 4 所示,与训练数据集的后果图相比,由此能够看出该次模型性能的晋升没有较大成果。

3,代价矩阵

因为上述两次操作均没有使得模型的性能失去较大的晋升,所以在这一步咱们决定采纳代价矩阵的形式来进行。

这里咱们假如将一个守约用户谬误的分类为不守约相比于将不守约用户谬误的分类为守约来说,前者相较于后者会给贷款方造成 4 倍的损失,故代价矩阵为:

上述矩阵行示意实在值,列示意预测值,第一列和第一行代表不守约,第二列和第二行代表守约。如果该算法正确分类时,则没有调配代价。图 6 是退出代价矩阵的模型分类后果汇总。

理论值

预测值

行共计

不守约

守约

不守约

7600

0.380

7700

0.385

15300

守约

1000

0.050

3700

0.185

4700

列共计

8600

11400

20000

表 5

相较于后面的后果,在退出代价矩阵后的模型成果不错,在理论守约被判为不守约的比例上失去了较大水平的降落。

图 3

图 3 是测试数据集的局部决策树。

倡议

现今,我国的生存程度逐渐晋升,集体的消费水平也跟着回升,但仍有很多人的工资薪酬涨幅跟不上生产的增长,就会从商业银行贷款作为经济生存维持,已晋升本人的生存程度,不仅是车辆按揭贷,房产按揭贷款,教育助学贷款,耐用消费品贷款,结婚贷款等在我国陆续发展,数量与规模也越来越宏大。商业银行要从贷款中获利,就必须增强对于贷款的风险管理,在进行繁多评估的同时从大量法则中获取教训,对于人力无奈了解的大规模数据,就需相干钻研来获取有用的法则,帮忙商业银行及其他金融机构做出决策,而决策树对银行及金融机构来说就是一种很好的决策治理办法。

通过决策树的每一个子节点能够看出哪一个自变量会对贷款守约有多大的影响,从而商业银行能够更加的关注客户的这一方面,在这方面严格把关。算法可能为影响较大的谬误分类进行误判代价值的设定,从而使模型在这类误判中的减少器重,升高这类谬误产生的概率。假如银行将实际上不守约的客户判成了守约,银行仅仅是少取得几笔贷款的利息,不至于把整笔贷款都亏掉变成坏账; 但如果银行应用了这种算法,对客户的守约可能性做出更为精确的判断,便能缩小银行对理论守约的客户错判成不守约的状况,升高银行呈现贷款无奈追收的状况。

正文完
 0