关于数据挖掘:SAS分类决策树预测贷款申请评分剪枝和结果可视化

4次阅读

共计 1997 个字符,预计需要花费 5 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=25111 

分类树的一个常见用处是预测抵押贷款申请人是否会拖欠贷款。数据蕴含对 5,960 名抵押贷款申请人的察看后果。一个名为的变量 Bad 示意申请人在取得贷款批准后是还清贷款还是拖欠贷款。

此示例构建一个树模型,该模型用于对数据进行评分,并可用于对无关新申请人的数据进行评分。

数据变量

表:数据表中的变量

变量

类型

等级

形容

Bad

因变量

二进制

1 = 申请人拖欠贷款或重大拖欠贷款

0 = 申请人还清贷款

CLAge

预测变量

区间

最长信用额度的月龄

CLNo

预测变量

区间

信用额度数量

DebtInc

预测变量

区间

债权支出比

Delinq

预测变量

区间

拖欠信用额度的数量

Derog

预测变量

区间

重大贬损报道数量

Job

预测变量

标称

职业类别

Loan

预测变量

区间

申请贷款金额

MortDue

预测变量

区间

抵押贷款到期金额

nInq

预测变量

区间

近期信用查问次数

Reason

预测变量

二进制

DebtCon = 债权合并

HomeImp = 家庭改善

Value

预测变量

区间

财产价值

YoJ

预测变量

区间

目前工作年限

加载数据

树模型的因变量是 Bad,一个有两个值的分类变量(0 代表贷款领取,1 代表守约)。其余变量是模型的预测变量。以下语句将数据加载到会话中并显示数据表的前 10 个察看值。

/* 将变量名称转换为混合大小写 */
data my.hm;
   length Bd oan Motue Value 8 Reason Job $7

显示 的前 10 个观测值。

输入数据的局部列表 

创立分类决策树

以下语句创立分类树:

proc  maxdepth=5;
   model Bad = Dei o JbIq as LAeL
               DtInLa Mrue ae J;
   prune costcomplexity;

这 MAXDEPTH= 选项指定要成长的树的最大深度为 5。

Bad 在等号左侧 指定 MODEL 语句表明它是因变量。

因为没有蕴含 GROW 语句,所以 PROC TREEPLIT 默认应用熵度量,它计算增长树的增益。这 PRUNE 语句要求进行老本复杂性修剪。

这 PARTITION 申明要求将察看后果 Hmeq 划分为不相交的子集以进行模型训练和验证。随机抉择观测值作为验证子集,概率为 0.3;为训练子集抉择残余的察看值。

FILE= 选项 CODE 语句申请将 SAS DATA 步得分代码保留到名为 trc.sas.

树形图

最终树的概览图

如绘图图例中的色彩所示,为终端节点中的察看调配了 Bad=0 或 =1 的预测。叶节点中的第一个条形显示与训练分区中 =0 或 =1Bad 的预测相匹配的因变量的比例,叶节点中的第二个条形显示与验证分区中匹配的因变量的比例。线的粗细示意哪些节点具备更多的总观测值。

树形图在是树顶部的具体视图。

具体树形图

默认状况下,此视图提供无关树的前三个级别的具体拆分信息,包含根级别。每个节点上方的拆分规定显示拆分变量和拆分值;该规定确定来自父节点的哪些察看值蕴含在节点中。节点内表的第一行提供节点标识符。第二行提供训练察看的数量,后跟反斜杠,而后是验证察看的数量。如果在该点产生分类,第三行显示该节点中察看的预测因变量,以及训练察看与察看到的因变量的比例。这通过反斜杠与验证察看的比例离开。

显示最终树的拟合统计量

输入:树性能

树决裂程序

显示修剪图

修剪图

此图显示修剪树时训练和验证数据的谬误分类率。垂直线显示选定的最终树,它对验证数据具备最低的误分类率。

创立评分代码并对新数据进行预测评分

除了查看无关树模型的信息之外,您可能有趣味利用该模型来预测因变量未知的其余数据表中的因变量。您能够运行 SAS DATA 步代码对新数据进行评分。以下是示例:

data scd;
   set smo.hq;
   %include 'tc.sas';
run;

显示 的局部列表。

输入:评分 数据的局部列表

数据表蕴含由分数代码创立的 13 个原始变量和 4 个新变量。变量 PA1 是这片叶子中训练察看的比例 BAD=1;这个变量能够解释为守约概率。该变量 IAD 示意观测值的 BAD 预测值。

您能够应用后面的语句对新数据进行评分,办法是在 SET 语句中蕴含新数据表。新数据表必须蕴含与用于构建树模型的数据雷同的变量,但不能蕴含您当初要预测的未知因变量。


最受欢迎的见解

1. 从决策树模型看员工为什么到职

2.R 语言基于树的办法:决策树,随机森林

3.python 中应用 scikit-learn 和 pandas 决策树

4. 机器学习:在 SAS 中运行随机森林数据分析报告

5.R 语言用随机森林和文本开掘进步航空公司客户满意度

6. 机器学习助推快时尚精准销售工夫序列

7. 用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用

8.python 机器学习:举荐零碎实现(以矩阵合成来协同过滤)

9.python 中用 pytorch 机器学习分类预测银行客户散失

正文完
 0