关于人工智能:关于评分卡模型那些事儿看这篇就对了

危险并不是所有人都能轻松看到，信贷公司同样如此。

8 月 4 日下午 15：00，顶象研发总监就评分卡模型开展分享，具体介绍了评分卡模型的原理、评分卡模型的构建过程、评分卡模型的开发投产以及顶象的评分卡模型实际。

评分卡模型原理通常来说，咱们把贷款分为抵押贷款和信用贷款。抵押贷款顾名思义须要贷款人以抵押物作担保向银行贷款，对银行来说这是一种“有保障”的贷款，而信用贷则不须要提供抵押或担保，仅凭本人的信用就能获得贷款，这也在肯定水平上加大了信用贷的利率和危险。因此，信用贷对于金融机构和借贷公司来说是一个不小的危险。那么，如何帮忙金融机构和借贷公司来躲避危险呢？业内的无效解决办法是建设评分卡模型来帮忙金融机构和借贷公司来评估借贷人的危险。评分卡模型是罕用的金融风控伎俩之一，诞生于上世纪 50 年代，由 FICO 公司开发，经验了 70 多年仍然在信用评估中不可代替，简直每一家金融公司都在用评分卡模型来评估危险。

其原理是依据客户的各种属性和行为数据，利用信用评分模型，对客户的信用进行评分，从而决定是否给予授信，授信的额度和利率，缩小在金融交易中存在的交易危险。依照不同的业务阶段，能够划分为三种：

贷前：申请评分卡（Application score card），称为 A 卡；贷中：行为评分卡（Behavior score card），称为 B 卡；贷后：催收评分卡（Collection score card），称为 C 卡。

如何构建评分卡模型？首先咱们来初步意识下评分卡。

评分卡分为离散特色（性别、婚姻状况、学历）和间断特色（年龄、月支出），其中年龄和月支出又进行字段细分。要构建一个评分卡，须要以下几个步骤：首先是数据筹备。一般来说，构建评分卡可用的数据也分为三类：

即集体在金融机构的账户与行为数据，包含交易行为、日常生产、贷款信息、投资理财、逾期信息等；集体在中国人民银行的征信报告，包含集体近 5 年内，在国内留下的所有信用信息、家庭住址、工作单位、配偶信息、手机号、公积金、社保信息、信贷记录、房贷车贷记录、历史逾期信息、违法行为、征信查问信息，基于人行征信，能够衍生出“上千维”特色，足以构建一个成果十分不错的贷前评分卡；第三方公司提供的个人信用分，诸如芝麻分、微信领取分、京东信用分、百融分等。

实质上来说，中国人民银行的征信报告好于金融机构的账户与行为数据好于第三方公司提供的个人信用分。其次是数据摸索，包含数据的缺失状况、直方图散布、最大值、最小值、均值、分位数。而后是数据预处理，包含数据荡涤、缺失值解决、异样值解决。特色筛选，通过统计学的办法，筛选出对守约状态影响最显著的指标。次要有单变量特征选择和基于机器学习的办法。

分箱，包含变量分段、变量的 WOE（证据权重）变换和逻辑回归估算三个局部。

模型评估，评估模型的辨别能力、预测能力、稳定性，并造成模型评估报告，得出模型是否能够应用的论断。生成评分卡（信用评分），依据逻辑回归的系数和 WOE 等确定信用评分的办法，将 Logistic 模型转换为规范评分的模式。建设评分零碎（安排上线），依据生成的评分卡，建设主动信用评分零碎。最初通过评分卡模型收集守约信息，进行成果监控。

那么，如何对特色进行分箱 (区间划分)，为什么要分箱？每个分箱的得分，怎么确定的？WOE、IV、PSI、KS，它们有什么含意？咱们先来看分箱。分箱是对特色变量进行区间划分或者对不同枚举值进行合并的过程，它能够升高特色的复杂度，晋升变量可解释性。

分箱的两个性能：拆分：对“连续变量”进行分段离散化，使它变成“离散变量”。比方：年龄、月支出。

拆分分为等频拆分、等距拆分、信息熵分箱。以信息熵分箱为例，这是一种监督的拆分形式，可掂量好坏样本的区分度。其办法是先对特色所有值进行排序遍历特色所有值 (间断值须要进行细粒度分组)，以每个值做为划分点，计算“条件熵”，抉择“条件熵最小”的特征值作为宰割点，将数据分成两局部，设置一些进行条件，反复以上步骤。

合并：缩小离散变量的状态数，对“离散变量”进行合并。

比方：地区、学历。合并又分为卡方测验和 WOE 值。以卡方测验为例。卡方测验是一种假设检验办法，先提出两个变量没有相关性，而后对数据进行形象证实他们是否有相关性。依据卡方测验的计算公式比照理论频数和实践频数是否具备显著差别，卡方值越小，理论频数与实践频数就越靠近，也就证实卡方测验成立，也就能够证实分组与分类不相干。

每个变量的分箱数，管制在十个以下，通常 5 个左右是最佳的；分箱越多，模型过拟合的危险越高，模型的稳定性也会变差，在金融场景，危险可控与稳固至关重要。WOE (Weight of Evidence) 是判断“一个分箱区间”，辨别好坏样本的能力。其公式如下：

IV (Information Value) 是计算各分箱区间的 WOE 加权和，能够掂量“一个特色”，辨别好坏样本的能力。其公式如下：

但事实上，分箱办法很多，顶象实现了一种简略可行的全自动分箱办法。

对于连续变量，可先进行等频拆分失去细分箱，对于离散变量可间接认为是细分箱，而后进行 WOE 合并，每次合并 WOE 值最靠近的相邻细分箱或离散值，同时要满足以下条件：1、每个分箱至多蕴含 5% 的样本；2、每个分箱必须蕴含失常样本与守约样本；3、分箱数管制在 5 个左右；4、除了 age 外，其余变量尽可能放弃枯燥性。

值得注意的是，特色分箱并不是完满的，但总体来说利大于弊。比方连续变量分箱、离散变量合并，会“升高特色变量的复杂度，升高模型过拟合的危险”；能够“加强模型的稳定性”，对特色变量的异样稳定不会反馈太大，也利于适应更宽泛的客群；将特色变量划分为无限的分箱，能够“加强模型的可解释性”；能够更天然地将“缺失值作为独自的分箱”。

目前，支流的评分卡模型仍以逻辑回归模型为次要模型。假如客户守约的概率为 p，则失常的概率为 1 − p。由此能够失去守约几率：

评分卡是“将 Odds 赔率的对数，转变为分值的线性函数”，示意如下：

为了确定公式中的 A 与 B 值，须要定义 2 个条件:1、基准分 P_0，在 Odds 赔率为 θ_0 时的得分（例如，赔率为 1:50 时，基准分为 500）2、PDO (point of double)，Odds 赔率翻倍时缩小的分值（赔率为 1:25 时，缩小 20）

评分卡设定的分值刻度能够通过将分值示意为几率对数的线性表达式来定义，即：A 和 B 都是常数且（a>=0, b>=0）。当心愿守约几率越低，得分越高时，取负号。通常状况下，这是分值的现实变动方向，即高分值代表低危险，低分值代表高风险。

逻辑回归算法相比于其余算法更优，一方面是因为其“可解释性强，易于了解”，能够追究每个变量的得分，变量的权重也能够从业务视角去穿插验证；一方面是其“简略，稳固”可配合分箱能够进一步加强稳定性，分箱自身也肯定水平上解决了局部非线性问题；并且“易于跟踪，排查问题”，当模型消退、客群发生变化时，通过分箱的 PSI 与 IV 能够疾速定位出问题的起因。

评分卡模型如何评估、利用、跟踪？评分卡模型评估分为成果评估和稳定性评估。先来看成果评估。

模型输入的每个评分值，都能够作为阈值。如果小于阈值，咱们能够预测为“守约”，如果大于等于阈值，则能够预测为“失常”，依据每个阈值，能够计算出混同矩阵，而后依据混同矩阵咱们能够进一步计算出守约比率或失常比率，进而得出 KS 曲线或者 ROC 曲线。其中，KS 曲线具备对好坏样本的辨别能力，如果 KS 值小于 0.20 则不倡议采纳，大于 0.75 则可能存在谬误。

但须要留神的是，独自从 KS 训练样本评估出的 KS 值还不足以评估模型的好坏，肯定要做长期的验证来证实 KS 值是稳固的，确保模型在验证集上的 KS 与训练样本上的 KS，不呈现大幅度降落，如果降落幅度超过 10% (比方: 训练集 KS = 0.50，4 个月后 KS_4 = 0.45, 降落幅度为 10%)，阐明模型消退显著，也就进一步阐明其稳定性是有问题的。接下来看下稳定性评估。

PSI（Population Stability Index）称为群体稳定性指标，用来“比照 2 个数据集的散布，是否产生比拟大的偏差”，比照肯定要有参照物，对评分卡模型来说，参照物是模型训练时的“训练样本”(冀望散布)，而评估对象称为“验证样本”(理论散布)。PSI 越小则阐明稳定性越好，如果 PSI 大于 0.50 则须要进一步剖析特色变量。

PSI 可从两个计算维度来看，即评分 PSI 和特色变量 PSI。评分 PSI 对“模型的输入分值”进行分箱，在验证集与训练集上做 PSI 比照，判断是否产生大的变动。如下图，冀望散布代表训练集，理论散布代表验证集。

特色变量 PSI 对“入模的每个特色变量”进行分箱，在验证集与训练集上做 PSI 比照，判断是否产生大的变动。同样的，PSI 也须要做跨期验证。确保“评分值、每个特色变量”，在近 N 个月的验证集上，比照训练集计算出的 PSI，在可承受的范畴内。

接下来看下模型的利用。

当模型评估合格后，此时咱们须要衡量守约率与通过率，确定主动通过阈值。如果阈值在 0.2%~0.8% 之间则可主动通过阈值，如果在 0.8%~3.0% 之间则须要人工审核阈值，如果大于 3.0% 则会间接回绝。评分越高，守约率与通过率也是逐渐晋升，此时咱们就须要衡量守约率与通过率，设定阈值来辨别样本好坏。

最初咱们来看下模型跟踪。当模型利用后，可能会呈现消退甚至不可用，其起因次要有三：

一是客群变动：模型开发阶段选取的人群，与利用阶段的人群，产生大的偏差。业务在利用的过程中，有可能在某个渠道引入新人群。

二是特色变量的含意或加工逻辑发生变化：入模的特色变量，在某个工夫点，技术人员不小心更改了字段的加工逻辑，比方：字段的工夫窗口，过滤条件等逻辑变动。

三是社会环境发生变化：同样的客群，在不同期间不同的社会经济环境下，模型的成果体现可能也会不同，比方：新冠疫情、俄乌抵触等社会问题，会导致经济衰退、失业率升高，进而影响客户的还款能力。而发现模型消退时，可通过“评分 PSI”能够发现问题，但其根本原因是特色变量，模型监控与剖析，肯定要深刻到“特色变量”，通过“特色变量 PSI”找出根本原因。模型跟踪也分为 PSI 和 KS。PSI 可做月度监控，当月的“申请样本”与“模型训练样本”进行比照，计算出“评分 PSI”与“每个特色变量的 PSI”。

同样的，KS 也可做月度监控：收集月度内的“申请样本”以及“守约标签”，计算出“评分 KS”与“每个特色变量的 IV”。

整体来看，评分卡模型是统计学的翻新利用，分箱与 WOE 编码升高了数据的复杂度，升高了特色的灵敏度，晋升了模型的稳定性，同时可进行跨期验证，确保验证模型的长期稳固牢靠，并且具备配套的跟踪监控体系，依据评分 PSI、参数 PSI、评分 KS、参数 IV 疾速分析模型消退的起因。

下期咱们业务平安大讲堂将由顶象技术总监杜威为大家带来《人行征信报告的变量衍生与利用》的主题课程，敬请期待！