共计 1529 个字符,预计需要花费 4 分钟才能阅读完成。
8 月 4 日下午 15:00 顶象第三期业务平安大讲堂正式开讲。本期业务平安大讲堂由顶象研发总监管胜老师进行分享,针对信贷风控,管胜老师就评分卡模型做了深入浅出的解说,粗浅分析了评分卡模型的原理、如何构建评分卡模型以及评分卡模型如何评估、利用、跟踪等问题,不仅让大家对信用贷有了更深的了解,同时对评分卡模型的构建产生了极大关注度。
直播过程中,咱们也收到了一系列对于评分卡模型的疑难,现将局部问答整理出来,供大家参考。感兴趣的同学也可关注顶象公众号或视频号回看直播重点。
Q1:评分卡模型为什么要做筛选特色,应用更多特色不是更好吗?
管胜:这个问题十分好,从算法的推理来看,特色越多模型的成果会越好,然而要留神,这个好可能仅仅产生在训练集上,对于测试集可能就不好了,它跟特色分箱是同一个情理,箱分得越细越多,过拟合的危险就越大,特色越多同样也会存在过拟合的危险,
除了过拟合的危险外,还有几个害处:
- 让模型变得更简单,解释性变差。
- 引入特色越多,模型上线的难度越大,在线上收集特色可能不容易。
- 特色可能会稳定,特色越多,整体模型的波动性也会更大,导致模型的稳定性降落。
Q2:PSI 对评分卡的稳定性监控很重要,你们是怎么实现的?
管胜:模型的开发阶段与利用监控阶段是离开的,数据也是离开的,开发阶段采纳的是离线数据,利用阶段是实时数据,而做 PSI 监控,须要对 2 个数据集采纳统一的形式进行分箱,而后计算 2 个数据集的 PSI,要实现这个 PSI 比照,工程的难度会很大,在咱们的产品实现上让算法人员开发的模型,无感知就主动反对 PSI 监控,把开发与利用做了集成。
- 模型部署时,会主动将训练集的信息附带在模型中;
- 模型在利用过程中,对利用样本集按训练集的形式进行分箱;
- 每个月,比照一次计算出 PSI。
Q3:分箱合并的过程,卡方测验合并与 WOE 合并,哪一种成果更好?
管胜:这是 2 种齐全不同的分箱合并的思路,不过他们的共同点都是:有监督的,利用标签的信息来判断是否须要合并。
至于哪一种成果更好,其实并不能用公式来确定,须要依据理论的尝试能力晓得,从理论的教训来看,两种成果的差距并不大。不过,WOE 合并绝对卡方测验来说,在复杂程度与利用上都更加简便。
Q4:评分卡的模型是怎么在风控体系应用的?
管胜:评分卡模型分为 A 卡、B 卡、C 卡,在信贷风控中,这 3 种应用最为长远与成熟。
A 卡是贷前评分卡,也称为反欺诈评分卡,作为准入门槛应用。
B 卡是贷中评分卡,借贷期间或信用卡应用期间,治理用户的危险与额度调整。
C 卡是贷后评分卡,用于逾期催收借贷。
Q5:对机器学习、模型相干内容十分感兴趣,想往这个方向转,有举荐的书籍或者办法么?
管胜:首先还是要有肯定的数学与统计学根底,对于传统机器学习来说,更多的都是统计学的常识,倡议先学习概率论与数理统计,另外还须要学习线性代数。而后在实践中学习,装置 python 与 sklearn,查看算法的外部实现代码,特地要深刻了解模型的训练与评估过程。对于深度学习,简单的实践公式反而不多,倡议多看援用量大的优良 Paper,学习更多的网络设计的起因与技巧。
Q6:我看您用的是自研的机器学习平台,内置了哪些算法呢?
管胜:曾经封装好的算法组件有 100+ 多个,涵盖:数据读写、特色工程、分类聚类回归算法、文本类算法、关联网络类算法、金融评分类算法、时序数据类算法、模型评估,另外还包含“人行征信特色衍生”组件,简直能够解决任意场景建模的算法需要。最初,再给大家简略介绍下顶象《业务平安大讲堂》系列直播课,本系列会集业内大咖组建奢华讲师天团,分析各类欺诈伎俩,详解前沿平安技术,帮忙企业应答业务平安新危险。
下期将由顶象技术总监杜威为大家带来《业务平安平台外围模块解析——设施指纹》的主题课程,敬请期待!