关于数据建模:如何利用历史数据预测罕见现象的发生

6次阅读

共计 1291 个字符,预计需要花费 4 分钟才能阅读完成。

在《利用历史数据做商业预测的全过程》(以下简称前文) 一文中咱们介绍了如何应用历史数据进行商业预测的过程。不同的商业需要,还会有些各自的特殊性。例如,在很多业务场景中,存在一种数据不均衡的景象,比方银行贷款守约,守约的人只是很小一部分人;保险欺诈,欺诈者也是个别现象;还有产品质量中不良品的比例、工业生产中非打算停车景象……。这些常见景象的产生比率很低,但一旦产生就会产生较大的损失,所以要尽量能预测进去并防止。本文将介绍如何来预测这些常见产生的景象。

1\. 筹备历史数据

数据筹备的过程如前文所述,然而对于这种须要预测常见景象的场景,就要思考数据不均衡的问题。咱们把历史数据中产生过常见景象的记录称为阳性样本,数据不均衡就是指阳性样本在总数据中过于稀少。这时,即便总数据量很多也很难建出无效模型。因而,在筹备数据时就要尽量多提取阳性样本,具体多少并没有固定要求。一般来讲,问题越简单,须要的数量就越多,不过即便很简略的问题通常至多也须要几百条阳性样本才可能建出可用模型。反之,也不能只取阳性样本。例如,要建模预测贷款用户的守约状况,要保障守约客户的数据达到肯定数量,但也不能全部都是守约客户的数据,失常客户的数据也要采集。

2\. 建设模型

按前文所述即可。对于不均衡的的数据集,YModel 会主动进行抽样来使阳性样本和阴性样本(即失常的样本)的比例达到均衡,使用者不必本人操作。然而咱们能够本人批改和设置须要的配平比例,如下图,对于初学者通常倡议采取默认的比例就好。

3\. 预测

通过前两步的解决后,建设进去的模型就能够实现预测了,同样是依照预测的概率从高到低排序,找后面概率较高的客户或样本来重点排查就能够了。排在后面的样本产生常见景象的可能性更大。

4.Recall 查全率指标

在数据分布不均衡的场景中,只看预测的准确率是没有意义的,对咱们更有意义的是 Recall 查全率。查全率示意在所有的阳性样本,有多少被正确的预测了。举个夸大点的例子,机场辨认恐怖分子,在 100 万人里只有 5 个恐怖分子,因为恐怖分子是极少数,如果应用准确率来评估模型的话,那只有把所有人都辨认成正常人,其准确率能够达到 99.9995%,但显然没什么意义,一个恐怖分子都没有抓到,也就是说这个模型尽管准确率很高然而查全率为 0/5=0。反之,另一个模型预测出 100 集体为高风险人群,5 个恐怖分子都就蕴含在这 100 人里,这时候准确率降为 99.9905%(有 95 人预测谬误),但查全率为 5/5=1,恐怖分子都能抓到了。这样的模型就是更有意义的。

在 YModel 中咱们会用 Recall 曲线来判断查全率,如下图,横坐标示意将产生常见景象的预测概率依照从高到低排序取数,10,20……别离示意概率排名前 10%,20%……的样本,纵坐标示意在各排名阶段对应的查全率值。图中横坐标 10 对应的查全率约为 0.75,示意在预测概率排名前 10% 的数据中,能捕捉 75% 的常见景象,也就是说相比于全副排查,咱们用 10% 的工作量就能找到 75% 的常见(异样)状况。Recall 曲线越凑近左上角示意模型的捕捉常见景象(守约、欺诈、不良品、设施异样……)能力越强。

正文完
 0