乐趣区

关于数据挖掘:预测模型是不是准确率越高越好

对于一个数据挖掘我的项目而言,咱们能够抉择的模型泛滥,比方咱们能够抉择:线性回归、Logistic 回归、决策树、集成算法等,同样对于一个模型而言,也有很多参数和图形来评估模型好坏。数据挖掘的目标不能是简略地构建一个预测模型,而是创立和抉择一个对样本以外数据也能做到高精度的模型。因而,在计算预测值之前,查看模型的准确性至关重要。

模型评估的指标有很多,比方仅分类模型的评估指标就有准确率,准确率,查全率,晋升度等等。那么,为什么要搞这么多指标,有一个准确率不就够了吗?

咱们从一个夸大点的例子来动手探讨,机场辨认恐怖分子,在 100 万人里有 5 个恐怖分子,因为恐怖分子是极少数,如果应用准确率来评估模型的话,那只有把所有人都辨认成正常人,其准确率能够达到 99.9995%,但显然这种模型没什么意义,这时就须要建设一个查全率高的模型,比方两个模型的混同矩阵如下:

只思考准确率,会抉择 A 模型,但它根本无法辨认恐怖分子。而模型 B,尽管准确率低,但能够把全副恐怖分子都辨认进去,只管可能委屈几个坏蛋,但总比被恐怖分子钻空子好的多。在这种正负样本不均衡的场景中,多数样本通常是咱们所关注的,仅思考准确率并没有实际意义。相似的场景在业务中还有很多,比方网贷守约率,绝对好用户,咱们更关怀坏用户。查全率越高,代表理论坏用户中被预测进去的概率越高。还有医药行业中癌症的诊断,保险行业中的理赔危险,制造业中的不良产品判断等等

再来看一个准确率利用的例子,某企业心愿销售 50 件产品,该企业建设了两个模型来抉择待采购客户,混同矩阵如下图,应该抉择哪个模型?

只思考准确率,仿佛该当抉择 A 模型,但这时候咱们须要对75(=50/0.667,预测购买者中有 66.7% 的理论会购买,即准确率)个客户采购才可能卖出 50 件商品;而抉择 模型 B,则只有对60(=50/0.833)个客户采购就可能卖出 50 件商品了,采购老本反而升高了。在这个场景中,咱们只关怀能被采购胜利的那些客户,而不能胜利采购且被正确预测为不能胜利采购的,尽管有助于进步模型的准确率,对咱们却没什么意义。因而,这里用准确率来评估模型的好坏会更加适合。

对于评估指标选取的重要性,有时候不是咱们没做出好的模型,而是咱们没抉择对正确的评估指标。不同的指标的利用场景不同,预测模型不能只看准确率而要联合业务问题抉择适合的评估指标。上述只是两个非常简单的例子,模型的评估指标有很多准确率只是其中一种,除了指标计算还有一些图形化的办法也能够用来评估模型,比方 ROC 曲线,Lift 曲线,查全率曲线,还有回归模型中用到的残差图等等。如果这些指标和图形都要手动计算和绘制也挺麻烦的,然而应用主动建模工具就十分不便了,除了能够主动建模外,它还会主动计算出各种评估指标,用户只须要晓得如何应用这些指标就能够了,应用起来十分不便。

想理解更多的评估指标如何应用或对进一步数据挖掘和 AI 技术感兴趣的同学还能够搜寻“乾学院”,下面有面向小白的零根底“数据挖掘”收费课程,或者间接点上面的链接也能够:
http://www.raqsoft.com.cn/wx/course-data-mining.html

退出移动版