关于数据挖掘:预测模型是不是准确率越高越好

对于一个数据挖掘我的项目而言，咱们能够抉择的模型泛滥，比方咱们能够抉择：线性回归、Logistic 回归、决策树、集成算法等，同样对于一个模型而言，也有很多参数和图形来评估模型好坏。数据挖掘的目标不能是简略地构建一个预测模型，而是创立和抉择一个对样本以外数据也能做到高精度的模型。因而，在计算预测值之前，查看模型的准确性至关重要。

模型评估的指标有很多，比方仅分类模型的评估指标就有准确率，准确率，查全率，晋升度等等。那么，为什么要搞这么多指标，有一个准确率不就够了吗？

咱们从一个夸大点的例子来动手探讨，机场辨认恐怖分子，在 100 万人里有 5 个恐怖分子，因为恐怖分子是极少数，如果应用准确率来评估模型的话，那只有把所有人都辨认成正常人，其准确率能够达到 99.9995%，但显然这种模型没什么意义，这时就须要建设一个查全率高的模型，比方两个模型的混同矩阵如下：

只思考准确率，会抉择 A 模型，但它根本无法辨认恐怖分子。而模型 B，尽管准确率低，但能够把全副恐怖分子都辨认进去，只管可能委屈几个坏蛋，但总比被恐怖分子钻空子好的多。在这种正负样本不均衡的场景中，多数样本通常是咱们所关注的，仅思考准确率并没有实际意义。相似的场景在业务中还有很多，比方网贷守约率，绝对好用户，咱们更关怀坏用户。查全率越高，代表理论坏用户中被预测进去的概率越高。还有医药行业中癌症的诊断，保险行业中的理赔危险，制造业中的不良产品判断等等

再来看一个准确率利用的例子，某企业心愿销售 50 件产品，该企业建设了两个模型来抉择待采购客户，混同矩阵如下图，应该抉择哪个模型？

只思考准确率，仿佛该当抉择A 模型，但这时候咱们须要对75（=50/0.667，预测购买者中有 66.7% 的理论会购买，即准确率）个客户采购才可能卖出 50 件商品；而抉择模型 B，则只有对60（=50/0.833）个客户采购就可能卖出 50 件商品了，采购老本反而升高了。在这个场景中，咱们只关怀能被采购胜利的那些客户，而不能胜利采购且被正确预测为不能胜利采购的，尽管有助于进步模型的准确率，对咱们却没什么意义。因而，这里用准确率来评估模型的好坏会更加适合。

对于评估指标选取的重要性，有时候不是咱们没做出好的模型，而是咱们没抉择对正确的评估指标。不同的指标的利用场景不同，预测模型不能只看准确率而要联合业务问题抉择适合的评估指标。上述只是两个非常简单的例子，模型的评估指标有很多准确率只是其中一种，除了指标计算还有一些图形化的办法也能够用来评估模型，比方 ROC 曲线，Lift 曲线，查全率曲线，还有回归模型中用到的残差图等等。如果这些指标和图形都要手动计算和绘制也挺麻烦的，然而应用主动建模工具就十分不便了，除了能够主动建模外，它还会主动计算出各种评估指标，用户只须要晓得如何应用这些指标就能够了，应用起来十分不便。

想理解更多的评估指标如何应用或对进一步数据挖掘和 AI 技术感兴趣的同学还能够搜寻“乾学院”，下面有面向小白的零根底“数据挖掘”收费课程，或者间接点上面的链接也能够：
http://www.raqsoft.com.cn/wx/course-data-mining.html

关于数据挖掘:预测模型是不是准确率越高越好

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于数据挖掘:预测模型是不是准确率越高越好

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复