共计 1233 个字符,预计需要花费 4 分钟才能阅读完成。
动动发财的小手,点个赞吧!
F1 score 简介
在本文中,您将理解 F1 分数。F1 分数是一种机器学习指标,可用于分类模型。只管分类模型存在许多指标,但通过本文,您将理解 F1 分数的计算形式以及何时应用它有附加价值。
f1 分数是对两个更简略的性能指标的改良倡议。因而,在深刻理解 F1 分数的细节之前,让咱们概述一下 F1 分数背地的那些指标。
Accuracy
准确性是分类模型的一个指标,它掂量正确预测的数量占所做预测总数的百分比。例如,如果你的预测有 90% 是正确的,那么你的准确率就是 90%。
仅当您的分类中的类别散布均等时,准确性才是有用的指标。这意味着,如果您有一个用例,在该用例中察看到一个类的数据点多于另一个类的数据点,则准确性不再是有用的指标。让咱们看一个例子来阐明这一点:
不均衡数据示例
假如您正在解决网站的销售数据。您晓得 99% 的网站访问者不购买,只有 1% 的访问者购买。您正在构建一个分类模型来预测哪些网站访问者是买家,哪些只是浏览者。
当初设想一个成果不佳的模型。它预测 100% 的访问者只是观看者,而 0% 的访问者是购买者。这显然是一个十分谬误和无用的模型。
当你有类不均衡时,准确性不是一个好的指标。
如果咱们在这个模型上应用精度公式会产生什么?您的模型仅预测了 1% 谬误:所有买家都被谬误分类为看客。因而,正确预测的百分比为 99%。这里的问题是 99% 的准确率听起来不错,而你的模型体现很差。总之:当你有类别不均衡时,准确性不是一个好的衡量标准。
- 通过重采样解决不均衡数据
解决类别不均衡问题的一种办法是解决您的样本。应用特定的采样办法,您能够以数据不再不均衡的形式对数据集进行从新采样。而后您能够再次应用准确性作为指标。
- 通过指标解决不均衡数据
解决类不均衡问题的另一种办法是应用更好的准确性指标,如 F1 分数,它不仅思考了模型预测谬误的数量,还思考了所犯错误的类型。
F1 分数的根底
Precision 和 Recall 是思考到类不均衡的两个最常见的指标。它们也是 F1 问题的根底!在将它们组合到下一部分的 F1 分数之前,让咱们更好地理解 Precision 和 Recall。
Precision
精度是 F1 分数的第一局部。它也能够用作独自的机器学习指标。它的公式如下所示:
您能够按如下形式解释此公式。在预测为正的所有内容中,精度计算正确的百分比:
- 一个不准确的模型可能会发现很多阳性,但它的抉择办法是有乐音的:它也会谬误地检测到许多实际上不是阳性的阳性。
- 一个准确的模型是十分“纯正”的:兴许它没有找到所有的积极因素,但模型分类为踊跃的那些很可能是正确的。
Recall
召回率是 F1 分数的第二个组成部分,只管召回率也能够用作独自的机器学习指标。召回公式如下所示:
您能够按如下形式解释此公式。在所有理论踊跃的事物中,模型胜利找到了多少:
- 具备高召回率的模型能够很好地找到数据中的所有正例,即便它们也可能谬误地将一些负例辨认为正例。
- 召回率低的模型无奈找到数据中的所有(或大部分)阳性病例。
本文由 mdnice 多平台公布