共计 1662 个字符,预计需要花费 5 分钟才能阅读完成。
在评估机器学习模型的性能时,F1score 都被首选指标。在本文中,咱们将介绍一个值得更多关注和认可的代替度量: 马修斯相关系数 (MCC)。
F1score 通过协调准确率和召回率来计算,旨在在两者之间获得均衡。然而假如咱们有一个具备以下混同矩阵的数据集:
在这种状况下,数据集代表了一种常见疾病的医学测试,只有大量正例。混同矩阵表明该模型具备高的真反例(TN)率,但具备低的真正例(TP)率。以下是精确度、召回率和 F1 分数的计算结果:
- Precision = TP / (TP + FP) = 25 / (25 + 10) ≈ 0.714
- Recall = TP / (TP + FN) = 25 / (25 + 5) = 0.833
- F1 Score = 2 (Precision Recall) / (Precision + Recall) ≈ 0.769
F1 的问题在 0.769 左右,这仿佛是一个正当的体现。然而大量脱漏的正例也可能对事实世界产生重大影响。
所以咱们引入一个新的指标:马修斯相关系数(Matthews Correlation Coefficient,MCC)
马修斯相关系数 MCC
马修斯相关系数 Matthews coefficient 是一种用于评估二元分类模型性能的指标,特地实用于解决不均衡数据集。它思考了真正例(TP)、真反例(TN)、假正例(FP)和假反例(FN),提供一个可能总结分类品质的繁多数值。
MCC 的取值范畴在 - 1 到 + 1 之间,其中:
- +1 示意完满预测
- 0 示意随机预测
- -1 示意预测与理论察看齐全不统一
MCC 的计算公式为:
在这个公式中:
- TP:真正例(正确预测的正例)
- TN:真反例(正确预测的负例)
- FP:假正例(谬误预测的正例)
- FN:假反例(谬误预测的负例)
- sqrt:平方根
MCC 思考了所有四个值(TP、TN、FP、FN),因而实用于存在类别不均衡的数据集,其中一个类别可能比另一个类别更常见。特地是心愿评估模型性能而不受类别散布影响时,MCC 十分有用。
依据下面的例子,咱们的 MCC 计算结果为:
MCC = (25 * 9000 - 10 * 5) / sqrt((25 + 10) * (25 + 5) * (9000 + 10) * (9000 + 5))
MCC ≈ 0.517
MCC 值约为 0.517。
在实践中,较高的 MCC 值示意更好的性能,+1 是现实的得分。通常状况下,大于 0.5 的值被认为是良好的,约为 0 的值示意随机性能。负值则暗示性能较差或模型比随机猜想还要差。
与 F1score 的区别
- 定义和计算形式:– MCC 是一个综合性能指标,思考了真正例、真反例、假正例和假反例,通过一个简单的公式计算得出。- F1 分数是准确率(Precision)和召回率(Recall)的和谐平均值,示意了模型在均衡了预测的精确性和覆盖率后的体现。
- 衡量不均衡数据集:– MCC 能够在不均衡的数据集中提供更精确的性能评估,因为它同时思考了四个分类后果,包含真反例和真正例。- F1 分数也思考了不均衡数据集,但次要关注了模型的准确率和召回率之间的衡量。
- 长处和实用场景:– MCC 对于类别不均衡的状况和样本量较小的状况下更有劣势,因为它在评估性能时思考了所有四个分类后果,缩小了后果的随机性。- F1 分数在关注模型可能正确辨认正例的状况下也放弃较好的体现,实用于一些须要均衡准确率和召回率的场景。
- 解释性:– MCC 的取值范畴在 - 1 到 + 1 之间,更容易解释。+1 示意完满预测,-1 示意齐全不统一,0 示意随机。- F1 分数的取值范畴在 0 到 1 之间,也很容易解释。1 示意完满的准确率和召回率均衡。
指标选取
马修斯相关系数(Matthews Correlation Coefficient,MCC)和 F1 分数(F1 Score)都是用于评估二元分类模型性能的指标,但它们从不同的角度思考了模型的预测后果。
如果数据集存在重大的类别不均衡,并且想要一个更全面的性能评估指标,那么 MCC 可能更适合。如果只关怀模型的准确率和召回率的均衡,而不太关怀真反例和真正例的比例,那么 F1 分数可能更适宜。
https://avoid.overfit.cn/post/935db4fa639d4fbfbfe9ef425ce73fbc