关于机器学习:分类模型性能指标

36次阅读

共计 1989 个字符,预计需要花费 5 分钟才能阅读完成。

准确率、错误率

1. 测试准确率
$$r_{\text {test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}}num\left(\tilde{y}_{i}^{\prime}=\hat{y}_{i}^{\prime}\right)$$
2. 测试错误率
$$e_{t e s t}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} num\left(\tilde{y}_{i}^{\prime} \neq \hat{y}_{i}^{\prime}\right)$$

查准率、查全率

对于二分类问题,通常将关注的类作为正类,其余类作为负类。令:

  • TP:分类器将正类预测为正类的数量 (True Positive)。即:真 正类 的数量。
  • FN:分类器将正类预测为负类的数量 (False Negative)。即:假 负类 的数量。
  • FP:分类器将负类预测为正类的数量 (False Positive)。即:假 正类 的数量。
  • TN:分类器将负类预测为负类的数量 (True Negative)。即:真 负类 的数量。
预测正类 预测反类
实在正类 TP FN
实在反类 FP TN

查准率 (precision):所有预测为正类的后果中,真正的正类的比例。$$P=\frac{T P}{T P+F P}$$
查全率(recall):真正的正类中,被分类器找进去的比例。$$R=\frac{T P}{T P+F N}$$
不同的问题中,有的偏重差准率,有的偏重差全率。

  • 对于举荐零碎,更侧重于查准率。即举荐的后果中,用户真正感兴趣的比例。因为给用户展现的 窗口无限,必须尽可能的给用户展现他真实感趣味的后果。
  • 对于医学诊断系统,更偏重与查全率。即疾病被发现的比例。因为疾病如果被漏诊,则很可能导致病情恶化。

    PR 曲线


    P-R曲线从左上角(0,1) 到右下角(1,0)
    开始时第一个样本(最可能为正例的)预测为正例,其它样本都预测为负类。此时:

    *  查准率很高,简直为 1。*  查全率很低,简直为 0,大量的正例没有找到。

    完结时所有的样本都预测为正类。此时:

    *   查全率很高,正例全副找到了,查全率为 1。*   查准率很低,大量的负类被预测为正类。*

    P-R曲线直观显示出分类器在样本总体上的查全率、查准率。因而能够通过两个分类器在同一个测试集上的P-R 曲线来比拟它们的预测能力:

    • 如果分类器 BP-R曲线被分类器 A 的曲线齐全包住,则可断言:A的性能好于B
    • 如果分类器 AP-R曲线与分类器 B 的曲线产生了穿插,则难以一般性的断言两者的优劣,只能在具体的查准率和查全率下进行比拟。

    此时一个正当的断定根据是比拟 P-R 曲线下面积大小,但这个值通常不容易计算。能够考查平衡点。平衡点 Break-Even Point:BEPP-R曲线上查准率等于查全率的点,能够断定:平衡点较远的 P-R 曲线较好。

    ROC 曲线


    定义真正例率 (True Positive Rate):它刻画了真正的正类中,模型预测为正类的概率。它也就等于正类的查全率。$$T P R=\frac{T P}{T P+F N}$$
    定义假正例率 (False Positive Rate):它刻画了真正的负类中,模型预测为正类的概率。它就等于 1 减去负类的查全率。$$F P R=\frac{F P}{T N+F P}$$
    ROC 曲线从左下角 (0,0) 到右上角(1,1)
    开始时第一个样本(最可能为正例的)预测为正例,其它样本都预测为负类。此时:

        *  真正例率很低,简直为 0,因为大量的正例未预测到。*  假正例率很低,简直为 0,因为此时预测为正类的样本很少,所以简直没有错认的正例。

    完结时所有的样本都预测为正类。此时:

        *  真正例率很高,简直为 1,因为所有样本都预测为正类。*  假正例率很高,简直为 1,因为所有的负样本都被错认为正类。

    ROC 曲线中:

  • 对角线对应于随机猜测模型。
  • (0,1) 对应于现实模型:没有预测谬误,FPR恒等于 0,TPR恒等于 1。
  • 通常 ROC 曲线越凑近点 (0,1) 越好。
    能够通过两个分类器在同一个测试集上的ROC 曲线来比拟它们的预测能力:

    *   如果分类器 `A` 的 `ROC` 曲线被分类器 `B` 的曲线齐全包住,则可断言:`B` 的性能好于 `A`。*   如果分类器 `A` 的 `ROC` 曲线与分类器 `B` 的曲线产生了穿插,则难以一般性的断言两者的优劣。

    此时一个正当的断定根据是比拟 ROC 曲线下面积大小,这个面积称作 AUC:Area Under ROC Curve
    P-R 曲线和 ROC 曲线上的每一个点都对应了一个阈值的抉择,该点就是在该阈值下的(查准率,查全率) /(真正例率,假正例率)。沿着横轴的方向对应着阈值的降落。
    AUCROC 曲线的面积,其物理意义为:从所有正样本中随机筛选一个样本,模型将其预测为正样本的概率为 p1;从所有负样本中随机筛选一个样本,模型将其预测为正样本的概率为 p2。p1>p2 的概率就等于 AUC

reference

《机器学习》周志华

正文完
 0