关于人工智能:机器学习模型的度量选择一

41次阅读

共计 3071 个字符,预计需要花费 8 分钟才能阅读完成。

作者 |Alvira Swalin
编译 |VK
起源 |Medium

第一局部次要探讨回归度量

在后现代主义的世界里,相对主义以各种各样的模式,始终是最受欢迎和最受诟病的哲学学说之一。相对主义认为,没有广泛和主观的真谛,而是每个观点都有本人的真谛。

在这篇文章中,我将依据指标和咱们试图解决的问题来探讨每个谬误度量的用途。当有人通知你“美国是最好的国家”时,你应该问的第一个问题是,这种说法是基于什么。咱们是依据每个国家的经济情况,还是依据它们的卫生设施等来判断它们?

相似地,每个机器学习模型都试图应用不同的数据集来解决指标不同的问题,因而,在抉择度量规范之前理解背景是很重要的。


最罕用的度量

在第一篇博客中,咱们将只探讨回归中的度量。

回归度量

大多数博客都关注分类指标,比方精确性、召回率、AUC 等。为了扭转这一点,我想摸索各种指标,包含回归中应用的指标。MAE 和 RMSE 是连续变量最罕用的两种度量办法。

RMSE(均方根误差)

它示意预测值和观测值之间差别的样本标准差(称为残差)。从数学上讲,它是应用以下公式计算的:

MAE

MAE 是预测值和观测值之间相对差的平均值。MAE 是一个线性分数,这意味着所有的个体差异在平均值中的权重相等。例如,10 和 0 之间的差是 5 和 0 之间的差的两倍。然而,RMSE 的状况并非如此,咱们将进一步具体探讨。从数学上讲,MAE 是应用以下公式计算的:

你应该选哪一个?为什么?

好吧,了解和解释 MAE 是很容易的,因为它间接取偏移量的平均值。与此比照,RMSE 比 MAE 惩办更高的差别。

让咱们用两个例子来了解下面的陈说:

案例 1:理论值 =[2,4,6,8],预测值 =[4,6,8,10]

案例 2:理论值 =[2,4,6,8],预测值 =[4,6,8,12]

案例 1 的 MAE=2,案例 1 的 RMSE=2

病例 2 的 MAE=2.5,病例 2 的 RMSE=2.65

从下面的例子中,咱们能够看到 RMSE 比 MAE 对最初一个值预测的惩办更重。通常,RMSE 的惩办高于或等于 MAE。它等于 MAE 的惟一状况是当所有的差别都等于或为零(在状况 1 中,所有观测值的理论和预测之间的差别都为 2)。

然而,即便在更为简单和偏差于更高的偏差之后,RMSE 依然是许多模型的默认度量,因为用 RMSE 定义的损失函数是润滑可微的,并且更容易执行数学运算。

尽管这听起来不太令人欢快,但这是一个十分重要的起因,使它十分受欢迎。我将试着用数学的办法解释下面的逻辑。

让咱们在一个变量中建设一个简略的线性模型:y=mx+b

在这里,咱们试图找到“m”和“b”,咱们有数据(x,y)。

如果咱们用 RMSE 定义损失函数(J):那么咱们能够很容易失去 m 和 b 的梯度(应用梯度降落的工作原理)

上述方程的求解比较简单,然而却不适用于 MAE。

然而,如果你只想从解释的角度比拟两个模型,那么我认为 MAE 是一个更好的抉择。须要留神的是,RMSE 和 MAE 的单位都与 y 值雷同,因为 RMSE 的公式进行了开根操作。RMSE 和 MAE 的范畴是从 0 到无穷大。

留神:MAE 和 RMSE 之间的一个重要区别是,最小化一组数字上的平方误差会失去平均值,最小化绝对误差会失去中值。这就是为什么 MAE 对异样值是强壮的,而 RMSE 不是。

R 方 (R^2) 与调整 R 方

R 方与调整 R 方通常用于解释目标,并解释所选自变量如何很好地解释因变量的可变性。

从数学上讲,R 方由以下公式给出:

分子是 MSE(残差平方的平均值),分母是 Y 值的方差。MSE 越高,R 方越小,模型越差。

调整 R 方

与 R 方一样,调整 R 方还显示了曲线或直线的拟合水平,但会依据模型中项的变动进行调整。公式如下:

其中 n 是样本总数,k 是变量数。调整 R 方始终小于或等于 R 方

为什么要抉择调整 R 方而不是 R 方

惯例的 R 方存在一些问题,能够通过调整 R 方来解决。调整 R 方将思考模型中附加项所减少的边际改良。所以如果你加上有用的数据,它会减少,如果你加上不那么有用的变量,它会缩小。

然而,R 方会随着数据的减少而减少,然而模型并没有任何改良。用一个例子来了解这一点会更容易。

这里,状况 1 是一个简略的状况,咱们有 5 个 (x,y) 的观测值。在案例 2 中,咱们还有一个变量,它是变量 1 的两倍(与 var 1 齐全相干)。在案例 3 中,咱们在 var2 中产生了一个轻微的扰动,使得它不再与 var1 齐全相干。

因而,如果咱们为每一种状况拟合简略的一般最小二乘 (OLS) 模型,那么在逻辑上,咱们就不会为状况 2 和状况 3 提供对于状况 1 的任何额定或有用的信息。因而,咱们的度量值在这些模型上不应该减少。对于状况 2 和状况 3,R 方会减少或与之前相等。调整 R 方能够解决这个问题,在状况 2 和状况 3 调整 R 方会缩小。让咱们给这些变量 (x,y) 一些数字,看看 Python 中失去的后果。

注:模型 1 和模型 2 的预测值都是雷同的,因而,R 方也将是雷同的,因为它只取决于预测值和理论值。

从上表中,咱们能够看到,只管咱们没有在案例 1 和案例 2 中增加任何附加信息,但 R 方仍在减少,而调整 R 方显示出正确的趋势(对更多变量的模型 2 进行惩办)

调整 R 方与 RMSE 的比拟

对于上一个示例,咱们将看到案例 1 和案例 2 的 RMSE 与 R 方相似。在这种状况下,调整后的 R 方比 RMSE 做得更好,RMSE 的范畴仅限于比拟预测值和理论值。

此外,RMSE 的绝对值实际上并不能阐明模型有多蹩脚。它只能用于两个模型之间的比拟,而调整 R 方很容易做到这一点。例如,如果一个模型的调整 R 方为 0.05,那么它必定很差。

然而,如果你只关怀预测的准确性,那么 RMSE 是最好的。它计算简略,易于微分,是大多数模型的默认度量。

常见的误会是:我常常在网上看到 R 的范畴在 0 到 1 之间,这实际上不是真的。R 方的最大值为 1,但最小值能够为负无穷大。思考这样一种状况,即模型预测所有观测值的高度负值,即便 y 的理论值为正值。在这种状况下,R 方将小于 0。这是极不可能的状况,但这种可能性依然存在。

NLP 中的一个度量

如果你对 NLP 感兴趣,这里有一个乏味的度量。

BLEU

它次要用于掂量机器翻译绝对于人工翻译的品质。它应用一种改良的精度度量模式。

计算 BLEU 分数的步骤:

  1. 将句子转换成单元、双元、三元和四元(unigrams, bigrams, trigrams, and 4-grams)
  2. 对于大小为 1 到 4 的 n -gram 计算精度
  3. 取所有这些精度值的加权平均值的指数
  4. 乘以简短的惩办(稍后解释)

这里 BP 是简洁性惩办,r 和 c 是参考词和候选词的个数,w 是权重,P 是精度值

例子:

参考翻译:The cat is sitting on the mat

机器翻译 1:On the mat is a cat

机器翻译 2:There is cat sitting cat

让咱们把以上两个译文计算 BLEU 分数进行比拟。

我用的是nltk.translate.bleu

最终后果:BLEU(MT1)=0.454,BLEU(MT2)=0.59

为什么咱们要加上简洁性惩办?

简洁性惩办惩办候选短于他们的参考翻译。例如,如果候选是“The cat”,那么它对于 unigram 和 bigram 将具备高精度,因为这两个词在参考翻译中也是以雷同的程序呈现。然而,长度太短,并没有真正反映出实际意义。

有了这个简短性惩罚,高分的候选译文当初必须在长度、单词和单词程序方面与参考匹配。

原文链接:https://medium.com/usf-msds/c…

欢送关注磐创 AI 博客站:
http://panchuang.net/

sklearn 机器学习中文官网文档:
http://sklearn123.com/

欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/

正文完
 0