关于人工智能:机器学习模型的度量选择一

作者|Alvira Swalin
编译|VK
起源|Medium

第一局部次要探讨回归度量

在后现代主义的世界里，相对主义以各种各样的模式，始终是最受欢迎和最受诟病的哲学学说之一。相对主义认为，没有广泛和主观的真谛，而是每个观点都有本人的真谛。

在这篇文章中，我将依据指标和咱们试图解决的问题来探讨每个谬误度量的用途。当有人通知你“美国是最好的国家”时，你应该问的第一个问题是，这种说法是基于什么。咱们是依据每个国家的经济情况，还是依据它们的卫生设施等来判断它们？

相似地，每个机器学习模型都试图应用不同的数据集来解决指标不同的问题，因而，在抉择度量规范之前理解背景是很重要的。

最罕用的度量

在第一篇博客中，咱们将只探讨回归中的度量。

回归度量

大多数博客都关注分类指标，比方精确性、召回率、AUC等。为了扭转这一点，我想摸索各种指标，包含回归中应用的指标。MAE和RMSE是连续变量最罕用的两种度量办法。

RMSE(均方根误差)

它示意预测值和观测值之间差别的样本标准差(称为残差)。从数学上讲，它是应用以下公式计算的：

MAE

MAE是预测值和观测值之间相对差的平均值。MAE是一个线性分数，这意味着所有的个体差异在平均值中的权重相等。例如，10和0之间的差是5和0之间的差的两倍。然而，RMSE的状况并非如此，咱们将进一步具体探讨。从数学上讲，MAE是应用以下公式计算的：

你应该选哪一个？为什么？

好吧，了解和解释MAE是很容易的，因为它间接取偏移量的平均值。与此比照，RMSE比MAE惩办更高的差别。

让咱们用两个例子来了解下面的陈说：

案例1：理论值=[2,4,6,8]，预测值=[4,6,8,10]

案例2：理论值=[2,4,6,8]，预测值=[4,6,8,12]

案例1的MAE=2，案例1的RMSE=2

病例2的MAE=2.5，病例2的RMSE=2.65

从下面的例子中，咱们能够看到RMSE比MAE对最初一个值预测的惩办更重。通常，RMSE的惩办高于或等于MAE。它等于MAE的惟一状况是当所有的差别都等于或为零(在状况1中，所有观测值的理论和预测之间的差别都为2)。

然而，即便在更为简单和偏差于更高的偏差之后，RMSE依然是许多模型的默认度量，因为用RMSE定义的损失函数是润滑可微的，并且更容易执行数学运算。

尽管这听起来不太令人欢快，但这是一个十分重要的起因，使它十分受欢迎。我将试着用数学的办法解释下面的逻辑。

让咱们在一个变量中建设一个简略的线性模型：y=mx+b

在这里，咱们试图找到“m”和“b”，咱们有数据(x，y)。

如果咱们用RMSE定义损失函数(J)：那么咱们能够很容易失去m和b的梯度(应用梯度降落的工作原理)

上述方程的求解比较简单，然而却不适用于MAE。

然而，如果你只想从解释的角度比拟两个模型，那么我认为MAE是一个更好的抉择。须要留神的是，RMSE和MAE的单位都与y值雷同，因为RMSE的公式进行了开根操作。RMSE和MAE的范畴是从0到无穷大。

留神：MAE和RMSE之间的一个重要区别是，最小化一组数字上的平方误差会失去平均值，最小化绝对误差会失去中值。这就是为什么MAE对异样值是强壮的，而RMSE不是。

R方(R^2)与调整R方

R方与调整R方通常用于解释目标，并解释所选自变量如何很好地解释因变量的可变性。

从数学上讲，R方由以下公式给出：

分子是MSE(残差平方的平均值)，分母是Y值的方差。MSE越高，R方越小，模型越差。

调整R方

与R方一样，调整R方还显示了曲线或直线的拟合水平，但会依据模型中项的变动进行调整。公式如下：

其中n是样本总数，k是变量数。调整R方始终小于或等于R方

为什么要抉择调整R方而不是R方

惯例的R方存在一些问题，能够通过调整R方来解决。调整R方将思考模型中附加项所减少的边际改良。所以如果你加上有用的数据，它会减少，如果你加上不那么有用的变量，它会缩小。

然而，R方会随着数据的减少而减少，然而模型并没有任何改良。用一个例子来了解这一点会更容易。

这里，状况1是一个简略的状况，咱们有5个(x，y)的观测值。在案例2中，咱们还有一个变量，它是变量1的两倍(与var 1齐全相干)。在案例3中，咱们在var2中产生了一个轻微的扰动，使得它不再与var1齐全相干。

因而，如果咱们为每一种状况拟合简略的一般最小二乘(OLS)模型，那么在逻辑上，咱们就不会为状况2和状况3提供对于状况1的任何额定或有用的信息。因而，咱们的度量值在这些模型上不应该减少。对于状况2和状况3，R方会减少或与之前相等。调整R方能够解决这个问题，在状况2和状况3调整R方会缩小。让咱们给这些变量(x，y)一些数字，看看Python中失去的后果。

注：模型1和模型2的预测值都是雷同的，因而，R方也将是雷同的，因为它只取决于预测值和理论值。

从上表中，咱们能够看到，只管咱们没有在案例1和案例2中增加任何附加信息，但R方仍在减少，而调整R方显示出正确的趋势(对更多变量的模型2进行惩办)

调整R方与RMSE的比拟

对于上一个示例，咱们将看到案例1和案例2的RMSE与R方相似。在这种状况下，调整后的R方比RMSE做得更好，RMSE的范畴仅限于比拟预测值和理论值。

此外，RMSE的绝对值实际上并不能阐明模型有多蹩脚。它只能用于两个模型之间的比拟，而调整R方很容易做到这一点。例如，如果一个模型的调整R方为0.05，那么它必定很差。

然而，如果你只关怀预测的准确性，那么RMSE是最好的。它计算简略，易于微分，是大多数模型的默认度量。

常见的误会是：我常常在网上看到R的范畴在0到1之间，这实际上不是真的。R方的最大值为1，但最小值能够为负无穷大。思考这样一种状况，即模型预测所有观测值的高度负值，即便y的理论值为正值。在这种状况下，R方将小于0。这是极不可能的状况，但这种可能性依然存在。

NLP中的一个度量

如果你对NLP感兴趣，这里有一个乏味的度量。

BLEU

它次要用于掂量机器翻译绝对于人工翻译的品质。它应用一种改良的精度度量模式。

计算BLEU分数的步骤：

将句子转换成单元、双元、三元和四元(unigrams, bigrams, trigrams, and 4-grams)
对于大小为1到4的n-gram计算精度
取所有这些精度值的加权平均值的指数
乘以简短的惩办(稍后解释)

这里BP是简洁性惩办，r和c是参考词和候选词的个数，w是权重，P是精度值

例子：

参考翻译：The cat is sitting on the mat

机器翻译1：On the mat is a cat

机器翻译2：There is cat sitting cat

让咱们把以上两个译文计算BLEU分数进行比拟。

我用的是nltk.translate.bleu

最终后果：BLEU(MT1)=0.454，BLEU(MT2)=0.59

为什么咱们要加上简洁性惩办？

简洁性惩办惩办候选短于他们的参考翻译。例如，如果候选是“The cat”，那么它对于unigram和bigram将具备高精度，因为这两个词在参考翻译中也是以雷同的程序呈现。然而，长度太短，并没有真正反映出实际意义。

有了这个简短性惩罚，高分的候选译文当初必须在长度、单词和单词程序方面与参考匹配。

原文链接：https://medium.com/usf-msds/c…

欢送关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官网文档：
http://sklearn123.com/

欢送关注磐创博客资源汇总站：
http://docs.panchuang.net/

关于人工智能:机器学习模型的度量选择一

最罕用的度量

回归度量

RMSE(均方根误差)

MAE

你应该选哪一个？为什么？

R方(R^2)与调整R方

调整R方

为什么要抉择调整R方而不是R方

调整R方与RMSE的比拟

NLP中的一个度量

BLEU

为什么咱们要加上简洁性惩办？

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:机器学习模型的度量选择一

最罕用的度量

回归度量

RMSE(均方根误差)

MAE

你应该选哪一个？为什么？

R方(R^2)与调整R方

调整R方

为什么要抉择调整R方而不是R方

调整R方与RMSE的比拟

NLP中的一个度量

BLEU

为什么咱们要加上简洁性惩办？

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复