作者|Alvira Swalin
编译|VK
起源|Medium
第一局部次要探讨回归度量
在后现代主义的世界里,相对主义以各种各样的模式,始终是最受欢迎和最受诟病的哲学学说之一。相对主义认为,没有广泛和主观的真谛,而是每个观点都有本人的真谛。
在这篇文章中,我将依据指标和咱们试图解决的问题来探讨每个谬误度量的用途。当有人通知你“美国是最好的国家”时,你应该问的第一个问题是,这种说法是基于什么。咱们是依据每个国家的经济情况,还是依据它们的卫生设施等来判断它们?
相似地,每个机器学习模型都试图应用不同的数据集来解决指标不同的问题,因而,在抉择度量规范之前理解背景是很重要的。
最罕用的度量
在第一篇博客中,咱们将只探讨回归中的度量。
回归度量
大多数博客都关注分类指标,比方精确性、召回率、AUC等。为了扭转这一点,我想摸索各种指标,包含回归中应用的指标。MAE和RMSE是连续变量最罕用的两种度量办法。
RMSE(均方根误差)
它示意预测值和观测值之间差别的样本标准差(称为残差)。从数学上讲,它是应用以下公式计算的:
MAE
MAE是预测值和观测值之间相对差的平均值。MAE是一个线性分数,这意味着所有的个体差异在平均值中的权重相等。例如,10和0之间的差是5和0之间的差的两倍。然而,RMSE的状况并非如此,咱们将进一步具体探讨。从数学上讲,MAE是应用以下公式计算的:
你应该选哪一个?为什么?
好吧,了解和解释MAE是很容易的,因为它间接取偏移量的平均值。与此比照,RMSE比MAE惩办更高的差别。
让咱们用两个例子来了解下面的陈说:
案例1:理论值=[2,4,6,8],预测值=[4,6,8,10]
案例2:理论值=[2,4,6,8],预测值=[4,6,8,12]
案例1的MAE=2,案例1的RMSE=2
病例2的MAE=2.5,病例2的RMSE=2.65
从下面的例子中,咱们能够看到RMSE比MAE对最初一个值预测的惩办更重。通常,RMSE的惩办高于或等于MAE。它等于MAE的惟一状况是当所有的差别都等于或为零(在状况1中,所有观测值的理论和预测之间的差别都为2)。
然而,即便在更为简单和偏差于更高的偏差之后,RMSE依然是许多模型的默认度量,因为用RMSE定义的损失函数是润滑可微的,并且更容易执行数学运算。
尽管这听起来不太令人欢快,但这是一个十分重要的起因,使它十分受欢迎。我将试着用数学的办法解释下面的逻辑。
让咱们在一个变量中建设一个简略的线性模型:y=mx+b
在这里,咱们试图找到“m”和“b”,咱们有数据(x,y)。
如果咱们用RMSE定义损失函数(J):那么咱们能够很容易失去m和b的梯度(应用梯度降落的工作原理)
上述方程的求解比较简单,然而却不适用于MAE。
然而,如果你只想从解释的角度比拟两个模型,那么我认为MAE是一个更好的抉择。须要留神的是,RMSE和MAE的单位都与y值雷同,因为RMSE的公式进行了开根操作。RMSE和MAE的范畴是从0到无穷大。
留神:MAE和RMSE之间的一个重要区别是,最小化一组数字上的平方误差会失去平均值,最小化绝对误差会失去中值。这就是为什么MAE对异样值是强壮的,而RMSE不是。
R方(R^2)与调整R方
R方与调整R方通常用于解释目标,并解释所选自变量如何很好地解释因变量的可变性。
从数学上讲,R方由以下公式给出:
分子是MSE(残差平方的平均值),分母是Y值的方差。MSE越高,R方越小,模型越差。
调整R方
与R方一样,调整R方还显示了曲线或直线的拟合水平,但会依据模型中项的变动进行调整。公式如下:
其中n是样本总数,k是变量数。调整R方始终小于或等于R方
为什么要抉择调整R方而不是R方
惯例的R方存在一些问题,能够通过调整R方来解决。调整R方将思考模型中附加项所减少的边际改良。所以如果你加上有用的数据,它会减少,如果你加上不那么有用的变量,它会缩小。
然而,R方会随着数据的减少而减少,然而模型并没有任何改良。用一个例子来了解这一点会更容易。
这里,状况1是一个简略的状况,咱们有5个(x,y)的观测值。在案例2中,咱们还有一个变量,它是变量1的两倍(与var 1齐全相干)。在案例3中,咱们在var2中产生了一个轻微的扰动,使得它不再与var1齐全相干。
因而,如果咱们为每一种状况拟合简略的一般最小二乘(OLS)模型,那么在逻辑上,咱们就不会为状况2和状况3提供对于状况1的任何额定或有用的信息。因而,咱们的度量值在这些模型上不应该减少。对于状况2和状况3,R方会减少或与之前相等。调整R方能够解决这个问题,在状况2和状况3调整R方会缩小。让咱们给这些变量(x,y)一些数字,看看Python中失去的后果。
注:模型1和模型2的预测值都是雷同的,因而,R方也将是雷同的,因为它只取决于预测值和理论值。
从上表中,咱们能够看到,只管咱们没有在案例1和案例2中增加任何附加信息,但R方仍在减少,而调整R方显示出正确的趋势(对更多变量的模型2进行惩办)
调整R方与RMSE的比拟
对于上一个示例,咱们将看到案例1和案例2的RMSE与R方相似。在这种状况下,调整后的R方比RMSE做得更好,RMSE的范畴仅限于比拟预测值和理论值。
此外,RMSE的绝对值实际上并不能阐明模型有多蹩脚。它只能用于两个模型之间的比拟,而调整R方很容易做到这一点。例如,如果一个模型的调整R方为0.05,那么它必定很差。
然而,如果你只关怀预测的准确性,那么RMSE是最好的。它计算简略,易于微分,是大多数模型的默认度量。
常见的误会是:我常常在网上看到R的范畴在0到1之间,这实际上不是真的。R方的最大值为1,但最小值能够为负无穷大。思考这样一种状况,即模型预测所有观测值的高度负值,即便y的理论值为正值。在这种状况下,R方将小于0。这是极不可能的状况,但这种可能性依然存在。
NLP中的一个度量
如果你对NLP感兴趣,这里有一个乏味的度量。
BLEU
它次要用于掂量机器翻译绝对于人工翻译的品质。它应用一种改良的精度度量模式。
计算BLEU分数的步骤:
- 将句子转换成单元、双元、三元和四元(unigrams, bigrams, trigrams, and 4-grams)
- 对于大小为1到4的n-gram计算精度
- 取所有这些精度值的加权平均值的指数
- 乘以简短的惩办(稍后解释)
这里BP是简洁性惩办,r和c是参考词和候选词的个数,w是权重,P是精度值
例子:
参考翻译:The cat is sitting on the mat
机器翻译1:On the mat is a cat
机器翻译2:There is cat sitting cat
让咱们把以上两个译文计算BLEU分数进行比拟。
我用的是nltk.translate.bleu
最终后果:BLEU(MT1)=0.454,BLEU(MT2)=0.59
为什么咱们要加上简洁性惩办?
简洁性惩办惩办候选短于他们的参考翻译。例如,如果候选是“The cat”,那么它对于unigram和bigram将具备高精度,因为这两个词在参考翻译中也是以雷同的程序呈现。然而,长度太短,并没有真正反映出实际意义。
有了这个简短性惩罚,高分的候选译文当初必须在长度、单词和单词程序方面与参考匹配。
原文链接:https://medium.com/usf-msds/c...
欢送关注磐创AI博客站:
http://panchuang.net/
sklearn机器学习中文官网文档:
http://sklearn123.com/
欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/