关于人工智能:回归分析中R方和调整R方的区别

31次阅读

共计 2615 个字符,预计需要花费 7 分钟才能阅读完成。

作者 |ANIRUDDHA BHANDARI
编译 |VK
起源 |Analytics Vidhya

概述

  • 了解 R 方和调整 R 方的概念
  • 理解 R 方和调整 R 方之间的要害区别

介绍

当我开始我的数据迷信之旅时,我摸索的第一个算法是线性回归。

在了解了线性回归的概念和算法的工作原理之后,我十分兴奋地应用它并在问题陈说中做出预测。我置信你们大多数人也会这么做的。然而一旦咱们建设了模型,下一步是什么呢?

接下来是辣手的局部。一旦咱们建设了模型,下一步就是评估它的性能。毋庸置疑,模型评估是一项关键性的工作,它凸显了模型的有余。

抉择最合适的评估指标是一个要害的工作。而且,我遇到了两个重要的指标:除了 MAE/MSE/RMSE,有 R 方和调整 R 方。这两者有什么区别?我应该用哪一个?

R 方和调整 R 方是两个评估指标,对于任何一个数据迷信的追求者来说,这两个指标可能会让他们感到困惑。

它们对评估回归问题都十分重要,咱们将深刻理解和比拟它们。它们各有利弊,咱们将在本文中具体探讨。

目录

  • 残差平方和
  • 理解 R 方统计量
  • 对于 R 方统计量的问题
  • 调整 R 方统计量

残差平方和

为了分明地了解这些概念,咱们将探讨一个简略的回归问题。在这里,咱们试图依据“花在学习上的工夫”来预测“取得的分数”。学习工夫是咱们的自变量,考试成绩是咱们的因变量或指标变量。

咱们能够绘制一个简略的回归图来可视化这些数据。

黄点代表数据点,蓝线是咱们预测的回归线。如你所见,咱们的回归模型并不能完满地预测所有的数据点。

那么咱们如何利用这些数据来评估回归线的预测呢?咱们能够从确定数据点的残差开始。

数据中某一点的 残差 是理论值与线性回归模型预测值之间的差值。

残差图通知咱们回归模型是否适宜数据。残差的平方实际上是回归模型优化的指标函数。

利用残差值,咱们能够确定残差的平方和,也称为残差平方和或 RSS。。

RSS 值越低,模型预测值越好。或者咱们能够这样说——如果回归线使 RSS 值最小化,那么回归线就是最佳拟合线。

但这其中有一个缺点——RSS 是一个尺度变量统计。因为 RSS 是理论值和预测值的平方差之和,因而该值取决于指标变量的大小。

例子:

假如你的指标变量是销售产品所产生的支出。残差取决于指标的大小。如果支出大小以“1 百卢比”为单位计算的话(即指标可能是 1、2、3 等),那么咱们可能会失去 0.54 左右的 RSS(假如)。

然而如果支出指标变量以“卢比”为单位(即目标值为 100、200、300 等),那么咱们可能会失去一个更大的 RSS,即 5400。即便数据没有变动,RSS 的值也会随着指标的大小而变动。这使得很难判断什么是好的 RSS 值。

那么,咱们能想出一个更好的尺度不变的统计量吗?这就是 R 方呈现的中央。

R 方统计量

R 方统计量是一种尺度不变的统计量,它给出了线性回归模型解释的指标变量的变动比例。

这可能看起来有点简单,所以让我在这里把它合成。为了确定模型解释的指标变动比例,咱们须要首先确定以下内容 -

平方和(TSS)

指标变量的总变动是理论值与其平均值之差的平方和。

TSS 或总平方和给出了 Y 的总变动量。咱们能够看到它与 Y 的方差十分类似。尽管方差是理论值和数据点之间差的平方和的平均值,TSS 是平方和的总和。

既然咱们晓得了指标变量的总变动量,咱们如何确定模型解释的这种变动的比例?咱们回到 RSS。

残差平方和(RSS)

正如咱们后面探讨的,RSS 给出了理论点到回归线间隔的总平方。残差,咱们能够说是回归线没有捕捉到的间隔。

因而,RSS 作为一个整体给了咱们指标变量中没有被咱们的模型解释的变动。

R 方

当初,如果 TSS 给出 Y 的总变动量,RSS 给出不被 X 解释的 Y 的变动量,那么 TSS-RSS 给出了 Y 的变动,并且这部分变动是由咱们的模型解释的!咱们能够简略地再除以 TSS,失去由模型解释的 Y 中的变动比例。这是咱们的 R 方统计量!

R 方 =(TSS-RSS)/TSS

​ = 解释变动 / 总变动

​ =1–未解释的变动 / 总变动

因而,R 方给出了指标变量的可变性水平,由模型或自变量解释。如果该值为 0.7,则意味着自变量解释了指标变量中 70% 的变动。

R 方始终介于 0 和 1 之间。R 方越高,阐明模型解释的变动越多,反之亦然。

如果 RSS 值很低,这意味着回归线十分靠近理论点。这意味着自变量解释了指标变量的大部分变动。在这种状况下,咱们会有一个十分高的 R 方值。

相同,如果 RSS 值十分高,则意味着回归线远离理论点。因而,自变量无法解释指标变量中的大部分变量。这会给咱们一个很低的 R 方值。

所以,这就解释了为什么 R 方值给出了指标变量的变动量。

对于 R 方统计量的问题

R 方统计并不完满。事实上,它有一个次要缺点。不论咱们在回归模型中增加多少变量,它的值永远不会缩小。

也就是说,即便咱们在数据中增加冗余变量,R 方的值也不会缩小。它要么放弃不变,要么随着新的自变量的减少而减少。

这显然没有意义,因为有些自变量在确定指标变量时可能没有用途。调整 R 方解决了这个问题。

调整 R 方统计量

调整 R 方思考了用于预测指标变量的自变量数量。在这样做的时候,咱们能够确定在模型中增加新的变量是否会减少模型的拟合度。

让咱们看看调整 R 方的公式,以便更好地了解它的工作原理。

在这里,

  • n 示意数据集中的数据点数量
  • k 示意自变量的个数
  • R 代表模型确定的 R 方值

因而,如果 R 方在减少一个新的自变量时没有显著减少,那么调整 R 方值实际上会缩小。

另一方面,如果减少新的自变量,咱们看到 R 方值显著减少,那么调整 R 方值也会减少。

如果咱们在模型中退出一个随机自变量,咱们能够看到 R 方值和调整 R 方值之间的差别。

如你所见,增加随机独立变量无助于解释指标变量的变动。咱们的 R 方值放弃不变。因而,给咱们一个谬误的批示,这个变量可能有助于预测输入。然而,调整 R 方值降落,表明这个新变量实际上没有捕捉到指标变量的趋势。

显然,当回归模型中存在多个变量时,最好应用调整 R 方。这将使咱们可能比拟具备不同数量独立变量的模型。

结尾

在这篇文章中,咱们钻研了 R 方统计值是什么,它在哪里不稳固。咱们还钻研了调整 R 方。

心愿这能让你更好地了解事件。当初,你能够审慎地确定哪些自变量有助于预测回归问题的输入。

原文链接:https://www.analyticsvidhya.c…

欢送关注磐创 AI 博客站:
http://panchuang.net/

sklearn 机器学习中文官网文档:
http://sklearn123.com/

欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/

正文完
 0