回归剖析为许多机器学习算法提供了松软的根底。在这篇文章中,咱们将总结 10 个重要的回归问题和 5 个重要的回归问题的评估指标。
1、线性回归的假如是什么?
线性回归有四个假如
- 线性:自变量(x)和因变量(y)之间应该存在线性关系,这意味着 x 值的变动也应该在雷同方向上扭转 y 值。
- 独立性:特色应该互相独立,这意味着最小的多重共线性。
- 正态性:残差应该是正态分布的。
- 同方差性:回归线四周数据点的方差对于所有值应该雷同。
2、什么是残差。它如何用于评估回归模型?
残差是指预测值与观测值之间的误差。它测量数据点与回归线的间隔。它是通过从察看值中减去预测值的计算机。
残差图是评估回归模型的好办法。它是一个图表,在垂直轴上显示所有残差,在 x 轴上显示特色。如果数据点随机分布在没有图案的线上,那么线性回归模型非常适合数据,否则咱们应该应用非线性模型。
3、如何辨别线性回归模型和非线性回归模型?
两者都是回归问题的类型。两者的区别在于他们训练的数据。
线性回归模型假如特色和标签之间存在线性关系,这意味着如果咱们获取所有数据点并将它们绘制成线性(直线)线应该适宜数据。
非线性回归模型假如变量之间没有线性关系。非线性(曲线)线应该可能正确地拆散和拟合数据。
找出数据是线性还是非线性的三种最佳办法 –
- 残差图
- 散点图
- 假如数据是线性的,训练一个线性模型并通过准确率进行评估。
4、什么是多重共线性。它如何影响模型性能?
当某些特色彼此高度相干时,就会产生多重共线性。相关性是指示意一个变量如何受到另一个变量变动影响的度量。
如果特色 a 的减少导致特色 b 的减少,那么这两个特色是正相干的。如果 a 的减少导致特色 b 的缩小,那么这两个特色是负相关的。在训练数据上有两个高度相干的变量会导致多重共线性,因为它的模型无奈在数据中找到模式,从而导致模型性能不佳。所以在训练模型之前首先要尽量打消多重共线性。
5、异样值如何影响线性回归模型的性能?
异样值是值与数据点的平均值范畴不同的数据点。换句话说,这些点与数据不同或在第 3 规范之外。
线性回归模型试图找到一条能够缩小残差的最佳拟合线。如果数据蕴含异样值,则最佳拟合线将向异样值挪动一点,从而减少错误率并得出具备十分高 MSE 的模型。
6、什么是 MSE 和 MAE 有什么区别?
MSE 代表均方误差,它是理论值和预测值之间的平方差。而 MAE 是目标值和预测值之间的相对差。
MSE 会惩办大谬误,而 MAE 不会。随着 MSE 和 MAE 的值都升高,模型趋向于一条更好的拟合线。
7、L1 和 L2 正则化是什么,应该在什么时候应用?
在机器学习中,咱们的次要指标是创立一个能够在训练和测试数据上体现更好的通用模型,然而在数据非常少的状况下,根本的线性回归模型往往会适度拟合,因而咱们会应用 l1 和 l2 正则化。
L1 正则化或 lasso 回归通过在老本函数内增加增加斜率的绝对值作为惩办项。有助于通过删除斜率值小于阈值的所有数据点来去除异样值。
L2 正则化或 ridge 回归减少了相当于系数大小平方的惩办项。它会惩办具备较高斜率值的特色。
l1 和 l2 在训练数据较少、方差高、预测特色大于察看值以及数据存在多重共线性的状况下都很有用。
8、异方差是什么意思?
它是指最佳拟合线四周的数据点的方差在一个范畴内不一样的状况。它导致残差的不平均扩散。如果它存在于数据中,那么模型偏向于预测有效输入。测验异方差的最好办法之一是绘制残差图。
数据外部异方差的最大起因之一是范畴特色之间的微小差别。例如,如果咱们有一个从 1 到 100000 的列,那么将值减少 10% 不会扭转较低的值,但在较高的值时则会产生十分大的差别,从而产生很大的方差差别的数据点。
9、方差收缩因子的作用是什么的作用是什么?
方差收缩因子(vif)用于找出应用其余自变量可预测自变量的水平。
让咱们以具备 v1、v2、v3、v4、v5 和 v6 特色的示例数据为例。当初,为了计算 v1 的 vif,将其视为一个预测变量,并尝试应用所有其余预测变量对其进行预测。
如果 VIF 的值很小,那么最好从数据中删除该变量。因为较小的值示意变量之间的高相关性。
10、逐步回归 (stepwise regression) 如何工作?
逐步回归是在假设检验的帮忙下,通过移除或增加预测变量来创立回归模型的一种办法。它通过迭代测验每个自变量的显著性来预测因变量,并在每次迭代之后删除或增加一些特色。它运行 n 次,并试图找到最佳的参数组合,以预测因变量的观测值和预测值之间的误差最小。
它能够十分高效地治理大量数据,并解决高维问题。
除了 MSE 和 MAE 外回归还有什么重要的指标吗?
咱们用一个回归问题来介绍这些指标,咱们的其中输出是工作教训,输入是薪水。下图显示了为预测薪水而绘制的线性回归线。
1、均匀绝对误差(MAE):
均匀绝对误差 (MAE) 是最简略的回归度量。它将每个理论值和预测值的差值相加,最初除以察看次数。为了使回归模型被认为是一个好的模型,MAE 应该尽可能小。
MAE 的长处是:
简略易懂。后果将具备与输入雷同的单位。例如:如果输入列的单位是 LPA,那么如果 MAE 为 1.2,那么咱们能够解释后果是 +1.2LPA 或 -1.2LPA,MAE 对异样值绝对稳固(与其余一些回归指标相比,MAE 受异样值的影响较小)。
MAE 的毛病:MAE 应用的是模函数,但模函数不是在所有点处都可微的,所以很多状况下不能作为损失函数。
2、均方误差(MSE):
MSE 取每个理论值和预测值之间的差值,而后将差值平方并将它们相加,最初除以观测数量。为了使回归模型被认为是一个好的模型,MSE 应该尽可能小。
MSE 的长处:平方函数在所有点上都是可微的,因而它能够用作损失函数。
MSE 的毛病:因为 MSE 应用平方函数,后果的单位是输入的平方。因而很难解释后果。因为它应用平方函数,如果数据中有异样值,则差值也会被平方,因而,MSE 对异样值不稳固。
3、均方根误差 (RMSE):
均方根误差(RMSE)取每个理论值和预测值之间的差值,而后将差值平方并将它们相加,最初除以观测数量。而后取后果的平方根。因而,RMSE 是 MSE 的平方根。为了使回归模型被认为是一个好的模型,RMSE 应该尽可能小。
RMSE 解决了 MSE 的问题,单位将与输入的单位雷同,因为它取平方根,但依然对异样值不那么稳固。
上述指标取决于咱们正在解决的问题的上下文,咱们不能在不理解理论问题的状况下,只看 MAE、MSE 和 RMSE 的值来判断模型的好坏。
4、R2 score:
如果咱们没有任何输出数据,然而想晓得他在这家公司能拿到多少薪水,那么咱们能做的最好的事件就是给他们所有员工薪水的平均值。
R2 score 给出的值介于 0 到 1 之间,能够针对任何上下文进行解释。它能够了解为是拟合度的好坏。
SSR 是回归线的误差平方和,SSM 是均线误差的平方和。咱们将回归线与平均线进行比拟。
- 如果 R2 得分为 0,则意味着咱们的模型与平均线的后果是雷同的,因而须要改良咱们的模型。
- 如果 R2 得分为 1,则等式的右侧局部变为 0,这只有在咱们的模型适宜每个数据点并且没有呈现误差时才会产生。
- 如果 R2 得分为负,则示意等式右侧大于 1,这可能产生在 SSR > SSM 时。这意味着咱们的模型比平均线最差,也就是说咱们的模型还不如取平均数进行预测
如果咱们模型的 R2 得分为 0.8,这意味着能够说模型可能解释 80% 的输入方差。也就是说,80% 的工资变动能够用输出 (工作年限) 来解释,但剩下的 20% 是未知的。
如果咱们的模型有 2 个特色,工作年限和面试分数,那么咱们的模型可能应用这两个输出特色解释 80% 的工资变动。
R2 的毛病:
随着输出特色数量的减少,R2 会趋于相应的减少或者放弃不变,但永远不会降落,即便输出特色对咱们的模型不重要(例如,将面试当天的气温增加到咱们的示例中,R2 是不会降落的即便温度对输入不重要)。
5、Adjusted R2 score:
上式中 R2 为 R2,n 为观测数(行),p 为独立特色数。Adjusted R2 解决了 R2 的问题。
当咱们增加对咱们的模型不那么重要的个性时,比方增加温度来预测工资 …..
当增加对模型很重要的个性时,比方增加面试分数来预测工资……
以上就是回归问题的重要知识点和解决回归问题应用的各种重要指标的介绍及其优缺点,心愿对你有所帮忙。
https://avoid.overfit.cn/post/231a3a53616a42aebc8aba88e3e131c9