关于数据挖掘:视频什么是非线性模型与R语言多项式回归局部平滑样条-广义相加GAM分析工资数据数据分享附代码数据
全文链接:http://tecdat.cn/?p=9706最近咱们被客户要求撰写对于非线性模型的钻研报告,包含一些图形和统计输入。 在这文中,我将介绍非线性回归的基础知识。非线性回归是一种对因变量和一组自变量之间的非线性关系进行建模的办法。最初咱们用R语言非线性模型预测集体工资数据是否每年支出超过25万 这些数据点对应于一段时间内的中国国内生产总值或 GDP。 第一栏是年份,第二栏是中国当年相应的年国内总收入。这就是数据点的样子。当初,咱们有几个乏味的问题。 首先,GDP能够依据工夫来预测吗? 其次,咱们能够应用简略的线性回归对其进行建模吗? 确实。如果数据显示曲线趋势,则与非线性回归相比,线性回归不会产生十分精确的后果。仅仅是因为,顾名思义,线性回归假设数据是线性的。 散点图显示 GDP 与工夫之间仿佛存在很强的关系,但这种关系不是线性的。如您所见,增长开始迟缓,而后从 2005 年开始,增长十分显着。最初,它在 2010 年代略有加速。它看起来像逻辑函数或指数函数。因而,它须要一种非凡的非线性回归过程预计办法。 存在许多不同的回归,可用于拟合数据集的外观。你能够在这里看到二次和三次回归线,它能够有限延长。实质上,咱们能够将所有这些称为多项式回归,其中自变量 X 和因变量 Y 之间的关系被建模为 X 中的 N 次多项式。有多种回归类型可供选择,很有可能其中一个将非常适合您的数据集。请记住,抉择最适宜数据的回归十分重要。 什么是多项式回归?多项式回归将曲线拟合到您的数据。Thetas 是要预计的参数,使模型齐全适宜根底数据。尽管这里 X 和 Y 之间的关系是非线性的,多项式回归无奈拟合它们,但多项式回归模型依然能够示意为线性回归。 给定三次多项式方程,将模型转换为具备新变量的简略线性回归。这个模型在要预计的参数中是线性的,对吧? 因而,这种多项式回归被认为是传统多元线性回归的一个特例。因而,您能够应用与线性回归雷同的机制来解决此类问题。因而,多项式回归模型能够应用最小二乘模型进行拟合。最小二乘法是一种通过最小化给定数据集中察看到的因变量与线性函数预测的因变量之间差别的平方和来预计线性回归模型中未知参数的办法。 什么是非线性回归?首先,非线性回归是一种对因变量和一组自变量之间的非线性关系建模的办法。 其次,对于一个被认为是非线性的模型,Y必须是参数Theta的非线性函数,不肯定是特色X。当波及到非线性方程时,它能够是指数,对数,和逻辑函数,或许多其余类型。正如您在所有这些方程中看到的那样,Y 的变动取决于参数 Theta 的变动,不肯定只取决于 X。也就是说,在非线性回归中,模型在参数上是非线性的。与线性回归相比,咱们不能应用一般的最小二乘法来拟合非线性回归中的数据。一般来说,参数的预计并不容易。 让我在这里答复两个重要的问题。 首先,我怎样才能以简略的形式晓得问题是线性的还是非线性的? 要答复这个问题,咱们必须做两件事。首先是直观地确定关系是线性的还是非线性的。最好用每个输出变量绘制输入变量的双变量图。此外,您能够计算自变量和因变量之间的相关系数,如果所有变量的相关系数为 0.7 或更高,则存在线性趋势,因而不适宜拟合非线性回归。咱们要做的第二件事是当咱们无奈精确地建模与线性参数的关系时,应用非线性回归而不是线性回归。 *第二个重要问题是,如果我的数据在散点图上显示为非线性,我应该如何建模? 要解决这个问题,您必须应用多项式回归、应用非线性回归模型或转换您的数据。 R语言里的非线性模型:多项式回归、部分样条、平滑样条、 狭义相加模型GAM剖析在这里,咱们放宽了风行的线性办法的假如。有时线性假如只是一个很差的近似值。有许多办法能够解决此问题,其中一些办法能够通过应用正则化办法升高模型复杂性来 解决 。然而,这些技术依然应用线性模型,到目前为止只能进行改良。本文本专一于线性模型的扩大 _多项式回归_ 这是对数据提供非线性拟合的简略办法。_阶跃函数_ 将变量的范畴划分为 _K个_ 不同的区域,以生成定性变量。这具备拟合分段常数函数的成果。_回归样条_ 比多项式和阶跃函数更灵便,并且实际上是两者的扩大。_部分样条曲线_ 相似于回归样条曲线,然而容许区域重叠,并且能够平滑地重叠。_平滑样条曲线_ 也相似于回归样条曲线,然而它们最小化平滑度惩办的残差平方和准则 。_狭义加性模型_ 容许扩大上述办法以解决多个预测变量。多项式回归这是扩大线性模型的最传统办法。随着咱们减少 多项式的项,多项式回归使咱们可能生成非线性的曲线,同时仍应用最小二乘法预计系数。 点击题目查阅往期内容 应用R语言进行多项式回归、非线性回归模型曲线拟合 左右滑动查看更多 01 02 ...