关于数据挖掘:R语言机器学习实战之多项式回归附代码数据

41次阅读

共计 2664 个字符,预计需要花费 7 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=2686

最近咱们被客户要求撰写对于多项式回归的钻研报告,包含一些图形和统计输入。

如果数据比简略的直线更为简单,咱们也能够用线性模型来拟合非线性数据

一个简略的办法就是将每一个特色的幂次方增加为一个新的特色,而后在这个拓展的特色集上进行线性拟合,这种办法成为多项式回归。

回归剖析的指标是依据自变量(或自变量向量)x 的值来模仿因变量 y 的期望值。在简略的线性回归中,应用模型

其中 ε 是未察看到的随机误差,其以标量 x 为条件,均值为零。在该模型中,对于 x 值的每个单位减少,y 的条件期望减少 β1β1 个单位。

在许多状况下,这种线性关系可能不成立。例如,如果咱们依据合成产生的温度对化学合成的产率进行建模,咱们能够发现通过减少每单位温度减少的量来进步产率。在这种状况下,咱们可能会提出如下所示的二次模型:

通常,咱们能够将 y 的期望值建模为 n 次多项式,失去个别多项式回归模型:

为了不便,这些模型从预计的角度来看都是线性的,因为回归函数就未知参数 β0β0、β1β1 等而言是线性的。因而,对于最小二乘剖析,多项式回归的计算和推理问题能够应用多元回归技术齐全解决,这是通过将 xx、x2x2 等视为多元回归模型中的独特自变量来实现的。

 拟合 R 语言中的多项式回归

让咱们看一个经济学的例子:假如你想购买肯定数量 q 的特定产品。如果单价是 p,那么你会领取总金额 y。这是一个线性关系的典型例子。总价格和数量成正比。

 

 

如下所示:

但购买和发售,咱们可能要思考一些其余相干信息,就像当:购买显著数量很可能是咱们能够要求并取得折扣,或购买更多更重要的是咱们可能会推高价格。

这可能导致像这样的状况,其中总成本不再是数量的线性函数:

 

通过多项式回归,咱们能够将 n 阶模型拟合到数据上,并尝试对非线性关系进行建模。


点击题目查阅往期内容

R 语言用 logistic 逻辑回归和 AFRIMA、ARIMA 工夫序列模型预测世界人口

左右滑动查看更多

01

02

03

04

如何拟合多项式回归

这是咱们模仿观测数据的图。模仿的数据点是蓝色的点,而红色的线是信号(信号是一个技术术语,通常用于示意咱们感兴趣检测的总体趋势)。

 

让咱们用 R 来拟合。当拟合多项式时,您能够应用

 lm(noisy.y〜poly(q,3))

通过应用该 confint()函数,咱们能够取得咱们模型参数的置信区间。

模型参数的置信区间:

confint(model,level = 0.95)

拟合 vs 残差图

总的来说,这个模型仿佛很适宜,因为 R 的平方为 0.8。正如咱们所预期的那样,一阶和三阶项的系数在统计上显着。

预测值和置信区间 

将线增加到现有图中:

咱们能够看到,咱们的模型在拟合数据方面做得不错。

点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R 语言机器学习实战之多项式回归》。

点击题目查阅往期内容

R 语言用 logistic 逻辑回归和 AFRIMA、ARIMA 工夫序列模型预测世界人口
【视频】R 语言逻辑回归(Logistic 回归)模型分类预测病人冠心病危险 | 数据分享
R 语言逻辑回归 Logistic 回归剖析预测股票涨跌
matlab 用马尔可夫链蒙特卡罗 (MCMC) 的 Logistic 逻辑回归模型剖析汽车试验数据
R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病
R 语言逻辑回归 (Logistic Regression)、回归决策树、随机森林信用卡守约剖析信贷数据集 PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯和 KMEANS 聚类用户画像
Python 对商店数据进行 lstm 和 xgboost 销售量工夫序列建模预测剖析
PYTHON 集成机器学习:用 ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜寻超参数优化
R 语言集成模型:晋升树 boosting、随机森林、束缚最小二乘法加权均匀模型交融剖析工夫序列数据
Python 对商店数据进行 lstm 和 xgboost 销售量工夫序列建模预测剖析
R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R 语言基于树的办法:决策树,随机森林,Bagging,加强树
R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
spss modeler 用决策树神经网络预测 ST 的股票
R 语言中应用线性模型、回归决策树主动组合特色因子程度
R 语言中自编基尼系数的 CART 回归决策树的实现
R 语言用 rle,svm 和 rpart 决策树进行工夫序列预测
python 在 Scikit-learn 中用决策树和随机森林预测 NBA 获胜者
python 中应用 scikit-learn 和 pandas 决策树进行 iris 鸢尾花数据分类建模和穿插验证
R 语言里的非线性模型:多项式回归、部分样条、平滑样条、狭义相加模型 GAM 剖析
R 语言用规范最小二乘 OLS,狭义相加模型 GAM,样条函数进行逻辑回归 LOGISTIC 分类
R 语言 ISLR 工资数据进行多项式回归和样条回归剖析
R 语言中的多项式回归、部分回归、核平滑和平滑样条回归模型
R 语言用泊松 Poisson 回归、GAM 样条曲线模型预测骑自行车者的数量
R 语言分位数回归、GAM 样条曲线、指数平滑和 SARIMA 对电力负荷工夫序列预测 R 语言样条曲线、决策树、Adaboost、梯度晋升(GBM) 算法进行回归、分类和动静可视化
如何用 R 语言在机器学习中建设集成模型?
R 语言 ARMA-EGARCH 模型、集成预测算法对 SPX 理论稳定率进行预测在 python 深度学习 Keras 中计算神经网络集成模型 R 语言 ARIMA 集成模型预测工夫序列剖析 R 语言基于 Bagging 分类的逻辑回归 (Logistic Regression)、决策树、森林剖析心脏病患者
R 语言基于树的办法:决策树,随机森林,Bagging,加强树
R 语言基于 Bootstrap 的线性回归预测置信区间预计办法
R 语言应用 bootstrap 和增量法计算狭义线性模型(GLM)预测置信区间
R 语言样条曲线、决策树、Adaboost、梯度晋升(GBM) 算法进行回归、分类和动静可视化
Python 对商店数据进行 lstm 和 xgboost 销售量工夫序列建模预测剖析
R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
Matlab 建设 SVM,KNN 和奢侈贝叶斯模型分类绘制 ROC 曲线
matlab 应用分位数随机森林(QRF)回归树检测异样值

正文完
 0