关于数据挖掘:R语言进行支持向量机回归SVR和网格搜索超参数优化附代码数据

全文链接：http://tecdat.cn/?p=23305

最近咱们被客户要求撰写对于反对向量机回归的钻研报告，包含一些图形和统计输入。

在这篇文章中，我将展现如何应用R语言来进行反对向量回归SVR

咱们将首先做一个简略的线性回归，而后转向反对向量回归，这样你就能够看到两者在雷同数据下的体现。

一个简略的数据集

首先，咱们将应用这个简略的数据集。

正如你所看到的，在咱们的两个变量X和Y之间仿佛存在某种关系，看起来咱们能够拟合出一条在每个点左近通过的直线。

咱们用R语言来做吧!

点击题目查阅往期内容

Matlab建设SVM，KNN和奢侈贝叶斯模型分类绘制ROC曲线

左右滑动查看更多

第1步：在R中进行简略的线性回归

上面是CSV格局的雷同数据，我把它保留在regression.csv文件中。

咱们当初能够用R来显示数据并拟合直线。

# 从csv文件中加载数据dataDirectory <- "D:/" #把你本人的文件夹放在这里data <- read.csv(paste(dataDirectory, 'data.csv', sep=""), header = TRUE)# 绘制数据plot(data, pch=16)# 创立一个线性回归模型model <- lm(Y ~ X, data)# 增加拟合线abline(model)

下面的代码显示以下图表:

第2步：咱们的回归成果怎么样？

为了可能比拟线性回归和反对向量回归，咱们首先须要一种办法来掂量它的成果。

为了做到这一点，咱们扭转一下代码，使模型做出每一个预测可视化

# 对每个X做一个预测pred <- predict(model, data)# 显示预测后果points(X, pred)

产生了以下图表。

对于每个数据点Xi，模型都会做出预测Y^i，在图上显示为一个红色的十字。与之前的图表惟一不同的是，这些点没有相互连接。

为了掂量咱们的模型成果，咱们计算它的误差有多大。

咱们能够将每个Yi值与相干的预测值Y^i进行比拟，看看它们之间有多大的差别。

请留神，表达式Y^i-Yi是误差，如果咱们做出一个完满的预测，Y^i将等于Yi，误差为零。

如果咱们对每个数据点都这样做，并将误差相加，咱们将失去误差之和，如果咱们取平均值，咱们将失去均匀平方误差（MSE）。

在机器学习中，掂量误差的一个常见办法是应用均方根误差（RMSE），所以咱们将应用它来代替。

为了计算RMSE，咱们取其平方根，咱们失去RMSE

应用R，咱们能够失去以下代码来计算RMSE

rmse <- function(error){  sqrt(mean(error^2))}

咱们当初晓得，咱们的线性回归模型的RMSE是5.70。让咱们尝试用SVR来改善它吧！

第3步：反对向量回归

用R创立一个SVR模型。

上面是用反对向量回归进行预测的代码。

model <- svm(Y ~ X , data)

如你所见，它看起来很像线性回归的代码。请留神，咱们调用了svm函数（而不是svr！），这是因为这个函数也能够用来用反对向量机进行分类。如果该函数检测到数据是分类的（如果变量是R中的一个因子），它将主动抉择SVM。

代码画出了上面的图。

这一次的预测后果更靠近于实在的数值 ! 让咱们计算一下反对向量回归模型的RMSE。

# 这次svrModel$residuals与data$Y - predictedY不一样。#所以咱们这样计算误差svrPredictionRMSE

正如预期的那样，RMSE更好了，当初是3.15，而之前是5.70。

但咱们能做得更好吗？

第四步：调整你的反对向量回归模型

为了进步反对向量回归的性能，咱们将须要为模型抉择最佳参数。

在咱们之前的例子中，咱们进行了-回归，咱们没有为()设置任何值，但它的默认值是0.1。还有一个老本参数，咱们能够扭转它以防止适度拟合。

抉择这些参数的过程被称为超参数优化，或模型抉择。

规范的办法是进行网格搜寻。这意味着咱们将为和老本的不同组合训练大量的模型，并抉择最好的一个。

# 进行网格搜寻tuneResultranges = list(epsilon = seq(0,1,0.1), cost = 2^(2:9))# 绘制调参图plot(Result)

在下面的代码中有两个重要的点。

咱们应用tune办法训练模型，=0,0.1,0.2,...,1和cost=22,23,24,...,29这意味着它将训练88个模型（这可能须要很长一段时间
tuneResult返回MSE，别忘了在与咱们之前的模型进行比拟之前将其转换为RMSE。

最初一行绘制了网格搜寻的后果。

在这张图上，咱们能够看到，区域色彩越深，咱们的模型就越好（因为RMSE在深色区域更接近于零）。

这意味着咱们能够在更窄的范畴内尝试另一个网格搜寻，咱们将尝试在0和0.2之间的值。目前看来，老本值并没有产生影响，所以咱们将放弃原样，看看是否有变动。

rangelist(epsilo = seq(0,0.2,0.01), cost = 2^(2:9))

咱们用这一小段代码训练了不同的168模型。

当咱们放大暗区域时，咱们能够看到有几个较暗的斑块。

从图中能够看出，C在200到300之间，在0.08到0.09之间的模型误差较小。

心愿对咱们来说，咱们不用用眼睛去抉择最好的模型，R让咱们非常容易地失去它，并用来进行预测。

# 这个值在你的电脑上可能是不同的# 因为调参办法会随机调整数据tunedModelRMSE <- rmse(error)

咱们再次进步了反对向量回归模型的RMSE !

咱们能够把咱们的两个模型都可视化。在下图中，第一个SVR模型是红色的，而调整后的SVR模型是蓝色的。

我心愿你喜爱这个对于用R反对向量回归的介绍。你能够查看原文失去本教程的源代码。

本文摘选《 R语言进行反对向量机回归SVR和网格搜寻超参数优化 》，点击“浏览原文”获取全文残缺材料。

点击题目查阅往期内容

逻辑回归、随机森林、SVM反对向量机预测心脏病危险数据和模型诊断可视化\
R语言梯度提升机 GBM、反对向量机SVM、正则判别分析RDA模型训练、参数调优化和性能比拟可视化剖析声纳数据\
R语言量化交易RSI策略：应用反对向量机SVM\
基于随机森林、svm、CNN机器学习的风控欺诈辨认模型\
Matlab建设SVM，KNN和奢侈贝叶斯模型分类绘制ROC曲线\
基于ARIMA、SVM、随机森林销售的工夫序列预测\
基于数据挖掘SVM模型的pre-incident事变预防预测\
R语言用rle，svm和rpart决策树进行工夫序列预测Python中基于网格搜索算法优化的深度学习模型剖析糖尿病数据\
随机森林优化贝叶斯预测剖析汽车燃油经济性\
Python基于粒子群优化的投资组合优化钻研\
matlab应用贝叶斯优化的深度学习：卷积神经网络CNN\
R语言深度学习：用keras神经网络回归模型预测工夫序列数据\
Matlab用深度学习长短期记忆（LSTM）神经网络对文本数据进行分类\
R语言KERAS深度学习CNN卷积神经网络分类辨认手写数字图像数据（MNIST）\
MATLAB中用BP神经网络预测人体脂肪百分比数据\
Python中用PyTorch机器学习神经网络分类预测银行客户散失模型\
R语言实现CNN（卷积神经网络）模型进行回归数据分析\
SAS应用鸢尾花(iris)数据集训练人工神经网络(ANN)模型\
【视频】R语言实现CNN（卷积神经网络）模型进行回归数据分析\
Python应用神经网络进行简略文本分类\
R语言用神经网络改良Nelson-Siegel模型拟合收益率曲线剖析\
R语言基于递归神经网络RNN的温度工夫序列预测\
R语言神经网络模型预测车辆数量工夫序列\
R语言中的BP神经网络模型剖析学生问题\
matlab应用长短期记忆（LSTM）神经网络对序列数据进行分类\
R语言实现拟合神经网络预测和后果可视化\
用R语言实现神经网络预测股票实例\
应用PYTHON中KERAS的LSTM递归神经网络进行工夫序列预测\
python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译\
用于NLP的Python：应用Keras的多标签文本LSTM神经网络分类