关于数据挖掘:R语言PCA主成分lasso岭回归降维分析全球气候变化对各国土地面积影响

50次阅读

共计 1765 个字符,预计需要花费 5 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=31445

原文出处:拓端数据部落公众号

机器学习在环境监测畛域的利用,着眼于摸索寰球范畴内的环境演化法则,人类与自然生态之间的关系以及环境变动对人类生存的影响。

课题着眼于环境迷信中的近年来土地面积变动影响的课题,利用机器学习的办法,进行数据处理与剖析预测。数据的解决办法以及机器学习自身算法实践的学习和代码实现在各畛域具备雷同性,之后同学能够在其余感兴趣的畛域联合数据进行剖析,利用此课题所学常识触类旁通。

本文获取了近年来寰球各国土地面积变动数据:

区域或局地尺度的气候变化影响钻研须要对气象模式输入或再剖析材料进行降尺度以取得更细分辨率的气象材料。

本文通过 PCA 主成分、lasso、岭回归对数据进行降维剖析,既能起到对相干的预报因子限度的作用保障了预测后果的稳定性,又不至于覆盖预报因子的奉献以至于丢失模型预测的准确性。

读取数据

data=read.csv("E:/climate_change_download_0 (1).csv")  
  
data=na.omit(data)  
# data[which(data=="..")]=0  
x=data[,c(7:ncol(data))]  
x[which(x=="..",arr.ind = T)]=0

数据荡涤

x=data.frame(x)  
for(j in 1:ncol(x))x[,j]=as.numeric(x[,j])

主成分剖析


pca <- x %*% v[,1:2]
scores <- X %*% loadings  
biplot(scores[,1:2], loadings[,1:2], xlab=rownames(scores),

发现最优主成分数

lasso 模型

对数据进行 lasso 模型筛选变量

转换数据类型

for(i in 1:ncol(X))X[,i]=as.numeric(X[,i])

找出有强影响的变量

summary(laa)

## LARS/LAR  
## Call: lars(x = X, y = Y, type = "lar")  
##    Df    Rss       Cp  
## 0   1 6505.0 2041.608  
## 1   2 6472.4 2000.730  
## 2   3 6411.9 1923.292  
## 3   4 6056.4 1458.310  
## 4   5 6044.3 1444.434  
## 5   6 6010.9 1402.454  
## 6   7 5660.6  944.328  
## 7   8 5594.1  858.944  
## 8   9 5334.2  519.497

应用岭回归办法排除回归模型中的多重共线性是有必要的。在对岭回归模型参数 α 的确定过程中,通过对多站点多个月份的试验,本文认为在应用岭回归模型进行统计降尺度时将 df 设置为 17 时,cp 值最小,因而咱们抉择 1999-2006 年的数据较为正当,既能起到对相干的预报因子限度的作用保障了预测后果的稳定性,又不至于覆盖预报因子的奉献以至于丢失模型预测的准确性。

应用 ridge regression 回归模型

plot(lm.rid

抉择 GCV 为 100,带入岭回归模型的 lambda 中

应用岭回归办法排除回归模型中的多重共线性是有必要的。在对岭回归模型参数 α 的确定过程中,通过对多站点多个月份的试验,本文认为在应用岭回归模型对地区土地面积进行统计尺度时将 GCV 设置为 100 较为正当,当 α 过小时,正则项起不到作用,回归模型各项系数扩散,此时模型如一般最小二乘多元回归模型,呈现过拟合景象,预测后果不稳固; 当 α 过大时,模型各项系数收敛到一处,呈现欠拟合景象,预测后果不精确; 而当 α 正当确定时,均衡了模型的稳定性和准确性。


最受欢迎的见解

1.matlab 偏最小二乘回归 (PLSR) 和主成分回归(PCR)

2. R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析

3.主成分剖析 (PCA) 基本原理及剖析实例

4. R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归

5.应用 LASSO 回归预测股票收益数据分析

6. r 语言中对 lasso 回归,ridge 岭回归和 elastic-net 模型

7. r 语言中的偏最小二乘回归 pls-da 数据分析

8. R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化

9. R 语言主成分剖析(PCA)葡萄酒可视化:主成分得分散点图和载荷图

正文完
 0