全文链接:http://tecdat.cn/?p=31445
原文出处:拓端数据部落公众号
机器学习在环境监测畛域的利用,着眼于摸索寰球范畴内的环境演化法则,人类与自然生态之间的关系以及环境变动对人类生存的影响。
课题着眼于环境迷信中的近年来土地面积变动影响的课题,利用机器学习的办法,进行数据处理与剖析预测。数据的解决办法以及机器学习自身算法实践的学习和代码实现在各畛域具备雷同性,之后同学能够在其余感兴趣的畛域联合数据进行剖析,利用此课题所学常识触类旁通。
本文获取了近年来寰球各国土地面积变动数据:
区域或局地尺度的气候变化影响钻研须要对气象模式输入或再剖析材料进行降尺度以取得更细分辨率的气象材料。
本文通过PCA主成分、lasso、岭回归对数据进行降维剖析,既能起到对相干的预报因子限度的作用保障了预测后果的稳定性,又不至于覆盖预报因子的奉献以至于丢失模型预测的准确性。
读取数据
data=read.csv("E:/climate_change_download_0 (1).csv") data=na.omit(data) # data[which(data=="..")]=0 x=data[,c(7:ncol(data))] x[which(x=="..",arr.ind = T)]=0
数据荡涤
x=data.frame(x) for(j in 1:ncol(x))x[,j]=as.numeric(x[,j])
主成分剖析
pca <- x %*% v[,1:2]scores <- X %*% loadings biplot(scores[,1:2], loadings[,1:2], xlab=rownames(scores),
发现最优主成分数
lasso 模型
对数据进行lasso模型筛选变量
转换数据类型
for(i in 1:ncol(X))X[,i]=as.numeric(X[,i])
找出有强影响的变量
summary(laa)## LARS/LAR ## Call: lars(x = X, y = Y, type = "lar") ## Df Rss Cp ## 0 1 6505.0 2041.608 ## 1 2 6472.4 2000.730 ## 2 3 6411.9 1923.292 ## 3 4 6056.4 1458.310 ## 4 5 6044.3 1444.434 ## 5 6 6010.9 1402.454 ## 6 7 5660.6 944.328 ## 7 8 5594.1 858.944 ## 8 9 5334.2 519.497
应用岭回归办法排除回归模型中的多重共线性是有必要的。在对岭回归模型参数的确定过程中,通过对多站点多个月份的试验,本文认为在应用岭回归模型进行统计降尺度时将df设置为17时,cp值最小,因而咱们抉择1999-2006年的数据较为正当,既能起到对相干的预报因子限度的作用保障了预测后果的稳定性,又不至于覆盖预报因子的奉献以至于丢失模型预测的准确性。
应用ridge regression回归模型
plot(lm.rid
抉择GCV为100,带入岭回归模型的lambda中
应用岭回归办法排除回归模型中的多重共线性是有必要的。在对岭回归模型参数的确定过程中,通过对多站点多个月份的试验,本文认为在应用岭回归模型对地区土地面积进行统计尺度时将GCV设置为100较为正当,当过小时,正则项起不到作用,回归模型各项系数扩散,此时模型如一般最小二乘多元回归模型,呈现过拟合景象,预测后果不稳固;当过大时,模型各项系数收敛到一处,呈现欠拟合景象,预测后果不精确;而当正当确定时,均衡了模型的稳定性和准确性。
最受欢迎的见解
1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)
2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化剖析
3.主成分剖析(PCA)基本原理及剖析实例
4.R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归
5.应用LASSO回归预测股票收益数据分析
6.r语言中对lasso回归,ridge岭回归和elastic-net模型
7.r语言中的偏最小二乘回归pls-da数据分析
8.R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
9.R语言主成分剖析(PCA)葡萄酒可视化:主成分得分散点图和载荷图