关于数据挖掘:视频R语言机器学习高维数据应用Lasso回归和交叉验证预测房屋市场租金价格

全文链接：http://tecdat.cn/?p=32646

原文出处：拓端数据部落公众号

分析师：Junjun Li

在这篇文章中，咱们将着重探讨高维数据下的机器学习利用，以屋宇市场租金价格预测为例。在理论生存中，屋宇租金作为一个重要的经济指标，被广泛应用于城市规划、财务投资等方面的决策中。然而，如何精确地预测屋宇租金价格却始终是一个具备挑战性的问题。

本文将介绍如何应用Lasso回归和穿插验证办法来解决高维数据下的屋宇市场租金价格预测问题，并具体论述R语言在此过程中的利用技巧和实现办法。

背景

Goal:
利用主体物业和租户的各种特色来预测屋宇市场租金价格

Data:
在Inter-University Consortium for Politicaland Social Research(ICPSR)数据库中找到的2007年美国住房考察（全国宏观数据）有65,000个观测值和超过500个变量

Limitation:
某些特色的不可观测

有局部特色在超过80%的观测值中没有数据的，导致没有方法配合预测模型进行变量的筛选

Model used:

Regularization:
10.fold Lasso & AICc Lasso

适宜于大量数据处理（高维度多变量)

数据清理

应用R语言解决无奈观测到的变量︰
1.观测codebook去除无关的变量2.抉择去除50%以上失踪的变量（能够重复比照去除了不同变量后的模型)
3.对于剩下的变量去除含有NA的观测值

visualize局部重要变量是否正当

观测数据

大多数租金集中在一千美元左右，其均匀租金（由红线标示)为1025美元(直方图呈现出稍微右偏的近似正态分布)。

观测一些要害特色的信息，这些特色有助于预测偏心市场租金，包含卧室数量、楼层数量、地块面积和主体单位的平方英尺面积。

模型剖析

Regularization - Lasso Model

应用K-Fold cross validation确定最佳的入值:

数据被分成K个相等的局部，除了第k个折叠之外的所有数据都用于训练模型，第k个折叠用于测试模型，记录离样本外的偏差。

反复此过程，以至每个折叠都有机会成为测试集。导致离样本外偏差最小的入是最优入值，在案例中我采纳K-10：

最终计算最小deviance中的样本内R^2与通过10.Fold cross validation计算出的样本外R^2。

左侧是套索正则化门路的绘图。咱们能够看到随着lamda的减少，系数逐步趋近于零。

右侧的图表显示了10.Fold crossvalidation的离样本外偏差误差预计。最优入由最右边的垂直虚线示意。图表上的最低点实际上位于图表的最左侧，lamda的值最小。

·与典型的图表不同，这个图表不是呈“u形

在这种状况下，这意味着抉择了最简单的模型作为最优解。

模型剖析

右图的值示意非零系数及其值，取重要变量进行合理性剖析:
卧室数量:每减少—个卧室，月租金价格天约减少143.51美元，其余变量和特色放弃不变。
这个值是正当的，因为2个卧室的单位的租金价格很可能大于1个卧室的单位的租金价格。
楼层数的系数是正数:对于每减少个楼层的单位或物业，月租金价格将缩小约10.55美元，其余变量和系数放弃不变。这个负系数是正当的，因为楼层数较多的物业更有可能是紧凑型的。

模型剖析

与10-Fold cross validation相比，我还应用了一个计算上较为简便的代替办法是Akaike Information Criterion(AICc)

在高维数据中，AICc偏向于产生过于简单的模型，导致过拟合。然而，AICc失去的非零系数及其值与之前雷同

·在右图中，咱们展现了在咱们的状况下，由AIC 、 AICc和10-Fold cross validation抉择的最优lamda是雷同的，即彩色、橙色和蓝色虚线重叠的局部.

总结

在执行Lasso Regularization后，咱们看到模型从数据集中抉择了186个变量中的76个变量。但有一些重要变量地没有蕴含在模型中，例如主体物业的建造年份和浴室数量，因为其中缺失了大量的观测值。

因为数据缺失较多所以模型只能用作主观预测，不能很好的反馈各个变量之间的相关性，
在数据清理方面，抉择去除含50%及以上数据缺失的变量也是一个须要衡量的方向，因为这个门槛抉择太低又可能导致数据少无奈正确反应变量之间的关系作用，而门槛太高就会呈现没方法抉择到一些比拟重要的变量。

此模型不具备自适应性，所以须要新数据的更新反对能力更好的保障其预测的准确性。

对于分析师

在此对Junjun Li对本文所作的奉献示意诚挚感激，他在加州大学圣克鲁兹实现了利用经济与金融业余的硕士学位，专一机器学习、数理金融、利用（计量）经济学畛域。善于R语言、Python。

最受欢迎的见解

1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)

2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化剖析

3.主成分剖析(PCA)基本原理及剖析实例

4.R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归

5.应用LASSO回归预测股票收益数据分析

6.r语言中对lasso回归，ridge岭回归和elastic-net模型

7.r语言中的偏最小二乘回归pls-da数据分析

8.R语言用主成分PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化

9.R语言主成分剖析（PCA）葡萄酒可视化：主成分得分散点图和载荷图