关于数据挖掘:视频R语言机器学习高维数据应用Lasso回归和交叉验证预测房屋市场租金价格

35次阅读

共计 2214 个字符,预计需要花费 6 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=32646

原文出处:拓端数据部落公众号

分析师:Junjun Li

在这篇文章中,咱们将着重探讨高维数据下的机器学习利用,以屋宇市场租金价格预测为例。在理论生存中,屋宇租金作为一个重要的经济指标,被广泛应用于城市规划、财务投资等方面的决策中。然而,如何精确地预测屋宇租金价格却始终是一个具备挑战性的问题。

本文将介绍如何应用 Lasso 回归和穿插验证办法来解决高维数据下的屋宇市场租金价格预测问题,并具体论述 R 语言在此过程中的利用技巧和实现办法。

背景

Goal:
利用主体物业和租户的各种特色来预测屋宇市场租金价格

Data:
在 Inter-University Consortium for Politicaland Social Research(ICPSR)数据库中找到的 2007 年美国住房考察(全国宏观数据)有 65,000 个观测值和超过 500 个变量

Limitation:
某些特色的不可观测

有局部特色在超过 80% 的观测值中没有数据的,导致没有方法配合预测模型进行变量的筛选

Model used:

Regularization:
10.fold Lasso & AICc Lasso

适宜于大量数据处理(高维度多变量)

数据清理

应用 R 语言解决无奈观测到的变量︰
1. 观测 codebook 去除无关的变量 2. 抉择去除 50% 以上失踪的变量(能够重复比照去除了不同变量后的模型)
3. 对于剩下的变量去除含有 NA 的观测值

  1. visualize 局部重要变量是否正当

观测数据

大多数租金集中在一千美元左右,其均匀租金(由红线标示)为 1025 美元(直方图呈现出稍微右偏的近似正态分布)。

观测一些要害特色的信息,这些特色有助于预测偏心市场租金,包含卧室数量、楼层数量、地块面积和主体单位的平方英尺面积。

模型剖析

Regularization – Lasso Model

应用 K -Fold cross validation 确定最佳的入值:

数据被分成 K 个相等的局部,除了第 k 个折叠之外的所有数据都用于训练模型,第 k 个折叠用于测试模型,记录离样本外的偏差。

反复此过程,以至每个折叠都有机会成为测试集。导致离样本外偏差最小的入是最优入值,在案例中我采纳 K -10:

最终计算最小 deviance 中的样本内 R^2 与通过 10.Fold cross validation 计算出的样本外 R^2。

左侧是套索正则化门路的绘图。咱们能够看到随着 lamda 的减少,系数逐步趋近于零。

右侧的图表显示了 10.Fold crossvalidation 的离样本外偏差误差预计。最优入由最右边的垂直虚线示意。图表上的最低点实际上位于图表的最左侧,lamda 的值最小。

·与典型的图表不同,这个图表不是呈“u 形

在这种状况下,这意味着抉择了最简单的模型作为最优解。

模型剖析

右图的值示意非零系数及其值,取重要变量进行合理性剖析:
卧室数量: 每减少—个卧室,月租金价格天约减少 143.51 美元,其余变量和特色放弃不变。
这个值是正当的,因为 2 个卧室的单位的租金价格很可能大于 1 个卧室的单位的租金价格。
楼层数的系数是正数: 对于每减少个楼层的单位或物业,月租金价格将缩小约 10.55 美元,其余变量和系数放弃不变。这个负系数是正当的,因为楼层数较多的物业更有可能是紧凑型的。

模型剖析

与 10-Fold cross validation 相比,我还应用了一个计算上较为简便的代替办法是 Akaike Information Criterion(AICc)

在高维数据中,AICc 偏向于产生过于简单的模型,导致过拟合。然而,AICc 失去的非零系数及其值与之前雷同

·在右图中,咱们展现了在咱们的状况下,由 AIC、AICc 和 10-Fold cross validation 抉择的最优 lamda 是雷同的,即彩色、橙色和蓝色虚线重叠的局部.

总结

在执行 Lasso Regularization 后,咱们看到模型从数据集中抉择了 186 个变量中的 76 个变量。但有一些重要变量地没有蕴含在模型中,例如主体物业的建造年份和浴室数量,因为其中缺失了大量的观测值。

因为数据缺失较多所以模型只能用作主观预测,不能很好的反馈各个变量之间的相关性,
在数据清理方面,抉择去除含 50% 及以上数据缺失的变量也是一个须要衡量的方向,因为这个门槛抉择太低又可能导致数据少无奈正确反应变量之间的关系作用,而门槛太高就会呈现没方法抉择到一些比拟重要的变量。

此模型不具备自适应性,所以须要新数据的更新反对能力更好的保障其预测的准确性。

对于分析师

在此对 Junjun Li 对本文所作的奉献示意诚挚感激,他在加州大学圣克鲁兹实现了利用经济与金融业余的硕士学位,专一机器学习、数理金融、利用(计量)经济学畛域。善于 R 语言、Python。


最受欢迎的见解

1.matlab 偏最小二乘回归 (PLSR) 和主成分回归(PCR)

2. R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析

3.主成分剖析 (PCA) 基本原理及剖析实例

4. R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归

5.应用 LASSO 回归预测股票收益数据分析

6. r 语言中对 lasso 回归,ridge 岭回归和 elastic-net 模型

7. r 语言中的偏最小二乘回归 pls-da 数据分析

8. R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化

9. R 语言主成分剖析(PCA)葡萄酒可视化:主成分得分散点图和载荷图

正文完
 0