全文链接:http://tecdat.cn/?p=32427
原文出处:拓端数据部落公众号
分析师:Xueyan Liu
在以后海量数据和资源的状况下,面对客户需要,如何找准需要标的和问题外围,并围绕该指标问题开掘数据、确定市场重要关联因素、分层分类筛选可能关联因素,是以后数据分析使用的要害。
解决方案
工作 / 指标
此我的项目依据全美房地产相干多源数据,旨在用数据创立一个报告,全方面多维度展现美国屋宇市场现状。以屋宇售价为外围,梳理次要相干指标,并开掘其余可能相关性指标,通过对繁多或多个指标,精准抉择正当算法建模,对屋宇市场将来倒退作出预测,用以更好的展示市场的全貌。
数据筹备:
后期数据起源:通过搜过官网或者新闻媒体的行业报告中的数据起源,初始数据包含:月度房地产相干数据
前期数据起源:依据探索性剖析后的后果,有针对性的在开源数据库进行关键词搜寻,包含
探索性数据分析(EDA):
通过对数据进行荡涤,将数据可视化;从统计散布,地区散布,工夫散布等多维度进行剖析、寻找数据之间的关系,并由此剖析出更多可能相干因素,以进一步深刻开掘。
为了更清晰的体现数据,采纳 R 中 flexdashboard 制作可互动性报告,并尽可能采纳多种不同的图表,以最大效用可视化数据。例如:创立条形图,比照屋宇挂牌价和理论售价的散布;或者创立地图,以示不同地区屋宇售价或者租金散布的差别。
创立预测模型:
应用预测模型,以更好的理解行业将来的发展趋势:
SARIMA 工夫序列模型
基于 arima 工夫序列模型之上,思考了季节性因素。把过来的值(AR)、过来的预测误差(MA)、过来值之间的差别(I)和节令长度(S)作为预测参数。通过对 PACF 和 ACF 的剖析,找到最优参数,来进行预测。
VAR 工夫序列模型
VAR 也称为向量自回归模型,是一种在自回归模型的根底上扩大模型。VAR 模型行将内生滞后值,也将同期的外生滞后项视为回归量,可在单个模型中同时预测多个工夫序列相干变量。
XGBoost 模型
是一种常见的决策树算模型,他通过不对的已有的树修改再创立新书,直到最优后果。当用于工夫序列预测时,须要把工夫序列数据转化为监督数据:把须要预测指标数据为因变量, 把工夫点拆分为年份和月,作为哑变量。
其余可能性因素相关性验证:
除去屋宇市场本身产业指标对房价的影响,再开掘其余可能性影响因素后,须要验证这些指标是否相干。
相关系数矩阵
直观的体现出不同指标关联性的强弱。
特征提取模型
通过建模型,升高数据维度,挑选出重要指标。既能够为日后预测建模提供统计学的数据参考,也能够侧面阐明该指标对房价有很大的影响
1. PCA 主成分剖析
通常用于缩小维数。它用于将具备许多列的数据集缩小到较少的列数,而不会失落数据的实质。作为附带后果,它还提供了变量之间的相关性。PCA 将 24 个指标缩减为能解释 90% 的次要成分数,并将特色在降维方面起了作用的重要水平排名筛选出最重要的五个特色。
2. LASSO
Lasso 算法是一种监督算法,尝试找出所有独立变量与指标变量之间的相关性。Lasso 变量的系数迫近零, 实现膨胀。通过穿插验证找到最佳束缚参数。
EDA 后果:
下图仅为报告的可交互式 dashboard 局部截图,涵盖了局部 EDA 后果。
通过 EDA 的剖析,我发现房价展现出较为稳固的周期性和增长趋势,并和局部其余指标有着关联性,因而筛选了三种不同的模型可能实用的模型(VAR,SARIMA,XGBOOST),在下一部分进行 预测剖析。
同时 EDA 也展现屋宇市场各类指标体现出较强的地区差别,由此开展深刻开掘,通过二次数据搜寻和考察,进行 相关性剖析。
预测模型后果:
三个模型中最准确的是 SARIMA 模型。然而从图像来看该模型没有很好的计算出季节性,通过再次尝试在去掉季节性因素后 SARIMA 模型的准确率又有了进一步晋升。
而从 Var 模型的系数 p 值后果来看,相干外生因素并没有显著性差别。XGBoost 模型在面对有显著趋势的工夫序列数据并不占优。
以三个预测模型作为参考,然而基本上都预示了房价在将来会稳固上涨的趋势。
其余可能性因素相关性剖析后果:
下图从左至右别离是相关系数矩阵、PCA 和 LASSO 算法后果的可视化
额定的 24 个因素中,尽管不同的办法后果有所不同,总的来说 教育产业 相干的指标均体现出较高的相关性,能够得出结论,屋宇市场和教育产业高度相干。同时这些高度相干的指标也能够作为一个特征选择的参考,以便日后做进一步钻研。
总结
以上展示所有的后果,包含:数据可视化,算法利用等都是钻研屋宇市场现状的一个伎俩不是目标。
想要用数据分析全方面的理解一个行业,不能仅限于行业里的数字钻研,还须要发散性思考,联合市场考察或者行业领域专家的意见,对剖析角度进行增补。这样能力更好的将数据分析使用到理论中去。
对于分析师
最受欢迎的见解
1. 在 python 中应用 lstm 和 pytorch 进行工夫序列预测
2.python 中利用长短期记忆模型 lstm 进行工夫序列预测剖析
3.Python 用 RNN 循环神经网络:LSTM 长期记忆、GRU 门循环单元、回归和 ARIMA 对 COVID-19 新冠疫情新增人数工夫序列
4.Python TensorFlow 循环神经网络 RNN-LSTM 神经网络预测股票市场价格工夫序列和 MSE 评估准确性
5.r 语言 copulas 和金融工夫序列案例
6.R 语言用 RNN 循环神经网络、LSTM 长短期记忆网络实现工夫序列长期利率预测
7.Matlab 创立向量自回归(VAR)模型剖析消费者价格指数 (CPI) 和失业率工夫序列
8.r 语言 k -shape 工夫序列聚类办法对股票价格工夫序列聚类
9. R 语言联合新冠疫情 COVID-19 股票价格预测:ARIMA,KNN 和神经网络工夫序列剖析