关于数据挖掘:线性回归和时间序列分析北京房价影响因素可视化案例附代码数据

全文链接：http://tecdat.cn/?p=21467

最近咱们被客户要求撰写对于北京房价的钻研报告，包含一些图形和统计输入。

在本文中，房价无关的数据可能反映了中国近年来的变动

目标

人们失去更多的资源（薪水），冀望有更好的房子
人口众多
独生子女政策：如何影响房子的几何构造？更多的卧室，更多的空间

我外围的想法是预测房价。然而，我不打算应用任何arima模型；相同，我将应用数据的个性逐年拟合回归。

构造如下：

数据筹备：将数值特色转换为分类；缺失值
EDA:对于数值特色和分类特色:平均价格与这些特色的体现
建模：
- 宰割训练/测试给定年份的数据：例如，在2000年宰割数据；依据这些数据训练回归模型
- 而后，在2016年之前的所有新年里，预测每套房子的价值。
- 用于验证的度量将是屋宇的平均价格（即每年从测试样本中取得平均价格和预测值）

数据筹备

咱们对特色有了十分残缺的形容：

url：获取数据（字符）的url
id:id（字符）
Lng：和Lat坐标，应用BD09协定。（数字）
Cid：社区id（数字）
交易工夫：交易工夫（字符）
DOM：市场沉闷日。（数字）
关注者：交易后的人数。（数字）
总价：（数值）
价格：按平方计算的平均价格（数值）
面积：屋宇的平方（数字）
起居室`数（字符）`
客厅`数（字符）`
厨房：厨房数量（数字）
浴室数量（字符）
房子高度
修建类型：包含塔楼（1）、平房（2）、板塔组合（3）、板（4）（数值）
施工工夫
装修：包含其余（1）、粗（2）、简略（3）、简装（4）（数值）
修建构造：包含未清（1）、混合（2）、砖和木（3）、砖混凝土（4）、钢（5）和钢-混凝土复合材料（6）（数值）
梯梯比：同层居民数与电梯数量的比例。
电梯有（1）或没有电梯（0）（数值）
五年期：业主领有不到5年的财产（数字）

数据清理、特色创立

从最后的数据看：

从网址上，我发现它有地位信息，如chengjiao/101084782030。同样，一个简略的regexp进行省特征提取。
另一个大的数据筹备工作是转换一些数字特色，比方地铁，地铁站左近的房子编码为1，相同的状况编码为0。
还有很大一部分DOM缺失。我既不能在建模中应用这个个性，也不能删除NA，但它也会减小数据帧的大小。

 #从网址中提取省份
  sapply(df$url, function(x) strsplit(x,'/')[[1]][4])

查看缺失

#缺失数据图
 
  ggplot(data = .,aes(x = V2, y = V1)) + geom_tile(aes(fill = value )) +

如上所述，DOM的很大一部分失落了。我决定先保留这个个性，而后用两头值来填充缺失的值（散布是十分歪斜的）
否则，buildingType和communityAverage（pop.）中只有几个短少的值，我决定简略地删除这些值。事实上，它们只占了约30行，而整个数据集的数据量为300k+，因而损失不会太大。
上面我简略地删除了我当前不打算应用的特色。

ifelse(is.na(df$DOM),median(df$DOM,na.rm=T),df$DOM)

点击题目查阅往期内容

数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

左右滑动查看更多

用于将数字转换为类别的自定义函数

对于某些特色，须要一个函数来解决多个标签，对于其余一些特色（客厅、客厅和浴室），转换非常简单。

df2$livingRoom <- as.numeric(df2$livingRoom)

仿佛buildingType具备谬误的编码数字值：

buildingType	count
0.048	4
0.125	3
0.250	2
0.333	5
0.375	1
0.429	1
0.500	15
0.667	1
1.000	84541
2.000	137
3.000	59715
4.000	172405
NaN	2021

因为谬误的编码值和NA的数量很少，因而我将再次抛弃这些行

 df2$renovationCondition <- sapply(df2$renovationCondition, ionCondition)

df2$buildingStructure <- sapply(df2$buildingStructure, makeStructure)
df2$elevator <- ifelse(df2$elevator==1,'has_elevator','no_elevator')

缺失值检察

# 缺失数据图
df2 %>% is.na %>% melt %>% 
  ggplot(data = .,aes(x = Var2, y = Var1)) + geom_tile(aes(fill = value)) +
  scale_fill_manual(values = c("grey20","white")) + theme_minimal(14) +

kable(df %>% group_by(constructionTime) %>% summarise(count=n()) %>% arrange(-count) %>% head(5))

constructionTime	count
2004	21145
2003	19409
NA	19283
2005	18924
2006	14854

df3 <- data.frame(df2 %>% na.omit())

插补后的最终查看

any(is.na(df3))

## [1] FALSE

探索性剖析

因为有数字和分类特色，我将应用的EDA技术有：

数值：相关矩阵
分类：箱线图和地图

咱们必须关注价格（单位价格/单位价格）以及总价格（百万元）
totalPrice将是回归模型的指标变量。

数值特色

corrplot(cor(
  df3  ,
  tl.col='black')

totalPrice与communityAverage有很强的正相干关系，即人口密集区的房价较高
totalPrice与客厅、卫浴室数量有肯定的正相干关系。
至于面积变量，咱们看到它与上述变量也有很强的相关性：这是有情理的，因为如果房子的面积大，能够建造更多的房间（不言而喻）。
其余一些乏味的相关性：communityAverage与修建工夫呈负相关，这意味着在人口密集区建房所需的工夫更短

分类特色

地图

中国三级（省）地图
我看了看城郊，它位于北京左近，所以我过滤了那个特定省份的地图

ggplot() + 
  geom_polygon(data = shapefile_test,aes(x = long, y = lat, group = group), 

BeijingLoc <- data.frame('Long'=116.4075,'Lat' = 39.904)

修建构造

makeEDA('buildingStructure' )

砖木结构的屋宇是最低廉的，简直是其余类型屋宇的两倍

`
`

点击题目查阅往期内容

R语言用线性回归模型预测空气质量臭氧数据

左右滑动查看更多

`
`

修建类型

makeEDA('buildingType' )

平房是最低廉的

`装修条件`

`电梯`

价格对电梯的依赖性十分小
住宅的散布与这一特色是绝对相等的。

`地铁`

价格对地铁站左近的依赖性十分小。
住宅的散布与这一特色是绝对相等的。

是否满_五年_

makeFeatureCatEDA('fiveYearsProperty', length(unique(df3$fiveYearsProperty)))

对于是否领有不到5年房产来说，价格的依赖性的确很小
就这一特色而言，房子的散布是绝对平等的

`区域`

回归模型

策略

从tradeTime中提取年份和月份
按年度和月份分组，失去屋宇的数量和均价
拆分数据集：
- 对于年[2010-2017]=在这组年上训练并运行回归模型
- 对于>2017年：逐月对测试样本并预测平均价格

平均价格总览

首先咱们须要看看咱们想要预测什么

df3$year <- year(df3$tradeTimeTs)
df3$month <- month(df3$tradeTimeTs)

df3 %>% filter(year>2009) %>% group_by(monthlyTrad) %>% 
  summarise(count=n(), mean = mean(price)) %>% 
  ggplot(aes(x=monthlyTradeTS, y= mean)) +

均匀价格上涨至2017年中期，而后迅速降落
同时，屋宇数量随着价格的上涨而减少，而且当初房屋交易的数量也随着价格的上涨而缩小。

筹备训练/测试样本

我在2017-01-01拆分数据。对于所有样本，我须要把分类特色变成伪变量。

df_train <- data.frame(df  %>% filter(year>2009 & year<2017))
df_test <- data.frame(df %>% filter(year>=2017))
as.data.frame(cbind(
  df_train %>% select_if(is.numeric) %>% select(-Lng, -Lat, -year, -month),
  'bldgType'= dummy.code(df_train$buildingType),
  'bldgStruc'= dummy.code(df_train$buildingStructure),
  'renovation'= dummy.code(df_train$renovationCondition),
  'hasElevator'= dummy.code(df_train$elevator),

在这一步中，我只训练一个线性模型

regressors<-c('lm')
 
 Control <- trainControl(method = "cv",number = 5, repeats=3)
for(r in regressors){
    cnt<-cnt+1
     res[[cnt]]<-train(totalPrice ~., data = train ,method=r,trControl =  Control)

r^2在0.88左右，不错。让咱们看看细节。

训练精度

 g1<-ggplot(data=PRED,aes(x=Prediction,y=True)) + geom_jitter() + geom_smooth(method='lm',size=.5) +
    #计算指标
    mse <- mean((PRED$True-PRED$Prediction)^2)
    rmse<-mse^0.5
    SSE = sum((PRED$Pred - PR

## [1] "MSE: 15952.845934 RMSE : 126.304576 R2 :0.795874"

所以看起来残差还不错（散布是正态的，以0为核心），但对于低价格来说仿佛失败了。

训练和测试样本的预测与工夫的关系

基本上与上述雷同，但我将反复预测所有月份的训练数据
我的指标指标是均匀房价。
训练是在10多年的训练样本中实现的，因而逐月查看预测将十分乏味。

 # 训练样本->训练精度
 
for (i in 1:length(dates_train)){
     current_df <- prepareDF(current_df)
     current_pred <- mean(predict(res[[1]],current_df))
 

#运行测试样本-->测试精度
 
for (i in 1:length(dates_test)){
     current_df <- prepareDF(current_df)
    current_pred <- mean(predict(res[[1]],current_df))

 RES %>% reshape2::melt(id=c('date','split')) %>% 
  ggplot(aes(x=date,y=value)) + geom_line(aes(color=variable, lty=split),size=1) +

预测对于2012年之后的数据的确十分好，这可能与有足够数据的月份绝对应

改良

地理位置作为特色

上面是一个乏味的图；它显示了每个地位的总价格。在二维散布的核心，价格更高。
这个想法是计算每个房子到核心的间隔，并关联一个等级/分数

BeijingLoc <- data.frame('Long'=116.4075,'Lat' = 39.904)
df3 %>% ggplot(aes(x=Lng,y=Lat)) + geom_point(aes(color=price),size=.1,alpha=.5)  + 
  theme(legend.position = 'bottom') +

本文摘选《 R语言线性回归和工夫序列剖析北京房价影响因素可视化案例 》，点击“浏览原文”获取全文残缺材料。

点击题目查阅往期内容

向量自回归（VAR）模型剖析消费者价格指数 (CPI) 和失业率工夫序列
Matlab用BUGS马尔可夫区制转换Markov switching随机稳定率模型、序列蒙特卡罗SMC、M H采样剖析工夫序列
Matlab创立向量自回归（VAR）模型剖析消费者价格指数 (CPI) 和失业率工夫序列
Stata狭义矩量法GMM面板向量自回归 VAR模型抉择、预计、Granger因果测验剖析投资、支出和生产数据R语言时变向量自回归（TV-VAR）模型剖析工夫序列和可视化
R语言用向量自回归（VAR）进行经济数据脉冲响应钻研剖析
R语言arima，向量自回归（VAR），周期自回归(PAR)模型剖析温度工夫序列
R语言VAR模型的不同类型的脉冲响应剖析
R语言随机搜寻变量抉择SSVS预计贝叶斯向量自回归（BVAR）模型
R语言时变参数VAR随机模型
R语言预计时变VAR模型工夫序列的实证钻研剖析案例
R语言向量自回归模型(VAR)及其实现
R语言实现向量自回归VAR模型
R语言预计时变VAR模型工夫序列的实证钻研剖析案例
Python和R用EWMA，ARIMA模型预测工夫序列
R语言用LASSO，adaptive LASSO预测通货膨胀工夫序列
Python中的ARIMA模型、SARIMA模型和SARIMAX模型对工夫序列预测
R语言arima，向量自回归（VAR），周期自回归(PAR)模型剖析温度工夫序列
【视频】Python和R语言应用指数加权均匀(EWMA)，ARIMA自回归挪动均匀模型预测工夫序列

关于数据挖掘:线性回归和时间序列分析北京房价影响因素可视化案例附代码数据

全文链接：http://tecdat.cn/?p=21467

目标

数据筹备

数据清理、特色创立

查看缺失

用于将数字转换为类别的自定义函数

缺失值检察

插补后的最终查看

探索性剖析

数值特色

分类特色

地图

修建构造

修建类型

`装修条件`

`电梯`

`地铁`

是否满_五年_

`区域`

回归模型

策略

平均价格总览

筹备训练/测试样本

训练精度

训练和测试样本的预测与工夫的关系

改良

地理位置作为特色

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于数据挖掘:线性回归和时间序列分析北京房价影响因素可视化案例附代码数据

全文链接：http://tecdat.cn/?p=21467

目标

数据筹备

数据清理、特色创立

查看缺失

用于将数字转换为类别的自定义函数

缺失值检察

插补后的最终查看

探索性剖析

数值特色

分类特色

地图

修建构造

修建类型

装修条件

电梯

地铁

是否满_五年_

区域

回归模型

策略

平均价格总览

筹备训练/测试样本

训练精度

训练和测试样本的预测与工夫的关系

改良

地理位置作为特色

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

`装修条件`

`电梯`

`地铁`

`区域`

发表回复取消回复