全文下载链接:http://tecdat.cn/?p=29480
作者:Xingsheng Yang
最近咱们被客户要求撰写对于链家租房的钻研报告,包含一些图形和统计输入。
1 利用 python 爬取链家网公开的租房数据;
2 对租房信息进行剖析,次要对房租相干特色进行剖析,并搭建模型用于预测房租
工作 / 指标
利用上海链家网站租房的公开信息,着重对月租进行数据分析和开掘。
上海租赁数据
此数据来自 Lianjia.com.csv 文件蕴含名称,租赁类型,床位数量,价格,经度,纬度,阳台,押金,公寓,形容,游览,交通,独立浴室,家具,新房源,大小,方向,堤坝,电梯,停车场和便当设施信息。
属性:
名称:列表名称
类型:转租或全副租赁(全副)
床:卧室号码
价格
经度 / 纬度:坐标
阳台,押金(是否有押金政策),公寓,形容,游览可用性,凑近交通,独立浴室,家具
新房源:NO-0,YES-1
面积:平方米
朝向:朝向窗户,南 1,西北 2,东 -3,北 4,东北 -5,西 -6,东南 -7,西南 8,未知 -0
级别:房源层级,地下室 -0,低层(1-15)-1,中层(15-25)-2,高层(>25)-3
停车场:无停车场 -0,额外收费 -1,收费停车 -2
设施:设施数量
import pandas as pd
import numpy as np
import geopandas
df = pd.read_csv('lighai.csv', sep =',', encoding='utf_8_sig', header=None)
df.head()
数据预处理
ETL 解决,清理数据帧。
df_clean.head()
探索性剖析 – 数据可视化
plt.figure(figsize=(8, 6))
sns.distplot(df_clean.price, bins=500, kde=True)
plt.xscale('log') # Log transform the price
读取天文数据
plt.figure(figsize=(12, 12))
sns.heatmap(df_clean.corr(), square=True, annot=True, fmt = '.2f', cmap = 'vla
点击题目查阅往期内容
线性回归和工夫序列剖析北京房价影响因素可视化案例
左右滑动查看更多
01
02
03
04
模型构建
尝试依据特色预测价格。
y = df_clean.log_price
X = df_clean.iloc[:, 1:].drop(['price', 'log_price'], axis=1)
岭回归模型
ridge = Ridge()
alphas = [0.0001, 0.001, 0.001, 0.01, 0.1, 0.5, 1, 2, 3, 5, 10]
Lasso 回归
coef.sort_values(ascending=False).plot(kind = 'barh')
Random forest 随机森林
rf_cv.fit(X_train, y_train)
XGBoost
xgb_model.loc[30:,['test-rmse-mean', 'train-rmse-mean']].plot();
xgb_cv.fit(X_train, y_train)
Keras 神经网络
model.add(Dense(1, kernel_initializer='normal'))
# Compile model
model.compile(loss='mean_squared_error', optimizer='Adam')
model.summary()
kmeans 聚类数据
kmeanModel = KMeans(n_clusters=k).fit(X)
kmeanModel.fit(X)
inertias.append(kmeanModel.inertia_)
plt.plot(K, inertias, 'bx-')
gpd.plot(figsize=(12,10), alpha=0.3)
scatter_map = plt.scatter(data=df_clean, x='lon', y='lat', c='label', alpha=0.3, cmap='tab10', s=2)
点击文末 “浏览原文”
获取全文 残缺代码数据 材料。
本文选自《python 岭回归、Lasso、随机森林、XGBoost、Keras 神经网络、kmeans 聚类链家租房数据天文可视化剖析》。
点击题目查阅往期内容
R 语言贝叶斯狭义线性混合(多层次 / 程度 / 嵌套)模型 GLMM、逻辑回归剖析教育留级影响因素数据
Python 中的 Lasso 回归之最小角算法 LARS
高维数据惩办回归办法:主成分回归 PCR、岭回归、lasso、弹性网络 elastic net 剖析基因数据
Python 高维变量抉择:SCAD 平滑剪切相对偏差惩办、Lasso 惩办函数比拟
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例
R 应用 LASSO 回归预测股票收益
狭义线性模型 glm 泊松回归的 lasso、弹性网络分类预测学生考试成绩数据和穿插验证
贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析免疫球蛋白、前列腺癌数据
R 语言 RSTAN MCMC:NUTS 采样算法用 LASSO 构建贝叶斯线性回归模型剖析职业声望数据
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现
R 语言高维数据惩办回归办法:主成分回归 PCR、岭回归、lasso、弹性网络 elastic net 剖析基因数据(含练习题)
Python 中 LARS 和 Lasso 回归之最小角算法 Lars 剖析波士顿住房数据实例
R 语言 Bootstrap 的岭回归和自适应 LASSO 回归可视化
R 语言 Lasso 回归模型变量抉择和糖尿病倒退预测模型 R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析
基于 R 语言实现 LASSO 回归剖析
R 语言用 LASSO,adaptive LASSO 预测通货膨胀工夫序列
R 语言自适应 LASSO 多项式回归、二元逻辑回归和岭回归利用剖析
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例
Python 中的 Lasso 回归之最小角算法 LARS
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现
r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现
R 语言实现 LASSO 回归——本人编写 LASSO 回归算法
R 应用 LASSO 回归预测股票收益
python 应用 LASSO 回归预测股票收益 Python 中 LARS 和 Lasso 回归之最小角算法 Lars 剖析波士顿住房数据实例
R 语言 Bootstrap 的岭回归和自适应 LASSO 回归可视化
R 语言 Lasso 回归模型变量抉择和糖尿病倒退预测模型 R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析
基于 R 语言实现 LASSO 回归剖析
R 语言用 LASSO,adaptive LASSO 预测通货膨胀工夫序列
R 语言自适应 LASSO 多项式回归、二元逻辑回归和岭回归利用剖析
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例
Python 中的 Lasso 回归之最小角算法 LARS
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现
r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现
R 语言实现 LASSO 回归——本人编写 LASSO 回归算法
R 应用 LASSO 回归预测股票收益
python 应用 LASSO 回归预测股票收益 R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
数据分享 | R 语言逻辑回归、线性判别分析 LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM 分类葡萄酒穿插验证 ROC
MATLAB 随机森林优化贝叶斯预测剖析汽车燃油经济性
R 语言用 Rcpp 减速 Metropolis-Hastings 抽样预计贝叶斯逻辑回归模型的参数
R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病
R 语言中贝叶斯网络(BN)、动静贝叶斯网络、线性模型剖析错颌畸形数据
R 语言中的 block Gibbs 吉布斯采样贝叶斯多元线性回归
Python 贝叶斯回归剖析住房累赘能力数据集
R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析
Python 用 PyMC3 实现贝叶斯线性回归模型
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
R 语言 Gibbs 抽样的贝叶斯简略线性回归仿真剖析
R 语言和 STAN,JAGS:用 RSTAN,RJAG 建设贝叶斯多元线性回归预测选举数据
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言贝叶斯线性回归和多元线性回归构建工资预测模型
R 语言贝叶斯推断与 MCMC:实现 Metropolis-Hastings 采样算法示例
R 语言 stan 进行基于贝叶斯推断的回归模型
R 语言中 RStan 贝叶斯层次模型剖析示例
R 语言应用 Metropolis-Hastings 采样算法自适应贝叶斯预计与可视化
R 语言随机搜寻变量抉择 SSVS 预计贝叶斯向量自回归(BVAR)模型
WinBUGS 对多元随机稳定率模型:贝叶斯预计与模型比拟
R 语言实现 MCMC 中的 Metropolis–Hastings 算法与吉布斯采样
R 语言贝叶斯推断与 MCMC:实现 Metropolis-Hastings 采样算法示例
R 语言应用 Metropolis-Hastings 采样算法自适应贝叶斯预计与可视化
视频:R 语言中的 Stan 概率编程 MCMC 采样的贝叶斯模型
R 语言 MCMC:Metropolis-Hastings 采样用于回归的贝叶斯预计 R 语言用 lme4 多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据
R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
R 语言基于 Bagging 分类的逻辑回归(Logistic Regression)、决策树、森林剖析心脏病患者
R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化