关于数据挖掘:PYTHON链家租房数据分析岭回归LASSO随机森林XGBOOSTKERAS神经网络附代码数据

41次阅读

共计 4229 个字符,预计需要花费 11 分钟才能阅读完成。

全文下载链接:http://tecdat.cn/?p=29480

作者:Xingsheng Yang

最近咱们被客户要求撰写对于链家租房的钻研报告,包含一些图形和统计输入。
1 利用 python 爬取链家网公开的租房数据;

2 对租房信息进行剖析,次要对房租相干特色进行剖析,并搭建模型用于预测房租

工作 / 指标

利用上海链家网站租房的公开信息,着重对月租进行数据分析和开掘。

上海租赁数据

此数据来自 Lianjia.com.csv 文件蕴含名称,租赁类型,床位数量,价格,经度,纬度,阳台,押金,公寓,形容,游览,交通,独立浴室,家具,新房源,大小,方向,堤坝,电梯,停车场和便当设施信息。

属性:

名称:列表名称
类型:转租或全副租赁(全副)
床:卧室号码
价格
经度 / 纬度:坐标
阳台,押金(是否有押金政策),公寓,形容,游览可用性,凑近交通,独立浴室,家具

新房源:NO-0,YES-1
面积:平方米
朝向:朝向窗户,南 1,西北 2,东 -3,北 4,东北 -5,西 -6,东南 -7,西南 8,未知 -0
级别:房源层级,地下室 -0,低层(1-15)-1,中层(15-25)-2,高层(>25)-3
停车场:无停车场 -0,额外收费 -1,收费停车 -2
设施:设施数量

import pandas as pd

import numpy as np

import geopandas 

df = pd.read_csv('lighai.csv', sep =',', encoding='utf_8_sig', header=None)

df.head()

数据预处理

ETL 解决,清理数据帧。

df_clean.head()

 

探索性剖析 – 数据可视化

plt.figure(figsize=(8, 6))

sns.distplot(df_clean.price, bins=500, kde=True)

plt.xscale('log') # Log transform the price

读取天文数据

plt.figure(figsize=(12, 12))



sns.heatmap(df_clean.corr(), square=True, annot=True, fmt = '.2f', cmap = 'vla

点击题目查阅往期内容

线性回归和工夫序列剖析北京房价影响因素可视化案例

左右滑动查看更多

01

02

03

04

模型构建

尝试依据特色预测价格。

y = df_clean.log_price

X = df_clean.iloc[:, 1:].drop(['price', 'log_price'], axis=1)

岭回归模型

ridge = Ridge()

alphas = [0.0001, 0.001, 0.001, 0.01, 0.1, 0.5, 1, 2, 3, 5, 10]

 

Lasso 回归

coef.sort_values(ascending=False).plot(kind = 'barh')

Random forest 随机森林

rf_cv.fit(X_train, y_train)

XGBoost

xgb_model.loc[30:,['test-rmse-mean', 'train-rmse-mean']].plot();

xgb_cv.fit(X_train, y_train)

 

Keras 神经网络

model.add(Dense(1, kernel_initializer='normal'))

# Compile model

model.compile(loss='mean_squared_error', optimizer='Adam')

model.summary()

kmeans 聚类数据

  kmeanModel = KMeans(n_clusters=k).fit(X) 

    kmeanModel.fit(X)     

    inertias.append(kmeanModel.inertia_) 

plt.plot(K, inertias, 'bx-')

gpd.plot(figsize=(12,10), alpha=0.3)

scatter_map = plt.scatter(data=df_clean, x='lon', y='lat', c='label', alpha=0.3, cmap='tab10', s=2)

 


点击文末 “浏览原文”

获取全文 残缺代码数据 材料。

本文选自《python 岭回归、Lasso、随机森林、XGBoost、Keras 神经网络、kmeans 聚类链家租房数据天文可视化剖析》。

点击题目查阅往期内容

R 语言贝叶斯狭义线性混合(多层次 / 程度 / 嵌套)模型 GLMM、逻辑回归剖析教育留级影响因素数据
Python 中的 Lasso 回归之最小角算法 LARS
高维数据惩办回归办法:主成分回归 PCR、岭回归、lasso、弹性网络 elastic net 剖析基因数据
Python 高维变量抉择:SCAD 平滑剪切相对偏差惩办、Lasso 惩办函数比拟
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例
R 应用 LASSO 回归预测股票收益
狭义线性模型 glm 泊松回归的 lasso、弹性网络分类预测学生考试成绩数据和穿插验证
贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析免疫球蛋白、前列腺癌数据
R 语言 RSTAN MCMC:NUTS 采样算法用 LASSO 构建贝叶斯线性回归模型剖析职业声望数据
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现
R 语言高维数据惩办回归办法:主成分回归 PCR、岭回归、lasso、弹性网络 elastic net 剖析基因数据(含练习题)
Python 中 LARS 和 Lasso 回归之最小角算法 Lars 剖析波士顿住房数据实例
R 语言 Bootstrap 的岭回归和自适应 LASSO 回归可视化
R 语言 Lasso 回归模型变量抉择和糖尿病倒退预测模型 R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析
基于 R 语言实现 LASSO 回归剖析
R 语言用 LASSO,adaptive LASSO 预测通货膨胀工夫序列
R 语言自适应 LASSO 多项式回归、二元逻辑回归和岭回归利用剖析
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例
Python 中的 Lasso 回归之最小角算法 LARS
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现
r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现
R 语言实现 LASSO 回归——本人编写 LASSO 回归算法
R 应用 LASSO 回归预测股票收益
python 应用 LASSO 回归预测股票收益 Python 中 LARS 和 Lasso 回归之最小角算法 Lars 剖析波士顿住房数据实例
R 语言 Bootstrap 的岭回归和自适应 LASSO 回归可视化
R 语言 Lasso 回归模型变量抉择和糖尿病倒退预测模型 R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析
基于 R 语言实现 LASSO 回归剖析
R 语言用 LASSO,adaptive LASSO 预测通货膨胀工夫序列
R 语言自适应 LASSO 多项式回归、二元逻辑回归和岭回归利用剖析
R 语言惩办 logistic 逻辑回归(LASSO, 岭回归)高维变量抉择的分类模型案例
Python 中的 Lasso 回归之最小角算法 LARS
r 语言中对 LASSO 回归,Ridge 岭回归和弹性网络 Elastic Net 模型实现
r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现
R 语言实现 LASSO 回归——本人编写 LASSO 回归算法
R 应用 LASSO 回归预测股票收益
python 应用 LASSO 回归预测股票收益 R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
数据分享 | R 语言逻辑回归、线性判别分析 LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM 分类葡萄酒穿插验证 ROC
MATLAB 随机森林优化贝叶斯预测剖析汽车燃油经济性
R 语言用 Rcpp 减速 Metropolis-Hastings 抽样预计贝叶斯逻辑回归模型的参数
R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病
R 语言中贝叶斯网络(BN)、动静贝叶斯网络、线性模型剖析错颌畸形数据
R 语言中的 block Gibbs 吉布斯采样贝叶斯多元线性回归
Python 贝叶斯回归剖析住房累赘能力数据集
R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析
Python 用 PyMC3 实现贝叶斯线性回归模型
R 语言用 WinBUGS 软件对学术能力测验建设档次(分层)贝叶斯模型
R 语言 Gibbs 抽样的贝叶斯简略线性回归仿真剖析
R 语言和 STAN,JAGS:用 RSTAN,RJAG 建设贝叶斯多元线性回归预测选举数据
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言贝叶斯线性回归和多元线性回归构建工资预测模型
R 语言贝叶斯推断与 MCMC:实现 Metropolis-Hastings 采样算法示例
R 语言 stan 进行基于贝叶斯推断的回归模型
R 语言中 RStan 贝叶斯层次模型剖析示例
R 语言应用 Metropolis-Hastings 采样算法自适应贝叶斯预计与可视化
R 语言随机搜寻变量抉择 SSVS 预计贝叶斯向量自回归(BVAR)模型
WinBUGS 对多元随机稳定率模型:贝叶斯预计与模型比拟
R 语言实现 MCMC 中的 Metropolis–Hastings 算法与吉布斯采样
R 语言贝叶斯推断与 MCMC:实现 Metropolis-Hastings 采样算法示例
R 语言应用 Metropolis-Hastings 采样算法自适应贝叶斯预计与可视化
视频:R 语言中的 Stan 概率编程 MCMC 采样的贝叶斯模型
R 语言 MCMC:Metropolis-Hastings 采样用于回归的贝叶斯预计 R 语言用 lme4 多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据
R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
R 语言基于 Bagging 分类的逻辑回归(Logistic Regression)、决策树、森林剖析心脏病患者
R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化

正文完
 0