关于数据挖掘:R语言对airbnb数据nlp文本挖掘词云可视化回归GAM模型交叉验证分析

41次阅读

共计 901 个字符,预计需要花费 3 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=27976

作者:Guojiang Zhao

数据量大,数据要进行荡涤以及预处理,同时要多方面可视化,要摸索多变量对因变量的影响。

解决方案

用 R 语言读取数据,对数据进行荡涤合并以及预处理,数据可视化,特色工程以及变量抉择,建模,穿插验证,模型评估。

工作 / 指标

对价格进行预测并且比拟

特色转换

解决缺失值(对缺失值进行插值以及取均值进行解决,同时去掉一些缺失较少的数据行)

将因子变量变为数值型变量好做 best subset selection 来进行特征选择等等

可视化

使用 nlp 以及词云可视化

结构

以上阐明了如何抽取相干特色,咱们大抵有如下训练样本(只列举局部特色)。

划分训练集和测试集

训练集 70% 和测试集 30%

变量抉择:best subset selection

 

选取 5 个最佳的变量 

建模

预测价格

  1. 多元回归剖析

  2. GAM模型(平滑样条,多项式回归,三次样条)

  3. 不同变量通过 cross-validation 来抉择哪一种模型是 cv.error 最小的

如图:

最初失去最终的一个模型

 

回归决策树

剪枝后

预测

三个模型中别离对 price 预测

模型比拟:

比拟预测值和理论值的 RMSE,选取最优模型

三个模型 price 预测值与理论值

比拟:

 能够看出,GAM 模型是三个模型中最适宜的,而后能够根据该模型对 price 进行预测。

对于作者

在此对 Guojiang Zhao 对本文所作的奉献示意诚挚感激,他在 卡耐基梅隆大学实现了硕士学位,善于 机器学习,数据挖掘,数理统计,数据分析。


最受欢迎的见解

1.R 语言多元 Logistic 逻辑回归 利用案例

2. 面板平滑转移回归 (PSTR) 剖析案例实现剖析案例实现 ”)

3.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R 语言泊松 Poisson 回归模型剖析案例

5.R 语言混合效应逻辑回归 Logistic 模型剖析肺癌

6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7.R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病

8.python 用线性回归预测股票价格

9.R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

正文完
 0