关于数据挖掘:数据分享R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优ROC曲线可视化附代码数据

原文链接：http://tecdat.cn/?p=26868

最近咱们被客户要求撰写对于电信公司用户散失的钻研报告，包含一些图形和统计输入。

在本教程中，咱们将学习笼罩决策树和随机森林。这些是可用于分类或回归的监督学习算法

上面的代码将加载本教程所需的包和数据集。

library(tidyverse)# 电信客户流失率数据churn <- read_rds(chuata.rds))

数据

花点工夫摸索上面的这个数据集（ 查看文末理解数据获取形式 ）。

此数据框中的一行代表一家电信公司的客户。每个客户都从该公司购买了电话和互联网服务。

此数据中的因变量变量 canceled 批示客户是否终止了他们的服务。

决策树

为了演示拟合决策树，咱们将应用 churn数据集并应用所有可用的预测变量进行预测。

数据拆分

咱们将数据分成训练集和测试集。训练数据将进一步分为 5 折进行超参数调优。

 # 记住肯定要设置你的随机数种子。chuit <- iniplit(cdf)chining <- chulit %>% trang()chuest <- chuplit %>% tesg()#在训练数据集上创立穿插验证的##这些将被用于调整模型的超参数chds <- vfcv(chung, v = 5)

特色工程

咱们将在训练数据上进行以下转换。

打消数值预测变量的偏度
标准化所有数字预测变量
为所有名义预测变量创立虚构变量

chu_rep <- recipe(cace_srce ~ ., data = chutann) %>%                        stepYeonon(al_nmeric(), -al_utcoms()) %>%                        ste_nomaze(all_umic(), -al_oucoes()) %>%                        ste_dumy(all_inal(), -al_otcomes())

让咱们检查一下特色工程步骤是否正确执行。

模型规格

接下来，咱们指定具备以下超参数的决策树分类器：

老本复杂度参数（又名 Cp 或）
树的最大深度
节点中进一步拆分所需的最小数据点数。

工作流程

接下来，咱们将模型组合到一个工作流中，以轻松治理模型构建过程。

treow <- workflow()

超参数调优

咱们将对决策树超参数进行网格搜寻，并在穿插验证期间依据 ROC 曲线下的面积抉择性能最佳的模型。

请参见上面的示例，咱们在其中创立 tree_grid 对象。

## 创立一个超参数值的网格来测试tr_gid <- girular(cotolty(),                          teedeth(),                          mnn(),                           lvs = 2)

调整超参数 `tune_grid()`

为了从咱们的调整网格中找到超参数的最佳组合，咱们将应用该 tune_grid() 函数。

在咱们的 KNN 示例中，此函数将模型对象或工作流作为第一个参数，将穿插验证折叠作为第二个参数，将调整网格数据框作为第三个参数。

## 调整决策树工作流程set.seed(314)tre_tig <- trewolow %>%               tue_rid(rsampes = chrnols,                         grid = reegid)

查看咱们的超参数调整的后果。

从上面的后果中，咱们看到对于咱们网格中的每个超参数组合。

上面 mean 后果中的列示意取得的性能指标的平均值。

咱们能够应用该 select_best() 模型从咱们的调优后果中抉择具备最佳整体性能的模型。在上面的代码中，咱们指定依据 roc_auc 指标抉择性能最佳的模型。

咱们看到老本复杂度为 1-10、树深度为 15、最小 n 为 40 的模型产生了最佳模型。

## 依据roc_auc抉择最佳模型besree <- te_uin %>%

实现工作流程

超参数调整的最初一步是将咱们的最佳模型增加到咱们的工作流对象中。

可视化后果

为了可视化咱们的决策树模型，咱们须要应用该 fit() 函数手动训练咱们的工作流对象。

此步骤是可选的，因为并非所有应用程序都须要可视化模型。然而，如果指标是理解模型预测某些值的起因，那么倡议这样做。

下一节将展现如何拟合模型以主动取得测试集的性能。

拟合模型

接下来，咱们将工作流程与训练数据相匹配。这是通过将咱们的工作流对象传递给 fit() 函数来实现的。

               fit(data = chning)

摸索咱们的训练模型变量的重要性

一旦咱们在训练数据上训练了咱们的模型，咱们就能够应用该 vip 函数钻研变量的重要性。

teeit <- tree__it %>%             pull_orfowit()

变量重要性

接下来咱们传递 tree_fit 给 vip() 函数。

咱们从上面的后果中看到最重要的预测因子。

vip(teeit)

点击题目查阅往期内容

PYTHON用户散失数据挖掘：建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯和KMEANS聚类用户画像

左右滑动查看更多

决策树图

咱们能够可视化训练好的决策树。

这种可视化是一种工具，用于传播经过训练的决策树的预测规定。

很多时候，决策树图会很大并且难以浏览。有专门的软件包 R 用于放大决策树图的区域。

训练和评估

接下来，咱们将最终模型工作流程拟合到训练数据并评估测试数据的性能。

该函数将使咱们的工作流程适宜训练数据，并依据咱们的 chuplit 对象定义的测试数据生成预测。

tre_latit <- fil_tewklow %>%                  last_fit(chnpit)

咱们能够在测试数据上查看咱们的性能指标

tre_lft %>% collect_metrics()

ROC曲线

咱们能够绘制 ROC 曲线来可视化咱们调整的决策树的测试集性能

treatft %>% collect_predictions() %>%

混同矩阵

咱们看到咱们的模型在咱们的测试数据集上产生了 80 个假阴性和 57 个假阳性。

tre_pcis <- tre_s_t %>% collect_predictions()

随机森林

在本节中，咱们将为 chudf 数据拟合一个随机森林模型。随机森林采纳决策树并在预测准确性方面构建更弱小的模型。反对该算法的次要机制是对训练数据进行反复采样（替换）以生成一系列决策树模型。而后对这些模型进行均匀以取得预测空间中给定值的单个预测。

随机森林模型抉择预测变量的随机子集，用于在树构建过程中宰割预测空间。算法的每次迭代都会这样做，通常是 100 到 2,000 次。

数据特色工程

咱们曾经将咱们的数据分成训练、测试和穿插验证集，并训练了咱们的特色工程， chucipe. 这些能够在咱们的随机森林工作流程中重复使用。

模型

接下来，咱们指定具备以下超参数的随机森林分类器：

mtry：创立树模型时在每次拆分时随机抽样的预测变量的数量
trees：要拟合并最终均匀的决策树的数量
min_n: 节点进一步决裂所需的最小数据点数

要指定具备的随机森林模型，咱们须要该 ranorest() 函数。

工作流程

接下来，咱们将咱们的模型和配方组合到一个工作流中，以轻松治理模型构建过程。

f_orkflw <- workflow() %>%

超参数调优

随机网格搜寻

咱们将对随机森林超参数进行网格搜寻，并在穿插验证期间依据 ROC 曲线下的面积抉择性能最佳的模型。

在上一节中，咱们已经 gridlar() 创立一个超参数值网格。这创立了举荐默认值的惯例网格。

另一种进行超参数调整的办法是创立一个随机的值网格。许多钻研表明，这种办法比惯例网格办法做得更好。

在上面的代码中，咱们将范畴设置为 4 到 12。

## 创立一个超参数值的网格来测试set.sd(314)rf_gd <- grid_random(mry() %>% range_set

调整超参

为了从咱们的调整网格中找到超参数的最佳组合，咱们将应用该 tugid() 函数。

## 调整随机森林工作流程set.seed(314)rftin <- rfwoflow %>%              tune_grid(resamples = cu_olds,                       grid = r_id)

查看咱们的超参数调整的后果。

咱们能够应用模型从咱们的调优后果中抉择具备最佳整体性能的模型。在上面的代码中，咱们指定依据 rocauc 指标抉择性能最佳的模型。

## 依据roc_auc抉择最佳模型berf <- rftunng %>%            select_best

实现工作流程

超参数调整的最初一步是将咱们的最佳模型增加到咱们的工作流对象中。

fina_rkflow <- rfow %>%                      finaflow(betrf)

变量重要性

为了可视化随机森林模型的可变重要性分数。

拟合模型

接下来，咱们将工作流程与训练数据相匹配。这是通过将咱们的工作流对象传递给 fit() 函数来实现的。

rf_it <- fnalrfrlow %>%              fit(data = crnranng)

一旦咱们在训练数据上训练了咱们的模型，咱们就能够钻研变量的重要性。

第一步是从咱们的工作流拟合中提取训练好的模型。

rf <- ft %>%           pll_orfow_fit()

变量重要性

从咱们的模型返回一个 ggplot 具备可变重要性分数的对象。重要性分数基于通过超参数随机抉择的具备最大预测能力的预测变量。

训练和评估

接下来，咱们将最终模型工作流程拟合到训练数据并评估测试数据的性能。

使咱们的工作流程拟合训练数据，并依据测试数据生成预测。

咱们能够在测试数据上查看咱们的性能指标

rf_tfit %>% cole_trcs()

ROC曲线

咱们能够绘制 ROC 曲线来可视化随机森林模型的测试集性能。

rflafit %>% collepedions() %>%                 roc_ve(trth  = cncele_srice, estimate = .rd_es) %>%                 autplot()

混同矩阵

咱们看到咱们的模型在咱们的测试数据集上产生了 61 个假阴性和 48 个假阳性，优于咱们的决策树模型。

conf_mat(predis, truth = cncervice, estimate = .prd_las)

数据获取

在上面公众号后盾回复“散失数据”，可获取残缺数据。

点击文末 “浏览原文”

获取全文残缺材料。

本文选自《R语言决策树和随机森林分类电信公司用户散失churn数据和参数调优、ROC曲线可视化》。

点击题目查阅往期内容

从决策树到随机森林：R语言信用卡守约剖析信贷数据实例\
PYTHON用户散失数据挖掘：建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯和KMEANS聚类用户画像\
Python对商店数据进行lstm和xgboost销售量工夫序列建模预测剖析\
PYTHON集成机器学习：用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜寻超参数优化\
R语言集成模型：晋升树boosting、随机森林、束缚最小二乘法加权均匀模型交融剖析工夫序列数据\
Python对商店数据进行lstm和xgboost销售量工夫序列建模预测剖析\
R语言用主成分PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化\
R语言基于树的办法：决策树，随机森林，Bagging，加强树\
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测\
spss modeler用决策树神经网络预测ST的股票\
R语言中应用线性模型、回归决策树主动组合特色因子程度\
R语言中自编基尼系数的CART回归决策树的实现\
R语言用rle，svm和rpart决策树进行工夫序列预测\
python在Scikit-learn中用决策树和随机森林预测NBA获胜者\
python中应用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和穿插验证\
R语言里的非线性模型：多项式回归、部分样条、平滑样条、狭义相加模型GAM剖析\
R语言用规范最小二乘OLS，狭义相加模型GAM ，样条函数进行逻辑回归LOGISTIC分类\
R语言ISLR工资数据进行多项式回归和样条回归剖析\
R语言中的多项式回归、部分回归、核平滑和平滑样条回归模型\
R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量\
R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷工夫序列预测R语言样条曲线、决策树、Adaboost、梯度晋升(GBM)算法进行回归、分类和动静可视化\
如何用R语言在机器学习中建设集成模型？\
R语言ARMA-EGARCH模型、集成预测算法对SPX理论稳定率进行预测在python 深度学习Keras中计算神经网络集成模型R语言ARIMA集成模型预测工夫序列剖析R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林剖析心脏病患者\
R语言基于树的办法：决策树，随机森林，Bagging，加强树\
R语言基于Bootstrap的线性回归预测置信区间预计办法\
R语言应用bootstrap和增量法计算狭义线性模型（GLM）预测置信区间\
R语言样条曲线、决策树、Adaboost、梯度晋升(GBM)算法进行回归、分类和动静可视化\
Python对商店数据进行lstm和xgboost销售量工夫序列建模预测剖析\
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化剖析\
R语言用主成分PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化\
Matlab建设SVM，KNN和奢侈贝叶斯模型分类绘制ROC曲线\
matlab应用分位数随机森林（QRF）回归树检测异样值

原文链接：http://tecdat.cn/?p=26868

数据

决策树

数据拆分

特色工程

模型规格

工作流程

超参数调优

调整超参数 tune_grid()

实现工作流程

可视化后果

拟合模型

摸索咱们的训练模型变量的重要性

变量重要性

决策树图

训练和评估

ROC曲线

混同矩阵

随机森林

数据特色工程

模型

工作流程

超参数调优

随机网格搜寻

调整超参

实现工作流程

变量重要性

拟合模型

变量重要性

训练和评估

ROC曲线

混同矩阵

调整超参数 `tune_grid()`