关于算法:拓端tecdat在R语言中进行缺失值填充估算缺失值

原文链接：http://tecdat.cn/?p=8287

原文出处：拓端数据部落公众号

介绍

缺失值被认为是预测建模的首要阻碍。因而，把握克服这些问题的办法很重要。

估算缺失值的办法的抉择在很大水平上影响了模型的预测能力。在大多数统计分析办法中，删除是用于解决缺失值的默认办法。然而，它会导致信息失落。

在本文中，我列出了5个R语言办法。

链式方程进行的多元插补

通过链式方程进行的多元插补是R用户罕用的。与单个插补（例如均值）相比，创立多个插补可解决缺失值的不确定性。

MICE假设缺失数据是随机（MAR）缺失，这意味着，一个值缺失概率上观测值仅取决于并且能够应用它们来预测。通过为每个变量指定插补模型，能够按变量插补数据。

例如：假如咱们有X1，X2….Xk变量。如果X1短少值，那么它将在其余变量X2到Xk上回归。而后，将X1中的缺失值替换为取得的预测值。同样，如果X2短少值，则X1，X3至Xk变量将在预测模型中用作自变量。稍后，缺失值将被替换为预测值。

默认状况下，线性回归用于预测间断缺失值。Logistic回归用于分类缺失值。一旦实现此循环，就会生成多个数据集。这些数据集仅在估算的缺失值上有所不同。通常，将这些数据集别离构建模型并组合其后果被认为是一个好习惯。

确切地说，应用的办法是：

PMM（预测均值匹配）–用于数字变量
logreg（逻辑回归）–对于二进制变量（具备2个级别）
polyreg（贝叶斯多元回归）–用于因子变量（> = 2级）
比例模型（有序，\> = 2个级别）

当初让咱们实际操作。

> path <- "../Data/Tutorial"> setwd(path)#读取数据> data <- iris#随机产生10％的缺失值> summary(iris)#随机产生10％的缺失值> iris.mis <- prodNA(iris, noNA = 0.1)#检查数据中引入的缺失值> summary(iris.mis)

我删除了分类变量。让咱们在这里关注间断值。要解决分类变量，只需对类level进行编码并依照以下步骤进行即可。

＃删除类别变量> iris.mis <- subset(iris.mis, select = -c(Species))> summary(iris.mis)

_md.pattern_返回数据集中每个变量中存在的缺失值的表格模式。

> md.pattern(iris.mis)

让咱们理解一下这张表。有98个观测值，没有缺失值。Sepal.Length中有10个观测值缺失的观测值。同样，Sepal.Width等还有13个缺失值。

咱们还能够创立代表缺失值的视觉效果。

> mice_plot <- aggr(iris.mis, col=c('navyblue','yellow'),                    numbers=TRUE, sortVars=TRUE,                    labels=names(iris.mis), cex.axis=.7,                    gap=3, ylab=c("Missing data","Pattern"))

让咱们疾速理解这一点。数据集中有67％的值，没有缺失值。在Petal.Length中短少10％的值，在Petal.Width中短少8％的值，依此类推。您还能够查看直方图，该直方图分明地形容了变量中缺失值的影响。

当初，让咱们估算缺失的值。

Multiply imputed data setCall: Number of multiple imputations: 5Missing cells per column:Sepal.Length Sepal.Width Petal.Length Petal.Width 13            14          16           15 Imputation methods:Sepal.Length Sepal.Width Petal.Length Petal.Width "pmm"        "pmm"        "pmm"       "pmm" VisitSequence:Sepal.Length Sepal.Width Petal.Length Petal.Width 1              2            3           4 PredictorMatrix:              Sepal.Length Sepal.Width Petal.Length Petal.WidthSepal.Length        0          1            1            1Sepal.Width         1          0            1            1Petal.Length        1          1            0            1Petal.Width         1          1            1            0Random generator seed value: 500

这是应用的参数的阐明：

m – 估算数据集
maxit – 插补缺失值的迭代次数
method –是指插补中应用的办法。咱们应用了预测均值匹配。

因为有5个估算数据集，因而能够应用_complete（）_函数抉择任何数据集。

还能够合并来自这些模型的后果，并应用_pool（）_命令取得合并的输入。

请留神，我仅出于演示目标应用了下面的命令。您能够在最初替换变量值并尝试。

多重插补

该程序包还执行多个插补（生成插补数据集）以解决缺失值。多重插补有助于缩小偏差并提高效率。它能够通过基于bootstrap程序的EMB算法，从而能够更疾速，更牢靠地插入许多变量，包含横截面，工夫序列数据等。此外，还能够应用多核CPU的并行插入。

它做出以下假如：

数据集中的所有变量均具备多元正态分布（MVN）。它应用均值和协方差汇总数据。
缺失数据实质上是随机的（随机缺失）

因而，当数据具备多变量正态分布时，最无效。如果没有，将进行转换以使数据靠近正态分布。

惟一须要留神的是对变量进行分类。

 #拜访估算的输入> amelia_fit$imputations\[\[1\]\]> amelia_fit$imputations\[\[2\]\]> amelia_fit$imputations\[\[3\]\]> amelia_fit$imputations\[\[4\]\]> amelia_fit$imputations\[\[5\]\]

要检查数据集中的特定列，应用

> amelia_fit$imputations\[\[5\]\]$Sepal.Length#将输入导出到csv文件> write.amelia(amelia\_fit, file.stem = "imputed\_data_set")

随机森林

顾名思义，missForest是一个实现随机森林算法。它实用于各种变量类型的非参数插补法。那么，什么是非参数办法？

非参数办法不会有对于函数模式明确的假如_F _。取而代之的是，它尝试预计_f_，使其能够与数据点尽可能靠近。

它是如何工作的？简而言之，它为每个变量建设一个随机森林模型。而后，它应用模型在观测值的帮忙下预测变量中的缺失值。

它产生OOB（袋外）估算误差预计。而且，它对插补过程提供了高水平的管制。它有抉择别离返回OOB（每个变量），而不是汇集在整个数据矩阵。这有助于精确估算模型值。

NRMSE是归一化的均方误差。它用于示意从估算间断值得出的误差。PFC（谬误分类的比例）用于示意从估算类别值得出的误差。

＃比拟理论数据准确性> iris.err <- mixError(iris.imp$ximp, iris.mis, iris)>iris.errNRMSE      PFC 0.1535103 0.0625000

这表明类别变量的误差为6％，连续变量的误差为15％。这能够通过调整_mtry_和_ntree_参数的值来改善。mtry是指在每个分支中随机采样的变量数。ntree是指在森林中成长的树木数量。

非参数回归办法

对多个插补中的每个插补应用不同的bootstrap程序重采样。而后，将加性模型（非参数回归办法）拟合到从原始数据中进行替换失去的样本上，并应用非缺失值（独立变量）预测缺失值（充当独立变量）。

而后，它应用预测均值匹配（默认）来插补缺失值。预测均值匹配非常适合间断和分类（二进制和多级），而无需计算残差和最大似然拟合。

自动识别变量类型并对其进行相应解决。

> impute_arg

输入显示R²值作为预测的缺失值。该值越高，预测的值越好。应用以下命令查看估算值

＃查看估算变量Sepal.Length> impute_arg$imputed$Sepal.Length

带有诊断的多重插补

带有诊断的多重插补提供了一些用于解决缺失值的办法。它也构建了多个插补模型来近似缺失值。并且，应用预测均值匹配办法。

尽管，我曾经在下面解释了预测均值匹配（pmm）：对于变量中缺失值的每个察看值，咱们都会从可用值中找到最靠近的察看值该变量的预测均值。而后将来自“匹配”的察看值用作推断值。

它能够对插补模型进行图形诊断，并能够实现插补过程的收敛。
它应用贝叶斯版本的回归模型来解决问题。
插补模型标准相似于R中的回归输入
它会自动检测数据中的不规则性，例如变量之间的高共线性。
而且，它在归算过程中减少了噪声，以解决加性束缚的问题。

如图所示，它应用汇总统计信息来定义估算值。

尾注

在本文中，我阐明应用5个办法进行缺失值估算。这种办法能够帮忙您在建设预测模型时取得更高的准确性。

最受欢迎的见解

1.R语言多元Logistic逻辑回归利用案例

2.面板平滑转移回归(PSTR)剖析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型剖析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度测验

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存剖析与Cox回归中计算IDI，NRI指标