原文链接:http://tecdat.cn/?p=6358

原文出处:拓端数据部落公众号

多重插补已成为解决缺失数据的罕用办法 。  咱们能够思考应用多个插补来估算X中的缺失值。接下来的一个天然问题是,在X的插补模型中,变量Y是否应该作为协变量蕴含在内? 

Stata 

为了阐明这些概念,咱们在Stata中模仿了一个小数据集,最后没有缺失数据:

gen x = rnormal()gen y = x + 0.25 * rnormal()twoway(scatter yx)(lfit yx)

没有任何数据缺失之前,Y对X的散点图

接下来,咱们将X的100个察看中的50个设置为缺失:

gen xmiss =(_ n <= 50)

插补模型

在本文中,咱们有两个变量Y和X,分析模型由某种类型的回归组成(意味着Y是因变量而X是协变量),心愿生成插补,失去Y | X模型中参数的无效预计。

输出X疏忽Y

假如咱们应用回归模型来估算X,然而在插补模型中不包含Y作为协变量。咱们能够在Stata中轻松实现此操作,为每个缺失值生成一个估算值,而后依据X的后果推算察看到的X

mi impute reg x,add(1)

上图分明地显示了在X中疏忽Y的缺失值的问题 - 在咱们曾经估算X的那些中,Y和X之间没有关联,实际上应该存在。

将后果思考在内的

假如如果咱们反过来将X后果思考为Y(作为X的插补模型中的协变量),则会产生以下步骤。X | Y的插补模型将应用察看到X的样本来拟合。因为咱们假如X在Y处随机缺失,因而残缺的案例剖析拟合是无效的。因而,如果实际上X和Y之间没有关联,咱们应该(在冀望中)在这个残缺的状况下找到它。

要持续咱们的模仿数据集,咱们首先抛弃之前生成的估算值,而后从新输出X,但这次包含Y作为插补模型中的协变量:

 mi impute reg x = y,add(1)

应用Y估算缺失的X值。

多重插补中的变量抉择

抉择要蕴含在插补模型中的变量时的个别规定是,必须包含分析模型中波及的所有变量,或者作为被估算的变量,或者作为插补模型中的协变量。