原文链接：http://tecdat.cn/?p=6358

原文出处：拓端数据部落公众号

多重插补已成为解决缺失数据的罕用办法。咱们能够思考应用多个插补来估算X中的缺失值。接下来的一个天然问题是，在X的插补模型中，变量Y是否应该作为协变量蕴含在内？

为了阐明这些概念，咱们在Stata中模仿了一个小数据集，最后没有缺失数据：

gen x = rnormal（）
gen y = x + 0.25 * rnormal（）
twoway（scatter yx）（lfit yx）

在没有任何数据缺失之前，Y对X的散点图

接下来，咱们将X的100个察看中的50个设置为缺失：

gen xmiss =（_ n <= 50）

在本文中，咱们有两个变量Y和X，分析模型由某种类型的回归组成（意味着Y是因变量而X是协变量），心愿生成插补，失去Y | X模型中参数的无效预计。

假如咱们应用回归模型来估算X，然而在插补模型中不包含Y作为协变量。咱们能够在Stata中轻松实现此操作，为每个缺失值生成一个估算值，而后依据X的后果推算察看到的X

mi impute reg x，add（1）

上图分明地显示了在X中疏忽Y的缺失值的问题 – 在咱们曾经估算X的那些中，Y和X之间没有关联，实际上应该存在。

假如如果咱们反过来将X后果思考为Y（作为X的插补模型中的协变量），则会产生以下步骤。X | Y的插补模型将应用察看到X的样本来拟合。因为咱们假如X在Y处随机缺失，因而残缺的案例剖析拟合是无效的。因而，如果实际上X和Y之间没有关联，咱们应该（在冀望中）在这个残缺的状况下找到它。

要持续咱们的模仿数据集，咱们首先抛弃之前生成的估算值，而后从新输出X，但这次包含Y作为插补模型中的协变量：

 mi impute reg x = y，add（1）

应用Y估算缺失的X值。

抉择要蕴含在插补模型中的变量时的个别规定是，必须包含分析模型中波及的所有变量，或者作为被估算的变量，或者作为插补模型中的协变量。