共计 851 个字符,预计需要花费 3 分钟才能阅读完成。
原文链接:http://tecdat.cn/?p=6358
原文出处:拓端数据部落公众号
多重插补已成为解决缺失数据的罕用办法。咱们能够思考应用多个插补来估算 X 中的缺失值。接下来的一个天然问题是,在 X 的插补模型中,变量 Y 是否应该作为协变量蕴含在内?
Stata
为了阐明这些概念,咱们在 Stata 中模仿了一个小数据集,最后没有缺失数据:
gen x = rnormal()gen y = x + 0.25 * rnormal()twoway(scatter yx)(lfit yx)
在 没有 任何数据缺失之前,Y 对 X 的散点图
接下来,咱们将 X 的 100 个察看中的 50 个设置为缺失:
gen xmiss =(_ n <= 50)
插补模型
在本文中,咱们有两个变量 Y 和 X,分析模型由 某种类型的回归 组成(意味着 Y 是因变量而 X 是协变量),心愿生成插补,失去 Y | X 模型中参数的无效预计。
输出 X 疏忽 Y
假如咱们应用回归模型来估算 X,然而在插补模型中不包含 Y 作为协变量。咱们能够在 Stata 中轻松实现此操作,为每个缺失值生成一个估算值,而后依据 X 的后果 推算 察看到的 X
mi impute reg x,add(1)
上图 分明地显示了在 X 中疏忽 Y 的缺失值的问题 – 在咱们曾经估算 X 的那些中,Y 和 X 之间没有关联,实际上应该存在。
将后果思考在内的
假如如果咱们反过来将 X 后果思考为 Y(作为 X 的插补模型中的协变量),则会产生以下步骤。X | Y 的插补模型将应用察看到 X 的 样本 来拟合。因为咱们假如 X 在 Y 处 随机缺失,因而残缺的案例剖析拟合是无效的。因而,如果实际上 X 和 Y 之间没有关联,咱们应该(在冀望中)在这个残缺的状况下找到它。
要持续咱们的模仿数据集,咱们首先抛弃之前生成的估算值,而后从新输出 X,但这次包含 Y 作为插补模型中的协变量:
mi impute reg x = y,add(1)
应用 Y 估算缺失的 X 值。
多重插补中的变量抉择
抉择要蕴含在插补模型中的变量时的个别规定是,必须包含分析模型中波及的所有变量,或者作为被估算的变量,或者作为插补模型中的协变量。