关于算法:拓端tecdatstata对包含协变量的模型进行缺失值多重插补分析

60次阅读

共计 851 个字符,预计需要花费 3 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=6358

原文出处:拓端数据部落公众号

多重插补已成为解决缺失数据的罕用办法。咱们能够思考应用多个插补来估算 X 中的缺失值。接下来的一个天然问题是,在 X 的插补模型中,变量 Y 是否应该作为协变量蕴含在内?

Stata 

为了阐明这些概念,咱们在 Stata 中模仿了一个小数据集,最后没有缺失数据:

gen x = rnormal()gen y = x + 0.25 * rnormal()twoway(scatter yx)(lfit yx)

没有 任何数据缺失之前,Y 对 X 的散点图

接下来,咱们将 X 的 100 个察看中的 50 个设置为缺失:

gen xmiss =(_ n <= 50)

插补模型

在本文中,咱们有两个变量 Y 和 X,分析模型由 某种类型的回归 组成(意味着 Y 是因变量而 X 是协变量),心愿生成插补,失去 Y | X 模型中参数的无效预计。

输出 X 疏忽 Y

假如咱们应用回归模型来估算 X,然而在插补模型中不包含 Y 作为协变量。咱们能够在 Stata 中轻松实现此操作,为每个缺失值生成一个估算值,而后依据 X 的后果 推算 察看到的 X

mi impute reg x,add(1)

上图 分明地显示了在 X 中疏忽 Y 的缺失值的问题 – 在咱们曾经估算 X 的那些中,Y 和 X 之间没有关联,实际上应该存在。

将后果思考在内的

假如如果咱们反过来将 X 后果思考为 Y(作为 X 的插补模型中的协变量),则会产生以下步骤。X | Y 的插补模型将应用察看到 X 的 样本 来拟合。因为咱们假如 X 在 Y 处 随机缺失,因而残缺的案例剖析拟合是无效的。因而,如果实际上 X 和 Y 之间没有关联,咱们应该(在冀望中)在这个残缺的状况下找到它。

要持续咱们的模仿数据集,咱们首先抛弃之前生成的估算值,而后从新输出 X,但这次包含 Y 作为插补模型中的协变量:

 mi impute reg x = y,add(1)

应用 Y 估算缺失的 X 值。

多重插补中的变量抉择

抉择要蕴含在插补模型中的变量时的个别规定是,必须包含分析模型中波及的所有变量,或者作为被估算的变量,或者作为插补模型中的协变量。

正文完
 0