关于数据挖掘:Stata中的治疗效果RA回归调整-IPW逆概率加权-IPWRA-AIPW附代码数据

64次阅读

共计 10552 个字符,预计需要花费 27 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=10148

最近咱们被客户要求撰写对于 Stata 中的医治成果的钻研报告,包含一些图形和统计输入。

医治成果估算器依据察看数据估算医治对后果的因果关系。

咱们将探讨四种医治成果估计量:

  1. RA:回归调整
  2. IPW:逆概率加权
  3. IPWRA:具备回归调整的逆概率加权
  4. AIPW:加强的逆概率加权

    与对观测数据进行的任何回归剖析一样,因果关系的解释必须基于正当的基础科学原理。

介绍

咱们将探讨医治办法和后果。

一种医治可能是新药,其后果是血压或胆固醇程度升高。医治能够是外科手术,也能够是患者流动的终局。医治能够是职业培训打算以及后果待业或工资。医治甚至能够是旨在进步产品销量的广告。

考虑一下母亲吸烟是否会影响婴儿出世时的体重。只能应用观测数据来答复这样的问题。

察看数据的问题是受试者抉择是否承受医治。例如,母亲决定吸烟还是不吸烟。据说这些受试者已自我抉择进入医治组和未医治组。

在现实的世界中,咱们将设计一个试验来测试因果关系和医治终局之间的关系。咱们将受试者随机调配到医治组或未医治组。随机调配医治办法可确保医治办法与后果无关,从而大大简化了剖析。

因果推论要求对每个医治程度的后果的无条件预计。无论数据是察看性的还是实验性的,咱们仅察看以承受医治为条件的每个受试者的终局。对于试验数据,医治的随机调配保障了医治与后果无关。对于察看数据,咱们对医治调配过程进行建模。如果咱们的模型是正确的,则依据咱们模型中的协变量,医治调配过程被认为与随机条件一样好。

让咱们思考一个例子。图 1 是相似于 Cattaneo(2010)应用的观测数据的散点图。医治变量是母亲在怀孕期间的吸烟情况,后果是婴儿的出世体重。

红点示意怀孕期间吸烟的母亲,而绿点示意未怀孕的母亲。母亲本人抉择是否吸烟,这使剖析变得复杂。

咱们不能通过比拟吸烟和不吸烟的母亲的均匀出世体重来预计吸烟对出世体重的影响。为什么不?再看一下咱们的图表。年龄较大的母亲往往体重较重,无论怀孕时是否吸烟。在这些数据中,年龄较大的母亲也更有可能吸烟。因而,母亲的年龄与医治情况和终局无关。那么咱们应该如何进行呢?


点击题目查阅往期内容

R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

左右滑动查看更多

01

02

03

04

RA:回归调整估计量

RA 估计量对后果进行建模,以阐明非随机医治调配。

咱们可能会问:“如果吸烟的母亲抉择不吸烟,后果将如何扭转?”或“如果不吸烟的母亲抉择吸烟,后果将会如何扭转?”。如果咱们晓得这些反事实问题的答案,那么剖析将很容易:咱们只需从反事实后果中减去察看到的后果即可。

咱们能够构建对这些未察看到的潜在后果的度量,咱们的数据可能看起来像这样:

在图 2 中,应用实心点显示察看到的数据,而应用空心点显示未察看到的潜在后果。空心的红点代表吸烟者不吸烟的潜在结果。空心的绿色点代表不吸烟者吸烟的潜在结果。

咱们能够通过将独自的线性回归模型与察看到的数据(实点)拟合到两个医治组,从而预计未察看到的潜在后果。

在图 3 中,咱们为不吸烟者提供了一条回归线(绿线),为吸烟者提供了一条独自的回归线(红线)。

让咱们理解这两行的含意:

图 4 左侧标记为“已察看”的绿点是对不吸烟的母亲的察看。绿色回归线上标有 E(y0)的点是思考到母亲的年龄并且不吸烟的婴儿的预期出世体重。红色回归线上标有 E(y1)的点是同一名母亲吸烟后婴儿的预期出世体重。

这些冀望之间的差别预计了未承受医治者的协变量特异性医治成果。

当初,让咱们看看另一个反事实问题。

图 4 右侧的红色标记为“察看到的红色”是对怀孕期间吸烟的母亲的察看。绿色和红色回归线上的点再次示意在两种医治条件下母亲婴儿的预期出世体重(潜在的终局)。

这些冀望之间的差别预计了承受医治者的协变量特异性医治成果。

请留神,咱们依据每个变量的协变量值来预计均匀医治成果(ATE)。此外,无论理论承受哪种医治,咱们都对每位受试者预计这种成果。数据中所有受试者的这些效应的平均值预计了 ATE。

咱们还能够应用图 4 来激发对每个受试者在每种医治程度下可取得的后果的预测,而与所承受的医治无关。数据中所有受试者的这些预测值的平均值预计每个医治程度的潜在后果均值(POM)。

预计的 POM 的差别与上述 ATE 的预计雷同。

被医治者(ATET)上的 ATE 与 ATE 类似,但仅应用在医治组中察看到的受试者。这种计算医治成果的办法称为回归调整(RA)。

. webuse cattaneo2.dta, clear

为了估算两个医治组中的 POM,咱们输出


. teffects ra (bweight mage) (mbsmoke), pomeans

咱们在第一组括号中指定后果模型,并带有后果变量及其后的协变量。在此示例中,后果变量为 bweight,惟一的协变量为 mage。

咱们在第二组括号中指定解决模型(仅是解决变量)。在此示例中,咱们仅指定解决变量 mbsmoke。咱们将在下一节中探讨协变量。

键入命令的后果是

 Iteration 0:   EE criterion =  7.878e-24
Iteration 1:   EE criterion =  8.468e-26

Treatment-effects estimation                    Number of obs      =      4642
Estimator      : regression adjustment
Outcome model  : linear
Treatment model: none
------------------------------------------------------------------------------
             |               Robust
     bweight |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
POmeans      |
     mbsmoke |
  nonsmoker  |   3409.435   9.294101   366.84   0.000     3391.219    3427.651
     smoker  |   3132.374   20.61936   151.91   0.000     3091.961    3172.787
------------------------------------------------------------------------------

输入报告说,如果所有母亲吸烟,均匀出世体重将为 3132 克,如果没有母亲吸烟,则均匀出世体重将为 3409 克。

咱们能够通过减去 POM 来估算出世体重时吸烟的 ATE:3132.374 – 3409.435 = -277.061。获取规范误和置信区间:

 Iteration 0:   EE criterion =  7.878e-24
Iteration 1:   EE criterion =  5.185e-26

Treatment-effects estimation                    Number of obs      =      4642
Estimator      : regression adjustment
Outcome model  : linear
Treatment model: none
-------------------------------------------------------------------------------
              |               Robust   
      bweight |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
--------------+----------------------------------------------------------------
ATE           |        
      mbsmoke |
(smoker vs    |        
  nonsmoker)  |  -277.0611   22.62844   -12.24   0.000    -321.4121   -232.7102
--------------+----------------------------------------------------------------
POmean        |        
      mbsmoke |
   nonsmoker  |   3409.435   9.294101   366.84   0.000     3391.219    3427.651
-------------------------------------------------------------------------------

输入报告的是咱们手动计算的雷同 ATE:-277.061。ATE 是每个母亲吸烟时出世体重与没有母亲吸烟时出世体重之间差别的平均值。

IPW:逆概率加权预计器

RA 估计量对后果进行建模,以阐明非随机医治调配。一些钻研人员更喜爱为医治调配过程建模,而不为后果指定模型。

咱们晓得,在咱们的数据中,吸烟者往往比不吸烟者年龄大。咱们还假如母亲的年龄间接影响出世体重。咱们在图 1 中察看到了这一点。

该图显示医治调配取决于母亲的年龄。咱们心愿有一种调整这种依赖性的办法。特地是,咱们心愿咱们有更多的较高年龄的绿色点和较低年龄的红色点。如果这样做的话,每组的均匀出世体重将会扭转。咱们不晓得这将如何影响均值差别,然而咱们晓得这将是对差别的更好预计。

为了取得相似的后果,咱们将对较低年龄段的吸烟者和较高年龄段的不吸烟者进行加权,而对较高年龄段的吸烟者和较低年龄段中的不吸烟者进行加权。

咱们将采纳以下模式的概率模型或 logit 模型

Pr(女人抽烟)= F(a + b * 年龄)

teffects 默认应用 logit,然而咱们将指定 probit 选项进行阐明。

一旦咱们拟合了该模型,就能够为数据中的每个察看取得预测 Pr(女人抽烟)。咱们称这个为_p i_。而后,在进行 POM 计算(这只是平均值计算)时,咱们将应用这些概率对观测值进行加权。咱们将对吸烟者的观测值加权为 1 / _p i,_以便当成为吸烟者的可能性较小时,权重将较大。咱们将对不吸烟者的察看加权 1 /(1- _p i_),以便当不吸烟者的概率较小时,权重将较大。

后果是下图替换了图 1:

在图 5 中,较大的圆圈示意较大的权重。

应用此 IPW 估算器估算 POM

后果是

 Iteration 0:   EE criterion =  3.615e-15
Iteration 1:   EE criterion =  4.381e-25

Treatment-effects estimation                    Number of obs      =      4642
Estimator      : inverse-probability weights
Outcome model  : weighted mean
Treatment model: probit
------------------------------------------------------------------------------
             |               Robust
     bweight |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
POmeans      |
     mbsmoke |
  nonsmoker  |   3408.979   9.307838   366.25   0.000     3390.736    3427.222
     smoker  |   3133.479   20.66762   151.61   0.000     3092.971    3173.986
------------------------------------------------------------------------------

咱们的输入报告说,如果所有母亲吸烟,均匀出世体重将为 3133 克,如果没有母亲吸烟,则均匀出世体重将为 3409 克。

这次,ATE 是 -275.5,如果咱们键入

(Output omitted)

咱们将理解到规范误为 22.68,95%置信区间为[-319.9,231.0]。

IPWRA:具备回归调整估计量的 IPW

RA 估计量对后果进行建模,以阐明非随机医治调配。IPW 估算器对解决进行建模以阐明非随机解决调配。IPWRA 估算器对后果和医治办法进行建模,以阐明非随机医治计划。

IPWRA 应用 IPW 权重来预计校对后的回归系数,随后将其用于执行回归调整。

终局模型和医治模型中的协变量不用雷同,它们经常不是因为影响受试者抉择医治组的变量通常不同于与后果相干的变量。IPWRA 估算用具有双重鲁棒性,这意味着如果谬误指定了医治模型或后果模型(而不是两者),则成果的估算将保持一致。

让咱们思考具备更简单的后果和医治模型,但仍应用咱们的低体重数据的状况。

后果模型将包含

  1. 母亲的年龄
  2. 孕早期产前检查的指标
  3. 母亲婚姻状况的指标
  4. 第一胎的指标

医治模型将包含

  1. 后果模型的所有协变量
  2. 母亲的年龄 ^ 2
  3. 孕产妇教育年限

咱们还将指定 aequations 选项,报告后果和医治模型的系数。

 Iteration 0:   EE criterion =  1.001e-20
Iteration 1:   EE criterion =  1.134e-25

Treatment-effects estimation                    Number of obs      =      4642
Estimator      : IPW regression adjustment
Outcome model  : linear
Treatment model: probit
-------------------------------------------------------------------------------
              |               Robust
      bweight |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
--------------+----------------------------------------------------------------
POmeans       |
      mbsmoke |
   nonsmoker  |   3403.336    9.57126   355.58   0.000     3384.576    3422.095
      smoker  |   3173.369   24.86997   127.60   0.000     3124.624    3222.113
--------------+----------------------------------------------------------------
OME0          |
         mage |   2.893051   2.134788     1.36   0.175    -1.291056    7.077158
    prenatal1 |   67.98549   28.78428     2.36   0.018     11.56933    124.4017
     mmarried |   155.5893   26.46903     5.88   0.000      103.711    207.4677
        fbaby |   -71.9215   20.39317    -3.53   0.000    -111.8914   -31.95162
        _cons |   3194.808   55.04911    58.04   0.000     3086.913    3302.702
--------------+----------------------------------------------------------------
OME1          |
         mage |  -5.068833   5.954425    -0.85   0.395    -16.73929    6.601626
    prenatal1 |   34.76923   43.18534     0.81   0.421    -49.87248    119.4109
     mmarried |   124.0941   40.29775     3.08   0.002     45.11193    203.0762
        fbaby |   39.89692   56.82072     0.70   0.483    -71.46966    151.2635
        _cons |   3175.551   153.8312    20.64   0.000     2874.047    3477.054
--------------+----------------------------------------------------------------
TME1          |
     mmarried |  -.6484821   .0554173   -11.70   0.000     -.757098   -.5398663
         mage |   .1744327   .0363718     4.80   0.000     .1031452    .2457202
              |
c.mage#c.mage |  -.0032559   .0006678    -4.88   0.000    -.0045647   -.0019471
              |
        fbaby |  -.2175962   .0495604    -4.39   0.000    -.3147328   -.1204595
         medu |  -.0863631   .0100148    -8.62   0.000    -.1059917   -.0667345
        _cons |  -1.558255   .4639691    -3.36   0.001    -2.467618   -.6488926
-------------------------------------------------------------------------------

输入的 POmeans 局部显示两个医治组的 POM。ATE 当初计算为 3173.369 – 3403.336 = -229.967。

OME0 和 OME1 局部别离显示未解决组和已解决组的 RA 系数。

输入的 TME1 局部显示概率解决模型的系数。

与前两种状况一样,如果咱们心愿 ATE 呈现规范误等,咱们将指定 ate 选项。如果咱们须要 ATET,则能够指定 atet 选项。

AIPW:增强型 IPW 估算器

IPWRA 估算器对后果和医治办法进行建模,以阐明非随机医治计划。AIPW 估算器也是如此。

AIPW 估算器向 IPW 估算器增加偏差校对项。如果正确指定了解决模型,则偏差校对项为 0,并且将模型简化为 IPW 估计量。如果医治模型指定不正确,但后果模型指定正确,则偏差校对项会校对估计量。因而,偏差校对项使 AIPW 预计用具有与 IPWRA 预计器雷同的双重鲁棒性。

AIPW 预计器的语法和输入与 IPWRA 预计器的语法和输入简直雷同。

 Iteration 0:   EE criterion =  4.632e-21
Iteration 1:   EE criterion =  5.810e-26

Treatment-effects estimation                    Number of obs      =      4642
Estimator      : augmented IPW
Outcome model  : linear by ML
Treatment model: probit
-------------------------------------------------------------------------------
              |               Robust
      bweight |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
--------------+----------------------------------------------------------------
POmeans       |
      mbsmoke |
   nonsmoker  |   3403.355   9.568472   355.68   0.000     3384.601    3422.109
      smoker  |   3172.366   24.42456   129.88   0.000     3124.495    3220.237
--------------+----------------------------------------------------------------
OME0          |
         mage |   2.546828   2.084324     1.22   0.222    -1.538373    6.632028
    prenatal1 |   64.40859   27.52699     2.34   0.019     10.45669    118.3605
     mmarried |   160.9513    26.6162     6.05   0.000     108.7845    213.1181
        fbaby |   -71.3286   19.64701    -3.63   0.000     -109.836   -32.82117
        _cons |   3202.746   54.01082    59.30   0.000     3096.886    3308.605
--------------+----------------------------------------------------------------
OME1          |
         mage |  -7.370881    4.21817    -1.75   0.081    -15.63834    .8965804
    prenatal1 |   25.11133   40.37541     0.62   0.534    -54.02302    104.2457
     mmarried |   133.6617   40.86443     3.27   0.001      53.5689    213.7545
        fbaby |   41.43991   39.70712     1.04   0.297    -36.38461    119.2644
        _cons |   3227.169   104.4059    30.91   0.000     3022.537    3431.801
--------------+----------------------------------------------------------------
TME1          |
     mmarried |  -.6484821   .0554173   -11.70   0.000     -.757098   -.5398663
         mage |   .1744327   .0363718     4.80   0.000     .1031452    .2457202
              |
c.mage#c.mage |  -.0032559   .0006678    -4.88   0.000    -.0045647   -.0019471
              |
        fbaby |  -.2175962   .0495604    -4.39   0.000    -.3147328   -.1204595
         medu |  -.0863631   .0100148    -8.62   0.000    -.1059917   -.0667345
        _cons |  -1.558255   .4639691    -3.36   0.001    -2.467618   -.6488926
-------------------------------------------------------------------------------

ATE 为 3172.366 – 3403.355 = -230.989。

最初

下面的示例应用了一个间断的后果:出世体重。teffects 也能够用于二进制,计数和非负间断后果。

估计量还容许多个医治类别。


参考文献:

【1】Cattaneo, M. D. 2010. Efficient semiparametric estimation of multi-valued treatment effects under ignorability. _Journal of Econometrics_ 155: 138–154.


点击文末 “浏览原文”

获取全文残缺材料。

本文选自《Stata 中的医治成果:RA:回归调整、IPW:逆概率加权、IPWRA、AIPW》。

点击题目查阅往期内容

数据分享 | R 语言用主成分剖析(PCA)PCR 回归进行预测汽车购买信息可视化
MCMC 的 rstan 贝叶斯回归模型和规范线性回归模型比拟
数据分享 | R 语言逻辑回归 (Logistic Regression)、回归决策树、随机森林信用卡守约剖析信贷数据集
PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯和 KMEANS 聚类用户画像
Python 对商店数据进行 lstm 和 xgboost 销售量工夫序列建模预测剖析
PYTHON 集成机器学习:用 ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜寻超参数优化
R 语言集成模型:晋升树 boosting、随机森林、束缚最小二乘法加权均匀模型交融剖析工夫序列数据
Python 对商店数据进行 lstm 和 xgboost 销售量工夫序列建模预测剖析
R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R 语言基于树的办法:决策树,随机森林,Bagging,加强树
R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
spss modeler 用决策树神经网络预测 ST 的股票
R 语言中应用线性模型、回归决策树主动组合特色因子程度
R 语言中自编基尼系数的 CART 回归决策树的实现
R 语言用 rle,svm 和 rpart 决策树进行工夫序列预测
python 在 Scikit-learn 中用决策树和随机森林预测 NBA 获胜者
python 中应用 scikit-learn 和 pandas 决策树进行 iris 鸢尾花数据分类建模和穿插验证
R 语言里的非线性模型:多项式回归、部分样条、平滑样条、狭义相加模型 GAM 剖析
R 语言用规范最小二乘 OLS,狭义相加模型 GAM,样条函数进行逻辑回归 LOGISTIC 分类
R 语言 ISLR 工资数据进行多项式回归和样条回归剖析
R 语言中的多项式回归、部分回归、核平滑和平滑样条回归模型
R 语言用泊松 Poisson 回归、GAM 样条曲线模型预测骑自行车者的数量
R 语言分位数回归、GAM 样条曲线、指数平滑和 SARIMA 对电力负荷工夫序列预测 R 语言样条曲线、决策树、Adaboost、梯度晋升(GBM) 算法进行回归、分类和动静可视化
如何用 R 语言在机器学习中建设集成模型?
R 语言 ARMA-EGARCH 模型、集成预测算法对 SPX 理论稳定率进行预测在 python 深度学习 Keras 中计算神经网络集成模型 R 语言 ARIMA 集成模型预测工夫序列剖析 R 语言基于 Bagging 分类的逻辑回归 (Logistic Regression)、决策树、森林剖析心脏病患者
R 语言基于树的办法:决策树,随机森林,Bagging,加强树
R 语言基于 Bootstrap 的线性回归预测置信区间预计办法
R 语言应用 bootstrap 和增量法计算狭义线性模型(GLM)预测置信区间
R 语言样条曲线、决策树、Adaboost、梯度晋升(GBM) 算法进行回归、分类和动静可视化
Python 对商店数据进行 lstm 和 xgboost 销售量工夫序列建模预测剖析
R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
Matlab 建设 SVM,KNN 和奢侈贝叶斯模型分类绘制 ROC 曲线
matlab 应用分位数随机森林(QRF)回归树检测异样值

正文完
 0