原文链接:http://tecdat.cn/?p=22422 

在本文中,咱们形容了灵便的竞争危险回归模型。回归模型被指定为转移概率,也就是竞争性危险设置中的累积发生率。该模型蕴含Fine和Gray(1999)的模型作为一个特例。这能够用来对次散布危险的比例假如做拟合度测试(Scheike和Zhang 2008)。还能够为预测的累积发病率曲线构建置信区间。咱们将这些办法利用于Pintilie(2007)的滤泡细胞淋巴瘤数据,其中竞争危险是疾病复发和没有复发的死亡。

工作实例:滤泡细胞淋巴瘤钻研

咱们思考Pintilie(2007)的滤泡细胞淋巴瘤数据。该数据集由541名疾病晚期的滤泡细胞淋巴瘤(I或II)患者组成,并承受单纯放疗(化疗=0)或放疗和化疗的联结医治(化疗=1)。疾病复发或无反馈和缓解期死亡是两个竞争危险。患者的年龄(年龄:均匀=57,sd=14)和血红蛋白程度(hgb:均匀=138,sd=15)也被记录。随访工夫的中位数是5.5年。首先咱们读取数据,计算死亡起因指标并对协变量进行编码。

R> table(cause)cause0 1 2193 272 76R> stage <- as.numeric(clinstg == 2)R> chemo <- as.numeric(ch == "Y")R> times1 <- sort(unique(time\[cause == 1\]))

有272个(无医治反馈或复发)因疾病引起的事件,76个竞争性危险事件(无复发的死亡)和193个删减的个体。事件工夫用dftime示意。变量times1给出了起因为 "1 "的事件工夫。咱们首先预计非参数累积发病率曲线进行比拟。

咱们指定事件工夫并删减变量为cause == 0。回归模型只蕴含一个截距项(+1)。cause变量给出了与不同事件相干的起因。cause= 1指定咱们思考类型1的事件。计算/基于估计值的工夫能够由参数times = times1给出。

图1(a)显示了预计的两种起因的累积发生率曲线。在图1(b)中,咱们构建95%的置信区间(虚线)和95%的相信带。

risk(Surv(dftime, cause == 0) ~ + 1, causeS = 1, n.sim = 5000, cens.code = 0, model = "additive")

图1

R> fit <- cum(time, cause, group)R> plot(fit)

子散布危险法和间接二项式模型法都是基于反概率的删减加权技术。在利用这种权重时,要害是删减权重的预计不能有偏差,否则累积发病率曲线的预计也可能有偏差。

在这个例子中,咱们发现删减散布显著取决于协变量血红蛋白、阶段和化疗,并能够由Cox的回归模型很好地形容。Cox模型的拟合是通过累积残差来验证的,进一步的细节见Martinussen和Scheike(2006)。因而,对剔除权重应用简略的KaplanMeier预计可能会导致重大的偏差预计。因而,咱们在调用中退出了cens.model = "cox "的选项,这就应用了Cox模型中竞争危险模型的所有协变量作为剔除权数。一般来说,反概率删减权重的回归模型能够用来提高效率(Scheike等人,2008)。

当初咱们来拟合模型

咱们首先拟合一个个别比例模型,容许所有协变量具备时变效应。在上面的调用中,只有模型(6)中的协变量x被定义。模型(6)中的协变量z是由一个const操作符指定的。

summary(outf)OUTPUT:Competing risks ModelTest for nonparametric termsTest for non-significant effectsSupremum-test of significance p-value H_0: B(t)=0(Intercept) 3.29 0.0150stage 5.08 0.0000age 4.12 0.0002chemo 2.79 0.0558hgb 1.16 0.8890Test for time invariant effectsKolmogorov-Smirnov test p-value H_0:constant effect(Intercept) 8.6200 0.0100stage 1.0400 0.0682age 0.0900 0.0068chemo 1.7200 0.0004hgb 0.0127 0.5040Cramer von Mises test p-value H_0:constant effect(Intercept) 3.69e+01 0.0170stage 2.52e+00 0.0010age 4.26e-03 0.0014chemo 1.50e+00 0.0900hgb 2.64e-04 0.4220

基于非参数检验的显著性测验显示,在非参数模型中,阶段和年龄是显著的,化疗是较显著的(p = 0.056),血红蛋白是不显著的(p = 0.889)。

图2

绘制预计的回归系数j (t)及其95%的相信带,并别离绘制常数效应的察看测验过程和空值下的模仿测验过程。

R> plot(outf, score = 1)

图2显示了这些效应并不随工夫变动而变动,在晚期的时间段内效应相当显著。95%的指向性置信区间,以及95%的置信区间。

图3显示了相干的测验过程,用于决定时变效应是否具备显著的时变性,或者是否能够承受H0 : j (t) = j。这些图的摘要在输入中给出,咱们看到阶段和化疗显然是时变的,因而与Fine-Gray模型不统一。Kolmogorov-Smirnov和Cramer von Mises测验统计数字对测验过程的两种不同总结是统一的,总的论断是三个变量都没有比例的Cox类型效应。咱们看到血红蛋白被常数很好地形容,因而咱们思考用血红蛋白具备常数效应,其余协变量具备时变效应的模型。

图3

R> summary(outf1)OUTPUT:Competing risks ModelTest for nonparametric termsTest for non-significant effectsSupremum-test of significance p-value H_0: B(t)=0(Intercept) 5.46 0stage 5.18 0 age 4.20 0chemo 3.89 0Test for time invariant effectsKolmogorov-Smirnov test p-value H_0:constant effect(Intercept) 10.100 0.000stage 1.190 0.048age 0.101 0.004chemo 1.860 0.000Cramer von Mises test p-value H_0:constant effect(Intercept) 79.90000 0.000stage 1.84000 0.006age 0.00583 0.000chemo 2.53000 0.000Parametric terms :Coef. SE Robust SE z P-valconst(hgb) 0.00195 0.00401 0.00401 0.486 0.627
Competing risks ModelTest for nonparametric termsTest for non-significant effectsSupremum-test of significance p-value H_0: B(t)=0(Intercept) 6.32 0Test for time invariant effectsKolmogorov-Smirnov test p-value H_0:constant effect(Intercept) 1.93 0Cramer von Mises test p-value H_0:constant effect(Intercept) 14.3 0Parametric terms :Coef. SE Robust SE z P-valconst(stage) 0.45200 0.13500 0.13500 3.340 0.000838const(age) 0.01450 0.00459 0.00459 3.150 0.001610const(chemo) -0.37600 0.18800 0.18800 -2.000 0.045800const(hgb) 0.00249 0.00401 0.00401 0.622 0.534000

咱们留神到,血红蛋白的影响与更适合模型(如上图所示)的影响简直相等。但因为模型中其余协变量的不适宜,估计值可能有重大的偏差,因而可能误导了数据的重要特色。最初,咱们将FG模型的预测与半参数模型的预测进行比拟,后者对效应的形容更为具体。咱们思考对上面由新数据调配定义的两种不同的病人进行预测。患者类型I:疾病I期(阶段=0),40岁,没有化疗医治(化疗=0),患者类型II:疾病II期(阶段=1),60岁,放疗加化疗联结医治(化疗=1)。

R> newdata <- data.frame(stage = c(0, 1), age = c(40, 60), chemo = c(0, 1),+ hgb = c(138, 138))R> predict(out, newdata)

为了指定计算预测的数据,咱们能够指定一个newdata参数。

基于该模型的预测可能不是枯燥的。咱们绘制了没有点状置信区间(se = 0)和没有相信带(uniform = 0)的预测。图4(a)中的预测是基于灵便的模型,而图4(b)中的预测是基于FG模型的。I型和II型病人的复发累积发生率曲线别离用实线和虚线示意。图5(a)比拟了基于灵便模型和FG模型对I型患者的预测后果。同样地,图5(b)比拟了对II型病人的预测。两个预测值四周的断线代表了基于灵便模型的相信区。

图4

R> par(mfrow = c(1, 2))R> plot(f1, se = 0, uniform = 1, col = 1, lty = 1R> plot(fg, new = 0, se = 0, uniform = 0, col = 2, lty = 2,

较高的疾病阶段、较高的年龄和联结医治会导致较高的累积发病率,其影响在时间段的晚期更为显著(图4(a)和图2)。另一方面,化疗在时间段的最后减少了累积发病率,随后升高了发病率(图4(a)和图2)。图5显示,FG模型不能精确地模仿时变效应。只管有这些差别,在这种状况下,总体预测有些相似,特地是当思考到预计的不确定性。然而,协变量的时变行为显然是重要的。

图5

4. 探讨

本文实现了累积发病率曲线的灵便竞争危险回归模型,能够详细分析协变量效应如何预测累积发病率,并容许协变量的工夫变动效应。能够查看较简略的模型的拟合度,同时能够产生带有置信区间和相信带的预测后果,这对钻研人员很有用。


最受欢迎的见解

1.R语言绘制生存曲线预计|生存剖析|如何R作生存曲线图

2.R语言生存剖析可视化剖析

3.R语言如何在生存剖析与Cox回归中计算IDI,NRI指标

4.r语言中应用Bioconductor 剖析芯片数据

5.R语言生存剖析数据分析可视化案例

6.r语言ggplot2误差棒图疾速指南

7.R 语言绘制性能富集泡泡图

8.R语言如何找到患者数据中具备差别的指标?(PLS—DA剖析)

9.R语言中的生存剖析Survival analysis早期肺癌患者4例