关于人工智能:R语言生存分析-时变竞争风险模型分析淋巴瘤患者

45次阅读

共计 4797 个字符,预计需要花费 12 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=22422 

在本文中,咱们形容了灵便的竞争危险回归模型。回归模型被指定为转移概率,也就是竞争性危险设置中的累积发生率。该模型蕴含 Fine 和 Gray(1999)的模型作为一个特例。这能够用来对次散布危险的比例假如做拟合度测试(Scheike 和 Zhang 2008)。还能够为预测的累积发病率曲线构建置信区间。咱们将这些办法利用于 Pintilie(2007)的滤泡细胞淋巴瘤数据,其中竞争危险是疾病复发和没有复发的死亡。

工作实例:滤泡细胞淋巴瘤钻研

咱们思考 Pintilie(2007)的滤泡细胞淋巴瘤数据。该数据集由 541 名疾病晚期的滤泡细胞淋巴瘤(I 或 II)患者组成,并承受单纯放疗(化疗 =0)或放疗和化疗的联结医治(化疗 =1)。疾病复发或无反馈和缓解期死亡是两个竞争危险。患者的年龄(年龄:均匀 =57,sd=14)和血红蛋白程度(hgb:均匀 =138,sd=15)也被记录。随访工夫的中位数是 5.5 年。首先咱们读取数据,计算死亡起因指标并对协变量进行编码。

R> table(cause)
cause
0 1 2
193 272 76
R> stage <- as.numeric(clinstg == 2)
R> chemo <- as.numeric(ch == "Y")
R> times1 <- sort(unique(time\[cause == 1\]))

有 272 个(无医治反馈或复发)因疾病引起的事件,76 个竞争性危险事件(无复发的死亡)和 193 个删减的个体。事件工夫用 dftime 示意。变量 times1 给出了起因为 “1 “ 的事件工夫。咱们首先预计非参数累积发病率曲线进行比拟。

咱们指定事件工夫并删减变量为 cause == 0。回归模型只蕴含一个截距项(+1)。cause 变量给出了与不同事件相干的起因。cause= 1 指定咱们思考类型 1 的事件。计算 / 基于估计值的工夫能够由参数 times = times1 给出。

图 1(a)显示了预计的两种起因的累积发生率曲线。在图 1(b)中,咱们构建 95% 的置信区间(虚线)和 95% 的相信带。

risk(Surv(dftime, cause == 0) ~ + 1, 
causeS = 1, n.sim = 5000, cens.code = 0, model = "additive")

图 1

R> fit <- cum(time, cause, group)
R> plot(fit)

子散布危险法和间接二项式模型法都是基于反概率的删减加权技术。在利用这种权重时,要害是删减权重的预计不能有偏差,否则累积发病率曲线的预计也可能有偏差。

在这个例子中,咱们发现删减散布显著取决于协变量血红蛋白、阶段和化疗,并能够由 Cox 的回归模型很好地形容。Cox 模型的拟合是通过累积残差来验证的,进一步的细节见 Martinussen 和 Scheike(2006)。因而,对剔除权重应用简略的 KaplanMeier 预计可能会导致重大的偏差预计。因而,咱们在调用中退出了 cens.model = “cox “ 的选项,这就应用了 Cox 模型中竞争危险模型的所有协变量作为剔除权数。一般来说,反概率删减权重的回归模型能够用来提高效率(Scheike 等人,2008)。

当初咱们来拟合模型

咱们首先拟合一个个别比例模型,容许所有协变量具备时变效应。在上面的调用中,只有模型(6)中的协变量 x 被定义。模型(6)中的协变量 z 是由一个 const 操作符指定的。

summary(outf)
OUTPUT:
Competing risks Model
Test for nonparametric terms
Test for non-significant effects
Supremum-test of significance p-value H_0: B(t)=0
(Intercept) 3.29 0.0150
stage 5.08 0.0000
age 4.12 0.0002
chemo 2.79 0.0558
hgb 1.16 0.8890
Test for time invariant effects
Kolmogorov-Smirnov test p-value H_0:constant effect
(Intercept) 8.6200 0.0100
stage 1.0400 0.0682
age 0.0900 0.0068
chemo 1.7200 0.0004
hgb 0.0127 0.5040
Cramer von Mises test p-value H_0:constant effect
(Intercept) 3.69e+01 0.0170
stage 2.52e+00 0.0010
age 4.26e-03 0.0014
chemo 1.50e+00 0.0900
hgb 2.64e-04 0.4220

基于非参数检验的显著性测验显示,在非参数模型中,阶段和年龄是显著的,化疗是较显著的(p = 0.056),血红蛋白是不显著的(p = 0.889)。

图 2

绘制预计的回归系数 αj (t) 及其 95% 的相信带,并别离绘制常数效应的察看测验过程和空值下的模仿测验过程。

R> plot(outf, score = 1)

图 2 显示了这些效应并不随工夫变动而变动,在晚期的时间段内效应相当显著。95% 的指向性置信区间,以及 95% 的置信区间。

图 3 显示了相干的测验过程,用于决定时变效应是否具备显著的时变性,或者是否能够承受 H0 : αj (t) = βj。这些图的摘要在输入中给出,咱们看到阶段和化疗显然是时变的,因而与 Fine-Gray 模型不统一。Kolmogorov-Smirnov 和 Cramer von Mises 测验统计数字对测验过程的两种不同总结是统一的,总的论断是三个变量都没有比例的 Cox 类型效应。咱们看到血红蛋白被常数很好地形容,因而咱们思考用血红蛋白具备常数效应,其余协变量具备时变效应的模型。

图 3

R> summary(outf1)
OUTPUT:
Competing risks Model
Test for nonparametric terms
Test for non-significant effects
Supremum-test of significance p-value H_0: B(t)=0
(Intercept) 5.46 0
stage 5.18 0 age 4.20 0
chemo 3.89 0
Test for time invariant effects
Kolmogorov-Smirnov test p-value H_0:constant effect
(Intercept) 10.100 0.000
stage 1.190 0.048
age 0.101 0.004
chemo 1.860 0.000
Cramer von Mises test p-value H_0:constant effect
(Intercept) 79.90000 0.000
stage 1.84000 0.006
age 0.00583 0.000
chemo 2.53000 0.000
Parametric terms :
Coef. SE Robust SE z P-val
const(hgb) 0.00195 0.00401 0.00401 0.486 0.627
Competing risks Model
Test for nonparametric terms
Test for non-significant effects
Supremum-test of significance p-value H_0: B(t)=0
(Intercept) 6.32 0
Test for time invariant effects
Kolmogorov-Smirnov test p-value H_0:constant effect
(Intercept) 1.93 0
Cramer von Mises test p-value H_0:constant effect
(Intercept) 14.3 0
Parametric terms :
Coef. SE Robust SE z P-val
const(stage) 0.45200 0.13500 0.13500 3.340 0.000838
const(age) 0.01450 0.00459 0.00459 3.150 0.001610
const(chemo) -0.37600 0.18800 0.18800 -2.000 0.045800
const(hgb) 0.00249 0.00401 0.00401 0.622 0.534000

咱们留神到,血红蛋白的影响与更适合模型(如上图所示)的影响简直相等。但因为模型中其余协变量的不适宜,估计值可能有重大的偏差,因而可能误导了数据的重要特色。最初,咱们将 FG 模型的预测与半参数模型的预测进行比拟,后者对效应的形容更为具体。咱们思考对上面由新数据调配定义的两种不同的病人进行预测。患者类型 I:疾病 I 期(阶段 =0),40 岁,没有化疗医治(化疗 =0),患者类型 II:疾病 II 期(阶段 =1),60 岁,放疗加化疗联结医治(化疗 =1)。

R> newdata <- data.frame(stage = c(0, 1), age = c(40, 60), chemo = c(0, 1),
+ hgb = c(138, 138))
R> predict(out, newdata)

为了指定计算预测的数据,咱们能够指定一个 newdata 参数。

基于该模型的预测可能不是枯燥的。咱们绘制了没有点状置信区间(se = 0)和没有相信带(uniform = 0)的预测。图 4(a)中的预测是基于灵便的模型,而图 4(b)中的预测是基于 FG 模型的。I 型和 II 型病人的复发累积发生率曲线别离用实线和虚线示意。图 5(a)比拟了基于灵便模型和 FG 模型对 I 型患者的预测后果。同样地,图 5(b)比拟了对 II 型病人的预测。两个预测值四周的断线代表了基于灵便模型的相信区。

图 4

R> par(mfrow = c(1, 2))
R> plot(f1, se = 0, uniform = 1, col = 1, lty = 1
R> plot(fg, new = 0, se = 0, uniform = 0, col = 2, lty = 2,

较高的疾病阶段、较高的年龄和联结医治会导致较高的累积发病率,其影响在时间段的晚期更为显著(图 4(a)和图 2)。另一方面,化疗在时间段的最后减少了累积发病率,随后升高了发病率(图 4(a)和图 2)。图 5 显示,FG 模型不能精确地模仿时变效应。只管有这些差别,在这种状况下,总体预测有些相似,特地是当思考到预计的不确定性。然而,协变量的时变行为显然是重要的。

图 5

4. 探讨

本文实现了累积发病率曲线的灵便竞争危险回归模型,能够详细分析协变量效应如何预测累积发病率,并容许协变量的工夫变动效应。能够查看较简略的模型的拟合度,同时能够产生带有置信区间和相信带的预测后果,这对钻研人员很有用。


最受欢迎的见解

1.R 语言绘制生存曲线预计 | 生存剖析 | 如何 R 作生存曲线图

2.R 语言生存剖析可视化剖析

3.R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

4.r 语言中应用 Bioconductor 剖析芯片数据

5.R 语言生存剖析数据分析可视化案例

6.r 语言 ggplot2 误差棒图疾速指南

7.R 语言绘制性能富集泡泡图

8.R 语言如何找到患者数据中具备差别的指标?(PLS—DA 剖析)

9.R 语言中的生存剖析 Survival analysis 早期肺癌患者 4 例

正文完
 0