关于算法:R语言生存分析可视化分析

42次阅读

共计 2577 个字符,预计需要花费 7 分钟才能阅读完成。

残缺原文链接:http://tecdat.cn/?p=5438

生存剖析 指的是一系列用来探索所感兴趣的事件的产生的工夫的统计办法。

生存剖析 被用于各种畛域,例如:

癌症钻研为患者生存工夫剖析,

“事件历史剖析”的社会学

在工程的“故障工夫剖析”。

在癌症钻研中,典型的钻研问题如下:

某些临床特色对患者的生存有何影响?

集体三年存活的概率是多少?

各组患者的生存率有差别吗?

=

基本概念

在这里,咱们从定义生存剖析的根本术语开始,包含:

生存工夫和事件

生存函数和危险函数

癌症钻研中的生存工夫和事件类型

有不同类型的事件,包含:

复发

死亡

察看开始到察看终止的 \_工夫 \_通常称为 \_生存工夫 \_(或事件产生的工夫)。

癌症钻研中两个最重要的评估办法包含:i)死亡工夫; 和 ii)无 \_复发存活工夫 \_,其对应于医治反馈与疾病复发之间的工夫。它也被称为无 \_病生存工夫 \_和无 \_事件生存工夫 \_。

如上所述,生存剖析侧重于直到产生感兴趣事件(复发或死亡)的冀望持续时间。

Kaplan-Meier 生存评估

Kaplan-Meier(KM)办法是一种非参数办法,用于预计察看到的生存工夫的生存概率(Kaplan 和 Meier,1958)。

生存曲线是治理生存概率与工夫的关系曲线,它提供了一个有用的数据总结,能够用来预计诸如中位生存工夫之类的掂量指标。

R 生存剖析

生存剖析总结和可视化生存剖析后果

示例数据集

咱们将应用生存包中提供的肺癌数据。

head(lung)

  inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss
1    3  306      2  74   1       1       90       100     1175      NA
2    3  455      2  68   1       0       90        90     1225      15
3    3 1010      1  56   1       0       90        90       NA      15
4    5  210      2  57   1       1       90        60     1150      11
5    1  883      2  60   1       0      100        90       NA       0
6   12 1022      1  74   1       1       50        80      513       0

inst:机构代码

工夫:以天为单位的生存工夫

状态:状态 1 = 审查,2 = 死亡

年龄:年龄

性别:男 = 1 女 = 2

ph.ecog:ECOG 体现评分(0 = 失常 5 = 死亡)

ph.karno:Karnofsky 体现评分(差 = 0 失常 = 100)由医师评定

pat.karno:Karnofsky 体现评分由患者评估

膳食:餐时耗费的卡路里

wt.loss:过来六个月的体重降落

计算生存曲线:survfit()

咱们要按性别来计算生存概率。

函数 \_survfit\_()能够被用来计算 Kaplan-Meier 生存预计。

应用函数 \_Surv\_()创立的生存对象

要计算生存曲线,请输出以下内容:

print(fit)

       n events median 0.95LCL 0.95UCL
sex=1 138    112    270    212    310
sex=2  90    53    426    348    550

默认状况下,函数 print()显示生存曲线的摘要。它显示察看数,事件数量,中位数生存和中位数的置信区间。

如果要显示生存曲线的更残缺摘要,请输出以下内容:

# 生存曲线摘要
summary(fit)# 
summary(fit)$table

可视化生存曲线

咱们 生成两组受试者的生存曲线。

ggplot(fit,
          pval = TRUE, conf.int = TRUE,
          risk.table = TRUE, # 增加危险表
          risk.table.col = "strata", # 按组更改危险表色彩

\_legend.labs\_更改图例标签。

ggplot(
   fit,                     # 具备计算统计信息的 survfit 对象。pval = TRUE,             # 显示对数秩测验的 p 值。conf.int = TRUE,         # 显示生存曲线点估计的置信区间。conf.int.style = "step",  # 自定义置信区间款式
   xlab = "Time in days",   # 自定义 X 轴标签。break.time.by = 200,     # 以 200 的工夫距离打断 X 轴。ggtheme = theme_light(), # 应用主题自定义绘图和危险表。risk.table = "abs_pct",  # 相对数值

每组的中位生存工夫示意生存概率 S(t)为 0.5 的工夫。

应用参数 \_xlim\_能够缩短生存曲线范畴,如下所示:

请留神,能够应用参数 \_fun\_指定三个常常应用的转换:

累积危险是罕用来预计危险概率。

Kaplan-Meier 生命表:生存曲线的总结

如上所述,您能够应用函数 \_summary\_()来取得生存曲线的残缺摘要:

summary(fit)

Log-Rank 测验比拟生存曲线:survdiff()

对 \_数秩测验 \_是比拟两条或更多条生存曲线的最宽泛应用的办法。零假如是两组在生存期间没有差别。

能够应用 survdiff()如下:

 surv_diff


N Observed Expected (O-E)^2/E (O-E)^2/V
sex=1 138      112    91.6      4.55      10.3
sex=2  90      53    73.4      5.68      10.3
Chisq= 10.3  on 1 degrees of freedom, p= 0.00131

存活率差别的对数秩测验给出 p = 0.0013 的 p 值,表明性别组在存活方面差别显着。

简单的生存曲线

在本节中,咱们将应用多个因素的组合计算生存曲线。接下来,咱们将应用 ggsurvplot()输入后果

ggplot(fit,
          conf.int = TRUE,
          risk.table.col = "strata", # 按组更改危险表色彩
          ggtheme = theme_bw(), # 更改 ggplot2 主题

可视化输入。上面的图显示了性别变量依据 rx&adhere 的值的生存曲线。

概要

生存剖析是一组数据分析的统计办法,其中感兴趣的后果变量是事件产生之前的工夫。

在这篇文章中,咱们演示了如何应用两个 R 软件包来执行和可视化生存剖析)。

最受欢迎的见解

1.R 语言绘制生存曲线预计 | 生存剖析 | 如何 R 作生存曲线图

2.R 语言生存剖析可视化剖析

3.R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

4.r 语言中应用 Bioconductor 剖析芯片数据

5.R 语言生存剖析数据分析可视化案例

6.r 语言 ggplot2 误差棒图疾速指南

7.R 语言绘制性能富集泡泡图

8.R 语言如何找到患者数据中具备差别的指标?(PLS—DA 剖析)

9.R 语言中的生存剖析 Survival analysis 早期肺癌患者 4 例

正文完
 0