残缺原文链接:http://tecdat.cn/?p=5438
生存剖析 指的是一系列用来探索所感兴趣的事件的产生的工夫的统计办法。
生存剖析 被用于各种畛域,例如:
癌症钻研为患者生存工夫剖析,
“事件历史剖析”的社会学
在工程的“故障工夫剖析”。
在癌症钻研中,典型的钻研问题如下:
某些临床特色对患者的生存有何影响?
集体三年存活的概率是多少?
各组患者的生存率有差别吗?
=
基本概念
在这里,咱们从定义生存剖析的根本术语开始,包含:
生存工夫和事件
生存函数和危险函数
癌症钻研中的生存工夫和事件类型
有不同类型的事件,包含:
复发
死亡
察看开始到察看终止的 \_工夫 \_通常称为 \_生存工夫 \_(或事件产生的工夫)。
癌症钻研中两个最重要的评估办法包含:i)死亡工夫; 和 ii)无 \_复发存活工夫 \_,其对应于医治反馈与疾病复发之间的工夫。它也被称为无 \_病生存工夫 \_和无 \_事件生存工夫 \_。
如上所述,生存剖析侧重于直到产生感兴趣事件(复发或死亡)的冀望持续时间。
Kaplan-Meier 生存评估
Kaplan-Meier(KM)办法是一种非参数办法,用于预计察看到的生存工夫的生存概率(Kaplan 和 Meier,1958)。
生存曲线是治理生存概率与工夫的关系曲线,它提供了一个有用的数据总结,能够用来预计诸如中位生存工夫之类的掂量指标。
R 生存剖析
生存剖析总结和可视化生存剖析后果
示例数据集
咱们将应用生存包中提供的肺癌数据。
head(lung)
inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss
1 3 306 2 74 1 1 90 100 1175 NA
2 3 455 2 68 1 0 90 90 1225 15
3 3 1010 1 56 1 0 90 90 NA 15
4 5 210 2 57 1 1 90 60 1150 11
5 1 883 2 60 1 0 100 90 NA 0
6 12 1022 1 74 1 1 50 80 513 0
inst:机构代码
工夫:以天为单位的生存工夫
状态:状态 1 = 审查,2 = 死亡
年龄:年龄
性别:男 = 1 女 = 2
ph.ecog:ECOG 体现评分(0 = 失常 5 = 死亡)
ph.karno:Karnofsky 体现评分(差 = 0 失常 = 100)由医师评定
pat.karno:Karnofsky 体现评分由患者评估
膳食:餐时耗费的卡路里
wt.loss:过来六个月的体重降落
计算生存曲线:survfit()
咱们要按性别来计算生存概率。
函数 \_survfit\_()能够被用来计算 Kaplan-Meier 生存预计。
应用函数 \_Surv\_()创立的生存对象
要计算生存曲线,请输出以下内容:
print(fit)
n events median 0.95LCL 0.95UCL
sex=1 138 112 270 212 310
sex=2 90 53 426 348 550
默认状况下,函数 print()显示生存曲线的摘要。它显示察看数,事件数量,中位数生存和中位数的置信区间。
如果要显示生存曲线的更残缺摘要,请输出以下内容:
# 生存曲线摘要
summary(fit)#
summary(fit)$table
可视化生存曲线
咱们 生成两组受试者的生存曲线。
ggplot(fit,
pval = TRUE, conf.int = TRUE,
risk.table = TRUE, # 增加危险表
risk.table.col = "strata", # 按组更改危险表色彩
\_legend.labs\_更改图例标签。
ggplot(
fit, # 具备计算统计信息的 survfit 对象。pval = TRUE, # 显示对数秩测验的 p 值。conf.int = TRUE, # 显示生存曲线点估计的置信区间。conf.int.style = "step", # 自定义置信区间款式
xlab = "Time in days", # 自定义 X 轴标签。break.time.by = 200, # 以 200 的工夫距离打断 X 轴。ggtheme = theme_light(), # 应用主题自定义绘图和危险表。risk.table = "abs_pct", # 相对数值
每组的中位生存工夫示意生存概率 S(t)为 0.5 的工夫。
应用参数 \_xlim\_能够缩短生存曲线范畴,如下所示:
请留神,能够应用参数 \_fun\_指定三个常常应用的转换:
累积危险是罕用来预计危险概率。
、
Kaplan-Meier 生命表:生存曲线的总结
如上所述,您能够应用函数 \_summary\_()来取得生存曲线的残缺摘要:
summary(fit)
Log-Rank 测验比拟生存曲线:survdiff()
对 \_数秩测验 \_是比拟两条或更多条生存曲线的最宽泛应用的办法。零假如是两组在生存期间没有差别。
能够应用 survdiff()如下:
surv_diff
N Observed Expected (O-E)^2/E (O-E)^2/V
sex=1 138 112 91.6 4.55 10.3
sex=2 90 53 73.4 5.68 10.3
Chisq= 10.3 on 1 degrees of freedom, p= 0.00131
存活率差别的对数秩测验给出 p = 0.0013 的 p 值,表明性别组在存活方面差别显着。
简单的生存曲线
在本节中,咱们将应用多个因素的组合计算生存曲线。接下来,咱们将应用 ggsurvplot()输入后果
ggplot(fit,
conf.int = TRUE,
risk.table.col = "strata", # 按组更改危险表色彩
ggtheme = theme_bw(), # 更改 ggplot2 主题
可视化输入。上面的图显示了性别变量依据 rx&adhere 的值的生存曲线。
概要
生存剖析是一组数据分析的统计办法,其中感兴趣的后果变量是事件产生之前的工夫。
在这篇文章中,咱们演示了如何应用两个 R 软件包来执行和可视化生存剖析)。
-
- –
最受欢迎的见解
1.R 语言绘制生存曲线预计 | 生存剖析 | 如何 R 作生存曲线图
2.R 语言生存剖析可视化剖析
3.R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标
4.r 语言中应用 Bioconductor 剖析芯片数据
5.R 语言生存剖析数据分析可视化案例
6.r 语言 ggplot2 误差棒图疾速指南
7.R 语言绘制性能富集泡泡图
8.R 语言如何找到患者数据中具备差别的指标?(PLS—DA 剖析)
9.R 语言中的生存剖析 Survival analysis 早期肺癌患者 4 例