原文链接:http://tecdat.cn/?p=23242
简介
标准化发病率(SIR)或死亡率(SMR)是察看病例和冀望病例的比率。察看到的病例是队列中病例的相对数量。冀望病例是通过将队列中的人 - 年数与参考人口比率相乘得出的。该比率应按混淆因素进行分层或调整。通常这些因素是年龄组、性别、日历期和可能的癌症类型或其余混淆变量。也能够应用社会经济位置或地区变量。
在参考人口中,第 j 层的冀望比率是 λj=dj/nj,其中 dj 是察看到的病例,nj 是察看到的人年。当初 SIR 能够写成一个比率
标化发病比(SIR)= 理论察看发病人数 / 冀望发病人数
或 标化死亡比(SMR)= 理论察看死亡人数 / 冀望死亡人数
其中 D 是队列人群中的察看病例,E 是冀望数。单变量置信区间是基于泊松散布的准确值,P 值的公式为
建模的 SIR 是一个泊松回归模型,有对数连贯和队列人 - 年作为偏移。
在泊松模型的 SIR 中能够用似然比测验来测验 SIR 的同质性。
同样的工作流程实用于标准化的死亡率。
样条曲线
能够为工夫变量(如年龄组)拟合一个间断的样条函数。曲线的想法是平滑 SMR 估计值,并从曲线图中进行推断。这须要预约义的结点 / 节点,用于拟合样条曲线。抉择结的数量和结的地位是一个十分主观的问题,有三个选项能够将样条曲线结传递给函数。
在不同的结点设置之间进行尝试是很好的做法,以取得实在的样条曲线预计。适度拟合可能会在预计中造成假象,欠拟合可能会使模式变得平滑。
样条曲线变量应该是尽可能间断的,例如从 18 到 100 个工夫点。然而,当把工夫宰割成太窄的区间时,在冀望或人口比率值中可能会呈现随机的变动。因而,也能够为年龄或期间做两个变量:第一个是用于标准化的较宽区间,第二个是用于拼接的窄区间。
结点
有三个选项可用于为样条曲线指定结点。
- 每个样条曲线变量的结数的向量。节点数量包含边界节点,因而最小的节点数量是 2,这是一个对数线性关联。节点是利用察看到的样例的量纲主动搁置的。
- 预约义结点的向量列表。矢量的数量须要与样条曲线变量的长度相匹配。每个向量至多要有边界结点的最小值和最大值。
- NULL 将依据 AIC 主动找到最佳结点数量。节点是依据察看到的案例的数量级来搁置的。这通常是一个开始拟合过程的正当初始值。
结的数量和结的地位能够在输入中找到。
SMR
死亡率、内部队列和数据
预计一个女性直肠癌患者队列的 SMR。每个年龄段、期间和性别的死亡率都能够在数据集中找到。
SMR(status, birthdate, exitdate, entrydate , rate = 'haz', print ='fot')
其余起因的 SMR 在两个随访区间都是 1。此外,P 值表明 SMR 估计值之间没有异质性(P=0.735)。
总死亡率能够通过批改状态参数来预计。当初咱们要计算所有的死亡,即状态为 1 或 2。
smr(status = status %in% 1:2)
当初随访区间的估计值仿佛有很大的不同,P=0。绘制 SMR。
plot(se)
样条曲线
让咱们用两个不同的选项来拟合后续工夫和年龄组的样条:样条在不同的模型和同一模型中被拟合,splines。
smrspline(data, rate = 'haz',
spline )
plot(sf)
plot(st, col=4, log=TRUE)
在隶属样条曲线中,fot 是以零工夫为参考点的比率。参考点能够被扭转。这里假如每个随访工夫的年龄组状况是雷同的。从 0 到 10 年的随访,SMR 是 0.2 倍。
也能够对样条曲线进行分层。例如,咱们把死亡工夫分成两个时间段,并测试年龄组的样条是否相等。
year. <- ifelse(year < 2002, 1, 2)
对于 2002 年以前的类别,50 岁当前的 SMR 仿佛更高。另外,P 值(<0.0001)表明,2002 年之前和之后的年龄组趋势存在差别。
最受欢迎的见解
1.R 语言多元 Logistic 逻辑回归 利用案例
2. 面板平滑转移回归 (PSTR) 剖析案例实现
3.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)
4.R 语言泊松 Poisson 回归模型剖析案例
5. R 语言混合效应逻辑回归 Logistic 模型剖析肺癌
6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现
7. R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病
8.python 用线性回归预测股票价格
9. R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测