关于算法:拓端tecdatR语言分布式滞后非线性模型DLNM空气污染研究温度对死亡率影响建模应用

7次阅读

共计 6791 个字符,预计需要花费 17 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=23564

环境应激源往往体现出工夫上的滞后效应,这就要求应用足够灵便的统计模型来形容裸露 - 反馈关系的工夫维度。在此,咱们开发了分布式滞后非线性模型(DLNM),这是一个能够同时代表非线性裸露 - 反馈依赖性和滞后效应的建模框架。这种办法是基于 “ 穿插基准 “ 的定义,这是一个双维的函数空间,它同时形容了沿预测空间和其产生的滞后维度的关系形态。

通过这种形式,该办法为以前用于该环境的一系列模型提供了一个对立的框架。为了阐明这个办法,咱们用 DLNMs 的例子来示意温度和死亡率之间的关系,应用 1987-2000 年期间国家发病率、死亡率和空气污染钻研中的数据。

简介

有时特定裸露事件的影响并不局限于察看到的那段时间,而是在工夫上有所滞后。这就带来了一个问题,即对裸露事件与将来一系列后果之间的关系进行建模,指定事件产生后不同工夫的影响散布(定义的滞后期)。最终,这一步须要定义裸露 - 反馈关系的额定滞后维度,形容影响的工夫构造。

在评估环境应激源的短期影响时,这种状况常常产生:一些工夫序列钻研报告称,裸露在高水平的空气污染或极其温度下,会在产生后的几天内影响衰弱。此外,当一个应激源次要影响一批软弱的个体时,就会呈现这样的景象,这些个体的事件只因裸露的影响而提前了短暂的工夫。

在曾经提出的解决之后效应的各种办法中,分布式滞后模型(DLM)施展了次要作用,最近在空气污染和温度钻研中被用来量化衰弱效应。这种办法的次要长处是,它容许模型蕴含裸露 - 反馈关系的工夫过程的具体表述,这反过来又提供了对存在滞后奉献或播种的总体效应的预计。

尽管传统的 DLMs 适宜于形容线性效应的滞后构造,但在用于示意非线性关系时,它们显示出一些局限性。咱们提出了一个解决方案,进一步放宽对关系的假如,并将这种办法扩大到分布式滞后非线性模型(DLNM),这是一个模型家族,能够以灵便的形式形容沿预测器空间和其产生的滞后维度同时变动的效应。通过这种形式,DLNM 类也为现有的较简略的办法提供了一个对立的框架。

DLNMs 以前只在流行病学方面进行过简略的形容:本文的目标是严格地倒退这种办法,并形容在统计软件 R 中专门编写的软件包 dlnm 中的实现,提供一个应用实在数据集的利用实例。咱们简要形容了工夫序列剖析中应用的根本模型,并介绍了根底的概念,作为形容变量和因变量之间非线性关系的个别办法。咱们概述了在工夫上滞后效应的复杂性,并提供了一个简略的 DLMs 的个别示意。而后阐明了这种办法在温度对死亡率影响的建模中的利用。最初咱们提供了一些探讨并提出了可能的进一步倒退。

根本模型

个别的表示法

形容后果 Yt 的工夫序列(t=1,…,n)的个别模型表示办法为

其中,≡E(Y),g 是一个枯燥的函数,Y 被假设来自属于指数族的散布。函数 sj 示意变量 x j 和线性预测器之间的平滑关系,由参数向量 bj 定义。变量 uk 包含其余预测因子,其线性效应由相关系数 k 指定。函数 sj 也能够通过基于狭义加性模型的非参数办法来指定。然而,在目前的倒退中,咱们依附的是一种齐全的参数化办法。

在环境因素的工夫序列剖析中,后果 Yt 通常是每日计数,假设来自所谓的适度扩散泊松散布。这些钻研利用了过来几年中统计办法的重大改良,来量化空气污染的短期影响。通常,这些办法包含一个平滑的工夫函数,以辨认随工夫迟缓变动的混淆因素的影响,体现为季节性或长期趋势。也包含温度和湿度等气象因素的非线性影响。分类变量,如一周中的几天或年龄组被作为因素进行模仿。只管空气污染通常用线性关系来形容,但为了评估非线性效应,这一假如能够放宽。

在这里,咱们关注的是一个个别的函数 s,它指定了预测因子 x 的潜在非线性和滞后效应,通常指的是空气污染或温度,但不失一般性。

基函数

x 和 g()之间的关系由 s(x)示意,它作为一个线性项的总和蕴含在狭义线性模型的线性预测器中。这能够通过抉择一个基数来实现,基数是一个函数空间,咱们认为 s 是其中的一个元素。相干的基函数包含一组齐全已知的原始变量 x 的变换,产生一组新的变量,称为基变量。预计关系的复杂性取决于基数的类型和它的维度。几个不同的根底函数被用来形容环境因素对衰弱的潜在非线性影响,其抉择取决于对关系形态的假如、考察的具体目标所要求的近似水平以及解释问题。在齐全参数化的办法中,次要的抉择通常依赖于形容平滑曲线的函数,如多项式或样条函数,或应用线性阈值参数化,由截断的线性函数(x-)+ 示意,当 x > 时等于(x-),否则等于 0。上述简略模型的个别示意办法为

滞后效应

额定维度

在存在滞后效应的状况下,在给定工夫 t 的后果能够用过来的裸露 xt- 来解释,滞后代表裸露和反馈之间所通过的工夫。一个绝对简略的办法是对有序裸露的原始向量 x 进行转换,得出 n×(L+1)矩阵 Q,如

这一步规定了裸露 - 反馈关系的额定滞后维度。最终,这里提出的建模框架的目标是同时形容两个维度的依赖关系:通常的预测器空间和新的滞后维度。

散布滞后模型

当假如有线性关系时,滞后效应能够天然地用分布式滞后模型(DLM)来形容。这种办法容许将繁多裸露事件的影响散布在一个特定的时间段内,用几个参数来解释不同滞后期的奉献。这些模型已被宽泛用于评估环境因素的滞后效应。最简略的表述是无约束的 DLM,通过为每个滞后期退出一个参数来指定。可怜的是,因为相邻天数的裸露之间的高度相关性以及由此产生的模型中的串联性,对特定滞后期效应的预计精度往往十分差。

为了使分布式滞后曲线的预计更加准确,能够施加一些限度条件,例如假如滞后区间内的效应不变,或者应用连续函数如多项式或样条来形容平滑曲线。一个以前 L 天裸露量的挪动平均数为预测因子的简略模型能够被视为 DLM 的一个特例:这样的模型已被宽泛用于空气污染流行病学畛域,有时也被用于量化温度的影响。这类模型以前只给过多项式 DLMs。有可能制订一个更简略和通用的 DLM 定义,其中沿滞后期的散布效应的形态由一个适当的根底指定。在矩阵记号中

咱们能够定义

通过构建每个滞后期的隐含线性效应 b,能够帮忙解释预计的参数 gˆ,具体如下。

分布式滞后非线性模型 

有欠缺的办法来形容简略滞后模型的灵便裸露 - 反馈关系,或者是简略线性效应的灵便 DLM,但很少同时对这两个局部进行建模。曾经提出了形容非线性效应的扩大办法,通过对阈值或分段函数的每个项或对线性和二次项别离利用约束矩阵 C,能够构建一个 DLM。尽管如此,这些办法在形容这种简单的依赖关系的能力方面依然有些局限。通过产生一个新的模型框架,能够形容预测器空间和滞后期的非线性关系,从而实现一个有用的概括,这就是 DLNM 家族。

穿插基的概念

尽管 DLNM 的代数符号可能相当简单,波及到三维数组,但基本概念是建设在穿插基数的定义上的,是很简略的。穿插基点能够被描绘成一个双维的函数空间,同时形容沿 x 的关系的形态及其散布的滞后效应。抉择穿插基点相当于抉择两组基函数,它们将被组合起来产生穿插基函数。

DLNM

为了对咱们所思考的两个空间的关系形态进行建模,咱们须要同时利用形容的两个转换。首先,如 (2) 所述,咱们为 x 抉择一个根底来定义预测器空间中的依赖关系,指定 Z。而后,如 (3) 所述,咱们为存储在 Z 中的 x 的每个派生基变量创立额定的滞后维度。该构造是对称的,即两个转换的程序能够颠倒,将基函数间接利用于矩阵 Q 的每一列。

解释 DLNM

只管参数化很简单,但对 DLNM 参数的预计和推断并不比任何其余狭义线性模型产生更多的问题,而且在指定穿插基变量后,能够用一般的统计软件进行。然而,尽管 (4) 中较简略的 DLM 的解释是间接的,包含报告 (6) 中每个滞后的预计线性效应 bˆ,但更简单的 DLNM 的后果与平滑的非线性依赖关系很难总结。一个解决方案是为每个滞后期和适当的裸露值建设一个预测网格,应用三维图来提供沿两个维度变动的影响的总体状况。

预测网格,用预测成果 E 的 m×(L+1)矩阵和相干的标准误差 Esd 矩阵示意,能够应用预计系数的向量 gˆ,从包含穿插基函数矩阵 W 的拟合模型中计算得出。

并且,给定 V(gˆ)为预计系数的方差矩阵

这个网格对于计算滞后 p 的裸露成果或滞后 x p 的裸露成果的预计很有用,只需别离取 e - p 和 ex p-。最初,通过将不同滞后期的所有奉献相加,能够计算出总体效应的估计值。矢量 etot 和相干的标准误差 esd tot,由每个滞后期的奉献相加失去,阐明整个滞后期的裸露成果。

利用

数据和模型抉择

咱们利用 DLNMs 来钻研 1987-2000 年期间温度对总体死亡率的影响。数据集来自国家发病率、死亡率和空气污染钻研。

它包含 5114 个总体和特定病因的死亡率、天气和净化数据的每日观测。

剖析基于(1)中的模型,通过准泊松族的狭义线性模型进行拟合,在管制混淆因素方面有以下抉择:每年有 7 个自由度(df)的工夫天然平面样条,以形容长期趋势和季节性;每周一天的指标变量;滞后 0 - 1 的露点温度平均值有 3 个自由度的天然平面样条;滞后 0 - 1 的臭氧和 CO 的平均值的线性项。

glm(death ~ ns.basis + ns(dp01,df=3) + dow + o301 + co01 +
ns(date,df=14*7),family=quasipoisson(), data)

这些抉择是依据几篇对于工夫序列剖析的方法学和实质性论文。通过抉择两个基点来形容温度和滞后期空间的关系,钻研了平均温度的影响;咱们阐明了一个灵便的模型,用天然平面样条来形容每个维度的关系。结点被搁置在温度范畴内等距的数值上,以便在尾部有足够的灵活性,而在滞后期的对数尺度上等距搁置,以便在分布式滞后期曲线的第一局部有更多的灵活性,因为在那里预计会有更多的变动。最大的滞后期 L 被设定为 30 天。为了比拟,咱们用前几天温度的挪动平均数拟合了比较简单的模型。

咱们依据批改后的赤池和贝叶斯信息规范来抉择结的数量,它定义了每个维度上的 df,用于通过准似然法拟合的具备适度扩散反馈的模型,具体内容如下。

所有的剖析都是用 R 软件进行的。

# 3-D 图 
plot(ns.pred,label="Temperature")

后果

当用于比拟不同的建模抉择时,QAIC 导致了一个绝对简单的模型,预测器空间有 11df,滞后维度有 5df,总共有 55 个参数用于定义关系。相比之下,QBIC 表明是一个 5×5df 的模型,用 25df 来形容总体成果。因为对 DLNM 框架内这些规范的体现没有任何理解,咱们抉择了后者作为咱们的最终模型。

图 1 提供了温度对死亡率影响的总体状况,显示了与参考值 21◦C(总体最低死亡率点)相比,沿着温度和滞后的绝对危险(RR)的三维图。该图显示了热的十分强烈和间接的影响,并表明对极热的温度有更多的滞后影响。凛冽温度的最大影响大概在滞后 2 - 3 年达到。

只管 3 - D 图是总结两个维度的总体关系的有用工具,但不能包含预计的不确定性。为了对这种关系进行更具体的评估,咱们能够绘制特定温度或滞后期的影响。图 2 显示了特定滞后期(0、5、15 和 28)的温度和特定温度(-10.8、-2.4、26.5 和 31.3◦C)的滞后期的 RR,大概对应于温度散布的第 0.1、5、95 和 99.9 百分位数(称为中度和极其凛冽和酷热)。温度的总体影响,将剖析中思考的 30 天滞后期的奉献相加,包含在上面。温度 - 死亡率关系仿佛随着滞后期而变动,滞后期 0 和 5 的最低死亡率点不同(左上角的前两个图)。该图证实,如果与中度低温相比,极其低温的影响更为滞后,其显著危险别离继续 10 天和 3 天(右上角第三和第四张图)。尽管如此,只有极其低温表明可能存在播种效应,在滞后 15 天后开始。绝对于 21◦C 的总体预计 RR 是 1.24(95%CI:1.13-1.36)和 1.07(95%CI:1.03-1.11),对于极其和中度低温来说。凛冽的温度显示出齐全不同的模式,中度凛冽的影响继续到滞后 25 天(右上角的前两个图)。此外,凛冽的影响仿佛趋于平缓,中度凛冽的总体 RR 略高,为 1.30(95%CI:1.20-1.40),而极度凛冽的 RR 为 1.20(95%CI:1.04-1.39)(如下图)。

plot(ns.pred,"overall"

为了将这一 DLNM 与更简略的代替办法进行比拟,对滞后 0 - 1 和滞后 0 -30 的挪动均匀和温度空间的雷同样条函数的模型进行了拟合。前者对低温的影响提供了相似的预计,但显示高温的影响较弱,中度凛冽的预计 RR 为 1.06(95%CI:1.03-1.09)。这一差别可能是因为低估了,因为高温产生的影响持续时间超过 2 天。相同,滞后 0 -30 的挪动均匀模型对凛冽的影响类似,但对低温的预计较低,对中度和极其低温的 RR 别离为 1.01(95%CI:0.97-1.04)和 1.06(95%CI:0.97-1.17)。思考到滞后期内的每一个先前的裸露都被假设为对每一天的影响提供了雷同的奉献,均匀 31 天的估计值可能会造成一些偏差,这是可信的。上述规范表明 DLNM 的拟合成果更好,如果与滞后 0 - 1 和 0 -30 挪动均匀模型相比,QAIC 的差别为 571 和 517,QBIC 为 468 和 445。

曾经进行了敏感性剖析,以评估模型抉择的影响。特地是,咱们评估了与扭转用于指定穿插基函数(沿两个维度)以及季节性和长期趋势局部的 df 无关的预计总体成果的变动。减少温度空间的结数,产生的平滑曲线要少得多,可能是因为适度拟合,而在滞后维度上抉择不同的样条,没有显著的变动。应用更多的 df 来管制节令和长期趋势并不影响估计值,除了在非常低的温度下温度 - 死亡率曲线有不太显著的降落。

此外,对滞后和特定温度曲线的查看显示,当减少季节性管制时,在长滞后期的负面效应齐全隐没了。因为具备较长滞后期的模型的成果对季节性成分更敏感。

探讨

在本文中,咱们形容了 DLNMs 的类别,能够用来模仿同时显示非线性依赖和滞后效应的因素的影响。DLNM 在概念上是简略的,但又足够灵便,容许有宽泛的模型,包含以前应用的简略模型和更简单的新变体。

概念上的简略性容许构建一个 R 包来拟合这种宽泛的模型。这种丰盛的抉择(根底类型、结的数量和地位、最大滞后)所强调的一个艰难是,能够用什么规范来抉择替代品。

在下面的例子中,咱们用信息规范来领导结点数量的抉择,但在抉择基类型和最大滞后时,咱们用的是先验论证。以前从流行病学的角度对 DLNM 的抉择进行了探讨,因为对什么是 “ 最佳 “ 模型没有共识,敏感性剖析特地重要,能够评估要害论断对模型抉择的依赖性。

DLMN 的范畴很广,这有助于实现这一指标。回归诊断,如残差和局部自相干图,也可能有帮忙。此外,咱们曾经探讨了 DLNM 的抉择,假如它集中在感兴趣的变量上(在咱们的例子中是温度)。还有一个协变量的模型抉择问题,其中的一些局部也可能是 DLNMs。

这个问题,有时被称为调整的不确定性。同样,在什么办法是最佳的问题上还没有造成共识,对模型抉择的这一部分的敏感性剖析也很重要。

参考文献

1. Zanobetti A, Schwartz J, Samoli E, Gryparis A, Touloumi G, Atkinson R, Le Tertre A, Bobros J, Celko M, Goren A, Forsberg B, Michelozzi P, Rabczenko D, Aranguez Ruiz E, Katsouyanni K. The temporal pattern of mortality responses to air pollution: a multicity assessment of mortality displacement. Epidemiology 2002; 13(1):87–93.

2. Braga AL, Zanobetti A, Schwartz J. The time course of weather-related deaths. Epidemiology 2001; 12(6):662–667.

3. Schwartz J. Is there harvesting in the association of airborne particles with daily deaths and hospital admissions? Epidemiology 2001; 12(1):55–61.


最受欢迎的见解

1. 在 python 中应用 lstm 和 pytorch 进行工夫序列预测

2.python 中利用长短期记忆模型 lstm 进行工夫序列预测剖析

3. 应用 r 语言进行工夫序列(arima,指数平滑)剖析

4.r 语言多元 copula-garch- 模型工夫序列预测

5.r 语言 copulas 和金融工夫序列案例

6. 应用 r 语言随机稳定模型 sv 解决工夫序列中的随机稳定

7.r 语言工夫序列 tar 阈值自回归模型

8.r 语言 k -shape 工夫序列聚类办法对股票价格工夫序列聚类

9.python3 用 arima 模型进行工夫序列预测

正文完
 0