全文下载链接:http://tecdat.cn/?p=23564
最近咱们被客户要求撰写对于DLNM的钻研报告,包含一些图形和统计输入。
在本文中,环境应激源往往体现出工夫上的滞后效应,这就要求应用足够灵便的统计模型来形容裸露-反馈关系的工夫维度。在此,咱们开发了分布式滞后非线性模型(DLNM),这是一个能够同时代表非线性裸露-反馈依赖性和滞后效应的建模框架。这种办法是基于 "穿插基准 "的定义,这是一个双维的函数空间,它同时形容了沿预测空间和其产生的滞后维度的关系形态
通过这种形式,该办法为以前用于该环境的一系列模型提供了一个对立的框架。为了阐明这个办法,咱们用DLNMs的例子来示意温度和死亡率之间的关系,应用1987-2000年期间国家发病率、死亡率和空气污染钻研中的数据。
简介
有时特定裸露事件的影响并不局限于察看到的那段时间,而是在工夫上有所滞后。这就带来了一个问题,即对裸露事件与将来一系列后果之间的关系进行建模,指定事件产生后不同工夫的影响散布(定义的滞后期)。最终,这一步须要定义裸露-反馈关系的额定滞后维度,形容影响的工夫构造。
在评估环境应激源的短期影响时,这种状况常常产生:一些工夫序列钻研报告称,裸露在高水平的空气污染或极其温度下,会在产生后的几天内影响衰弱。此外,当一个应激源次要影响一批软弱的个体时,就会呈现这样的景象,这些个体的事件只因裸露的影响而提前了短暂的工夫。
在曾经提出的解决之后效应的各种办法中,分布式滞后模型(DLM)施展了次要作用,最近在空气污染和温度钻研中被用来量化衰弱效应。这种办法的次要长处是,它容许模型蕴含裸露-反馈关系的工夫过程的具体表述,这反过来又提供了对存在滞后奉献或播种的总体效应的预计。
尽管传统的DLMs适宜于形容线性效应的滞后构造,但在用于示意非线性关系时,它们显示出一些局限性。咱们提出了一个解决方案,进一步放宽对关系的假如,并将这种办法扩大到分布式滞后非线性模型(DLNM),这是一个模型家族,能够以灵便的形式形容沿预测器空间和其产生的滞后维度同时变动的效应。通过这种形式,DLNM类也为现有的较简略的办法提供了一个对立的框架。
DLNMs以前只在流行病学方面进行过简略的形容:本文的目标是严格地倒退这种办法,并形容在统计软件R中专门编写的软件包dlnm中的实现,提供一个应用实在数据集的利用实例。咱们简要形容了工夫序列剖析中应用的根本模型,并介绍了根底的概念,作为形容变量和因变量之间非线性关系的个别办法。咱们概述了在工夫上滞后效应的复杂性,并提供了一个简略的DLMs的个别示意。而后阐明了这种办法在温度对死亡率影响的建模中的利用。最初咱们提供了一些探讨并提出了可能的进一步倒退。
根本模型
个别的表示法
形容后果Yt的工夫序列(t=1,...,n)的个别模型表示办法为
其中,≡E(Y ),g是一个枯燥的函数,Y被假设来自属于指数族的散布。函数sj示意变量x j和线性预测器之间的平滑关系,由参数向量bj定义。变量uk包含其余预测因子,其线性效应由相关系数k指定。函数sj也能够通过基于狭义加性模型的非参数办法来指定。然而,在目前的倒退中,咱们依附的是一种齐全的参数化办法。
在环境因素的工夫序列剖析中,后果Yt通常是每日计数,假设来自所谓的适度扩散泊松散布。这些钻研利用了过来几年中统计办法的重大改良,来量化空气污染的短期影响。通常,这些办法包含一个平滑的工夫函数,以辨认随工夫迟缓变动的混淆因素的影响,体现为季节性或长期趋势。也包含温度和湿度等气象因素的非线性影响。分类变量,如一周中的几天或年龄组被作为因素进行模仿。只管空气污染通常用线性关系来形容,但为了评估非线性效应,这一假如能够放宽。
在这里,咱们关注的是一个个别的函数s,它指定了预测因子x的潜在非线性和滞后效应,通常指的是空气污染或温度,但不失一般性。
基函数
x和g()之间的关系由s(x)示意,它作为一个线性项的总和蕴含在狭义线性模型的线性预测器中。这能够通过抉择一个基数来实现,基数是一个函数空间,咱们认为s是其中的一个元素。相干的基函数包含一组齐全已知的原始变量x的变换,产生一组新的变量,称为基变量。预计关系的复杂性取决于基数的类型和它的维度。几个不同的根底函数被用来形容环境因素对衰弱的潜在非线性影响,其抉择取决于对关系形态的假如、考察的具体目标所要求的近似水平以及解释问题。在齐全参数化的办法中,次要的抉择通常依赖于形容平滑曲线的函数,如多项式或样条函数,或应用线性阈值参数化,由截断的线性函数(x-)+示意,当x>时等于(x-),否则等于0。上述简略模型的个别示意办法为
滞后效应
额定维度
在存在滞后效应的状况下,在给定工夫t的后果能够用过来的裸露xt-来解释,滞后代表裸露和反馈之间所通过的工夫。一个绝对简略的办法是对有序裸露的原始向量x进行转换,得出n×(L+1)矩阵Q,如
这一步规定了裸露-反馈关系的额定滞后维度。最终,这里提出的建模框架的目标是同时形容两个维度的依赖关系:通常的预测器空间和新的滞后维度。
散布滞后模型
当假如有线性关系时,滞后效应能够天然地用分布式滞后模型(DLM)来形容。这种办法容许将繁多裸露事件的影响散布在一个特定的时间段内,用几个参数来解释不同滞后期的奉献。这些模型已被宽泛用于评估环境因素的滞后效应。最简略的表述是无约束的DLM,通过为每个滞后期退出一个参数来指定。可怜的是,因为相邻天数的裸露之间的高度相关性以及由此产生的模型中的串联性,对特定滞后期效应的预计精度往往十分差。
为了使分布式滞后曲线的预计更加准确,能够施加一些限度条件,例如假如滞后区间内的效应不变,或者应用连续函数如多项式或样条来形容平滑曲线。一个以前L天裸露量的挪动平均数为预测因子的简略模型能够被视为DLM的一个特例:这样的模型已被宽泛用于空气污染流行病学畛域,有时也被用于量化温度的影响。这类模型以前只给过多项式 DLMs。有可能制订一个更简略和通用的DLM定义,其中沿滞后期的散布效应的形态由一个适当的根底指定。在矩阵记号中
咱们能够定义
通过构建每个滞后期的隐含线性效应b,能够帮忙解释预计的参数g,具体如下。
分布式滞后非线性模型
有欠缺的办法来形容简略滞后模型的灵便裸露-反馈关系,或者是简略线性效应的灵便DLM,但很少同时对这两个局部进行建模。曾经提出了形容非线性效应的扩大办法,通过对阈值或分段函数的每个项或对线性和二次项别离利用约束矩阵C,能够构建一个DLM。尽管如此,这些办法在形容这种简单的依赖关系的能力方面依然有些局限。通过产生一个新的模型框架,能够形容预测器空间和滞后期的非线性关系,从而实现一个有用的概括,这就是DLNM家族。
穿插基的概念
尽管DLNM的代数符号可能相当简单,波及到三维数组,但基本概念是建设在穿插基数的定义上的,是很简略的。穿插基点能够被描绘成一个双维的函数空间,同时形容沿x的关系的形态及其散布的滞后效应。抉择穿插基点相当于抉择两组基函数,它们将被组合起来产生穿插基函数。
DLNM
为了对咱们所思考的两个空间的关系形态进行建模,咱们须要同时利用形容的两个转换。首先,如(2)所述,咱们为x抉择一个根底来定义预测器空间中的依赖关系,指定Z。而后,如(3)所述,咱们为存储在Z中的x的每个派生基变量创立额定的滞后维度。该构造是对称的,即两个转换的程序能够颠倒,将基函数间接利用于矩阵Q的每一列。
解释DLNM
只管参数化很简单,但对DLNM参数的预计和推断并不比任何其余狭义线性模型产生更多的问题,而且在指定穿插基变量后,能够用一般的统计软件进行。然而,尽管(4)中较简略的DLM的解释是间接的,包含报告(6)中每个滞后的预计线性效应b,但更简单的DLNM的后果与平滑的非线性依赖关系很难总结。一个解决方案是为每个滞后期和适当的裸露值建设一个预测网格,应用三维图来提供沿两个维度变动的影响的总体状况。
预测网格,用预测成果E的m×(L+1)矩阵和相干的标准误差Esd矩阵示意,能够应用预计系数的向量g,从包含穿插基函数矩阵W的拟合模型中计算得出。
并且,给定V(g)为预计系数的方差矩阵
这个网格对于计算滞后p的裸露成果或滞后x p的裸露成果的预计很有用,只需别离取e-p和ex p-。最初,通过将不同滞后期的所有奉献相加,能够计算出总体效应的估计值。矢量etot和相干的标准误差esd tot,由每个滞后期的奉献相加失去,阐明整个滞后期的裸露成果。
利用
数据和模型抉择
咱们利用DLNMs来钻研1987-2000年期间温度对总体死亡率的影响。数据集来自国家发病率、死亡率和空气污染钻研。
它包含5114个总体和特定病因的死亡率、天气和净化数据的每日观测。
剖析基于(1)中的模型,通过准泊松族的狭义线性模型进行拟合,在管制混淆因素方面有以下抉择:每年有7个自由度(df)的工夫天然平面样条,以形容长期趋势和季节性;每周一天的指标变量;滞后0-1的露点温度平均值有3个自由度的天然平面样条;滞后0-1的臭氧和CO的平均值的线性项。
glm(death ~ ns.basis + ns(dp01,df=3) + dow + o301 + co01 +ns(date,df=14*7),family=quasipoisson(), data)
这些抉择是依据几篇对于工夫序列剖析的方法学和实质性论文。通过抉择两个基点来形容温度和滞后期空间的关系,钻研了平均温度的影响;咱们阐明了一个灵便的模型,用天然平面样条来形容每个维度的关系。结点被搁置在温度范畴内等距的数值上,以便在尾部有足够的灵活性,而在滞后期的对数尺度上等距搁置,以便在分布式滞后期曲线的第一局部有更多的灵活性,因为在那里预计会有更多的变动。最大的滞后期L被设定为30天。为了比拟,咱们用前几天温度的挪动平均数拟合了比较简单的模型。
咱们依据批改后的赤池和贝叶斯信息规范来抉择结的数量,它定义了每个维度上的df,用于通过准似然法拟合的具备适度扩散反馈的模型,具体内容如下。
所有的剖析都是用R软件进行的。
# 3-D 图 plot(ns.pred,label="Temperature")
点击题目查阅往期内容
R语言散布滞后线性和非线性模型(DLMs和DLNMs)剖析工夫序列数据
左右滑动查看更多
01
02
03
04
后果
当用于比拟不同的建模抉择时,QAIC导致了一个绝对简单的模型,预测器空间有11df,滞后维度有5df,总共有55个参数用于定义关系。相比之下,QBIC表明是一个5×5df的模型,用25df来形容总体成果。因为对DLNM框架内这些规范的体现没有任何理解,咱们抉择了后者作为咱们的最终模型。
图1提供了温度对死亡率影响的总体状况,显示了与参考值21◦C(总体最低死亡率点)相比,沿着温度和滞后的绝对危险(RR)的三维图。该图显示了热的十分强烈和间接的影响,并表明对极热的温度有更多的滞后影响。凛冽温度的最大影响大概在滞后2-3年达到。
只管3-D图是总结两个维度的总体关系的有用工具,但不能包含预计的不确定性。为了对这种关系进行更具体的评估,咱们能够绘制特定温度或滞后期的影响。图2显示了特定滞后期(0、5、15和28)的温度和特定温度(-10.8、-2.4、26.5和31.3◦C)的滞后期的RR,大概对应于温度散布的第0.1、5、95和99.9百分位数(称为中度和极其凛冽和酷热)。温度的总体影响,将剖析中思考的30天滞后期的奉献相加,包含在上面。温度-死亡率关系仿佛随着滞后期而变动,滞后期0和5的最低死亡率点不同(左上角的前两个图)。该图证实,如果与中度低温相比,极其低温的影响更为滞后,其显著危险别离继续10天和3天(右上角第三和第四张图)。尽管如此,只有极其低温表明可能存在播种效应,在滞后15天后开始。绝对于21◦C的总体预计RR是1.24(95%CI:1.13-1.36)和1.07(95%CI:1.03-1.11),对于极其和中度低温来说。凛冽的温度显示出齐全不同的模式,中度凛冽的影响继续到滞后25天(右上角的前两个图)。此外,凛冽的影响仿佛趋于平缓,中度凛冽的总体RR略高,为1.30(95%CI:1.20-1.40),而极度凛冽的RR为1.20(95%CI:1.04-1.39)(如下图)。
plot(ns.pred,"overall"
为了将这一DLNM与更简略的代替办法进行比拟,对滞后0-1和滞后0-30的挪动均匀和温度空间的雷同样条函数的模型进行了拟合。前者对低温的影响提供了相似的预计,但显示高温的影响较弱,中度凛冽的预计RR为1.06(95%CI:1.03-1.09)。这一差别可能是因为低估了,因为高温产生的影响持续时间超过2天。相同,滞后0-30的挪动均匀模型对凛冽的影响类似,但对低温的预计较低,对中度和极其低温的RR别离为1.01(95%CI:0.97-1.04)和1.06(95%CI:0.97-1.17)。思考到滞后期内的每一个先前的裸露都被假设为对每一天的影响提供了雷同的奉献,均匀31天的估计值可能会造成一些偏差,这是可信的。上述规范表明DLNM的拟合成果更好,如果与滞后0-1和0-30挪动均匀模型相比,QAIC的差别为571和517,QBIC为468和445。
曾经进行了敏感性剖析,以评估模型抉择的影响。特地是,咱们评估了与扭转用于指定穿插基函数(沿两个维度)以及季节性和长期趋势局部的df无关的预计总体成果的变动。减少温度空间的结数,产生的平滑曲线要少得多,可能是因为适度拟合,而在滞后维度上抉择不同的样条,没有显著的变动。应用更多的df来管制节令和长期趋势并不影响估计值,除了在非常低的温度下温度-死亡率曲线有不太显著的降落。
此外,对滞后和特定温度曲线的查看显示,当减少季节性管制时,在长滞后期的负面效应齐全隐没了。因为具备较长滞后期的模型的成果对季节性成分更敏感。
探讨
在本文中,咱们形容了DLNMs的类别,能够用来模仿同时显示非线性依赖和滞后效应的因素的影响。DLNM在概念上是简略的,但又足够灵便,容许有宽泛的模型,包含以前应用的简略模型和更简单的新变体。
概念上的简略性容许构建一个R包来拟合这种宽泛的模型。这种丰盛的抉择(根底类型、结的数量和地位、最大滞后)所强调的一个艰难是,能够用什么规范来抉择替代品。
在下面的例子中,咱们用信息规范来领导结点数量的抉择,但在抉择基类型和最大滞后时,咱们用的是先验论证。以前从流行病学的角度对DLNM的抉择进行了探讨,因为对什么是 "最佳 "模型没有共识,敏感性剖析特地重要,能够评估要害论断对模型抉择的依赖性。
DLMN的范畴很广,这有助于实现这一指标。回归诊断,如残差和局部自相干图,也可能有帮忙。此外,咱们曾经探讨了DLNM的抉择,假如它集中在感兴趣的变量上(在咱们的例子中是温度)。还有一个协变量的模型抉择问题,其中的一些局部也可能是DLNMs。
这个问题,有时被称为调整的不确定性。同样,在什么办法是最佳的问题上还没有造成共识,对模型抉择的这一部分的敏感性剖析也很重要。
参考文献
- Zanobetti A, Schwartz J, Samoli E, Gryparis A, Touloumi G, Atkinson R, Le Tertre A, Bobros J, Celko M, Goren A, Forsberg B, Michelozzi P, Rabczenko D, Aranguez Ruiz E, Katsouyanni K. The temporal pattern of mortality responses to air pollution: a multicity assessment of mortality displacement. Epidemiology 2002; 13(1):87--93.
- Braga AL, Zanobetti A, Schwartz J. The time course of weather-related deaths. Epidemiology 2001; 12(6):662--667.
- Schwartz J. Is there harvesting in the association of airborne particles with daily deaths and hospital admissions? Epidemiology 2001; 12(1):55--61.
本文摘选 《 R语言散布滞后非线性模型(DLNM)空气污染钻研温度对死亡率影响建模利用 》 ,点击“浏览原文”获取全文残缺材料。
点击题目查阅往期内容
R语言散布滞后线性和非线性模型(DLM和DLNM)建模
散布滞后线性和非线性模型(DLNM)剖析空气污染(臭氧)、温度对死亡率工夫序列数据的影响
R语言中的散布滞后非线性模型DLNM与发病率和空气污染示例
【视频】R语言中的散布滞后非线性模型(DLNM)与发病率,死亡率和空气污染示例
R语言散布滞后线性和非线性模型(DLNM)剖析空气污染(臭氧)、温度对死亡率工夫序列数据的影响
R语言散布滞后线性和非线性模型(DLMs和DLNMs)剖析工夫序列数据
R语言散布滞后非线性模型(DLNM)空气污染钻研温度对死亡率影响建模利用R语言散布滞后非线性模型(DLNM)钻研发病率,死亡率和空气污染示例
R语言散布滞后线性和非线性模型(DLM和DLNM)建模
R语言狭义相加模型 (GAMs)剖析预测CO2工夫序列数据
Python | ARIMA工夫序列模型预测航空公司的乘客数量
R语言中生存分析模型的工夫依赖性ROC曲线可视化
R语言ARIMA,SARIMA预测道路交通流量工夫序列剖析:季节性、周期性
ARIMA模型预测CO2浓度工夫序列-python实现
R语言基于递归神经网络RNN的温度工夫序列预测
R语言用多元ARMA,GARCH ,EWMA, ETS,随机稳定率SV模型对金融工夫序列数据建模
R语言神经网络模型预测车辆数量工夫序列
卡尔曼滤波器:用R语言中的KFAS建模工夫序列
在Python中应用LSTM和PyTorch进行工夫序列预测
R语言从经济工夫序列中用HP滤波器,小波滤波和教训模态合成等提取周期性成分剖析
应用PYTHON中KERAS的LSTM递归神经网络进行工夫序列预测
Python中的ARIMA模型、SARIMA模型和SARIMAX模型对工夫序列预测
R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类
R语言多元Copula GARCH 模型工夫序列预测