关于数据挖掘:R语言时变向量自回归TVVAR模型分析时间序列和可视化附代码数据

全文链接：http://tecdat.cn/?p=22350

最近咱们被客户要求撰写对于时变向量自回归（TV-VAR）模型的钻研报告，包含一些图形和统计输入。

在心理学钻研中，集体主体的模型正变得越来越风行。起因之一是很难从人之间的数据推断出集体过程

另一个起因是，因为挪动设施无处不在，从集体取得的工夫序列变得越来越多。所谓的集体模型建模的次要指标是开掘潜在的外部心理现象变动。思考到这一指标，许多钻研人员曾经着手剖析集体工夫序列中的多变量依赖关系。对于这种依赖关系，最简略和最风行的模型是一阶向量自回归（VAR）模型，其中以后工夫点的每个变量都是由前一个工夫点的所有变量（包含其自身）预测的（线性函数）。

规范VAR模型的一个要害假如是其参数不随工夫变动。然而，人们往往对这种随工夫的变动感兴趣。例如，人们可能对参数的变动与其余变量的关系感兴趣，例如一个人的环境变动。可能是一份新的工作，节令，或寰球大流行病的影响。在探索性设计中，人们能够钻研某些干涉措施（如药物医治或医治）对症状之间的相互作用有哪些影响。

在这篇博文中，我十分简要地介绍了如何用核平滑法预计时变VAR模型。这种办法是基于参数能够随工夫平滑变动的假如，这意味着参数不能从一个值 “跳 “到另一个值。而后，我重点介绍如何预计和剖析这种类型的时变VAR模型。

通过核平滑预计时变模型

核平滑法的核心思想如下。咱们在整个工夫序列的持续时间内抉择距离相等的工夫点，而后在每个工夫点估计 “部分 “模型。所有的部分模型加在一起就形成了时变模型。对于 “部分 “模型，咱们的意思是，这些模型次要是基于靠近钻研工夫点的工夫点。这是通过在参数估计过程中对观测值进行相应的加权来实现的。这个想法在下图中对一个数据集进行了阐明。

这里咱们只阐明在t=3时对部分模型的预计。咱们在右边的面板上看到这个工夫序列的10个工夫点。红色的一列w\_t\_e=3示意咱们在t=3时预计部分模型可能应用的一组权重：靠近t=3的工夫点的数据失去最高的权重，而更远的工夫点失去越来越小的权重。定义这些权重的函数显示在右图中。左图中的蓝色柱子和左边相应的蓝色函数示意另一种可能的加权。应用这种加权，咱们联合了更少的工夫上靠近的观测值。这使咱们可能在参数中检测到更多的 “工夫可变性”，因为咱们对更少的工夫点进行了平滑解决。然而，另一方面，咱们应用的数据较少，这使得咱们的估计值不太牢靠。因而，抉择一个加权函数，在对 “时变性 “的敏感性和稳固的预计之间获得良好的均衡是很重要的。在这里介绍的办法中，咱们应用了一个高斯加权函数（也称为核），它是由其标准差（或带宽）定义的。咱们将在上面探讨如何抉择一个好的带宽参数。

点击题目查阅往期内容

R语言预计时变VAR模型工夫序列的实证钻研剖析案例

左右滑动查看更多

加载和检查数据

为了阐明预计时变VAR模型，我应用了12个情绪相干变量的ESM工夫序列，这些变量每天最多测量10次，间断测量238天。这些问题是 “我感到放松”、”我感到丧气”、”我感到焦躁”、”我感到称心”、”我感到孤单”、”我感到焦虑”、”我感到激情”、”我感到狐疑”、”我感到高兴”、”我感到内疚”、”我感到当机立断”、”我感到刚强”。每个问题都用7分的李克特量表答复，范畴从 “不 “到 “十分”。

咱们看到数据集有1476个察看样本：

## [1] 1476   12

head(data)

time_data蕴含每个测量的工夫信息。咱们将利用测量产生的日期、测量提醒和工夫戳（time）。

抉择最佳带宽

抉择好的带宽参数的办法之一是在训练数据集上用不同的候选带宽参数拟合时变模型，并在测试数据集上评估它们的预测误差。此外，数据驱动的带宽抉择可能须要相当长的工夫来运行。因而，在本文中，咱们只是将带宽固定为曾经抉择的最佳值。

bandwidth <- .26

预计时变var模型

咱们当初能够指定工夫变动的VAR模型的预计。咱们提供数据作为输出，并通过type和level参数指定变量的类型以及它们有多少个类别。在咱们的例子中，所有的变量都是间断的，因而咱们设置type = rep(“g”)示意间断高斯。咱们抉择用lambdaSel = “CV “的穿插验证法来抉择正则化参数，并且咱们指定VAR模型应该包含一个滞后期=1的单滞后期。参数bee和day提供了每个测量的日期和某一天的告诉数量。此外，咱们还提供了所有测量的工夫戳，工夫点=time，来阐明缺失的测量。然而，请留神，咱们依然假如滞后期大小为1。工夫戳只是用来确保加权的确给那些最靠近以后预计点的工夫点最高的权重。

对于时变模型，咱们须要指定两个额定的参数。首先，用 seq(0, 1, length = 20)咱们指定咱们想在整个工夫序列的持续时间内预计20个部分模型（被归一化为[0,1]）。预计点的数量能够任意抉择，但在某些时候，减少更多的预计点意味着减少了不必要的计算成本，因为后续的部分模型基本上是雷同的。最初，咱们用带宽参数指定带宽。

# 残缺数据集的估算模型
tvvar(data,
                    type = rep("g"),
                    lambdaSel = "CV",
                    lags = 1,
                    estpoints = seq(0, 1, length = 20), 
                    bandwidth = bandwidth,

咱们能够输入对象

# 查看应用了多少数据
obj

其中提供了模型的摘要，也显示了VAR设计矩阵中的行数（876）与数据集中的工夫点数量（1476）。前者的数量较少，因为只有在给定的工夫点也有滞后1年的工夫点时，能力预计VAR（1）模型。

计算时变预测误差

与规范VAR模型相似，咱们能够计算预测误差。从模型对象中提供新数据和变量能够计算新样本的预测误差。

参数errorCon = c(“R2”, “RMSE”)指定解释方差的比例（R^2）和均方根误差（RMSE）作为预测误差。最初一个参数Method指定了如何计算工夫变动的预测误差。选项Method = “closestModel “应用最靠近的部分模型对一个工夫点进行预测。这里抉择的选项tvMethod = “weighted”，提供了所有部分模型预测的加权平均值，应用以以后工夫点的地位为核心的加权函数进行加权。通常状况下，这两种办法失去的后果十分类似。

pred_obj <- predict(object = obj, 
                    data = data, 
                    errorCon = c("R2", "RMSE"),
                    Method = "weighted")

次要的输入是以下两个对象。
tverrors是一个列表，包含每个预计点部分模型的预计误差；errors蕴含整个预计点的平均误差。

将模型的局部内容可视化

在这里，咱们抉择了两种不同的可视化形式。首先，咱们来查看预计点1、10和20的VAR交互参数。

for(tp in c(1,10,20))igraph(wadj[, , 1,tp  ], 
                             layout = "circle",
                             paste0("预计点 = "))

咱们看到，VAR 模型中的一些参数随工夫变化很大。例如，”放松 “的自相干效应仿佛随着工夫的推移而缩小，”强烈 “对 “称心 “的正效应只呈现在预计点20，”称心 “对 “有罪 “的负效应也只呈现在预计点20。

咱们能够通过绘制这些单个参数与工夫的函数来放大它们。

# 画图
title(xlab = "预计点", cex.lab = 1.2)
title(ylab = "参数估计", cex.lab = 1.2)

for(i in 1:nrow(display)) {
  lines(1:20, ests[par_row[1], ], lty = i) 


legend<- c(expression("轻松"["t-1"]  %->%  "轻松"["t"]),
                   expression("强烈"["t-1"]  %->%  "称心"["t"]),
                   expression("称心"["t-1"]  %->%  "羞愧"["t"]))

咱们看到，在工夫序列的开始阶段，”放松 “对其自身的影响是比拟强的，但随后会向零降落，并在预计点13左右放弃零。“强烈”对“称心”对下一个工夫点的穿插滞后效应在预计点9之前等于零，但随后仿佛枯燥地减少。最初，”称心 “对 “羞愧 “的穿插滞后效应也等于零，直到预计点13左近，而后枯燥地缩小了。

预计的稳定性

与规范模型相似，能够应用bootstrap采样散布来评估时变参数的稳定性。

是否有工夫变动？

在某些状况下，可能须要决定一个VAR模型的参数是否具备牢靠的时变性。为了做出这样的决定，咱们能够应用一个假设检验，其原假如是模型不具备时变性。上面是进行这种假设检验的一种办法。首先对数据进行规范的VAR模型的拟合，而后重复模仿这个预计模型的数据。对于每个模仿的工夫序列数据集，咱们计算出时变模型的汇合预测误差。这些预测误差的散布可作为原假如下预测误差的抽样散布。当初咱们能够计算时变VAR模型在教训数据上的汇合预计误差，并将其作为一个测试统计量。

总结

在本文中，我展现了如何用核平滑法预计一个时变VAR模型，该办法是基于所有参数是工夫的平滑函数的假如。除了预计模型外，咱们还探讨了抉择适当的带宽参数，如何计算（时变的）预测误差，以及如何将模型的不同方面可视化。最初，介绍了如何通过bootstrap法评估估计值的稳定性，以及如何进行假设检验，人们能够用它来抉择规范的和时变的VAR模型。

点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R语言时变向量自回归（TV-VAR）模型剖析工夫序列和可视化》。

点击题目查阅往期内容

R语言arima，向量自回归（VAR），周期自回归(PAR)模型剖析温度工夫序列
Eviews用向量自回归模型VAR实证剖析公路交通通车里程与经济倒退GDP协整关系工夫序列数据和脉冲响应可视化
R语言实现向量自回归VAR模型
R语言随机搜寻变量抉择SSVS预计贝叶斯向量自回归（BVAR）模型
向量自回归（VAR）模型剖析消费者价格指数 (CPI) 和失业率工夫序列
Matlab创立向量自回归（VAR）模型剖析消费者价格指数 (CPI) 和失业率工夫序列
Stata狭义矩量法GMM面板向量自回归 VAR模型抉择、预计、Granger因果测验剖析投资、支出和生产数据R语言时变向量自回归（TV-VAR）模型剖析工夫序列和可视化
R语言用向量自回归（VAR）进行经济数据脉冲响应钻研剖析
R语言arima，向量自回归（VAR），周期自回归(PAR)模型剖析温度工夫序列
R语言VAR模型的不同类型的脉冲响应剖析
R语言随机搜寻变量抉择SSVS预计贝叶斯向量自回归（BVAR）模型
R语言时变参数VAR随机模型
R语言预计时变VAR模型工夫序列的实证钻研剖析案例
R语言向量自回归模型(VAR)及其实现
R语言实现向量自回归VAR模型
R语言预计时变VAR模型工夫序列的实证钻研剖析案例
Python和R用EWMA，ARIMA模型预测工夫序列
R语言用LASSO，adaptive LASSO预测通货膨胀工夫序列
Python中的ARIMA模型、SARIMA模型和SARIMAX模型对工夫序列预测
R语言arima，向量自回归（VAR），周期自回归(PAR)模型剖析温度工夫序列
【视频】Python和R语言应用指数加权均匀(EWMA)，ARIMA自回归挪动均匀模型预测工夫序列

关于数据挖掘:R语言时变向量自回归TVVAR模型分析时间序列和可视化附代码数据

全文链接：http://tecdat.cn/?p=22350

通过核平滑预计时变模型

加载和检查数据

抉择最佳带宽

预计时变var模型

计算时变预测误差

将模型的局部内容可视化

预计的稳定性

是否有工夫变动？

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:R语言时变向量自回归TVVAR模型分析时间序列和可视化附代码数据

全文链接：http://tecdat.cn/?p=22350

通过核平滑预计时变模型

加载和检查数据

抉择最佳带宽

预计时变var模型

计算时变预测误差

将模型的局部内容可视化

预计的稳定性

是否有工夫变动？

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复