关于算法:R语言使用ARIMAX预测失业率经济时间序列数据

原文链接：http://tecdat.cn/?p=22521

==============================================================

在大数据的趋势下，咱们常常须要做预测性剖析来帮忙咱们做决定。其中一个重要的事件是依据咱们过来和当初的数据来预测将来。这种办法咱们通常被称为预测。

许多状况下都须要预测：决定是否在将来五年内再建一座发电站须要对将来的需要进行预测；安顿下周呼叫核心的工作人员须要对呼叫量进行预测；储备库存须要对库存需要进行预测。一个事件的可预测性取决于几个因素，包含。

咱们对造成这种状况的因素理解得如何。
有多少数据可用。
预测是否能影响咱们试图预测的事物。

差分整合自回归挪动均匀模型（ARIMA）(p,d,q)是自回归（AR）、挪动均匀（MA）和自回归挪动均匀（ARMA）模型的扩大版本。ARIMA 模型是利用于工夫序列问题的模型。ARIMA 将三种类型的建模过程联合到一个建模框架中。

I：差分是用 d 示意的。它通知咱们在间断的察看样本中，被差分的序列对于原始序列的变动数量。
AR：自回归用 p 示意，它通知咱们为适应安稳序列的 AR 过程所需的滞后期数。ACF 和 PACF 帮忙咱们确定 AR 过程的最佳参数集。
MA：挪动均匀阶数用 q 示意。它通知咱们要回归的序列中的误差项的数量，以便将差分的 AR 过程残差缩小为白噪声。

ARIMAX 或回归 ARIMA 是 ARIMA 模型的一个扩大。在预测中，这种办法也波及自变量。ARIMAX 模型表示输入工夫序列由以下局部组成：自回归（AR）局部，挪动均匀（MA）局部，差分整合（I）局部，以及属于外生输出（X）的局部。外生局部（X）反映了将外生输出的现值和过来值包含到 ARIMAX 模型中。

多元回归模型公式：

其中 Y 是 xi 预测变量的因变量，ε 通常被认为是一个不相干的误差项（即是白噪声）。咱们思考了诸如 Durbin-Watson 测验等测验办法来评估 ε 是否有显著的相关性。咱们将在方程中用 nt 代替 ε。误差序列被假设为遵循 ARIMA 模型。例如，如果 nt 遵循一个 ARIMA（1,1,1）模型，咱们能够写成

其中 εt 是一个白噪声序列。ARIMAX 模型有两个误差项，一个是回归模型的误差，咱们用 jt 示意，另一个是 ARIMA 模型的误差，咱们用 εt 示意。只有 ARIMA 模型的误差被认为是白噪声。

咱们将应用经济序列数据。数据是一个五个季度的经济序列，蕴含以下数字变量：季度失业率、国民生产总值、生产、政府投资和私人投资。有 161 个观测点。

季节性成分曾经从数据中去除。集中在失业率（Ut）、国民生产总值（Gt）和生产（Ct）上，首先对每个序列进行记录，而后去掉线性趋势，对数据拟合一个向量 ARMA 模型。也就是说，对 xt=(x1t,x2t,x3t)t 拟合一个向量 ARMA 模型，例如，x1t=log(Ut)-β0^-β1^t，其中 β0^ 和 β1^ 是 log(Ut)对工夫 t 的回归的最小二乘预计。对残差运行一套残缺的诊断办法。

grid.arrange(p1,p2,p3,ncol=2)

从图中能够看出，国民生产总值和生产能够作为回归应用。咱们能够用工夫、国民生产总值和生产来预测失业率。

===

summary(varma)

plot(df,aes(t,res))+line(col=colpla\[2\]) 
acf\_pacf(res\_= acf(x, plot= F)
                        , label= "ACF")
plot(df, aes(x=res)) + 
  histogram(aes(y=..density..)

咱们的残差在大多数状况下是正态分布的，ACF 图中没有显著的尖峰。Ljung-Box 测验在 5% 的程度上有 0.05297 的 p 值，所以数据是独立散布的，在任何滞后期都没有显著的自相干。这是一个现实的后果。

咱们随机生成 log(g)和 log(c)的向量，作为咱们预测模型的输出值。两个向量的长度都是 8，所以咱们的指标是预测将来 8 个季度的 log(u)值。请留神，对于多个回归因子，咱们必须将这些向量合并成一个矩阵，以便咱们进行预测工作。

forecast(m,x=logfc+logc)
plot(yfor）

通过应用 ARIMA，咱们只依据间断的工夫数据来预测将来。它疏忽了可能影响生产变动的其余因素。

要应用 ARIMAX 模型，有几个可能的长处和毛病。

应用 ARIMAX 的益处是咱们能够将回归和工夫序列局部联合在一个模型中，命名为 ARIMAX。与回归模型或 ARIMA 模型相比，这个模型能够优化咱们的误差。

一个毛病是，协变量系数很难解释。斜率的值不是 xt 减少 1 时对 Yt 的影响（就像回归中那样）。方程右侧存在因变量的滞后值，这意味着斜率 β 只能以因变量以前的值为条件进行解释，这很不直观。

最受欢迎的见解

1. 在 python 中应用 lstm 和 pytorch 进行工夫序列预测

2.python 中利用长短期记忆模型 lstm 进行工夫序列预测剖析

3. 应用 r 语言进行工夫序列（arima，指数平滑）剖析

4.r 语言多元 copula-garch- 模型工夫序列预测

5.r 语言 copulas 和金融工夫序列案例

6. 应用 r 语言随机稳定模型 sv 解决工夫序列中的随机稳定

7.r 语言工夫序列 tar 阈值自回归模型

8.r 语言 k -shape 工夫序列聚类办法对股票价格工夫序列聚类

9.python3 用 arima 模型进行工夫序列预测

关于算法:R语言使用ARIMAX预测失业率经济时间序列数据

ARIMA

对于 ARIMAX

实例探索

数据摸索

ARIMAX 模型拟合

预测

ARIMA 模型

ARIMAX 长处毛病

长处

毛病