关于数据挖掘:视频ARIMA时间序列模型原理和R语言ARIMAX预测实现案例

全文链接：http://tecdat.cn/?p=32773

原文出处：拓端数据部落公众号

分析师：Feier Li

ARIMA是能够拟合工夫序列数据的模型，依据本身的过来值(即本身的滞后和滞后的预测误差)“解释” 给定的工夫序列，因而能够应用方程式预测将来价值。任何具备模式且不是随机白噪声的“非季节性”工夫序列都能够应用ARIMA模型进行建模。

模型辨认

模型步骤

结构arima模型须要四个步骤：

平稳性测验
模型辨认
参数估计
模型测验

平稳性测验

图测验

时序图

趋势特色

●周期特色

●以上均无

自相干图

单位根测验

若序列是安稳的，那么该序列的所有特色根都应该在单位圆内。
若序列存在特色根在单位，上或单位圆外, 则该序列是非安稳序列。

差分安稳

差分通过从以后察看值中减去先前的察看值来执行求差。

模型辨认

参数估计及模型测验

模型的显著性测验

若残差序列为非白噪声序列，则意味着残差序列还有残留的相干信息未被提取，阐明拟合模型不够无效。

参数的显著性测验

测验每一个参数是否显著非零，若不显著非零,即示意该参数所对应的自变量对因变量影响不显著，可将其剔除。

总结

利用场景:

对销售数据进行剖析，以预测将来的销售情况
能够用于预测将来的气候变化，用于钻研环境问题
可剖析行业数据，以便预测行业的将来发展趋势和倒退方向。

长处:
实现简略、计算量小
能够无效解决不平滑、不确定性较大的工夫序列数据

毛病:
模型容易受到异样值的影响
实质上只能捕获线性关系，而不能捕获非线性关系。

R语言用ARIMA模型，ARIMAX模型预测冰淇淋生产工夫序列数据

规范的ARIMA（挪动均匀自回归模型）模型容许只依据预测变量的过来值进行预测。该模型假设一个变量的将来的值线性地取决于其过来的值，以及过来（随机）影响的值。ARIMAX模型是ARIMA模型的一个扩大版本。它还包含其余独立（预测）变量。该模型也被称为向量ARIMA或动静回归模型。

ARIMAX模型相似于多变量回归模型，但容许利用回归残差中可能存在的自相干来进步预测的准确性。\
本文练习提供了一个进行ARIMAX模型预测的练习。还查看了回归系数的统计学意义。

\
这些练习应用了冰淇淋生产数据。该数据集蕴含以下变量。

美国的冰淇淋生产（人均）
每周的均匀家庭收入
冰淇淋的价格
平均温度。

观测数据的数量为30个。它们对应的是1951年3月18日至1953年7月11日这一时间段内的周围工夫。\

练习1

加载数据集，并绘制变量cons（冰淇淋生产）、temp（温度）和支出。

 ggplot(df, aes(x = X, y = income)) +
  ylab("支出") +
  xlab("工夫") +

grid.arrange(p1, p2, p3, ncol=1, nrow=3)

练习 2

对冰淇淋生产数据预计ARIMA模型。而后将该模型作为输出传给预测函数，失去将来6个期间的预测数据。

auto.arima(cons)

fcast_cons <- forecast(fit_cons, h = 6)

练习3

绘制失去的预测图。

练习4

找出拟合的ARIMA模型的均匀绝对误差（MASE）。

accuracy

练习5

为生产数据预计一个扩大的ARIMA模型，将温度变量作为一个额定的回归因子（应用auto.arima函数）。而后对将来6个期间进行预测（留神这个预测须要对冀望温度进行假如；假如将来6个期间的温度将由以下向量示意：

fcast_temp <- c(70.5, 66, 60.5, 45.5, 36, 28)）

\
绘制取得的预测图。

练习6

输入取得的预测摘要。找出温度变量的系数，它的标准误差，以及预测的MASE。将MASE与初始预测的MASE进行比拟。

summary(fca)

温度变量的系数是0.0028

该系数的标准误差为0.0007

均匀相对比例误差为0.7354048，小于初始模型的误差（0.8200619）。

练习7

查看温度变量系数的统计意义。该系数在5%的程度上是否有统计学意义？

test(fit)

练习8

预计ARIMA模型的函数能够输出更多的附加回归因子，但只能以矩阵的模式输出。创立一个有以下几列的矩阵。

温度变量的值。\
支出变量的值。\
滞后一期的支出变量的值。\
滞后两期的支出变量的值。\
输入该矩阵。\
留神：最初三列能够通过在支出变量值的向量中增加两个NA来创立，并将失去的向量作为嵌入函数的输出（维度参数等于要创立的列数）。


vars <- cbind(temp, income)
print(vars)

练习9

应用取得的矩阵来拟合三个扩大的ARIMA模型，应用以下变量作为额定的回归因子。

温度、支出。\
温度、支出的滞后期为0、1。\
温度，滞后期为0、1、2的支出。\
查看每个模型的摘要，并找到信息准则（AIC）值最低的模型。\
留神AIC不能用于比拟具备不同阶数的ARIMA模型，因为察看值的数量不同。例如，非差分模型ARIMA（p，0，q）的AIC值不能与差分模型ARIMA（p，1，q）的相应值进行比拟。

auto.arima(cons, xreg = var)
print(fit0$aic)

能够应用AIC，因为各模型的参数阶数雷同（0）。

AIC值最低的模型是第一个模型。

它的AIC等于-113.3。

练习10

应用上一练习中发现的模型对将来6个期间进行预测，并绘制预测图。预测须要一个将来6个期间的冀望温度和支出的矩阵；应用temp变量和以下冀望支出值创立矩阵：91, 91, 93, 96, 96, 96。\
找出该模型的均匀相对比例误差，并与本练习集中前两个模型的误差进行比拟。

带有两个内部回归因子的模型具备最低的均匀相对比例误差(0.528)

对于分析师

在此对Feier Li对本文所作的奉献示意诚挚感激，她实现了数据迷信与大数据技术学位，专一机器学习畛域。善于Python、SPSS。

最受欢迎的见解

1.在python中应用lstm和pytorch进行工夫序列预测

2.python中利用长短期记忆模型lstm进行工夫序列预测剖析

3.应用r语言进行工夫序列（arima，指数平滑）剖析

4.r语言多元copula-garch-模型工夫序列预测

5.r语言copulas和金融工夫序列案例

6.应用r语言随机稳定模型sv解决工夫序列中的随机稳定

7.r语言工夫序列tar阈值自回归模型

8.r语言k-shape工夫序列聚类办法对股票价格工夫序列聚类

9.python3用arima模型进行工夫序列预测

关于数据挖掘:视频ARIMA时间序列模型原理和R语言ARIMAX预测实现案例

全文链接：http://tecdat.cn/?p=32773

原文出处：拓端数据部落公众号

分析师：Feier Li

模型辨认

模型步骤

平稳性测验

图测验

单位根测验

差分安稳

模型辨认

参数估计及模型测验

模型的显著性测验

参数的显著性测验

总结

利用场景:

长处:

毛病:

R语言用ARIMA模型，ARIMAX模型预测冰淇淋生产工夫序列数据

练习1

练习 2

练习3

练习4

练习5

练习6

练习7

练习8

练习9

练习10

对于分析师

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:视频ARIMA时间序列模型原理和R语言ARIMAX预测实现案例

全文链接：http://tecdat.cn/?p=32773

原文出处：拓端数据部落公众号

分析师：Feier Li

模型辨认

模型步骤

平稳性测验

图测验

单位根测验

差分安稳

模型辨认

参数估计及模型测验

模型的显著性测验

参数的显著性测验

总结

利用场景:

长处:

毛病:

R语言用ARIMA模型，ARIMAX模型预测冰淇淋生产工夫序列数据

练习1

练习 2

练习3

练习4

练习5

练习6

练习7

练习8

练习9

练习10

对于分析师

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复