关于数据挖掘:时间序列分析移动平均MA及阶数的判定

[TOC]

定义：以后值是由 过来误差的线性组合 组成的，误差是遵从正态分布并且互相独立的。

q 阶公式：

自回归与挪动均匀建模的差别：

挪动均匀 (Moving average，MA) 是以 过来的残差项, 也就是白噪声来做线性组合；
AR 模型是以过来的察看值来做线性组合；

MA 的出发点是通过 <u> 组合残差项来察看残差的振动 </u>。MA 能无效地打消预测中的随机稳定。

当工夫序列的数值 受周期变动 和不规则变动 的影响起伏较大，不易显示出发展趋势时，可用挪动平均法，打消这些因素的影响，剖析预测序列的长期趋势。

举例：比如说，飓风对原油价格的影响，就能够建设挪动均匀模型去预测趋势。

平稳性就是要求经由样本工夫序列所失去的拟合曲线在将来的一段期间内仍能顺着现有的状态“惯性”地延续下去（放弃状态~）；
平稳性要求序列的 均值和方差不产生显著变动（稳固状态的数学定义~）；

严安稳：严安稳示意的散布不随工夫的扭转而扭转。

如：白噪声（正态），无论怎么取，都是冀望为 0，方差为 1；

弱安稳：冀望与相关系数（依赖性）不变

将来某时刻的 $t$ 的值 $Y_{t}$ 就要依赖于它的过来信息，所以须要依赖性；

均值 $E(Y_{t})= μ$ 与工夫 $t$ 无关的常数；
方差 $Var(Y_{t} )= \gamma$ 与工夫 $t$ 无关的常数；
协方差 $Cov(Y_{t},Y_{t+k} )= \gamma_{0,k}$ 只与工夫距离 $k$ 无关，与工夫 $t$ 无关的常数。
自相关系数 $ρ_{k}=\frac{Cov(y_{t}, y_{t-k})}{\sqrt{Var(y_{t-k)}Var{(y_t)}}}=\frac{Cov(y_{t}, y_{t-k})}{Var{(y_t)}}= \frac{\gamma_{k}}{\gamma_{0}} $

## 2.3 差分法

对于不安稳的工夫序列，个别会应用 差分 的办法失去想要的安稳序列，还能够应用 对数变换 、 幂变换 等办法。

下图是美国消费者信念指数序列，一阶差分和二阶差分后的序列。
如：下图中最下面的蓝色图像是原始数据，绿色图像一阶差分后的数据，红色图像是二阶差分后的数据，从差分成果来看，实现了安稳的根本需要。

有序的随机变量序列与其本身相比拟；
自相干函数反映了 同一序列在不同时序的取值之间的相关性；(两两取值的相关性)
公式：$ACF(k)=ρ_{k}=\frac{Cov(y_{t}, y_{t-1})}{Var(y_t)}$；
$ρ_{k}$ 的取值范畴为[-1,1]；

## 3.2 偏自相关系数（PACF）

对于一个安稳 $AR(p)$ 模型，求出滞后 $k$ 自相关系数 $ρ_{k}$ 时，实际上失去并不是 $x(t)$ 与 $x(t-k)$ 之间单纯的相干关系；
x(t)同时还会受到两头 $k-1$ 个随机变量 $x(t-1)、x(t-2)、……、x(t-k+1)$ 的影响，而这 $k-1$ 个随机变量又都和 $x(t-k)$ 具备相干关系，所以自相关系数 $ρ_{k}$ 里理论掺杂了其余变量对 $x(t)$ 与 $x(t-k)$ 的影响；
剔除了两头 $k-1$ 个随机变量 $x(t-1)、x(t-2)、……、x(t-k+1)$ 的烦扰之后，$x(t-k)$ 对 $x(t)$ 影响的相干水平；
$ACF$ 还蕴含了其余变量的影响，而偏自相关系数 $PACF$ 是严格这两个变量之间的相关性。

## 3.3 截尾、拖尾

截尾：指工夫序列的自相干函数（ACF）或偏自相干函数（PACF）在某阶后均为 0 的性质（比方 AR 的 PACF）；

拖尾：ACF 或 PACF 并不在某阶后均为 0 的性质（比方 AR 的 ACF）。

截尾：在大于某个常数 k 后疾速趋于 0 为 k 阶截尾；
拖尾：始终有非零取值，不会在 k 大于某个常数后就恒等于零(或在 0 左近随机稳定)。

ACF 是一个残缺的自相干函数，可提供 具备滞后值的任何序列的自相干值。简略来说，它形容了该序列的以后值与其过来的值之间的相干水平。

工夫序列能够蕴含趋势，季节性，周期性和残差等成分。ACF 在寻找相关性时会思考所有这些成分。

直观上来说，ACF 形容了一个观测值和另一个观测值之间的自相干，包含间接和间接的相关性信息。

PACF

PACF 是局部自相干函数或者偏自相干函数。基本上，它不是找到像 ACF 这样的滞后与以后的相关性，而是找到残差（在去除了之前的滞后曾经解释的影响之后依然存在）与下一个滞后值的相关性。

因而，如果残差中有任何能够由下一个滞后建模的暗藏信息，可能会取得良好的相关性，并在建模时会将下一个滞后作为特色。

留神：在建模时，个别不想保留太多互相关联的特色，会产生多重共线性问题。

先来看 MA，

MA 的阶数 q，通过 ACF 图取得，在某阶数之后，ACF 会第一次穿过下限置信区间。

依据上文晓得，PACF 可能捕获残差和工夫序列滞后项的关系，咱们可能从左近的滞后项和过来的滞后项失去很好的相干关系。

为什么不必 PACF 呢？

因为 MA 的序列是残差项的线性组合，并且工夫序列自身的滞后项不能间接解释以后项（因为它不是一个 AR 过程）。
一个 MA 过程，它没有季节性或者趋势成分，因而 ACF 可能捕获的只是因为残差项带来的相关性。

PACF 图最外围的是，它可能提取曾经被之前的滞后项所解释的变动，因而，在 MA 过程中，PACF 就“废了”，但实用于 AR 过程。

由此可得：

AR(p) 看 PACF
MA(q) 看 ACF

模型	ACF	PACF
AR(p)	拖尾，衰减趋于零	p 阶后截尾
MA(q)	q 阶后截尾	拖尾，衰减趋于零

欢送关注集体公众号：Distinct 数说

关于数据挖掘:时间序列分析移动平均MA及阶数的判定

一、挪动均匀模型(MA)

1.1 MA 定义

1.2 对 MA 的了解

二、平稳性

2.1 严安稳与宽 (弱) 安稳

2.2 弱（宽）安稳工夫序列的数学特色

三、自相关系数与偏自相关系数

3.1 自相关系数（ACF）

3.4 小结

四、AR 与 MA 的阶数确定