关于数据挖掘:R语言用ARIMA模型滑动时间窗口识别网络流量时间序列异常值

11次阅读

共计 1784 个字符,预计需要花费 5 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=30597

原文出处:拓端数据部落公众号

最近咱们被要求解决工夫序列异样测验的问题。有客户在应用大量的工夫序列。这些工夫序列基本上是每 10 分钟进行一次的网络测量,其中一些是周期性的(即带宽),而另一些则不是(即路由流量)。

他想要一个简略的算法来进行在线“异样值检测”。基本上,想将每个工夫序列的整个历史数据保留在内存(或磁盘上),并且想检测实时场景中的任何异样值(每次捕捉新样本时)。实现这些后果的最佳办法是什么?

目前正在应用挪动平均线来打消一些乐音,但接下来呢?简略的事件,如标准差,… 针对整个数据集成果不佳(不能假如工夫序列是安稳的),想要更“精确”的货色,现实状况下是黑匣子。咱们提出一些计划,例如:

将查找时间序列异样值(并选择性地在图中显示它们)。它将解决季节性和非季节性工夫序列。根本思维是找到趋势和季节性成分的牢靠预计并减去它们。而后找出残差中的异样值。残差异样值的测验与标准箱线图的测验雷同 – 大于或低于高低四分位数的点大于 1.5IQR 是假设的异样值。高于 / 低于这些阈值的 IQR 数量作为异样值“分数”返回。因而,分数能够是任何负数,对于非异样值,分数将为零。

异样值检测取决于数据的性质以及您违心对它们做出的假如。 通用办法依赖于牢靠的统计信息。这种办法的精力是以不受任何异样值影响的形式表征大部分数据,而后指出不合乎该特色的任何单个值。

因为这是一个工夫序列,因而减少了须要继续(从新)检测异样值的复杂性。如果要在系列开展时执行此操作,那么咱们只能应用旧数据进行检测,而不能应用将来的数据。此外,为了避免许多反复测试,咱们应用一种误报率非常低的办法。

这些注意事项倡议对数据运行简略、牢靠的挪动窗口异样值测试 。有很多可能性,但一种简略、易于了解和易于实现的是基于运行 ARIMA:与中位数的中位数相对偏差。这是数据中变异的强持重度量,相似于标准差。离群将比中位数大几个 ARIMA 或更多。

读取数据



data1=read.table("失常数据.txt")

data2=read.table("异样数据.txt")

data3=read.table("异样数据第二组.txt")

#查看数据

head(data1)

head(data2)

head(data3)

绘制工夫序列图

plot.ts(data1)

长期变动的离群值

在辨认异样值和倡议一个适合的 ARIMA 模型方面做得很好。见上面利用 auto.arima。

拟合 arima 模型,得出最优参数

fit=auto.arima(data1,trace=T)

Fit

得出最优的 arima 模型 p =1 q=1

将数据转换成 time series 格局

应用函数检测异样点 参数对比下面 autorima 得出的参数 p =1 q=1

to(tsmethod = "auto.arima"

                  ,argethod=list(stepwise=FALSE))
                  #设置环境参数 工夫窗口和异样点范畴阈值

window <- 30

threshold <- 3


#求出中位数几倍范畴之外的样本点作为异样点

ut <- function(x) {m = median(x);

 median(x) + threshold * median(abs(x - m))

}

#挪动工夫窗口查看工夫序列中的符合条件的工夫点

 

z <- rollaly(zoo(data2))



找出 data2 中符合条件的工夫点作为异样序列


最受欢迎的见解

1. 在 python 中应用 lstm 和 pytorch 进行工夫序列预测

2.python 中利用长短期记忆模型 lstm 进行工夫序列预测剖析

3.Python 用 RNN 循环神经网络:LSTM 长期记忆、GRU 门循环单元、回归和 ARIMA 对 COVID-19 新冠疫情新增人数工夫序列

4.Python TensorFlow 循环神经网络 RNN-LSTM 神经网络预测股票市场价格工夫序列和 MSE 评估准确性

5.r 语言 copulas 和金融工夫序列案例

6.R 语言用 RNN 循环神经网络、LSTM 长短期记忆网络实现工夫序列长期利率预测

7.Matlab 创立向量自回归(VAR)模型剖析消费者价格指数 (CPI) 和失业率工夫序列

8.r 语言 k -shape 工夫序列聚类办法对股票价格工夫序列聚类

9. R 语言联合新冠疫情 COVID-19 股票价格预测:ARIMA,KNN 和神经网络工夫序列剖析

正文完
 0