工夫序列预测的 transformers 的衰败和工夫序列嵌入办法的衰亡,还有异样检测、分类也获得了提高
2022 年整个畛域在几个不同的方面获得了停顿,本文将尝试介绍一些在过来一年左右的工夫里呈现的更有前景和要害的论文,以及 Flow Forecast [FF]预测框架。
工夫序列预测
1、Are Transformers Really Effective for Time Series Forecasting?
https://arxiv.org/pdf/2205.13…
Transformer 相干钻研比照 Autoformer、Pyraformer、Fedformer 等,它们的成果和问题
随着 Autoformer (Neurips 2021)、Pyraformer (ICLR 2022)、Fedformer (ICML 2022)、EarthFormer (Neurips 2022) 和 Non-Stationary Transformer (Neurips) 等模型的呈现,工夫序列预测架构的 Transformer 系列一直倒退壮)。然而这些模型精确预测数据并优于现有办法的能力依然存在疑难,特地是依据新钻研(咱们将在稍后探讨)。
Autoformer:扩大并改良了 Informer 模型的性能。Autoformer 具备主动关联机制,使模型可能比规范注意力更好地学习工夫依赖性。它旨在精确合成时态数据的趋势和节令成分。
Pyraformer:作者介绍了“金字塔留神模块 (PAM),其中尺度间树结构总结了不同分辨率下的特色,尺度内相邻连贯对不同范畴的工夫依赖性进行建模。”
Fedformer:该模型侧重于在工夫序列数据中捕获寰球趋势。作者提出了一个季节性趋势合成模块,旨在捕获工夫序列的全局特色。
Earthformer: 可能是这些论文中最独特的一个,它特地专一于预测地球零碎,如天气、气象和农业等。介绍了一种新的 cuboid 注意力架构。这篇论文应该是后劲微小的望,因为在河流和暴洪预测方面的钻研,许多经典的 Transformer 都失败了。
Non-Stationary Transformer:这是应用 transformer 用于预测的最新论文。作者旨在更好地调整 Transformer 以解决非安稳工夫序列。他们采纳两种机制:去安稳留神里和一系列安稳化机制。这些机制能够插入到任何现有的 Transformer 模型中,作者测试将它们插入 Informer、Autoformer 和传统的 Transformer 中,都能够进步性能(在附录中,还表明它能够进步 Fedformer 的性能)。
论文的评估办法:与 Informer 相似,所有这些模型(Earthformer 除外)都在电力、交通、金融和天气数据集上进行了评估。次要依据均方误差 (MSE) 和均匀绝对误差 (MAE) 指标进行评估:
这篇论文很好,然而它只比照了 Transformer 相干的论文,其实应该与更简略的办法进行比拟,比方简略的线性回归、LSTM/GRU、甚至是 XGB 等树形模型。另外就是它们应该不仅仅局限在一些规范数据集,因为我在其余工夫序列相干数据集上没有看到很好的体现。比如说 informer 精确预测河流流量方面遇到了微小的问题,与 LSTM 或甚至是一般的 Transformer 相比,它的体现通常很差。
另外就是因为与计算机视觉不同,图像维度至多放弃不变,工夫序列数据在长度、周期性、趋势和季节性方面可能存在微小差别,因而须要更大范畴的数据集。
在 OpenReview 的 Non-Stationary Transformer 的评论中,一位评论者也表白了这些问题,但它在最终的元评论中被否决了:
“因为该模型属于 Transformer 畛域,而且 Transformer 之前曾经在许多工作中体现出了最先进的程度,我认为没有必要与其余‘家族’办法进行比拟。”
这是一个十分有问题的论点,并导致钻研在事实世界中不足适用性。就像咱们所认知的:XGB 在表格数据的压倒性劣势还没有扭转,Transformer 的闭门造车又有什么意义?每次都超过,每次都被吊打。
作为一个在实践中器重最先进的办法和翻新模型的人,当我花了几个月的工夫试图让一个所谓的“好”模型工作时,然而最初却发现,他的体现还不如简略的线性回归,那这几个月有什么意思?这个所谓的好”模型又有什么意义。
所有的 transformer 论文都同样存在无限评估的问题。咱们应该从一开始就要求更严格的比拟和对毛病的明确阐明。一个简单的模型最后可能并不总是优于简略模型,但须要在论文中明确指出这一点,而不是覆盖或简略地假如没有这种状况。
然而这篇论文还是很好的,比方 Earthformer 在 MovingMNIST 数据集和 N -body MNIST 数据集上进行了评估,作者用它来验证 cuboid 注意力的有效性,评估了它的降水量即时预报和厄尔尼诺周期预报。我认为这是一个很好的例子,将物理常识整合到具备注意力的模型架构中,而后设计出好的测试。
2、Are Transformers Effective for Time Series Forecasting (2022)?
https://arxiv.org/pdf/2205.13…
这篇论文探讨了 Transformer 预测数据与基线办法的能力。后果在某种程度上再次证实了 Transformers 的性能通常比更简略的模型差,而且难以调整。这篇论文中的几个乏味的观点:
- 用根本的线性层替换自注意力并发现:“Informer 的性能随着逐步简化而增长,表明至多对于现有的 LTSF 基准来说,自注意力计划和其余简单模块是不必要的”
- 考察了减少回溯窗口(look-back window)是否会进步 Transformer 的性能并发现:“SOTA Transformers 的性能略有降落,表明这些模型仅从相邻的工夫序列序列中捕捉类似的工夫信息。”
- 探讨了地位嵌入是否真的能很好地捕获工夫序列的工夫程序。通过将输出序列随机混洗到 Transformer 中来做到这一点。他们在几个数据集上发现这种改选并没有影响后果(这个编码很麻烦)。
在过来的几年里,Transformer 模型的无数次工夫序列试验在绝大多数状况下后果都不太现实。在很长一段时间里,咱们都认为肯定是做错了什么,或者脱漏了一些小的实现细节。所有这些都被认为是下一个 SOTA 模型的思路。然而这个论文却有统一的思路就是? 如果一个简略的模型胜过 Transformer,咱们应该持续应用它们吗? 是所有的 Transformer 都有固有的缺点,还是只是以后的机制? 咱们是否应该回到 lstm、gru 或简略的前馈模型这样的架构? 这些问题我都不晓得答案,然而这篇论文的整体影响还有待察看。到目前为止,我认为答案可能是退一步,专一于学习无效的工夫序列示意。毕竟最后 BERT 在 NLP 环境中胜利地造成了良好的示意。
也就是说,我不认为咱们应该把工夫序列的 Transformer 视为齐全死亡。Fedformer 的体现十分靠近简略模型,并且在各种融化打乱工作中体现更好。尽管的基准在很多状况下都难以进行预测,但他们对数据的外部示意却相当不错。我认为还须要进一步理解外部示意和理论预测输入之间的脱节。另外就是正如作者所倡议的那样,改良地位嵌入能够在进步整体性能方面施展关键作用。最初有一个 Transformer 的模型,在各种异样检测数据集上体现十分好,上面就会介绍。
3、Anomaly Transformer (ICLR Spolight 2022)
https://arxiv.org/abs/2110.02642
相当多的钻研都集中在将 transformers 利用于预测,然而异样检测的钻研绝对较少。这篇介绍了一种(无监督)Transformer 来检测异样。该模型联合应用特地构建的异样留神机制和 minmax 策略。
本文在五个真实世界的数据集上评估了模型的性能,包含 Server Machine Dataset, Pooled Server Metrics, Soil Moisture Active Passive 和 NeurIPS-TS(它自身由五个不同的数据集组成)。尽管有人可能会对这个模型持狐疑态度,特地是对于第二篇论文的观点,但这个评估是相当严格的。Neurips-TS 是一个最近创立的,专门用于提供更严格的异样检测模型评估的数据集。与更简略的异样检测模型相比,该模型仿佛的确进步了性能。
作者提出了一种独特的无监督 Transformer,它在过多的异样检测数据集上体现良好。这是过来几年工夫序列 Transformer 畛域最有前途的论文之一。因为预测比分类甚至异样检测更具挑战性,因为你试图预测将来多个工夫步骤的微小可能值范畴。这么多的钻研都集中在预测上,而疏忽了分类或异样检测,对于 Transformer 咱们是不是应该从简略的开始呢?
4、WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting (Neurips 2022):
https://openreview.net/forum?…
论文介绍了一种新的正则化模式,能够改良深度工夫序列预测模型(特地是上述 transformers)的训练。
作者通过将其插入现有的 transformer + LSTNet 模型来评估。他们发现它在大多数状况下显着进步了性能。只管他们只测试了 Autoformer 模型,而没有测试 Fedformer 这样的更新模型。
新模式的正则化或损失函数总是有用的,因为它们通常能够插入任何现有的工夫序列模型中。如果你 Fedformer + 非安稳机制 + Wavebound 联合起来,你可能会在性能上击败简略的线性回归 :)。
工夫序列示意
尽管 Transformer 再预测方向上的成果并不好,但在创立有用的工夫序列示意方面 Transformer 还是获得了许多停顿。我认为这是工夫序列深度学习畛域中一个令人印象粗浅的新畛域,应该进行更深刻的摸索。
5、TS2Vec: Towards Universal Representation of Time Series (AAAI 2022)
https://arxiv.org/abs/2106.10466
TS2Vec 是一个学习工夫序列示意 / 嵌入的通用框架。这篇论文自身曾经有些过期了,但它的确开始了工夫序列示意学习论文的趋势。
对应用示意进行预测和异样检测进行评估,该模型优于许多模型,例如 Informer 和 Log Transformer。
6、Learning Latent Seasonal-Trend Representations for Time Series Forecasting(Neurips 2022)
https://openreview.net/forum?…
作者创立了一个模型(LAST),应用变分推理创立季节性和趋势的拆散示意。
作者对他们的模型进行了上游预测工作的评估,他们通过在示意上增加一个预测器 (见上图中的 B) 来做到这一点。它们还提供了乏味的图来显示示意的可视化。该模型在几个预测工作以及 TS2Vec 和老本方面都优于 Autoformer。在一些预测工作上,它看起来也可能比下面提到的简略线性回归体现更好。
只管我依然对那些只评估规范预测工作的模型持狐疑态度,但这个模型确实很亮眼,因为它关注的是表征而不是预测工作自身。如果咱们看一下论文中展现的一些图表,能够看到模型仿佛的确学会了辨别季节性和趋势。不同数据集的可视化示意也嵌入到雷同的空间中,如果它们显示出实质性的差别,那将是很乏味的。
7、CoST: Contrastive Learning of Disentangled Seasonal-Trend Representations for Time Series Forecasting (ICLR 2022)
https://openreview.net/forum?…
这是 2022 年早些时候在 ICLR 上发表的一篇论文,在学习节令和趋势示意方面与 LaST 十分类似。因为 LaST 在很大水平上曾经取代了它的性能,这里就不做过多的形容了。但链接在下面供那些想要浏览的人浏览。
其余乏味的论文
8、Domain Adaptation for Time Series Forecasting via Attention Sharing(ICML 2022)
https://arxiv.org/abs/2102.06828
当不足训练数据时,预测对 DNN 来说是一项挑战。这篇论文对具备丰盛数据的畛域应用共享注意力层,而后对指标畛域应用独自的模块。
它所提出的模型应用合成数据集和实在数据集进行评估。在合成环境中,测试了冷启动学习和少样本学习,发现他们的模型优于一般 Transformer 和 DeepAR。对于实在数据集采纳了 Kaggle 批发数据集,该模型在这些试验中大大优于基线。
冷启动、少样本和无限学习是极其重要的主题,但很少有论文波及工夫序列。该模型为解决其中一些问题提供了重要的一步。也就是说他们能够在更多不同的无限事实世界数据集上进行评估,并与更多基准模型进行比拟,微调或正则化的益处在于能够对任何架构进行调整。
9、When to Intervene: Learning Optimal Intervention Policies for Critical Events (Neurips 2022)
https://openreview.net/pdf?id…
尽管这不是一篇“典型的”工夫序列论文,但我抉择将其列入这个列表,因为本文的重点是在机器产生故障之前找到进行干涉的最佳工夫。这被称为 OTI 或最佳工夫干涉
评估 OTI 的问题之一是潜在生存剖析的准确性(如果不正确,评估也会不正确)。作者依据两个动态阈值评估了他们的模型,发现它体现得很好,并且绘制了不同政策的预期体现和命中与失败的比率。
这是一个乏味的问题,作者提出了一个新鲜的解决方案,Openreview 的一位评论者指出:“如果有一个图表显示失败概率和预期干涉工夫之间的衡量,那么试验可能会更有说服力,这样人们就能够直观地看到这个衡量曲线的形态。”
上面还有一些相干论文,如果你有趣味能够看看
10、FiLM: Frequency improved Legendre Memory Model for Long-term Time Series Forecasting (Neurips 2022)
https://openreview.net/forum?…
11、Adjusting for Autocorrelated Errors in Neural Networks for Time Series (Neurips 2021)
12、Dynamic Sparse Network for Time Series Classification: Learning What to“See”(Neurips 2022)
https://openreview.net/forum?…
最近的数据集 / 基准
最初就是数据集的测试的基准
Monash Time Series Forecasting Archive (Neurips 2021):该存档旨在造成不同工夫序列数据集的“主列表”,并提供更权威的基准。该存储库蕴含 20 多个不同的数据集,涵盖多个行业,包含衰弱、批发、拼车、人口统计等等。
https://forecastingdata.org/
Subseasonal Forecasting Microsoft (2021):这是 Microsoft 公开公布的数据集,旨在促成应用机器学习来改良次节令预测(例如将来两到六周)。次节令预报有助于政府机构更好地为天气事件和农民的决定做筹备。微软为该工作蕴含了几个基准模型,与其余办法相比,一般来说深度学习模型的体现相当差。最好的 DL 模型是一个简略的前馈模型,而 Informer 的体现十分蹩脚。
https://www.microsoft.com/en-…
Revisiting Time Series Outlier Detection:本文评述了许多现有的异样 / 异样值检测数据集,并提出了 35 个新的合成数据集和 4 个真实世界数据集用于基准测试。
https://openreview.net/forum?…
开源的时序预测框架 FF
Flow Forecast 是一个开源的时序预测框架,它蕴含了以下模型:
Vanilla LSTM (LSTM)、SimpleTransformer、Multi-Head Attention、Transformer with a linear decoder、DARNN、Transformer XL、Informer、DeepAR、DSANet、SimpleLinearModel 等等
这是一个学习应用深度学习进行工夫预测的很好的模型代码起源,有趣味的能够看看。
https://github.com/AIStream-P…
总结
在过来的两年里,咱们曾经看到了 Transformer 在工夫序列预测中的衰亡和可能的衰败和工夫序列嵌入办法的衰亡,以及异样检测和分类方面的额定冲破。
然而对于深度学习的工夫序列来说:可解释性、可视化和基准测试方法还是有所欠缺,因为模型在哪里执行,在哪里呈现性能故障是十分重要的。此外,更多模式的正则化、预处理和迁徙学习来进步性能可能会在将来中呈现。
兴许 Transformer 对工夫序列预测有益处(兴许不是),就像 VIT 那样如果没有 Patch 的呈现 Transformer 可能还会被认为不行,咱们也将持续关注 Transformer 在工夫序列的倒退或者代替。
[https://avoid.overfit.cn/post…
](https://avoid.overfit.cn/post…)
作者:Isaac Godfried