共计 5279 个字符,预计需要花费 14 分钟才能阅读完成。
2023 年是大语言模型和稳固扩散的一年,工夫序列畛域尽管没有那么大的成就,然而却有迟缓而稳固的停顿。Neurips、ICML 和 AAAI 等会议都有 transformer 构造 (BasisFormer、Crossformer、Inverted transformer 和 Patch transformer) 的改良,还呈现了将数值工夫序列数据与文本和图像合成的新体系结构(CrossVIVIT),也呈现了间接利用于工夫序列的可能性的 LLM,以及新模式的工夫序列正则化 / 规范化技术(san)。
咱们这篇文章就来总结下 2023 年深度学习在工夫序列预测中的倒退和 2024 年将来方向剖析
Neurips 2023
在往年的 NIPs 上,有一些对于 transformer、归一化、平稳性和多模态学习的乏味的新论文。然而在工夫序列畛域没有任何重大突破,只有一些理论的,渐进的性能改良和乏味的概念证实。
1、Adaptive Normalization for Non-stationary Time Series
论文介绍了一种“模型不可知的归一化框架”来简化非安稳工夫序列数据的预测。作者让 SAN 分两步操作: 训练一个统计预测模型(通常是 ARIMA),而后训练理论的深度工夫序列根底模型(应用统计模型对 TS 数据进行切片、归一化和反归一化)。统计模型对输出工夫序列进行切片,以便学习更强壮的工夫序列示意并去除非安稳属性。作者指出:“通过对切片级个性进行建模,SAN 可能打消部分区域的非平稳性。”SAN 还显式地预测指标窗口的统计信息(标准差 / 平均值)。这使得它在解决非安稳数据时,与一般模型相比,可能更好地适应随工夫的变动。
采纳 transformer 模型作为根本预测模型,对典型的工夫序列预测基准 (如电力、替换、交通等) 进行指标验证。作者发现 SAN 在这些基准数据集上继续进步了根本模型的性能(只管他们没有测试 Inverted Transformer,因为这篇论文是在 Inverted Transformer 之前公布的)。
因为该模型联合了一个统计模型 (通常是 ARIMA) 和一个一般的 transformer,我认为调优和调试 (特地是在新的数据集上) 可能会很辣手和麻烦。因为简直所有的工夫序列模型都将序列输出长度作为超参数。另外就是“切片”的切片与一般的序列窗口有何不同? 作者还是没有说分明。总的来说,我认为这依然是一个相当弱小的奉献,因为它的试验后果和即插即用属性。
2、BasisFormer
BasisFormer 应用可学习和可解释的“basis”来改良个别的 transformer 体系结构。这里的“basis”指的是创立一个相似于 NBeats 的神经“basis”(例如,为基于多项式的函数学习趋势、季节性等的系数)。该模型分为三个局部: 根底模块、系数模块和预测模块。基模块试图以自监督的形式确定一组实用于历史和将来工夫序列数据的数据根底趋势。basis 模块通过比照学习和一个名为 InfoNCE loss 的特定损失函数(该函数试图学习将来和过来工夫序列之间的分割)。coef 模型试图“模仿工夫序列和一组根底趋势之间的相似性”。对于 coef 模型,作者应用了一个穿插注意力模块,该模块将 basis 和工夫序列作为输出。而后将输入输出到蕴含多个 MLP 的预测模块中。
作者在典型的工夫序列预测数据集 (ETH1, ETH, weather, exchange) 上评估他们的论文。发现 BasisFormer 比其余模型 (Fedformer、Informer 等) 的性能进步了 11-15%。BasisFormer 还没有被拿来和 Inverted Transformer 比拟,因为它还没有公布。仿佛 Inverted Transformer 和可能的 Crossformer 可能会略优于 BasisFormer。
还记的去年咱们看到了“Are Transformers Effective for Time Series Forecasting?”这篇论文批评了许多 Transformers 模型,并展现了一个简略的模型“D-Linear”如何超过它们。在 2023 年从 BasisFromer 开始,曾经开始迟缓的解决这些问题,并超过下面提到的基准模型。
这篇论文模型的技术是牢靠的,但这篇论文长处难了解。因为作者介绍了学习“basis”的概念,但并没有真正解释这种办法的新颖性以及它与其余模型的不同之处。
3、Improving day-ahead Solar Irradiance Time Series Forecasting by Leveraging Spatio-Temporal Context
论文提出了一种基于混合 (视觉和工夫序列) 深度学习的架构,用于预测第二天的太阳能产量。太阳能的生产常常受到云层笼罩的影响,这在卫星图像数据中能够看到,但在数值数据中没有很好地体现进去。除了模型自身外,论文的另外奉献是钻研人员构建并开源的多模态卫星图像数据集。作者形容了一个多级 Transformers 架构,同时关注数值工夫序列和图像数据。工夫序列数据通过工夫 Transformers 图像通过视觉 Transformers。而后,穿插注意力模块将前两个模块的图像数据综合起来。最初数据进入一个输入预测的最终时态 Transformers。
作者在论文中提到的另一个有用的想法被称为 ROPE 或旋转地位编码。这将在编码 / 地位嵌入中创立坐标对。这是用来形容从云层到太阳能站的间隔。
作者对他们的新数据集进行评估和基准测试,比拟了 Informer、Reformer、Crossformer 和其余深度工夫序列模型的性能。作者还在整合图像数据方面辨别了艰难和容易的工作,他们的办法优于其余模型。
这篇论文提供了一个乏味的框架,ROPE 的概念也很乏味,对于任何应用坐标模式的天文数据的人都有潜在的帮忙。数据集自身对于多模态预测的继续工作十分有用,这是一项十分无益的奉献。
4、Large Language Models Are Zero-Shot Time Series Forecasters
这篇论文探讨了预训练的 llm 是否间接以整数模式输出工夫序列数据,并以零样本的形式预测将来数据。作者形容了应用 GPT- 3 和 GPT- 4 和开源 LLMs 不进一步批改构造间接与工夫序列值交互的状况。最初还形容了他们对模型零样本训练行为起源的思考。作者假如,这种行为是提取常识的预训练的广泛通用性的后果。
在下面提到的规范工夫序列基准数据集评估他们的模型。尽管模型没有达到 SOTA 性能,但思考到它齐全是零样本并且没有额定的微调,所以体现还是很好的。
llm 能够开箱即用地进行 TS 预测,因为它们都是在文本数据上训练的。这一畛域可能值得将来进一步摸索,这篇论文是一个很好的一步。然而该模型目前只能解决单变量工夫序列
ICML、ICLR 2023
除了 Neurips 之外,ICML 和 ICLR 2023 还重点介绍了几篇对于工夫序列预测 / 剖析的深度学习的论文。以下是一些我感觉很乏味的,并且对将来一年仍有意义的倡议:
1、Crossformer
该模型是专门为多元工夫序列预测 (MTS) 开发的。该模型采纳维度分段嵌入 (DSW) 机制。DSW 嵌入与传统嵌入的不同之处在于它采纳二维格局的数据。并且跨变量和工夫维度显式地从 MTS 数据生成段。
该模型在规范 MTS 数据集 (ETH, exchange 等) 上进行了评估:在公布时时优于大多数其余模型,例如 Informer 和 DLinear。作者还对 dSW 进行了融化钻研。
这篇来自 ICLR 的对于的论文在预测河流流量时体现不错,然而是在一次预测多个指标时,性能仿佛会降落很多。也就是说,它的体现必定比 Informer 和相干的 Transformers 模型要好。
2、Learning Perturbations to Explain Time Series Predictions
大多数用于深度学习解释的扰动技术都是面向静态数据 (图像和文本) 的。然而对于工夫序列特地是多元 TS 须要更大范畴的扰动来学习随机影响。作者提出了一种基于深度学习的办法,能够学习数据的掩码和相干的扰动,更好地解释特色的重要性。而后将掩码和扰动的输出传递给模型,并将输入与未扰动数据的输入进行比拟。据两个输入之间的差值计算损失。
越来越多的钻研人员正在深入研究解释深度学习模型这是件坏事。本文概述了现有的办法及其有余,并提出了一种改良的办法。我认为应用额定的神经网络来学习扰动的想法减少了不必要的复杂性, 因为每当咱们减少更多的层和额定的网络时,就会减少产生问题的概率,特地是在曾经很大的网络上。别忘了奥卡姆剃刀定律 如无必要,勿增实体
3、Learning Deep Time Index Models
本文通过光流和元学习来探讨预测,形容了学习如何预测非安稳工夫序列。对于那些不相熟的人来说,元学习通常被利用在计算机视觉数据集上,像 MAML 这样的论文能够对新的图像类进行大量的学习。MAML 和其余模型都有一个外部循环和一个内部循环,其中内部循环教模型如何学习,外部循环对其进行微调以适应特定的工作。论文的作者采纳了这一思维,并将其利用于简直将每个非平稳性视为一个新的学习工作。新的“工作”是长时间序列序列的块。
作者在 ETH,temperature 和 exchange 数据集上测试了他们的模型。只管他们的模型没有达到 SOTA 的后果,但它与以后的 SOTA 体系结构具备竞争力。
这篇论文为工夫序列预测提供了一个乏味的角度,绝对于惯例办法有了一个新的冲破,我想就是他尽管没有超过 SOTA 然而还是被录用的起因之一吧。
4、Inverted Transformers are Effective for Time Series Forecasting
《Inverted Transformers》是 2024 年发表的一篇论文。这也是目前工夫序列预测数据集上的 SOTA。基本上,Inverted Transformers 采纳工夫序列的 Transformers 架构并进行了翻转。整个工夫序列序列用于创立令牌。而后,工夫序列彼此独立进行嵌入示意。注意力对多个工夫序列嵌入进行操作。它有点相似于 Crossformer,但它的不同之处在于,它遵循规范 Transformers 架构。
作者在规范工夫序列数据集上评估模型目前优于所有其余模型,包含 Informer, Reformer, Crossformer 等。
这是一篇弱小的论文,因为模型的体现优于现有的模型。然而在某些状况下,它优于模型的数值并不是那么显著。所以能够优先看看这篇论文并且进行测试。
TimeGPT
最初说说 TimeGPT,它没有在任何次要会议上被承受,而且它的评估办法也长处可疑,因为它可怜地在互联网上取得了相当多的介绍,所以咱们要再提一下:
1、作者没有将他们的后果与其余 SOTA 类型模型进行比拟,只是援用“测试集包含来自多个畛域的 30 多万个工夫序列,包含金融、网络流量、物联网、天气、需要和电力。”并且没有提供测试集的链接,也没有在他们的论文中阐明这些数据集是什么。
2、论文中架构图和模型体系结构的形容十分蹩脚。这看起来就像是作者复制了其余论文的图表,强加上注意力的定义和 LLM 相干的风行词汇。
3、作者的 Nixtla 公司十分小,可能是一家小型初创公司,它是否有足够的计算资源来齐全训练一个“胜利的工夫序列根底模型”。尽管这样说法长处歧视,然而如果我说我一个人用一周训练了一个 LLM,那预计都没人置信,对吧。
OpenAI、谷歌、亚马逊、Meta 等公司提供足够的计算资源来创立宏大的模型。如果 TimeGPT 真的是一个简略的 Transformers 模型,并在大量的工夫序列数据上训练它,为什么其余机构,甚至集体不能用它的大量 gpu 做到这一点呢? 答案是,事件必定没那么简略。
工夫序列创立“根底模型”的能力目前还不够欠缺。多元工夫序列预测的一个重要组成部分是学习协变量之间的依赖关系。MTS 的维度在不同的数据集之间差别很大。对于具备文本数据的 Transformers,咱们总是将一个单词映射到一个数字 id,而后创立一个特定维度的嵌入。
对于 MTS,不仅值能够更改,而且在一个数据集上可能有 100 个变量,而在另一个数据集上只有 10 个变量。这使得简直不可能设计所有用处的映射层来将不同大小的 MTS 数据集映射到公共嵌入维度。所以还记得咱们前几天发的 Lag-Llama,也只是单变量的预测。
在其余工夫序列 (即便是那些具备雷同数量变量的工夫序列) 上预训模型不会产生改良的后果(至多在以后架构下不会)。
总结及将来方向剖析
在 2023 年,咱们看到了 Transformers 在工夫序列预测中的一些继续改良,以及 llm 和多模态学习的新办法。随着 2024 年的停顿,咱们将持续看到在工夫序列中应用 Transformers 架构的提高和改良。可能会看到在多模态工夫序列预测和分类畛域的进一步倒退。
https://avoid.overfit.cn/post/be97dafdc9e64c1ca7da873ab13c0923
作者:Isaac Godfried